贝叶斯定理:

贝叶斯理论指的是,根据一个已发生事件的概率,计算另一个事件的发生概率。贝叶斯理论从数学上的表示可以写成这样:,在这里A和B都是事件,P(B)P(B)不为0。

在贝叶斯定理中:

1. P(A) 称为”先验概率”,即在B事件发生之前,我们对A事件概率的一个判断。如:正常收到一封邮件,该邮件为垃圾邮件的概率就是“先验概率”
2. P(A|B)称为”后验概率”, 即在B事件发生之后,我们对A事件概率的重新评估。如:邮件中含有“中奖”这个词,该邮件为垃圾邮件的概率就是“后验概率”。

现在再考虑一下我们的数据集,我们可以这样用贝叶斯理论:

在这里y是类变量,X是依赖特征向量(大小为n):

朴素贝叶斯分类:

现在是时候为贝叶斯理论添加假设了,也就是每个特征之间都是相互独立的。所以我们可以将证据分成每个独立的部分。

如何两个事件A和B是相互独立的,那么有:

因此我们可以得到以下结果:

因为分母与输入数据是常量相关的,所以我们可以除去这一项:

现在我们需要建立一个分类模型,我们用已知的类变量yy的所有可能的值计算概率,并选择输出概率是最大的结果。数学表达式可以这么写:

所以最后剩下的只有P(y)P(y)与P(xi|y)P(xi|y)的计算了。

请注意:P(y)P(y)也被称为类概率,P(xi|y)P(xi|y)也被称为条件概率

不同的朴素贝叶斯分类器差异主要在P(xi|y)P(xi|y)分布的假设。

拉普拉斯修正:

需要注意的是,若某个属性值在训练集中没有与某个类同时出现过,则直接基于式(10)进行会直接使得样本判断为该类别的概率为0,这显然不合理。为避免其它属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值是可以使用拉普拉斯修正进行平滑,其具体做法为:

其中N表示类别总数,Ni表示所有样本第i个属性可能的取值数。拉普拉斯修正避免了训练样本不充分而导致概率估值为0的问题,且当训练集较大时,修正对概率的影响将趋于无。

例子:

现在在超市我正要买的一个苹果的特征如下:

问是好果还是一般的苹果,根据已有的数据集概率是多大?

先验概率 P(c) ,简化的求解方法:c类样本的个数除以所有样本个数,因此:

P(c=好果)= 4/10

P(c=一般) = 6/10

每个属性的类条件概率,可以初步这么求解:这个类别下的样本中对应这个属性的样本个数除以这个类别下的样本个数,因此:

P(大小=大 | c=好果) = 3/4

P(颜色=红色 | c=好果) = 4/4

P(形状=圆形 | c=好果) = 3/4

P(大小=大 | c=一般) = 3/6

P(颜色=红色 | c=一般) = 1/6

P(形状=圆形 | c=一般) = 2/6

因此:

P(c=好果) *P(大小=大 | c=好果)*P(颜色=红色 | c=好果) *P(形状=圆形 | c=好果)

=4/10 *3/4 *4/4 * 3/4

= 0.225

P(c=一般) *P(大小=大 | c=一般) *P(颜色=红色 | c=一般) *P(形状=圆形 | c=一般)

=6/10 *3/6 * 1/6 * 2/6

=0.0167

显然,0.225>0.0167所以:这个苹果为好果。

朴素贝叶斯实现垃圾邮件分类的步骤:
(1)收集数据:提供文本文件。

(2)准备数据:将文本文件解析成词条向量。

(3)分析数据:检查词条确保解析的正确性。

(4)训练算法:计算不同的独立特征的条件概率。

(5)测试算法:计算错误率。

(6)使用算法:构建一个完整的程序对一组文档进行分类。

代码实现:

数据集准备:

email文件夹下有两个文件夹ham和spam。ham文件夹下的txt文件为正常邮件;spam文件下的txt文件为垃圾邮件

整体代码:

# -*- coding: UTF-8 -*-import numpy as npimport reimport random#整理词汇表def createVocabList(dataSet):vocabSet = set([])# 创建一个空的不重复列表for document in dataSet:vocabSet = vocabSet | set(document)# 取并集return list(vocabSet)def setOfWords2Vec(vocabList, inputSet):returnVec = [0] * len(vocabList) #创建一个其中所含元素都为0的向量for word in inputSet:#遍历每个词条if word in vocabList:#如果词条存在于词汇表中,则置1returnVec[vocabList.index(word)] = 1else:print("the word: %s is not in my Vocabulary!" % word)return returnVec#返回文档向量 #构建词袋模型def bagOfWords2VecMN(vocabList, inputSet):returnVec = [0] * len(vocabList)# 创建一个其中所含元素都为0的向量for word in inputSet: # 遍历每个词条if word in vocabList: # 如果词条存在于词汇表中,则计数加一returnVec[vocabList.index(word)] += 1return returnVec# 返回词袋模型#朴素贝叶斯分类训练函数def trainNB0(trainMatrix, trainCategory):numTrainDocs = len(trainMatrix)# 计算训练的文档数目numWords = len(trainMatrix[0])# 计算每篇文档的词条数pAbusive = sum(trainCategory) / float(numTrainDocs)# 文档属于垃圾邮件类的概率p0Num = np.ones(numWords)p1Num = np.ones(numWords)# 创建numpy.ones数组,词条出现数初始化为1,拉普拉斯平滑p0Denom = 2.0p1Denom = 2.0# 分母初始化为2 ,拉普拉斯平滑for i in range(numTrainDocs):if trainCategory[i] == 1:# 统计属于侮辱类的条件概率所需的数据,即P(w0|1),P(w1|1),P(w2|1)···p1Num += trainMatrix[i]p1Denom += sum(trainMatrix[i])else:# 统计属于非侮辱类的条件概率所需的数据,即P(w0|0),P(w1|0),P(w2|0)···p0Num += trainMatrix[i]p0Denom += sum(trainMatrix[i])p1Vect = np.log(p1Num / p1Denom)p0Vect = np.log(p0Num / p0Denom) #取对数,防止下溢出return p0Vect, p1Vect, pAbusive# 返回属于正常邮件类的条件概率数组,属于侮辱垃圾邮件类的条件概率数组,文档属于垃圾邮件类的概率#朴素贝叶斯分类函数def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):p1=sum(vec2Classify*p1Vec)+np.log(pClass1)p0=sum(vec2Classify*p0Vec)+np.log(1.0-pClass1)if p1 > p0:return 1 #属于正常邮件类else:return 0 #属于垃圾邮件类#提取单词 def textParse(bigString):# 将字符串转换为字符列表listOfTokens = re.split(r'\W*', bigString)# 将特殊符号作为切分标志进行字符串切分,即非字母、非数字return [tok.lower() for tok in listOfTokens if len(tok) > 2]# 除了单个字母,例如大写的I,其它单词变成小写 #测试朴素贝叶斯分类器,使用朴素贝叶斯进行交叉验证def spamTest():docList = []classList = []fullText = []for i in range(1, 21):# 遍历20个txt文件wordList = textParse(open('email/spam/%d.txt' % i, 'r').read())# 读取每个垃圾邮件,并字符串转换成字符串列表docList.append(wordList)fullText.append(wordList)classList.append(1)# 标记垃圾邮件,1表示垃圾文件wordList = textParse(open('email/ham/%d.txt' % i, 'r').read())# 读取每个非垃圾邮件,并字符串转换成字符串列表docList.append(wordList)fullText.append(wordList)classList.append(0)# 标记正常邮件,0表示正常文件vocabList = createVocabList(docList)# 创建词汇表,不重复trainingSet = list(range(50))testSet = []# 创建存储训练集的索引值的列表和测试集的索引值的列表for i in range(10):# 从50个邮件中,随机挑选出40个作为训练集,10个做测试集randIndex = int(random.uniform(0, len(trainingSet)))# 随机选取索索引值testSet.append(trainingSet[randIndex])# 添加测试集的索引值del (trainingSet[randIndex])# 在训练集列表中删除添加到测试集的索引值trainMat = []trainClasses = []# 创建训练集矩阵和训练集类别标签系向量for docIndex in trainingSet:# 遍历训练集trainMat.append(setOfWords2Vec(vocabList, docList[docIndex]))# 将生成的词集模型添加到训练矩阵中trainClasses.append(classList[docIndex])# 将类别添加到训练集类别标签系向量中p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))# 训练朴素贝叶斯模型errorCount = 0# 错误分类计数for docIndex in testSet:# 遍历测试集wordVector = setOfWords2Vec(vocabList, docList[docIndex])# 测试集的词集模型if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:# 如果分类错误errorCount += 1# 错误计数加1print("分类错误的测试集:", docList[docIndex])print('错误率:%.2f%%' % (float(errorCount) / len(testSet) * 100))if __name__ == '__main__':spamTest()

实验结果:

总结:

朴素贝叶斯算法优缺点:

优点:在数据较少的情况下仍然有效,可以处理多类别问题

缺点:对于输入数据的准备方式较为敏感;由于朴素贝叶斯的“朴素”特点,所以会带来一些准确率上的损失

注意:使用拉普拉斯平滑解决零概率问题;

对乘积结果取自然对数避免下溢出问题,采用自然对数进行处理不会有任何损失。