朴素贝叶斯(Naive Bayes)是一类基于贝叶斯定理的概率分类模型,因其假设特征之间条件独立,被称为“朴素”。它被广泛用于文本分类(如垃圾邮件识别、情感分析、新闻分类)、医学诊断等任务。

Naive Bayes 的核心:用词语在类别中出现的概率组合起来估计整体概率

1. 问题背景

我们想要判断一封邮件是否为垃圾邮件(Spam),初始有:

  • Prior = 邮件为垃圾邮件的初始概率
  • Event:如邮件包含 “lottery”、“winning”
  • Posterior = 在已知事件的前提下的更新概率

2. 单词组合下的贝叶斯推导

对一个词(如 “lottery”):

对多个词(如 “lottery” 和 “winning”):

问题:实际中很少有邮件同时包含所有词 → 训练集中概率为 0(除法出错)。


3. Naive Bayes:朴素独立假设

在给定类别的前提下,假设各词 条件独立

所以:

推广到 个词:

最终后验:


4. 示例计算

数据如下:

条件频率/概率

应用公式:


✅ 结论

  • 含有 “lottery” 和 “winning” 的邮件为垃圾邮件的概率为 91.3%
  • Naive Bayes 通过简化的乘积模型,有效利用多个特征的组合信息
  • 即使“词语独立”的假设不成立,实际分类效果也常常非常好

📚 Naive Bayes 的优势

  • 训练速度快、实现简单
  • 对高维文本特征尤其有效
  • 可扩展至任意词汇维度,避免 0 概率问题