朴素贝叶斯(Naive Bayes)是一类基于贝叶斯定理的概率分类模型,因其假设特征之间条件独立,被称为“朴素”。它被广泛用于文本分类(如垃圾邮件识别、情感分析、新闻分类)、医学诊断等任务。
Naive Bayes 的核心:用词语在类别中出现的概率组合起来估计整体概率
1. 问题背景
我们想要判断一封邮件是否为垃圾邮件(Spam),初始有:
- Prior: = 邮件为垃圾邮件的初始概率
- Event:如邮件包含 “lottery”、“winning”
- Posterior: = 在已知事件的前提下的更新概率
2. 单词组合下的贝叶斯推导
对一个词(如 “lottery”):
对多个词(如 “lottery” 和 “winning”):
问题:实际中很少有邮件同时包含所有词 → 训练集中概率为 0(除法出错)。
3. Naive Bayes:朴素独立假设
在给定类别的前提下,假设各词 条件独立。
所以:
推广到 个词:
最终后验:
4. 示例计算
数据如下:
条件 | 频率/概率 |
---|---|
应用公式:
✅ 结论
- 含有 “lottery” 和 “winning” 的邮件为垃圾邮件的概率为 91.3%
- Naive Bayes 通过简化的乘积模型,有效利用多个特征的组合信息
- 即使“词语独立”的假设不成立,实际分类效果也常常非常好
📚 Naive Bayes 的优势
- 训练速度快、实现简单
- 对高维文本特征尤其有效
- 可扩展至任意词汇维度,避免 0 概率问题