Naive Bayes

朴素贝叶斯（Naive Bayes）是一类基于贝叶斯定理的概率分类模型，因其假设特征之间条件独立，被称为“朴素”。它被广泛用于文本分类（如垃圾邮件识别、情感分析、新闻分类）、医学诊断等任务。

Naive Bayes 的核心：用词语在类别中出现的概率组合起来估计整体概率

1. 问题背景

我们想要判断一封邮件是否为垃圾邮件（Spam），初始有：

对一个词（如 “lottery”）：

P (Spam ∣ lottery) = \frac{P ( Spam ) \cdot P ( lottery ∣ Spam )}{P ( lottery )}

对多个词（如 “lottery” 和 “winning”）：

P (Spam ∣ lottery, winning) = \frac{P ( Spam ) \cdot P ( lottery , winning ∣ Spam )}{P ( lottery , winning )}

问题：实际中很少有邮件同时包含所有词 → 训练集中概率为 0（除法出错）。

在给定类别的前提下，假设各词 条件独立。

所以：

P (lottery, winning ∣ Spam) = P (lottery ∣ Spam) \cdot P (winning ∣ Spam)

推广到 $n$ 个词：

P (w_{1}, ..., w_{n} ∣ C) = i = 1 \prod n P (w_{i} ∣ C)

最终后验：

P (C ∣ w_{1}, ..., w_{n}) \propto P (C) \cdot i = 1 \prod n P (w_{i} ∣ C)

P (Spam ∣ lottery, winning) = \frac{0.2 \cdot 0.7 \cdot 0.75}{0.2 \cdot 0.7 \cdot 0.75 + 0.8 \cdot 0.125 \cdot 0.1} = \frac{0.105}{0.105 + 0.01} = \frac{0.105}{0.115} \approx 0.913