根据新获得的数据或信息(证据),对事件发生的概率进行更新。

贝叶斯公式如下,其中:

  • :事件 先验概率
  • :事件 后验概率
  • 后验概率的计算融合了先验概率的值

公式:

解释:

  • 事件 可理解为证据

  • 事件 可理解为待推理的事件

  • 后验概率 :在已知 发生的情况下,对 发生的可能性进行重新估计

  • Prior probability :在未获得任何证据前,对事件 发生的原始判断

  • Likelihood :通过求最大值来推理 A 的参数分布的函数

  • Evidence probability :在所有可能情况下,观察到 的概率

  • Posterior probability :结合证据 后,对 发生概率的更新估计

  • :目标事件(如“得病”)

  • :观测到的事件(如“测试为阳性”)

  • :先验概率,即没做测试前得病的概率

  • :在得病的前提下,测试为阳性的概率(即测试的灵敏度)

  • :在未得病的前提下,测试为阳性的概率(即误报率)

  • :未得病的概率

  • :在测试阳性的前提下,实际得病的概率(就是我们想求的)

概念含义
Prior在看到新信息之前,你对某件事的原始概率估计(例如“邮件是垃圾邮件的概率”)
Event新观察到的证据或条件(例如“这封邮件包含 lottery”)
Posterior在观察到新信息后,更新后的概率(例如“给定包含 lottery 的邮件是垃圾邮件的概率”)

Bayesian Statistics - Full Worked Example

1. 问题设定

  • 抛硬币 10 次,得到 次正面、 次反面。
  • 我们要推断硬币正面概率 的分布。

2. 模型

  • 单次抛硬币服从伯努利分布:
  • 10 次独立抛掷的似然:

3. 先验

  • 如果没有任何偏好,选用 均匀先验

4. 后验

  • 根据贝叶斯定理:
  • 带入:
  • 这个分布就是 Beta 分布

5. MAP 与 MLE

  • MAP = 最大后验点
  • 由于先验是均匀分布(无信息),MAP 结果和 MLE 一样:

6. 更新过程(数据分块)

  • 如果再抛 10 次,得到 反:
    • 新似然:
    • 上一次的后验 作为新先验
    • 更新后得到新的后验:
  • MAP:

7. 关键结论

  • 贝叶斯更新规则:后验变成新先验,逐步迭代。
  • 数据分块 or 一次性使用 → 结果一样。
  • 当数据量大时,先验影响被“稀释”,MAP ≈ MLE。
  • 当数据少时,先验影响大。

总结

  • 贝叶斯适合小数据量或有强先验知识的情况。
  • 频率学派适合大数据、无先验知识场景。

应用

Naive Bayes

病例:

1️⃣ 场景设定

  • 人群规模:
  • 患病率:每 10,000 人 1 人患病 →
  • 检测准确率:99%
    • 真阳性率(敏感性):
    • 假阳性率:

2️⃣ 人群分布

  • 病人:100 人
  • 健康人:999,900 人

检测结果:

  1. 病 & 测阳(真阳性):
  2. 病 & 测阴(假阴性):
  3. 健康 & 测阳(假阳性):
  4. 健康 & 测阴(真阴性):

3️⃣ 关键问题

已知测阳,求真实患病概率

符合条件的人:

  • 病 & 测阳:
  • 健康 & 测阳:

4️⃣ 直觉解释

  • 虽然测试准确率很高(99%),但基数效应导致假阳性人数远多于真阳性。
  • 低患病率 + 非零假阳性率 → 测阳的人中大多数其实是健康的。

5️⃣ 贝叶斯公式对应

这里:

  • : 患病
  • : 测阳
  • 代入:

Updating Priors

根据得到的结果重算先验,不停得到新的后验再重算,这个过程是Markov Chain

Prior & Posterior


1. 先验 (Prior)

  • 定义:在看到数据之前,对参数 的主观信念或假设。

  • 符号

  • 来源:可以来自经验、领域知识,或设定一个“无信息先验”(比如均匀分布)。

  • 作用:作为贝叶斯公式的起点,代表我们对未知参数的“初始假设”。


2. 后验 (Posterior)

  • 定义:在看到数据之后,更新过的参数分布。

  • 符号

  • 来源:通过贝叶斯公式,把先验和数据结合起来。

  • 作用:体现了“新的信念”,已经考虑了观测证据。