MAP 估计是基于 Bayes Theorem 的参数估计方法,在看到数据 后,找到参数 的后验分布 众数(mode),“最大概率的点”就是 后验分布的众数

根据贝叶斯公式:

因为 无关,所以 MAP 等价于:


与 MLE 的关系

  • MLE(最大似然估计)

    → 只看数据(似然),不考虑先验。

  • MAP(最大后验估计)

    → 同时考虑数据(似然)和先验知识。


直观理解

  • MLE:谁能最好地解释现有数据,就选谁。
  • MAP:谁能最好地解释现有数据,同时又符合我们对世界的先验认知,就选谁。

举例

  • 数据:看到地上有爆米花
  • MLE:认为最可能是「爆米花比赛」,因为这种场景最容易产生爆米花。
  • MAP:会认为「看电影」更合理,因为虽然比赛解释力更强,但它发生的先验概率极低。

与正则化的关系

在机器学习中,MAP 常常对应 正则化

  • 在线性回归中,加上 L2 正则化 相当于假设参数服从 高斯先验
  • 所以可以把 MAP 看作 “MLE + 先验约束”。如果先验是均匀分布,MAP = MLE。
  • MAP = argmax Posterior(最大化后验)。
  • MLE = argmax Likelihood(最大化似然)。