最大似然估计(MLE)是一种通过使观测数据在模型参数下的概率最大,来估计参数的方法。
从所有可能的参数 中,挑出一个让“观测到这些数据”的概率最大的那个,作为我们的参数估计值。本质是求起因到底是什么,选取最可能生成观测数据的参数/模型。
- 我们观测到一些证据(数据)。
- 在所有可能的“场景/模型”中,选择 最有可能生成这些证据 的那个。
公式为:
-
-
读作「在参数 给定的情况下,观测到这些数据的概率」
-
这就是 似然(Likelihood) 的定义,只不过在 MLE 里它是作为关于参数 的函数来用的。
-
-
-
表示「找到能让这个概率值最大的那个 」
-
这里不是取概率的最大值,而是取让它达到最大值的参数。
-
特例:假设误差服从高斯
直接用Log Loss,不需要以概率角度理解
- 回归模型:
其中:
-
是模型的确定性部分(线性预测)
-
是随机噪声(误差项)
-
假设噪声 ,则生成该点的似然为:
-
全部样本独立,联合似然为:
-
取对数似然:
-
最大化 等价于最小化:
-
这正是最小二乘法 (Least Squares Optimization Problem)。
4. 结论
- 在线性回归中:
- 最大似然估计 (MLE) → 最大化生成概率;
- 最小二乘法 (OLS) → 最小化平方误差;
- MLE:只看「证据在假设下的可能性」(谁更能解释数据)。
- MAP / Bayes:还要考虑「假设本身是否合理」(先验概率)。
- 二者数学上完全等价。
如果加上Regularization,即先验信息 ,称为Maximum A Posteriori Estimation, MAP