最大似然估计(MLE)是一种通过使观测数据在模型参数下的概率最大,来估计参数的方法。

从所有可能的参数 中,挑出一个让“观测到这些数据”的概率最大的那个,作为我们的参数估计值。本质是求起因到底是什么,选取最可能生成观测数据的参数/模型。

  • 我们观测到一些证据(数据)。
  • 在所有可能的“场景/模型”中,选择 最有可能生成这些证据 的那个。

公式为:

    • 读作「在参数 给定的情况下,观测到这些数据的概率」

    • 这就是 似然(Likelihood) 的定义,只不过在 MLE 里它是作为关于参数 的函数来用的。

    • 表示「找到能让这个概率值最大的那个

    • 这里不是取概率的最大值,而是取让它达到最大值的参数。

特例:假设误差服从高斯

直接用Log Loss,不需要以概率角度理解

  • 回归模型:

其中:

  • 是模型的确定性部分(线性预测)

  • 是随机噪声(误差项)

  • 假设噪声 ,则生成该点的似然为:

  • 全部样本独立,联合似然为:

  • 取对数似然:

  • 最大化 等价于最小化:

  • 这正是最小二乘法 (Least Squares Optimization Problem)。


4. 结论

  • 在线性回归中:
    • 最大似然估计 (MLE) → 最大化生成概率;
    • 最小二乘法 (OLS) → 最小化平方误差;
  • MLE:只看「证据在假设下的可能性」(谁更能解释数据)。
  • MAP / Bayes:还要考虑「假设本身是否合理」(先验概率)。
  • 二者数学上完全等价。

如果加上Regularization,即先验信息 ,称为Maximum A Posteriori Estimation, MAP