• Population:总体,想研究的全部对象,大小

  • Sample:样本,从总体中抽取的子集,大小

  • Population Mean:

  • Sample Mean:

  • Population Proportion:,某个特征出现的比例

  • Sample Proportion:

  • 总体方差公式:

    • :总体均值
    • :总体大小
  • 用样本均值 代替总体均值

  • 用样本容量 代替总体容量

  • 最直接的估计式:

  • 无偏样本方差公式

  • 这样得到的 的期望值正好等于总体方差

  • 常见约定:

    • 无偏估计(:最常用,尤其在统计推断中。
    • 有偏估计(:在最大似然估计 (MLE) 等特定场景会使用。
  • 总体方差:除以

  • 样本方差(常用公式):除以

  • 这样修正是为了抵消“样本均值代替总体均值”带来的低估偏差。

还是

其实背后是两套不同的“目标”和“推理方式”:


1. 总体方差(除以

  • 场景:你知道整个总体所有数据。
  • 目标:直接计算真实的离散程度。
  • 推理逻辑:没啥要估计的,直接“定义”就是

所以用


2. 样本方差

(1) 用 (有偏估计)

  • 场景:你手里只有样本,想用它来逼近总体方差。
  • 逻辑:最直观的想法是“照搬总体公式”,只不过把 换成 换成
  • 结果:平均下来会 低估 总体方差。
  • 优点:这个形式正好是Maximum Likelihood Estimation, MLE的解,在概率建模里常用。

(2) 用 (无偏估计)

  • 场景:统计推断(比如构造置信区间、假设检验)。
  • 逻辑:因为 本身就是用样本估计出来的,它已经“吃掉”了一次自由度,导致整体波动看起来比真实更小。
    • 换句话说: 个数据点中,有 1 个点的信息已经用来算均值了,剩下的只有 个真正独立的信息。
  • 修正方法:分母改成 ,刚好让期望值等于真实方差:
  • 优点:在平均意义下准确(无偏)。
  • 缺点:在某些应用里方差会显得稍大。

如果样本独立同分布(i.i.d.):

  • 想让样本均值逼近总体:Law of Large Numbers
    • 当样本量 时, 会越来越接近总体均值 (分布集中到一个点上)。
    • 均值有中心

用一个具体的数来估计参数:Point Estimation