-
Population:总体,想研究的全部对象,大小 。
-
Sample:样本,从总体中抽取的子集,大小 。
-
Population Mean:
-
Sample Mean:
-
Population Proportion:,某个特征出现的比例
-
Sample Proportion:
-
总体方差公式:
- :总体均值
- :总体大小
-
用样本均值 代替总体均值 。
-
用样本容量 代替总体容量 。
-
最直接的估计式:
-
无偏样本方差公式:
-
这样得到的 的期望值正好等于总体方差 。
-
常见约定:
- 无偏估计():最常用,尤其在统计推断中。
- 有偏估计():在最大似然估计 (MLE) 等特定场景会使用。
-
总体方差:除以
-
样本方差(常用公式):除以
-
这样修正是为了抵消“样本均值代替总体均值”带来的低估偏差。
用 还是 ?
其实背后是两套不同的“目标”和“推理方式”:
1. 总体方差(除以 )
- 场景:你知道整个总体所有数据。
- 目标:直接计算真实的离散程度。
- 推理逻辑:没啥要估计的,直接“定义”就是
所以用 。
2. 样本方差
(1) 用 (有偏估计)
- 场景:你手里只有样本,想用它来逼近总体方差。
- 逻辑:最直观的想法是“照搬总体公式”,只不过把 换成 , 换成 :
- 结果:平均下来会 低估 总体方差。
- 优点:这个形式正好是Maximum Likelihood Estimation, MLE的解,在概率建模里常用。
(2) 用 (无偏估计)
- 场景:统计推断(比如构造置信区间、假设检验)。
- 逻辑:因为 本身就是用样本估计出来的,它已经“吃掉”了一次自由度,导致整体波动看起来比真实更小。
- 换句话说: 个数据点中,有 1 个点的信息已经用来算均值了,剩下的只有 个真正独立的信息。
- 修正方法:分母改成 ,刚好让期望值等于真实方差:
- 优点:在平均意义下准确(无偏)。
- 缺点:在某些应用里方差会显得稍大。
如果样本独立同分布(i.i.d.):
- 想让样本均值逼近总体:Law of Large Numbers
- 当样本量 时, 会越来越接近总体均值 (分布集中到一个点上)。
- 均值有中心
- 想让样本均值的分布逼近正态:Central Limit Theorem
- 当 较大时,重复很多次实验算出的 的分布近似正态分布。样本均值的分布,也叫 抽样分布 (Sampling from a Distribution)
- 均值成正态
用一个具体的数来估计参数:Point Estimation