1. 动机
- 我们想估计总体均值 ,但只能依赖样本均值 。
- 每次抽样都会得到不同的 ,因此需要一种方法刻画 估计的不确定性。
- 置信区间就是在 周围加上一个“缓冲范围”,让我们有一定把握这个区间包含真实参数 。
3. 关键概念
- 显著性水平 :允许样本落在区间外的概率。常取 。
- 置信水平 :区间覆盖真实参数的概率。例如 95%。 用这种方法构造的区间,有 95% 的概率会覆盖真实参数
- 误差范围(Margin of Error):根据样本分布和 确定的区间半径。
4. 公式(已知总体方差 的情况)
- :样本均值
- :标准正态分布的临界值(95% 置信区间时约为 1.96)
- :样本均值的标准误
置信区间的变化(Changing the Interval)
- (样本均值)的期望始终等于总体均值 ,与样本量 无关:
- 的标准差(标准误差,SE)随样本量变化:
- 当 时,;
当 增加时, 变小,分布更集中。
置信区间的误差边界(Margin of Error)
1. 置信区间的两个核心成分
- 样本均值
- 误差边界(Margin of Error, MOE)
置信区间公式:
2. 样本均值的分布
- 总体:
- 样本均值:
- 标准误差(Standard Error, SE):
3. 正态分布与 Z 分数
-
在标准正态分布下:
- 约 68% 落在
- 约 95% 落在
- 精确 95% 的区间为
-
临界值(Critical Value):
- :左侧面积为 的分位点
- :左侧面积为 的分位点
例如: → 。
4. 误差边界公式
- 一般形式:
- 展开:
因此:
计算步骤
- 求样本均值
- 确定置信水平 (例如 )
- 查找临界值
- 计算标准误差 (如果 未知,通常用样本标准差 替代)
- 计算误差边界
- 构建置信区间
Probability:随机事件 发生的可能性。对象:随机变量。 Confidence:指统计推断方法在长期重复实验中成功的比例,方法的覆盖率。对象:置信区间。
Unknown Standard Deviation & Student’s t 分布
1. 问题背景
- 在推导置信区间时,之前我们假设已知总体标准差 。
- 但现实中,大多数情况下我们并不知道 。
- 当 未知时,不能再直接使用正态分布的 分数。
2. 解决方法
- 用 样本标准差 来估计总体标准差。
- 代入后,采样分布不再是正态分布,而是 Student’s t 分布。
3. t 分布的特点
- 形状类似正态分布,但有 fat tails(由于 本身是估计量,会引入额外的不确定性)
- 意味着:采样结果更可能偏离中心。
- 随着样本量增加,t 分布逐渐逼近正态分布。
4. 两种情况对比
情况 | 使用标准差 | 使用分布 | 使用统计量 |
---|---|---|---|
已知 | 正态分布 | 分数 | |
未知 | t 分布 | 分数 |
公式:
- 已知 :
- 未知 :
5. 自由度(Degree of Freedom, df)
- 定义:
- 自由度越大,t 分布越接近正态分布。
- → 尾部最胖。
- → 更接近正态。
- → 完全等于正态。
6. 总结
- 已知 → 正态分布 + 分数。
- 未知 → t 分布 + 分数。
- 核心区别就是:是否知道总体标准差。
比例的置信区间(Confidence Interval for Proportion)
1. 场景
- 之前我们做的是 均值的置信区间(CI for mean)。
- 现在换成 比例的置信区间,即总体中某个特征的比例 。
- 例子:调查 Statistopia 城市中有多少人拥有汽车。
2. 样本比例
给定:
- 总样本数
- 成功次数
则样本比例为:
3. 置信区间的一般形式
和均值的 CI 类似:
- 均值:
- 比例:
其中:
- = 临界值(95% CI → )