1. 定义
p 值是在假设检验中衡量“样本结果是否极端”的指标。
正式定义:
在零假设 为真时,检验统计量(如样本均值、z 值、t 值)取到 和观测值一样极端或更极端 (实验结果与观测相符)的概率。
2. 直观解释
- 如果 很小,说明在 成立时得到当前样本的可能性极低 → 有理由怀疑 。
- 如果 很大,说明样本结果在 的分布中很常见 → 没有足够证据拒绝 。
3. 决策规则
- 设显著性水平 (如 或 )。
- 若 → 拒绝 ,接受 。
- 若 → 不拒绝 。
4. 不同检验下的 p 值计算
-
右尾检验:
-
左尾检验:
-
双尾检验:
(取双侧尾部概率)
5. 示例
-
假设 ,总体标准差 ,样本量 ,观测均值 。
-
转换为标准化统计量:
-
右尾检验:
→ 拒绝 。 -
双尾检验:
→ 不拒绝 。 -
左尾检验(假设观测均值是 ):
→ 拒绝 。
6. 总结
- p 值不是“ 为真的概率”,而是在 为真时观测结果的稀有程度。
- 小 → 数据与 不符,拒绝 。
- 大 → 数据与 相符,保留 。
- 显著性水平 决定了拒绝 的门槛。