1. 定义

p 值是在假设检验中衡量“样本结果是否极端”的指标。
正式定义:
在零假设 为真时,检验统计量(如样本均值、z 值、t 值)取到 和观测值一样极端或更极端 (实验结果与观测相符)的概率。


2. 直观解释

  • 如果 很小,说明在 成立时得到当前样本的可能性极低 → 有理由怀疑
  • 如果 很大,说明样本结果在 的分布中很常见 → 没有足够证据拒绝

3. 决策规则

  • 设显著性水平 (如 )。
  • → 拒绝 ,接受
  • → 不拒绝

4. 不同检验下的 p 值计算

  • 右尾检验

  • 左尾检验

  • 双尾检验

    (取双侧尾部概率)


5. 示例

  • 假设 ,总体标准差 ,样本量 ,观测均值

  • 转换为标准化统计量:

  • 右尾检验
    → 拒绝

  • 双尾检验
    → 不拒绝

  • 左尾检验(假设观测均值是 ):
    → 拒绝


6. 总结

  • p 值不是“ 为真的概率”,而是在 为真时观测结果的稀有程度。
  • 小 → 数据与 不符,拒绝
  • 大 → 数据与 相符,保留
  • 显著性水平 决定了拒绝 的门槛。