正态分布(也称高斯分布,Gaussian Distribution)是一种最常见、最重要的连续概率分布,广泛存在于自然界与统计模型中。
记作:
- :均值(mean),控制位置
- :标准差(standard deviation),控制宽度
- :方差(variance)
📈 概率密度函数(PDF, Probability Density Function)
正态分布的密度函数为:
- 对称于
- 越靠近均值概率越高
- 范围为
- 面积为 1
🧠 直觉解释:
- 看起来像个“钟形曲线”(bell curve)
- 数据围绕 分布,越远离 ,概率越低
🧮 累积分布函数(CDF, Cumulative Distribution Function)
- 没有解析解(需要查表或用软件)
- 图像为 S 型曲线
- 越靠右,累计概率越接近 1
🧠 标准正态分布
标准化后的正态分布:
- 均值为 0,标准差为 1
- 常用来查表和标准化变量,便于比较不同量纲的数据
📌 期望和方差
名称 | 表达式 |
---|---|
期望 | |
方差 |
🧠 中心极限定理(Central Limit Theorem)
当一个随机变量是很多独立随机变量之和时,它趋近于正态分布——这就是为什么正态分布无处不在!
🔁 总结
属性 | 表达式或特点 |
---|---|
分布记号 | |
CDF | 无解析解,查表或用软件近似计算 |
期望与方差 | , |
标准正态分布 | |
标准化公式 |
🔍 注意事项
- 所有正态分布的 PDF 积分值都是 1(是概率分布)
- 可以用
Z
分数比较不同分布下的值(例如考试成绩标准化) - 在机器学习中很多模型默认特征服从正态分布(如 LDA、朴素贝叶斯)