在连续型数据分析中,我们通常想知道数据背后的概率密度函数(PDF) 的形状。
直方图(Histogram)是常见的近似方法,但它有两个缺点:
- 不平滑 —— 柱状图显示的“峰谷”更多来自分箱方式,而非真实分布;
- 分箱依赖性强 —— 不同的 bin 宽度会给出不同的结果。
➡️ 更好的办法是 核密度估计(Kernel Density Estimation, KDE)。
🔧 核密度估计的原理
1. 给每个样本点放一个“小山峰”
- 在每个数据点位置放一个核函数(kernel),常用高斯分布(Gaussian kernel)。
- 核函数控制“这个点的影响范围”。
2. 平滑参数:带宽(σ 或 h)
- 带宽小 → 曲线更“尖锐”,容易过拟合
- 带宽大 → 曲线更“平滑”,可能过度平滑
- 合适的带宽选择是 KDE 的核心
3. 所有核函数相加平均
如果数据为 ,核函数为 ,带宽为 ,KDE 的定义是:
其中:
- = 估计的密度函数
- = 核函数(如高斯核)
- = 带宽(控制平滑程度)
🎯 示例直观解释
- 在每个样本点放一个高斯曲线;
- 带宽控制高斯的“胖瘦”;
- 把所有高斯曲线加起来,再除以 ;
- 得到一条平滑的曲线,近似于真实 PDF。
📊 KDE vs Histogram
方法 | 特点 |
---|---|
Histogram | 简单直观,但受分箱影响大,不平滑 |
KDE | 平滑近似真实 PDF,结果更稳健 |