在连续型数据分析中,我们通常想知道数据背后的概率密度函数(PDF) 的形状。
直方图(Histogram)是常见的近似方法,但它有两个缺点:

  1. 不平滑 —— 柱状图显示的“峰谷”更多来自分箱方式,而非真实分布;
  2. 分箱依赖性强 —— 不同的 bin 宽度会给出不同的结果。

➡️ 更好的办法是 核密度估计(Kernel Density Estimation, KDE)


🔧 核密度估计的原理

1. 给每个样本点放一个“小山峰”

  • 在每个数据点位置放一个核函数(kernel),常用高斯分布(Gaussian kernel)。
  • 核函数控制“这个点的影响范围”。

2. 平滑参数:带宽(σ 或 h)

  • 带宽小 → 曲线更“尖锐”,容易过拟合
  • 带宽大 → 曲线更“平滑”,可能过度平滑
  • 合适的带宽选择是 KDE 的核心

3. 所有核函数相加平均

如果数据为 ,核函数为 ,带宽为 ,KDE 的定义是:

其中:

  • = 估计的密度函数
  • = 核函数(如高斯核)
  • = 带宽(控制平滑程度)

🎯 示例直观解释

  • 在每个样本点放一个高斯曲线;
  • 带宽控制高斯的“胖瘦”;
  • 把所有高斯曲线加起来,再除以
  • 得到一条平滑的曲线,近似于真实 PDF。

📊 KDE vs Histogram

方法特点
Histogram简单直观,但受分箱影响大,不平滑
KDE平滑近似真实 PDF,结果更稳健

结合Box-Plot成为Violin Plot