Kernel Density Estimation, KDE

在连续型数据分析中，我们通常想知道数据背后的概率密度函数（PDF） 的形状。
直方图（Histogram）是常见的近似方法，但它有两个缺点：

不平滑 —— 柱状图显示的“峰谷”更多来自分箱方式，而非真实分布；
分箱依赖性强 —— 不同的 bin 宽度会给出不同的结果。

➡️ 更好的办法是 核密度估计（Kernel Density Estimation, KDE）。

🔧 核密度估计的原理

1. 给每个样本点放一个“小山峰”

在每个数据点位置放一个核函数（kernel），常用高斯分布（Gaussian kernel）。
核函数控制“这个点的影响范围”。

2. 平滑参数：带宽（σ 或 h）

带宽小 → 曲线更“尖锐”，容易过拟合
带宽大 → 曲线更“平滑”，可能过度平滑
合适的带宽选择是 KDE 的核心

3. 所有核函数相加平均

如果数据为 $x_{1}, x_{2}, ..., x_{n}$ ，核函数为 $K$ ，带宽为 $h$ ，KDE 的定义是：

\hat{f} (x) = \frac{1}{nh} i = 1 \sum n K (\frac{x - x _{i}}{h})

其中：

$\hat{f} (x)$ = 估计的密度函数
$K (\cdot)$ = 核函数（如高斯核）
$h$ = 带宽（控制平滑程度）

🎯 示例直观解释

在每个样本点放一个高斯曲线；
带宽控制高斯的“胖瘦”；
把所有高斯曲线加起来，再除以 $n$ ；
得到一条平滑的曲线，近似于真实 PDF。

📊 KDE vs Histogram

方法	特点
Histogram	简单直观，但受分箱影响大，不平滑
KDE	平滑近似真实 PDF，结果更稳健

结合Box-Plot成为Violin Plot