Covariance

1. 作用

协方差矩阵把多个变量的 方差 和它们之间的 协方差 统一表示出来,是描述多维数据 整体波动性与相关性 的工具。

  • 对角线:每个变量的方差
  • 非对角线:不同变量之间的协方差

例:二维情况

  • 左上角: 的波动
  • 右下角: 的波动
  • 非对角线: 的相关程度(正相关/负相关)

2. 数学定义(总体协方差矩阵)

对于随机向量

其协方差矩阵为

分量形式:

  • (单个变量的方差)
  • ):变量间的协方差

3. 样本协方差矩阵

实际中,我们只有有限样本。设数据矩阵

  • 样本均值:
  • 中心化矩阵:
  • 样本协方差矩阵:

4. 为什么是 ?(无偏估计)

如果直接用 作分母(即最大似然估计),会低估协方差:

原因:计算 已经消耗了自由度,导致系统性偏差。
修正后用 作分母,可以得到无偏估计:

多数统计软件默认采用

协方差(covariance) 只能告诉你两个变量是不是一起涨或一起跌(正相关/负相关),
但它的大小没有“统一的量纲”,可能是 7.45,也可能是 17,还可能是 1000。 为了解决“量纲不一样”的问题,就把协方差除以两个变量的标准差:相关系数(Correlation Coefficient