1. 作用
协方差矩阵把多个变量的 方差 和它们之间的 协方差 统一表示出来,是描述多维数据 整体波动性与相关性 的工具。
- 对角线:每个变量的方差
- 非对角线:不同变量之间的协方差
例:二维情况
- 左上角: 的波动
- 右下角: 的波动
- 非对角线: 与 的相关程度(正相关/负相关)
2. 数学定义(总体协方差矩阵)
对于随机向量
其协方差矩阵为
分量形式:
- (单个变量的方差)
- ():变量间的协方差
3. 样本协方差矩阵
实际中,我们只有有限样本。设数据矩阵
- 样本均值:
- 中心化矩阵:
- 样本协方差矩阵:
4. 为什么是 ?(无偏估计)
如果直接用 作分母(即最大似然估计),会低估协方差:
原因:计算 已经消耗了自由度,导致系统性偏差。
修正后用 作分母,可以得到无偏估计:
多数统计软件默认采用 。
协方差(covariance) 只能告诉你两个变量是不是一起涨或一起跌(正相关/负相关),
但它的大小没有“统一的量纲”,可能是 7.45,也可能是 17,还可能是 1000。
为了解决“量纲不一样”的问题,就把协方差除以两个变量的标准差:相关系数(Correlation Coefficient)