分布中心的三种度量方式

名称定义优点缺点
均值(Mean)/ 期望值所有值加权平均(权重为概率易计算,有数学优美性质(如线性性)极易被**异常值(outlier)**影响
中位数(Median)将数据排序后位于正中间的值抗异常值强,反映位置而非值不适合进一步计算(如方差)
众数(Mode)出现频率最高的值对于分类变量很有用不一定唯一,或可能没有(如均匀分布)

对于离散型随机变量 ,其概率质量函数为 ,若 是定义在 取值上的任意函数,则:

对于连续型随机变量 ,其概率密度函数为 ,则:

Standardizing a Distribution

描述随机变量分布形状(分布的中心、离散程度、对称性、尖锐度等)的一类统计量:Moment

在数据科学中,除了Mean、VarianceMoment等“数字化描述”,可视化是另一种理解数据分布形态的重要方式。

Joint Distribution