什么是偏度?
偏度(Skewness)用来衡量一个概率分布或数据集相对于均值的不对称程度。偏度为零,表示分布对称;偏度为正,说明右侧尾部更长(较大的数值把均值往右拉);偏度为负,则说明左侧尾部更长。本计算器既可以输出总体偏度,也可以输出经过偏差校正的样本偏度,同时还会给出均值和标准差。
如何使用
用逗号或空格分隔输入你的数据,然后选择计算方法。如果你的数据代表了整个研究对象,请选择总体;如果你的数据只是从更大群体中抽取的样本,则选择样本(即 Excel 的 SKEW 函数及众多统计软件采用的、经调整的 Fisher-Pearson 估计量)。
公式详解
总体偏度是标准化偏差三次方的平均值:
$$g_1 = \frac{1}{n} \sum_{i=1}^{n} \left( \frac{x_i - \bar{x}}{\sigma} \right)^{3}$$其中 \(\sigma\) 以 \(n\) 为分母计算。样本偏度则引入了一个校正因子:
$$G_1 = \frac{n}{(n-1)(n-2)} \sum_{i=1}^{n} \left( \frac{x_i - \bar{x}}{s} \right)^{3}$$其中 \(s\) 以 \(n-1\) 为分母计算。这个校正因子用于消除小样本中存在的低估偏差。
计算实例
以数据 2、4、6、8、20 为例:均值为 8。\(\sum(x_i-\bar{x})^3 = (-6)^3+(-4)^3+(-2)^3+(0)^3+(12)^3 = -216-64-8+0+1728 = 1440\)。总体标准差 \(\sigma = \sqrt{160/5} = 6.3246\),因此 $$g_1 = \frac{1440/5}{6.3246^3} = \frac{288}{252.98} \approx 1.1384$$若采用样本方法,则 \(s = \sqrt{160/4} = 7.0711\),$$G_1 = \frac{5}{4\cdot 3}\cdot\frac{1440}{353.55} = 0.4167\cdot 4.0729 \approx 1.6971$$
常见问题
为什么两种方法算出的结果不一样?因为它们使用了不同的标准差,而且样本方法还额外加入了偏差校正因子,所以在小数据集上两者的数值会有差异。
结果接近 0 意味着什么?说明分布大致对称。当数值超出 \(\pm 1\) 时,通常被认为存在明显的偏斜。
我应该报告哪一个?当你要用样本去推断总体时,使用样本估计量;当你掌握了完整的数据集时,则使用总体偏度。