什么是异常值计算器?
异常值(离群值)是指明显偏离数据集中其他数值的数据点。本计算器采用广受认可的四分位距(IQR)法,又称"图基栅栏"(Tukey's fences),用来标记那些异常偏高或偏低的数值。你只需输入一组数字,它就会返回四分位数、IQR、上下栅栏,以及找到的所有异常值清单。
如何使用
在输入框中填入你的数据,用逗号或空格隔开(例如 4, 5, 6, 7, 8, 100)。计算器会先对数值排序,算出第一四分位数(Q1)、第三四分位数(Q3)和四分位距,然后把超出四分位数 1.5 倍 IQR 范围的数值标记为异常值。
计算公式详解
四分位距的公式为 \(\text{IQR} = Q_3 - Q_1\)。两条栅栏分别是 \(\text{LB} = Q_1 - 1.5\,\text{IQR}\) 与 \(\text{UB} = Q_3 + 1.5\,\text{IQR}\)。凡是低于下栅栏或高于上栅栏的数值,都被视为异常值。系数 1.5 是通用的标准取值;部分分析人员会改用 3.0 来识别"极端"异常值。
$$\begin{gathered} \text{Outlier if} \quad x < \text{LB} \quad \text{or} \quad x > \text{UB} \\[1.5em] \text{where}\quad \left\{ \begin{aligned} \text{IQR} &= Q_3 - Q_1 \\ \text{LB} &= Q_1 - 1.5\,\text{IQR} \\ \text{UB} &= Q_3 + 1.5\,\text{IQR} \\ x &\in \text{Data set} \end{aligned} \right. \end{gathered}$$
实例演算
以 10、12、14、15、18、20、22、25、90 这组数据为例(\(n = 9\)),中位数把数据分成下半部分 {10, 12, 14, 15} 和上半部分 {18, 20, 22, 25}。于是 \(Q_1 = (12+14)/2 = 13\),\(Q_3 = (20+22)/2 = 21\)……在这组替代数据中 \(Q_3 = 23.5\)。此时 \(\text{IQR} = 10.5\),下栅栏为 \(-2.75\),上栅栏为 \(39.25\)。数值 90 超过了 39.25,因此被标记为唯一一个异常值。
常见问题
使用的是哪种四分位数算法?采用"排除中位数法"(exclusive median method):当 \(n\) 为奇数时,整体中位数不计入上下两半。
为什么取 1.5 倍 IQR?这是统计学家约翰·图基(John Tukey)提出的惯用阈值,大致覆盖了数据正常波动范围之外的尾部。
异常值一定是错误吗?不一定。异常值只是统计上的"与众不同",未必是数据录入错误。在删除任何异常值之前,务必先弄清它的成因。