什么是上限栅栏?
上限栅栏(upper fence)是一条用于识别数据集中偏高异常值的统计边界。任何超过上限栅栏的数值都会被标记为潜在异常值,值得进一步核查。它源自经典的图基(Tukey)异常值检测法——也正是箱线图中两端"须线"(whiskers)的绘制依据。
如何使用本计算器
输入数据集的第一四分位数(Q1)和第三四分位数(Q3)。计算器会算出四分位距(\(\text{IQR} = \text{Q3} - \text{Q1}\)),将其乘以 1.5,再加到 Q3 上,得出上限栅栏。如果你还不知道四分位数,可以先把数据从小到大排序,取下半部分的中位数作为 Q1,取上半部分的中位数作为 Q3。
公式详解
上限栅栏的定义为 $$\text{Upper Fence} = \text{Q3} + 1.5 \times \left(\text{Q3} - \text{Q1}\right)$$ 其中 \(\left(\text{Q3} - \text{Q1}\right)\) 即四分位距,是一种不受极端值干扰的稳健离散程度度量。将 IQR 乘以 1.5 得到一个容差区间;把这个区间向上延伸到 Q3 之上,便确定了"异常偏大"观测值的临界点。
实例演示
假设某数据集的 \(\text{Q1} = 25\)、\(\text{Q3} = 75\)。则 IQR 为 \(75 - 25 = 50\)。上限栅栏即 $$75 + 1.5 \times 50 = 75 + 75 = 150$$ 任何大于 150 的数据点都会被视为潜在的偏高异常值。
常见问题
为什么是 1.5?系数 1.5 是约翰·图基(John Tukey)提出的标准乘数。对于近似正态分布的数据,它能在灵敏度和误报率之间取得平衡。有时也会用 3.0 这一乘数来标记"极端"异常值。
下限栅栏又是什么?与之对应的下边界为 \(\text{Q1} - 1.5 \times \text{IQR}\)。低于该值的数据即为偏低异常值。
超过栅栏就一定是错误吗?不一定。它只是把该数据点标记出来供你复核——它有可能是真实存在、只是数值偏极端的观测值。