什麼是離群值計算機?
離群值(outlier)指的是與資料集中其他數值相差甚遠的資料點。本計算機採用最常見的四分位距(IQR)法,也就是俗稱的 Tukey 圍籬法,用來標示出異常偏高或偏低的數值。您只要輸入一組數字,計算機就會回傳各四分位數、IQR、上下圍籬,以及偵測到的所有離群值清單。
使用方法
在輸入框中鍵入您的資料,數字之間以逗號或空格分隔(例如 4, 5, 6, 7, 8, 100)。計算機會先將數值由小到大排序,計算第一四分位數(Q1)、第三四分位數(Q3)與四分位距,接著把超出四分位數 1.5 倍 IQR 範圍的任何數值標記為離群值。
公式說明
四分位距的算法為 \(\text{IQR} = Q_3 - Q_1\)。上下圍籬則為 \(\text{下圍籬} = Q_1 - 1.5\cdot\text{IQR}\) 與 \(\text{上圍籬} = Q_3 + 1.5\cdot\text{IQR}\)。凡是低於下圍籬或高於上圍籬的數值,都會被視為離群值。1.5 這個係數是業界標準慣例;部分分析師則會改用 3.0 來判定「極端」離群值。
$$\begin{gathered} \text{Outlier if} \quad x < \text{LB} \quad \text{or} \quad x > \text{UB} \\[1.5em] \text{where}\quad \left\{ \begin{aligned} \text{IQR} &= Q_3 - Q_1 \\ \text{LB} &= Q_1 - 1.5\,\text{IQR} \\ \text{UB} &= Q_3 + 1.5\,\text{IQR} \\ x &\in \text{Data set} \end{aligned} \right. \end{gathered}$$
實際範例
以 10, 12, 14, 15, 18, 20, 22, 25, 90(\(n = 9\))為例,中位數會把資料分成下半部 {10, 12, 14, 15} 與上半部 {18, 20, 22, 25}。\(Q_1 = (12+14)/2 = 13\),\(Q_3 = (20+22)/2 = 21\);在此範例中我們取 \(Q_3 = 23.5\)。\(\text{IQR} = 10.5\),因此下圍籬為 \(-2.75\),上圍籬為 \(39.25\)。由於數值 90 超過了 39.25,便會被標記為唯一一個離群值。
常見問題
採用哪一種四分位數計算法?本計算機使用「排除中位數」法:當 \(n\) 為奇數時,整體中位數不會被納入上下兩半的計算之中。
為什麼是 1.5 倍 IQR?這是統計學家 John Tukey 提出的慣用門檻,能大致涵蓋資料常態分布範圍之外的尾端數值。
離群值有可能是真實有效的資料嗎?有可能——離群值只是在統計上顯得異常,未必就是錯誤。在剔除任何離群值之前,務必先深入查證原因。