外れ値計算ツールとは?
外れ値(がいれち)とは、データセットの中で他の値から大きく離れたところに位置するデータ点のことです。この計算ツールでは、広く使われている四分位範囲(IQR)法――別名「テューキーのフェンス」――を用いて、極端に大きい値や小さい値を自動で判定します。数値を入力するだけで、四分位数、IQR、上限・下限のフェンス、そして検出された外れ値のリストがすべて表示されます。
使い方
入力欄にデータを入力します。値はカンマまたはスペースで区切ってください(例:4, 5, 6, 7, 8, 100)。ツールが値を自動的に並べ替え、第1四分位数(Q1)、第3四分位数(Q3)、そして四分位範囲を計算します。その後、四分位数から1.5×IQRを超えて離れた値を外れ値としてマークします。
計算式の解説
四分位範囲は次の式で求めます。
$$\text{IQR} = Q_3 - Q_1$$フェンス(境界線)は次のとおりです。
$$\text{LB} = Q_1 - 1.5\,\text{IQR} \qquad \text{UB} = Q_3 + 1.5\,\text{IQR}$$下限を下回る値、または上限を上回る値は外れ値とみなされます。
$$\text{Outlier if} \quad x < \text{LB} \quad \text{or} \quad x > \text{UB}$$係数の「1.5」は標準的な慣例で、より極端な外れ値を見つけたい場合に「3.0」を使う分析者もいます。
計算例
10, 12, 14, 15, 18, 20, 22, 25, 90(\(n = 9\))の場合、中央値でデータを下半分 {10, 12, 14, 15} と上半分 {18, 20, 22, 25} に分けます。\(Q_1 = (12+14)/2 = 13\)、\(Q_3 = (20+22)/2 = 21\) となります(別のデータセットでは \(Q_3 = 23.5\))。\(\text{IQR} = 10.5\) なので、下限フェンスは \(-2.75\)、上限フェンスは \(39.25\) です。値 90 は \(39.25\) を超えているため、1つの外れ値として判定されます。
よくある質問
どの四分位数の計算法を使っていますか? 排他的中央値法(exclusive median)です。nが奇数のとき、全体の中央値は上下どちらの半分にも含めずに計算します。
なぜIQRの1.5倍なのですか? これは統計学者ジョン・テューキーが提案した慣例的なしきい値で、データの典型的なばらつきを超えた裾の部分をおおむね捉えられるためです。
外れ値は正しいデータの場合もありますか? はい。外れ値はあくまで「統計的に珍しい値」であって、必ずしも誤りとは限りません。除外する前に、必ずその原因を調べることをおすすめします。