上側フェンスとは?
上側フェンスとは、データの中で「値が大きすぎる外れ値」を見つけるための統計的な境界線です。この上側フェンスを超える値は外れ値の候補としてマークされ、本当に妥当なデータかどうか確認する目安になります。これは外れ値検出の定番である「テューキー(Tukey)法」の一部で、箱ひげ図の「ひげ」を描く際にも同じ考え方が使われています。
この計算ツールの使い方
お手元のデータの第1四分位数(Q1)と第3四分位数(Q3)を入力してください。本ツールは四分位範囲(IQR = Q3 − Q1)を求め、それを1.5倍してQ3に足すことで上側フェンスを算出します。四分位数がまだ分からない場合は、データを小さい順に並べ、下半分の中央値(Q1)と上半分の中央値(Q3)を求めてください。
計算式の解説
上側フェンスは次の式で定義されます。$$\text{Upper Fence} = \text{Q3} + 1.5 \times \left(\text{Q3} - \text{Q1}\right)$$(Q3 − Q1)が四分位範囲(IQR)で、極端な値の影響を受けにくい、ばらつきの頑健な指標です。IQRを1.5倍することで許容幅(バンド)を作り、その幅をQ3より上に伸ばすことで「異常に大きい値」と見なす基準ラインを設定します。
計算例
例えば、あるデータで\(\text{Q1} = 25\)、\(\text{Q3} = 75\)だったとします。このときIQRは $$75 - 25 = 50$$ です。上側フェンスは $$75 + 1.5 \times 50 = 75 + 75 = 150$$ となります。つまり、150を超える値は上側の外れ値の候補とみなされます。
よくある質問
なぜ「1.5」なの? 係数1.5は、統計学者ジョン・テューキーが導入した標準的な倍率です。おおむね正規分布に従うデータに対して、検出の感度と誤検出(偽陽性)のバランスがちょうど良くなります。より極端な外れ値だけを抜き出したいときは、倍率3.0が使われることもあります。
下側フェンスはどうなる? 対になる下側の境界は \(\text{Q1} - 1.5 \times \text{IQR}\) です。これを下回る値は、小さすぎる側の外れ値となります。
フェンスを超えた値は必ず「誤り」なの? いいえ。あくまで「確認が必要な値」として印を付けるだけです。実際には正しいけれど、たまたま極端に大きいだけの値という場合もあります。