아래 울타리란?
아래 울타리(lower fence)는 데이터의 낮은 쪽 끝에서 이상치(outlier)를 가려내기 위해 사용하는 통계적 경계선입니다. 이 값보다 작은 데이터는 잠재적 이상치로 표시됩니다. 아래 울타리는 존 튜키(John Tukey)가 널리 알린 표준 1.5 × IQR 규칙의 일부이며, 상자수염그림(box-and-whisker plot)에서 수염을 그리고 이상치를 식별할 때 쓰는 계산과 동일합니다.
계산기 사용 방법
데이터의 제1사분위수(Q1)와 제3사분위수(Q3)를 입력하세요. 계산기는 사분위 범위(\(\text{IQR} = \text{Q3} - \text{Q1}\))를 구한 뒤 여기에 1.5를 곱하고, 그 값을 Q1에서 빼서 아래 울타리를 반환합니다. 위쪽 경계인 '위 울타리'와 함께 사용하면 '정상' 값의 범위를 위아래로 한 번에 가둘 수 있습니다.
공식 풀이
공식은 다음과 같습니다.
$$\text{Lower Fence} = \text{Q1} - 1.5 \times \left( \text{Q3} - \text{Q1} \right)$$
먼저 Q3에서 Q1을 빼서 IQR을 구합니다. 1.5라는 계수는 이상치를 얼마나 엄격하게 탐지할지를 정하는데, 계수가 클수록(예: 3.0) 극단적인 이상치만 걸러내고, 1.5는 '약한(mild)' 이상치를 잡아내는 일반적인 기준값입니다.
실전 예시
어떤 데이터의 \(\text{Q1} = 25\), \(\text{Q3} = 75\)라고 가정해 봅시다. IQR은 \(75 - 25 = 50\)입니다. 여기에 1.5를 곱하면 75가 되고, 이를 Q1에서 빼면 다음과 같습니다.
$$25 - 75 = -50$$
즉, −50보다 작은 관측값은 모두 낮은 쪽의 잠재적 이상치로 판단합니다.
자주 묻는 질문
아래 울타리가 음수면 무슨 뜻인가요? 현실적으로 어떤 작은 값도 낮은 쪽 이상치로 분류되지 않는다는 의미입니다. 경계선이 데이터 범위보다 아래에 위치한 것으로, 데이터가 대칭적이거나 오른쪽으로 치우친(우측 꼬리) 경우에 흔히 나타납니다.
Q1과 Q3는 어떻게 구하나요? 데이터를 크기순으로 정렬한 뒤, 아래쪽 절반의 중앙값(Q1)과 위쪽 절반의 중앙값(Q3)을 찾으면 됩니다. 대부분의 스프레드시트에는 QUARTILE 함수가 제공됩니다.
왜 하필 IQR의 1.5배인가요? 대략 정규분포에 가까운 데이터에서 민감도와 오탐(거짓 양성) 사이의 균형을 잘 맞추는, 널리 인정받는 관례적인 값이기 때문입니다. 극단적인 이상치만 잡아내고 싶다면 \(3.0 \times \text{IQR}\)을 사용하세요.