IQR 이상치 계산기란?
이 계산기는 입력한 숫자 목록을 분석해 통계학자 존 튜키(John Tukey)가 제안한 1.5×IQR 규칙으로 통계적 이상치를 찾아냅니다. 제1사분위수(Q1), 중앙값(Q2), 제3사분위수(Q3), 사분위 범위(IQR), 그리고 '정상' 범위를 정의하는 하한·상한 경계값(fence)을 함께 보여줍니다. 이 경계를 벗어나는 값은 모두 이상치 후보로 표시됩니다.
사용 방법
데이터 값을 쉼표나 공백으로 구분해 입력한 뒤(예: 2, 5, 7, 8, 10, 12, 14, 18, 21, 45) 실행하세요. 계산기는 숫자를 정렬한 다음 선형 보간 방식(엑셀 PERCENTILE 함수와 동일한 R-7 방식)으로 사분위수를 구하고 경계값 공식을 적용합니다. 하한 경계보다 작거나 상한 경계보다 큰 값은 이상치로 집계됩니다.
공식 풀이
사분위 범위는 25번째 백분위수와 75번째 백분위수 사이의 거리입니다. 즉 \(\text{IQR} = Q_3 - Q_1\)이죠. 경계값은 사분위수에서 IQR의 1.5배만큼 바깥쪽으로 확장됩니다.
$$\begin{aligned} \text{Lower} &= Q_1 - 1.5 \times \text{IQR} \\ \text{Upper} &= Q_3 + 1.5 \times \text{IQR} \end{aligned}$$ 계수 1.5는 튜키가 제시한 고전적인 기준값이며, 분석가에 따라 '극단적인' 값만 표시하기 위해 3.0을 사용하기도 합니다.
계산 예시
데이터 2, 5, 7, 8, 10, 12, 14, 18, 21, 45 (\(n = 10\))를 예로 들면, \(Q_1 = 7.25\), \(Q_3 = 17\)이므로 \(\text{IQR} = 9.75\)입니다. 하한 경계 $$\text{Lower} = 7.25 - 1.5 \times 9.75 = -7.375,$$ 상한 경계 $$\text{Upper} = 17 + 1.5 \times 9.75 = 31.625$$가 됩니다. 값 45는 상한 경계를 넘으므로 유일한 이상치로 판정됩니다.
자주 묻는 질문
어떤 사분위수 계산법을 쓰나요? 순서통계량 사이를 선형 보간하는 R-7 방식으로, 엑셀의 PERCENTILE 및 QUARTILE 함수와 동일합니다.
왜 하필 1.5인가요? 정규분포에 가까운 데이터에서 민감도와 오탐(false positive)의 균형을 잘 맞추는, 튜키가 정한 관례적인 배수이기 때문입니다.
경계값이 음수일 수도 있나요? 네. 하한 경계가 음수라는 것은 낮은 쪽에서 이상치로 볼 만큼 극단적인 값이 없다는 뜻일 뿐입니다.