다섯 수치 요약이란?
다섯 수치 요약(five-number summary)은 데이터의 분포를 간결하게 보여 주는 다섯 개의 값입니다. 구체적으로는 최솟값, 제1사분위수(Q1), 중앙값(Q2), 제3사분위수(Q3), 최댓값으로 이루어져 있죠. 이 다섯 값만 보면 데이터의 중심, 퍼짐 정도, 치우침(왜도)을 한눈에 파악할 수 있으며, 상자 수염 그림(박스 플롯)을 그리는 기초가 됩니다.
계산기 사용법
입력란에 숫자를 쉼표, 공백 또는 줄바꿈으로 구분해 넣기만 하면 됩니다. 계산기가 자동으로 값을 정렬한 뒤, 다섯 가지 요약 값과 함께 사분위 범위(\(\text{IQR} = Q_3 - Q_1\))까지 알려 줍니다. IQR은 데이터 중앙 50%가 얼마나 넓게 퍼져 있는지를 나타내는 지표입니다.
계산 공식
먼저 데이터를 작은 값부터 정렬합니다. 중앙값은 가운데 값(데이터 개수가 짝수이면 가운데 두 값의 평균)입니다. 이어서 데이터를 아래쪽 절반과 위쪽 절반으로 나눕니다. Q1은 아래쪽 절반의 중앙값, Q3는 위쪽 절반의 중앙값입니다. 데이터 개수가 홀수일 때는 전체 중앙값을 양쪽 절반에서 제외합니다(제외법, 즉 Tukey 방식). IQR은 단순히 \(Q_3 - Q_1\)로 구합니다.
$$\begin{gathered} \{\,\text{Min},\ Q_1,\ \text{Median},\ Q_3,\ \text{Max}\,\} \\[1.4em] \text{from sorted}\ \text{Data set} \\[1.2em] \text{where}\quad \left\{ \begin{aligned} \text{Min} &= x_{(1)}, \quad \text{Max} = x_{(n)} \\ \text{Median} &= \operatorname{med}(x_{(1)},\dots,x_{(n)}) \\ Q_1 &= \operatorname{med}(\text{lower half}) \\ Q_3 &= \operatorname{med}(\text{upper half}) \\ \text{IQR} &= Q_3 - Q_1 \end{aligned} \right. \end{gathered}$$
예제로 익히기
데이터 2, 4, 6, 8, 10, 12, 14를 살펴봅시다. 정렬하면 최솟값은 2, 최댓값은 14입니다. 중앙값은 네 번째 값인 8이고요. 아래쪽 절반은 {2, 4, 6}으로 그 중앙값(Q1)은 4, 위쪽 절반은 {10, 12, 14}로 그 중앙값(Q3)은 12입니다. 따라서 IQR은 \(12 - 4 = 8\)이 됩니다.
자주 묻는 질문
사분위수 계산법이 여러 가지인 이유는 무엇인가요? 통계 소프트웨어마다 사용하는 관례가 조금씩 다릅니다. 이 계산기는 가장 널리 쓰이는 제외법(exclusive method)을 사용하며, 홀수 개의 데이터를 둘로 나눌 때 전체 중앙값을 제외합니다.
IQR로 무엇을 알 수 있나요? 데이터 중앙 절반이 얼마나 퍼져 있는지를 보여 주며, 이상치(사분위수에서 \(1.5 \times \text{IQR}\) 이상 벗어난 값)를 찾아내는 데 쓰입니다.
숫자는 몇 개나 입력해야 하나요? 최소 두 개면 계산되지만, 데이터가 많을수록 사분위수가 더 의미 있는 값이 됩니다.