카이제곱 독립성 검정이란?
카이제곱(χ²) 독립성 검정은 두 범주형 변수가 서로 관련이 있는지를 확인하는 통계 기법입니다. 2×2 분할표에서는 실제로 관측된 빈도와, 두 변수가 완전히 독립일 때 기대되는 빈도를 비교합니다. 두 값의 차이가 클수록 χ² 값이 커지며, 이는 두 변수 사이에 연관성이 있을 가능성을 시사합니다.
계산기 사용 방법
2×2 표의 네 칸 빈도를 입력하세요. A와 B가 첫 번째 행, C와 D가 두 번째 행을 이룹니다. 계산기는 행 합계, 열 합계, 전체 합계를 구한 뒤 각 칸의 기대빈도를 계산하고, 표준화된 편차 제곱을 모두 더해 χ² 값을 산출합니다. 또한 자유도(2×2 표에서는 항상 1), 근사 p값, 0.05 기준 임계값, 그리고 결과가 통계적으로 유의한지 여부까지 함께 보여 줍니다.
공식 풀이
각 칸의 기대빈도는 \(E = (\text{행 합계} \times \text{열 합계}) / \text{전체 합계}\)로 계산합니다. 검정통계량은 네 칸 전체에 대해 다음과 같습니다.
$$\chi^2 = \sum \dfrac{(O - E)^2}{E}$$자유도가 1일 때 유의수준 5%에서의 임계값은 \(3.841\)입니다. 만약 χ² 값이 \(3.841\)을 넘으면 '두 변수가 독립이다'라는 귀무가설을 기각합니다.
계산 예시
\(A = 10\), \(B = 20\), \(C = 30\), \(D = 40\) 이라고 가정해 봅시다. 행 합계는 각각 30과 70, 열 합계는 40과 60, 전체 합계는 100입니다. 기대빈도는 12, 18, 28, 42가 됩니다. 이때
$$\chi^2 = \dfrac{(10-12)^2}{12} + \dfrac{(20-18)^2}{18} + \dfrac{(30-28)^2}{28} + \dfrac{(40-42)^2}{42} \approx 0.3333 + 0.2222 + 0.1429 + 0.0952 \approx 0.7937$$\(0.79 < 3.841\) 이므로 독립성 가설을 기각하지 못합니다(즉, 연관성이 있다고 보기 어렵습니다).
자주 묻는 질문(FAQ)
왜 여기서는 자유도가 항상 1인가요? \(\text{자유도} = (\text{행} - 1)(\text{열} - 1) = (2-1)(2-1) = 1\) 이기 때문입니다.
p값이 작다는 것은 무슨 의미인가요? p값이 0.05보다 작다면, 관측된 연관성이 독립 상태에서 나타날 가능성이 낮다는 뜻이므로 두 변수가 서로 관련되어 있을 가능성이 높습니다.
p값이 정확한 값인가요? 자유도 1인 카이제곱 분포에 대한 표준 수치 근사를 사용합니다. 일반적인 판단에는 충분히 정확하지만, 경계적인 사례에서는 전문 통계 소프트웨어를 완전히 대체하지는 못합니다.