カイ二乗独立性検定とは?
カイ二乗(χ²)独立性検定は、2つのカテゴリ変数のあいだに関連があるかどうかを調べる手法です。2×2の分割表では、実際に観測された度数(観測値)と、2つの変数がまったく独立だった場合に期待される度数(期待値)を比較します。両者のズレが大きいほどχ²値も大きくなり、変数間に関連がある可能性が高いと判断できます。
この計算ツールの使い方
2×2表の4つのセルの度数を入力します。1行目がAとB、2行目がCとDです。ツールは行合計・列合計・総計を求め、各セルの期待度数を計算し、標準化した二乗偏差を合計してχ²値を算出します。あわせて、自由度(2×2表では常に1)、近似p値、有意水準0.05での臨界値、そして結果が統計的に有意かどうかを表示します。
計算式の解説
各セルの期待度数は \(E = \dfrac{\text{行合計} \times \text{列合計}}{\text{総計}}\) で求めます。検定統計量は、4つのセルすべてについて
$$\chi^2 = \sum \frac{(O - E)^2}{E}$$を合計したものです。自由度が1のとき、有意水準5%での臨界値は3.841です。χ²が3.841を上回れば、「2つの変数は独立である」という帰無仮説を棄却します。
計算例
A=10、B=20、C=30、D=40 とします。行合計は30と70、列合計は40と60、総計は100です。期待度数は12、18、28、42となります。すると
$$\chi^2 = \frac{(10-12)^2}{12} + \frac{(20-18)^2}{18} + \frac{(30-28)^2}{28} + \frac{(40-42)^2}{42} \approx 0.3333 + 0.2222 + 0.1429 + 0.0952 \approx 0.7937$$です。\(0.79 < 3.841\) なので、独立性の帰無仮説は棄却できません(関連があるとはいえません)。
よくある質問(FAQ)
なぜここでは自由度が常に1なのですか? 自由度 \(= (\text{行数} - 1) \times (\text{列数} - 1) = (2-1) \times (2-1) = 1\) だからです。
p値が小さいと何を意味しますか? p値が0.05を下回る場合、観測された関連が独立の前提では起こりにくいことを示し、2つの変数には関連がある可能性が高いと考えられます。
このp値は正確な値ですか? 自由度1のカイ二乗分布に対する標準的な数値近似を用いています。通常の判断には十分な精度ですが、境界的なケースでは本格的な統計ソフトの代わりにはなりません。