什么是卡方独立性检验?
卡方(χ²)独立性检验用于判断两个分类变量之间是否存在关联。对于2×2列联表,它会把你实际观测到的频数,与"假设两个变量完全独立"时应当出现的期望频数进行对比。两者差距越大,χ²值就越大,也就越说明这两个变量之间可能存在关联。
如何使用本计算器
请输入2×2表格中四个单元格的频数:A和B构成第一行,C和D构成第二行。计算器会自动求出各行合计、各列合计和总计,计算每个单元格的期望频数,再把标准化后的平方偏差累加,得到χ²值。同时,它还会给出自由度(2×2表格恒为1)、近似p值、0.05水平下的临界值,以及检验结果是否具有统计学意义。
公式详解
每个单元格的期望频数为 \(E = \dfrac{\text{行合计} \times \text{列合计}}{\text{总计}}\)。检验统计量为
$$\chi^2 = \sum \frac{(O - E)^2}{E}$$即对全部四个单元格求和。也可以直接用四个单元格的频数计算:
$$\chi^2 = \frac{N\left(\text{A}\,\text{D} - \text{B}\,\text{C}\right)^2}{(\text{A}+\text{B})(\text{C}+\text{D})(\text{A}+\text{C})(\text{B}+\text{D})}$$当自由度为1时,5%显著性水平对应的临界值为 \(3.841\)。如果你算出的χ²超过 \(3.841\),就应当拒绝"两变量相互独立"的原假设。
实例演示
假设 \(A = 10\)、\(B = 20\)、\(C = 30\)、\(D = 40\)。则行合计为30和70,列合计为40和60,总计为100。对应的期望值为12、18、28、42。于是
$$\chi^2 = \frac{(10-12)^2}{12} + \frac{(20-18)^2}{18} + \frac{(30-28)^2}{28} + \frac{(40-42)^2}{42} \approx 0.3333 + 0.2222 + 0.1429 + 0.0952 \approx 0.7937$$由于 \(0.79 < 3.841\),因此无法拒绝独立性假设。
常见问题
为什么这里的自由度恒为1?自由度 \(= (\text{行数} - 1) \times (\text{列数} - 1) = (2-1) \times (2-1) = 1\)。
p值很小说明什么?p值小于0.05,意味着在"两变量独立"的前提下,观测到这样的关联是非常不可能的,因此这两个变量很可能确实相关。
这个p值精确吗?它采用对自由度为1的卡方分布的标准数值近似算法,对于一般决策已足够准确,但在某些临界情形下仍不能完全替代专业统计软件。