这个计算器能做什么
A/B 测试显著性计算器可以告诉你两个转化率之间的差异究竟是真实有效,还是仅仅来自随机波动。它对对照组(版本 A)和挑战组(版本 B)的访客数与转化数运行经典的双比例 Z 检验,输出 Z 值、双尾 P 值、相对提升幅度,并在你所选的置信水平下给出"显著/不显著"的明确结论。
如何使用
分别填写每个版本的访客数和转化数,然后选择置信水平(90%、95% 或 99%)。最常用的是 95%,对应的临界 Z 值为 \(1.96\)。如果 Z 值的绝对值达到或超过临界阈值,结果就会被判定为具有统计显著性。
公式详解
每个版本的转化率为 \(\hat{p} = \text{转化数} / \text{访客数}\)。检验会把两组样本合并成一个总体比例
$$\hat{p} = \frac{c_A + c_B}{n_A + n_B}$$以此估算共同的标准误差。Z 值等于两组转化率之差除以该标准误差。
$$z = \frac{\hat{p}_B - \hat{p}_A}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_A}+\frac{1}{n_B}\right)}}$$Z 值的绝对值越大,说明这一差距由偶然造成的可能性越小。双尾 P 值则是标准正态曲线下 Z 值以外上尾面积的两倍。
实例演示
版本 A:1000 名访客,100 次转化(10.0%)。版本 B:1000 名访客,130 次转化(13.0%)。合并比例为 \(230/2000 = 0.115\),标准误差为 \(\sqrt{0.115 \times 0.885 \times (1/1000 + 1/1000)} \approx 0.01427\),因此 \(z \approx 0.03 / 0.01427 \approx 2.10\)。在 95% 置信水平下(临界 \(z = 1.96\)),结果具有统计显著性,双尾 P 值约为 \(0.036\)。
按置信水平的临界Z值
对于双尾Z检验,观察到的Z分数与取决于所选置信水平的临界值进行比较。置信水平等于 \(1-\alpha\),其中 \(\alpha\) 是显著性阈值(假阳性的最大可接受概率)。当绝对Z分数超过临界值时,结果被宣布为显著,等价于当p值低于 \(\alpha\) 时。
| 置信水平 | 显著性水平 \(\alpha\) | p值阈值 | 双尾临界Z |
|---|---|---|---|
| 90% | 0.10 | < 0.10 | 1.645 |
| 95% | 0.05 | < 0.05 | 1.960 |
| 99% | 0.01 | < 0.01 | 2.576 |
这些临界值来自标准正态分布:每个值在每条尾部留下 \(\alpha/2\) 的概率。95%水平(临界Z = 1.96)是转化率测试中最常见的默认值。
关键术语定义
- 转化率
- 完成目标操作的访问者比例,\(p = \text{转化次数} / \text{访问者数}\),用于给定的变体。
- 零假设
- 默认假设两个变体具有相同的真实转化率,即 \(p_A = p_B\),任何观察到的差异都是由于随机机会。
- 汇总比例
- 两个变体的合并转化率,\(\bar{p} = (\text{转化}_A + \text{转化}_B)/(n_A + n_B)\),用于估计零假设下的方差。
- 标准误差
- 转化率差异的估计标准差,\(\sqrt{\bar{p}(1-\bar{p})(1/n_A + 1/n_B)}\);随着样本量增加而减小。
- Z分数
- 用标准误差单位表示的观察到的转化率差异;较大的幅度意味着在零假设下差异不太可能。
- p值
- 观察到与测量结果同样极端或更极端差异的概率,假设零假设为真。较小的p值提供了针对零假设的更强证据。
- 双尾检验
- 一种在任一方向上检测差异(B优于或劣于A)的检验,将 \(\alpha\) 分配到分布的两条尾部。
- 置信水平
- \(1-\alpha\),判断结果显著的阈值(例如95%);它设置真正零假设被错误拒绝的频率。
- 统计显著性
- 观察到的差异不太可能仅由随机机会引起的结论,当p值低于 \(\alpha\) 时达到。
- 相对提升
- 变体B相对于变体A的百分比变化,\((p_B - p_A)/p_A \times 100\%\),描述效应的大小。
解释您的结果
一个显著结果意味着p值低于您选择的 \(\alpha\)(例如在95%置信度下低于0.05),因此观察到的变体之间的差异不太可能在零假设下仅由随机机会引起。一个不显著结果意味着数据与没有真实差异一致——它没有证明变体相等,只是说明您缺乏足够的证据来区分它们。
工作示例:有5,000名访问者和A中的250次转化(\(p_A = 0.05\))和5,000名访问者和B中的300次转化(\(p_B = 0.06\)),汇总比例为 \(\bar p = 550/10000 = 0.055\)。标准误差为 \(\sqrt{0.055\times0.945\times(1/5000+1/5000)} \approx 0.004558\),得出 \(Z = (0.06-0.05)/0.004558 \approx\) 2.19。由于 2.19 > 1.96,该结果在95%置信度下显著,相对提升为20%。
直接从这些统计数据的定义方式得出几项注意事项:
- p值不是B优于A的概率。它是观察到的(或更极端的)数据的概率假设零假设为真——关于给定假设的数据的陈述,而不是关于给定数据的假设的陈述。
- 显著性不等同于重要性。对于非常大的样本,微小的、商业上无关的提升可能具有统计显著性。始终阅读相对提升及其实际价值,而不仅仅是结论。
- 样本量驱动灵敏度。小样本产生大的标准误差,因此真正的效应可能显示为不显著;大样本检测较小的效应。在测试之前而不是在第一个显著读数时制定目标样本量。
- 避免偷看和多重测试。反复检查结果并在p < 0.05时立即停止会将假阳性率大大提高到名义 \(\alpha\) 以上。固定视界Z检验假设您在预定的样本量处评估一次;测试许多变体或指标类似地增加虚假"赢"的机会,并需要更严格的阈值。
该工具报告比例的频率论双尾Z检验;它是一般统计信息,当赌注很高时,不能替代量身定制的实验设计。
常见问题
我需要多少访客? 没有固定数字——差异越小,所需样本量越大。如果结果处于临界状态,请先收集更多数据再做决定。
P 值代表什么? 它表示假如两个版本本质上完全相同,出现如此之大(或更大)差异的概率。P 值越小,说明差异真实存在的证据越有力。
一旦结果显著,是否就该停止测试? 不应该。反复查看("偷看"数据)会增加假阳性的概率。请提前确定样本量或测试时长,到点再做评估。