什么是A/B测试显著性计算器?
这个工具能帮你判断:A/B测试中两个版本之间的差异究竟是真实有效,还是仅仅出于随机波动。它采用双比例Z检验(two-proportion z-test),这是比较对照组(A)与实验组(B)转化率时的标准方法。
如何使用
分别填入每个版本的转化数量和访问总数,计算器会返回Z值、双尾P值以及置信水平。通常以置信水平达到95%及以上(即P值 ≤ 0.05)作为判定胜出版本的门槛。
计算公式详解
首先计算合并比例:\(\bar{p} = (x_1 + x_2) / (n_1 + n_2)\)。标准误为 \(\sqrt{\bar{p}(1-\bar{p})(1/n_1 + 1/n_2)}\)。Z值等于两个实测转化率之差除以该标准误:
$$Z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\bar{p}\,(1-\bar{p})\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}$$P值由标准正态分布(双尾)推导得出,置信水平 = \((1 - P值) \times 100\%\)。
实例演算
版本A:1,000次访问中有120次转化(12%)。版本B:1,000次访问中有150次转化(15%)。合并比例 \(\bar{p} = 270/2000 = 0.135\)。标准误
$$SE = \sqrt{0.135 \times 0.865 \times (0.001 + 0.001)} \approx 0.01528$$Z值
$$Z = (0.12 - 0.15) / 0.01528 \approx -1.963$$对应的双尾P值约为0.0496,置信水平约95%——属于刚刚达到显著的临界结果。
常见问题
应该把置信水平定在多少?95%是行业通用标准,意味着结果为"假阳性"的概率为5%。
样本量重要吗?非常重要。样本太小时,即便存在真实差异,P值也可能偏大;建议让测试持续运行,直到每个版本都积累足够的访问量。
为什么用双尾检验?双尾检验能检测两个方向上的差异(即B优于A或劣于A),是更稳妥的默认选择。