输入计算

结果

统计置信水平

95.04%

双尾

什么是A/B测试显著性计算器？

这个工具能帮你判断：A/B测试中两个版本之间的差异究竟是真实有效，还是仅仅出于随机波动。它采用双比例Z检验（two-proportion z-test），这是比较对照组（A）与实验组（B）转化率时的标准方法。

如何使用

分别填入每个版本的转化数量和访问总数，计算器会返回Z值、双尾P值以及置信水平。通常以置信水平达到95%及以上（即P值 ≤ 0.05）作为判定胜出版本的门槛。

首先计算合并比例：$\bar{p} = (x_1 + x_2) / (n_1 + n_2)$。标准误为 $\sqrt{\bar{p}(1-\bar{p})(1/n_1 + 1/n_2)}$。Z值等于两个实测转化率之差除以该标准误：

$$Z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\bar{p}\,(1-\bar{p})\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}$$

P值由标准正态分布（双尾）推导得出，置信水平 = $(1 - P值) \times 100\%$。

版本A：1,000次访问中有120次转化（12%）。版本B：1,000次访问中有150次转化（15%）。合并比例 $\bar{p} = 270/2000 = 0.135$。标准误

$$SE = \sqrt{0.135 \times 0.865 \times (0.001 + 0.001)} \approx 0.01528$$

Z值

$$Z = (0.12 - 0.15) / 0.01528 \approx -1.963$$

对应的双尾P值约为0.0496，置信水平约95%——属于刚刚达到显著的临界结果。

应该把置信水平定在多少？95%是行业通用标准，意味着结果为"假阳性"的概率为5%。

样本量重要吗？非常重要。样本太小时，即便存在真实差异，P值也可能偏大；建议让测试持续运行，直到每个版本都积累足够的访问量。

为什么用双尾检验？双尾检验能检测两个方向上的差异（即B优于A或劣于A），是更稳妥的默认选择。