透過 MCP 連接 →

輸入計算

數學公式

廣告

結果

統計信賴水準
95.04%
雙尾
Z 分數 -1.963
P 值 0.04964
版本 A 轉換率 12%
版本 B 轉換率 15%
相對提升幅度 25%

什麼是 A/B 測試顯著性計算器?

這個工具能告訴您:A/B 測試中兩個版本之間的差異究竟是真的有意義,還是只是隨機波動造成的巧合。它採用雙比例 z 檢定(two-proportion z-test),這正是用來比較對照組(A)與實驗組(B)轉換率的標準方法。

將訪客轉換為轉換的 A、B 兩個版本漏斗,對比以決出優勝者
A/B 測試比較兩個版本的轉換率,找出具有統計顯著性的優勝者。

使用方法

分別輸入每個版本的轉換數與總訪客數,計算器就會回傳 z 分數、雙尾 p 值以及信賴水準。一般而言,信賴水準達到 95% 以上(p 值 ≤ 0.05)就是業界用來判定「哪個版本勝出」的常見門檻。

公式解析

首先計算合併比例(pooled proportion):\(\bar{p} = (x_1 + x_2) / (n_1 + n_2)\)。標準誤為 \(\sqrt{\bar{p}(1-\bar{p})(1/n_1 + 1/n_2)}\)。z 分數則是兩個觀測轉換率的差,除以這個標準誤:

$$Z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\bar{p}\,(1-\bar{p})\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}$$

p 值由標準常態分配推導而得(雙尾),信賴水準則等於 \((1 - \text{p 值}) \times 100\%\)。

Advertisement
標有 z 分數並對 p 值尾部區域加陰影的常態分佈曲線
z 分數將結果定位在常態曲線上;陰影尾部即為 p 值。

實際範例

版本 A:1,000 位訪客中有 120 次轉換(12%)。版本 B:1,000 位訪客中有 150 次轉換(15%)。合併比例 \(\bar{p} = 270/2000 = 0.135\)。\(SE = \sqrt{0.135 \times 0.865 \times (0.001 + 0.001)} \approx 0.01528\)。\(Z = (0.12 - 0.15) / 0.01528 \approx -1.963\)。雙尾 p 值約為 0.0496,信賴水準約 95%——這是一個剛好踩在門檻邊緣的顯著結果。

常見問題

該設定多高的信賴水準?95% 是業界標準,代表結果為「偽陽性」(誤判為有差異)的機率只有 5%。

樣本數重要嗎?非常重要。樣本太小時,即使真的存在差異,p 值仍會偏高;建議讓測試持續進行,直到每個版本都累積足夠的訪客數。

為什麼要用雙尾檢定?雙尾檢定可以偵測任一方向的差異(B 比 A 好,或 B 比 A 差),是較為穩健且保險的預設做法。

最後更新: