A/B 測試顯著性計算機（Z 檢定、P 值）

是否顯著？	Yes
版本 A 轉換率	10%
版本 B 轉換率	13%
相對提升幅度（B 對 A）	30%
實際信心水準	96.45%
臨界 Z 值（門檻）	1.96

這個計算機能做什麼

A/B 測試顯著性計算機可以幫你判斷兩個轉換率之間的差異是真正的效果，還是只是隨機的雜訊。它會針對對照組（版本 A）與挑戰組（版本 B）的訪客數與轉換數，執行經典的雙比例 z 檢定，並回傳 Z 值、雙尾 p 值、相對提升幅度，以及在你所選信心水準下「顯著 / 不顯著」的明確結論。

版本 A 和 B 各自顯示訪客數和轉換數，並比較轉換率 — A/B 測試比較兩個版本的轉換率，看差異是否真實。

使用方式

分別輸入每個版本的訪客數與轉換數，接著選擇信心水準（90%、95% 或 99%）。最常見的選擇是 95%，對應的臨界 Z 值為 $1.96$。當 Z 值的絕對值達到或超過臨界門檻時，結果就會被標示為具統計顯著性。

公式解析

每個版本的轉換率為 $\hat{p} = \text{轉換數} \div \text{訪客數}$。檢定會把兩組樣本合併為單一比例 $$\hat{p} = \frac{c_A + c_B}{n_A + n_B}$$ 用來估計共同的標準誤差。Z 值則是觀察到的轉換率差距除以該標準誤差。$$z = \frac{\hat{p}_B - \hat{p}_A}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_A}+\frac{1}{n_B}\right)}}$$ Z 的絕對值越大，代表這個差距越不可能只是運氣造成的。雙尾 p 值則是在標準常態分配下，超過該 Z 值的上尾面積的兩倍。

常態分布鐘形曲線，標記了 Z 分數並以陰影顯示 p 值尾部區域 — Z 分數標出你的結果在常態曲線上的位置；陰影尾部面積即 p 值。

實際範例

版本 A：1000 名訪客，100 次轉換（10.0%）。版本 B：1000 名訪客，130 次轉換（13.0%）。合併比例為 $230/2000 = 0.115$，標準誤差為 $$\sqrt{0.115 \times 0.885 \times \left(\frac{1}{1000} + \frac{1}{1000}\right)} \approx 0.01427$$ 因此 $z \approx 0.03 / 0.01427 \approx 2.10$。在 95% 信心水準下（臨界 $Z = 1.96$），這個結果具統計顯著性，雙尾 p 值約為 $0.036$。

按信心水平的臨界Z值

對於雙尾Z檢驗，觀察到的Z分數與取決於所選信心水平的臨界值進行比較。信心水平等於 $1-\alpha$，其中 $\alpha$ 是顯著性閾值（假陽性的最大可接受概率）。當絕對Z分數超過臨界值時，結果被宣布為顯著，等價地當p值低於 $\alpha$ 時。

信心水平	顯著性水平 $\alpha$	p值閾值	雙尾臨界Z
90%	0.10	< 0.10	1.645
95%	0.05	< 0.05	1.960
99%	0.01	< 0.01	2.576

這些臨界值來自標準正態分佈：每個在每個尾部留下 $\alpha/2$ 的概率。95%水平（臨界Z = 1.96）是轉換率測試中最常見的預設。

關鍵術語定義

轉換率: 完成目標行動的訪客比例，$p = \text{轉換} / \text{訪客}$，針對給定的變體。
零假設: 預設假設兩個變體具有相同的真實轉換率，即 $p_A = p_B$，任何觀察到的差異都是由於隨機變化。
合併比例: 兩個變體的綜合轉換率，$\bar{p} = (\text{轉換}_A + \text{轉換}_B)/(n_A + n_B)$，用於在零假設下估計變異數。
標準誤差: 轉換率差異的估計標準差，$\sqrt{\bar{p}(1-\bar{p})(1/n_A + 1/n_B)}$；隨著樣本量增加而縮小。
Z分數: 用標準誤差單位表示的觀察到的轉換率差異；較大的幅度意味著在零假設下差異不太可能。
p值: 在零假設為真的情況下，觀察到至少與測量結果一樣極端的差異的概率。較小的p值對零假設提供更強的證據。
雙尾檢驗: 在任一方向上檢測差異（B優於或劣於A）的檢驗，在分佈的兩個尾部分割 $\alpha$。
信心水平: $1-\alpha$，評判結果顯著的閾值（例如95%）；它設置真零假設被錯誤拒絕的頻率。
統計顯著性: 觀察到的差異不太可能單獨由於偶然而發生的結論，當p值低於 $\alpha$ 時達到。
相對提升: 變體B相對於變體A的百分比變化，$(p_B - p_A)/p_A \times 100\%$，描述效應的大小。

解釋您的結果

一個顯著的結果意味著p值低於您選擇的 $\alpha$（例如在95%信心水平下低於0.05），因此變體之間觀察到的差異不太可能在零假設下由偶然造成。一個不顯著的結果意味著數據與沒有真實差異一致——它不能證明變體相等，只是您缺乏足夠的證據來區分它們。

舉例：有5,000個訪客和250次轉換在A中（$p_A = 0.05$）和5,000個訪客和300次轉換在B中（$p_B = 0.06$），合併比例為 $\bar p = 550/10000 = 0.055$。標準誤差為 $\sqrt{0.055\times0.945\times(1/5000+1/5000)} \approx 0.004558$，得到 $Z = (0.06-0.05)/0.004558 \approx$ 2.19。由於2.19 > 1.96，結果在95%信心水平下是顯著的，相對提升為20%。

幾個警告直接來自這些統計數據的定義方式：

p值不是B優於A的概率。它是觀察到的（或更極端的）數據的概率假設零假設為真——關於給定假設的數據的陳述，而不是關於給定數據的假設。
顯著性不同於重要性。在非常大的樣本中，微小的、商業上無關的提升可能在統計上是顯著的。始終閱讀相對提升及其實際價值，不僅僅是結論。
樣本量驅動敏感性。小樣本產生大的標準誤差，因此真實效應可能看起來不顯著；大樣本檢測較小的效應。在測試前計畫目標樣本量，而不是在第一次顯著讀數時停止。
避免偷看和多重測試。重複檢查結果並在p < 0.05時立即停止會將假陽性率遠高於名義 $\alpha$。固定視野Z檢驗假設您在預定樣本量進行一次評估；測試許多變體或指標類似地倍增虛假「勝利」的機會，並保證更嚴格的閾值。

此工具報告比例的頻率論雙尾Z檢驗；它是一般統計信息，當風險很高時，不是為量身定製的實驗設計的替代品。