A/Bテスト有意差計算ツール（Z検定・p値）

有意？	Yes
パターンA コンバージョン率	10%
パターンB コンバージョン率	13%
相対改善率（B対A）	30%
観測された信頼度	96.45%
臨界値Z（しきい値）	1.96

このツールでできること

A/Bテスト有意差計算ツールは、2つのコンバージョン率の差が「本物の差」なのか、それとも単なる偶然のばらつきなのかを見極めます。コントロール（パターンA）とチャレンジャー（パターンB）の訪問者数とコンバージョン数をもとに、古典的な2標本のz検定（2 proportion z-test）を実行。Zスコア、両側p値、相対的な改善率（uplift）、そして指定した信頼水準での「有意／非有意」の明確な結論を返します。

パターンAとBそれぞれの訪問数とコンバージョン数からコンバージョン率を比較した図 — A/Bテストは2つのパターンのコンバージョン率を比較し、差が本物かどうかを確かめます。

使い方

各パターンの訪問者数とコンバージョン数を入力し、信頼水準（90%・95%・99%）を選びます。最もよく使われるのは95%で、これは臨界値$Z = 1.96$に対応します。Zスコアの絶対値がこの臨界値以上であれば、その結果は統計的に有意と判定されます。

計算式の解説

各コンバージョン率は $\hat{p} = \text{コンバージョン数} \div \text{訪問者数}$ で求めます。検定では両方のサンプルを1つにまとめたプール比率 $$\hat{p} = \frac{c_A + c_B}{n_A + n_B}$$ を使い、共通の標準誤差を推定します。Zスコアは、観測されたコンバージョン率の差を、この標準誤差で割った値です。$$z = \frac{\hat{p}_B - \hat{p}_A}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_A}+\frac{1}{n_B}\right)}}$$ Zの絶対値が大きいほど、その差が偶然による可能性は低くなります。両側p値は、標準正規分布においてZスコアより外側にある上側の面積を2倍したものです。

Zスコアを示した正規分布のベルカーブとp値の裾部分を塗りつぶした図 — Zスコアは正規曲線上での結果の位置を示し、塗りつぶした裾の面積がp値です。

計算例

パターンA：訪問者1000人、コンバージョン100件（10.0%）。パターンB：訪問者1000人、コンバージョン130件（13.0%）。プール比率は $230 \div 2000 = 0.115$、標準誤差は $$\sqrt{0.115 \times 0.885 \times \left(\frac{1}{1000} + \frac{1}{1000}\right)} \approx 0.01427$$ なので、$$Z \approx \frac{0.03}{0.01427} \approx 2.10$$ となります。信頼水準95%（臨界値$Z = 1.96$）ではこの結果は統計的に有意で、両側p値は約0.036です。

信頼水準別の臨界Z値

両側Z検定では、観測されたZ値を、選択した信頼水準に依存する臨界値と比較します。信頼水準は$1-\alpha$に等しく、$\alpha$は有意水準です（偽陽性の最大許容確率）。絶対Z値が臨界値を超える場合、または同等にp値が$\alpha$未満の場合、結果は有意であると判定されます。

信頼水準	有意水準 $\alpha$	p値の閾値	両側臨界Z値
90%	0.10	< 0.10	1.645
95%	0.05	< 0.05	1.960
99%	0.01	< 0.01	2.576

これらの臨界値は標準正規分布から導かれます。各値は各尾部に$\alpha/2$の確率を残します。95%水準（臨界Z = 1.96）は、コンバージョン率テストにおいて最も一般的なデフォルトです。

主要用語の定義

コンバージョン率: 訪問者のうち目標アクションを完了した割合、$p = \text{コンバージョン数} / \text{訪問者数}$、特定のバリアント用。
帰無仮説: 2つのバリアントが同じ真のコンバージョン率を持つというデフォルト仮定、すなわち$p_A = p_B$であり、観測された差異はランダムな変動によるもの。
プール済み比率: 両バリアントの結合されたコンバージョン率、$\bar{p} = (\text{conv}_A + \text{conv}_B)/(n_A + n_B)$、帰無仮説下での分散推定に使用。
標準誤差: コンバージョン率の差異の推定標準偏差、$\sqrt{\bar{p}(1-\bar{p})(1/n_A + 1/n_B)}$；サンプルサイズが増加するにつれて縮小。
Z値: コンバージョン率の観測された差異を標準誤差単位で表したもの；大きさが大きいほど、帰無仮説下で差異が起こりにくい。
p値: 帰無仮説が真であると仮定した場合、観測されたものと同じくらい極端な差異を観測する確率。p値が小さいほど帰無仮説に対するより強い証拠。
両側検定: どちらかの方向での差異を検出するテスト（BがAより良い、または悪い）、分布の両尾に$\alpha$を分割。
信頼水準: $1-\alpha$、結果が有意であると判定される閾値（例：95%）；真の帰無仮説が誤って棄却される頻度を設定。
統計的有意性: 観測された差異がランダムな変動によるものでない可能性が高いという結論、p値が$\alpha$未満の場合に到達。
相対的な向上度: バリアントBのバリアントAに対する百分率の変化、$(p_B - p_A)/p_A \times 100\%$、効果のサイズを説明。

結果の解釈

有意である結果は、p値が選択した$\alpha$未満（例えば95%信頼度で0.05未満）であることを意味し、バリアント間の観測された差異は帰無仮説の下での偶然によって生じた可能性が低いことを示します。有意でない結果は、データが真の差異がないことと一致していることを意味します。バリアントが等しいことを証明するのではなく、それらを区別するのに十分な証拠がないだけです。

計算例：A群5,000名の訪問者で250コンバージョン（$p_A = 0.05$）、B群5,000名の訪問者で300コンバージョン（$p_B = 0.06$）の場合、プール済み比率は$\bar p = 550/10000 = 0.055$です。標準誤差は$\sqrt{0.055\times0.945\times(1/5000+1/5000)} \approx 0.004558$であり、$Z = (0.06-0.05)/0.004558 \approx$ 2.19となります。2.19 > 1.96であるため、結果は95%信頼度で有意であり、相対的な向上度は20%です。

いくつかの注意が直接これらの統計がどのように定義されているかから従います：

p値はBがAより良い確率ではありません。これは、帰無仮説が真であると仮定した場合の観測された（またはより極端な）データの確率です。仮説が与えられたデータについての記述ではなく、データが与えられた仮説についての記述です。
有意性は重要性と同じではありません。非常に大きなサンプルを使用すると、商業的に無関係な小さな向上度が統計的に有意である可能性があります。常に相対的な向上度とその実用的な価値を読み、ただ結論だけではなく。
サンプルサイズが感度を駆動します。小さなサンプルは大きな標準誤差を生成し、真の効果は有意でないように見えることができます；大きなサンプルはより小さな効果を検出します。テストの前に目標サンプルサイズを計画し、最初の有意な読み取りで停止するのではなく。
ピーキングと多重検定を避けてください。繰り返し結果をチェックし、p < 0.05のような最初の有意な読み取りで停止すると、偽陽性率が名目上の$\alpha$をはるかに上回ります。固定視点のZ検定は、あらかじめ決定されたサンプルサイズで1回評価することを想定しています；多くのバリアントやメトリクスをテストすると同様に本来の「勝利」の可能性を乗算し、より厳しい閾値を要求します。

このツールは比率の頻度主義両側Z検定を報告します；これは一般的な統計情報であり、リスクが高い場合のカスタマイズされた実験設計の代替ではありません。