A/B Test Anlamlılık Hesaplayıcı (Z-Testi, P-Değeri)

Anlamlı mı?	Yes
Varyant A dönüşüm oranı	10%
Varyant B dönüşüm oranı	13%
Göreceli artış (B / A)	30%
Gözlemlenen güven düzeyi	96,45%
Kritik Z (eşik değeri)	1,96

Bu hesaplayıcı ne işe yarar?

A/B Test Anlamlılık Hesaplayıcı, iki dönüşüm oranı arasındaki farkın gerçek mi yoksa yalnızca rastgele dalgalanma mı olduğunu anlamanıza yardımcı olur. Kontrol grubunuzun (Varyant A) ve rakip grubunuzun (Varyant B) ziyaretçi ile dönüşüm verileri üzerinde klasik iki oranlı z-testini uygular; size bir Z-skoru, çift kuyruklu p-değeri, göreceli artış oranını ve seçtiğiniz güven düzeyinde net bir "anlamlı / anlamlı değil" sonucu sunar.

Ziyaretçi ve dönüşümleri gösteren, dönüşüm oranları karşılaştırılan A ve B adlı iki varyant — A/B testi, farkın gerçek olup olmadığını görmek için iki varyantın dönüşüm oranlarını karşılaştırır.

Nasıl kullanılır?

Her varyant için ziyaretçi sayısını ve dönüşüm sayısını girin, ardından bir güven düzeyi seçin (%90, %95 veya %99). En yaygın tercih, kritik Z değeri 1,96'ya karşılık gelen %95'tir. Mutlak Z-skoru bu kritik eşiğe ulaşır ya da onu aşarsa sonuç istatistiksel olarak anlamlı kabul edilir.

Formülün açıklaması

Her dönüşüm oranı $\hat{p} = \text{dönüşüm} / \text{ziyaretçi}$ şeklinde hesaplanır. Test, ortak bir standart hatayı tahmin edebilmek için iki örneklemi tek bir orana toplar:

$$\hat{p} = \frac{c_A + c_B}{n_A + n_B}$$

Z-skoru ise oranlar arasındaki gözlemlenen farkın bu standart hataya bölünmesiyle bulunur.

$$z = \frac{\hat{p}_B - \hat{p}_A}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_A}+\frac{1}{n_B}\right)}}$$

Mutlak Z değeri ne kadar büyükse, farkın tesadüfe bağlı olma olasılığı o kadar düşüktür. Çift kuyruklu p-değeri, standart normal dağılım altında Z-skorunun ötesindeki üst kuyruk alanının iki katıdır.

Reklam

Z puanı işaretlenmiş ve p değeri kuyruk alanı gölgelenmiş normal dağılım çan eğrisi — Z puanı sonucunuzu normal eğri üzerinde konumlandırır; gölgeli kuyruk alanı p değeridir.

Örnek hesaplama

Varyant A: 1000 ziyaretçi, 100 dönüşüm (%10,0). Varyant B: 1000 ziyaretçi, 130 dönüşüm (%13,0). Birleştirilmiş oran $230/2000 = 0{,}115$, standart hata $\sqrt{0{,}115 \times 0{,}885 \times (1/1000 + 1/1000)} \approx 0{,}01427$ olur; buradan

$$z \approx \frac{0{,}03}{0{,}01427} \approx 2{,}10$$

bulunur. %95 güven düzeyinde (kritik $Z = 1{,}96$) sonuç istatistiksel olarak anlamlıdır ve çift kuyruklu p-değeri yaklaşık 0,036'dır.

Güven Düzeyine Göre Kritik Z-Değerleri

İki-yönlü Z-testinde gözlenen Z-puanı, seçilen güven düzeyine bağlı olan bir kritik değer ile karşılaştırılır. Güven düzeyi $1-\alpha$ eşittir; burada $\alpha$ anlamlılık eşiğidir (yanlış pozitiflerin maksimum kabul edilebilir olasılığı). Mutlak Z-puanı kritik değeri aştığında sonuç anlamlı olarak bildirilir; eşdeğer olarak, p-değeri $\alpha$'dan küçük olduğunda anlamlıdır.

Güven düzeyi	Anlamlılık düzeyi $\alpha$	p-değeri eşiği	İki-yönlü kritik Z
90%	0.10	< 0.10	1.645
95%	0.05	< 0.05	1.960
99%	0.01	< 0.01	2.576

Bu kritik değerler standart normal dağılımdan gelir: her biri her kuyrukta $\alpha/2$ olasılığını bırakır. %95 düzeyi (kritik Z = 1.96) dönüşüm oranı testlemesinde en yaygın varsayılandır.

Temel Terimler Tanımlandı

Dönüşüm oranı: Belirli bir varyant için hedef eylemi tamamlayan ziyaretçilerin oranı, $p = \text{dönüşümler} / \text{ziyaretçiler}$.
Null hipotezi: İki varyantın aynı gerçek dönüşüm oranına sahip olduğuna dair varsayılan varsayım, yani $p_A = p_B$ ve gözlenen herhangi bir fark rastgele şansa bağlıdır.
Birleştirilmiş oran: Her iki varyantın birleştirilmiş dönüşüm oranı, $\bar{p} = (\text{dön}_A + \text{dön}_B)/(n_A + n_B)$; null hipotez altında varyansı tahmin etmek için kullanılır.
Standart hata: Dönüşüm oranlarındaki farkın tahmini standart sapması, $\sqrt{\bar{p}(1-\bar{p})(1/n_A + 1/n_B)}$; örneklem boyutu arttıkça küçülür.
Z-puanı: Dönüşüm oranlarındaki gözlenen fark, standart-hata birimleri cinsinden ifade edilir; daha büyük büyüklük, farkın null hipotez altında daha az olası olduğu anlamına gelir.
p-değeri: Null hipotezin doğru olduğunu varsayarsak, ölçülen fark kadar veya daha aşırı bir fark gözlemleme olasılığı. Daha küçük p-değerleri, null hipotezine karşı daha güçlü kanıt sağlar.
İki-yönlü test: Herhangi bir yönde fark algılayan (B, A'dan daha iyi veya daha kötü) ve $\alpha$'yı dağılımın her iki kuyruğu arasında bölen bir test.
Güven düzeyi: $1-\alpha$, sonucun anlamlı olarak yargılandığı eşik (örneğin %95); gerçek bir null'ün yanlışlıkla reddedilme sıklığını belirler.
İstatistiksel anlamlılık: Gözlenen farkın şans eseri oluşması olasılığının düşük olduğu ve p-değeri $\alpha$'dan düşük olduğunda ulaşılan sonuç.
Göreceli yükseliş: Varyant B'nin varyant A'ya göre yüzde değişimi, $(p_B - p_A)/p_A \times 100\%$; etkinin büyüklüğünü tanımlar.

Reklam

Sonucunuzu Yorumlama

Anlamlı bir sonuç, p-değerinin seçtiğiniz $\alpha$'dan düşük olduğu anlamına gelir (örneğin %95 güven seviyesinde 0.05'ten düşük), bu nedenle varyantlar arasındaki gözlenen fark, null hipotez altında şans eseri ortaya çıkmış olması olasılığı düşüktür. Anlamlı olmayan bir sonuç, verilerin gerçek bir fark olmadığıyla tutarlı olduğu anlamına gelir — bu, varyantların eşit olduğunu kanıtlamaz, yalnızca onları ayırt etmek için yeterli kanıta sahip olmadığınız anlamına gelir.

Çalışılmış örnek: 5.000 ziyaretçi ve A'da 250 dönüşüm ($p_A = 0.05$) ve 5.000 ziyaretçi ve B'de 300 dönüşüm ($p_B = 0.06$) ile, birleştirilmiş oran $\bar p = 550/10000 = 0.055$ olur. Standart hata $\sqrt{0.055\times0.945\times(1/5000+1/5000)} \approx 0.004558$, $Z = (0.06-0.05)/0.004558 \approx$ 2.19 verir. 2.19 > 1.96 olduğundan, sonuç %95 güven seviyesinde anlamlıdır; göreceli yükseliş %20'dir.

Bu istatistiklerin nasıl tanımlandığından doğrudan birkaç uyarı gelir:

p-değeri, B'nin A'dan daha iyi olma olasılığı değildir. Null'ün doğru olduğunu varsayarak, gözlenen (veya daha aşırı) veri görme olasılığıdır — veriler hakkında bir hipotez yapan bir ifade, veriler verilen bir hipotez hakkında değil.
Anlamlılık, önem ile aynı değildir. Çok büyük örneklerle, ticari olarak önemsiz küçük bir yükseliş istatistiksel olarak anlamlı olabilir. Sadece kararı değil, göreceli yükselişi ve pratik değerini de okuyun.
Örneklem boyutu duyarlılığı yönlendirir. Küçük örneklemler büyük standart hatalar üretir, bu nedenle gerçek bir etki anlamlı olmayan görünebilir; büyük örneklemler daha küçük etkileri algılar. Testin ilk anlamlı okumasında durdurmak yerine önceden hedef örneklem boyutunu planlayın.
Göz kırpmaktan ve çoklu testlemeden kaçının. Sonuçları tekrar tekrar kontrol etmek ve p < 0.05 olur olmaz durdurmak, yanlış pozitif oranını nominal $\alpha$ değerinden çok daha yükseke çıkarır. Sabit ufuklı Z-testi, önceden belirlenmiş bir örneklem boyutunda bir kez değerlendirdiğinizi varsayar; birçok varyantı veya metriği testlemek benzer şekilde sahte bir "başarı" şansını çarpar ve daha katı bir eşik gerektirir.

Bu araç, oranlar için sık kullanılan iki-yönlü Z-testini raporlar; bu, genel istatistiksel bilgidir ve paylar yüksek olduğunda uyarlanmış bir deney tasarımının yerine geçmez.

Sıkça sorulan sorular

Kaç ziyaretçiye ihtiyacım var? Sabit bir sayı yoktur — küçük farkların ortaya çıkması için büyük örneklem gerekir. Sonucunuz sınırdaysa karar vermeden önce daha fazla veri toplayın.

P-değeri ne anlama geliyor? İki varyant aslında tamamen aynı olsaydı, bu kadar büyük (ya da daha büyük) bir farkı görme olasılığını gösterir. Değer ne kadar küçükse, gerçek bir farkın varlığına dair kanıt o kadar güçlüdür.

Anlamlı olur olmaz testi durdurmalı mıyım? Hayır. Sürekli kontrol etmek (sonuca "göz atmak") yanlış pozitifleri artırır. Örneklem büyüklüğüne veya test süresine önceden karar verin ve değerlendirmeyi o noktada yapın.