Công cụ kiểm định ý nghĩa A/B test là gì?
Công cụ này cho bạn biết liệu sự chênh lệch giữa hai phiên bản trong một A/B test có thực sự mang ý nghĩa thống kê, hay chỉ là kết quả ngẫu nhiên. Nó sử dụng phép kiểm định z hai tỷ lệ (two-proportion z-test) — phương pháp tiêu chuẩn để so sánh tỷ lệ chuyển đổi giữa phiên bản gốc (A) và phiên bản thử nghiệm (B).
Cách sử dụng
Nhập số lượt chuyển đổi và tổng số lượt truy cập cho từng phiên bản. Công cụ sẽ trả về z-score, p-value (kiểm định hai phía) và mức độ tin cậy. Độ tin cậy từ 95% trở lên (p-value ≤ 0,05) là ngưỡng phổ biến để khẳng định một phiên bản chiến thắng.
Giải thích công thức
Trước tiên, tỷ lệ gộp được tính bằng \(\bar{p} = \dfrac{x_1 + x_2}{n_1 + n_2}\). Sai số chuẩn là \(\sqrt{\bar{p}(1-\bar{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}\). Z-score là chênh lệch giữa hai tỷ lệ quan sát được chia cho sai số chuẩn này:
$$Z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\bar{p}\,(1-\bar{p})\left(\dfrac{1}{n_1}+\dfrac{1}{n_2}\right)}}$$
$$\text{trong đó}\quad \left\{ \begin{aligned} \hat{p}_1 &= \dfrac{\text{Conversions A}}{\text{Visitors A}} \\ \hat{p}_2 &= \dfrac{\text{Conversions B}}{\text{Visitors B}} \\ \bar{p} &= \dfrac{\text{Conv. A} + \text{Conv. B}}{\text{Visitors A} + \text{Visitors B}} \end{aligned} \right.$$
P-value được suy ra từ phân phối chuẩn (kiểm định hai phía), và độ tin cậy bằng \((1 - \text{p-value}) \times 100\%\).
Ví dụ minh họa
Phiên bản A: 120 chuyển đổi trên 1.000 lượt (12%). Phiên bản B: 150 trên 1.000 lượt (15%). Tỷ lệ gộp \(\bar{p} = 270/2000 = 0{,}135\). \(\text{SE} = \sqrt{0{,}135 \times 0{,}865 \times (0{,}001 + 0{,}001)} \approx 0{,}01528\). $$Z = \frac{0{,}12 - 0{,}15}{0{,}01528} \approx -1{,}963$$ P-value hai phía \(\approx 0{,}0496\), tương ứng độ tin cậy khoảng 95% — một kết quả nằm ngay ở ranh giới có ý nghĩa thống kê.
Câu hỏi thường gặp
Nên đặt mục tiêu độ tin cậy bao nhiêu? 95% là chuẩn của ngành, nghĩa là có 5% khả năng kết quả là dương tính giả.
Cỡ mẫu có quan trọng không? Có. Cỡ mẫu nhỏ tạo ra p-value lớn ngay cả khi chênh lệch là thật; hãy để test chạy cho đến khi mỗi phiên bản có đủ lượt truy cập.
Vì sao dùng kiểm định hai phía? Kiểm định hai phía phát hiện chênh lệch theo cả hai chiều (B tốt hơn hoặc kém hơn A), nên đây là lựa chọn mặc định an toàn hơn.