Công Cụ Kiểm Định Ý Nghĩa A/B Test (Z-Test, P-Value)

Có ý nghĩa thống kê?	Yes
Tỷ lệ chuyển đổi Phiên bản A	10%
Tỷ lệ chuyển đổi Phiên bản B	13%
Mức tăng tương đối (B so với A)	30%
Độ tin cậy quan sát được	96,45%
Z tới hạn (ngưỡng)	1,96

Công cụ này dùng để làm gì

Công Cụ Kiểm Định Ý Nghĩa A/B Test giúp bạn biết được sự chênh lệch giữa hai tỷ lệ chuyển đổi là thật sự có ý nghĩa hay chỉ là dao động ngẫu nhiên. Công cụ thực hiện phép kiểm định z hai tỷ lệ kinh điển dựa trên số lượt truy cập và số lượt chuyển đổi của phiên bản đối chứng (Phiên bản A) và phiên bản thử nghiệm (Phiên bản B), rồi trả về Z-score, p-value hai phía, mức tăng tương đối và kết luận rõ ràng là có ý nghĩa thống kê hay không ở mức độ tin cậy bạn chọn.

Hai phiên bản A và B, mỗi phiên bản hiển thị lượt truy cập và lượt chuyển đổi dẫn đến tỷ lệ chuyển đổi được so sánh — Kiểm định A/B so sánh tỷ lệ chuyển đổi của hai phiên bản để xem chênh lệch có thực sự hay không.

Cách sử dụng

Nhập số lượt truy cập và số lượt chuyển đổi cho từng phiên bản, sau đó chọn mức độ tin cậy (90%, 95% hoặc 99%). Lựa chọn phổ biến nhất là 95%, tương ứng với giá trị Z tới hạn 1,96. Nếu trị tuyệt đối của Z-score bằng hoặc vượt ngưỡng tới hạn này, kết quả sẽ được đánh dấu là có ý nghĩa thống kê.

Giải thích công thức

Mỗi tỷ lệ chuyển đổi được tính bằng $\hat{p} = \text{số chuyển đổi} / \text{số lượt truy cập}$. Phép kiểm định gộp cả hai mẫu thành một tỷ lệ chung

$$\hat{p} = \frac{c_A + c_B}{n_A + n_B}$$

để ước lượng sai số chuẩn dùng chung. Z-score chính là chênh lệch quan sát giữa hai tỷ lệ chia cho sai số chuẩn đó.

$$z = \frac{\hat{p}_B - \hat{p}_A}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_A}+\frac{1}{n_B}\right)}}$$

Trị tuyệt đối Z càng lớn thì khả năng khoảng cách đến từ may rủi càng thấp. P-value hai phía bằng hai lần diện tích đuôi trên của Z-score dưới đường cong phân phối chuẩn tắc.

Quảng cáo

Đường cong hình chuông phân phối chuẩn với điểm Z được đánh dấu và phần đuôi giá trị p được tô đậm — Điểm Z xác định vị trí kết quả của bạn trên đường cong chuẩn; phần đuôi tô đậm là giá trị p.

Ví dụ minh họa

Phiên bản A: 1000 lượt truy cập, 100 lượt chuyển đổi (10,0%). Phiên bản B: 1000 lượt truy cập, 130 lượt chuyển đổi (13,0%). Tỷ lệ gộp là $230/2000 = 0{,}115$, sai số chuẩn là

$$\sqrt{0{,}115 \times 0{,}885 \times \left(\tfrac{1}{1000} + \tfrac{1}{1000}\right)} \approx 0{,}01427$$

vậy $z \approx 0{,}03 / 0{,}01427 \approx 2{,}10$. Ở mức tin cậy 95% (Z tới hạn = 1,96), kết quả có ý nghĩa thống kê, với p-value hai phía khoảng 0,036.

Giá trị Z tới hạn theo Mức độ tin cậy

Đối với bài kiểm định Z hai phía, Z-score quan sát được được so sánh với một giá trị tới hạn phụ thuộc vào mức độ tin cậy được chọn. Mức độ tin cậy bằng $1-\alpha$, trong đó $\alpha$ là ngưỡng ý nghĩa (xác suất tối đa chấp nhận được của một dương tính giả). Kết quả được khai báo là có ý nghĩa khi giá trị tuyệt đối của Z-score vượt quá giá trị tới hạn, tương đương khi p-value dưới $\alpha$.

Mức độ tin cậy	Mức ý nghĩa $\alpha$	Ngưỡng p-value	Z tới hạn hai phía
90%	0.10	< 0.10	1.645
95%	0.05	< 0.05	1.960
99%	0.01	< 0.01	2.576

Các giá trị tới hạn này đến từ phân phối chuẩn: mỗi cái để lại $\alpha/2$ của xác suất ở mỗi đuôi. Mức 95% (Z tới hạn = 1.96) là mức mặc định phổ biến nhất trong kiểm định tỷ lệ chuyển đổi.

Các Thuật ngữ Chính được Định nghĩa

Tỷ lệ chuyển đổi: Tỷ lệ khách truy cập hoàn thành hành động mục tiêu, $p = \text{chuyển đổi} / \text{khách truy cập}$, cho một biến thể nhất định.
Giả thuyết không: Giả định mặc định rằng hai biến thể có cùng tỷ lệ chuyển đổi thực, tức là $p_A = p_B$ và bất kỳ sự khác biệt quan sát được nào là do cơ hội ngẫu nhiên.
Tỷ lệ kết hợp: Tỷ lệ chuyển đổi kết hợp của cả hai biến thể, $\bar{p} = (\text{chuyển đổi}_A + \text{chuyển đổi}_B)/(n_A + n_B)$, được sử dụng để ước tính phương sai dưới giả thuyết không.
Sai số chuẩn: Độ lệch chuẩn ước tính của sự khác biệt tỷ lệ chuyển đổi, $\sqrt{\bar{p}(1-\bar{p})(1/n_A + 1/n_B)}$; nó giảm khi cỡ mẫu tăng.
Z-score: Sự khác biệt quan sát được tỷ lệ chuyển đổi biểu thị bằng đơn vị sai số chuẩn; độ lớn lớn hơn có nghĩa là sự khác biệt ít có khả năng dưới giả thuyết không.
p-value: Xác suất quan sát được sự khác biệt ít nhất cực đoan như cái được đo, giả sử giả thuyết không là đúng. Các p-value nhỏ hơn cho bằng chứng mạnh mẽ hơn chống lại giả thuyết không.
Bài kiểm định hai phía: Một bài kiểm định phát hiện sự khác biệt theo cả hai hướng (B tốt hơn hoặc tệ hơn A), chia $\alpha$ trên cả hai đuôi của phân phối.
Mức độ tin cậy: $1-\alpha$, ngưỡng (ví dụ 95%) mà tại đó kết quả được đánh giá là có ý nghĩa; nó xác định mức độ hiếm khi một giả thuyết không thực sự bị bác bỏ sai.
Ý nghĩa thống kê: Kết luận rằng sự khác biệt quan sát được không có khả năng là do cơ hội ngẫu nhiên một mình, đạt được khi p-value giảm dưới $\alpha$.
Cải thiện tương đối: Thay đổi phần trăm của biến thể B so với biến thể A, $(p_B - p_A)/p_A \times 100\%$, mô tả quy mô của hiệu ứng.

Quảng cáo

Giải thích Kết quả của Bạn

Một kết quả có ý nghĩa có nghĩa là p-value dưới $\alpha$ được chọn của bạn (ví dụ dưới 0.05 ở độ tin cậy 95%), vì vậy sự khác biệt quan sát được giữa các biến thể không có khả năng phát sinh do cơ hội dưới giả thuyết không. Một kết quả không có ý nghĩa có nghĩa là dữ liệu nhất quán với không có sự khác biệt thực — nó không chứng minh các biến thể bằng nhau, chỉ là bạn thiếu đủ bằng chứng để phân biệt chúng.

Ví dụ thực tế: với 5.000 khách truy cập và 250 chuyển đổi ở A ($p_A = 0.05$) và 5.000 khách truy cập và 300 chuyển đổi ở B ($p_B = 0.06$), tỷ lệ kết hợp là $\bar p = 550/10000 = 0.055$. Sai số chuẩn là $\sqrt{0.055\times0.945\times(1/5000+1/5000)} \approx 0.004558$, cho $Z = (0.06-0.05)/0.004558 \approx$ 2.19. Vì 2.19 > 1.96, kết quả có ý nghĩa ở độ tin cậy 95%, với cải thiện tương đối là 20%.

Một số cảnh báo xuất phát trực tiếp từ cách các thống kê này được định nghĩa:

p-value không phải là xác suất B tốt hơn A. Nó là xác suất của dữ liệu quan sát được (hoặc cực đoan hơn) giả sử giả thuyết không là đúng — một tuyên bố về dữ liệu cho một giả thuyết, không phải về một giả thuyết cho dữ liệu.
Ý nghĩa không giống như tầm quan trọng. Với các mẫu rất lớn, một cải thiện nhỏ, không liên quan về mặt thương mại có thể có ý nghĩa thống kê. Luôn đọc cải thiện tương đối và giá trị thực tế của nó, không chỉ phán quyết.
Cỡ mẫu thúc đẩy độ nhạy. Các mẫu nhỏ tạo ra sai số chuẩn lớn, vì vậy một hiệu ứng thực sự có thể trông không có ý nghĩa; các mẫu lớn phát hiện các hiệu ứng nhỏ hơn. Lập kế hoạch cỡ mẫu mục tiêu trước khi kiểm định thay vì dừng lại ở lần đọc đầu tiên có ý nghĩa.
Tránh lén nhìn và kiểm định nhiều lần. Liên tục kiểm tra kết quả và dừng ngay khi p < 0.05 làm tăng tỷ lệ dương tính giả cao hơn $\alpha$ danh nghĩa. Bài kiểm định Z hai phía với chân trời cố định giả định bạn đánh giá một lần ở cỡ mẫu được xác định trước; kiểm định nhiều biến thể hoặc số liệu tương tự nhân cơ hội của một "chiến thắng" giả mạo và đảm bảo một ngưỡng khắt khe hơn.

Công cụ này báo cáo một bài kiểm định Z hai phía tần suất cho các tỷ lệ; đó là thông tin thống kê chung và không phải là thay thế cho một thiết kế thí nghiệm được điều chỉnh khi những cổ phiếu cao.

Câu hỏi thường gặp

Tôi cần bao nhiêu lượt truy cập? Không có con số cố định — chênh lệch càng nhỏ thì càng cần mẫu lớn. Nếu kết quả của bạn ở mức ranh giới, hãy thu thập thêm dữ liệu trước khi đưa ra quyết định.

P-value có ý nghĩa gì? Đó là xác suất quan sát được chênh lệch lớn như vậy (hoặc lớn hơn) trong trường hợp hai phiên bản thực ra hoàn toàn giống nhau. Giá trị càng nhỏ thì bằng chứng về sự khác biệt thực sự càng mạnh.

Có nên dừng thử nghiệm ngay khi đạt ý nghĩa thống kê không? Không nên. Việc liên tục kiểm tra ("peeking" — nhìn lén kết quả) làm tăng tỷ lệ dương tính giả. Hãy ấn định trước cỡ mẫu hoặc thời lượng chạy thử, rồi mới đánh giá tại thời điểm đó.