Что считает этот калькулятор
Калькулятор значимости A/B-теста показывает, действительно ли разница между двумя коэффициентами конверсии реальна или это просто случайный «шум». Он выполняет классический z-тест для двух долей по числу посетителей и конверсий контрольного варианта (вариант A) и тестового варианта (вариант B) и возвращает Z-оценку, двусторонее p-значение, относительный прирост и понятный вердикт «значимо / незначимо» на выбранном уровне доверия.
Как пользоваться
Укажите число посетителей и число конверсий для каждого варианта, а затем выберите уровень доверия (90%, 95% или 99%). Чаще всего берут 95% — этому соответствует критическое значение Z, равное 1,96. Если модуль Z-оценки достигает критического порога или превышает его, результат помечается как статистически значимый.
Разбор формулы
Коэффициент конверсии каждого варианта считается как \(\hat{p} = \text{конверсии} / \text{посетители}\). В тесте обе выборки объединяются в общую долю
$$\hat{p} = \frac{c_A + c_B}{n_A + n_B}$$чтобы оценить общую стандартную ошибку. Z-оценка — это наблюдаемая разница коэффициентов, делённая на эту стандартную ошибку.
$$z = \frac{\hat{p}_B - \hat{p}_A}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_A}+\frac{1}{n_B}\right)}}$$Чем больше модуль Z, тем менее вероятно, что разрыв возник случайно. Двустороннее p-значение равно удвоенной площади верхнего «хвоста» за пределами Z-оценки под кривой стандартного нормального распределения.
Пример расчёта
Вариант A: 1000 посетителей, 100 конверсий (10,0%). Вариант B: 1000 посетителей, 130 конверсий (13,0%). Объединённая доля равна \(230/2000 = 0{,}115\), стандартная ошибка —
$$\sqrt{0{,}115 \times 0{,}885 \times \left(\tfrac{1}{1000} + \tfrac{1}{1000}\right)} \approx 0{,}01427$$поэтому \(z \approx 0{,}03 / 0{,}01427 \approx 2{,}10\). При уровне доверия 95% (критическое \(Z = 1{,}96\)) результат статистически значим, а двустороннее p-значение составляет примерно 0,036.
Частые вопросы
Сколько посетителей мне нужно? Фиксированного числа нет — чем меньше разница, тем больше нужна выборка. Если результат на грани значимости, соберите больше данных, прежде чем принимать решение.
Что означает p-значение? Это вероятность увидеть разницу такой же величины (или больше), если бы оба варианта на самом деле были идентичны. Чем оно меньше, тем убедительнее доказательство реальной разницы.
Можно ли останавливать тест, как только он стал значимым? Нет. Постоянные «подглядывания» в результаты раздувают долю ложноположительных выводов. Заранее определите размер выборки или длительность теста и оценивайте итог только после этого.
Критические Z-значения по уровню доверия
Для двустороннего Z-теста наблюдаемое Z-значение сравнивается с критическим значением, которое зависит от выбранного уровня доверия. Уровень доверия равен \(1-\alpha\), где \(\alpha\) — пороговое значение значимости (максимально приемлемая вероятность ложного срабатывания). Результат считается значимым, когда абсолютное Z-значение превышает критическое значение, эквивалентно тому, когда p-значение ниже \(\alpha\).
| Уровень доверия | Уровень значимости \(\alpha\) | Порог p-значения | Двусторонний критический Z |
|---|---|---|---|
| 90% | 0.10 | < 0.10 | 1.645 |
| 95% | 0.05 | < 0.05 | 1.960 |
| 99% | 0.01 | < 0.01 | 2.576 |
Эти критические значения получены из стандартного нормального распределения: каждое оставляет \(\alpha/2\) вероятности в каждом хвосте. Уровень 95% (критический Z = 1.96) — наиболее распространённое значение по умолчанию при тестировании коэффициента конверсии.
Определение ключевых терминов
- Коэффициент конверсии
- Доля посетителей, которые выполнили целевое действие, \(p = \text{конверсии} / \text{посетители}\), для данного варианта.
- Нулевая гипотеза
- Исходное предположение, что оба варианта имеют одинаковый истинный коэффициент конверсии, т.е. \(p_A = p_B\), и любое наблюдаемое различие обусловлено случайностью.
- Объединённая доля
- Совокупный коэффициент конверсии обоих вариантов, \(\bar{p} = (\text{конв}_A + \text{конв}_B)/(n_A + n_B)\), используемый для оценки дисперсии в предположении нулевой гипотезы.
- Стандартная ошибка
- Предполагаемое стандартное отклонение разности коэффициентов конверсии, \(\sqrt{\bar{p}(1-\bar{p})(1/n_A + 1/n_B)}\); она уменьшается с ростом объёма выборки.
- Z-значение
- Наблюдаемая разность коэффициентов конверсии, выраженная в единицах стандартной ошибки; большее абсолютное значение означает, что разность менее вероятна в предположении нулевой гипотезы.
- p-значение
- Вероятность получить разность, по крайней мере столь же экстремальную, как измеренная, при условии истинности нулевой гипотезы. Меньшие p-значения свидетельствуют о более сильном возражении против нулевой гипотезы.
- Двусторонний тест
- Тест, который обнаруживает различие в любом направлении (B лучше или хуже, чем A), разделяя \(\alpha\) между обоими хвостами распределения.
- Уровень доверия
- \(1-\alpha\), пороговое значение (например 95%), при котором результат считается значимым; он определяет, как редко истинная нулевая гипотеза ошибочно отклоняется.
- Статистическая значимость
- Вывод о том, что наблюдаемое различие маловероятно обусловлено случайностью, сделанный когда p-значение падает ниже \(\alpha\).
- Относительный прирост
- Процентное изменение варианта B относительно варианта A, \((p_B - p_A)/p_A \times 100\%\), описывающее величину эффекта.
Интерпретация вашего результата
Значимый результат означает, что p-значение ниже выбранного вами \(\alpha\) (например ниже 0.05 при доверии 95%), так что наблюдаемое различие между вариантами маловероятно появилось случайно в предположении нулевой гипотезы. Незначимый результат означает, что данные согласуются с отсутствием реального различия — это не доказывает, что варианты равны, только что у вас недостаточно доказательств, чтобы их различить.
Рабочий пример: при 5 000 посетителей и 250 конверсиях в варианте A (\(p_A = 0.05\)) и 5 000 посетителей и 300 конверсиях в варианте B (\(p_B = 0.06\)), объединённая доля составляет \(\bar p = 550/10000 = 0.055\). Стандартная ошибка составляет \(\sqrt{0.055\times0.945\times(1/5000+1/5000)} \approx 0.004558\), что даёт \(Z = (0.06-0.05)/0.004558 \approx\) 2.19. Так как 2.19 > 1.96, результат значим при доверии 95%, с относительным приростом 20%.
Из определения этих статистик непосредственно следуют несколько предостережений:
- p-значение — это не вероятность того, что B лучше, чем A. Это вероятность наблюдаемых (или более экстремальных) данных при условии истинности нулевой гипотезы — утверждение о данных при гипотезе, а не о гипотезе при данных.
- Значимость — это не то же самое, что важность. При очень больших выборках крошечный, коммерчески несущественный прирост может быть статистически значимым. Всегда читайте относительный прирост и его практическую ценность, а не только вердикт.
- Размер выборки определяет чувствительность. Малые выборки производят большие стандартные ошибки, так что реальный эффект может выглядеть незначимым; большие выборки обнаруживают меньшие эффекты. Планируйте целевой размер выборки до теста, а не останавливайтесь при первом значимом результате.
- Избегайте подглядывания и множественного тестирования. Многократная проверка результатов и остановка при первом p < 0.05 завышает вероятность ложного срабатывания намного выше номинального \(\alpha\). Фиксированный горизонтный Z-тест предполагает, что вы оцениваете один раз при заранее определённом размере выборки; тестирование множества вариантов или метрик аналогично умножает вероятность ложной «победы» и требует более строгого порога.
Этот инструмент сообщает о частотистском двустороннем Z-тесте для долей; это общая статистическая информация и не замена адаптированного экспериментального дизайна при высоких ставках.