¿Qué es una calculadora de significancia para tests A/B?
Esta herramienta te indica si la diferencia entre dos variantes de un test A/B es estadísticamente significativa o si podría deberse simplemente al azar. Utiliza el test z para dos proporciones, el método estándar para comparar las tasas de conversión entre un control (A) y una variante (B).
Cómo utilizarla
Introduce el número de conversiones y el total de visitas de cada variante. La calculadora devuelve el valor z, el valor p a dos colas y el nivel de confianza. Una confianza del 95 % o superior (valor p ≤ 0,05) es el umbral habitual para declarar un ganador.
La fórmula explicada
Primero se calcula la proporción combinada como \(\hat{p} = (x_1 + x_2) / (n_1 + n_2)\). El error estándar es \(\sqrt{\hat{p}(1-\hat{p})(1/n_1 + 1/n_2)}\). El valor z es la diferencia entre las dos tasas observadas dividida por este error estándar:
$$Z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\bar{p}\,(1-\bar{p})\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}$$El valor p se obtiene a partir de la distribución normal estándar (a dos colas), y la confianza equivale a \((1 - \text{valor p}) \times 100\,\%\).
Ejemplo resuelto
Variante A: 120 conversiones de 1.000 (12 %). Variante B: 150 de 1.000 (15 %). Proporción combinada \(\hat{p} = 270/2000 = 0{,}135\). \(EE = \sqrt{0{,}135 \times 0{,}865 \times (0{,}001 + 0{,}001)} \approx 0{,}01528\). \(z = (0{,}12 - 0{,}15) / 0{,}01528 \approx -1{,}963\). El valor p a dos colas \(\approx 0{,}0496\), lo que da alrededor de un 95 % de confianza: un resultado en el límite de la significancia.
Preguntas frecuentes
¿Qué nivel de confianza debo buscar? El 95 % es el estándar del sector, lo que significa un 5 % de probabilidad de que el resultado sea un falso positivo.
¿Importa el tamaño de la muestra? Sí. Las muestras pequeñas generan valores p altos incluso ante diferencias reales; deja que los tests se ejecuten hasta que cada variante tenga visitas suficientes.
¿Por qué a dos colas? Un test a dos colas detecta una diferencia en cualquier dirección (que B sea mejor o peor que A), lo que constituye la opción por defecto más segura.