Calculadora de Significancia de Test A/B (Prueba Z y Valor P)

¿Significativo?	Yes
Tasa de conversión de la Variante A	10%
Tasa de conversión de la Variante B	13%
Mejora relativa (B frente a A)	30%
Confianza observada	96,45%
Z crítico (umbral)	1,96

Qué hace esta calculadora

La Calculadora de Significancia de Test A/B te indica si la diferencia entre dos tasas de conversión es probablemente real o simplemente ruido aleatorio. Aplica la clásica prueba z de dos proporciones sobre las visitas y conversiones de tu control (Variante A) y tu retador (Variante B), y devuelve un valor Z, un valor p de dos colas, la mejora relativa y un veredicto claro de significativo / no significativo según el nivel de confianza que elijas.

Dos variantes A y B, cada una mostrando visitantes y conversiones que llevan a tasas de conversión comparadas — Una prueba A/B compara las tasas de conversión de dos variantes para ver si la diferencia es real.

Cómo usarla

Introduce el número de visitas y el número de conversiones de cada variante y, a continuación, selecciona un nivel de confianza (90 %, 95 % o 99 %). La opción más habitual es el 95 %, que corresponde a un Z crítico de $1{,}96$. Si el valor Z absoluto alcanza o supera ese umbral crítico, el resultado se marca como estadísticamente significativo.

La fórmula explicada

Cada tasa de conversión es $\hat{p} = \text{conversiones} / \text{visitas}$. La prueba combina ambas muestras en una sola proporción $$\hat{p} = \frac{c_A + c_B}{n_A + n_B}$$ para estimar un error estándar común. El valor Z es la diferencia observada entre las tasas dividida por ese error estándar: $$z = \frac{\hat{p}_B - \hat{p}_A}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_A}+\frac{1}{n_B}\right)}}$$ Cuanto mayor sea el valor Z absoluto, menos probable es que la diferencia se deba al azar. El valor p de dos colas es el doble del área de la cola superior más allá del valor Z bajo la curva normal estándar.

Curva de campana de distribución normal con la puntuación Z marcada y el área de la cola del valor p sombreada — La puntuación Z ubica tu resultado en la curva normal; el área sombreada de la cola es el valor p.

Ejemplo resuelto

Variante A: 1000 visitas, 100 conversiones (10,0 %). Variante B: 1000 visitas, 130 conversiones (13,0 %). La proporción combinada es $230/2000 = 0{,}115$, el error estándar es $$\sqrt{0{,}115 \times 0{,}885 \times \left(\frac{1}{1000} + \frac{1}{1000}\right)} \approx 0{,}01427$$ de modo que $$z \approx \frac{0{,}03}{0{,}01427} \approx 2{,}10$$ Con un 95 % de confianza (Z crítico = $1{,}96$) el resultado es estadísticamente significativo, con un valor p de dos colas de aproximadamente $0{,}036$.

Valores Z críticos por nivel de confianza

En una prueba Z de dos colas, la puntuación Z observada se compara con un valor crítico que depende del nivel de confianza elegido. El nivel de confianza es igual a $1-\alpha$, donde $\alpha$ es el umbral de significancia (la probabilidad máxima aceptable de un falso positivo). El resultado se declara significativo cuando el valor absoluto de la puntuación Z excede el valor crítico, equivalentemente cuando el valor p está por debajo de $\alpha$.

Nivel de confianza	Nivel de significancia $\alpha$	Umbral de valor p	Z crítica de dos colas
90%	0.10	< 0.10	1.645
95%	0.05	< 0.05	1.960
99%	0.01	< 0.01	2.576

Estos valores críticos provienen de la distribución normal estándar: cada uno deja $\alpha/2$ de la probabilidad en cada cola. El nivel del 95% (Z crítica = 1.96) es el valor predeterminado más común en pruebas de tasa de conversión.

Términos clave definidos

Tasa de conversión: La proporción de visitantes que completaron la acción objetivo, $p = \text{conversiones} / \text{visitantes}$, para una variante dada.
Hipótesis nula: El supuesto predeterminado de que las dos variantes tienen la misma tasa de conversión verdadera, es decir $p_A = p_B$ y cualquier diferencia observada se debe al azar.
Proporción agrupada: La tasa de conversión combinada de ambas variantes, $\bar{p} = (\text{conv}_A + \text{conv}_B)/(n_A + n_B)$, utilizada para estimar la varianza bajo la hipótesis nula.
Error estándar: La desviación estándar estimada de la diferencia en tasas de conversión, $\sqrt{\bar{p}(1-\bar{p})(1/n_A + 1/n_B)}$; disminuye conforme aumenta el tamaño de muestra.
Puntuación Z: La diferencia observada en tasas de conversión expresada en unidades de error estándar; una magnitud mayor significa que la diferencia es menos probable bajo la hipótesis nula.
Valor p: La probabilidad de observar una diferencia al menos tan extrema como la medida, asumiendo que la hipótesis nula es verdadera. Los valores p menores proporcionan evidencia más fuerte contra la hipótesis nula.
Prueba de dos colas: Una prueba que detecta una diferencia en cualquier dirección (B mejor o peor que A), dividiendo $\alpha$ entre ambas colas de la distribución.
Nivel de confianza: $1-\alpha$, el umbral (por ejemplo 95%) en el que el resultado se considera significativo; establece qué tan raramente una hipótesis nula verdadera es rechazada incorrectamente.
Significancia estadística: La conclusión de que la diferencia observada no es probable que se deba solo al azar, alcanzada cuando el valor p cae por debajo de $\alpha$.
Mejora relativa: El cambio porcentual de la variante B sobre la variante A, $(p_B - p_A)/p_A \times 100\%$, describiendo el tamaño del efecto.

Interpretando su resultado

Un resultado significativo significa que el valor p está por debajo de su $\alpha$ elegido (por ejemplo por debajo de 0.05 con 95% de confianza), por lo que la diferencia observada entre variantes es improbable que haya surgido por azar bajo la hipótesis nula. Un resultado no significativo significa que los datos son consistentes con ninguna diferencia real — no prueba que las variantes sean iguales, solo que carece de evidencia suficiente para distinguirlas.

Ejemplo resuelto: con 5,000 visitantes y 250 conversiones en A ($p_A = 0.05$) y 5,000 visitantes y 300 conversiones en B ($p_B = 0.06$), la proporción agrupada es $\bar p = 550/10000 = 0.055$. El error estándar es $\sqrt{0.055\times0.945\times(1/5000+1/5000)} \approx 0.004558$, dando $Z = (0.06-0.05)/0.004558 \approx$ 2.19. Dado que 2.19 > 1.96, el resultado es significativo con 95% de confianza, con una mejora relativa del 20%.

Varias advertencias se derivan directamente de cómo se definen estas estadísticas:

El valor p no es la probabilidad de que B sea mejor que A. Es la probabilidad de los datos observados (o más extremos) asumiendo que la hipótesis nula es verdadera — una afirmación sobre los datos dada una hipótesis, no sobre una hipótesis dados los datos.
La significancia no es lo mismo que la importancia. Con muestras muy grandes, una mejora pequeña e irrelevante comercialmente puede ser estadísticamente significativa. Siempre lea la mejora relativa y su valor práctico, no solo el veredicto.
El tamaño de muestra impulsa la sensibilidad. Las muestras pequeñas producen errores estándar grandes, por lo que un efecto genuino puede parecer no significativo; las muestras grandes detectan efectos más pequeños. Planifique un tamaño de muestra objetivo antes de la prueba en lugar de detenerla en la primera lectura significativa.
Evite mirar a hurtadillas y pruebas múltiples. Revisar repetidamente los resultados y detenerlo tan pronto como p < 0.05 infla la tasa de falso positivo muy por encima del $\alpha$ nominal. La prueba Z de horizonte fijo asume que evalúa una sola vez en un tamaño de muestra predeterminado; probar muchas variantes o métricas similarmente multiplica la posibilidad de un "ganador" espurio y requiere un umbral más estricto.

Esta herramienta informa una prueba Z frecuentista de dos colas para proporciones; es información estadística general y no un sustituto de un diseño experimental personalizado cuando los riesgos son altos.

Preguntas frecuentes

¿Cuántas visitas necesito? No hay una cifra fija: las diferencias pequeñas requieren muestras grandes. Si tu resultado está en el límite, reúne más datos antes de tomar una decisión.

¿Qué significa el valor p? Es la probabilidad de observar una diferencia tan grande (o mayor) si las dos variantes fueran en realidad idénticas. Cuanto más pequeño, más fuerte es la evidencia de una diferencia real.

¿Debo detener el test en cuanto sea significativo? No. Comprobar los resultados una y otra vez (el famoso "peeking") infla los falsos positivos. Define de antemano el tamaño de muestra o la duración y evalúa solo en ese momento.