Calculateur de significativité A/B (test Z, p-value)

Significatif ?	Yes
Taux de conversion variante A	10%
Taux de conversion variante B	13%
Uplift relatif (B vs A)	30%
Confiance observée	96,45%
Z critique (seuil)	1,96

À quoi sert ce calculateur

Le calculateur de significativité d'un test A/B vous indique si l'écart entre deux taux de conversion est probablement réel ou n'est que du bruit statistique. Il applique le test z classique sur deux proportions aux visiteurs et aux conversions de votre version de référence (variante A) et de votre challenger (variante B). Il renvoie un score Z, une p-value bilatérale, l'uplift relatif et un verdict clair — significatif ou non significatif — au niveau de confiance que vous avez choisi.

Deux variantes A et B montrant chacune les visiteurs et les conversions, dont les taux de conversion sont comparés — Un test A/B compare les taux de conversion de deux variantes pour voir si la différence est réelle.

Comment l'utiliser

Saisissez le nombre de visiteurs et le nombre de conversions de chaque variante, puis choisissez un niveau de confiance (90 %, 95 % ou 99 %). Le choix le plus courant est 95 %, qui correspond à un Z critique de $1{,}96$. Si la valeur absolue du score Z atteint ou dépasse ce seuil critique, le résultat est déclaré statistiquement significatif.

La formule expliquée

Chaque taux de conversion vaut $\hat{p} = \text{conversions} / \text{visiteurs}$. Le test combine les deux échantillons en une proportion unique

$$\hat{p} = \frac{c_A + c_B}{n_A + n_B}$$

afin d'estimer une erreur type commune. Le score Z correspond à l'écart observé entre les taux divisé par cette erreur type.

$$z = \frac{\hat{p}_B - \hat{p}_A}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_A}+\frac{1}{n_B}\right)}}$$

Plus la valeur absolue de Z est élevée, moins l'écart a de chances d'être dû au hasard. La p-value bilatérale est le double de l'aire de la queue supérieure au-delà du score Z sous la courbe normale centrée réduite.

Courbe en cloche de la distribution normale avec le score Z marqué et l'aire de queue de la valeur p ombrée — Le score Z situe votre résultat sur la courbe normale ; l'aire ombrée de la queue est la valeur p.

Exemple chiffré

Variante A : 1000 visiteurs, 100 conversions (10,0 %). Variante B : 1000 visiteurs, 130 conversions (13,0 %). Le taux combiné vaut $230/2000 = 0{,}115$, l'erreur type est égale à

$$\sqrt{0{,}115 \times 0{,}885 \times \left(\frac{1}{1000} + \frac{1}{1000}\right)} \approx 0{,}01427$$

d'où

$$z \approx \frac{0{,}03}{0{,}01427} \approx 2{,}10$$

À 95 % de confiance (Z critique = $1{,}96$), le résultat est statistiquement significatif, avec une p-value bilatérale d'environ $0{,}036$.

Valeurs Z critiques par niveau de confiance

Pour un test Z bilatéral, le Z-score observé est comparé à une valeur critique qui dépend du niveau de confiance choisi. Le niveau de confiance est égal à $1-\alpha$, où $\alpha$ est le seuil de signification (la probabilité maximale acceptable d'un faux positif). Le résultat est déclaré significatif lorsque la valeur absolue du Z-score dépasse la valeur critique, de manière équivalente lorsque la p-valeur est inférieure à $\alpha$.

Niveau de confiance	Niveau de signification $\alpha$	Seuil de p-valeur	Z critique bilatéral
90%	0.10	< 0.10	1.645
95%	0.05	< 0.05	1.960
99%	0.01	< 0.01	2.576

Ces valeurs critiques proviennent de la distribution normale standard : chacune laisse $\alpha/2$ de la probabilité dans chaque queue. Le niveau 95% (Z critique = 1,96) est le défaut le plus courant dans les tests de taux de conversion.

Termes clés définis

Taux de conversion: La proportion de visiteurs ayant complété l'action objectif, $p = \text{conversions} / \text{visiteurs}$, pour une variante donnée.
Hypothèse nulle: L'hypothèse par défaut que les deux variantes ont le même vrai taux de conversion, c'est-à-dire $p_A = p_B$ et toute différence observée est due au hasard.
Proportion groupée: Le taux de conversion combiné des deux variantes, $\bar{p} = (\text{conv}_A + \text{conv}_B)/(n_A + n_B)$, utilisé pour estimer la variance sous l'hypothèse nulle.
Erreur standard: L'écart-type estimé de la différence des taux de conversion, $\sqrt{\bar{p}(1-\bar{p})(1/n_A + 1/n_B)}$ ; il diminue à mesure que la taille de l'échantillon augmente.
Z-score: La différence observée des taux de conversion exprimée en unités d'erreur standard ; une magnitude plus grande signifie que la différence est moins probable sous l'hypothèse nulle.
p-valeur: La probabilité d'observer une différence au moins aussi extrême que celle mesurée, en supposant que l'hypothèse nulle est vraie. Les plus petites p-valeurs fournissent une preuve plus forte contre l'hypothèse nulle.
Test bilatéral: Un test qui détecte une différence dans l'une ou l'autre direction (B meilleur ou pire que A), en divisant $\alpha$ entre les deux queues de la distribution.
Niveau de confiance: $1-\alpha$, le seuil (par exemple 95%) auquel le résultat est jugé significatif ; il détermine la rareté du rejet à tort d'une hypothèse nulle vraie.
Signification statistique: La conclusion que la différence observée est peu probable d'être due au hasard seul, atteinte lorsque la p-valeur est inférieure à $\alpha$.
Amélioration relative: La variation en pourcentage de la variante B par rapport à la variante A, $(p_B - p_A)/p_A \times 100\%$, décrivant l'ampleur de l'effet.

Interpréter votre résultat

Un résultat significatif signifie que la p-valeur est inférieure à votre $\alpha$ choisi (par exemple inférieure à 0,05 à une confiance de 95%), donc la différence observée entre les variantes est peu probable d'être survenue par hasard sous l'hypothèse nulle. Un résultat non significatif signifie que les données sont cohérentes avec aucune différence réelle — cela ne prouve pas que les variantes sont égales, seulement que vous manquez de preuves suffisantes pour les distinguer.

Exemple travaillé : avec 5 000 visiteurs et 250 conversions en A ($p_A = 0,05$) et 5 000 visiteurs et 300 conversions en B ($p_B = 0,06$), la proportion groupée est $\bar p = 550/10000 = 0,055$. L'erreur standard est $\sqrt{0,055\times0,945\times(1/5000+1/5000)} \approx 0,004558$, donnant $Z = (0,06-0,05)/0,004558 \approx$ 2,19. Puisque 2,19 > 1,96, le résultat est significatif à une confiance de 95%, avec une amélioration relative de 20%.

Plusieurs mises en garde découlen directement de la façon dont ces statistiques sont définies :

La p-valeur n'est pas la probabilité que B soit meilleur que A. C'est la probabilité des données observées (ou plus extrêmes) en supposant que l'hypothèse nulle est vraie — une déclaration sur les données donnée une hypothèse, non une hypothèse donnée les données.
La signification n'est pas la même que l'importance. Avec des échantillons très grands, une amélioration minuscule et commercialement insignifiante peut être statistiquement significative. Lisez toujours l'amélioration relative et sa valeur pratique, pas seulement le verdict.
La taille de l'échantillon détermine la sensibilité. Les petits échantillons produisent de grandes erreurs standard, donc un effet réel peut sembler non significatif ; les grands échantillons détectent des effets plus petits. Planifiez une taille d'échantillon cible avant le test plutôt que de vous arrêter à la première lecture significative.
Évitez de jeter un coup d'œil et les tests multiples. Vérifier régulièrement les résultats et arrêter dès que p < 0,05 gonfle le taux de faux positifs bien au-dessus de $\alpha$ nominal. Le test Z à horizon fixe suppose que vous évaluez une seule fois à une taille d'échantillon prédéterminée ; tester de nombreuses variantes ou métriques de la même façon multiplie la chance d'une « victoire » spurieuse et justifie un seuil plus strict.

Cet outil rapporte un test Z bilatéral de fréquentiste pour les proportions ; c'est une information statistique générale et non un substitut à un plan expérimental personnalisé lorsque les enjeux sont élevés.

FAQ

De combien de visiteurs ai-je besoin ? Il n'existe pas de chiffre fixe : plus l'écart est faible, plus l'échantillon doit être grand. Si votre résultat est limite, collectez davantage de données avant de trancher.

Que signifie la p-value ? C'est la probabilité d'observer un écart au moins aussi grand si les deux variantes étaient en réalité identiques. Plus elle est faible, plus la preuve d'une différence réelle est solide.

Dois-je arrêter le test dès qu'il devient significatif ? Non. Vérifier le résultat en permanence (le fameux « peeking ») gonfle le taux de faux positifs. Fixez à l'avance une taille d'échantillon ou une durée, puis évaluez à ce moment-là.