Qu'est-ce que la régression logarithmique ?
La régression logarithmique consiste à ajuster une courbe de la forme \(y = A + B\cdot\ln(x)\) à vos données. Elle est particulièrement utile lorsqu'une grandeur croît rapidement au départ avant de se stabiliser : des variations multiplicatives identiques de x entraînent alors des variations additives à peu près constantes de y. En appliquant le logarithme népérien à chaque valeur de x, le problème se ramène à un simple ajustement linéaire (par moindres carrés) sur la variable transformée \(u = \ln(x)\).
Comment utiliser ce calculateur
Saisissez vos données dans la zone du tableau, à raison d'une paire (x, y) par ligne, séparées par une virgule ou un espace. Chaque valeur de x doit être strictement positive, car \(\ln(x)\) n'est pas défini pour zéro ni pour les nombres négatifs ; les lignes concernées et les lignes vides sont ignorées. Choisissez le nombre de chiffres significatifs à afficher, puis lisez l'ordonnée à l'origine \(A\), le coefficient \(B\), le coefficient de corrélation \(r\) et les moyennes.
La formule expliquée
Posons \(u_i = \ln(x_i)\). Calculez les moyennes de u et de y, puis les sommes des carrés \(S_{xx} = \sum (u-\bar{u})^2\), \(S_{yy} = \sum (y-\bar{y})^2\), et le produit croisé \(S_{xy} = \sum (u-\bar{u})(y-\bar{y})\). La pente vaut $$y = A + B\,\ln(x)$$ $$\left\{ \begin{aligned} B &= \frac{\sum (u_i - \bar{u})(y_i - \bar{y})}{\sum (u_i - \bar{u})^2}, \quad u_i = \ln(x_i) \\ A &= \bar{y} - B\,\bar{u} \\ r &= \frac{\sum (u_i - \bar{u})(y_i - \bar{y})}{\sqrt{\sum (u_i - \bar{u})^2 \,\sum (y_i - \bar{y})^2}} \end{aligned} \right.$$ \(B = S_{xy} / S_{xx}\), l'ordonnée à l'origine \(A = \bar{y} - B\cdot\bar{u}\), et la corrélation \(r = S_{xy} / (\sqrt{S_{xx}} \cdot \sqrt{S_{yy}})\). À noter : la « moyenne de x » affichée est la moyenne géométrique \(\exp(\bar{u})\), et non la moyenne arithmétique, car l'ajustement est réalisé dans l'espace logarithmique.
Exemple concret
Pour les points (1, 2.0), (2, 4.0), (3, 5.0), (4, 5.5), (5, 6.0) : moyenne de \(\ln(x)\) = 0,957498, moyenne de y = 4,5, \(S_{xx}\) = 1,615493, \(S_{yy}\) = 10,0, \(S_{xy}\) = 4,003192. On obtient donc \(B = 2{,}4780\), \(A = 2{,}1273\) et \(r = 0{,}9963\) (corrélation forte). La courbe ajustée est $$y = 2{,}1273 + 2{,}4780\cdot\ln(x)$$ et la moyenne géométrique de \(x = \exp(0{,}957498) = 2{,}6051\).
Questions fréquentes
Pourquoi la « moyenne de x » n'est-elle pas la moyenne arithmétique de mes valeurs de x ? Parce que la régression est calculée sur \(\ln(x)\), le centre naturel des données de x dans ce modèle est la moyenne géométrique \(\exp(\text{moyenne de } \ln x)\), qui est la valeur affichée.
Comment interpréter le coefficient de corrélation r ? Un \(|r|\) supérieur à 0,7 traduit une relation forte, entre 0,4 et 0,7 une relation modérée, entre 0,2 et 0,4 une relation faible, et en dessous de 0,2 une corrélation pratiquement inexistante.
Que se passe-t-il si toutes mes valeurs de x sont identiques ? Dans ce cas, \(S_{xx} = 0\) et la pente n'est pas définie (division par zéro) : l'ajustement est alors impossible. Il faut au moins deux valeurs de x distinctes.