Connectez-vous via MCP →

Entrez le calcul

Chaque ligne : valeur x, valeur y, fréquence f. Si f est omis, sa valeur par défaut est 1 (non pondéré).

Formule

Show calculation steps (1)
  1. Correlation Coefficient

    Correlation Coefficient: Calculateur de régression linéaire pondérée par les fréquences

    Frequency-weighted Pearson r using sums over the data rows.

Publicité

Résultats

@
Droite de régression
y = 1.150943396226415 + 0.9182389937106918 x
r = 0,927026 (strong correlation)
Ordonnée à l'origine A 1,1509433962
Pente B 0,9182389937
Coefficient de corrélation r 0,9270261699
Fréquence totale n 8
Moyenne de x 3,375
Moyenne de y 4,25
Sxx 19,875
Syy 19,5
Sxy 18,25

Ce que fait ce calculateur

Cet outil ajuste une droite \(y = A + Bx\) à un ensemble de points de données par la méthode des moindres carrés, chaque point pouvant porter une fréquence ou un poids f. La pondération par les fréquences permet de résumer des observations répétées de façon compacte : plutôt que de répéter plusieurs fois le même couple (x, y), vous l'indiquez une seule fois accompagné de son effectif. Il s'agit d'un outil de statistiques purement mathématique et universel, qui fonctionne de la même manière partout.

Comment l'utiliser

Saisissez une ligne par point sous la forme x, y, f. La colonne des fréquences est facultative : si vous l'omettez, chaque point reçoit le même poids (régression ordinaire non pondérée). Choisissez le nombre de chiffres significatifs souhaité pour l'affichage des résultats, puis validez. Le calculateur renvoie la droite de régression, la pente B et l'ordonnée à l'origine A, le coefficient de corrélation r de Pearson, la fréquence totale n, les moyennes de x et de y, ainsi que les sommes intermédiaires Sxx, Syy et Sxy.

La formule expliquée

Notons les lignes \(i = 1..N\) avec les valeurs \(x_i\), \(y_i\) et la fréquence \(f_i\). La fréquence totale est \(n = \sum f_i\). Les moyennes pondérées valent \(\bar{x} = \sum x_i f_i / n\) et \(\bar{y} = \sum y_i f_i / n\). Les sommes des carrés s'écrivent

$$S_{xx} = \sum x_i^2 f_i - n\cdot\bar{x}^2, \quad S_{yy} = \sum y_i^2 f_i - n\cdot\bar{y}^2, \quad S_{xy} = \sum x_i y_i f_i - n\cdot\bar{x}\cdot\bar{y}.$$

La pente est \(B = S_{xy}/S_{xx}\), l'ordonnée à l'origine \(A = \bar{y} - B\cdot\bar{x}\) et la corrélation \(r = S_{xy}/(\sqrt{S_{xx}}\cdot\sqrt{S_{yy}})\).

Publicité
Schéma montrant la pente B comme montée sur avancée et l'ordonnée à l'origine A sur une droite
La pente B est le rapport entre la montée et l'avancée de la droite, et l'ordonnée à l'origine A est sa valeur en \(x = 0\).
Nuage de points avec des points pondérés de tailles variées et une droite de régression au meilleur ajustement
Droite des moindres carrés pondérée par la fréquence \(y = A + Bx\) ajustée à des points dont la taille du marqueur reflète leur poids de fréquence.

Exemple résolu

Pour les lignes (1,2,1), (2,3,2), (3,5,1), (4,4,2), (5,6,1), (6,7,1) : \(n = 8\), \(\bar{x} = 3{,}375\), \(\bar{y} = 4{,}25\). On obtient alors \(S_{xx} = 19{,}875\), \(S_{yy} = 19{,}5\) et \(S_{xy} = 18{,}25\). D'où

$$B = \frac{18{,}25}{19{,}875} \approx 0{,}9182, \quad A = 4{,}25 - 0{,}9182\cdot 3{,}375 \approx 1{,}1509, \quad r \approx 0{,}9271$$

— une forte corrélation positive. La droite ajustée est

$$y = 1{,}1509 + 0{,}9182\cdot x.$$

FAQ

À quoi sert la colonne des fréquences ? Elle pondère chaque point. Un point avec \(f = 3\) compte comme si vous l'aviez observé trois fois. Les poids fractionnaires sont autorisés.

Que se passe-t-il si r ne peut pas être calculé ? Si toutes les valeurs de x sont identiques (\(S_{xx} = 0\)), la pente est indéfinie ; et si \(S_{xx}\) ou \(S_{yy}\) vaut zéro, la corrélation est indéfinie faute de variabilité.

Comment juge-t-on la force de la corrélation ? À l'aide de \(|r|\) : au-delà de 0,7 elle est forte, entre 0,4 et 0,7 modérée, entre 0,2 et 0,4 faible, et en dessous de 0,2 il n'y a pratiquement aucune corrélation.

Dernière mise à jour: