statistiques à deux variables

ajustement affine d'une série statistique à deux variables

nuage de points

On s'intéresse à deux variables quantitatives discrètes sur une population. À chaque individu de cette population, on associe un couple (xi;yi), où xi est la valeur de la première variable et yi la valeur de la seconde.
L'ensemble des couples (xi;yi) forme une série statistique à deux variables.

Soit (xi;yi) une série statistique à deux variables.

  • Dans le plan muni d'un repère, l'ensemble des points Mi(xi;yi) est appelé le nuage de points de la série statistique.
  • Le point moyen du nuage est le point G(x¯;y¯)x¯ est la moyenne des xi et y¯ est la moyenne des yi.

exemple

Le graphique ci-dessous, présente le nombre de milliers d'emploi dans le secteur « hébergement et restauration » (série xi) et dans la « construction » (série yi) en France entre le 1er trimestre 2009 et le 2e trimestre 2010.
Le point G(868,7;1350,4) est le point moyen du nuage.

nuage de points : L'illustration svg n'est pas visible par votre navigateur.

ajustement affine par la méthode des moindres carrés

Lorsque les points Mi(xi;yi) sont approximativement alignés, on peut penser qu'une relation du type y=ax+b « résume » correctement une corrélation entre les deux variables x et y.

ajustement affine du nuage de points : L'illustration svg n'est pas visible par votre navigateur.

Or pour chaque valeur xi observée, la valeur calculée correspondante y=axi+b diffère de la valeur observée yi d'un écart résiduel δi qui peut être positif ou négatif.
On a donc pour chaque couple d'observation i, la relation suivante : δi=yi-(axi+b) Un ajustement affine par la méthode des moindres carrés, consiste à déterminer la fonction affine f:xax+b telle que la somme S=i=1n[yi-(axi+b)]2 soit minimale.

étape 1

On considère la somme S=i=1n[yi-(axi+b)]2 comme un polynôme du second degré en b. En effet, [yi-(axi+b)]2=[(yi-axi)-b]2=(yi-axi)2-2b(yi-axi)+b2 donc i=1n[yi-(axi+b)]2=i=1n[(yi-axi)2-2b(yi-axi)+b2]=i=1n(yi-axi)2-i=1n2b(yi-axi)+i=1nb2=i=1n(yi-axi)2-2b×i=1n(yi-axi)+nb2

S est un polynôme du second degré en b de la forme S=A×b2+B×b+C avec A=n , B=-2i=1n (yi-axi ) et C=i=1n(yi-axi)2. Comme n>0, la somme S est minimale pour b=-B2A. Soit b=2i=1n(yi-axi)2n=1ni=1n(yi-axi)=1ni=1nyi-1ni=1naxi=1ni=1nyi-a×1ni=1nxi

Or 1ni=1nyi=y¯ et 1ni=1nxi=x¯. Donc la somme S est minimale pour b=y¯-ax¯.

remarque

b=y¯-ax¯y¯=ax¯+b. D'où la propriété suivante :

propriété

La droite d'ajustement affine par la méthode des moindres carrés passe par le point moyen du nuage.

étape 2

Pour déterminer a remplaçons b par son expression, ce qui donne S=i=1n[yi-(axi+y¯-ax¯)]2=i=1n[(yi-y¯)-a(xi-x¯)]2

Développons la somme S de manière à obtenir un polynôme du second degré en a : i=1n[(yi-y¯)-a(xi-x¯)]2=i=1n[(yi-y¯)2-2a(yi-y¯)(xi-x¯)+a2(xi-x¯)2]=i=1n(yi-y¯)2-i=1n2a(yi-y¯)(xi-x¯)+i=1na2(xi-x¯)2=i=1n(yi-y¯)2-2ai=1n(yi-y¯)(xi-x¯)+a2i=1n(xi-x¯)2

S est un polynôme du second degré en a de la forme S=A×a2+B×a+C avec A=i=1n(xi-x¯)2=nV(x), B=-2i=1n(yi-y¯)(xi-x¯) et C=i=1n(yi-y¯)2=nV(y)V(x) est la variance de la première série statistique et V(y) la variance de la deuxième série statistique.

Comme V(x)>0, la somme S est minimale pour a=-B2A. Soit a=2i=1n(yi-y¯)(xi-x¯)2nV(x)=1ni=1n(yi-y¯)(xi-x¯)V(x)

définition

Le nombre 1ni=1n(yi-y¯)(xi-x¯) est appelé covariance de x et y. On note cov(x;y)=1ni=1n(yi-y¯)(xi-x¯)

Donc la somme S est minimale pour a=cov(x;y)V(x).

droite d'ajustement affine

La droite d'ajustement affine de y en x par la méthode des moindres carrés d'une série statistique à deux variables est la droite d'équation y=ax+b avec a=cov(x;y)V(x) et b=y¯-ax¯.
Avec V(x)=1ni=1n(xi-x¯)2 et cov(x;y)=1ni=1n(yi-y¯)(xi-x¯).
Cette droite passe par le point moyen G(x¯;y¯) du nuage de points.

Remarques


Télécharger le polycopié du cours :

   |   


[ Accueil ]


Les documents présentés ne sont pas libres de droits. Vous pouvez les télécharger et diffuser (en indiquant la provenance) à condition de ne pas en faire un usage commercial.