Francais | English | Espanõl

Test du χ²

Un article de Wikivisual, l'encyclopédie libre.

Le test d'hypothèse du χ² (prononcer khi-deux ou khi carré, on écrit également chi-deux ou chi carré), basé sur la loi du χ², est un des tests les plus employés en statistiques, notamment parce qu'il permet de valider des hypothèses concernant une propriété concrète d'un ensemble de données statistiques.

Son usage est très répandu notamment en génétique où il permet de déterminer, à un seuil donné, la validité d'une hypothèse.

Sommaire

[modifier] Définition du procédé

[modifier] Utilisations possibles

[modifier] Test du χ² d'adéquation

Il s'agira de valider/infirmer le fait qu'une série de données statistiques suit bien une loi de probabilité précise (comme une loi uniforme ou une loi de Poisson par exemple).

Dans la pratique, ce test du χ² est proche d'un calcul des écarts entre les valeurs observées et les valeurs attendues dans le cas où ces valeurs suivraient la loi qu'on cherche à leur attribuer. Si cet écart est trop grand, on rejette l'hypothèse selon laquelle les données sont distribuées selon cette loi.

On notera que, plus techniquement, la somme des écarts relatifs, numérateurs carrés, entre les valeurs observées d'un jeu de données et les valeurs attendues d'après la loi concernée suit une statistique du χ².

Exemple concret : Soit un nombre donné de cultures cellulaires rigoureusement identiques. Chacune comporte un certain nombre de colonies. Toutes les cultures sont en fait des cultures de cellules cancéreuses et on cherche à déterminer dans quelle mesure l'action d'un produit empêche leur division. Précisément on veut savoir si le nombre de colonies dont la croissance sera interrompue par le produit suit une loi de Poisson de paramètre Lambda.

Après avoir exposé les cellules au produit, on obtient des résultats précis: X1 colonies de la première culture ont subi l'influence du produit, X2 pour la deuxième culture... Xn pour la n-ième culture. On effectuera un test du χ² sur ces valeurs pour valider ou infirmer l'hypothèse selon laquelle leur distribution suit bien une loi de Poisson

[modifier] Test du χ² d'homogénéité

Il s'agira de valider/infirmer le fait que deux jeux de variables aléatoires suivent une même loi.

[modifier] Test du χ² d'indépendance

Il s'agit avec ce test de valider/infirmer l'hypothèse que les modalités de deux variables aléatoires sont indépendantes l'une de l'autre.

L'exemple classique est celui de la relation entre le revenu et le sexe d'un individu. La distribution du revenu des hommes est-elle différente de celui des femmes? Une représentation sur une table de contingence des occurrences des variables permet de mieux illustrer la question.


Salaire
1000-2000 2000-3000 3000-4000 4000-5000 Total
Hommes 50 70 110 60 290
Femmes 60 75 100 50 285


Dans cet exemple fictif on remarque que les femmes sont plus nombreuses dans les classes à bas salaires et moins nombreuses dans celles à haut salaire que les hommes. Cette différence (c'est à dire cette dépendance entre les variables) est-elle statistiquement signifactive? Le test du Chi-carré permet de répondre à cette question.

Le test utilisé, le "Chi-carré de Pearson", s'intéresse à la différence entre la valeur observée <math>O_{ij}\, </math> (ou valeur empirique) et la valeur attendue s'il y avait indépendance <math>E_{ij}\, </math> (ou valeur théorique).


<math> \chi^2 = \sum_{i,j} {(O_{ij} - E_{ij})^2 \over E_{ij}}</math>

Avec:

<math>O_{ij}\,= </math> la valeur observée
<math>E_{ij}\,= </math> la valeur attendue sous l'hypothèse d'indépendance.
on a: <math> E_{i,j} =\ {O_{i+}*O_{+j} \over N} </math>            où: <math> O_{i+}=\sum_{j=1}^{J}{O_{ij}} </math>     et <math> O_{+j}=\sum_{i=1}^{I}{O_{ij}} </math>


Formulation du test:

Ho: <math>\textstyle p(A\cap B)=p(A)*p(B)</math> Les variables sont indépendantes.

H1: <math>\textstyle p(A\cap B)\ne p(A)*p(B)</math> Les variables ne sont pas indépendantes. (L'écart entre valeur observée et attendue n'est pas dû au hasard).


Distribution du test:

Cette statistique suit asymptotiquement une Loi du χ² à (I-1)(J-1) degrés de liberté, avec I le nombre de modalités de la première variable et J les nombre de modalités de la seconde variable.


Conditions du test: Les valeurs théoriques doivent être supérieures à 5: <math>E_{i,j}>5 </math>

Tests apparentés:

Il existe un test asymptotique très semblable, le Test du Rapport de Vraisemblance (likelihood ratio test), ainsi qu'un test exact, le test de Fisher.


Justification

Indépendance

Soient A et B les deux variables dont on souhaite tester l'indépendance.

Pour rappel, si A et B sont indépendantes on a la relation suivante:
<math>p(A\cap B)=p(A)*p(B)</math> Ou pour la fonction de densité conjointe: :<math> f_{X,Y}(x,y)=\ f_X(x)*f_Y(y)</math>
Ici <math>E_{ij} = p(A\scriptstyle {=i}\textstyle{ \cap B}\scriptstyle{=j}\textstyle{)*N}=p(A\scriptstyle{=i}\textstyle{)*p(B}\scriptstyle{=j}\textstyle{)*N} </math>


Estimation des valeurs attendues (théoriques)

Que vaut <math>p(A=i)</math> ?

A partir de la table de contingence, on prendra simplement la somme de toutes les valeurs où A = 1, soit, dans notre notation: <math>O_{1+} </math>
Ainsi <math>E_{ij} ={O_{i+}\over N}*{O_{+j}\over N}*N =\ {O_{i,+}*O_{+,j} \over N} </math>


Distribution du test

Pour la preuve que le test suit une loi Chi-carré, on en donnera ici que quelques "pistes":

Si on suppose que chaque xij suit une loi de Poisson, on peut montrer que les valeurs standardisées <math>z_{ij}=(x_{ij}-\bar x_{ij})/\sqrt\bar x_{ij} </math> suivent asymptotiquement une loi normale.
Alors <math>\textstyle\sum_{i}\sum_{j}z_{ij}^2</math> suit asymptotiquement une loi Chi-carré à IJ-1 degrés de liberté.
Quant aux degrés de libertés, comme on doit estimer les <math>\bar x_{ij}</math> on perd (I-1) + (J-1) degrés de liberté (et non pas I + J car <math>\scriptstyle\sum O_{i+} =\sum O_{+j} =1</math>: le dernier paramètre se déduit des autres). On a alors au final: IJ-1 -(I-1) -(J-1) = I (J-1) -(J-1) = (I-1) (J-1)

Exemple

Reprenons le cas fictif montré plus haut.


Salaire
1000-2000 2000-3000 3000-4000 4000-5000 Total Total en %
Hommes 50 70 110 60 290 50.4%
Femmes 60 75 100 50 285 49.6%
Total 110 145 210 110 575
Total en % 19.1% 25.2% 36.5% 19.2% 100%


La valeur théorique sous indépendance de la case "Homme"-"1000-2000" est égale à:

<math> E_{1,1} =\ {O_{1+}*O_{+1}\over N} </math> soit <math>E_{1,1} =\ {110*290\over 575} =55.5 </math>

Le résidu chi-carré sera alors le suivant: <math> {(50 -55.5)^2\over 55.5} = 0.54 </math>

Dans notre exemple la valeur du chi-carré est de 2.423 avec comme degré de liberté: (4-1)*(2-1) = 3 La probabilité sous une loi chi-carré à 3 degrés de liberté d'obtenir une valeur = 2.423 est asymptotiquement de 0.489 On ne peut donc pas rejeter l'hypotèse: la différence que l'on semblait observer peut être due au hasard.

[modifier] Remarque

Les phénomènes quantifiables au sein d'une population sont soumis à des fluctuations statistiques. Considérons par exemple le taux de chômage dans un état donné, ou bien le taux de croissance.

D'une année sur l'autre, des variations dans ces taux sont systématiquement enregistrées (baisse ou hausse) pour autant elles ne signifient pas en elle-même, contrairement à une croyance trop répandue, que la variable considérée (taux de croissance ou de chômage) a bel et bien changé (rigoureusement qu'elle a changé de loi, c’est-à-dire que des procédés mis en place sont venus influencer sa distribution). Lorsque l'on considère une variable, il faut distinguer l'impact causal de la fluctuation statistique aléatoire. Ainsi, une baisse du taux de chômage de 2% d'une année à l'autre peut très bien n'être imputable qu'au caractère aléatoire de la variable « taux de chômage » et ne rien signifier sur le plan causal. Cette baisse ne signifie pas d'elle-même que des mesures efficaces ont influencé la loi de distribution du chômage. Seuls les tests statistiques sont connus actuellement pour faire foi et déterminer (à un seuil donné) si cette variation est le fruit du hasard ou non. À cet égard les tests du χ² sont exceptionnellement utiles.

[modifier] Voir aussi

[modifier] Liens externes

Outils personnels