Cours de psychologie

Statistiques inférentielles (suite)

IV. La démarche du test d'hypothèses.

 

 

C'est grâce à cette démarche qu'on a décidé de valider ou d'invalider une hypothèse. C'est un ensemble de procédures, de tests de significations. Elle va nous permettre d'estimer le risque d'erreur quand à la validité de l'hypothèse.

 

1. Introduction sans «cuisine statistique » :

 

Ex : Howell et l'échelle d'Acenbach :

Paramètres fonctionnels connus : moyenne = 50 ; écart type = 10

Hypothèse opérationnelle : le nombre de (ou le score moyen de) problèmes comportementaux est plus grand pour les enfants dont les parents ont divorcé que pour les enfants « en général ».

Sur un échantillon de 5 enfants, on obtient une moyenne de 56 (>50).

Mais on ne peut pas conclure sur des données descriptives !

Il y a toujours une différence entre l’estimation d’une statistique fournie par un échantillon et le paramètre qui serait observé au niveau de la population. On l’appelle erreur d’échantillonnage.

 

Le test d’hypothèse (d’après Howell, 2003):

  - Population : moyenne = 50.

  - Echantillon : moyenne = 56.

  - Questions :

            + La question qu’on se pose : est-ce qu’une telle moyenne d’échantillon de 56 aurait été plausible si nous avions prélevé notre échantillon dans une population pour laquelle μ = 50 ?

            + En d’autres termes: « est-ce qu’on doit croire que notre échantillon a quelque chose d’exceptionnel (de différent) ou est-ce que c’est une moyenne sur laquelle on aurait pu tomber aisément (=avec de fortes chances) en tirant 5 individus d’une population dans laquelle la moyenne = 50? »

            + Est-ce que le score moyen de problèmes comportementaux propre aux enfants récemment divorcés est différent du score moyen de problèmes comportementaux calculé chez les enfants en général ?

  - Pour le savoir : besoin de la probabilité qu’on aurait d’obtenir 56 comme moyenne de l’échantillon SI l’on échantillonnait des observations au sein d’une population pour laquelle μ = 50.

→ C’est précisément à cette question que va répondre la distribution d’échantillonnage.

 

 

2. Hypothèses statistiques :

 

Hypothèses théorique → hypothèse opérationnelle → hypothèses statistiques.
Il y a toujours 2 hypothèses statistiques :

 

 

Elles sont formulées à partir de l'hypothèse opérationnelle.

  - H0 stipule qu'il n'y a pas de différence entre l'échantillon et la population parente ;

  - H1 stipule que la moyenne de l'échantillon est supérieur/ inférieur à la moyenne de la population.

Le plus souvent, on chercher à démontrer H1, mais c'est H0 qu'on test.

  - L'hypothèse nulle consiste à juger la non-différence.

  - L'hypothèse alternative consiste à mesurer la différence.

L'hypothèse H1 est donc la plus utilisée.

Les hypothèses statistiques sont toujours formées à partir d'une hypothèse opérationnelle.

 

 

Ex : H. opérationnelle : le score moyen de problèmes comportementaux est plus grand pour les enfants dont les parents ont divorcé, autrement dit supérieur à 50 dans cette population.

H0 : m = 50

H1 : m > 50 !!! C'est H1 qu'on cherche à démontrer, mais c'est H0 qu'on teste !!!

Ce que le chercheur veut montrer, c'est que le score des enfants de parents divorcés est supérieur aux autres enfants.

L'hypothèse statistique porte sur des paramètres populationnels.

 

3. Calcul de l'indice statistique et du seuil de signification :

 

Indices statistique = statistique de test : F, t (de Student), X²...

  - Ils sont associés à des procédures bien particulières. Chaque indice a sa propre distribution d'échantillonnage.

  - Ils évaluent le degré d'adéquation (ou de désaccord) entre données observées et celles qu'on s'attend à observer si H0 est vraie (hypothèse testé = H0).

Plus le désaccord est important, plus la valeur de l'indice est importante.

 

a. Les types :

 

Deux types de statistiques :

  - Les tests paramétriques :

           + Contraintes : distribution normale et égalité des variances (lorsque comparaisons entre plusieurs échantillons il faut que les variances [dispersion autour de la moyenne] soient comparables).

           + Test Z qui s'appuie sur la distribution normale.

           + Test de Student qui s'appuie sur la loi de Student (t).

           + Analyse de variance qui s'appuie sur la loi de Fisher-Snédécor.

  - Les tests non-paramétriques :

           + Pas de contraintes d'utilisation (ex : Chi²).

           + S'appuie sur une loi, mais on n’a pas à observer l'adéquation entre la loi et les données pour pouvoir l'utiliser.

           + Une fois que l’indice statistique est calculé, on va estimer la probabilité d’observer dans un échantillon sélectionne au hasard une telle valeur de l’indice statistique. On fait cela en utilisant la distribution d’échantillonnage de l’indice.

                   . Comment ? En utilisant la distribution d'échantillonnage de l'indice.

                   . Ex : Effet du divorce sur les problèmes comportementaux.

                              - H0 : moyenne = 50 ; H1 : m>50

                              - Dans cet échantillon, la moyenne est en l'occurrence de 56.

→ On souhaite donc estimer la probabilité d'obtenir une valeur de 56 ou plus sur un échantillon pris au hasard.

                              - Etape du calcul du test statistique. Ici, on veut comparer une moyenne observée dans un échantillon à une moyenne de référence, le paramètre populationnel.

                                             + Distribution des scores Achenbach est normale et on connait les paramètres : moyenne = 50 et écart type = 10

                                             + Test Z = 1,34 → table de loi normale, P (Z>1,34) = 1-P(Z<1,34) = 1-0,9099 = 0,09.

                              - Donc 9% des chances d'obtenir un échantillon qui ait une moyenne de 56 ou plus.

L'utilisation de ces tests ne se fait que dans certaines conditions, sous certaines contraintes.

Attention !!! Le test Z est différent de la note z !!!!

La note n'est pas une statistique de test, mais elle sert juste à standardiser les données !

 

b. Principe :

 

Le principe est le suivant :

  - Si la probabilité d'avoir une valeur est important, alors nous considérons qu'observer une telle valeur dans un échantillon sélectionné au hasard est tout à fait banal → aucune raison de rejeter H0

  - Si la probabilité est faible, alors nous considérons qu'observer une telle valeur dans un échantillon sélectionné au hasard est exceptionnel → fortes raisons de douter de H0 → rejet de H0 et acceptation de H1.

A partir de quel moment peut-on considérer que cette probabilité est suffisamment faible pour rejeter H0 ou pas assez pour ne pas la rejeter ?

  - Seuil conventionnel fixé à : alpha = .05.

  - Concrètement, si la probabilité d'avoir au + ou au - à la valeur statistique qu'on obtient dans un échantillon sélectionné au hasard (dans une population parente), est inférieure à .05, cela signifie qu'on a 95% de chance pour que notre échantillon ne soit pas extrait de cette population parente, et que donc on a 5% de chance qu'elle le soit.

  - Ce 5% correspond donc à la probabilité qu'on se trompe en décidant de rejeter ou pas H0.

Lorsqu'on travaille avec de très gros échantillons en psychologie, on peut se limiter à alpha =.01


c. Conclusion sur l'exemple précédent :

 

 

Test Z = 1.34 → alpha = 0,09.

0,09>0.05.

La probabilité d'avoir un indice statistique égal ou supérieur à celui obtenu si on sélectionnait un échantillon au hasard est trop grand pour qu'on accepte de considérer que les observations sont en désaccord avec H0.

→ Non rejet de H0.

→ Impossible de conclure que le score des problèmes comportementaux est plus important chez les enfants dont les parents ont divorcé récemment.

 

Autre façon de procéder :

  - Après avoir calculé la valeur du test, on cherche dans la table la valeur de l'indice statistique qui correspond à la probabilité .05, appelée valeur critique (p-value).

  - Puis on compare la valeur critique à la valeur observée.

          + Si valeur observée > valeur critique → rejet de H0.

          + Si valeur observée < ou = à valeur critique → non rejet de H0.

La valeur critique de la courbe est toujours la même (pour alpha = .05) : 1,645 (5% à droite de la courbe).
 

Dans l'exemple :

Z=1,34 (valeur observée)

On cherche la valeur Z correspondant à la probabilité .05 (le risque de sélectionner un échantillon dans lequel la valeur observée de l'indice statistique est > à la valeur critique alors que H0 est vraie).

→ 1.645 (la table nous dit que 95% est situé à z = 1.645 (elle fournit les probabilités 0.9495 et 0.9550 qui correspondent respectivement aux valeurs z = 1.64 et z = 1.65, le milieu étant 1.645). 1.34 < 1.645 = on ne rejette pas H0.

 

 

4. Erreurs de première et deuxième espèce :

 

Erreur de première espèce :

  - Alpha = .05 (p-value) = probabilité de rejeter à tort H0

  - Le seuil de 5% (seuil alpha) qui correspond à la probabilité d'observer un échantillon tiré au hasard une valeur de l'indice statistique telle que celle qui a été observée, est appelée p-value en anglais, et elle correspond a la probabilité de rejeter à tort H0.

  - Alpha = probabilité de commettre une erreur de 1ère espèce (= probabilité de rejeter à tort H0).

 

Pourquoi alors ne pas réduire le risque d’erreur de 1ère espèce, à savoir la probabilité de rejeter H0 alors qu’H0 est vraie ?
Parce que plus nous réduisons ce risque, plus le risque de commettre l’erreur de 2ème espèce augmente : ne pas rejeter H0 lorsqu’elle est fausse et que H1 est vraie.

 

Le risque de 2ème espèce est appelé Béta. Ils 'agit de risquer de passer à coté de cas spéciaux.

  - Probabilité de commettre cette erreur = β.

  - Plus β est petit, plus le test « détectera » des cas où H1 est vraie. On dit qu’il gagne en puissance.

  - La puissance d’un test c’est la probabilité de rejeter H0 lorsque celle-ci est effectivement fausse.
Comme la probabilité de rejeter une hypothèse nulle qui est fausse est égale à β, la puissance = 1- β.

Plus nous réduisons le risque de première espèce, plus le risque de 2ème espèce risque d'être commis.

 

 

5. Tests unilatéraux et bilatéraux :

 

Test unidirectionnel : on fait l'hypothèse d'une différence, et on explicite le sens de la différence. On suppose un sens dans notre hypothèse (ex : 5% de différence à droite OU à gauche, on précise → seuil alpha à D ou à G).

Test bidirectionnel : on fait l'hypothèse d'une différence, mais pas dans un sens ou dans un autre. On ne suppose pas de sens (ex : 5% de différence, mais on ne sait pas si c'est à droite ou à gauche dans la courbe → seuil Alpha/2 à D et seuil Alpha/2 à G → 2,5% à D, 2,5% à G).

 

 

6. Résumé de la démarche du test d'hypothèses :

 

Formuler les hypothèses opérationnelles.

Formuler les hypothèses statistiques.

Choisir le test statistique en justifiant son choix.

Calculer la statistique de décision/de test.

Déterminer le seuil de signification et la valeur critique.

Conclure au seuil :

  - Si  V(obs) > V (critique) : rejet H0 avec probabilité d'erreur < ou = à alpha.

  - Si V (obs) < ou = V (critique) : ne pas rejeter H0 (dans certains cas, valeur observée négative : pour éviter des erreurs, comparer V (obs) et V (critique) en valeur absolue).

Formuler une conclusion statistique puis une conclusion reprenant les termes psychologiques de l'hypothèse opérationnelle.

 

 

V. Tests sur les distributions.

 

 

Deux types de questions auxquelles on pourra répondre :

  - Est-ce que la distribution des effectifs observés ressemble à une distribution d'effectifs théoriques particulière ? Est-ce que la distribution des effectifs observés est en adéquations avec un modèle théorique ?

  - Les deux variables sont-elles indépendantes ? (liées entre elles ou pas, rien à voir avec VD et VI).

 

 

Pour les deux, utilisation du Khi-Carré :

Attention !! Il existe une différence conceptuelle, même si les tests sont égaux !!

Le Khi-carré (X²) est une donnée qualitative.

 

Tests non paramètriques : sans contraintes sur la forme de la distribution, mais certaines conditions à respecter.

Principe des tests : étudier l'écart existant entre les effectifs observés et les effectifs théoriques, les effectifs théoriques étant ceux qu'on pourrait s'attendre à observer si H0 est vraie.

La formule de calcule a toujours la forme suivant :

 

 

  - (Effectifs observés – effectifs théoriques) ² = écarts entre effectifs observés et théoriques.

  - Effectifs théoriques = pondérateur (poids un peu moins important aux modalités dont l’effectif est élevé et un peu plus important aux modalités dont l’effectif est faible).

Plus le désaccord est grand entre ce qui est attendu sous H0 et ce qui est réellement observé et plus les termes du numérateur sont grands. Par conséquence, plus il y a de désaccord et plus l’indice est important.

 

La distribution du Khi-Deux (X²) :

  - Unilatérale du fait de l'élévation au carré → pas de valeurs négatives.

  - Fonction d'un seul paramètre k.

           + Plus k augmente, plus la distribution devient symétrique.

           + Plus k augmente, plus la moyenne de la distribution augmente.

           + Plus k augmente, plus la variance de la distribution augmente.

Moyenne = k.

Variance = 2k.

Quand on utilise le Khi-Deux, on utilise la table du Khi-Deux (et pas de la loi normale!!)

 

 

1. Les tests d'ajustement à un modèle théoriquement :

 

a. Le cas des variables catégorielles : le Khi-Deux d'ajustement :

 

Permet d'évaluer le degré de ressemblance entre une distribution d'effectifs observée et une distribution théorique.

Distribution théorique = un modèle de répartition connu.

Ex : caractéristiques générales connues de la population OU une loi de probabilités.

Ce test va nous permettre de tirer une conclusion globale concernant la répartition d'effectifs de chacune des catégories d'une variable.

Si une différence est observée, cela ne signifie pas que toutes les catégories sont différentes.

Si aucune différence n’est observée, cela ne signifie pas que toutes les catégories sont équivalentes.

 

Ex : on dispose d’un échantillon classé suivant une variable catégorisée A prenant k modalités : A1, A2,...An.

Soit πoj la fréquence de la modalité Aj dans la population dont on a extrait cet échantillon et πj la fréquence observée dans l’échantillon.

 

 

Les hypothèses statistiques :

  - H0 = ajustement entre répartition observée et répartition théorique (on s’attend à ce qu’elles soient identiques).

            + Dans le cas de H0 : π01 = π01, π2 = π02, …, πk = π0k.

  - H1 = différence entre répartition observée et répartition théorique.

            + Dans le cas de H1 : j { 1, …, k } tel que πj ≠ πoj → au moins une des probabilités spécifiées en H0 est incorrecte).

 

b. Calculs :

 
Pour calculer le test statique, on doit connaître l'effectif de chaque modalité et calculer l'effectif théorique de chaque modalité.

La formule est la suivante : (le même que précédemment, sauf qu'il y a des lettres plutôt que des mots) :

 

 

- Avec n*j = nπoj l’effectif théorique de modalité Aj.

Conditions d'application de ce test : tous les effectifs théoriques doivent être > ou = à 1, et pas plus de 20% de ces effectifs théoriques ne doivent être <5.

Le plus souvent, lorsqu’on utilise un test d’ajustement, on cherche à démontrer que la distribution d’effectifs suit une loi particulière. On cherche donc à démontrer H0 : l’hypothèse opérationnelle est formulée en H0.

 

Exemple d'application :

  - Sur le plan théorique :

           + Conception d'un test de la personnalité : 6 catégories de malades mentaux, de x1 à x6 avec pourcentages connus à l'avance.

  - Sur le plan de l'observation :

           + Diagnostic sur 40 personnes : on observe un nombre nj de personnes dans chaque catégorie de personnalité xj.

→ Est ce que la fréquence de chaque xj correspond aux pourcentages connus d'avance (fj) ?

→ Est ce que la distribution observée correspond à la distribue connue, observée par le concepteur ?

 

 

- Xj : 6 catégories de personnalité.

- fj : fréquence théorique (connues).

- nj : effectifs observées sur les 40 personnes.

- Hypothèse statique :

       + H0 veut que tous les fj = nj.

       + H1 veut qu'au moins un fj soit différent d'un nj.

- Il faut pour cela reconvertir toutes les fréquences théoriques en effectifs théoriques. Pour cela on fait : n.Fj  → Nj* = n * fj (fréquente théorique).

 

 

Détermination de la valeur critique :

  - Loi du Khi² : distribution propre au Khi² : table du Khi².

  - Pas de calcul de score z (ne dépend pas de la moyenne et de l'écart type).

  - Loi qui dépend de k :

            + k : nombre de modalités de la variable.

            + k-1 : degré de liberté (ddl).

  - Pour trouver la valeur critique du Khi² dans la table, besoin de déterminer :

            + Le seuil alpha.

            + Le nombre de degré de liberté (k-1).

 

c. Lire la table :

 

 

Comment lire la table ?

  - 1ère ligne : différentes probabilités alpha (alpha situé à droite de la distribution).

  - 1ère colonne : degré de liberté de 1 à 100.

  - Intersection des deux : valeur critique.

Il s'agit d'une table unilatérale. Le seuil alpha se trouve toujours sur la droite.

Avec le Khi-deux, on se fiche des moyennes, on ne les aborde pas. On parle en termes d'effectifs.

Dans la colonne → degré de liberté → Nombre de catégories MOINS UN (k-1) !!

On compare le Khi-Carré critique au Khi-Carré observé.

Quand l'observé est inférieur au critique, on ne rejette pas H0.

Quand la valeur observée est plus grande que la valeur critique, on rejette H0 et on accepte donc H1.

Le Khi-Carré critique correspond à la valeur minimum que le Khi-observé doit atteindre pour pouvoir rejeter H0.

 

D’après l’exemple précédent :

k = 6 → modalités de la variable.

k-1= 5 → nombre de ddl.

α = .05

Ligne correspondant au ddl = 5 et colonne correspondant à 1 – α (soit 1 – 0.05 soit 0.95). On trouve : χ2 = 5, α = .05 = 11.07

 

Conclusion : valeur observée du χ2 < au χ2 critique. Donc non rejet de H0. Répartition des malades s’accorde avec celle prévue par le concepteur (pas de différence).

 

2. Les tests d'indépendance et d'homogénéité :

 

Ajustement = effectif répartis suivant une variable.

Indépendance ou d'homogénéité = effectif observés pour deux variables simultanées.

On va regarde deux caractères simultanément.

Ex : Y a t il un lien entre la personnalité et le genre ? 
Etude du genre en fonction des traits de caractères.

 

a. Les tableaux de contingence :

 

Les tableaux de contingence croisent deux variables.

  - Première variable : X (en ligne, chaque modalité : xi).

  - Deuxième variable : Y (chaque modalité yi en colonne)/ Effectifs conjoints, notés n(ij) : dans les cases du tableau, effectifs résultant du croisement entre les modalités des deux variables.
On note aussi les effectifs marginaux, comme représentés dans le tableau.

 

 

Ex d’un tableau de contingence X à 2 modalités et Y à 3 modalités : on obtient un tableau de contingence 2 x 3 (2 lignes x 3 colonnes), à 6 effectifs conjoints, 2 effectifs marginaux ni. (n1. et n2.), et 3 effectifs marginaux n.j (n.1, n.2 et n.3).

 

b. L'indépendance et l'homogénéité :

 

Indépendance : Association (liaison) de deux variables dans le tableau de contingence ou indépendance ?

Indépendantes : connaître les modalités d'une variable ne renseigne pas sur la probabilité d'obtenir une modalité pour l'autre variable.

Associées : connaître la modalité d'une variable renseigne sur la probabilité d'obtenir une modalité pour l'autre variable.

Le test d’indépendance permet de savoir s'il y a une relation entre deux variables pour un échantillon donné.

On parle de réciprocité d'indépendance.

On utilise le Khi² d'homogénéité.

Il est très proche du Khi² d'indépendance.

Mais attention, le raisonnement entre indépendance et homogénéité est vraiment différent.

 

 

Ex : Lien entre le genre et la couleur préférée des enfants de sept ans ?

On a un échantillon avec des garçons, et des enfants qui préfèrent telle ou telle couleur.

On interroge chaque enfant, et on place les résultats dans un tableau de contingence.

 

Si on ne connait pas les effectifs marginaux (nombres de filles et de garçons) → test d'indépendance.

Si on connait les effectifs marginaux (qu'on sait combien de filles et combien de garçons) → tests d'homogénéité.

 

c. Le Khi² (χ2) d'indépendance :

 

 

Nécessite de calculer les effectifs théoriques.

Effectifs théoriques = produits des effectifs marginaux divisés par N.

Donc pour chaque effectif conjoint, on aura un effectifs théorique n11 :

  - Multiplier les effectifs marginaux n1 et n2.

  - Diviser le résultat obtenu par l’effectif total N.

Soit :

  - πij la fréquence dans la population de la case (i,j).

  - πi. la fréquence marginale de la ligne i.

  - π.j la fréquence marginale de la colonne j.

 

Les hypothèses statistiques :

  - H0 : πij = πi. πj, i= 1, …, l et j = 1, …, c (indépendance).

  - H1 : i, j tels que πij ≠ πi. πj (négation).

 

Cas général (tableaux L X C) :

 

Situation où une des deux variables a plus de 2 modalités (cas rencontré le plus souvent)

Le cas où lignes = colonnes = 2 est exclu.

 

 

Condition :

  - L'effectif total doit être supérieur ou égal à 30.

  - Tous les effectifs théoriques doivent être supérieurs à 1, et au plus de 20% de ces effectifs peuvent être plus petits que 5.

Ex d'application :

  - Orientation fin de 1er cycle enseignement secondaire. Association entre sexe et orientation des élèves ?

  - Echantillon de 430 élèves de 3ème.

  - 3 souhaits d'orientation :

          + Arrêt à la fin de la 3ème.

          + Continuer jusqu'au bac.

          + Continuer après le bac.
  - Tableau de contingence :

 

 

Détermination de la valeur critique :

  - On utilise le nombre de degré de liberté et alpha.

  - Le nombre de degré de lignée = (ligne-1)*(colonne-1).

        + Le nombre de ddl est égal à 2 : (ligne-1)(colonne-1) = 1x2 – 2.

        + Alpha = .05.

        + Dans le tableau on obtient Khi-carré = 5,99.

La valeur du Khi² observé est inférieure à la valeur critique. Donc non rejet de H0, et on conclut au seuil alpha =.05 qu'il y a indépendance entre les variables sexe et orientation.

Le fait d'être une fille ou un garçon ne nous informe pas sur les intentions d'orientation des ados après la 3ème. Les intentions d'orientation des ados après la 2ème ne nous informent pas sur le fait d'être une fille ou un garçon → RECIPROCITE.

 

Cas du tableau 2x2 :

 

Les mêmes conditions existent ici pour l'application du Khi² : effectif total supérieur à 30 ; tous les effectifs théoriques supérieurs à 1 ; au plus 20% de ces effectifs théoriques inférieurs à 5.

MAIS ON NE FAIT PAS DE REGROUEMENT DE MODALITES car on a déjà que 2 variables en fonction de 2 variables.

 

Avec un Khi² à un degré de liberté, lorsque les effectifs sont inférieurs à 5, on peut utiliser la correction de Yates.

On retire 0,5 de la valeur absolue des écarts entre effectifs théoriques et effectifs observés.

 



25/01/2013
0 Poster un commentaire

Inscrivez-vous au blog

Soyez prévenu par email des prochaines mises à jour

Rejoignez les 1516 autres membres