Cours de psychologie

Psychométrie (suite)

3. Interprétation de la fidélité :

 

Pour les décisions > .90. On ne tolère pas qu'une décision soit prise sur une erreur. 
On se doit de se baser sur des tests qui ont une bonne fidélité.

Pour d'autres utilisations, >.70 ou >.60

Plus les enjeux sont importants, plus il faut être exigeant sur la fidélité.

 

Chaque type de coefficient de fidélité a une interprétation spécifique : stabilité, équivalence, cohérence interne.

Ex : test-retest sur des enfants de 10 ans, avec une fidélité de .80 → il faut prendre en compte l'évolution des enfants, pas juste mettre les 20% sur le compte de l'erreur !

En général : cohérence interne > formes parallèles > test-retest.

 

La fidélité peut être faible lorsque les sujets sont trop homogènes sur l'attribut mesuré.

  - C'est à dire que tout le monde a à peu près le même résultat. Il n'y a donc pas de différence détectable entre les sujets.

  - On parle de restriction de l'étendue (→ ce qui limite la fidélité).

  - La fidélité est spécifique à une population précise (le même test aura une fidélité différente en fonction des populations).

  - Lorsque l'on change de population, il faut effectuer de nouveaux calculs de fidélité.

  - La fidélité n'est pas l'exactitude.

 

Ex : Exemple de test :

1+3 = ?                  3

4+3 = ?                  7

2+5 = ?                  7

3+2 = ?                  5

4+1 = ?                  5

On effectue ce test à deux reprises.

1ère passation: 5 bonnes réponses.

2ème passation : 5 bonnes réponses.

Il n'y a pas de différence entre les deux passations.

On n'aura pas une bonne fidélité, car ce test est inutile pour différencier des personnes.

5/5 aux deux passations : On obtient juste un point sur le graphique.

                → Pas de droite.

                → Pas de corrélation linéaire.

                → Mauvaise fidélité.

 

Attention ! Ce test aurait eu une fidélité supérieure sur une autre population : par exemple des enfants.

 

La fidélité est souhaitable dans les tests où on veut trouver des différences entre les personnes.

On a besoin de différences réelles détectables avec peu d'erreur aléatoire.

 

4. Améliorer la fidélité :

 

a. L'analyse des items :

 

Il faut trouver les items problématiques (= difficiles).

 

L'indice de difficulté : p = N(c)/N.

Il s'agit du nombre de sujets ayant la bonne réponse divisé par le nombre total de sujets.

 

P varie de 0 à 1.

0 → Item très difficile (personne n’a eu la bonne réponse).

1 → Items très facile (tout le monde a la bonne réponse).

Dans ces deux cas, l'item n'a aucune utilité puisqu'on ne peut détecter aucune différence entre les sujets.

L'idéal est d'avoir un P = 0.50. : il n’y a que la moitié des sujets qui ont la bonne réponse, c’est un test qui va différencier au mieux les sujets.

 

b. L'analyse des distracteurs :

 

Dans les QCM, il peut y avoir plusieurs propositions, mais une seule bonne réponse (en règle générale).

Le distracteur est une réponse plausible mais fausse.

  - Les sujets qui connaissent la bonne réponse vont choisir la bonne réponse.

  - Pour les sujets qui ne savent pas, ils vont répondre de façon aléatoire, et ainsi donner une bonne ou une mauvaise réponse.

→ Il y a donc une distribution équilibrée sur les distracteurs.

 

Ex : 4 choix de réponse, 60 sujets, N ayant une bonne réponse.

                a) 30

                b) 10

                c) 10

                d) 10

L'indice de difficulté ici est de 0.50 (30 bonnes réponses / 60)

 

Si la répartition n'est pas équilibrée (pas comme dans l'exemple) :

  - Soit peu de personnes choisissent une réponse (car c'est trop flagrant elle est fausse, 1/3 de chance de tomber sur la bonne réponse). L'item devient donc trop facile.

  - Soit beaucoup de personnes choisissent une réponse. Les autres sont faciles à éliminer ou la réponse est partiellement correcte.

 

On a donc besoin de trouver des distracteurs aussi plausibles les uns que les autres.

 

Ex : L'approche de la cohérence interne pour évaluer la fidélité :

a) peut être calculée seulement après 2 passations du test  (12) → distracteur le plus plausible.

b) est interprétée comme un T de Student  (7) → item peu plausible.

c) est calculée en utilisée d'Alpha de Cronbach  (20) → bonne réponse.

d) indique si une personne est trompée par son conjoint  (1) → item trop peu plausible.

 

c. Corrélation item-total (cf TD):

 

Il s'agit de corréler le score à un item au score de l'ensemble du test.

  - La corrélation est forte et positive :

            + Les personnes ayant une bonne réponse à cet item ont en général un score élevé (mauvaise réponse → mauvais score).

            + Inversement, les personnes ayant un score faible à cet item ont des scores faibles au test.

            + Un seul item peut alors représenter le score.

→ Contribue à une bonne fidélité.

  - La corrélation est près de 0 :

            + Pas de conclusion possible pour le score avec juste un item.

            + Aucune indication sur le score global.

  - La corrélation est négative :

            + La personne qui trouve la bonne réponse a de mauvais scores aux tests. En revanche, si la personne se trompe à cet item, c'est que c'est quelqu'un de fort au test.

→ Cas plutôt rare, mais très problématique.

 

5. Utiliser la fidélité :

 

L'erreur standard de mesure donne une indication de l'étendue probable du score vrai en fonction de l'erreur de mesure.

Autrement dit, elle donne une indication sur l'intervalle dans lequel le score vrai va se trouver.

→ Erreur standard de mesure.

→ Ecart type.

→ Fidélité.

→ Part d'erreur.

 

 

Le score attribué n'est pas le score vrai car il y a toujours une part d'erreur.

On utilise souvent l’erreur standard de mesure car on doit toujours penser que le score obtenu n’est pas exact. On fera donc plus confiance au score obtenu si la fidélité est importante et donc que l’étendue du score est faible.

 

6. Résumé :

 

 

 

III. La validité.

 

 

Validité : estime si la méthode d’évaluation mesure bien ce qu’elle est censée mesurer.

Attention ! Un test peut être fidèle sans être valide !

En revanche, un test doit être fidèle, sinon il ne peut pas être valide !

La validité est limitée par la fidélité.

 

 

Ex :

Si la fidélité est de .60, la validité est de.77.

Si la fidélité est de .80, la validité est de .89.

Si la fidélité est de .95, la validité est de .97.

 

1. Approches pour évaluer la validité :

 

a. Validité « prédiction-critère » (validité critérielle ; validité de critère) :

 

Ce qu’on recherche avec cette méthode c’est une corrélation positive élevée.

Cette corrélation est ce qu’on recherche pour montrer que le test a une bonne validité.

Il est cependant très difficile d’obtenir un test avec une validité très élevée. Une validité de .50 est une validité considérée comme excellente.

La validité parait si faible par rapport à la fidélité car on cherche à prédire quelque chose qui se passera plus tard avec un seul test. Cependant le comportement humain n’est pas influencé par un seul facteur. Or avec un test de validité .50 on arrive à prédire un comportement futur avec un seul test qui mesure un seul facteur.

Avec une corrélation de 0, il y a une chance sur deux pour que la personne qui passe le test soit performante dans une certaine situation.

 

Validité prédictive :

 

Avec un test utilisé maintenant, peut-on prédire un critère mesuré plus tard ?

Contexte de prédiction lors d'entretient d'embauche, de réussite scolaire, d'orientation, tests de troubles précoces.

 

Procédure :

  - Tester les sujets sans utiliser les scores pour prendre une décision. On n’utilise pas les scores dans la mesure où on ne sait pas encore si le test permet de prédire n’a pas été validé. Pour savoir si le test est valide il faut savoir si les personnes ayant obtenu des scores élevés au test sont de sujets qui sont qui vont être performants dans la situation pour laquelle ils ont été évalués.

         + Ex : pour un recrutement, on effectue un test à l'entrée. Un an plus tard on effectue le même test et on corrèle les deux résultats.

         + Il faudrait que les personnes performantes au test soient performantes au poste (et si elles ne sont pas performantes au test, elles ne devraient pas l'être au poste).

  - Mesurer le critère après un laps de temps.

         + Il y a toujours une contrainte liée à ce laps de temps qui rend l’utilisation de cette méthode problématique : on ne sait pas si on retrouvera les mêmes sujets après ce laps temps. On ne saura donc pas si le test est valide.

→ Cette recherche est donc peu faisable.

  - Corréler les deux séries de scores.

→ Besoin de montrer que les candidats pris sont performants, et besoin de refuser ceux qui ne sont pas performants.

 

Validité concourante (concurrente) :

 

Il s’agit d’une méthode alternative à la méthode de validité prédictive.

Avec ce test, on obtient tous les scores au même moment.

 

Procédure :

  - Tester les personnes pour qui on peut avoir le critère en même temps (ex : on teste et les personnes voulant être recrutées et les employés).

  - Obtenir les scores au critère puis corréler les deux séries de scores.

→ On cherche des corrélations positives, élevées.

Mauvais score au test → peu de performance.

Bon score au test → beaucoup de performance.

Attention ! Il est très dur d'obtenir une bonne validité !

Une validité très bonne est autour de .50, mais c'est exceptionnel, parce que le comportement humain ne peut pas être prédit avec juste un seul test. Une validité de .30 est donc plus commune et bonne.

 

b. Validité de contenu (content validity) :

 

Avec ce test, il faut faire appel à des juges ou des experts pour effectuer le contenu de chaque item.

 

Ex : évaluer différentes facettes de l'intelligence générale.

Les juges vont évaluer item par item ce que représente les items (maths, verbal, spatial) → le test doit représenter tous les domaines.

 

c. Validité de construction (de construit) :

 

Préoccupation principale :

Le test mesure-t-il bien ce qu'il est sensé mesurer ?

La validité critérielle et la validité de contenu participent, renseignent,  la validité de construction.

 

Matrice multi-traits multi-méthode :

 

On parle de MTMM, d'après Campbell et Fiske.

Cette technique mesure plusieurs traits avec plusieurs méthodes.

 

Ex : mesure de l'intelligence, de l'extraversion et de la dépression.

Les trois traits ne devraient pas corréler.

Chaque trait sera mesuré de plusieurs façons différentes (tests ; observation ; entretien...).

On crée ainsi une matrice.

 

 

On recherche de la validité convergente : les mêmes tests devraient donner les mêmes informations sur le même trait.

Ex : les trois mesures de la dépression devraient donner les mêmes conclusions.

Validité divergente → divergence lorsqu'on mesure différentes choses.

On devrait observer de faibles corrélations entre intelligence, extraversion et dépression.

On ne cherche pas de lien de relation entre les traits !!!

Corrélation faible : un trait ne renseigne pas sur un autre tait.

 

Validité convergence : même trait, différentes méthodes. On s'attend à une corrélation élevée. On fait plusieurs/différentes mesures de la même chose pour montrer qu’il y a une convergence entre les différents résultats d’une même chose.

Validité divergente : traits différents, quelque soit la méthode. On s'attend à une corrélation faible. Pour chaque trait on utilise un questionnaire différent. On ne veut pas obtenir des scores convergents lorsqu’on mesure différents traits pour pouvoir donner une explication différente pour chaque trait.

 

Au cours d'un entretien, il ne faut pas penser qu'une personne intelligente est extravertie et pas dépressive !

Si l'entretien montre une corrélation entre intelligence, extraversion et dépression, il faut rajouter d'autres méthodes d'étude (tests ; observations...)

 

Utilisation d'expérimentations :

 

On peut penser qu'une personne extravertie va se comportement de telle façon dans telle situation.

On peut évaluer le sens du test dans divers contextes expérimentaux.

 

2. Conclusion :

 

 

Tout test doit être évalué pour sa validité :

Validité prédicteur-critère → prédictive et concourante.

Validité de contenu → juges

Validité de construit → validité convergente et divergente.

 

 

IV. TD.

 

 

1. Rappel :


 

2. Formules :

 



18/01/2013
0 Poster un commentaire

Inscrivez-vous au blog

Soyez prévenu par email des prochaines mises à jour

Rejoignez les 1514 autres membres