Cours de psychologie

Statistiques inférentielles

Statistiques Inférentielles

 

 

Sert à valider (ou non) une hypothèse en psychologie.

Objectif : savoir quelle confiance on peut accorder à une étude → caractère réfutable des résultats, même s'il existe des tendances générales chez l'être humain malgré les variations interindividuelles.

Les statistiques inférentielles vont chercher à mettre en évidence ces principes généraux en psychologie.

Cela a un but diagnostique et préventif → complémentaire d'une approche clinique.

Aide à la création de tests.

Loi générale de fonctionnement humain. Différences interindividuelles. Différences intra-individuelles.

Aide au diagnostic et à la prévention (prédiction ?).

Situer l’individu dans un ensemble (normal et pathologique).

 

!!! Attention !!! QCM : On ne peut pas valider ni invalider une hypothèse sur la base de statistiques descriptives.

 

 

I. Rappels.

 

 

Les statistiques peuvent intervenir à 3 niveaux :

  - Pour décrire.

  - Pour comparer.

  - Pour interpréter : ce qui signifie que la statistique est un outil de raisonnement et d’investigation.

Mais pour accéder à ces 3 niveaux, il faut d’abord bien maîtriser les concepts ; tout d’abord, il faut savoir que population, échantillon et individu sont tous 3 des réalités. On va définir en détail les exigences, la typologie et les commentaires additionnels de ces 3 concepts.

  - Le concept de population :

            + Les statistiques travaillent sur des populations. Une population est appelée A’ ; le « ‘ » correspond à la population tandis que le A, B, … correspondent à des échantillons de population. Une population est un échantillon d’individu partageant au moins une caractéristique.

            + Attention, échantillon ici n’est pas pris au sens large du terme, ce n’est donc pas forcément une personne, c’est seulement quelque chose d’indivisible.

            + Une population doit être définie de façon claire (exigence formelle), et il faut qu’elle ait de la pertinence (exigence non formelle). Il y a essentiellement des populations infinies et des populations finis, autrement dit des populations fermées (délimitées, fixes, constantes, arrêtées) ou ouvertes.

            + Les populations font parties de la pensée pure autrement dit de la pensée formelle. Attention, il ne faut pas oublier que les concepts sont justes des tiroirs mentaux qui n’existent pas en réalité.

  - Le concept d’échantillon :

            + L’échantillon est de ce qui compose une population, et il est lui-même composé d’individu. La capacité fondamentale d’un échantillon, sa représentativité, est de restituer une image fidèle de se qui se passe au niveau de la population. Pour qu’un échantillon soit représentatif, il faut qu’il ait 2 caractéristiques :

                     . Il faut qu’il ait un effectif ou une taille suffisante.

                     . Il faut que chaque individu de la population ait exactement les mêmes chances de faire partie de l’échantillon qu’un autre ; c’est l’équiprobabilité.

  - Le concept d’individu :

            + Individu veut juste dire en statistique « non divisé », c’est donc des réalités singulières. Il y a plusieurs méthodes d’échantillonnage. La méthode aléatoire est l’une des meilleures mais elle est très chère.

  - Le concept de variable :

            + C’est le concept le plus important car toutes les observations se font à partir de variable, en particulier les observations d’ordre perceptives. D’autre part, les variables nous permettent des classifications et des chiffrages.

            + Une variable c’est un point de vu que l’on adopte pour apprécier la population, un échantillon ou des individus.

            + Les variables ont 2 exigences :

                     . Il faut qu’elles soient clairement définies.

                     . Il faut qu’elles soient pertinentes.

            + L’intelligence est une des variables les plus étudiées en psychologie. L’intelligence étant un concept pure, on ne peut la mesurer directement, on passe donc par des échantillons ; les variables aboutissent à des valeurs.

 

1. La démarche scientifique :

 

La construction de la problématique :

  - Hypothèse générale ou théorique (évoque des concepts généraux, théoriques).

  - Réponse anticipée à la question qui motive la recherche.

La construction de la méthode et de la procédure :

  - Hypothèse générale transformée en hypothèse opérationnelle → traduction empirique, concrète de l'hypothèse générale.

  - Dans la mesure où on peut décliner une hypothèse générale, on peut avoir plein d'opérationnalisations, donc d'hypothèses opérationnelles possibles.

  - Ces hypothèses mettent en relations au moins 2 variables.

L'analyse des données :

  - Deux étapes : analyse statistique descriptive puis analyse statistique interférentielle.

L'interprétation des résultats.

 

 

2. Les variables :

 

a. Variable indépendante (VI) :

 

Variable que le chercheur va manipuler, qui va mettre en place et qui est supposée provoquer des variations sur la VD.

Comporte plusieurs modalités (au moins 2!!).

Ex : le jeu d’échecs améliore les performances de mémoire. (2 modalités : « joue » ou « ne joue pas » ; 3 modalités : « moins d’1h par mois » « entre 1 h et 3 h par mois » « plus de 3h par mois»; etc.).

 

Peut être provoquée ou invoquée :

  - Provoquée = c'est l'expérimentateur qui crée les situations. Création aléatoire de groupes lors d'une expérimentation : certains sont soumis à une VI 1 et certains à une VI 2.

          + Ex : effet du bruit sur la mémorisation (le chercheur crée une situation de mémorisation avec bruit et une situation de mémorisation sans bruit).

  - Invoquée = c'est une variable qui est utilisée par le chercheur, mais pas crée. C'est une caractéristique innée au sujet. Ex : le sexe, l'âge, boulimie...

          + Ex : effet de l’âge sur la mémorisation (le chercheur compare les jeunes et les âgés sur le plan mnésique. On choisit dans la nature des individus qui correspondent aux modalités « jeune » ou « âgé(e) ».

 

b. Variable dépendante (VD) :

 

Elle est supposée déprendre des variables de la VI ; En relation avec le comportement (au sens très large : attitude, préférence, émotion, performance, etc...) du participant. C'est ce que l'expérimentateur mesure le plus souvent.

 

c. Variable quantitatives/qualitatives :

 

Quantitative :

 

Renvoi à une quantité :

  - Continue (nombre théoriquement infini de valeurs) : temps de réponse, poids, grandeur, âge...

  - Discrète (nombre fini de valeurs) : nombre d'enfants, nombreux d'habitants, scores...

 

Qualitative :

 

Renvoie à une qualité :

  - Ordinale (modalités qui s'ordonnent, se comptent) : catégories socioprofessionnelles, niveau d'étude...

  - Nominale : genre, couleur préférée, langues parlées...

 

La nature d’une variable se définie au niveau théorique. De la nature de ces variables va dépendre le type de test statistique qui sera utilisé.

 

 

3. Terminologie :

 

Donnée brute : donnée recueillie, non transformée.

Unité statistique ou unité d'observation : ce sur quoi ou qui un ou plusieurs caractères sont mesurés. En psychologie, très souvent un être humain, un « participant ».

Variable : caractère étudié (au moins 2 catégories, 2 modalités).

Codage des données : on assigne un chiffre à chaque modalité de la variable (ça ne change pas la nature de la variable).

Ex : femme = 1 ;  Homme = 2

Attention ! Ca ne change pas la nature de la variable !!

Les outils statistiques traitent des chiffres et pas des données brutes. Il faut penser ces variables avant le codage, sinon il n’y aurait que des variables quantitatives.

 

4. L'analyse des données :

 

Descriptive puis circonférentielle.

 

a. Présenter une distribution d'effectifs (histogramme, etc...) :

 

 

b. Calculs :

 

A partir de ces données, on calcule des fréquences, et des pourcentages – simples ou cumulés :

  - Fréquence :

             + Simple : effectifs de la modalité / effectif totale : fi = Xi/N = effectif de la modalité / effectif total.

             + Cumulée se calcule en ajoutant la fréquence de la modalité à la fréquence totale des modalités antérieures. La dernière modalité est égale à 1.

  - Pourcentage :

             + Simple : fréquence x 100.

             + Cumulé : fréquence cumulée x 100.

 

c. Résumé :

 

 

Résumer une distribution :

  - Indices de tendance centrale :

           + Moyenne : somme des valeurs numériques divisées par le nombre de ces valeurs.

           + Mode : valeur la plus retrouvée dans la distribution, celle dont l’effectif est le plus grand.

           + Médiane : valeur m telle que le nombre de valeurs de l’ensemble est supérieur ou égal à m et égale au nombre de valeurs inférieur ou égal à m.

  - Indices de dispersion :

           + Variance : moyenne des carrés des écarts à la moyenne.

           + Ecart type : racine carrée de la variance, sorte d’écart moyen à la moyenne.

 

Qualitative nominale : mode.

Qualitative ordinale : mode et médiane.

Quantitative : tout, même si le mode a pas trop d'intérêt.

On ne peut pas, sur la base de données descriptive, valider ou invalider une hypothèse.

 

 

II. Statistiques inférentielles et notions de probabilité.

 

 

Dans le monde, il existe des événements prévisibles, et d'autre pas.

Certains événements vont se reproduire tout le temps pareils dans les mêmes conditions (ex : eau qui boue à 100°C).
Certains événement sont moins prévisibles (résultats à une élection).

 

1. La notion de probabilité et de variable aléatoire :

 

Probabilité : quantifier notre degré d'incertitude sur un phénomène imprévisible.

Expérience aléatoire : va se produire mais le résultat est inconnu. Ce résultat auquel l'expérience aléatoire donne lieu est appelé événement aléatoire, et cet événement aléatoire apparaît parmi un ensemble de résultats possibles → l'univers des possibles.

Définie par le nombre de cas favorables à l'évènement, divisé par le nombre total de cas.

Ex : avoir un 2 en jouant au dé → 1/6.

 

2. Rapprocher le contexte de probabilité à celui de fréquence :

 

Loi des grands nombres (Bernoulli, 1713) : la probabilité d'un événement est le nombre vers lequel tend la fréquence de cet événement lorsqu'on répète un nombre infini de fois l'expérience aléatoire pouvant conduire à cet événement.

La probabilité devient alors un nombre compris entre 0 et 1 et vérifiant les propriétés d'une fréquence. Ce résultat est alors convertissable en pourcentage de « chances »

  - Événements certains : probabilité de 1

  - Evénement impossible : probabilité de 0

 

 

Dans des courbes : asymétrie positive / négative / nulle.

Pour traiter une probabilité dans le cas d’une variable continue on va traiter des intervalles de valeur et non sur des données « piles ».

 

3. Les lois les plus rencontrées dans la nature :

 

 

Loi de Bernoulli et loi binomiale : variable aléatoire discrète. Elle traite de la fréquence d’occurrence de phénomènes binaires. 

Loi normale : variable aléatoire continue. Elle décrit parfaitement bien les comportements psychiques humains.

  - C'est la loi la plus utilisée, surtout en psychologie.

  -  Moyenne = point qui signe le point le plus haut de la courbe.

 

4. Les concepts de base des statistiques inférentielles :

 

a. L'inférence statistique :

 

 

b. Deux types de procédure : l'estimation et le test d'hypothèses :

 

L'estimation :

  - Estimation ponctuelle (intention de vote pour X = 44%).

  - Estimation par intervalle de confiance (intention de vote pour X se situe entre 41 et 47%).

Le test d'hypothèses :

  - Existe-t-il une différence entre A et B ?

  - Existe-t-il une relation entre A et B ?

Hypothèse → Echantillonnage aléatoire → Résultats.

On ne peut pas conclure sur des données descriptives !

On ne peut pas conclure non plus à cause de l'erreur d'échantillonnage. Il existe toujours une certaine différence entre l'estimation d'une statistique fournie par un échantillon même représentatif et le paramètre qui serait observé au niveau de la population.

Seul le test d'hypothèses va nous permettre de valider ou invalider l'hypothèse formulée (qui porte sur des différences ou relations entre A et B).

Il va en outre permettre de quantifier le risque de se tromper.

Pour estimer ce risque : la distribution d'échantillonnage.

 

c. La distribution d'échantillonnage :

 

Individu → échantillon.

Distribution d'indices statistiques (moyenne, variance, fréquence...).

Distribution des valeurs obtenues pour cette statistique sur un échantillon répété.

C'est comme si sur la population on prenait une infinité d’échantillons, pour lesquelles ont calcule donc une infinité de moyennes. On place les résultats obtenus dans un graphique qui donne une densité de probabilité.

Ex : Howell, 2003 :

  - 5 enfants de couples récemment divorcées. Les enfants de parents divorcés ont-ils plus de problèmes comportementaux que des enfants issus de familles non divorcées, des enfants en général ?

  - Echelle de problèmes comportementaux d'Achenbach :

             + Moyenne de l'échantillon : 58.

             + Moyenne de la population : 50.

  - Distribution d’échantillonnage d’une statistique : distribution des valeurs obtenues pour cette statistique sur un échantillonnage répété.

             + Si je tire une infinité d’échantillons de 5 enfants quelle probabilité d’avoir un échantillon de moyenne 58 ?

             + Grossièrement : si cette probabilité est élevée il y a de fortes chances que mon échantillon représente bien ma population parente, si cette probabilité est faible cela signifie qu’il y a peu de chances que mon échantillon représente bien ma population.

  - Mon échantillon est-il particulier ? Ou peut-on penser qu’il représente notre population, qu’il est extrait d’elle ?

 

 

  - Distribution d’échantillonnage de la moyenne : distribution des moyennes d’un nombre infini d’échantillons aléatoires prélevés sous certaines conditions spécifiées.

 

 

III. La loi normale.

 

  

1. La loi normale :

 

Elle correspond à la distribution de probabilités des variables aléatoires normales.

Il s’agit de variables aléatoires continues et donc quantitatives.

La probabilité de tomber sur un chiffre précis étant quasi nulle, on va travailler sur des intervalles de valeurs.

Représentation graphique des variables aléatoires continues se fait par une courbe appelée densité de valeurs, densité de probabilité.

La courbe correspond à la distribution observée pour de nombreux caractères en psychologie : on parle de courbe normale ou gaussienne.

  - L’aire sous la courbe correspond à la probabilité d’obtenir un résultat dans un intervalle donné.

  - Les intervalles les plus denses (avec le plus de données) se situent vers la moyenne.

  - La courbe est symétrique par rapport à la moyenne.

 

 

2. Des distributions normales à la distribution normale réduite :

 

 

Notion d’aire : un phénomène est d’autant plus probable que la portion d’aire qui lui correspond sous la courbe est importante.

Pour une valeur donnée x de la variable, qu’on appelle xi on a une certaine fréquence d’apparition yi.

 

Une distribution normale se caractérise par deux paramètres :

  - Sa moyenne (µ) : c’est le point ou la tendance de la courbe s’inverse.

  - Son écart-type (σ) : en fonction de l’écart-type la courbe sera plus ou moins aplatie.

            + Plus σ est grand plus la courbe est évasée et aplatie (puisque la dispersion est grande).

            + Plus σ est petit plus la courbe est haute.

 

3. Propriété de la distribution normale :

 

Plusieurs propriétés de la distribution normale aident à déterminer la probabilité d’obtenir une valeur dans un intervalle donné.

  - L’aitre totale sous la courbe est égale à 1 : la portion sous la courbe à droite d’une valeur x donnée est le complément à 1 de la portion d’aire à gauche de cette valeur.

 

 

  - La symétrie par rapport à µ.

            + 50% des valeurs se situent à gauche de µ et 50% des valeurs se situent à droite de µ.

            + Si on prend une valeur quelconque x, la proportion de valeurs sous la courbe à gauche de µ - x = la proportion de valeurs sous la courbe à droite de µ + x.

Ex : si µ = 50 et x = 30 on a la même proportion de scores inférieurs à 20 (50 – 30) que de scores supérieurs à 80 (50 + 30).

 

4. La distribution normale réduite :

 

Transformation (standardisation) des données.
Elle se fait en deux étapes :

  - Centrer : on soustrait la moyenne de chaque observation, c’est-à-dire on calcule les écarts à la moyenne. La moyenne résultant de cette transformation est égale à 0.

  - Réduire : on divise les écarts par l’écart-type.

Les valeurs obtenues après transformation constituent une nouvelle variable Z ou scores z : la distribution de Z est une distribution normale réduite (centrée et réduite) de moyenne 0 et d’écart-type 1.

Les relations entre les données restent les mêmes. La distribution conserve la même forme.

 

 

5. Les tables de la loi normale réduite : à retenir :

 

On cherche à estimer une aire sous la courbe, à établir une correspondance entre les valeurs de z, mentionnées en abscisse et les aires sous la courbe.

Plus l’aire sous la courbe est importante pour un intervalle donné, plus la probabilité d’obtenir une valeur dans un intervalle est importante.

La probabilité d’obtenir une valeur dans un intervalle est d’autant plus importante que cet intervalle se situe à proximité de la moyenne.

On se sert des scores z dons toujours transformer les scores bruts en écart-réduits.

La surface totale est égale à 1.

La courbe est symétrique par rapport à la moyenne µ qui est gale à 0 pour la distribution normale centrée réduite.

La table donne la probabilité d’obtenir une valeur < à une valeur z positive (c’est-à-dire dans un intervalle compris entre -∞ et une valeur z positive).

 

Attention !!!
Plusieurs tables de la loi normale !!! Certaines donnes les valeurs < à un z positif, d'autres donnent les 2 extrémités, d'autres les valeurs > à un z positif !!

Il faut donc bien faire attention à la légende de la table.

 

La première colonne :

  - valeur de Z : l'entier et la première décimale.

  - 2ème ligne : décimale suivante.

La deuxième colonne : probabilités.

 

 

 

 

Quelques conseils :

Bien réfléchir à ce qu'on chercher en se souvenant de plusieurs points :

- Plus l'aire sous la courbe est importante alors plus la probabilité est importante.

- La probabilité d'obtenir une valeur extrême sera plutôt faible.

- Une valeur négative est forcément à gauche de la moyenne et une valeur z positive est forcément à droite de la moyenne.

- Répondre à la question posée (effectifs, pourcentages ? Probabilité ?).



25/01/2013
0 Poster un commentaire

Inscrivez-vous au blog

Soyez prévenu par email des prochaines mises à jour

Rejoignez les 1520 autres membres