Cours de psychologie

Statistiques descriptives

Statistiques Descriptives

 

  

Lectures recommandées :

Beaufils, B. (1996). Statistiques appliquées à la psychologie - Tome 1 : Statistiques descriptives. Paris : Bréal.

Howell, D. C. (1998). Méthodes statistiques en Sciences Humaines (Chapitres 1 à 4). Paris: De Boeck.

 

 

I. A quoi servent les statistiques ?

 

 

1. Statistique en général, statistique en Psychologie :

 

La Statistique : étude d’un ensemble de fait numérique.

Les statistiques : ensemble d’informations recueillies à l’aide de la Statistique (indices).

Epistémologie : réflexion sur la façon dont on élabore des connaissances, le savoir.

 

Il faut faire attention avec les interprétations qu’on en tire. Il faut savoir utiliser la bonne procédure.

 

Exemple : sondage (question posée et population étudiée)

Question posée aux salariées
(CSA, 11/10/2003) : « Dans le contexte économique actuel, laquelle des solutions suivantes en matière de travail aurait votre préférence ? ».

Réponse des salariés :

64% « maintenir les 35h telles quelles »

23% « supprimer et revenir aux 39h »

11% « suspendre temporairement »

2% ne se prononcent pas.

Réponse de l’ensemble des français :

49% « maintenir les 35h telles quelles »

34% « supprimer et revenir aux 39h »

12% « suspendre temporairement »

5% ne se prononcent pas.

 

 

2. Notions élémentaires :

 

Population : ensemble d’éléments (ou unités) partageant des caractéristiques particulières. Il est rare que l’on puisse mener une étude sur l’intégralité de la population que l’on étudie (les populations sont souvent trop grandes) d’où le fait que l’on utilise des échantillons les plus représentatifs possible puisqu’il s’agit d’une image plus petite de la population. Cependant on ne peut pas toujours tirer des conclusions sur des populations a partir des échantillons.

 

 

On prélève un échantillon dans la population.

Echantillon : partie de la population à partir de laquelle des mesures sont recueillies. Il faut faire en sorte que l’échantillon soit le plus représentatif possible de la population de laquelle il est issu. Un échantillon est représentatif si les unités qui le constituent ont été choisies par un procédé tels que tous les membres de la population ont la même probabilité de faire partie de l’échantillon.

Echantillonnage : méthodes que l’on utilise pour faire des échantillons.

Erreur d’échantillonnage : différence entre l’estimation fournie par l’échantillon et ce qui existe dans la population. Tendance à se réduire avec l’effectif de l’échantillon : plus l’échantillon est proportionnellement petit par rapport a la population plus il y a un risque d’erreur de l’échantillonnage, et inversement. Tant qu’on n’étudie pas l’ensemble de la population on risque de commettre une erreur d’échantillonnage.

Echantillonnage aléatoire : chaque élément de la population a une chance égale d’être choisi.

Ex : tirage au sort. Il existe toujours un risque d’erreur d’échantillonnage même si elle est minimisée.

Echantillonnage par quotas : échantillonnage permettant de retrouver les mêmes proportions de caractéristiques jugées essentielles dans l’échantillon que dans la population. 

Variable : caractéristique d’un élément qui peut prendre plusieurs/différentes modalités (valeurs).

→ Les 3 variables les plus courantes sont : le sexe, l’âge et la catégorie socio-professionnelle.

 

3. Objectifs des statistiques descriptives :

 

Présenter une distribution :

 

Figure 1 et tableau 1 :
Nombre de cigarettes fumées en 4 heures dans un bar.

 

 

Situer une observation :

 

→ situer une observation dans un ensemble de référence.

 

Evaluer le retard ou l’avance du développement intellectuel d’un adulte par rapport aux personnes du même âge.

 

Déterminer si une note d’étudiant fait partie des 10% de meilleures notes obtenues en licence 1.

 

Objectif des stats descriptives :

      - Présenter une distribution.

      - Résumer une distribution.

→ Indices de tendance centrale & de dispersion (médianes, écarts types, etc.).

      - Situer une observation dans un ensemble d’observations.

      - Etudier les relations entre les variables.

 

Ex : relation entre situation pro et anxiété ou aptitudes d’un enfant et son sexe.

 

4. Objectifs des statistiques inférentielles :

 

Principe général = quantifier le risque de faire une erreur (risque qui ne peut pas être nul puisque j’utilise un échantillon et non la population d’origine) en généralisant ce qui est observé dans un échantillon à l’ensemble de la population. Cependant ce risque est un risque que l’on peut prendre de manière raisonnable.

Peut on prendre le risque généraliser les résultats de l’échantillon à celui de la population ? Existe-t-il un lien entre deux variables dans l’ensemble de la population ?

     - L’hypothèse nulle (H0) : hypothèse selon laquelle il n’existe pas de relation entre deux variables dans la population (risque de 2ème espèce = risque d’accepter à tort l’H0 (pas utilisé en psychologie : on n’est pas en mesure de quantifier ce risque parce que l’échantillon est trop petit)).

     - L’hypothèse alternative (H1) : existe une relation entre deux variables d’une population.

     - Elles permettent de quantifier le risque de se tromper en rejetant l’hypothèse nulle : les calculs que l’on fait nous permettent de savoir quel est le risque de se tromper en tentant de rejeter H0 = risque de première espèce = risque de rejeter à tort une H0 = risque d’accepter à tort l’hypothèse selon laquelle il existe une relation entre les variables. Risque compris entre 0 et 1 = compromis entre le risque que l’on est prêt à prendre.

     - On s’autorise la généralisation de l’échantillon à la population uniquement si p 5% (en psycho) on peut se permettre de rejeter l’H0 et d’accepter H1 : résultat significatif.

     - Dans le cas ou p 5% (en psycho) on ne peut pas généraliser l’échantillon à la population mais on ne peut pas non plus rejeter l’H0 : il n’y a pas la mise en évidence significative. On ne peut donc pas conclure.

 

 

5. Démarches quantitatives (et expérimentales) :

 

Introspection : gros pb = subjectif dans la mesure ou on étudie uniquement ce dont on a conscience.

→ Traitement d’un mot (ex : avocat) qu’on entend : on passe en revue inconsciemment toutes les possibilités pour sélectionner la bonne signification.

 

L’observateur et l’observé sont la même personne.

Observation naturelle : on observe les cas or son pb = on conclue uniquement a partir de l’observation de quelques cas : en prenant d’autres cas on aurait probablement d’autres résultats.

Observation systématique : déterminer/voir si 2 variables sont liées : mettre en évidence des relations entre les faits (variables).

 

Pb = ne pas pouvoir déterminer les causes du phénomène étudié : pb d’interprétation car il n’y a qu’une interprétation statistique qui ne permet pas de mettre en évidence ce qui provoque les résultats obtenus dans l’étude.

 

Expérimentation : intervenir activement afin de tester des hypothèses relatives aux causes du phénomène.

 

Hypothèse de la menace du stéréotype : lorsqu’on sait que l’on va être évalué sur un registre de compétences (a un stéréotype négatif de la sté) on est affecté pas ce stéréotype et cela diminue nos capacités.

Ex : une classe de collège :

a) Interro de math.

b) Jeu de math.

Dans cas a) garçons meilleurs que filles, dans cas b) il n’y a pas de différence entre les compétences F/M car il ne s’agit pas d’un test donc les filles n’ont pas conscience d’appartenir a un stéréotype et donc ne savent pas qu’elles sont en quelque sorte évaluées sur leurs capacités en math.

 

 

II. Les variables.

 

 

1. Caractéristiques des variables :

 

Caractéristique d’un élément qui peut prendre différentes modalités :

     - L’âge d’un individu.

     - Le nombre de salariés dans une entreprise.

     - Le sexe d’un individu.

     - Le niveau d’étude d’un individu.

     - Le nombre de poids chiches dans une boîte.

     - Le temps mis par un enfant pour lire un texte.

     - Le degré de confiance en soi.

     - …

 

Variable : caractéristique d’un élément qui peut prendre plusieurs/différentes modalités (valeurs).

 

Prop la plus importante (1ère question à se poser) : échelle de mesure : correspond au type de relation (une modalité est plus qu’une autre : 21 ans plus que 19 ans) entretenu par les modalités de la variable.

Montre la différence entre variable et facteur (= opéralisation de la variable (se baser sur les K, ou sur le comportement dans le cas homme ou femme).

 

2. Echelles de mesure :

 

a. Variables qualitatives :

 

Echelle nominale :

 

Échelle constituée de catégories (ou classes) non-ordonnées.

→ A différent B.

On ne peut pas dire que l’une est plus que l’autre, les modalités sont juste différentes.

 

Exemple : CSP, sexe, classe, type de réponse au test de Rorschach (figures, formes, taches)

Critère d’exhaustivité et d’exclusivité.

 

Échelle ordinale :

 

Les modalités sont ordonnables et ordonnées.

→ Ordre total : si A<B et B<C, alors A<C

Il y a en plus un ordre entre les modalités : elles sont toutes ordonnées.

Ex : Lieutenant plus que sergent plus que première classe.

 

Attention ne pas savoir si on aime quelque chose ce n’est pas plus ou moins que un peu ou pas du tout = modalité poubelle (a échelle nominale) : ca peut pousser les individus à prendre une décision, pas pris en compte dans le calcul dans le cas d’une échelle ordinale.

 

On ne peut pas calculer de moyenne parce que ça n’a pas de sens.

 

b. Variables quantitatives :

 

Échelle d’intervalles :

 

Égalité des intervalles : B-A=D-C.

Même propriétés qu’échelles nominales et ordinales.

 

Exemple : Nombre de cigarettes fumées en un temps donné.

  Temps mis pour réaliser une tache.

  Age.

  Nombre de fautes dans une dictée.

  Taille.

  Degré de satisfaction.

 

Échelle de rapport :

 

Caractérise variables avec même propriétés de l’échelle d’intervalle.

Caractéristique supplémentaire : origine non arbitraire = H0 correspond à l’absence de la chose mesurée.

Modalité zéro signifiant l’absence de la chose mesurée.

→ Comparaison des intervalles

E-C=2*B-A

 

Exemple : Nombre de cigarettes fumées en un temps donné.

  Age.

  Nombre de fautes dans une dictée.

  Taille.

 

Variables et échelles de mesure :

 

 

Pour identifier les échelles il faut se poser des questions sur les propriétés de chaque échelle en rapport avec les modalités : si elles y répondent elles font parti de l’échelle (C° correspond a échelle d’intervalle, pas de rapport parce que 0°C ne correspond pas a une valeur précise, c’est arbitraire, tandis que les K° correspondent à une échelle de rapport parce que 0°K = 0 absolu = pas d’agitation moléculaire).
Ce n’est pas parce qu’on ne peut pas observer un H0 qu’il ne s’agit pas d’une échelle de rapport.

 

Lorsqu’on a à faire a des modalités physiques on a souvent à faire à une échelle de rapport. Avec des mesures psychologiques, on est rarement en présence d’une échelle de rapport (avoir quelque chose de nulle (=0) ne veut pas dire que la chose mesurée est inexistante).

 

3. Relations entre les variables :

 

Existe-il une relation entre la situation professionnelle et l’anxiété ?

Les aptitudes motrices d’un enfant sont-elles fonctions de son sexe ?

Un disfonctionnement temporel est-il en relation avec la schizophrénie ?

 

→ Là on ne fait que de la statistique descriptive.

 

 

III. Décrire une distribution.

 

 

1. Organisation des données :

 

Etablir une distribution à partir de suites de données ou de protocoles.

 

Distribution : faire correspondre à chaque modalité de la variable un effectif (Ex : 3 personnes de 4 ans, 2 de 5 ans, etc.).

→ On note n effectif partiel et N effectif total.

 

On peut utiliser un protocole pour aboutir à une distribution.

                                                  
Est-ce qu’il existe une relation entre ces variables ? Les tableaux peuvent s’intéresser aux relations entre les variables.

 

Fréquence et pourcentage :

 

A la place des effectifs, on peut s’intéresser aux fréquences (effectifs partiels/effectifs totales) et aux pourcentages.

 

Une fréquence ne peut pas être > à 1 et < à 0  →  0 <ou= f <ou= 1.

Fréquence = n/N compris en 0 et 1 : s’assurer que somme totale = 1

Pourcentage = ∫ x 100 : s’assurer que somme totale = 100%.

 

→ fréquence : effectif partiel / effectif totale

(f=n/N).

 

→ 0.05 = .05.

→ % = f*100.

 

 

Effectifs, fréquences et pourcentages cumulés :

 

Effectifs cumulés : consistent à additionner à la modalité, les effectifs baissent.

Nécessite au moins une échelle ordinale.

= effectif de modalité A + effectif de modalité B.

Effectif de la modalité la plus élevée = effectif total.

(On peut faire ca aussi avec des fréquences et des pourcentages).

 

→ à partir de l’échelle ordinale.

 

 

Regroupement en classes :

 

Regroupement en classes : on simplifie les données en les regroupant en classe, en vérifiant que l’effectif total est conservé.

 

→ A partir d’une échelle d’intervalle.

 

 

→ Objectif : simplifier les données pour avoir une vision plus simple.

 

2. Représentation graphique d’une distribution :

 

Objectif : donner directement ce qui se passe d’un seul coup d’œil. Comprendre rapidement les résultats de l’étude.

Apprendre à choisir sa représentation graphique.

 

Diagramme en secteurs :

 

Figure : nombre d’étudiants inscrits dans les différentes spécialisations de maîtrise de psychologie.

 

 

Il doit pouvoir être compris sans informations complémentaires, mais il faut quand même qu’il y ait assez d’informations pour le comprendre.

Il ne faut pas introduire en erreur la personne qui le regarde. Il doit comporter un titre, porter des infos (différentes modalités de la variable par exemple).

 

Ici l’angle en secteur est proportionnel à l’effectif des modalités de la variable.

Il n’y a pas d’ordre entre les modalités → échelle nominale.

 

Il y a différentes représentations d’un graphique et ils ne conviennent pas tous aux variables.

 

Diagramme en tronçons :

 

Principe semblable au secteur mais c’est la hauteur qui va être proportionnelle à l’effectif des modalités de la variable et non l’angle.

 

(échelle de 0 a 100%) → échelle nominale et ordinale.

 

Figure : pourcentage d’étudiants en fonction de leur activité professionnelle.

 

Diagramme en barres :

 

Effectif proportionnel à la hauteur en barre.

 

(ordre de gauche a droite, mais pas de notion de quantité) → convient à une échelle ordinale plus qu’à une échelle nominale. A utiliser lors de comparaisons de plusieurs variables.

 

Figure : nombre d’étudiants inscrits dans les différents niveaux en psychologie.

Ici, l’échelle est ordinale car les barres ne sont pas collées. Si les barres se touchent c’est une échelle d’intervalles.

 

Diagramme en bâtons :

 

Qui concerne toutes les variables qualitatives comme les diagrammes en barres.

 

Figure : nombre d’étudiants inscrits dans les différents niveaux en psychologie.

 

Histogramme :

 

Echelle quantitative sur les abscisses.

Réservé aux variables quantitatives.

 

Figure : effectif d’un groupe de TD en fonction de l’âge.

 

La hauteur n’est pas forcément proportionnelle à la largeur.

 

Analyse de la forme de distribution : Diagramme en courbe :

 

Suggère qu’il existe un ordre et qu’il existe une continuité : peu judicieuse de l’utiliser pour des variables qualitatives, à utiliser pour les représentations des variables quantitatives.

 

 

On laisse supposer qu’il y a une relation d’ordre. Plus adapté à l’échelle d’intervalles, variables quantitatives.

 

Avec les diagrammes, on peut comparer plusieurs types de distributions ? On laisse apparaître les relations entre les variables.

On peut mettre en évidence par les statistiques ces relations, mais on ne peut pas forcément apporter une seule interprétation. Ce ne sont que des spéculations, la statistique ne peut pas partager les hypothèses.

 

Variables – nuages de points :

 

Représenter tous les sujets de l’étude dans le même graphique.

 

Figure : relation entre la taille et le temps mis pour courir les 100m.

 

 

Analyse de la forme de distribution :

 

Forme de la dispersion :

      - Asymétrie négative (ou vers la gauche : quelques valeurs nettement inférieures aux autres déplacements la moyenne vers la gauche de la médiane) / nulle (la médiane et la moyenne coïncident)/positive (ou vers la droite : quelques valeurs nettement supérieurs aux autres déplacent la moyenne vers la droite de la médiane).

      - Aplatissement.

      - Mode = modalité comportant l’effectif le plus important :

            + Distribution a-modale (plate).

            + Distribution uni-modale (pyramide).

            + Distribution di-modale (avec des pics, irrégulière).

 

Elle peut être parfaitement symétrique (asymétrie nulle), négative (venant de gauche) et positive (venant de droite).

 

 

Cela permet d’envisager la dispersion des données.

 

Distribution – mode :

 

Mode : modalité comportant l’effectif le plus important.

 

 

Forme de la distribution :

 

Normale : fréquente quand on s’intéresse aux comportements humains, ici le mode est la moyenne.

 

Figure : effectif en fonction de la taille.



01/06/2012
4 Poster un commentaire

Inscrivez-vous au blog

Soyez prévenu par email des prochaines mises à jour

Rejoignez les 1519 autres membres