Cours de psychologie

Notions Clés

Statistiques – Notions Clés

 

 

Covariation : lorsque 2 variables mesurées sur des échelles numériques varient simultanément. Devient monotone si toujours dans le même sens. La covariation linéaire peut avoir 2 directions : positive ou négative.

Covariance : degré de liaison entre 2 variables quantitatives, moyenne des produits des écarts : cov = ∑xy/N – mxmy. Le signe de la covariance indique la direction de la covariation : s’il est positif, les 2 variables varient dans le même sens ; s’il est négatif, elles varient en sens inverse.

Corrélation : relation entre 2 variables, covariance des deux variables standardisées. Le coefficient r de Bravais-Pearson mesure le degré ou la force de la covariation symétrique : r = [cov(xy)]/SxSy (avec S écart-type). r varie entre -1 et +1. r positif : corrélation positive, les 2 augmentent ensembles. r = +1 : corrélation parfaite et positive, droite sud-ouest/nord-ouest. r négatif : corrélation négative, l’une augmente, l’autre diminue. r = -1 : corrélation parfaite et négative, droite nord-ouest/sud-est. r = 0 : corrélation nulle.

 

Sans titre3.jpg

 

(ne pas confondre Σxy = on commence par faire les produits et on les somme ensuite ; et ΣxΣy = on fait la somme des x puis la somme des y et on multiplie.

Echantillon : groupe d’individus que l’on teste. Notion très importante. Doit donc être représentatif de la population. Pour cela, on utilise soit le tirage au sort, qui est le plus simple (le hasard fait bien les choses) et qui doit être de taille importante, ou soit le calcul des caractéristiques de la population pour avoir les mêmes pourcentages dans notre échantillon.

Echelles :

- Les échelles nominales : il n’existe pas de critères pour ordonner les valeurs, qui sont qualitatives. Elles sont rangées dans des classes disjointes, chaque valeur n’appartient qu’à une seule classe et l’ensemble des classes constituent l’échelle nominale. Cette échelle permet d’identifier la catégorie à laquelle appartient l’observation ou la valeur en fonction d’une caractéristique définie a priori. Ce ne sont pas des mesures. La seule relation entre les éléments d’une même classe est une relation d’équivalences. Les valeurs attribuées aux variables jouent simplement le rôle d’étiquettes. Ce qui permet d’identifier les individus pour les items utilisés. Ces échelles caractérisent les variables descriptives sur lesquelles elles portent. Lorsqu’il y a deux classes, on parle de variables binaires (codées 0 et 1) ou dichotomiques. Bien entendu ces variables peuvent avoir plusieurs classes, appelées polychotomiques. Toutes les catégories de ce type d’échelle sont indépendantes. Ces chiffres de codage n’ont aucune valeur statistique. Absence de hiérarchie entre les catégories. Toutes les catégories sont considérées comme équivalentes. On fait peu de traitements statistiques, à part une répartition des données (mode, pourcentage…).

- Les échelles ordinales : sont aussi qualitatives et ont donc les mêmes propriétés que les échelles nominales. Il existe un ordre de progression. Aucune information sur l’intervalle entre les rangs ni la valeur de ces intervalles. Elles vont permettre de classer les individus les uns par rapport aux autres. Une variable continue peut être transformée en variable ordinale en faisant des catégories d’âge par exemple. Les échelles d’attitude et d’opinion sont les plus utilisées : échelle de Lickert (du moins d’accord au plus d’accord). Les opérations statistiques utilisées sont les mêmes que pour les échelles nominales sauf qu’ici on peut en plus déterminer la médiane (la valeur du milieu) et calculer des corrélations par rang. On ne calculera pas la moyenne car cela n’est pas pertinent.

- Les échelles d’intervalles : elles possèdent les mêmes propriétés que les échelles ordinales mais supposent en plus l’existence d’intervalles mesurables de distance entre les réponses. Il s’agit de variables quantitatives ou numériques et le fait de mesurer va impliquer d’introduire une distance stable entre les différentes mesures ou observations. Ces échelles vont permettre beaucoup plus de traitements statistiques et mathématiques que les autres échelles car elles possèdent des unités de mesure constantes avec une particularité : le point 0 est fixé arbitrairement il n’a pas de signification. Variables dont les modalités peuvent être représentées par des nombres qui peuvent être soit entiers, donc variable discontinue, soit ils peuvent être réels et dans ce cas là on parle de variables continues. Ces échelles permettent d’inférer des différences entre des éléments mesurés. Tous les calculs sont possibles. On travaille surtout sur ces échelles en psychologie.

- Les échelles proportionnelles ou échelle de rapport : on les utilise très rarement en psychologie. Cas particulier d’échelle d’intervalles dans lesquelles un statut particulier est donné à la valeur nulle le 0 qui est cette fois unique. Le 0 correspond à une absence totale de phénomène.

Expérience : on utilise des variables et on mesure leurs effets sur le comportement. Variable indépendante (VI) que le chercheur manipule, et variable dépendante (VD) qui dépend de l’individu, c’est ce que l’on mesure, elle doit être mesurable.

Expérimenter : c’est pour contrôler et faire varier les conditions d’apparition et de déroulement d’un phénomène, de façon à déterminer et mesurer leurs influences. Voir l’effet d’une condition sur un comportement. Donc, il s’agit d’une expérimentation que si on fait varier quelque chose. Expérimenter c’est tester une hypothèse.

Groupe :

- Groupes appareillés : les participants voient toutes les modalités des VI, ils passent toutes les conditions expérimentales. On va croiser les participants à toutes les modalités de toutes les VI. Le participant voit toutes les VI et toutes les modalités. On n’a pas besoin de s’intéresser à l’équivalence des groupes.

- Groupes indépendants et équivalents : on va avoir plusieurs groupes de participants, ils ne voient qu’une partie de l’expérience seulement. On aura autant de groupes expérimentaux que de modalités de la VI. Il y aura plus de participants et on aura un problème de l’équivalence des groupes.

- Groupe contrôle et condition contrôle : le groupe contrôle se réfère à des participants, les modalités de la VI qui intéresse le chercheur n’interviennent pas. Les performances de ce groupe vont servir de référence. Cela nous permettra de faire une comparaison entre le groupe contrôle et les autres groupes expérimentaux pour voir si les effets de la VI ont un influence sur les groupes expérimentaux par rapport au groupe contrôle. Il y aura toujours au moins deux groupes de participants. Un groupe expérimental et un groupe contrôle. Le groupe expérimental permet aussi de mesurer la condition contrôle. Elle permet d'obtenir une référence et où les facteurs principaux ne vont pas intervenir. Ils vont avoir des caractéristiques communes : dès le départ on va indiquer des caractéristiques qui nous intéressent, ceci va conduire à l’appariement. Une caractéristiques commune et le reste diffère.

Hypothèse : provient d’un ensemble de théories ou d’observations, ou des deux. L’hypothèse est le moment le plus délicat de l’expérimentation, si on loupe ça on loupe tout le reste. L’hypothèse doit donc être vérifiable, elle doit être mise en relation avec des faits observables. C’est une prédiction qui met en relation une variable et un comportement. Il y a 3 types d’hypothèses : générale, opérationnelle, statistique. Du général au plus fin :

- Générale : la toute première posée par le chercheur. Non précise. Elle dit qu’elles sont les effets que la future expérience aura sur le comportement. Peut être formulée au présent car c’est du général.

- Opérationnelle : toujours formulée au conditionnelle. Rend testable l’hypothèse générale, on opérationnalise les variables utilisées. On doit donc y voir VI et VD. On peut aussi formuler l’hypothèse par « Si (VI) alors (VD) ».

- Statistique : pour vérifier les hypothèses formulées. H0 (hypothèse nulle) pour dire que rien ne se passe, que la VI est sans effet sur la VD, et H1 (hypothèse alternative) pour dire que la VI a un effet sur la VD. Grâce à cela, on accepter l’hypothèse opérationnelle. Permet aussi de voir si on peut généraliser à la population. On rejette H0. Il faut bien spécifier qu’on attend un changement dans l’ensemble de la population. Il y a 2 types d’erreurs : rejeter H0 alors qu’il ne faut pas, H0 est vrai ; et inversement ne pas rejeter H0 alors qu’il aurait fallu le faire. Les tests statistiques tiennent compte de ce type d’erreur. Il faut donc savoir quel test statistique approprié choisir pour trancher entre H0 et H1.

- Les hypothèses sont posées avant bien sûr, le début de l’expérience. C’est ce qu’on dit hypothèse à priori. Toutefois, il arrive que le chercheur obtienne des résultats intéressants, et qui ne vont pas dans le sens de ses hypothèses, on en pose d’autres, qu’on appelle hypothèse à posteriori, et qui sont plus délicates à tester puisqu’elles sont posées après. On n’utilise pas les mêmes tests statistiques pour ces hypothèses.

Indices de tendance centrale : nous permettent d’avoir une idée de la répartition des valeurs, permet de synthétiser les données. Utilisé pour représenter le centre de la dispersion, indice censé représenter le mieux l’ensemble d’une distribution. Utilisé pour représenter le centre de la dispersion. Il s’agit d’une donnée unique qui résume une distribution : cela permet de faciliter les comparaisons

 

Sans titre3.jpg

 

Indices de dispersion : liés à la manière dont les indices sont dispersés, répartis autour des tendances centrales. Permet de se représenter les écarts existant entre des observations différentes. Beaucoup d’indices de tendance dispersive, mais on n’en utilise que quelques unes :

- Etendue ou rang : = score le plus fort – score le plus faible. Elle nous informe sur la dispersion des données. Elle n’a pas besoin de calculs et nécessite que les données soient ordonnées. Cependant elle n’est pas très puissante.

 

Sans titre3.jpg

 

Méthode des juges : L’observation reste utilisée, mais comporte de nombreux défauts, et actuellement on considère que pour les minimiser il faut filmer les comportements des individus puis avoir recours à des juges pour regarder l’enregistrement et noter des comportements. S’ils ne sont pas unanimes dans leur observation, on rejette les résultats de l’observation. La méthode des juges renforce la méthode d’observation. Mais on ne le fait pas à l’insu de l’individu, ce n’est donc pas tout à fait fiable.

Méthode descriptive : on va prendre en compte soit une partie des données, soit l’ensemble des données mais en les considérant sur le même plan. Ce sont des méthodes qui permettent de décrire de manière synthétique les données, de les résumer. Va nous permettre d’avoir une vue d’ensemble de nos résultats. Une fois les données recueillies c’est le point de départ, les statistiques descriptives sont les premières qu'on applique aux données. Elle comprend : le calcul des indices de tendance centrale (le mode, la moyenne et la médiane. Cela permet d'obtenir des graphiques qui permettent d'avoir une vue d'ensemble sur les résultats) et le calcul des indices de dispersion (la variance et l'écart-type. Ont pour objectif de réduire l'information contenue dans la distribution des notes. On va obtenir un résumé numérique et un résumé graphique des performances).

Méthode explicative : c’est pour aller plus loin dans l’interprétation de nos données une fois la méthode descriptive terminée. On appelle ces méthodes inférentielles ou inductives. On va utiliser ces méthodes pour 2 catégories de variables :

- Variables à expliquer : dont on cherche à comprendre et analyser les variations par des variables dites explicatives. Ce type d’analyse va nous permettre de généraliser nos résultats. On va passer par des tests inférentiels pour nous permettre de généraliser à l’ensemble de la population les résultats de notre échantillon. Il s’agit d’inférer les résultats de la population à partir de ceux de notre échantillon. On utilisera les tests statistiques, ils vont nous permettre de tester empiriquement nos prédictions ou nos hypothèses par rapport aux données obtenues. Les variables à expliquer sont les variables dépendantes.

- Variables explicatives : ce sont les variables indépendantes. Cela va nous permettre de démontrer statistiquement que des variables influencent d’autres variables. On va tester notre hypothèse alternative contre l’hypothèse nulle.

Modèle expérimental : il faut tout d'abord connaitre les caractéristiques des participants et savoir comment ils vont être influencés par les modalités de la VI. Cela implique le choix d'un plan qui va s'adapter au contrôle expérimental. Donc dès le début de la recherche on va devoir formuler un modèle dans le but de limiter les variables à contrôler :

- Modèle DANS les participants (intraparticipant/à mesure répété) : les participants passent toutes les modalités de la VI. L’avantage est qu’on peut comparer les participants à eux-mêmes. On peut voir comment ils se comportent dans les différentes modalités de la variable. Ce plan est plus économique au niveau des sujets, comme les participants voient les deux modalités, on n’a besoin que d’un groupe expérimental.

- Modèle ENTRE les participants (interparticipant/mesure participante) : ils ne voient qu’une seule modalité de la VI. 2 groupes de participants différents. Ce modèle est considéré comme plus rigoureux, plus conservateur parce que le traitement d’une modalité d’une VI ne peut pas influencer l’autre modalité. Les résultats ne seront donc liés qu’à une seule modalité de la VI. L’avantage de ce modèle, c’est qu’on va pouvoir comparer le participant à lui-même (voir comment il se comporte dans les modalités 1 et 2). Besoin d’un seul groupe expérimental.

- Quand il y a plusieurs VI on parle de plan factoriel, il permet d’utiliser des statistiques d’analyse de variance et analyser les effets respectifs de chaque VI sur chaque VD ainsi que les effets d’interaction entre les différentes VI. On va pouvoir analyser les différentes interactions qu’entretiennent les VI.

Observation : c’est l’étude d’un phénomène naturel ou culturel sans que l’observateur n’intervienne dans le déroulement de ce phénomène. Pour être valide, l’observation doit être communicable et surtout vérifiable et répétable.

- Observation libre : on observe sans intervenir. S’effectue généralement en milieu naturel. En développement, ça a longtemps été utilisé, dès le XVème et XVIème siècle, mais ce n’était pas fiable. La plupart du temps il s’agissait de médecins qui observaient leurs enfants, leurs observations étaient donc influencées par l’amour filial.

- Questionnaires : toujours sans intervenir, le psychologue reste neutre. Le questionnaire, ou enquête, dirige l’observation. Les enquêtes sont pour un nombre important d’individus. Donc là, on demande à un individu de répondre à un questionnaire, mais les réponses ne sont pas toujours vraies, l’individu répond ce qu’il veut. Il faut donc être prudent avec les questionnaires et avec le type de questions.

- Observation directe : observation dans un environnement naturel ou en laboratoire. En laboratoire, un milieu artificiel est construit, et les individus sont placés à l’intérieur, et le psychologue observe sans intervenir. En général, ce type de milieu artificiel force les comportements, mais certaines expériences ont besoin d’un cadre structuré. Ici, en laboratoire, on parle de validité écologique, on essaye de se rapprocher le plus possible de l’environnement dans lequel évoluent les individus, mais ça ne veut pas dire naturel, c’est s’en rapprocher. Néanmoins, il y a toujours un problème avec l’observation, c’est l’observateur. Juste par sa présence on est influencé.

- Observation armée : pour éviter l’effet observateur, ce dernier est remplacé par une caméra. Le problème est toujours le même, on sait qu’il y a la caméra donc on modifie le comportement. Le seul intérêt c’est dans l’observation filmée, ce qui donne une preuve, on ne se fie pas qu’à l’observateur.

- Observation ouverte ou fermée : Observation ouverte : aucun aspect du comportement n’est défini au préalable, pas d’hypothèse précise, on observe le comportement en général ; Observation fermée : correspond à une hypothèse plus précise et s’appuie sur des grilles d’observation, donc les données sont plus précises. Néanmoins, ces grilles sont trop rigides, non exhaustives, elles ne comprennent que quelques aspects, et si un comportement autre apparaît on ne le note pas, on ne le prend pas en compte.

Représentations graphiques : permet d’anticiper quels seront les résultats des tests statistiques/expérimentaux. Les graphiques suivent une rigueur statistique.

- Diagramme en barres ou à secteurs : utilisés avec les pourcentages.

- Les diagrammes en bandes ou en ordre : on s’en sert lorsqu’on a des valeurs classées, ordinales.

- Les histogrammes : graphiques avec un ensemble de rectangles contigus. Si les variables sont continues on peut coller les rectangles, si les variables ne sont pas continues on ne peut pas coller les rectangles. Il peut ne pas mettre en évidence l’interaction entre deux variables.

- Les courbes simples et diagrammes cumulatifs : en abscisses et en ordonnées on place des valeurs, qu’on relie ensuite par des courbes ou des points. L’interaction entre deux variables est souvent bien plus visible sur une courbe que sur un autre type de graphique.

- Les nuages de points : on place des points sur un diagramme en fonction des résultats obtenus. La droite de régression est la droite qui représente la répartition des points, elle résume la répartition des points.

 

Sans titre3.jpg

 

Tableaux :

- Matrice générale ou tableau brut de données : il faut tenter de les regrouper en fonction de l’objectif fixé. Il permet de présenter les données en fonction de critères qu’on va définir. Individus en ligne et variables en colonne.

- Tableau de contingence : méthode de représentation de données découlant d’un comptage. Les données sont rassemblées dans un tableau avec le caractère auquel elles sont reliées. Lorsque l’on croise deux variables qualitatives, l’une en ligne l’autre en colonne, on obtient un tableau dans lequel chaque case contient un effectif ou un pourcentage d’individus ayant répondu à telle modalité de la variable et qui possède telle caractéristique d’une variable en ligne.

- Tableaux condensés : ce sont des tableaux en 1 et 0, données binaires. On peut faire le total et la moyenne. Ils sont utilisés par certains logiciels statistiques (peu fréquents), mais très utilisés avec un très grand échantillon.

- Tableaux statistiques : on va donner de manière résumé les résultats. A ne surtout pas oublier de mettre une légende. Dans ce type de tableau, pour plus d’informations, on peut faire des moyennes marginales, ce sont des moyennes qui regroupent une colonne sans tenir compte de la ligne et inversement. Elles écrasent les données des lignes ou des colonnes.

Tests d’efficience : comme le WISC IV, NEPS… ce sont des tests étalonnés, pour savoir si on est dans la norme ou pas. Capacité intellectuelle globale, l’état de développement mental, les aptitudes et les connaissances. L’objectif est de déterminer l’aptitude d’un individu face à telle ou telle tâche cognitive ou son « âge mental ».

Tests de personnalité : comme Rorschach, non étalonnés, mais maintenant certains tests le sont. Avec 2 types, soit les tests projectifs soit les questionnaires étalonnés. Interprétés en termes numériques : Explorent l’affectivité, l’intérêt, les motivations et les manières d’être et d’agir. 3 objectifs : Étude du développement affectif et émotionnel, « Classification » de l’individu dans un profil (paranoïa, dépression, etc.), Mettre en évidence la présence ou l’absence de signes pathologiques pour une prise en charge adaptée. → Ils permettent de définir un profil type.

Transformation de variables métriques en non métriques : il faut constituer des classes d’amplitude égale ou l’intervalle sera identique ou constituer des classes d’effectifs égaux (méthode préférée). Les classes d’effectifs égaux ne sont pas affectées par la subjectivité de l’expérimentateur ou de l’enquêteur. Le découpage en classes est ici très rigoureux et ne nécessite pas de questionnements. La bonne moyenne de classes étant ni trop ni trop peu. S’il y a trop de classes, les effectifs seront très faibles et nos résultats n’auront plus vraiment de sens. On a des mots, on a remplacé les notes brutes par une appartenance à une classe. Cette transformation du métrique en non métrique conduit parfois à perdre de l’information car on passe à des regroupements moins précis, on ne sait plus qui a eu combien mais ça sert pour simplifier les analyses.

Transformation de variables non métriques en métriques : on va remplacer chaque item par un chiffre. La hiérarchie des items doit avoir un sens. Les distances entre les items doivent être égales. Une fois qu’on connait la nature des variables il est possible de procéder au tri et au rangement des données à l’aide de graphiques et de tableaux.

Variables :

- VD (variable dépendante) : aspect du comportement qui doit absolument être mesurable et dépendante, car dépend de l’individu et non du chercheur. C’est une réponse comportementale fournie par l’individu que le chercheur teste. On peut opposer les mesures en temps réel (on-line) et celles non en temps réel (off-line). Une VD doit avoir 4 qualités pour être réplicable : pertinente, sensible, claire, fiable.

- VI (variable indépendante) : c’est un facteur expérimental, c’est ce que manipule le chercheur. Ca peut être une caractéristique de l’environnement ou du participant. La VI doit prendre plusieurs valeurs/modalités, au moins 2, il faut au moins 2 façons de faire varier quelque chose. Différentes catégories de VI : Inférente à l’environnement = provoquée, car c’est l’expérimentateur qui la provoque ; Inférente au participant = invoquée ou étiquette, caractéristique du participant ; Fixe ou fixée ou systématique : quand seules les modalités qui apparaissent dans l’expérience intéressent le chercheur, simplement les modalités sont fixées une fois pour toute, elles ne vont plus bouger, si un chercheur réplique l’expérience, il devra utiliser les mêmes modalités ; Aléatoire : lorsque le chercheur veut généraliser les résultats obtenus à d’autres modalités qu’il n’avait pas prises en comptes, des modalités tirées au sort, à éviter car pénible à vérifier statistiquement ; Variables parasites : elles vont influencer le déroulement de l’expérience sans que le chercheur s’en aperçoive, elles ne sont pas contrôler et vont moduler la VD ; Variable principale ou facteur principal : VI pour lesquelles l'expérience a été construite, permettent de mettre en évidence l'effet des facteurs sur la VD ; Variable secondaire : VI permettant d'améliorer la validité ou l'efficacité de l'étude pour prendre en compte des sources potentielles de variations, ces sources ne vont pas forcement intéresser les chercheurs, ce sont des VI qu'on va soupçonner d'affecter la VD, mais de façon secondaire.

- Variables statistiques : variables métriques ou quantitatives (ce sont des variables qui prennent des valeurs numériques. Elles peuvent être discrètes ou discontinues ou continue. Pas de valeur intermédiaire. On peut effectuer toutes les opérations statistiques et mathématiques), et variables non-métriques (elles prennent des modalités non numériques. Les opérations possibles sont les effectifs et les pourcentages).



12/04/2014
0 Poster un commentaire

Inscrivez-vous au blog

Soyez prévenu par email des prochaines mises à jour

Rejoignez les 1519 autres membres