Cours de psychologie

Notions clés

Codage des données : on assigne un chiffre à chaque modalité de la variable.

Corrélation linéaire :

- Covariation : lorsque 2 variables mesurées sur des échelles numériques varient simultanément. Devient monotone si toujours dans le même sens. La covariation linéaire peut avoir 2 directions : positive ou négative.

- Covariance : degré de liaison entre 2 variables quantitatives, moyenne des produits des écarts : cov = ∑xy/N – mxmy. Le signe de la covariance indique la direction de la covariation : s’il est positif, les 2 variables varient dans le même sens ; s’il est négatif, elles varient en sens inverse.

- Correlation : relation entre 2 variables, covariance des deux variables standardisées. Le coefficient r de Bravais-Pearson mesure le degré ou la force de la covariation symétrique : r = [cov(xy)]/SxSy (avec S écart-type). r varie entre -1 et +1. r positif : corrélation positive, les 2 augmentent. r = +1 : corrélation parfaite et positive, droite sud-ouest/nord-ouest. r négatif : corrélation négative, l’une augmente, l’autre diminue. r = -1 : corrélation parfaite et négative, droite nord-ouest/sud-est. r = 0 : corrélation nulle.

Démarche du test d’hypothèse : c'est grâce à cette démarche qu'on a décidé de valider ou d'invalider une hypothèse. C'est un ensemble de procédures, de tests de significations. Elle va nous permettre d'estimer le risque d'erreur quand à la validité de l'hypothèse.

Dichotomie : partage d’une population selon deux modalités exclusives et exhaustives d’une variable. Une variable à 2 modalités est dite dichotomique ou binaire.

Distribution d’échantillonnage d’une statistique : distribution des valeurs obtenues pour cette statistique sur un échantillonnage répété.

Distribution bi-variée : chaque sujet est le support de 2 observations.

Distribution plate : parfaitement symétrique, moyenne et médiane confondues, pas de mode.

Distribution normale/gaussienne : distribution parfaitement symétrique autour d’une valeur unique, qui est à la fois le mode, la médiane et la moyenne.

Distribution normale centrée, réduite : moyenne = 0, écart-type = 1, et n = 1.

Donnée brute : donnée recueillie, non transformée.

Echantillon : L’échantillon est de ce qui compose une population, et il est lui-même composé d’individu. La capacité fondamentale d’un échantillon, sa représentativité, est de restituer une image fidèle de se qui se passe au niveau de la population. Pour qu’un échantillon soit représentatif, il faut qu’il ait 2 caractéristiques : Il faut qu’il ait un effectif ou une taille suffisante, et il faut que chaque individu de la population ait exactement les mêmes chances de faire partie de l’échantillon qu’un autre ; c’est l’équiprobabilité.

Echantillons apparies : ce sont les mêmes individus qui passent la même épreuve à deux moments différents.

Echelle nominale/catégorielle/qualitative : les observations correspondant à des modalités différentes sont seulement déclarées différentes → A=B ou A≠B. (Dichotomique pour 2 variables).

Echelle ordinale : les observations correspondant à des modalités différentes peuvent être classées les unes par rapport aux autres (relation d’ordre) → A>B>C ou A<B<C (ordonnée, classement).

Echelle d’intervalles/quantitative : les modalités de l’échelle sont séparées par des intervalles égaux → A-B = C-D (variables muettes, pseudo-numériques).

Effectif théorique : on multiplie la fréquence théorique par le nombre de sujets.

Erreur d’échantillonnage : il y a toujours une différence entre l’estimation d’une statistique fournie par un échantillon et le paramètre qui serait observé au niveau de la population.

Expérience aléatoire : va se produire mais le résultat est inconnu. Ce résultat auquel l'expérience aléatoire donne lieu est appelé événement aléatoire, et cet événement aléatoire apparaît parmi un ensemble de résultats possibles → l'univers des possibles.

Fréquence : rapport de l’effectif d’une modalité à l’effectif total d’un groupe. Pourcentage dont a effectué l’opération. Diviser chaque effectif par le nombre total d’observation. Simple : effectifs de la modalité / effectif totale : fi = Xi/N. Cumulée se calcule en ajoutant la fréquence de la modalité à la fréquence totale des modalités antérieures. La dernière modalité est égale à 1.

Fréquence théorique : eij = (RiCj) / T, avec Ri = total de la rangée, Cj = total de la colonne, T = total global de toutes les cellules du tableau.

Fréquences conditionnelles : fréquences des modalités d’un des caractères lorsque l’on se trouve dans une seule des modalités de l’autre.

H0 (hypothèse nulle) : il n’existe aucune différence entre les fréquences d’occurrence (ou pourcentage) observées chez les groupes étudiés. Pour chacune des catégories, les fréquences observées sont équivalentes à celles d’une distribution théorique ou d’une autre distribution observée. Pas de différence entre l'échantillon et la population parente. Juge la non-différence.

H1 (hypothèse alternative) : la distribution des fréquences observées parmi les catégories diffère de la distribution des fréquences prévues ou des fréquences observées d’une autre variable. Stipule que la moyenne de l'échantillon est supérieur/ inférieur à la moyenne de la population. Mesure la différence.

Hypothèse unilatérale = hypothèse orientée : les valeurs rejetées sont à droite ou à gauche de la distribution.

Hypothèse bilatérale = hypothèse non orientée : les valeurs rejetées sont situées à droite et à gauche de la distribution.

Indépendance : s’oppose à liaison. Deux variables sont dites en indépendance si la connaissance de la modalité prise par une unité statistique pour une variable n’améliore en rien le pronostic que l’on peut faire quant à la modalité prise par cette unité sur l’autre variable, et si le passage d’une modalité à une autre modalité sur une variable ne s’accompagne d’aucun changement systématique de modalité sur l’autre variable.

Indépendante : se dit de données telles que chaque unité statistique n’a fourni qu’une seule mesure pour une même variable. On parle aussi d’échantillons, de séries, d’observations ou de groupes indépendants.

Indice de tendance centrale/de position/de centralité : indice censé représenter le mieux l’ensemble d’une distribution. Utilisé pour représenter le centre de la dispersion.

- Mode : modalité la plus fréquente de la distribution, celle que l’on rencontre le plus souvent, où se concentrent le maximum d’observations. Pour une échelle nominale, seul le mode est utilisable. Pour une distribution bi-modale ou multi-modale, on indique les 2 modes les plus importants (sont proches). Pour une distribution amodale/plate, on ne distingue pas de mode.

- Médiane : modalité qui partage l’ensemble des observations classées en 2 moitiés d’effectifs égaux. Le sujet médian est le sujet dont l’observation correspond à la médiane. Partage en 2 parts égales = N/2 + ½. La médiane fait abstraction de la plus part des scores, puisqu’elle ne s’intéresse pas vraiment au contenu des scores. Correspond au point sous lequel 50% des données sont distribuées lorsqu’on dispose les données en ordre numérique. La médiane n’est pas influencée par les scores extrêmes, ce qui permet parfois d’obtenir des résultats plus conformes à la réalité.

   - Pour un nombre impair d’observations, on fait (n+1) / 2 avec n nombre total d’observations.

   - Pour un nombre pair d’observation, la médiane devient la « zone médiane » ou « intervalle médian », entre n et n, ou on prend la modalité de l’observation qui suit juste celle du sujet médian.

- Moyenne arithmétique : centre de gravité d’une distribution numérique. Point d’équilibre : somme des scores / nombre total des scores. On s’en sert lorsqu’on est sure d’être dans le cas d’une échelle d’intervalle ou de rapport. Elle est sensible aux scores extrêmes : m : μ = (∑x)/N = (n multiplié par x pour chaque colonne, le total est divisé par tous les n additionnés).

 

 

- Moyenne pondérée : par l’effectif de chaque groupe = [(n1*m1) + (n2*m2)] /N = (le n du 1er groupe multiplié par la moyenne du 1er groupe, à cela on ajoute la somme du n du 2ème groupe qui est multiplié par la moyenne du 2ème groupe, et le tout on le divise par la somme des n).

Indice de dispersion : permet de se représenter les écarts existant entre des observations différentes. Liés à la manière dont les indices sont dispersés, répartis autour des tendances centrales.

- Intervalle de variation/étendue : étendue de la distribution, différence ou écart entre la plus grande et la plus petite modalité observée. Intérêt descriptif limité. Xmax – Xmin.

- Quantiles : découpe d’une distribution en plusieurs tranches égales.

      - Quartiles : découpe d’une distribution en 4 paquets égaux.

                    + Q.i quantile inférieur N/4 + ½ ; Q.s quantile supérieur 3N/4 + ½ ; EiQ intervalle interquartile Q.s – Q.i.

                    + On peut calculer un écart inter-quartile qui comprend la moitié des observations qui se trouvent au centre de la distribution : EIQ = Q3-Q1.

                    + On peut aussi calculer un écart semi-quartile = (Q3-Q1) / 2.

     - Déciles pour que chaque classe comprenne 10% des observations.

     - Centiles pour que classe comprenne 1% des observations.

     - Calcul de quantile : On multiplie l’effectif total par le numéro du quantile désiré. On ajoute ½ a ce produit. On divise le tout par le nombre de classes formées par le quantilage = (N*nquantiles + ½)/nclasses.

- Ecart moyen arithmétique : écart entre observation et moyenne arithmétique de la distribution, écart sans signe, on prend donc la valeur absolue de chaque écart. Σ(x-ẍ) / n = 1/n Σ(x-ẍ).

- Variance : c’est le carré des écarts à la moyenne. σ² = Σ(x-m)² / n = 1/n Σ(x-m)². Calcule plus rapide :

 

 

- Variance corrigée : pour que l’estimation soit moins biaisée : [N/(N-1)] * S².

- Coefficient de variation : pour éliminer l’unité de l’écart-type : cv = (σ/m) * 100. Indice pertinent sir les données sont positives. Plus le cv est faible, plus la distribution est homogène.

→ Usage : quartiles si médiane, écart-type si moyenne. Rien n’y oblige.

Individu : Individu veut juste dire en statistique « non divisé », c’est donc des réalités singulières. Il y a plusieurs méthodes d’échantillonnage. La méthode aléatoire est l’une des meilleures mais elle est très chère.

Inférence statistique : généraliser ou déduire à partir d'informations connues sur un ou plusieurs cas particuliers des conclusions sur ce qui se passe en général, qui est inconnu.

Loi de Bernoulli et loi binomiale : variable aléatoire discrète. Elle traite de la fréquence d’occurrence de phénomènes binaires.

Loi des grands nombres (Bernoulli, 1713) : la probabilité d'un événement est le nombre vers lequel tend la fréquence de cet événement lorsqu'on répète un nombre infini de fois l'expérience aléatoire pouvant conduire à cet événement.

Loi normale : variable aléatoire continue. Elle décrit parfaitement bien les comportements psychiques humains. Elle correspond à la distribution de probabilités des variables aléatoires normales. Il s’agit de variables aléatoires continues et donc quantitatives. Dépend de deux paramètres : son espérance réelle μ et son écart type réel positif σ. Cette loi est également appelée loi gaussienne, loi de Gauss, loi de Laplace.

Modalité exhaustive : tout objet mesuré doit se retrouver au moins dans une modalité possible de la variable à laquelle on s’intéresse.

Modalité exclusive : tout objet mesuré doit se retrouver au plus dans une modalité de la variable à laquelle on s’intéresse.

Note z = (x-m)/σ, note réduite qui exprime la distance d’une observation par rapport à la moyenne en nombre d’écarts-types.

Notion d’aire : un phénomène est d’autant plus probable que la portion d’aire qui lui correspond sous la courbe est importante.

Opérationnaliser : le chercheur décrit toutes les opérations nécessaires à la mesure.

Population : Les statistiques travaillent sur des populations. Une population est appelée A’ ; le « ‘ » correspond à la population tandis que le A, B, … correspondent à des échantillons de population. Une population est un échantillon d’individu partageant au moins une caractéristique. Attention, échantillon ici n’est pas pris au sens large du terme, ce n’est donc pas forcément une personne, c’est seulement quelque chose d’indivisible. Une population doit être définie de façon claire (exigence formelle), et il faut qu’elle ait de la pertinence (exigence non formelle). Il y a essentiellement des populations infinies et des populations finis, autrement dit des populations fermées (délimitées, fixes, constantes, arrêtées) ou ouvertes. Les populations font parties de la pensée pure autrement dit de la pensée formelle. Attention, il ne faut pas oublier que les concepts sont justes des tiroirs mentaux qui n’existent pas en réalité.

Pourcentage : Simple : fréquence x 100. Cumulé : fréquence cumulée x 100.

Probabilité : quantifier notre degré d'incertitude sur un phénomène imprévisible.

Risque bêta : risque de ne pas mettre en évidence une différence qui existe réellement. Puissance : 1 - bêta : probabilité de mettre en évidence une différence qui existe réellement.

Statistiques inférentielles : savoir quelle confiance on peut accorder à une étude → caractère réfutable des résultats, même s'il existe des tendances générales chez l'être humain malgré les variations interindividuelles. Vont chercher à mettre en évidence ces principes généraux en psychologie. Cela a un but diagnostique et préventif → complémentaire d'une approche clinique.

Tableau d’écarts bruts à l’indépendance : reproduit l’écart entre le nombre de sujets réellement obtenu et le nombre de sujets attendus en cas d’indépendance.

- Sur-représentation ou attraction : un résultat positif dans une case du tableau d’écarts bruts à l’indépendance, indique un résultat plus important que celui attendu.

- Sous-représentation ou répulsion : un résultat négatif dans une case du tableau d’écarts bruts à l’indépendance, indique un résultat moins important que celui attendu.

Test d’indépendance : Un seul échantillon. On examine la répartition des effectifs afin de savoir si les variables sont ou non indépendantes. On ne connaît que l’effectif total, tous les effectifs marginaux sont inconnus, aléatoires (on ne sait pas comment les participants sont distribués au sein des deux variables aléatoires).

Test d’homogénéité : Plusieurs échantillons qui constituent une des variables. 1 échantillon = 1 modalité de la variable. On examine comment se répartissent les effectifs dans les modalités de l’autre variable (puisqu’une des variables est fixée par des échantillons différents, à l’avance on connaît les effectifs marginaux de cette variable). On connaît l’effectif de chaque échantillon. Les effectifs marginaux d’une des variables sont donc fixes, connus (ce sont les effectifs des échantillons). Les effectifs marginaux de l’autre variable sont inconnus, aléatoires.
Tests paramétriques : Contraintes : distribution normale et égalité des variances (lorsque comparaisons entre plusieurs échantillons il faut que les variances [dispersion autour de la moyenne] soient comparables).

 

 

Tests non-paramétriques : Pas de contraintes d'utilisation. S'appuie sur une loi, mais on n’a pas à observer l'adéquation entre la loi et les données pour pouvoir l'utiliser. Une fois que l’indice statistique est calculé, on va estimer la probabilité d’observer dans un échantillon sélectionne au hasard une telle valeur de l’indice statistique. On fait cela en utilisant la distribution d’échantillonnage de l’indice. En utilisant la distribution d'échantillonnage de l'indice.

 

 

Test unidirectionnel : on fait l'hypothèse d'une différence, et on explicite le sens de la différence. On suppose un sens dans notre hypothèse.

Test bidirectionnel : on fait l'hypothèse d'une différence, mais pas dans un sens ou dans un autre. On ne suppose pas de sens.

Unité statistique ou unité d'observation : ce sur quoi ou qui un ou plusieurs caractères sont mesurés. En psychologie, très souvent un être humain, un « participant ».

Valeur critique (p-value) : la plus petite des valeurs de risque de première espèce pour lesquelles la décision serait de rejeter H0. Après avoir calculé la valeur du test, on cherche dans la table la valeur de l'indice statistique qui correspond à la probabilité .05, appelée valeur critique (p-value). Puis on compare la valeur critique à la valeur observée. Si valeur observée > valeur critique → rejet de H0. Si valeur observée < ou = à valeur critique → non rejet de H0.

Variable : caractère étudié (au moins 2 catégories, 2 modalités). C’est le concept le plus important car toutes les observations se font à partir de variable, en particulier les observations d’ordre perceptives. D’autre part, les variables nous permettent des classifications et des chiffrages. Une variable c’est un point de vu que l’on adopte pour apprécier la population, un échantillon ou des individus. Les variables ont 2 exigences : Il faut qu’elles soient clairement définies, et il faut qu’elles soient pertinentes.

Variable indépendante (VI) : variable que le chercheur va manipuler, qui va mettre en place et qui est supposée provoquer des variations sur la VD. Comporte plusieurs modalités (au moins 2). Peut être provoquée ou invoquée : Provoquée = c'est l'expérimentateur qui crée les situations. Création aléatoire de groupes lors d'une expérimentation : certains sont soumis à une VI 1 et certains à une VI 2. Invoquée = c'est une variable qui est utilisée par le chercheur, mais pas crée. C'est une caractéristique innée au sujet.

Variable dépendante (VD) : elle est supposée déprendre des variables de la VI. En relation avec le comportement (au sens très large : attitude, préférence, émotion, performance, etc...) du participant. C'est ce que l'expérimentateur mesure le plus souvent.

Variable quantitatives/qualitatives : Quantitative : renvoi à une quantité : Continue (nombre théoriquement infini de valeurs) et Discrète (nombre fini de valeurs). Qualitative : renvoie à une qualité : Ordinale (modalités qui s'ordonnent, se comptent) et Nominale.



02/04/2013
0 Poster un commentaire

Inscrivez-vous au blog

Soyez prévenu par email des prochaines mises à jour

Rejoignez les 1519 autres membres