Cours de psychologie

Statistiques descriptives (suite)

3. Résumer une distribution :

 

Notations :

(a)(b) = (a)*(b)

        i=n

 Ž xi = Ž x, il faut faire la somme de tous les x.

        i=1

Ž x² = ax² + bx² + … + x²n2

(Žx)² = (x1 + x2 + … + xn)

(Žx²) ¹ Žx²

 

Effectif total = N.

 

Indice de tendance centrale : mode.

mode : valeur la plus fréquente.

→ dès l’échelle nominale.

 

Avantages et inconvénients : mode

       - Avantages :

                → seul indice de tendance centrale pour l’échelle nominale.

                → modalité avec la plus grande probabilité de d’être observé.

       - Inconvénients :

                → parfois plusieurs modes.

                → dépend du type de regroupement en classes.

                → parfois très éloigné de la moyenne.

 

Indice de tendance centrale : médiane.

                → médiane : valeur qui partage la distribution en 2 parties d’effectifs égaux.

                → dès l’échelle ordinale.

 

 

→ Rang médian : N/2 + ½

 

pratique :

.1. Déterminer le rand médian (N+1)/2.

.2. La médiane est la valeur prise par l’observation en rand médian.

 

 

Lorsque le nombre total d’observation est impair, le rang médian sera un nombre entier.

Lorsque le nombre total d’observation est pair, le rang médian ne sera pas un nombre entier.

 

On prend les effectifs cumulés croissants et on calcule le rang médian. Le résultat du calcul du rang médian donne une position et on cherche dans le tableau la position qui correspond à la médiane.

 

Attention : le rang médian n’est pas la médiane. Si on tombe entre deux valeurs de l’effectif cumulé croissant, on ne peut pas déterminer la médiane, on dit que c’est quelque chose entre un x et un autre x.

 

Avantages et inconvénients : médiane

        - Avantages :

                → non affecté du changement des valeurs extrêmes.

                → fournit un indice de tendance centrale pour l’échelle ordinale.

                → permet de positionner un individu par rapport à un groupe.

        - Inconvénients :

                → non affecté du changement des valeurs extrêmes.

                → les calculs algébriques à partir de la médiane sont impossibles (pas un bon point de départ pour un calcul algébrique).

                → ne prend pas en compte toutes les valeurs.

 

Indices de tendances centrale : moyenne

                → moyenne : point d’équilibre de la distribution.

                → variable quantitative uniquement.

 

→ Moyenne = m = þ = (Žx)/N

 

 

Moyenne pondérée :

 

→ moyenne pondérée par l’effectif de chaque groupe.

 

Ex :

    . Femme : m1 = 7 et n1 = 12.

    . Homme : m2 = 6,2 et n2 = 5.

 

m = þ = (Žx)/N

 

→ moyenne pondérée : [(n1*m1) + (n2*m2)]/N

 

N = n1+n2 = 17.

m = [(7*12) + (6,2*5)]/17=6,76.

 

Avantages et inconvénients : moyenne

       - Avantages :

                → prend un compte toutes les valeurs.

                → permet les calculs algébriques.

                → la moyenne est un estimateur plus stable, la tendance centrale de la population.

                → est sensible aux valeurs extrêmes.

       - Inconvénient :

                → est sensible aux valeurs extrêmes.

 

Indice de dispersion :

 

Indices de dispersion : entropie                [pas aux programme de 1ère année]

 

Tableau : nombre de sièges en fonction du groupe parlementaire suite aux élections législatives de 1978 et de 1981.

 

 

La dispersion la plus flagrante est en 1978.

Entropie de 2,11 en 1978 et de 1.72 en 1981.

Plus l’entropie est élevée et plus la dispersion est importante.

 

Permet de quantifier la dispersion d’une distribution sur une échelle nominale ou ordinale.

entropie : dispersion d’une distribution sur une échelle nominale ou ordinale.

 

i=n

→ entropie : Ž P1 (log2)^(1/p1)

i=n

 

Où « n » est au nombre de modalités et p(i) est = à la proportion de réponses associée à la modalité i.

 

Renvoi a la notion d’incertitude.

Entropie maximale : répartition équitable des données : il y a plus d’incertitudes, dépend du nombre de modalité de la variable.

Entropie minimale = 0.

 

Indices de dispersion : étendue

étendue : écart entre les 2extrèmes.

 x max – x min

 

 

Indices de dispersion : écart interquartile

→ dispersion autour de la médiane

50% des observations

 

 

On détermine :

rang Q.i = N/4 + ½

rang Q.s = 3N/4 + ½

Þ EiQ = Q.s – Q.i = Q3 – Q1

 

 

N = 18.

Rang Q.i = 18/4 + ½ = 20/4 = 5  →  Q.i = 5.

Rang Q.s = (3*18)/4 + ½ = 56/4 = 14  →  Q.s = 8.

EiQ (intervalle interquartile) = 8-5 = 3.

 

Indices de dispersion : écart moyen

→ dispersion autour de la moyenne.

 

 (Ž çx-mç)/N

 

Indices de dispersion : variance

→ dispersion autour de la moyenne.

Formule théorique : moyenne des carrés des écarts.

 

 Variance: S² = [Ž(x-m)²]/N = (Žx²/N) – m²

 

Formule pratique: moyenne des carrés moins carré de la moyenne.

 

 

Indices de dispersion : écart-type

→ dispersion autour de la moyenne.

→ racine carrée de la variance.

→ S pour standard déviation.

 

Ecart-type = S = Ö(S²)

 

 

L’estimateur biaisé :

 

L’échantillon n’est pas toujours représentatif de la population.

La variance a tendance à sous-estimer la population.

 

Indices de dispersion : variance corrigée

→ variance de l’échantillon comme estimateur de la variance dans la population.

 

 

 

IV. La loi normale et ses applications :

 

 

Distribution normale :

Symétrique.

Uni-modale.

Graphiquement il y a un point d’inflexion à μ = 1σ.

 

Figure : effectif en fonction de la taille.

 

1. La loi normale :

 

 

 

 

 

 

 

 

V. Relations entre variables.

 

 

1. Les différents types de liaisons entre les variables :

 

Une variable va influencer.

Indépendance parfaite entre 2 variables.

Relation entre une variable quantitative et une variable qualitative (ex : stress et performance : une est fonction de l’autre : stress élevé = baisse de performance).

 

Sert dans la compréhension du genre humain. On utilise ¹ tests scientifiques.

On peut s’intéresser à la relation entre 2 variables qualitatives (ex : type de Bac et CSP des parents).

 

 

 

2. Covariance et corrélation :

 

On n’a pas de relation parfaite.

 

Covariance :

→ degré de liaison entre 2 variables quantitatives.

→ moyenne des produits des écarts.

 

 

Coefficient de corrélation : plus ca s’approche de 0, moins il y a de relation entre 2 variables, si r = 0, il n’y a pas de relation entre les 2 variables.

Si on obtient un coefficient de corrélation élevé, on présume qu’il y a une relation importante entre les 2 variables, et elle se résume bien par une droite (relation de nature linéaire).

Si on obtient un coefficient de corrélation faible (proche de 0), on présume qu’il peut y avoir une relation entre les 2 variables, mais qu’elle ne se résume pas par une droite (relation de nature non linéaire)

 

Exercice :                             Source QCM 2004

.6.  Un coefficient de corrélation :

A : est une covariance de 2 variables standardisées.

B : a une valeur nécessairement comprise entre -1 et 1.

C : permet de quantifier le degré de liaison entre 2 variables quantitatives.

 

→ Les 3 réponses sont justes.

 

Il y a les corrélations négatives, nulles et non-linéaires. Elle donne une information → son signe, s’il est positif la relation est positive.

 

Corrélation et causalité :

 

Effet cigogne = problème l’interprétation abusive des données causales (lui attribuer un caractère systématique, fausse interprétation, etc.) : (http://www.unice.fr/zetetique/) : épistémologie des sciences.

Droite de régression linéaire : droite qui minimise sa distance entre tous les point, lorsque les données sont dans un modèle linéaire.

 

 

Quelle formule de la variance dois-je utiliser ?

 

Sur quel ensemble ont été prises les données ? échantillon ou population ?

     - Cas de population : on calcule directement avec les formules classiques.

     - Cas de l’échantillon :

              + On utilise les données pour décrire ce qui se passe dans l’échantillon : utilisation des formules classiques.

              + On utilise les donnée de l’échantillon pour dire quelque chose sur la population parente : on veut estimer : on utilise les formules pratiques.



01/06/2012
0 Poster un commentaire

Inscrivez-vous au blog

Soyez prévenu par email des prochaines mises à jour

Rejoignez les 1515 autres membres