Cours de psychologie

Apprentissage - cours (suite)

4. Processus majeur du conditionnement :

 

Conditionnement classique :

    - SI (stimulus inconditionnel ou non conditionné) → RI (réponse inconditionnelle).

    - SI + SN-SC (initialement stimulus neutre, combiné au SI il devient conditionné) → RI.

    - SC → RC.

 

a. L’acquisition de la réponse :

 

Apprentissage initial en fonction de l’ordre des stimuli dans la séquence :

    - Permet la prédiction d’un second stimulus proche à partir d’un premier stimulus.

    - Permet de prédire des séquences d’évènements aboutissant à un évènement bon ou mauvais (adaptation) et dans les probabilités.

 

Tout est dans l’ordre des S…

Le conditionnement classique fonctionne mieux lorsque le SN précède le SI :

    - Le conditionnement antérograde (ex : son à nourriture) : SN → SI.

          + Est plus efficace que le conditionnement rétrograde (apprentissage très lent) (ex : nourriture à son)

             … Et que le conditionnement simultané (très lent) (ex : son = nourriture).

          + La probabilité qu’un SN précède un SI est apprise → ce qui est appris c’est la valeur prédictive (la valeur prédictive du SN vient du fait qu’il précède le SI : c’est ce qui est appris).

    - Le conditionnement rétrograde : SI → SN.

    - Conditionnement simultané : SI = SN.

 

QUAND ?

Elle se traduit en force d’association en mémoire et donc sur le niveau de conditionnement du SB et SC pour déclencher la RC.

Le conditionnement permet d’apprendre la probabilité avec laquelle un SC prédit un RC (une récompense ou une punition).

S.R : provoqué par des personnes « neutres » de notre environnement.

 

Timing :

   - Le timing précis dans la séquence SN à SI a une grande influence sur le niveau d’association en mémoire.

   - Donc influence sur le niveau de conditionnement du SN en SC pour déclencher la RC.

   - Le temps écoule entre le SN et le SI doit être plus court chez l’animal que chez l’homme surtout à cause de la capacité temporelle de la MCT.

 

Les probabilités :

   - La probabilité qu’un SN précède un SI est apprise.

   - Elle se traduit en force d’association en mémoire.

   - Donc sur le niveau de conditionnement du SN au SC pour déclencher la RC.

   - Le conditionnement permet d’apprendre la probabilité avec laquelle un SC prédit un SI (une récompense ou punition).

   - Quand on parle de prédiction, on entend cooccurrence temporelle. Une corrélation n’est pas une relation causale.

 

b. L’extinction de la réponse :

 

On mesure l’acquisition par la force de la réponse conditionnée (Pavlov).

 

 

(Croix rouge) QUAND notre S est neutre → pas de réponse.

    - son tout seul → RC déclenchée en réponse au son (le son commence à devenir conditionné).

    - si on laisse quelque temps, on a quand même une réponse maximale.

Pour que ça diminue, il faut présenter le S de façon répondu mais si le SN ne signale plus le SI (cela ne signifie pas qu’il y a un oubli).

 

La réaction spontanée, on peut diminuer la réponse de la réaction spontanée, on peut avoir l’impression que l’animal a oublié : NON.

Une fois conditionné, si le SN est présenté sans le SI, il y a extinction de la RC.

 

La force comportementale : l’intensité de la réponse comportementale.

La réponse devient de plus en plus conditionnée → augmentation de l’acquisition.

Réponse maximum = apprise de façon maximum.

Phase d’extinction (ex : son - son - son et pas de nourriture / oubli le rapport entre nourriture et le son).

 

 

→ Perte du conditionnement si le SC (ici le son) ne signale plus de SI (nourriture) imminent (de façon répétée). Attention il n’y a pas oubli de la RC.

 

c. La récupération spontanée :

 

 

 

Suite à l’acquisition et à l’extinction de la RC, si on représente le stimulus qu’on croyait déconditionner, la RC réapparaît. Pour cela il faut que le SC soit représenté plusieurs heures après extinction. 

C’est à partir du moment où + réponse conditionnée → récupération spontanée.

Quasi spontanée mais elle n’arrive pas à l’acquisition maximale (niveau plus faible).

La période entre l’extinction et la récupération spontanée n’est pas un oubli complet. 

→ Mais seulement si le SC est représenté plusieurs heures après l’extinction.

 

L’extinction supprime la réponse conditionnée mais ne la fait pas totalement disparaitre.

La récupération spontanée est de plus en plus faible.

 

d. La généralisation :

 

La généralisation reflète la généralisation de la réponse à des S proches/similaires.

Le conditionnement se généralise à une classe d’objets qui ressemblent au SC. Le prototype est une classe abstraite d’objets qui se ressemblent. Ce qui est conditionné, ce n’est pas un stimulus précis, mais toute une classe de stimulus.

 

Ex : j’ai peur des rats, ma peur des rats va se généraliser en peur de tous les rongeurs. 

Ex : j’apprends à un chien à bouger la patte arrière face à de la nourriture, qui ensuite va se généraliser par la hanche, une autre patte puis par une patte avant.

 

 

 

Patte arrière : le chien est conditionné.

Des S n’ont pas été conditionnés mais la réponse est provoquée → généralisation (mécanisme de ??). 

Ex : le Petit Albert et les rats blancs qui a généralisé où sa peur a été généralisée face à une barbe, une peluche, de la fourrure… 

→ Tendance à répondre (RC : salivation) à des S voisins du SC (ici patte arrière). 

Propriétés du système perceptif (invariants, prototypes).

Avantage : évite d’apprendre par conditionnement la signification de chaque S (ex : une chaise en bois, une chaise en plastique rose etc.

 

e. La discrimination :

  

Capacité à distinguer des stimuli proches / qui se ressemblent du SC, s’ils sont présentés sans le SI ou avec un autre SI.

Des stimuli proches peuvent avoir des conséquences très différentes (sons, chiens, gens).

Système perceptif capable de discriminer les formes proches en fonction du feed-back (SI) (ex de feedback : se faire mordre par un chien).

La discrimination s’apprend et requiert des SI différents, associés au SC (chien qui mord  chien).

 

5. Le conditionnement classique (Pavlov) peut être modulé par :

 

a. La force de signal / SC / l’intensité du S :

 

Une réponse conditionnée sera d’autant plus forte, l’apprentissage sera plus rapide que le SI est fort (ex : type de nourriture).

On peut donc apprendre plus ou moins vite.

(Le conditionnement répondant concerne lui, une association entre un S.N et un ??).

 

b. Des SC :

 

Un SN Conditionné devient un SC qui peut à son tour conditionner un autre SN → séries de SCs. 

Ex

L’argent (SN) permet de manger (d’être estimé?) (SI).

Les études (SN) permettent de gagner de l’argent (SC).

Travailler permet d’étudier.

Etre reconnu (groupe social) (SC) permet d’être aimé (SI).

Avoir un certain look et faire la fête permet d’être reconnu dans un groupe (stéréotype SC).

Ne pas travailler (SC) permet de faire la fête (SN).

 

c. L’attention :

 

Dans un environnement naturel complexe, plusieurs SN précèdent un SI.

L’attention portée à chaque SN varie et influence son niveau d’association avec le SI.

Le niveau d’attention dépend de très nombreux facteurs liés au S (intensité visuelle, tactile, importance sémantique : déjà un SC, etc.).

Ex : avant d’être frappé par un éclair (ou violée), une personne avait bu un café, croisé un chat noir, et écouté de la musique folklorique (peut générer des angoisses liées à des S, alors que ces S sont à priori neutres, qui œuvrent devenir anxiogènes).

  

Ex : explication du Stress Post Traumatique :

Ce trouble psychologique implique une variété de symptômes liés à l’anxiété.

Comportements (RC : angoisse, etc. en relation avec des évènements particuliers (SC : sons, objets, personnes, etc)).

Ils débutent après l’évènement traumatique et peuvent persister très longtemps.

La stratégie d’évitement ne marche pas pour « soigner » ces cas.

Explication comportementale : la peur conditionnée prend place. 

                SI  RI

Événement traumatique  peur, terreur, angoisse.

                SN + SI => RI

Contexte + traumatisme  peur, terreur, angoisse.

                SC  RC

 

6. Bases des processus cognitifs complexes :

 

Le conditionnement simple consiste à associer des stimuli pour déclencher des réponses automatiques.

Elaboration de séquences d’activation de SC.

Les séquencent peuvent être plus ou moins complexes (séquence de S) (capacité temporelle de la MCT).

La base des pensées complexes → création en MLT de réseaux sémantiques.

Le conditionnement tient compte de connaissances complexes : multitude de SC simultanées entrainent des comportements et raisonnements complexes.

  

7. Le conditionnement en action : implications pour la Psychothérapie :

 

Le conditionnement permet l’apprentissage.

Revers de la médaille, il peut rendre des SC anxiogènes (des évènements neutres, deviennent anxiogènes).

 

TCC : 

      - a condition d’en connaitre les règles, ce qui est conditionné peut être réappris.

      - un SN anxiogène (odeur du café) peut être réassocié (ami) et éteint (extinction lente).

 

8. Le conditionnement en action : implications pour la publicité :

 

Les publicitaires utilisent le conditionnement classique pour ses capacités de persuasion.

  

Gorn (1982) :

 

Comme le chien de Pavlov, les consommateurs apprennent à associer un produit, une marque, avec des SC et prometteurs de SI récompenses (ex : argent, sexe, reconnaissance, pouvoir, luxe, mais aussi écologie, humanitaire, etc.).

Les SC associés à des SI récompenses dépendent du groupe social.

L’art des publicitaires est d’identifier/de créer les SC du groupe social visé.

 

Rescorla (1988) :

 

Les stimuli récompenses doivent être appariés avec le produit plusieurs fois. L’acquisition est lente et progressive, l’appariement doit être répété plusieurs fois. 

 

Sissors et Bumba (1996) :

 

Un consommateur doit être exposé plusieurs fois à un message avant qu’il ne devienne efficace (effet de simple exposition et association SI et SC). 

Cela explique les hautes fréquences de répétition des messages publicitaires (par exemple, c’est le cas aussi des chansons, des points de vue Politiques etc. dans la programmation des médias).

 

9. Le conditionnement des consommateurs :

 

a. L’extinction :

  

Les campagnes de publicité doivent être récurrentes pour lutter contre l’extinction spontanée.

Ex : publicité du café avec Georges Clooney : j’achète du café, mais comme Georges Clooney n’est pas là, je ne vais plus en acheter.

 

b. La généralisation :

 

Kanner (1989) :

 

Les publicitaires ont compris les bénéfices de l’association : 80% des nouveaux produits sont en fait des extinctions de produits ou de marques déjà existants. Ils sont donc déjà conditionnés.

 

Solomon (1994) :

 

Par généralisation, une marque de dentifrice peut présenter un emballage ressemblant à celui d’une grande marque afin de s’associer à ses SN vendeurs.

Les marques peu connues utilisent des logos, look, ressemblant à ceux de marques connues (utilisent leurs messages et récompenses par généralisation).

 

c. La discrimination :

 

Solomon (1994) :

 

Pour lutter contre la généralisation utilisée par leurs concurrents moins connus, les grandes marques vont accentuer leurs messages sur la discrimination.

Ex : « Méfiez-vous des imitations ».

L’accent est mis sur les conséquences (feedback différents induisant la discrimination : ex copies défectueuses).

 

 

d. L’affaiblissement :

 

Mc Sweeeney et Bierley (1984) :

 

Les stimuli peuvent être affaiblis (moins associés au produit) si les consommateurs sont exposés à une absence du produit.

Ex : le luxe (ou l’argent) associé à un produit induit plus d’achat chez les consommateurs les moins au contact du luxe (ou de l’argent).

  

10. Limites du conditionnement répondant :

 

Association entre SN et SI-RC préexistants (ex : bruits → aucun réflexe physiologique) :

                - apprentissage et prédiction de séquences de SC.

                - apprentissage et combinaisons de SC (fonction des capacités de la MCT). Permet de prédire des S.

RI = réponse automatique, physiologique.

                - pas d’apprentissage de nouveaux comportements individuels, seulement activation de RC qui sont des RI innées (attirance, évitement).

                - même si ces RI peuvent à leur tour déclencher des comportements.

Complexes (achat, état détendu, etc.). Il faut qu’ils soient appris.

Au delà de la prédiction d’un SC et d’un comportement associé…

…comment apprendre quoi FAIRE pour obtenir un SC (récompense) ou éviter un SC (punition) ?

Au delà de connaitre l’environnement complexe…

…Comment apprendre comment s’y comporter ?

 

L’expérience au labo…

Boite de Skinner.

Il pouvait analyser concrètement les comportements des animaux et la relation directe avec les modifications de l’environnement.

Environnement artificiel dans lequel il peut contrôler les récompenses et les punitions qui peuvent arriver à un animal dans son environnement.

Cette récompense est un stimulus conditionnel au sens pavlovien du terme.

Valence intrinsèque positive/négative.

Pouvait aussi mesurer les comportements de l’animal comportement actif du rat.

Autres stimuli (neutres) haut parleurs, lampes de couleurs différentes.

 

Le conditionnement pavlovien est nécessaire à l’apprentissage.

 

 

V. L’apprentissage par conditionnement opérant :

 

 

→ Skinner : comportement opérant.

 

L’apprentissage par conditionnement opérant :

                - L’individu n’est pas passif, mais il agit sur son environnement.

                - C’est par cette action sur l’environnement qu’il y a un apprentissage de nouveaux comportements.

                - Apprentissage de comportements complexes.

                - L’élaboration de raisonnements complexes.

 

1. Loi des effets : E. Lee. Thorndike (1874 – 1941) :

 

1905 : il dit que l’apprentissage est gouverné par la loi des effets → les comportements instrumentaux récompensés sont répétés, tandis que ceux qui sont punis ne le sont pas.

                - si récompense → répétition.

                - si punition → aucun effort.

Cette loi est basée sur l’observation et l’expérience intuitive (initialement : le dressage).

Quelles en sont les modalités de fonctionnement ?

→ Nécessité d’expérimenter ces modalités pour les comprendre.

 

Expérience du chat dans la boîte à problème, de Thorndike. Il a montré grâce à cette boîte que les animaux peuvent mettre en œuvre des comportements très complexes pour arriver à obtenir une récompense.

Ex : caprice chez un enfant (pleurs, colère) : ce comportement va générer des réactions de l’enfant. La fréquence des comportements opérants augmente.

 

Skinner (1938) :

 

« L’organisme apprend des comportements en opérant des modifications dans son environnement ».

Le comportement est instrumental : c’est un instrument opérant des modifications de l’environnement (feedback).

L’apprentissage est opérant ou instrumental.

 

Comment ça fonctionne ?

 

2. Principe du renforcement par conditionnement opérant :

 

L’approche expérimentale sert à analyser tous les comportements.

Contexte → comportement → renforcement.

Ex : Boîte → appui → graines.

Mère → cris → affection (ici c’est un renforcement positif → récompense).

 

 

Renforcement :

      - l’effet obtenu renforce son comportement.

      - augmente la valence dans l’environnement.

Renforcement + = récompense.

Punition : l’environnement est moins bien.

 

Un comportement dans une situation donnée peut avoir plusieurs issues :

                - Augmentation de la fréquence du comportement par :

                               + Renforcement positif.

                               + Renforcement négatif.

                - Diminution de la fréquence du comportement par :

                               + Punition positive.

                               + Punition négative.

Renforcement + = ajout d’un S + => en +

Renforcement - = retrait d’un S – => en -

Punition + = ajout d’un S –

Punition - = retrait d’un S +

 

3. Conditionnement opérant et répondant :

 

a. Conditionnement répondant :

 

SC  RC.

SC prédit un SI.

Le SI induit une réponse passive automatique physiologique (préexistante).

C’est en fonction du comportement (réponse) de l’animal qu’on va conclure sur la valence (récompense ou punition).

 

b. Conditionnement opérant :

 

Contexte → Comportement Opérant → renforcement (= SC ou SI → RI) (le renforcement peut être soit l’un, soit l’autre. Il est conduit par cette transformation de l’environnement).

 

Un contexte (C) déclenche un comportement opérant (CO).

Le CO est actif et instrumental : il permet d’obtenir un renforcement R (récompense). C’est un comportement qui va agir sur l’environnement.

Le renforcement est un ? ou prédit un SI (le SI induit une réponse passive automatique physiologique).

 

Ex : Hélène pleure. Elle fait donc un caprice auprès de sa mère.

Si elle décide de la réconforter → renforcement+ → quelque chose s’ajoute dans son environnement : c’est en +.

Si elle décide d’arrêter de lui demander de ranger sa chambre → renforcement - → quelque chose est enlevé dans son environnement : c’est en - .

Dans les deux cas, cela conforte Hélène à reproduire son comportement (caprice). La positivité globale de l’environnement augmente.

 

c. Donc le conditionnement opérant :

 

Le renforcement est induit par un évènement renforceur dans le comportement où la fréquence augmente.

Qualifie tout évènement qui survient après un CO.

A pour effet de tout le temps augmenter la fréquence de ce comportement (CO précédent), qu’il soit + ou -.

 

4. Les stimuli renforceurs primaires et secondaires :

 

C’est l’apprentissage qui permet l’activation des conditionnements classiques et opérants.

 

→ Les renforceurs primaires (R1) :

     - ce sont des SI déclenchant directement des RI.

     - les renforceurs primaires sont innés (ex : croquettes) (Il faut qu’il y ait avant des objets qui ont des valences dans l’environnement. Leur valence dépend de ce que nous avons appris).

→ Les renforceurs secondaires (R2) :

     - ce sont des SC prédisant directement ou interne, des SI déclenchant des RI.

     - les renforceurs secondaires sont appris par conditionnement pavlovien.

     - acquisition des renforceurs secondaires : par conditionnement répondant : les SC (R1) prédisent des SI (R2), par conditionnement pavlovien, il y a déclenchement d’une RC :

     - Les R2 = SC ; et les R1 = SI.

 

5. Renforcement et TTC :

 

Un CO pendant une TCC (ou autre) peut être renforcé par un SC, SI et / ou RI positif.

Ex : se mêler dans une foule en conservant un état calme → pour un phobique.

Visualiser ses progrès après quelques séances de thérapie (contrôle de TOCs, nouveau comportement, etc.).

Commentaire positif d’un ami (peut être un bonbon aussi).

Ce comportement va être récompensé, ce qui va le renforcer petit à petit.

 

6. Renforcement et influence :

 

Un message peut présenter un comportement opérant comme étant renforcé par des SC, SI et RI positifs.

Ex : les publicités → cas des promesses en cas de vote ou d’achat : récompenses futures, telles que baisse d’impôts et du chômage, puissance et sex appeal après achat d’un objet…).

Il se fait souvent, grâce à l’apprentissage vicariant, grâce à un modèle (ex : star). C’est le cas des pseudos témoignages des gens ayant reçu la récompense après le CO (ex : présentation de personnes ayant gagné à des jeux).

 

7. Le renforcement dans le conditionnement opérant :

 

On considère le type d’évènement et la valence.

 

Renforcement positif : l’évènement renforceur est une présentation d’un stimulus positif (plaisant ou désirable, Ex : nourriture, argent, affection, etc.).

Ex : vous mangez du gâteau (comportement).

                → Bon gout (récompense).

                → Augmentation de la fréquence du comportement.

Renforcement négatif : l’évènement renforceur est un arrêt d’un stimulus négatif (douleur, mépris, ignorance, etc.).

Ex : migraine (stimulus négatif).

                Aspirine (comportement)  arrêt de la migraine (récompense).

                → Augmentation de la fréquence du comportement.

!!! Le renforcement négatif n’est pas une punition !!!

 

Il permet d’apprendre les comportements opérants, permettant d’arrêter un S négatif. Leur fréquence augmente.

Ex :

- mettre des chaussures pour ne pas avoir les pieds mouillés.

- ralentir sur la route pour ne pas être flashé.

- valeur sociale des comportements : sourire, rire, dialogue.

 

Les CO sont renforcés car ils rendent l’environnement moins négatif (donc plus positif).

Ex :

- conditionnement de fuite : un rat fuit la partie de sa cage quand il reçoit un choc: changement d’environnement.

- conditionnement d’évitement : un rat évite la partie de sa cage où il reçoit des chocs électriques quand un son le prévient qu’un choc va avoir lieu. C’est un changement anticipé d’environnement (conditionnement renforcé, car le choc électrique ne s’est pas produit).

Un enfant va s’excuser en voyant ses parents foncer les sourcils avant de se faire gronder. Il sait que lorsque ses parents froncent les sourcils, cela signifie qu’il va se faire gronder juste après.

 

8. Comment atteindre un but ?

 

→ Situation de double conditionnement (répondant + opérant simultanément).

                - contexte = cage.

                - comportement opérant = bouton.

                - il va y avoir un renforcement secondaire/neutre = lumière.

                - R2 = lumière (SN) (c’est une lampe qui s’allume qui va devenir un SC).

                - R1 = nourriture (= renforceur primaire), c’est un renforcement + : récompense au comportement.

                - comportement conditionné = salivation.

 

Le rat met en œuvre un CO en appuyant sur le levier qui ne permet pas d’avoir une récompense (nourriture) mais une lumière. La lumière va donc conditionnée la nourriture.

 

Animal va reproduire ce comportement car il prédit l’arrivée de nourriture et l’allumage de lumière (qui prédit l’arrivée de nourriture). 

2 buts : nourriture + allumer la lumière (sous but ou préférence).

Même si la lumière ne prédit pas forcément l’arrivée de nourriture.

 

→ Apprentissage de préférences (SC) (ici allumer la lumière) et des comportements orientés vers ces buts (CO) (ici le SI = la nourriture) → la lumière prédit la nourriture.

Préférence pas de valeur intrinsèque.

Ces préférences peuvent être obtenues par des comportements simples, ou par des comportements plus complexes qu’on divise en séries de comportements simples. Il y a un enchaînement de comportements simples qui deviennent des comportements complexes.

Modelage : apprentissage progressif de séquences de comportements.

 

9. Séquences de comportements :

 

 

→ Mes comportements vont influencer ses comportements et inversement, ce qui va conduire à ce que je donne 1euro.

But atteint : technique commerciale du pied dans la porte.

 

10. Le raisonnement comme comportements simulé :

 

 

11. Critiques du renforcement :

 

1) Les comportements seraient manipulés. 

Skinner : alors tout le monde serait à blâmer (conditionnement mutuel, on a des effets sur les autres)

Connaitre le conditionnement permet de choisir ses renforceurs.

2) la motivation serait induite.

TCC : en connaissant le conditionnement, on peut induire la motivation en choisissant les renforceurs récompenses.

On n’apprend pas un comportement parce qu’il renforce une fois, il faut le répéter.

 

En quoi Skinner a-t-il mis un sacré bémol ?

 

Quand je pense, dans ma mémoire, il y a un enchainement de représentations mentales (pour simplifier, on parle de représentation linéaire).

Une succession de représentations mentales va être conditionnées par le comportement final. Ces comportements vont mener à des feedback, qui vont influencer tout le raisonnement.

Les travaux de SKINNER s’appliquent aussi au comportement complexe, donc aujourd’hui on considère que par conditionnement opérant on peut apprendre des raisonnements plus complexes (calcul mental, etc.).

 

Renforcements négatifs et punition :

    - le renforcement négatif n’est pas une punition.

    - le renforcement augmente un comportement et la punition le diminue.

    - la punition ne permet pas l’apprentissage d’un nouveau comportement, pour qu’il y ait apprentissage d’un nouveau comportement il faut qu’il y ait un renforcement.

    - une punition ne doit pas être donnée seule, mais conjointement à un renforcement.

 

Ex de punition : Hélène fait un caprice.

Sa mère lui demande de se taire (ton sévère) → baisse des caprices. Elle peut s’attendre à avoir une récompense (comme le fait d’être réconfortée par sa mère) mais il ne va rien se passer et ça c’est une punition pour Hélène.

 

12. La punition :

 

Tout Évènement qui va aboutir à une augmentation de la négativité de l’environnement (pas un oubli, mais une inhibition).

    - évènement présenté après un comportement et qui va diminuer la probabilité de répétition du comportement.

Conséquence diminue la probabilité de répétition du comportement.

 

Vous punissez souvent :

    - une personne vous interpelle dans la rue et vous ne lui répondez pas.

    - votre ton change en parlant à quelqu’un afin qu’il change d’attitude.

    - la punition peut être un CO renforcé chez celui qui la donne (ex : Monsieur Lavigne et la fille pipelette).

La punition peut être un comportement adaptatif.

 

13. La valeur d’apprentissage de la punition :

 

Elle est apprise et permet d’anticiper et d’éviter les comportements aboutissant à des changements négatifs.

La punition peut être un CO renforcé chez celui qui l’adopte (comportement punisseur peut punir ou renforcer).

La punition peut être un comportement adaptatif.

 

Types de punition :

    - punition négative : l’évènement punisseur est une présentation d’un stimulus négatif (douleur, mépris, ignorance…) dont la valence sera négative.

Ex : je crie : une claque

   - punition positive : l’évènement punisseur est un arrêt d’un stimulus positif.

(Plaisant ou désirables : nourriture, argent, affection, …).

Ex : je crie : pas de sortie.

→ Dans les deux cas, il y a une baisse du comportement.

 

14. Conditions définissant les renforcements et punitions :

 

On peut définir 4 cas de renforcement et de punition.

 

 

4 catégories fondamentales des émotions : théorie neurologique des comportements des émotions :

   - joie (R+),

   - frustration (p+),

   - colère (p-),

   - soulagement(r-).

Ces émotions varient selon l’intensité du renforcement ou de la punition et elles se complexifient pour donner des émotions secondaires.

 

Conditions définissant les renforcements, punitions, et extinctions.

 

15. Applications de la punition : taxes :

 

- exclusion sociale en absence de déodorant.

- peine judiciaire.

- panne de voiture.

- mauvaise note.

→ En général elles fonctionnent quand il y a le contexte punisseur (je ralentis quand j’aperçois la gendarmerie).

 

Qu’est-ce qui est puni?

Tout CO considéré comme la cause de la punition (précédant, même s’il n’est pas directement lié).

Ex : « Tu seras privé de sortie » → au lieu de : « Tu travailleras plus avant les sorties ».

= Contraire de ce que préconisait Skinner : punition ok, mais il faut faire apparaître un nouveau comportement par un renforcement.

 

16. La punition est contextuelle : elle est donc limitée :

 

Un enfant agressif se retiendra en présence du stimulus punisseur (parents, copain plus fort,…).

Le comportement se reproduira en absence du contexte où l’individu obtient sa punition.

 

Comment réduire un comportement non souhaité ?

 

17. Les alternatives à la punition :

 

Empêcher physiquement le comportement (retenir) (tenir la main d‘un enfant, retenir une pulsion…), mais cela ne règle pas le problème dans la tête des gens.

Eviter les contextes déclencheurs (divertir, distraire, éviter), mais la stratégie d’évitement peut devenir très rapidement contraignante.

Prédire une punition quel que soit le contexte (menace l’ogre, du père noël, de Dieu, qui voient tout).

 

Skinner répond à ces travaux par : dans le même contexte réapprendre un nouveau CO par une autre récompense.

Renforcement systématique permet l’amorcement d’un comportement.

→ Dans le même contexte réapprendre un nouveau CO par une autre récompense (comportement de remplacement).

 

18. L’apprentissage dépend des modes de renforcement :

 

Les renforcements apparaissent rarement de façon systématique.

Ex : récompense trop importante → entraine une surestimation.

 

L’apprentissage d’un Co (fréquence) dépend de la façon avec laquelle le renforcement est attribué.

 

19. 4 modes essentiels de renforcement → surgratification :

 

Fréquence avec laquelle un comportement va être renforcé et …

 

a. Mode continu/systématique :

 

Renforcement d’un CO de façon systématique (à chaque fois).

 

Ex : distributeurs de boisson, de billets… → mon comportement de mettre une pièce est récompensé puisque j’ai tout le temps une boisson qui tombe ou un billet qui sort.

                - génère l’acquisition des comportements peu motivés (pas de récompense → comportements peu soutenus).

Il va cependant y avoir une régression très rapide à partir du moment où il n’y a plus de récompense. La motivation est calculée à partir du nombre de fois où on attend la récompense de manière différée.

Persistance à mettre en œuvre un comportement opérant même en absence de renforcement = motivation.

 

b. Mode à passage progressif :

 

Persévérance.

 

                - fonctionnement systématique à un fonctionnement irrégulier.

                - renforcement diminuant progressivement en fréquence.

                - extrême persévérance (ex : pigeons de Skinner qui ont picoré plus de 100.000 fois jusqu’à ce qu’il n’y ait plus de graines → renforcement).

 

c. Mode à proportion fixe :

 

Renforcement d’un CO après un nombre fixe de fois (pour augmenter ses récompenses → augmente la fréquence de ses comportements).

 

Ex : salaire à la tâche (cadence élevée), personne payée aux pourcentages.

Proportion va définir la quantité de renforcement.

 

d. Mode à proportion variable :

 

Persévérant même en l’absence de récompense.

 

 - renforcement en moyenne constant, mais, en quantités variables et imprévisibles.

Ex : machines à sous, pêche à la ligne, séduction (comportements très soutenus : même en absence de récompense le comportement reste très soutenu).

L’individu va mettre en œuvre un comportement opérant sans savoir quelle quantité de renforcement il va avoir.

Ex : je joue au loto :

- je gagne 2€ - je gagne 1€ - je gagne 1€ - je gagne 0€ - je gagne 0€ - je gagne 0€ - je gagne 0€ - …

 

20. Modes de renforcement :

 

 

 

 

 

3 Renforcement performance extinction.

 

Mode :

    - Intervalle temps fixe moyenne rapide.

    - Fixe irrégulière.

    - Intervalle temps variable moyenne et lente.

Variable stable.

Proportion nombre fixe de haute et stable moyenne.

Fixe réponses.

Proportion parfois très haute très lente.

Variable.

On peut parler de comportements additifs liés au mode d’apprentissage !

 

 

 

21. Le conditionnement opérant (résumé) :

 

Associe des comportements avec leurs conséquences (variation de l’environnement, variations par rapport aux individus, attendues, qui arrivent ou pas) :  

     - l’individu est un opérateur de son comportement (il est actif).

     - permet de répéter des comportements ayant abouti à des résultats bénéfiques.

     - permet d’éviter des comportements apportant des désagréments (résultats contextuels).

 

Ex de comportements opérants et de leurs renforcements/ punitions :

Comportements de l’individu                                         renforcements / punitions

- Travaille                                                                est payé

-  est en retard                                                         est puni?

- Va au restaurant                                                     mange

- S’habille à la mode                                                   plait

 

22. Applications du conditionnement opérant :

 

A l’école :

 

Skinner souhaitait améliorer le système éducatif.

    - Un enseignant apprend au même rythme à des étudiants ayant des rythmes différents.

    - L’enseignement peut difficilement maîtriser le mode de renforcement auquel il a recourt.

    - Skinner proposait l’utilisation de machines à enseigner (ordi today) permettant à chaque élève d’apprendre à son rythme.

Il adapte l’environnement de l’enfant à son propre fonctionnement.

Éviter la sur-gratification: plus de récompense = abandon du comportement.

    - les ordis permettent de délivrer des renforcements immédiats et adaptés à chaque élève (mieux qu’un seul enseignant).

Permet de comprendre l’efficacité des jeux sur ordi !

    - efficacité des jeux sur ordi.

 

Au travail :

 

Expérience de Pedalino et Gamboa (1974) :

Pour réduire les retards des employés au travail : système de jeu pour ceux arrivant à l’heure :

                - ceux à l’heure pouvaient tirer une carte.

                - après 5 jours de travail, les employés ont une main complète de poker.

                - la meilleure main gagne 20 euros.

→ Ici, ce n’est pas système de punition mais de récompense (qui marche mieux en plus).

 

Résultats :

 

Réduction des retards au travail.

Effets potentiels négatifs d’une mauvaise punition :

Dépression acquise possible.

 

Une bonne façon de punir ? Le renforcement :

    - Louanges publique, critiques privées.

    - Description précise du comportement à éviter.

    - Mettre en R/t (en rapport les coûts et bénéfices des changements).

    - Développe un comportement alternatif.

 

23. Application du conditionnement opérant : la publicité :

 

Les publicitaires utilisent le modelage (façonnage) pour inciter les consommateurs à s’engager dans des comportements d’achat plus contraignants :

    - On nous propose un nouveau produit est vendu en promotion avec échantillon gratuit.

    - Le comportement opérant demande peu d’efforts et la récompense est élevée (Rapport effort/prix).

    - Progressivement le prix augmente sans échantillons (augmentation du prix, diminution des échantillons gratuits).

    - Le conditionnement opérant demande de plus en plus d’efforts et la récompense diminue (rapport effort/prix diminue).

→ Mode à passage progressif.

 

24. Comment bien vendre : Les Scripts :

 

Les scripts sont des représentations de connaissances en mémoire et de connaissances de comportement, notamment de séquences comportementales apprises par conditionnement opérant : représentation de connaissances comportementales.

Ex : le restaurant :

- réserver une table - s’y rendre - attendre sa place - commander un apéritif - consulter la carte – commander - prendre un dessert, un café - payer et laisser un pourboire.

→ Tous ces comportements ne sont pas identiques pour tout le monde.

 

Le publicitaire veut que l’on applique ces scripts sur des produits bien précis, plutôt que d’apprendre de nouveaux comportements.

  

Avoir son produit dans le script des consommateurs :

 

- Vérifier le kilométrage :

- Si plus de 10000km.

- Aller au garage de la pub (simple) ou rechercher dans les pages jaunes pour un garage (compliqué).

- demander une vidange, quand on vous demande quel type d’huile : prendre une huile d’une publicité ou comparer les types d’huile.

→ Le but des publicitaires est de nous orienter vers le script qui comporte sa marque.

Le choix dépendra de votre motivation à faire des économies, à calculer le meilleur rapport qualité/prix, de votre temps, etc. …

 

Pour que le script fonctionne :

 

Inciter à la prise de décision impulsive (achat impulsif) en diminuant :

    - La motivation à calculer le meilleur choix.

    - L’attention portée aux différents produits (musique à volume élevé (la musique peut jouer sur l’induction émotionnelle, qui peut jouer sur l’humeur). Ca a un effet d’interférence émotionnelle qui privilégie les comportements automatiques.

Les critères incitant à ne pas acheter (achat planifié) sont moins examinés.

Le produit le plus conditionné l’emporte (achat impulsif induit par la pub, celui que l’on nous a conditionné via la publicité).

 

25. Le renforcement chez l’homme :

 

Le renforcement peut être décalé dans le temps après le comportement opérant (chez l’animal il y a un délai de quelques secondes). Pour deux raisons :

     - Lorsqu’on met en œuvre un comportement opérant, on se le représente mentalement.

     - Lorsqu’on dit à un enfant que sa phrase est bien faite, on fait du renforcement, mais cette récompense peut arriver un peu plus tard, et maintenir un effet de renforcement.

 

Ex : je donne à manger au chien, il saute, je lui donne → je renforce.

       Il s’assoit → je renforce le fait qu’il s’assoit en lui donnant à manger.

 

Condition pour qu’il y ait renforcement : il faut que la représentation mentale du comportement soit active au moment où on reçoit la récompense. C’est une association entre la récompense et la représentation mentale de la récompense et non entre la récompense et le comportement en lui-même.

 

Capacité de la MCT (on peut présenter plusieurs S en même temps), mais aussi une capacité de rappel MLT : MCT elle va avoir un effet sur les c que je viens d’avoir mais aussi réactiver des comportements plus anciens.

Par le langage on peut réactiver une représentation et donc on peut renforcer un comportement avec une récompense qui arrive très tardivement.

 

Ex : bonne note à un examen → récompense à tous mes comportements de révision.

(Comportements ayant eu lieu longtemps avant la récompense, au moment où je reçois une récompense).

 

Cognition complexe : quand on apprend à faire des multiplications, le comportement visible que produit un enfant est la réponse qui fait suite à une série d’opérations mentales complexes. Si on le récompense en lui disant bravo, on ne récompense pas seulement le comportement, mais  aussi la suite d’opérations mentales « non visibles ». Cela permet l’apprentissage de comportements complexes comme le raisonnement, etc…

 

Des processus cognitifs complexes sont à l’œuvre pendant le conditionnement.

Représentation des stimuli, comportements, et possibilité de les observer chez autrui.

Rôle du raisonnement interne :

    - Skinner voulait décrire les comportements en termes de conditionnement simple.

    - En fait le conditionnement est à la base de l’apprentissage cognitif (raisonnement peut être appris par conditionnement opérant).

 

26. Skinner - Pavlov - Bandura :

 

Influence :

    - de l’environnement (ex : l’apprentissage de l’environnement).

    - des caractéristiques innées de l’individu.

    - de l’interaction entre les 2 :

    - par renforcement.

    - par observation.

Conditionnement vicariant (observation) + cognition acquise initialement par conditionnement.

Quand je vais faire ce comportement, je vais avoir soit punition, soit récompense.

Toutes ces formes d’apprentissage peuvent être synthétisées par apprentissage neuronal.



06/07/2012
0 Poster un commentaire

Inscrivez-vous au blog

Soyez prévenu par email des prochaines mises à jour

Rejoignez les 1514 autres membres