Cours de psychologie

Cognition et apprentissage (suite)

c. L’extinction de la réponse :

 

On mesure l’acquisition par la force de la réponse conditionnée (Pavlov). La force de la RC par un SI pour tester le conditionnement.

 

 

Phase d’acquisition : progressivement conditionné.

Phase d’extinction : si de façon répétée on présente le SC sans le SI. Apprend progressivement l’oubli d’association entre les 2.

La désensibilisation repose sur ce mécanisme d’extinction. Attention, ce n’est pas un oubli, mais un oubli de réponse.

 

(Croix rouge) Quand notre S est neutre → pas de réponse.

- Son tout seul → RC déclenchée en réponse au son (le son commence à devenir conditionné).

- Si on laisse quelque temps, on a quand même une réponse maximale.

Pour que ça diminue, il faut présenter le S de façon répétée seul mais si le SN ne signale plus le SI (cela ne signifie pas qu’il y a un oubli).

 

La réaction spontanée, on peut diminuer la réponse de la réaction spontanée, on peut avoir l’impression que l’animal a oublié : NON.

Une fois conditionné, si le SN est présenté sans le SI, il y a extinction de la RC.

 

La force comportementale : l’intensité de la réponse comportementale.

La réponse devient de plus en plus conditionnée → augmentation de l’acquisition.

Réponse maximum = apprise de façon maximum.

Phase d’extinction (ex : son - son - son et pas de nourriture / oubli le rapport entre nourriture et le son).

 

 

→ Perte du conditionnement si le SC (ici le son) ne signale plus de SI (nourriture) imminent (de façon répétée). Attention il n’y a pas oubli de la RC.

 

d. La récupération spontanée :

 

 

Phase de récupération : quand il y a extinction, si on refait SI + SC, la RC revient immédiatement. Donc, il n’y a pas d’oubli de ce qui a été appris, ça réactive.

 

Suite à l’acquisition et à l’extinction de la RC, si on représente le stimulus qu’on croyait déconditionner, la RC réapparaît. Pour cela il faut que le SC soit représenté plusieurs heures après extinction.

A la base des thérapies comportementales.

La stratégie d’évitement ne génère pas l’oubli. Non présent en MCT, car pas activé, mais toujours présent en MLT.

 

C’est à partir du moment où + réponse conditionnée → récupération spontanée.

Quasi spontanée mais elle n’arrive pas à l’acquisition maximale (niveau plus faible).

Lien entre recherche expérimentale fondamentale et l’approche thérapeutique.

La période entre l’extinction et la récupération spontanée n’est pas un oubli complet.

→ Mais seulement si le SC est représenté plusieurs heures après l’extinction.

L’extinction supprime la réponse conditionnée mais ne la fait pas totalement disparaitre.

La récupération spontanée est de plus en plus faible.

 

e. La généralisation :

 

Généralisation : acquisition d’un SC qui se propage à d’autres s’ils sont proches. La RC décroit avec la perte de ressemblance entre SC. La généralisation reflète la généralisation de la réponse à des S proches/similaires.

 

Le conditionnement se généralise à une classe d’objets qui ressemblent au SC. Le prototype est une classe abstraite d’objets qui se ressemblent. Ce qui est conditionné, ce n’est pas un stimulus précis, mais toute une classe de stimulus.

Ex : j’ai peur des rats, ma peur des rats va se généraliser en peur de tous les rongeurs.

Attention, le problème dans les phobies, c’est qu’il y a généralisation. Le syndrome de stress a plusieurs S.

Ex : j’apprends à un chien à bouger la patte arrière face à de la nourriture, qui ensuite va se généraliser par la hanche, une autre patte puis par une patte avant.

 

 

Patte arrière : le chien est conditionné.

Des S n’ont pas été conditionnés mais la réponse est provoquée → généralisation.

Ex : le Petit Albert et les rats blancs qui a généralisé où sa peur a été généralisée face à une barbe, une peluche, de la fourrure…

→ Tendance à répondre (RC : salivation) à des S voisins du SC (ici patte arrière).

Propriétés du système perceptif (invariants, prototypes).

 

Avantage : évite d’apprendre par conditionnement la signification de chaque S (ex : une chaise en bois, une chaise en plastique rose etc.

 

f. La discrimination :

 

Discrimination : capacité à distinguer des stimuli proches/qui se ressemblent du SC, s’ils sont présentés sans le SI ou avec un autre SI.

 

Des stimuli proches peuvent avoir des conséquences très différentes (sons, chiens, gens).

Système perceptif capable de discriminer les formes proches en fonction du feed-back (SI) (ex de feedback : se faire mordre par un chien).

La discrimination s’apprend et requiert des SI différents, associés au SC (chien qui mord  chien).

 

4. Le conditionnement classique (Pavlov) peut être modulé par :

 

a. La force de signal / SC / l’intensité du S :

 

Une réponse conditionnée sera d’autant plus forte, l’apprentissage sera plus rapide que le SI est fort (ex : type de nourriture).

On peut donc apprendre plus ou moins vite.

                                            

b. Des SC :

 

Un SN Conditionné devient un SC qui peut à son tour conditionner un autre SN → séries de SCs.

Ex : l’argent (SN) permet de manger (d’être estimé?) (SI).

Les études (SN) permettent de gagner de l’argent (SC).

Travailler permet d’étudier.

Etre reconnu (groupe social) (SC) permet d’être aimé (SI).

Avoir un certain look et faire la fête permet d’être reconnu dans un groupe (stéréotype SC).

Ne pas travailler (SC) permet de faire la fête (SN).

 

c. L’attention :

 

Dans un environnement naturel complexe, plusieurs SN précèdent un SI.

L’attention portée à chaque SN varie et influence son niveau d’association avec le SI.

Le niveau d’attention dépend de très nombreux facteurs liés au S (intensité visuelle, tactile, importance sémantique : déjà un SC, etc.).

Ex : avant d’être frappé par un éclair (ou violée), une personne avait bu un café, croisé un chat noir, et écouté de la musique folklorique (peut générer des angoisses liées à des S, alors que ces S sont à priori neutres, qui œuvrent devenir anxiogènes).

 

Ex : explication du Stress Post Traumatique :

Ce trouble psychologique implique une variété de symptômes liés à l’anxiété.

Comportements (RC : angoisse, etc. en relation avec des évènements particuliers (SC : sons, objets, personnes, etc)).

Ils débutent après l’évènement traumatique et peuvent persister très longtemps.

La stratégie d’évitement ne marche pas pour « soigner » ces cas.

Explication comportementale : la peur conditionnée prend place.

                SI → RI

Événement traumatique  peur, terreur, angoisse.

                SN + SI → RI

Contexte + traumatisme  peur, terreur, angoisse.

                SC → RC

 

5. Bases des processus cognitifs complexes :

 

Le conditionnement simple consiste à associer des stimuli pour déclencher des réponses automatiques.

Ce mécanisme est à la base d’associations plus complexes.

Réseau sémantique : association de représentations.

Elaboration de séquences d’activation de SC.

Les séquencent peuvent être plus ou moins complexes (séquence de S) (capacité temporelle de la MCT).

La base des pensées complexes → création en MLT de réseaux sémantiques.

Le conditionnement tient compte de connaissances complexes : multitude de SC simultanées entrainent des comportements et raisonnements complexes.

 

6. Désensibilisation systématique :

 

Un état relaxé ne peut pas coexister avec un état angoissé. C’est l’un ou l’autre.

La personne semble passive.

La personne tente de mettre en œuvre un comportement incompatible avec l’état de stress.

C’est l’apprentissage entre un comportement et l’anxiogène. Désapprendre le stress.

 

Les neurones activés du S anxiogène sans les neurones de la R de stress.

Dépression à long terme des synapses, la synapse se relâche quand l’un des 2 neurones n’est pas activé.

3 types d’apprentissage/modalités principales :

                - 2 neurones associés de SN et SI.

                - Un souvenir en MLT est conservé, donc refait surface.

                - Un neurone de S anxiogène activé et neurone de R de stress, diminution.

 

7. Le conditionnement en action :

 

a. Implications pour la Psychothérapie :

 

Le conditionnement permet l’apprentissage.

Revers de la médaille, il peut rendre des SC anxiogènes (des évènements neutres, deviennent anxiogènes).

 

TCC :

     - A condition d’en connaitre les règles, ce qui est conditionné peut être réappris.

     - Un SN anxiogène (odeur du café) peut être réassocié (ami) et éteint (extinction lente).

 

b. Implications pour la publicité :

 

Les publicitaires utilisent le conditionnement classique pour ses capacités de persuasion.

 

Gorn (1982) :

Comme le chien de Pavlov, les consommateurs apprennent à associer un produit, une marque, avec des SC et prometteurs de SI récompenses (ex : argent, sexe, reconnaissance, pouvoir, luxe, mais aussi écologie, humanitaire, etc.).

Un produit véhicule du coup des SC différents.

Les SC associés à des SI récompenses dépendent du groupe social. L’art des publicitaires est d’identifier/de créer les SC du groupe social visé.

 

Rescorla (1988) :

Les stimuli récompenses doivent être appariés avec le produit plusieurs fois. L’acquisition est lente et progressive, l’appariement doit être répété plusieurs fois.

 

Sissors et Bumba (1996) :

Un consommateur doit être exposé plusieurs fois à un message avant qu’il ne devienne efficace (effet de simple exposition et association SI et SC).

Cela explique les hautes fréquences de répétition des messages publicitaires (par exemple, c’est le cas aussi des chansons, des points de vue politiques etc. dans la programmation des médias).

Un SN acquiert des propriétés par la façon dont il nous est présenté.

 

Effet d’exposition : se caractérise par une augmentation de la probabilité d'avoir un sentiment positif envers quelqu'un ou quelque chose par la simple exposition répétée à cette personne ou cet objet. En d'autres termes plus nous sommes exposés à un stimulus (personne, produit de consommation, lieu) et plus il est probable que nous l'aimions.

 

L’extinction :

 

Les campagnes de publicité doivent être récurrentes pour lutter contre l’extinction spontanée.

Ex : publicité du café avec Georges Clooney : j’achète du café, mais comme Georges Clooney n’est pas là, je ne vais plus en acheter.

 

La généralisation :

 

Kanner (1989) :

Les publicitaires ont compris les bénéfices de l’association : 80% des nouveaux produits sont en fait des extinctions de produits ou de marques déjà existants. Ils sont donc déjà conditionnés.

Imitation, on peut tenter une ressemblance avec une grande marque pour s’associer à ces ventes.

 

Solomon (1994) :

Par généralisation, une marque de dentifrice peut présenter un emballage ressemblant à celui d’une grande marque afin de s’associer à ses SN vendeurs.

Les marques peu connues utilisent des logos, look, ressemblant à ceux de marques connues (utilisent leurs messages et récompenses par généralisation).

 

La discrimination :

 

Solomon (1994) :

Pour lutter contre la généralisation utilisée par leurs concurrents moins connus, les grandes marques vont accentuer leurs messages sur la discrimination.

Ex : « Méfiez-vous des imitations ».

L’accent est mis sur les conséquences (feedback différents induisant la discrimination : ex copies défectueuses).

 

 

L’affaiblissement :

 

Mc Sweeeney et Bierley (1984) :

Les stimuli peuvent être affaiblis (moins associés au produit) si les consommateurs sont exposés à une absence du produit.

Ex : le luxe (ou l’argent) associé à un produit induit plus d’achat chez les consommateurs les moins au contact du luxe (ou de l’argent).

 

8. Limites du conditionnement répondant :

 

Association entre SN et SI-RC préexistants (ex : bruits → aucun réflexe physiologique) :

                - Apprentissage et prédiction de séquences de SC.

                - Apprentissage et combinaisons de SC (fonction des capacités de la MCT). Permet de prédire des S.

RI = réponse automatique, physiologique.

                - Pas d’apprentissage de nouveaux comportements individuels, seulement activation de RC qui sont des RI innées (attirance, évitement).

                - Même si ces RI peuvent à leur tour déclencher des comportements.

Complexes (achat, état détendu, etc.). Il faut qu’ils soient appris.

Au delà de la prédiction d’un SC et d’un comportement associé…

…comment apprendre quoi FAIRE pour obtenir un SC (récompense) ou éviter un SC (punition) ?

Au delà de connaitre l’environnement complexe…

…Comment apprendre comment s’y comporter ?

L’expérience au labo…

Boite de Skinner.

Il pouvait analyser concrètement les comportements des animaux et la relation directe avec les modifications de l’environnement.

Environnement artificiel dans lequel il peut contrôler les récompenses et les punitions qui peuvent arriver à un animal dans son environnement.

Cette récompense est un stimulus conditionnel au sens pavlovien du terme.

Valence intrinsèque positive/négative.

Pouvait aussi mesurer les comportements de l’animal comportement actif du rat.

Autres stimuli (neutres) haut parleurs, lampes de couleurs différentes.

Le conditionnement pavlovien est nécessaire à l’apprentissage.

 

 

V. L’apprentissage par conditionnement opérant.

 

 

L’apprentissage répondant permet d’apprendre l’environnement, de comprendre la structure de l’environnement, les interrelations entre les objets et les récompenses/punitions. On apprend, on est passif comportementalement. On a des réponses automatiques, incontrôlables.

Donc, a priori, on ne sait pas quoi faire dans cet environnement.

 

L’apprentissage par conditionnement opérant :

                - L’individu n’est pas passif, mais il agit sur son environnement (modifie activement).

                - C’est par cette action sur l’environnement qu’il y a un apprentissage de nouveaux comportements.

                - Apprentissage de comportements complexes.

                - L’élaboration de raisonnements complexes (enchaînement en MdT sans comportement actif à l’extérieur).

Par Fréderic Buhrrus Skinner (1904 – 1990).

 

→ Répondant = apprentissage de concepts ; Opérant = enchaînement de raisonnements.

= Acquisition des concepts et des raisonnements.

 

1. Loi des effets : E. Lee. Thorndike (1874 – 1941) :

 

1905 : il dit que l’apprentissage est gouverné par la loi des effets → les comportements instrumentaux récompensés sont répétés, tandis que ceux qui sont punis ne le sont pas.

                - si récompense → répétition.

                - si punition → aucun effort.

Cette loi est basée sur l’observation et l’expérience intuitive (initialement : le dressage).

Quelles en sont les modalités de fonctionnement ?

→ Nécessité d’expérimenter ces modalités pour les comprendre.

 

Expérience du chat dans la boîte à problème, de Thorndike. Il a montré grâce à cette boîte que les animaux peuvent mettre en œuvre des comportements très complexes pour arriver à obtenir une récompense.

Ex : caprice chez un enfant (pleurs, colère) : ce comportement va générer des réactions de l’enfant. La fréquence des comportements opérants augmente.

   - Hélène fait un caprice, sa mère la prend dans ses bras et la réconforte = se comportement augmente car c’est une récompense. La valeur de récompense est apprise.

   - Hélène fait un caprice, sa mère cesse de lui demander de ranger sa chambre. Un fait négatif disparaît, c’est une récompense = renforcement négatif.

   - Hélène fait un caprice, sa mère lui demande de se taire. Punition = cesse ce comportement.

 

Skinner (1938) :

 

« L’organisme apprend des comportements en opérant des modifications dans son environnement ».

Le comportement est instrumental : c’est un instrument opérant des modifications de l’environnement (feedback).

L’apprentissage est opérant ou instrumental.

Comment ça fonctionne ?

 

Pavlov et Skinner étaient des béhavioristes. Ils travaillaient sur le comportement. Avant il s’agissait de théories (hypothèses) mais avec eux ça devient des expériences. Pas de pensée, juste le comportement.

Leurs résultats sont fondamentaux et toujours d’actualité.

Skinner a du mesurer les résultats, alors il a créé la boîte de Skinner : un rat isolé dans un environnement simplifié à l’extrême.

 

2. Principe du renforcement par conditionnement opérant :

 

L’approche expérimentale sert à analyser tous les comportements.

Contexte → comportement → renforcement.

L’environnement apporte des comportements, ces derniers transforment l’environnement.

Pas neutre car l’environnement est appris (Pavlov).

 

Ex : Boîte → appui → graines.

Mère → cris → affection (ici c’est un renforcement positif → récompense).

 

Un comportement appris se reproduit dans un environnement connu. Le contexte devient déclencheur du comportement.

Pas de comportement inné, c’est exploratoire. Quand l’exploration est récompensée, le comportement est appris.

Ex : un bébé à la naissance discrimine toutes les langues. En apprenant une langue, il perd ses capacités pour les autres. A la base, il y a un générateur qui lui fait produire des sons, quand c’est renforcé, il apprend.

 

Avec Pavlov, l’apprentissage est juste co-occurrent dans le temps, entre deux objets. C’est une loi synaptique.

Mais lorsque 2 objets sont représentés en MdT, s’il y a récompense, l’apprentissage est stimulé, et s’il y a punition ça diminue.
Génétiquement, on est pré-câblé, avec dopamine qui transmet l’information (neurotransmetteur). La dopamine arrive au cortex, elle devient modulateur, elle change la façon dont fonctionnent les neurones et les synapses entre ces neurones. Elle augmente la capacité des synapses. Si récompense, le cortex est stimulé.

 

Donc, le rat dans sa boîte va émettre des comportements au hasard par le générateur. Soudain, il appuie sur le levier, la nourriture arrive, il mange. Association entre nourriture et levier, la dopamine amplifie cette association.

Si pas de récompense, l’association est très faible, voire nulle.

Donc, opérant lié à associatif.

 

La MdT est limitée, donc on ne peut activer que quelques représentations. Problème dans l’apprentissage, il faut que 2 choses soient reliées en MdT. Si trop de représentations, c’est possible qu’une association soit oubliée.

Ex : on apprend au chien à faire le beau.

    - Si on le récompense aussitôt avec un sucre, c’est renforcé.

    - Si on prend le temps d’aller chercher le sucre, le chien suit, fait le fou… Et quand on lui donne la récompense, il l’associe avec son dernier comportement.

 

 

Renforcement :

   - L’effet obtenu renforce son comportement.

   - Augmente la valence dans l’environnement.

Renforcement + = récompense.

Punition : l’environnement est moins bien.

Renforcement + = ajout d’un S + → en +

Renforcement - = retrait d’un S → en -

Punition + = ajout d’un S –

Punition - = retrait d’un S +

 

3. Conditionnement opérant et répondant :

 

a. Conditionnement répondant :

 

SC → RC.

SC prédit un SI. Le SI induit une réponse passive automatique physiologique (préexistante).

C’est en fonction du comportement (réponse) de l’animal qu’on va conclure sur la valence (récompense ou punition).

Il faut qu’une récompense ait été apprise comme récompense.

 

b. Conditionnement opérant :

 

Contexte → Comportement Opérant → renforcement (= SCou SI → RI) (le renforcement peut être soit l’un, soit l’autre. Il est conduit par cette transformation de l’environnement).

Un contexte (C) déclenche un comportement opérant (CO).

Le CO est actif et instrumental : il permet d’obtenir un renforcement R (récompense). C’est un comportement qui va agir sur l’environnement.

Le renforcement prédit un SI (le SI induit une réponse passive automatique physiologique).

Ex : Hélène pleure. Elle fait donc un caprice auprès de sa mère.

Si elle décide de la réconforter → renforcement+ → quelque chose s’ajoute dans son environnement : c’est en +.

Si elle décide d’arrêter de lui demander de ranger sa chambre → renforcement - → quelque chose est enlevé dans son environnement : c’est en - .

Dans les deux cas, cela conforte Hélène à reproduire son comportement (caprice). La positivité globale de l’environnement augmente.

 

c. Donc le conditionnement opérant :

 

Le renforcement est induit par un évènement renforceur dans le comportement où la fréquence augmente.

Qualifie tout évènement qui survient après un CO.

A pour effet de tout le temps augmenter la fréquence de ce comportement (CO précédent), qu’il soit + (récompense) ou – (punition).

 

4. Les stimuli renforceurs primaires et secondaires :

 

C’est l’apprentissage qui permet l’activation des conditionnements classiques et opérants.

 

Les renforceurs primaires (R1) :

   - Valence intrinsèque innée.

   - Ce sont des SI déclenchant directement des RI.

   - Les renforceurs primaires sont innés, pré-câblés génétiquement (ex : croquettes). Il faut qu’il y ait avant des objets qui ont des valences dans l’environnement. Leur valence dépend de ce que nous avons appris).

Les renforceurs secondaires (R2) :

   - Ce sont des SC prédisant directement ou interne, des SI déclenchant des RI.

   - Les renforceurs secondaires sont appris par conditionnement pavlovien : les SC (R1) prédisent des SI (R2), par conditionnement pavlovien, il y a déclenchement d’une RC : Les R2 = SC ; et les R1 = SI.

   - Le comportement initial est renforcé par R1 et progressivement il devient conditionné.

 

5. Renforcement :

 

a. Et TCC :

 

Un CO pendant une TCC (ou autre) peut être renforcé par un SC, SI et/ou RI positif.

Ex : se mêler dans une foule en conservant un état calme → pour un phobique.

Visualiser ses progrès après quelques séances de thérapie (contrôle de TOC, nouveau comportement, etc.).

Commentaire positif d’un ami (peut être un bonbon aussi).

Ce comportement va être récompensé, ce qui va le renforcer petit à petit.

 

b. Et influence :

 

Un message peut présenter un comportement opérant comme étant renforcé par des SC, SI et RI positifs.

Ex : les publicités → cas des promesses en cas de vote ou d’achat : récompenses futures, telles que baisse d’impôts et du chômage, puissance et sex appeal après achat d’un objet…).

Il se fait souvent, grâce à l’apprentissage vicariant, grâce à un modèle (ex : star). C’est le cas des pseudos témoignages des gens ayant reçu la récompense après le CO (ex : présentation de personnes ayant gagné à des jeux).

 

c. Le renforcement dans le conditionnement opérant :

 

On considère le type d’évènement et la valence.

   - Renforcement positif : l’évènement renforceur est une présentation d’un stimulus positif (plaisant ou désirable, Ex : nourriture, argent, affection, etc.).

         + Ex : vous mangez du gâteau (comportement).

                                → Bon gout (récompense).

                                → Augmentation de la fréquence du comportement.

  - Renforcement négatif : l’évènement renforceur est un arrêt d’un stimulus négatif (douleur, mépris, ignorance, etc.).

         + Ex : migraine (stimulus négatif).

                                → Aspirine (comportement)  arrêt de la migraine (récompense).

                                → Augmentation de la fréquence du comportement.

!!! Le renforcement négatif n’est pas une punition !!!

 

Il permet d’apprendre les comportements opérants, permettant d’arrêter un S négatif. Leur fréquence augmente.

Ex : mettre des chaussures pour ne pas avoir les pieds mouillés, ralentir sur la route pour ne pas être flashé, valeur sociale des comportements : sourire, rire, dialogue.

 

Les CO sont renforcés car ils rendent l’environnement moins négatif (donc plus positif).

Ex : conditionnement de fuite : un rat fuit la partie de sa cage quand il reçoit un choc : changement d’environnement. Conditionnement d’évitement : un rat évite la partie de sa cage où il reçoit des chocs électriques quand un son le prévient qu’un choc va avoir lieu. C’est un changement anticipé d’environnement (conditionnement renforcé, car le choc électrique ne s’est pas produit).

Un enfant va s’excuser en voyant ses parents foncer les sourcils avant de se faire gronder. Il sait que lorsque ses parents froncent les sourcils, cela signifie qu’il va se faire gronder juste après.

 

6. Comment atteindre un but ?

 

Situation de double conditionnement (répondant + opérant simultanément).

   - Contexte = cage.

   - Comportement opérant = bouton.

   - Il va y avoir un renforcement secondaire/neutre = lumière. R2 = lumière (SN) (c’est une lampe qui s’allume qui va devenir un SC).

   - R1 = nourriture (= renforceur primaire), c’est un renforcement + : récompense au comportement.

   - Comportement conditionné = salivation.

Si comportement suivi d’un SN puis SI, le SN devient conditionné.

 

Le rat met en œuvre un CO en appuyant sur le levier qui ne permet pas d’avoir une récompense (nourriture) mais une lumière. La lumière va donc conditionnée la nourriture.

Animal va reproduire ce comportement car il prédit l’arrivée de nourriture et l’allumage de lumière (qui prédit l’arrivée de nourriture).

2 buts : nourriture + allumer la lumière (sous but ou préférence).

Même si la lumière ne prédit pas forcément l’arrivée de nourriture.

 

Tout peut s’associer avec tout, galère pour tout différencier !!

Apprentissage de préférences acquises (SC) (ici allumer la lumière) et des comportements orientés vers ces buts (CO) (ici le SI = la nourriture) → la lumière prédit la nourriture. On apprend des comportements orientés vers des sous-buts qui induisent d’autres comportements.

Préférence pas de valeur intrinsèque.

On peut se représenter toutes ses séquences, pas forcément les faire.

Le cerveau est un stimulateur, on simule les faits et les conséquences avant de les faire = raisonnement.

Ces préférences peuvent être obtenues par des comportements simples, ou par des comportements plus complexes qu’on divise en séries de comportements simples. Il y a un enchaînement de comportements simples qui deviennent des comportements complexes.

Le contexte peut être une combinaison de plein de choses.

Modelage : apprentissage progressif de séquences de comportements.

A différencier, conditionnement et manipulation.

Apprentissage sans limite, c’est la capacité de la MdT qui limite.

 

7. Séquences de comportements :

 

Situation du double conditionnement :

1)            contexte 1  CO  SC1

                Interlocuteur  sourire  sourire automatique

                peu aimable

2)            contexte 2  CO2  SC2

                Sourire automatique   « Vous êtes sensibles à la pauvreté? » Oui

3)             contexte 3  CO3  SC3

                « Oui »  « Donneriez-vous 1euro ? » Oui

                                        

→ Mes comportements vont influencer ses comportements et inversement, ce qui va conduire à ce que je donne 1euro.

But atteint : technique commerciale du pied dans la porte.

 

8. Le raisonnement comme comportements simulé :

 

Situation de double conditionnement :

1)            contexte 1  CO  SC1

→ Alors récompense

                Si A sans B  éviter B  environnement sans B (car je veux la récompense)

→ Alors récompense

2)            contexte 2  CO2  SC2

                Si A sans B  obtenir A  A sans B

On va ajouter mentalement A

                contexte 3  CO3  SC3    

               A sans B  récompense  récompense

 

L’apprentissage par conditionnement opérant ne se limite pas au comportement, se généralise à toutes les étapes de calcul mental successives.

 

9. Critiques du renforcement :

 

Les comportements seraient manipulés :

  - Skinner : alors tout le monde serait à blâmer (conditionnement mutuel, on a des effets sur les autres).

  - Connaitre le conditionnement permet de choisir ses renforceurs.

La motivation serait induite.

TCC : en connaissant le conditionnement, on peut induire la motivation en choisissant les renforceurs récompenses.

On n’apprend pas un comportement parce qu’il renforce une fois, il faut le répéter.

 

En quoi Skinner a-t-il mis un sacré bémol ?

 

Quand je pense, dans ma mémoire, il y a un enchainement de représentations mentales (pour simplifier, on parle de représentation linéaire).

Une succession de représentations mentales va être conditionnées par le comportement final. Ces comportements vont mener à des feedback, qui vont influencer tout le raisonnement.

Les travaux de Skinner s’appliquent aussi au comportement complexe, donc aujourd’hui on considère que par conditionnement opérant on peut apprendre des raisonnements plus complexes (calcul mental, etc.).

 

10. La punition :

 

Renforcements négatifs et punition :

   - Le renforcement négatif n’est pas une punition.

   - Le renforcement augmente un comportement et la punition le diminue.

   - La punition ne permet pas l’apprentissage d’un nouveau comportement, pour qu’il y ait apprentissage d’un nouveau comportement il faut qu’il y ait un renforcement.

   - Une punition ne doit pas être donnée seule, mais conjointement à un renforcement.

Ex de punition : Hélène fait un caprice. Sa mère lui demande de se taire (ton sévère) → baisse des caprices. Elle peut s’attendre à avoir une récompense (comme le fait d’être réconfortée par sa mère) mais il ne va rien se passer et ça c’est une punition pour Hélène.

Punition : tout stimulus présenté après un comportement et qui va diminuer la probabilité de répétition de ce comportement. Tout évènement qui va aboutir à une augmentation de la négativité de l’environnement (pas un oubli, mais une inhibition).

→ Conséquence diminue la probabilité de répétition du comportement.

Skinner montre que la punition marche très mal.

Vous punissez souvent :

  - Une personne vous interpelle dans la rue et vous ne lui répondez pas.

  - Votre ton change en parlant à quelqu’un afin qu’il change d’attitude.

  - La punition peut être un CO renforcé chez celui qui la donne (ex : Monsieur Lavigne et la fille pipelette).

La punition inhibe certains comportements, alors que la récompense apporte un renforcement/une stimulation des comportements (désinhibition).

 

a. La valeur d’apprentissage de la punition :

 

Elle est apprise et permet d’anticiper et d’éviter les comportements aboutissant à des changements négatifs.

La punition peut être un CO renforcé chez celui qui l’adopte (comportement punisseur peut punir ou renforcer).

La punition peut être un comportement adaptatif.

Types de punition :

   - Punition négative : l’évènement punisseur est une présentation d’un stimulus négatif (douleur, mépris, ignorance…) dont la valence sera négative.

         + Ex : je crie : une claque

   - Punition positive : l’évènement punisseur est un arrêt d’un stimulus positif. (Plaisant ou désirables : nourriture, argent, affection, …).

         + Ex : je crie : pas de sortie.

→ Dans les deux cas, il y a une baisse du comportement.

 

b. Conditions définissant les renforcements et punitions :

 

On peut définir 4 cas de renforcement et de punition.

 

 

On anticipe une récompense, si elle ne vient pas, c’est une punition.

4 catégories fondamentales des émotions : théorie neurologique des comportements des émotions :

- Joie (R+),

- Frustration (p+),

- Colère (p-),

- Soulagement(r-).

Ces émotions varient selon l’intensité du renforcement ou de la punition et elles se complexifient pour donner des émotions secondaires.

Conditions définissant les renforcements, punitions, et extinctions.

 

c. Applications de la punition : taxes :

 

- Exclusion sociale en absence de déodorant.

- Peine judiciaire.

- Panne de voiture.

- Mauvaise note.

→ En général elles fonctionnent quand il y a le contexte punisseur (je ralentis quand j’aperçois la gendarmerie).

 

Qu’est-ce qui est puni ? Tout CO considéré comme la cause de la punition (précédant, corrélation temporelle, même s’il n’est pas directement lié).

Ex : « Tu seras privé de sortie » → au lieu de : « Tu travailleras plus avant les sorties ».

= Contraire de ce que préconisait Skinner : punition ok, mais il faut faire apparaître un nouveau comportement par un renforcement.

 

d. La punition est contextuelle : elle est donc limitée :

 

La punition est contextuelle, l’inhibition du comportement n’aura lieu qu’en présence du stimulus punisseur.

Ex : un enfant agressif se retiendra en présence du stimulus punisseur (parents, copain plus fort,…).

Le comportement se reproduira en absence du contexte où l’individu obtient sa punition.

Comment réduire un comportement non souhaité ?

 

e. Les alternatives à la punition :

 

Empêcher physiquement le comportement (retenir) (tenir la main d‘un enfant, retenir une pulsion…), mais cela ne règle pas le problème dans la tête des gens.

Eviter les contextes déclencheurs (divertir, distraire, éviter), mais la stratégie d’évitement peut devenir très rapidement contraignante.

Prédire une punition quel que soit le contexte (menace l’ogre, du père noël, de Dieu, qui voient tout).

 

Skinner répond à ces travaux par : dans le même contexte réapprendre un nouveau CO par une autre récompense.

Renforcement systématique permet l’amorcement d’un comportement.

→ Dans le même contexte réapprendre un nouveau CO par une autre récompense (comportement de remplacement). Solution en thérapie cognitive.

 

11. L’apprentissage dépend des modes de renforcement :

 

Les renforcements apparaissent rarement de façon systématique.

Ex : récompense trop importante → entraine une surestimation.

Il ne faut pas recommencer systématiquement, car si trop, on démotive s’il n’y a pas la récompense.

L’apprentissage d’un Co (fréquence) dépend de la façon avec laquelle le renforcement est attribué.

 

a. Modes essentiels de renforcement → surgratification :

 

Le mode de renforcement détermine la motivation (= persévérance à reproduire un comportement en absence de récompense). Fréquence avec laquelle un comportement va être renforcé.

 

Mode continu/systématique :

  - Renforcement d’un CO de façon systématique (à chaque fois).

  - Ex : distributeurs de boisson, de billets… → mon comportement de mettre une pièce est récompensé puisque j’ai tout le temps une boisson qui tombe ou un billet qui sort.

  - Génère l’acquisition des comportements peu motivés (pas de récompense → comportements peu soutenus).

  - Il va cependant y avoir une régression très rapide à partir du moment où il n’y a plus de récompense. La motivation est calculée à partir du nombre de fois où on attend la récompense de manière différée.

  - Persistance à mettre en œuvre un comportement opérant même en absence de renforcement = motivation.

Mode à passage progressif :

  - Persévérance. Le plus efficace.

  - Fonctionnement systématique à un fonctionnement irrégulier.

  - Renforcement diminuant progressivement en fréquence. Extrême persévérance (ex : pigeons de Skinner qui ont picoré plus de 100.000 fois jusqu’à ce qu’il n’y ait plus de graines → renforcement).

Mode à proportion fixe :

  - Renforcement d’un CO après un nombre fixe de fois (pour augmenter ses récompenses → augmente la fréquence de ses comportements).

  - Ex : salaire à la tâche (cadence élevée), personne payée aux pourcentages.

  - Proportion va définir la quantité de renforcement.

Mode à proportion variable :

  - Persévérant même en l’absence de récompense.

  - Renforcement en moyenne constant, mais, en quantités variables et imprévisibles.

  - Ex : machines à sous, pêche à la ligne, séduction (comportements très soutenus : même en absence de récompense le comportement reste très soutenu).

  - L’individu va mettre en œuvre un comportement opérant sans savoir quelle quantité de renforcement il va avoir.

  - Ex : loto : - je gagne 2€ - je gagne 1€ - je gagne 1€ - je gagne 0€ - je gagne 0€ - je gagne 0€ - …

  - Comportement très soutenu, déclenche les comportements additifs.

Intervalle fixe :

  - Renforcement du 1er Co survenant après une certaine durée fixe.

  - Ex : examens (anticipation de la récompense).

  - Moments de renforcements apparaissent toujours aux mêmes intervalles.

  - Le comportement opérant augmente très peu après le renforcement, mais quand le moment du renforcement approche, la fréquence du comportement augmente.

  - Sur le long terme ce mode est celui qui génère le moins de motivation.

 

b. Comparaison des modes de renforcement :

 

3 Renforcement performance extinction.

Mode :

  - Intervalle temps fixe moyenne rapide.

  - Fixe irrégulière.

  - Intervalle temps variable moyenne et lente.

Variable stable.

Proportion nombre fixe de haute et stable moyenne.

Fixe réponses.

Proportion parfois très haute très lente.

Variable.

On peut parler de comportements additifs liés au mode d’apprentissage !

 

 

c. Quelle approche choisir ?

 

c



16/12/2012
0 Poster un commentaire

Inscrivez-vous au blog

Soyez prévenu par email des prochaines mises à jour

Rejoignez les 1515 autres membres