Les mécanismes d'apprentissages

Les mécanismes d’apprentissages

Dimanche 13 mars 2016, par Chantal

On parle souvent de R+ P- et de P+ R-. Voici un résumé expliquant un petit peu de quoi il s’agit.

  • Le R signifie Renforcement, c’est-à-dire un truc qui fait que le comportement s’intensifie.
  • Le P signifie Punition, c’est-à-dire un truc qui fait que le comportement diminue.

Les – et les + sont des machins qui précisent simplement si on ajoute ou si on retire quelque chose. Par exemple, si je dis « Espèce de sale caca » à quelqu’un, j’ajoute un truc. En l’occurrence, c’est une sorte de punition qui est donc une punition + (par ajout). Les + sont dit « positif » et les – « négatifs » sans que ce ne soit un jugement moral.

Comme vous avez pu le voir au début dans la première notation qui était : « R+ P- » et « P+ R- », ça marche souvent par paire. On pourrait aussi parler de combo. Si j’applique un R+ (un renforcement par ajout), il y a pas mal de chance que j’emploi à un moment où un autre une P- (une punition par retrait). Ça tombe bien, ça marche très bien ensemble.

Chacun de ces concepts peut être ramené à un principe de survie. Nous pourrions en écrire tout un tas et les classer ainsi entre les différents types de renforcement et de punition. En voici quelques exemples :

R- : Je marche trop près du mur, je me rappe en permanence le bras, cette situation est pénible, je m’éloigne à titre d’essai, la situation pénible disparaît. Je suis soulagée. Si je veux survivre, il vaut mieux que j’aille vers ce qui me soulage et que je cherche des solutions aux situations pénibles. Ou alors, je vais finir avec une grosse infection ou une belle hémorragie après avoir passé des années dans cette situation. Ceci est un renforcement (augmentation des chances de recommencer) négatif (disparition de la situation), le renforcement en lui-même se fait grâce au soulagement éprouvé.

P+ : Je marche sans regarder devant moi, je me prends un poteau en pleine tête. J’ai une belle bosse. A partir de maintenant, je ferais attention à éviter les poteaux (ou à me déplacer en tracteur pour abattre tous ces p****** de poteau de m*****) sinon, je vais mourir à force de m’exploser la tête de partout. Vous noterez que cette situation peut produire une réponse agressive, car parfois la meilleure des défenses, c’est l’attaque. L’autre solution implique la fuite mais également la vigilance. Ceci est une punition (diminution des chances de recommencer à foncer dans les poteaux) positive (ajout d’un poteau en pleine tête).

P- : Je marche à l’envers sur un escalator et je n’avance pas. C’est marrant sur le coup, mais pour arriver en haut, ça ne me sert à rien, alors j’arrête... Si je passe mon temps à faire des trucs qui ne servent aucun but, je ne risque pas de survivre... ou alors, il va falloir une petite armée d’infirmier pour m’aider. Ceci est une punition (diminution des chances de recommencer) négative (retrait de tout résultat). Notons que si je me pète la figure et que je me cogne le bout du nez sur les marches ou simplement si je me fais peur ce sera une punition positive (ajout de la peur ou / et de la douleur) en plus...

R+ : Je me couche sur mon lit et je suis terriblement bien. Cela permet à mon corps de se reposer et ça augmente mes chances de survie. Ceci est un renforcement (augmentation des chances de recommencer, autrement dit, les lits c’est cool) positif (ajout du bien-être). Je vais recommencer les choses qui m’apportent du bien-être.

Ces principes de bases sont tout bêtes et peuvent s’appliquer à n’importe quelles espèces puisqu’il en va de leur survie. Une espèce qui continue quand ça fait mal, qui ne se sort pas des situations pénibles, qui ne recommence pas ce qui fait du bien et qui continue ce qui n’apporte rien... et bien elle disparaît.

A l’heure actuelle, il existe des éducations canines tout à fait différentes les unes des autres. L’une d’elle s’appuie de façon consciente sur ces principes de survies et a choisi d’en employer 2 uniquement. Il s’agit de renforcement positif (on recommence ce qui fait gagner des trucs cools) et de punition négative (on arrête ce qui ne sert à rien). Ainsi on peut faire augmenter un comportement (par renforcement) ou faire diminuer un comportement (par punition). Avec ces deux « armes », nous n’avons pas besoins des deux autres types de punitions et de renforcement.

Le fait de s’interdire la moitié des principes peut paraître étonnant, mais lorsque lors emploi du R+P-, on augmente l’envie de tester. En effet, l’animal n’a rien à craindre, si ce n’est de devoir essayer autrement... Le pire qui peut lui arriver, c’est que ça ne fonctionne pas.

Au contraire, lorsque l’on emploie du P+R-, on diminue l’envie de tester car tout est à craindre (qui sait quand le poteau surgira ! Méfiance !) sauf le soulagement, mais comme tester peut provoquer des punitions, autant éviter.

Ces deux effets étant contradictoires, ajouter des punitions positives au R+P- a tendance à le rendre beaucoup moins efficace. Le risque de punition positive est un risque assez direct pour la survie, l’éviter est capital. Donc on ne prend pas ce risque à moins d’avoir une motivation excessivement forte.