lunedì , 1 settembre 2014
Home >> Educazione >> Addestramento >> Il condizionamento operante (rinforzi e punizioni, positivo e negativo…che confusione!)

Il condizionamento operante (rinforzi e punizioni, positivo e negativo…che confusione!)

La mia recente esperienza come “valutatore” all’esame finale di un corso per educatori cinofili, di cui ho parlato in questo articolo, ha confermato le mie convinzioni su quanto sia ostico, per gli allievi,  capire i meccanismi del condizionamento operante.
Se tutto il resto della teoria ha visto quasi tutti i ragazzi preparatissimi (esclusi i pochi che non avevano proprio studiato…), su due argomenti si sono impuntati un po’ tutti, chi più chi meno: l’imprinting/impregnazione e il condizionamento operante, appunto, con lacune decisamente più vistose nei confronti di quest’ultimo.
Ho pensato, quindi, di provare a spiegare nel modo più semplice possibile questi due temi ostici (l’imprinting domani, il condizionamento operante oggi): solo che un  modo davvero “semplice” in realtà non c’è, soprattutto perché gli studi di Skinner (“padre” del condizionamento operante, così come Pavlov fu il “padre” del condizionamento classico) utilizzano una terminologia che è già di per sè fuorviante.
Si parla infatti di rinforzi e punizioni “positive” e “negative”, termini che vanno intesi in senso matematico (e cioè come “segno +” e “segno -”) mentre la stragrande maggioranza delle persone è… condizionata (gioco di parole, sì, ma anche realtà!) ad intenderle in senso “morale”.
Per questo tutti sono prontissimi a capire cos’è un rinforzo positivo (che viene visto genericamente come “premio per un’azione corretta”: il che non è proprio esattissimo, ma all’atto pratico va anche bene), e cos’è una punizione (intesa, correttamente, come “qualcosa che faccio affinché tu non ripeta un comportamento sbagliato”): però vanno tutti in drammatica confusione quando si comincia a parlare di “rinforzo negativo”  (ma come? Un premio non può essere negativo! Perché “negativo” viene recepito come “cattivo, sgradevole”) e ancor più quando di parla di “punizione positiva” (ma come, positiva? Il positivo è buono, come fa una punizione ad essere buona?).

Proviamo, comunque, a sbrogliare la matassa, armandoci di pazienza e  partendo da lontano, dando una rapida occhiata alla storia del comportamentismo.
A proposito…sapete perché qualcuno salta per aria come una molla se gli parli, che so, di “veterinario comportamentista“, e ti rimbecca subito con un secco  “semmai sarà un comportamentalista“?
Perché il comportamentismo propriamente detto fu un approccio alla psicologia, ad opera di J.B. Watson, basato sull’assunto che la mente non fosse studiabile né comprensibile, ma che l’unica cosa su cui si poteva lavorare fosse il comportamento osservabile, inteso come relazione tra stimoli e risposte: anzi, più precisamente, inteso come il movimento di determinati muscoli.
La mente veniva definita “black box“, scatola nera: qualcosa di sconosciuto e, in fondo, neppure troppo importante: intanto quello che contava erano i comportamenti, e alla fin fine  chi se ne impippava del come e del perché si fossero “creati” all’interno di questa misteriosa scatola nera.
Poiché questi concetti si scontrano palesemente con il cognitivismo, molto apprezzato dalla cinofilia moderna, che invece considera come principale oggetto di studi proprio la mente, considerata come sistema indipendente dai fattori biologici, sociali, culturali, ecc…ecco che il termine “comportamentista”, se inteso in senso letterale, può venire interpretato come sinonimo di “tizio che considera il cane solo come oggetto condizionabile, e non come soggetto pensante”. Per questo i cinoteorici (spesso usi, a mio personale avviso, alla pratica della pippa mentale spinta) preferiscono utilizzare il termine “comportamentalista” per indicare un professionista esperto nel comportamento canino.

Pavlov (1849-1936)

Chiusa questa parentesi… il vero e proprio comportamentismo, nato all’inizio del Novecento, era inizialmente basato sugli studi di Ivan Pavlov, che proprio sui cani aveva elaborato la teoria della risposta condizionata.
Presumo che questa la conosciate tutti, ma la riassumo rapidissimamente: ai cani di Pavlov, prima che ricevessero il cibo, veniva fatto sentire il suono di una campanella; ripetendo questa procedura più volte si otteneva che i cani cominciassero a salivare non più vedendo il cibo (stimolo incondizionato, ovvero naturale: è naturale che la vista del cibo causi salivazione), ma sentendo la campanella (stimolo condizionato, ovvero non naturale – perché il suono di una campanella, da solo, non fa salivare proprio nessuno -  ma associato in modo artificiale all’idea del cibo).

L’assunto, dunque, fu che l’associazione ripetuta di uno stimolo (suono della campanella) con una risposta (cibo) faccia sì che, dopo un certo periodo di tempo, allo stimolo segua una risposta condizionata.
La vignetta a sinistra spiega chiaramente che non soltanto i cani offrono questo tipo di risposta…

Thorndike (1874-1949)

Agli studi del russo Pavlov seguirono quelli dell’americano Thorndike, che formulò la teoria dell’apprendimento per prove ed errori, basata su una situazione sperimentale in cui un animale in gabbia, per poter uscire, doveva azionare delle leve.

Thorndike formulò tre principi:

a) l’apprendimento avviene per prove ed errori, ovvero compiendo tentativi diversi per arrivare alla soluzione di un problema;
b) i tentativi che portano a una soluzione tendono ad essere ripetuti, mentre quelli inutili vengono abbandonati (legge dell’effetto)
c) i comportamenti ripetuti più volte vengono appresi ed emessi con maggiore probabilità (legge dell’esercizio).

Skinner (1904-1990)

A questo punto (più o meno a metà degli anni ’30) entra in scena Burrhus Frederick Skinner, che  focalizza l’attenzione sulla frequenza, piuttosto che sulla qualità della risposta, introducendo una nuova importante teoria, e cioè che un comportamento sia influenzato non solo da ciò che accade prima, ma anche dalle conseguenze del comportamento stesso.
In pratica: io posso condizionare la tua risposta non soltanto prima che tu me la fornisca, ma anche a seconda di come agisco dopo che me l’hai fornita.
In pratica, Skinner studiò il controllo del comportamento attraverso la manipolazione delle ricompense e delle punizioni.
Oggetto del suo studio non erano tanto gli stimoli quanto le risposte, che andavano dal semplice riflesso (come quello pavloviano) a espressioni comportamentali molto più complesse.
Tralasciando ora tutta la (noiosissima) parte descrittiva e terminologica che riguarda la psicologia umana (anche perché di quella di occupavano, in realtà, tutti gli studiosi fin qui citati: dei cani non si interessavano affatto!), veniamo al dunque, anzi al solo “dunque” che ci interessa quando lavoriamo con un cane.

Per Skinner:

a) ogni comportamento può essere analizzato considerandolo come una contingenza a tre termini, in cui un evento o stimolo antecedente (A) precede un comportamento (B) che avrà una conseguenza (C);
b) ogni comportamento può essere rinforzato o indebolito, cioè ripresentarsi con maggior frequenza e maggior forza oppure presentarsi sempre meno, fino a scomparire del tutto o quasi;
c) la probabilità che si manifestino gli operanti (che sono semplicemente le risposte fornite dall’organismo) aumenta o diminuisce a seconda che l’operante stesso sia seguito da un rinforzo o da una punizione.

Ed eccoci arrivati al punto: cosa sono i rinforzi e cosa le punizioni? E come vanno intesi i termini di positivo e negativo?

La prima parte è abbastanza semplice:

RINFORZO è tutto ciò che fa sì che una risposta (operante), ovvero un certo comportamento, venga ripetuta, si verifichi il più spesso possibile.
PUNIZIONE
è tutto ciò che fa sì che una risposta (operante), ovvero un certo comportamento, NON venga ripetuta, dimuisca e vada ad estinguersi.

Esempio canino: io dico “seduto!” al cane. Se lui effettivamente si siede, la risposta sarà quella che io volevo: e siccome la volevo, cerco di fare in modo che la ripeta ogni volta che sentirà il suono “seduto!”. Per questo motivo gli darò un rinforzo (qualcosa che induce la ripetizione del comportamento).
Se io dico “seduto!” e il cane mi morde, la risposta non è precisamente quella che volevo. Anzi, non voglio proprio che reagisca mai più così!  In questo caso somministrerò una punizione (qualcosa che induce l’estinzione del comportamento).

E fin qui, penso che sia tutto chiaro per tutti.
I problemi cominciano quando si deve distinguere tra rinforzo positivo/negativo e punizione positiva/negativa: perché dobbiamo proprio riuscire a cancellare dalla nostra mente qualsiasi connotazione morale, etica, sociale e quant’altro.

Positivo va visto solo come “segno +” : ovvero, AGGIUNTA di un qualcosa.
Negativo va visto solo come “segno – “: ovvero, SOTTRAZIONE di un qualcosa.
Per eliminare la confusione tra connotazione matematica (giusta) e connotazione morale (sbagliatissima), alcuni studiosi del comportamento hanno introdotto nuovi termini: per esempio, il più classico dei rinforzi, il bocconcino, ora non viene più chiamato “rinforzo” ma “rinforzatore”.
Invece “positivo” e “negativo” vengono chiamati “del primo tipo” o “del secondo tipo”.
Personalmente sparerei a vista a questi signori che di fronte a una confusione generale hanno visto bene di modificare ulteriormente i termini, aumentando così lo stato confusionale degli allievi. Quindi io continuo ad utilizzare i termini classici… e vediamo se ne usciamo vivi così.

Facciamo un po’ di esempi cinofili spiccioli  (da NON imitare: sono esempi e basta! Ma alcuni sono esempi assolutamente sbagliati e macellai, cose da non fare assolutamente nella realtà):

a) io dico “porta!” e metto un riportello davanti al muso del cane. Lui apre la bocca. Appena il cane apre la bocca  io gli allungo un bocconcino, o lo accarezzo, o gli dico “bravooooo!”, o  lo faccio giocare… sono tutti rinforzi (ovvero cose che cercano di ottenere la ripetizione della “risposta esatta” del cane), positivi, perché ho “aggiunto”, in senso matematico, il bocconcino, la carezza, la voce o il giocattolo;

b) io dico “porta!” e mostro al cane il riportello. Il cane non se lo fila di striscio. Allora io, che sono bastarda inside, impicco il cane con il collare a strangolo, finché questi, sentendosi soffocare, apre la bocca. Non appena apre la bocca, io allento la pressione sul collare.
Questo è sempre un rinforzo (ovvero un’azione che compio per ottenere la ripetizione della “risposta esatta”: aprire la bocca davanti al riportello), però negativo, perché non ho aggiunto ma “sottratto” qualcosa (in questo caso, il senso di soffocamento o di dolore).

c) io porto la ciotola al cane, la poso per terra e  lui, per tutto ringraziamento, mi ringhia. Oibò! Risposta assolutamente non gradita: non voglio che la ripeta. Quindi gli dò uno smaffone sul muso. E’ una punizione  (perché tesa a NON far ripetere il comportamento sgradito),  positiva perché ho “aggiunto” (segno +) lo sberlone.

d)  io porto la ciotola al cane, la poso a terra e lui mi ringhia. Io mi riporto via la ciotola.
E’ sempre una punizione (perché tesa a non far ripetere il comportamento sgradito), ma stavolta negativa, perché ho “tolto” (segno -) la ciotola.

Nel primo esempio, come potete osservare, io ho aggiunto uno stimolo sgradito (ovvero un dolore o un disagio): nel secondo esempio ho tolto invece qualcosa di gradito (il cibo).
Non importa il valore “morale” di ciò che si aggiunge o si toglie: contano solo i segni + e -
E’ evidente (ed intuitivo) che un rinforzo negativo comporterà la sottrazione di qualcosa di sgradevole (“negativo” in senso morale), mentre una punizione negativa comporterà la sottrazione di una cosa “buona”, gradita.
Però quello che è gradito/sgradito al cane non sempre lo è anche per gli umani, e viceversa: il che a volte manda in confusione gli allievi.
Perché, per esempio, potremmo avere un cane masochista (ne conosco un migliaio! E penso anche voi!) che si diverte un casino a prendere pacche violente sulle spalle o sul sedere.
La stessa pacca, se venisse data sul sedere a me, sarebbe (in senso morale) sgraditissima e negativissima: ma a lui piace. La considera un gioco esattamente come la pallina o il salamotto.

Mettiamo, quindi, che io mi sia accorta che quando smetto di dargli pacche il cane si mette ad abbaiare (perché ne vuole ancora): e guarda caso, io vorrei proprio insegnargli ad abbaiare a comando.
Quindi, dico “abbaia!” e smetto di dargli pacche sul culo. Che cos’è?
E’ un rinforzo (perché spero di fargli ripetere il comportamento abbaiante) negativo (perché ho “tolto” qualcosa, in questo caso la pacca). Non conta che la pacca sia “buona” (come la vede lui) o “cattiva” (come la vedremmo noi): conta solo il significato matematico. Altrimenti ci si incasina!
Dopo che il cane, scocciatissimo perché gli ho tolto le pacche, si mette effettivamente ad abbaiare, io posso dargli un bocconcino: in questo caso, che cos’è?
Sempre un rinforzo (perché spero che ripeta l’abbaio), ma stavolta positivo (perché ho “aggiunto” il boccone).

Chiaro, fin qui? Spero di sì.
Ma non è finita, perché il solito Skinner, dopo aver compreso il meccanismo di rinforzo, si domandò anche quale importanza avesse la frequenza con cui i rinforzi venivano somministrate.
Era meglio dare un rinforzo continuo (ti dò un boccone ogni volta che metti in atto un comportamento corretto) oppure variabile (ogni tanto te lo dò e ogni tanto no) ?
Curiosamente,  la risposta degli animali utilizzati negli esperimenti di Skinner fu: “funziona meglio il rinforzo a tasso e intervallo variabile“.
Tradotto in cinofilese: se vogliamo rinforzare la risposta di sedersi  quando il cane sente l’ordine “seduto”, è meglio premiare col bocconcino qualche seduto sì e qualcuno no. Ma non, per esempio, “uno sì e uno no, uno sì e uno no”, con regolarità e dando sempre lo stesso premio identico…bensì, magari, quattro sì e uno no, tre sì e due no…e così via.
E ancora meglio se una volta ti dò il bocconcino, una volta niente e la volta dopo, tadannnn! DIECI bocconcini!  (quello che nell’educazione cinofila chiamiamo “il jackpot”).
Ovvero, tasso e intervallo variabile.

Questo, quando si lavora con un cane, è davvero importante (quasi quanto capire la funzione di rinforzi e punizioni), perché fa la differenza tra creare un cane “automatizzato” e pure un po’ scazzato  (che penserebbe qualcosa come: “faccio una condotta perfetta, mo’ mi dà un wurstel, faccio una condotta perfetta, mo’ mi dà un wurstel… uffa, sono quasi stufo di ingurgitare wurstel, quasi quasi me ne vado per gli affari miei..”.) e un cane pieno di gioiosa aspettativa e di desiderio di migliorare (“faccio una condotta perfetta, chissà cosa mi darà? Un wurstel, nessun wurstel, millemila wurstel? Vediamo, vediamo, sono proprio curioso di scoprirlo! Azz… stavolta non mi ha dato niente, riproviamo, magari se cammino ancora più vicino alla sua gamba mi sgancia il wurstel!”).
Ovviamente è fondamentale che la variabilità sia studiata in modo efficace e funzionale, perché per esempio, se troppi comportamenti di fila non venissero premiati, si rischierebbe di scivolare verso l’estinzione del comportamento (“mi siedo, non mi dà un tubo. Mi siedo, non mi dà un tubo. Mi siedo, non mi dà un tubo. Ma vaffanculo, eh… io non mi siedo più!”), tramutando in pratica un rinforzo positivo… in una punizione negativa.
E qui non c’è Skinner a dirci quanto, quando, come dobbiamo rinforzare: qui c’è solo la nostra sensibilità e il nostro buon senso, da applicare ad ogni singolo soggetto in modo adeguato. Perché c’è il cane che ha bisogno di una frequenza più “densa” e di una minima variabilità, mentre c’è il cane che reagisce meglio a una minor frequenza, ma accompagnata magari da jackpot più ricchi.
Insomma, la teoria è una gran bella cosa, ma se poi non usiamo il nostro cervello (e non quello di Skinner) nella pratica di tutti i giorni, non andremo da nessuna parte.

Quando il cane vi porta il suo giocattolo, voi cominciate a giocare? E’ stato lui a condizionare voi!

Un mio cliente, anni fa, venne al campo con una dobermann che lo usava come dispensatore di bocconcini.
In pratica era stata LEI a condizionare lui, perché, dopo aver capito che quando si metteva seduta o a terra a comando arrivava il wurstel… aveva cominciato a mettersi seduta o a terra da sola, guardando l’umano come per dirgli “be’? Mi premi o no?”. E lui zac, premiava.
E’ una trappola in cui, prima o poi, cadiamo tutti  (non ditemi che non vi è mai successo di obbedire agli ordini del cane, perché non ci credo): ma il caso specifico era quasi comico, tanto eclatante era l’automatismo con cui l’umano reagiva alle richieste della doby.
Spiegatogli il problema e fattogli capire l’errore, avendo capito il tipo, suggerii al cliente di utilizzare con la sua cagna un rinforzo variabile, in modo che la cagna fosse maggiormente stimolata ad obbedire a lui e (soprattutto!) che lui fosse meno condizionato ad obbedire a lei.
Tutto bene, problema risolto… e al termine del corso, non lo vidi più per due anni. Al terzo anno, rieccolo: ma con un altro cane, un cucciolone di quattro mesi, sempre doby, ma stavolta maschio.
Mi raccontò che era successa una tragedia, la sua cagna si era ammalata ed era morta, lui aveva sofferto tanto da pensare di “non volere mai più un cane”, ma alla fine non aveva resistito e aveva preso un altro cucciolo. Insomma, la classica trafila.
Stavolta, però, aveva deciso di portarlo subito al campo, prima di cominciare a pasticciare da solo come aveva fatto l’altra volta. Ma bravo, sono proprio contenta.
Iniziamo quindi la prima lezione con il cucciolo assolutamente “vergine”, che non sa fare nulla di nulla e non ha mai ricevuto un solo ordine in vita sua. Cominciamo quindi dalla base, il richiamo.
Lui chiama il cane, il cucciolo arriva tutto allegro a grandi zompi…e lui non fa assolutamente nulla.
Io, con la delicata vocina che utilizzavo da fuori campo, sbraito: “Ma che fa? PREMIIII!!!” e lui mi guarda stranito: “Ma…ma… ma mi aveva spiegato che non bisogna premiare ogni volta!”
Poverino, era così orgoglioso di essersi ricordato l’importanza del rinforzo variabile…peccato che volesse applicarlo ad un cane che ancora non aveva ricevuto neppure i primissimi rinforzi, quelli tesi  a fissare il comportamento corretto!
Insomma, come sempre ripeto: sì alle teorie e alla loro comprensione… ma NO alla meccanizzazione che non tenga conto dei diversi momenti e dei diversi soggetti: anche perché Skinner lavorava con dei topi in gabbia, ma noi – grazie al cielo – lavoriamo con individui che hanno molti stimoli in più, un’apertura mentale e una libertà assai maggiore.
Per concludere il discorso sul rinforzo variabile, comunque, ricordiamo che:

a) la variabilità vale SOLO per il rinforzo e assolutamente NON per la punizione. Se variassimo le punizioni, il cane avrebbe (in soldoni) la sensazione che “può farla franca” almeno qualche volta, e questa consapevolezza diventerebbe rinforzante anziché punitiva.
b) al mondo non ci siamo solo noi! C’è anche l’ambiente, che a differenza di quanto accade per un animale da esperimento è un ambiente variabile e ricchissimo di stimoli… ma anche di risposte!

Prendiamo, per esempio, il cane che sale sul letto. Gli è stato proibito, cosa che lui sa benissimo, e i suoi umani sono coerenti: ogni volta che lo beccano sul letto, lo sgridano severamente. Gli hanno dato pure qualche sberla (cioé? … bravi: punizione positiva).
Nonostante questo, gli umani sono disperati perché, ogni santa volta che rientrano a casa, trovano il cane svaccato sul letto. E mi chiedono: “Ma cos’è, stupido? Non capisce proprio niente?”
Neanche per idea.
Esaminiamo la situazione dal punto di vista “skinneriano”: il cane sale sul letto in presenza degli umani, e viene punito (il che dovrebbe estinguere  gradualmente il comportamento). Solo che, ogni volta che gli umani escono, il cane ci riprova…e viene rinforzato! Non dagli umani, che non ci sono, ma dall’ambiente: dal calore, dalla morbidezza, dagli odori gradevoli che emanano dal letto dei proprietari.
A questo punto basta raffrontare le volte in cui gli umani sono in grado di punire il comportamento (ovvero, quando sono a casa…e teniamo presente che il cane, ben sapendo che gli arriverà la punizione, “cederà alla tentazione” solo di tanto in tanto) e le volte in cui gli umani NON sono in grado di punire il comportamento (ovvero, ogni volta che sono fuori casa: e se lavorano otto ore al giorno, è evidente che il piatto della bilancia penderà clamorosamente da quella parte. Il cane salterà sul letto come e quando gli aggrada, e ogni volta riceverà il rinforzo positivo ambientale).
E’ abbastanza evidente che le risposte umane sono perdenti rispetto a quelle ambientali: quindi, se vogliono ottenere un risultato, questi umani dovranno continuare a punire il comportamento quando sono presenti, ed evitare meccanicamente che il cane si auto-gratifichi quando sono assenti (per esempio, chiudendo la dannata porta della dannatissima camera!).
In questo modo il cane non si troverà di fronte due diverse situazioni (tecnicamente: “setting”), ma UN solo setting in cui all’azione di salire sul letto corrisponde sempre e solo una punizione. In questo modo il comportamento finirà davvero per estinguersi.
Una volta raggiunto il risultato sarà possibile, probabilmente,  anche lasciare la porta aperta, perché il cane ormai ha “fissato” il condizionamento a non salire sul letto. Però questo è tutto da verificare, perché la fissazione del condizionamento varia moltissimo  da soggetto a soggetto.
Un altro metodo per risolvere questo stesso problema potrebbe essere quello della cosiddetta “punizione remota”, che rientra nei canoni del condizionamento classico.
Esempio umano, drammaticamente vero (si tratta di un esperimento effettuato nel 1920 da Watson e Paynor e regolarmente trascritto sui libri di testo (il che dimostra come tra scienza e bastardaggine nazista, a volte, il confine sia sottilissimo) utilizzando come  soggetto un bambino di 11 mesi di nome Albert.
Albert giocava allegramente e senza alcun timore con un topolino bianco, ma gli sperimentatori sapevano che il bimbo aveva un forte timore dei rumori forti. Esattamente come Pavlov, dunque, condizionarono il bambino ad avere una vera e propria fobia del topolino bianco, provocando un rumore fortissimo ogni volta che lui gli si avvicinava. Dopo una settimana al bambino venne presentato il topolino, senza alcun rumore, e il piccolo si mise a piangere disperato: non solo, ma manifestò la stessa reazione davanti a conigli, cani, lana bianca e perfino alla barba di Babbo Natale.
Una fobia bella e buona,  indotta in una sola settimana attraverso il condizionamento classico (e chi pensa che si sarebbero dovuti chiudere gli sperimentatori in una stanza facendogli scoppiare petardi nelle orecchie, ha tutto il mio appoggio. Ma la scienza, ahimè, all’epoca funzionava così. Oggi credo – spero -  che non sarebbe più consentita una simile tortura  psicologica su un bambino di neppure un anno).
Tornando al nostro cane che sale sul letto, comunque, sarebbe possibile dissuaderlo, per esempio, sorvegliando la camera con una telecamera a circuito chiuso, a distanza, cosicché il cane non possa vedere gli umani, mentre gli umani vedono lui.
Appena la telecamera mostra il cane che sale sul letto, si potrebbe -  per esempio con un telecomando – far partire uno sparo, o una secchiata d’acqua che centri in pieno il cane  (un po’ complicato da realizzare, eh… ma siamo nel campo delle ipotesi).
In questo modo il cane penserebbe che anche in assenza degli umani, quando lui mette in atto un comportamento sgradito, gli arriva una sorta di “punizione divina”: il che, purtroppo, funziona (e dico “purtroppo” perché questo concetto sta alla base di tutti gli strumenti coercitivi utilizzabili a distanza, primo fra tutti il collare elettrico).

Bisogna però ricordare SEMPRE che Skinner, al termine di tutti i suoi studi, stabilì anche che il rinforzo positivo è lo strumento più adeguato a modellare il comportamento. Tanto che scrisse addirittura un romanzo (Walden Two) in cui immaginava il sorgere di una nuova società dalla quale  erano bandite tutte le punizioni e ogni tipo di apprendimento (e quindi il controllo del comportamento umano) avveniva sulla base di rinforzi adeguatamente somministrati.
Esempio umano: se invece di  fare multe (punizioni), la polizia urbana usasse macchinette per il pagamento dei parcheggi che, in modo casuale (rinforzo positivo variabile) erogassero premi a coloro che le utilizzano, probabilmente tutti pagheremmo il parcheggio.
Lo stesso criterio si può applicare ai limiti di velocità e ad altre infrazioni del traffico (e in parte VIENE applicato, con la patente a punti, dal fatto che ti regalano due punti per ogni anno in cui non compi infrazioni: manca solo il jackpot – per esempio, venti punti offerti, a sorteggio, tra tutti gli automobilisti che non hanno commesso scorrettezze – e poi ci siamo!).
Lo stesso identico principio sta alla base delle lotterie, del lotto, dei gratta e vinci o del superenalotto… insomma, di tutti i giochi in cui la vincita è poco probabile, in alcuni casi veramente infinitesimale. Eppure giochiamo lo stesso, perché questi sistemi erogano rinforzi (molto appetibili) a tasso ed intervallo variabile: quindi offrono un’altissima resistenza all’estinzione!

Per concludere questa prima parte, ecco una tabella riassuntiva sul condizionamento operante (dove si parla anche di “primo tipo e secondo tipo”, per i motivi spiegati sopra):

Shaping: modellare il comportamento

Seconda e ultima parte: finora abbiamo parlato di risposte semplici ad uno stimolo (sedersi, aprire la bocca, salire o scendere dal letto): ma se volessimo “costruire” un comportamento complesso, come per esempio un salto con riporto, che oltretutto non è spontaneo nè “naturale” nel cane?
In questo caso, per rinforzare positivamente nei modi che abbiamo visto finora, dovremmo aspettare che il cane stesse seduto al nostro fianco mentre lanciamo un riportello, attendesse l’ordine “op”, saltasse un ostacolo, raccogliesse il riportello, si sedesse di fronte a noi e ce lo consegnasse…e A QUEL PUNTO, finalmente, gli daremmo il premio (rinforzo positivo).
Mi pare evidente che, scegliendo questa strada, potremmo diventare vecchi nell’attesa che il cane faccia spontaneamente tutta quella sequenza lì.

Quindi, che si fa?
Si modella il comportamento (shaping, in inglese), premiando successivamente i vari step che si avvicinano, man mano, al modello finale.
In altre parole, si dovranno rinforzare le approssimazioni successive: rinforzeremo il seduto al fianco, rinforzeremo l’attesa dell’ordine, rinforzeremo il salto, rinforzeremo il riporto e così via.
In questi casi – e SOLO in questi, per quanto mi riguarda – è perfettamente lecito (anzi, è assolutamente funzionale) ignorare le risposte scorrette. Per esempio: il cane salta l’ostacolo? Rinforzo positivo (premio). Il cane se ne va dalla parte opposta? Nessuna reazione.
In questo modo il cane abbina il premio soltanto al comportamento di salto… fermo restando che, in fase di shaping, potremo premiare anche l’approssimazione (per esempio, il cane fa un saltello impacciato, ma lateralmente all’ostacolo: cosa che succede spesso. In fase di shaping questo gesto verrà rnforzato, perché è comunque un’approssimazione: ma una volta che il cane ha capito che deve saltare l’ostacolo, e non il vuoto ai lati di esso, lo stesso gesto verrà ignorato, mentre il rinforzo arriverà quando il salto sarà eseguito in modo corretto).
Ma qui andiamo nel “molto tecnico”, quindi evito di proseguire con altri esempi perché rischierei di creare proprio quella confusione che speravo di dissipare: mi basta che sia chiaro il concetto di “shaping” come “rinforzo di approssimazioni progessive”.
E vorrei fosse chiaro anche che il “non premiare”, quando il cane se lo aspetterebbe (perché in uno step precedente è stato premiato), ovvero l’ignorare, qui diventa una punizione negativa: ti nego (sottraggo, segno – ) il premio perché non voglio “più” che tu faccia così (saltare il nulla), ma voglio spingerti a fare cosà  (saltare l’ostacolo).
Ovviamente questo tipo di punizione non è assolutamente coercitiva, perché non si obbliga il cane a fare assolutamente nulla: semplicemente gli si nega il premio, che lui dovrà riconquistare ragionandoci sopra e cercando di capire qual è il passo successivo da compiere per venire premiato.
Quindi non si deve MAI confondere “punizione” con “coercizione”, così come non si deve confondere “rinforzo” con “bocconcino”: è invece abbastanza corretto, tutto sommato, identificare il rinforzo con il concetto di “premio”… purché si abbia chiaro che non sempre quello che per noi è un “premio” lo è anche per il cane.

Esempio molto esplicativo: il cane abbaia in giardino, noi usciamo di casa incazzatissimi e lo corchiamo di botte.
Siamo convinti, ovviamente, di avergli somministrato una severa punizione positiva. Ovvero: abbiamo aggiunto qualcosa  (le botte) sperando che in questo modo si estingua (punizione) il comportamento (abbaio).
Tutto skinnerianamente correttissimo… se non fosse che il cane, povero, abbaiava perché si sentiva solo. Perché si annoiava. Perché voleva la nostra attenzione.
Quindi, in realtà, cos’abbiamo fatto noi uscendo di casa e andandolo a picchiare?
Abbiamo “aggiunto”, sì , qualcosa (quindi, segno positivo)…ma gli abbiamo dato esattamente quello che lui voleva, e cioè la nostra attenzione! Quindi il nostro è stato un RINFORZO positivo, che come tale aumenterà la frequenza del comportamento (abbaio).
Putroppo,  per il cane,  i rapporti sociali così così importanti da accettare con gioia anche quelli sgradevoli o addirittura dolorosi (come in questo caso, visto che portano botte): noi quindi ricordiamoci sempre di pensare da cani prima di decidere cos’è un rinforzo e cos’è una punizione… perché se pensiamo soltanto in modo umano potremmo, come in questo caso, trasformare in rinforzo quella che credevamo una punizione.
Il caso diametralmente opposto è quello della carezza sulla testa, gesto che per noi significa “affetto, compiacimento”e per il cane, invece, significa “gesto di dominanza”.
Il cane si siede al nostro ordine, e noi, tutti infoiati, PAT PAT PAT sulla capoccia! Convinti di avergli dato un rinforzo positivo, gratificandolo con la nostra approvazione.
Il cane, invece, pensa: “Mi sono seduto, e questo mi comunica che il capo è lui, che comanda lui, che non devo permettermi di fare il furbo con lui”.
Se non è proprio una punizione positiva, ci picchia vicino: di sicuro, per lui, questo NON può essere visto come un rinforzo!
La stessa carezza fatta sul collo o sulla gola, che in canese significa davvero “affetto e coccole”, sarebbe invece un eccellente rinforzo basato sul rapporto sociale, che in molti casi funziona ancora meglio del cibo o del gioco.
Concludendo: capire i termini tecnici è importante, ma ancor più lo è capire i cani in generale (conoscendone meglio possibile l’etologia) e il nostro cane in particolare, cercando di capire cosa gli piace di più e cosa meno, cosa lo infastidisce e cosa lo rende felice come una Pasqua.
Senza questa comprensione (che si traduce poi in un vero e proprio “rapporto”), non ci sarà mai Skinner né Pavlov nè chiunque altro che tenga… e noi non otterremo mai la fiducia, la complicità e la collaborazione che stanno alla base di un binomio cane-padrone ricco di soddisfazione per entrambi.

 

Questo articolo si è avvalso della “inconsapevole” collaborazione di Cristina Bonini, nel senso che l’educatrice in questione (con la quale ho perso nel frattempo ogni contatto) è stata autrice di due pezzi molto tecnici sul condizionamento, pubblicati su “Ti presento il cane” cartaceo qualche anno fa.
Non li ho ripresentati così com’erano perché il mio intento era quello di dare spiegazioni molto semplici, mentre i suoi pezzi erano rivolti ad un target di “addetti ai lavori” già di livello avanzato: però in alcune parti ho preso spunti e copiato immagini, tabelle eccetera, quindi un ringraziamento all’autrice è assolutamente dovuto.


About Valeria Rossi

Savonese, annata ‘53, cinofila da sempre e innamorata di tutta la natura, ha allevato per 25 anni (prima pastori tedeschi e poi siberian husky, con l'affisso "di Ferranietta") e addestrato cani da utilità per 16. Si è occupata a lungo di cani con problemi comportamentali (in particolare aggressività). E' autrice di 85 libri cinofili e della serie televisiva "I fedeli amici dell'uomo" , nonché conduttrice del programma TV "Ti presento il cane", che ha preso il nome proprio da quella che era la sua rivista cartacea e che oggi è diventata una rivista online. Per diversi anni non ha più lavorato con i cani, mettendo a disposizione la propria esperienza solo attraverso questo sito e, occasionalmente, nel corso di stage e seminari. Ha tenuto e tiene diverse docenze in corsi ENCI ed ha collaborato alla stesura del corso per educatori cinofili del Centro Europeo di Formazione (riconosciuto ENCI-FCI). Da settembre 2013, non resistendo al "richiamo della foresta" (e soprattutto avendo trovato un campo in cui si lavorava in perfetta armonia con i suoi principi e metodi) è tornata ad occuparsi di addestramento presso il gruppo cinofilo Debù (www.gruppodebu.it) di Carignano (TO).

18 commenti

Se hai difficoltà nel leggere i commenti, puoi variare la dimensione del testo:


  1. … questo articolo lo inseriamo OBBLIGATORIAMENTE tra le materie d’esame da studiare…


    Vota il commento: Thumb up 2

  2. valeria ti ringrazio per tutti i tuoi articoli tutti molto belli utili ed interessanti……


    Vota il commento: Thumb up 1

  3. Bello Valeria
    considerazione a latere: IMHO, se ncandidato ad un esame di abilitazione per educatore cinofilo, non ha chiaro il concetto di positivo/negativo e’ meglio che si presenti alla sessione seguente


    Vota il commento: Thumb up 0

    • Mczoo’, anche per me, se non l’avesse chiaro nella pratica. In realtà mi sono resa conto che moltissimi educatori (e non solo “aspiranti”: anche gente che lo fa da anni!) sanno perfettamente quello che fanno e anche perché lo fanno, ma ancora faticano a inquadrare (e a spiegare agli altri) la parte teorica, che è oggettivamente incasinata.
      Per questo ho provato a spiegarla un po’ stile “sciumaria” :-) : perché continuo a ritenere che sia meglio essere un po’ meno raffinati nei termini, ma far arrivare i concetti, piuttosto che essere impeccabilmente tecnici e non venire capiti.

      Commento con voti alti. Tu cosa ne pensi ? Thumb up 8

  4. Il lavoro di skinnersi adatta molto bene alle reti neurali artificiali che, nelle versioni che conosco, si basano sul trial&error, visto cone una minimizzazione di una funzione costo

    Queste sono soggette ad un “fenomeno” chiamato overfitting per cui riescono a riconoscere perfettamente un pattern, ma non sono piu’ in grado di uscire da questo minimo locale profondo, per cui non riescono a “generalizzare”.

    E’ analogo al cane cui viene chiesto sempre di manifestare un comportamento (esempio classico, il sedersi) e provando a chiederli altro lui provera’ sempre una serie piu’ o meno lunga di seduti e quindi andare in stress …


    Vota il commento: Thumb up 1

    • Ecco: tipico esempio di discorso che, se lo fai alla Sciuramaria, quella pensa: “Minchia com’è istruito questo”. Però non ha capito una mazza! :-D
      P.S. : anche il Mangini c’ha la fissa di abbinare gli studi cinofili a quelli sull’intelligenza artificiale, le nanotecnologie e non so che altro. Per me siete troppo avanti.. io mi fermo ai canI!

      Commento con voti alti. Tu cosa ne pensi ? Thumb up 5

    • il commento era per lui :-)
      Alla sciuramaria, come dice una carissima amica che tanto mi ha insegnato e mi insegna, direi “e dagli sti cazzo di bocconcini” o “tirale sta minchia di pallina”


      Vota il commento: Thumb up 0

  5. Articolo bellissimo e… finalmente chiaro. Lo capisce chiunque, cosa che capita raramente con i testi che parlano di queste cose.
    … però i miei cani però adorano le carezze sulla testa. Tant’è che se smetto le sollecitano… è tra i premi piu’ ambiti. Potrei usarle come massimo rinforzo, perché farebbero qualsiasi cosa pur di riceverle. Altro che gesto di dominanza.


    Vota il commento: Thumb up 0

  6. approvo ciò che dici Valeria, sei grande, mi piaci !!!


    Vota il commento: Thumb up 0

  7. lo sto leggendo un po alla volta per capirci qualcosa e mi sono fermato agli esempi, quindi ho da chiedere:
    la “punizione positiva” è sempre intesa quindi come coercitiva?
    L’esempio più semplice di punizione positiva e quando diciamo “NO” al nostro cane.Come nell’esempio della pacca data al cane e intesa come buona ,anche un NO può in alcuni cani essere inteso come una lode,un “bravo” e quindi fa si che si trasformi in “rinforzo positivo” .Ecco come può un cane interpretare male un rinforzo positivo come il classico “NO”?
    Per un buon rapporto con il nostre cane è meglio non utilizzare le punizioni positive come il “NO”?
    Quindi davanti a qualcosa che a noi non piace che faccia il nostro cane è meglio utilizzare nella maggior parte una “punizione negativa” come il classico ignorare?
    Ora faccio degli esempio pratici per vedere quando è il caso che bisogna utilizzare i rinforzi o le punizioni:
    il cane salta addosso ad un estraneo
    il cane rovista nel bidone della spazzatura
    il cane abbia in continuazione quando suona il campanello
    il cane tira al guinzaglio


    Vota il commento: Thumb up 0

    • Axy, cominciamo col dire che una parola o un comando non si possono intendere veramente come rinforzi o punizioni: o meglio, concettualmente lo sono, ma in pratica no.
      Detto questo, il NO non può essere una punizione in nessun caso, perché se lo insegnamo nel modo corretto è un ordine che significa “smetti di fare quello che stai facendo e corri qui da me a fare qualcosa di più bello ancora”. Ma non è neppure un rinforzo, perché il rinforzo consisterà appunto nella “cosa ancora più bella” che gli faremo fare.
      La punizione negativa io la ritengo assolutamente inutile in tutti i casi che hai descritto, escluso il primo: perché sono casi nei quali il cane si sta autorinforzando (autograficando) con quello che fa: prova soddisfazione nell’abbaiare o nel rovistare nel bidone, quindi in quel momento la tua presenza o assenza per lui è ininfluente. Se lo ignori o te ne vai non la vive come una privazione: se ne infischia. Ha di meglio da fare.
      Nel caso del cane che salta addosso, ignorare significa sottrargli proprio ciò di cui lui sta andando in cerca: l’attenzione e il contatto. In questo caso vive veramente come “sottrazione” il fatto di non venire considerato e quindi è molto probabile che cerchi strade alternative al saltare addosso per ottenere attenzione.


      Vota il commento: Thumb up 0

  8. quindi il “no” non può neanche essere inteso come l’esempio di un come il “clic” del clicker o della lode del “bravo”?
    Comunque pensavo che il “NO!!!” era una punizione a tutti gli effetti per una questione di suono “brutto” che si differenzia da tutti gli altri suoni ed incute timore nei cani.
    Ad esempio io vorrei capire perché ci sono cani che hanno paura solo se il tono della voce si altera e diventa molto acuto? non è una forma di violenza ?non è come dare un ceffone ad un cane?
    Quindi se non lo si insegna nel modo corretto il no e non si propone un alternativa ,continuare a ripetersi il comportamento scorretto
    Quindi il quel caso non gli sto impartendo nessun ordine ,ma può essere paragonato ed interpretato dal mio cane come a quando era cucciolo e morsicava le sedie ed io per distoglierlo battevo i piedi a terra ?? un suono come si dice??
    In teoria :) non credo tanto in pratica il cane quando salta addosso ad un estraneo,l’estraneo dovrebbe utilizzare una punizione negativa ignorandolo,quindi non dandogli attenzione.
    E i padroni che quando salta addosso il loro cane invece di ignorarlo,non gli danno attenzione,ma utilizzano il corpo(non le mani)per allontanare il cane da se.Stanno facendo la cosa giusta o sbagliata?e in quel caso di cosa si tratta?di una punizione?
    Mentre se il mio cane rovista nella spazzatura dovrei procedere cosi: dico “NO” ,lo faccio mettere seduto gli do il premio,giusto?….in questo caso vorrei capire la successione di questa procedura


    Vota il commento: Thumb up 0

    • Il problema del rinforzo “positivo” “negativo” è il classico esempio di uso improprio della lingua italiana. Abbiamo tanti vocaboli, ma alla fine sono veramente pochi quelli usati.

      Per essere precisi e capire bene di cosa si parla si dovrebbe menzionare rinforzo “aggiuntivo” “sottrattivo”. Proprio perchè come hai spiegato sopra si parla di simboli matematici, ma gli stessi vengono usati per aggiungere o sottrarre un comportamento. In matematica il positivo e negativo si indicano per il tipo di segno usato. Io non sono un esperto, ma non ho mai sentito in matematica dire “se vuoi 2 mele in più allora devi mettere positivamente 2 mele” ;-)


      Vota il commento: Thumb up 1

  9. Brava Valeria! avevo letto tante cose sull’argomento, ma nessuna così chiara! Le altre tutte scopiazzate e senza esempi.


    Vota il commento: Thumb up 0

Inserisci un commento

Il tuo indirizzo email non sarà pubblicato. Required fields are marked *

*

È possibile utilizzare questi tag ed attributi XHTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Ricevi un avviso se ci sono nuovi commenti. Oppure iscriviti senza commentare.