Lesetid (240 ord/min): 11 minutter
Hva er instrumentell (operant) betinging?
Instrumentell betinging, også kalt operant betinging, eller “læring ved prøving og feiling” er en læringsprosess hvor atferd påvirkes av konsekvensene som følger av den.
B.F. Skinner regnes som grunnleggeren av operant betinging. Teorien som bygger på Skinner sine eksperimenter med dyr som rotter og duer for å undersøke hvordan atferd kan formes ved hjelp av forsterkning og straff.
Et klassisk eksempel på instrumentell betinget læring er følgende eksempel: Du kjøper et uke hvor på utsiden er klistret en pose som inneholder en sjampo, en såpe e.l., som du blir oppfordret til å prøve. Du kommer hjem og prøver denne sjampoen fordi du akkurat hadde gått tom for din vanlige sjampo. Du synes effekten var god, den luktet god og prisen var akseptabel. Du tenker ikke noe mer på denne sjampoen før du en stund senere får se den i butikkhyllen. Tilfeldigvis var kjøpemannen utsolgt på den vanlige sjampoen du bruker, du velger derfor den andre sjampoen. Den som du hadde fått en prøve på. For sikkerhetsskyld kjøper du to flasker. Fenomenet kalles instrumentell betinging.
Aktiv læringsform som endrer atferd
Instrumentell (operant) betinging går ut på at vi:
lærer ved å se på konsekvensene av våre handlinger.
Mens det er umulig å lære mennesker og dyr til å endre sin atferd gjennom å bruke læringsprinsippet fra klassisk betinging, kan vi enkelt endre, forme og skape ønsket atferd gjennom instrumentell (operant) læring. Instrumentell betinging kan brukes til å lokke frem og stabilisere alle slags responser, og i motsetning til klassisk betinging hvor folk forholder seg passiv, forutsetter instrumentell læring at folk tar aktiv del i læringsprosessen (river sjampo av ukebladet, tar flasken ut av posen, heller sjampo i vått hør, masserer den inn og skyller ut m.m.).
Klassisk betinging = passiv læringsform
Instrumentell (operant) betinging = aktiv læringsform
Law of effect (Thorndike effektlov)
Prinsippet om instrumentell betinging ble utviklet av Thorndike, mens B.F. Skinner står bak prinsippet om operant betinging. Forskjellene mellom deres to prinsipper for læring er minimal. og de benyttes derfor side om side for å forklare hvordan vi lærer av å vurdere konsekvensene av våre handlinger.
Thorndike sin effektlov (“Lav of effect“) forklarer hvordan vi vil vurdere konsekvensene av våre handlinger, og hvordan vi vil endre den som en følge av denne subjektive vurderingen. Et prinsipp som kan illustreres gjennom følgende enkle modell:
Instrumentell betinging tar utgangspunkt i at menneskets atferd i stor grad blir formet og styrt gjennom konsekvensene handlingene medfører – ulitariskisk hedonisme. Ved å legge til grunn prinsippet om ulitaristisk-hedonisme kan vi sette opp følgende regel for hvordan vi vil endre vår atferd etter ha vurdert konsekvensene av handlingen:
Vi unngår det som medfører smerte og som ikke fremmer lyst og lykke. Når vi gjør noe, er det primært for å utløse flest mulig lystbetonte opplevelser. I informasjonssøkingen er vi mottakelige i det som støtter våre eksisterende verdier og preferanser, og unngår det som truer disse verdiene.
Atferdsendringen er avhengig av konsekvensene
Det finnes to typer konsekvenser:
- Belønning (forsterkning) => Øker sannsynligheten for en handling, men:
- Straff => Svekker sannsynligheten for en handling.
Belønning kalles innenfor instrumentell (operant) betinging som forsterkning. Det finnes to typer belønninger og straff:
- Positiv forsterkning. Eksempel: Å gi en matbit til en hund når den sitter forsterker sitting.
- Negativ forsterkning. Har du hodepine og tar noe smertestillende, vil denne responsen øke i sannsynlighet hvis hodepinen forsvinner.
- Positiv straff. Får du en parkeringsbot fordi du har feilparkert et sted, vil du lære av denne feilen og ikke parkere her igjen.
- Negativ straff. Har du fått et budsjett å rutte med i et spill, og mister penger for hver feil du gjør, vil du sannsynligvis passe deg for ikke å gjøre feil.
I markedsføring sammenheng er vi opptatt at kjøpet skal forsterke kundens opplevelse av kjøpet, og unngå at de får noen negative opplevelser som et resultat av kjøpet.
- Positiv forsterkning: når produktet tilfører noe – øker sannsynlighet for at responsen gjentas. Kjøper f.eks. en forbruker en ny type sjokolade som han synes smaker utrolig godt, vil han bli fornøyd og sannsynligheten for at han kjøper den igjen senere øker.
- Negativ forsterkning: når produktet fjerner eller unngår noe – sannsynlighet for handling øker. For eksempel lavere billettpris på fly, dersom du bestiller over internett – oppmuntrer til å ikke bestille via telefon. (Markedsføreren benytter ofte fryktappeller i sin kommunikasjon).
Forsterkning
Forsterkning har vist seg som et kraftig prinsipp for å forstå endringer i atferd, både dyrs og menneskers. Sentralt i forsterknings prinsippet er at det beskriver funksjonelle relasjoner mellom atferd og typiske konsekvenser. Dette betyr at forståelse av en handling kan baseres på en analyse av faktiske kontrollforhold for atferden. Forsterkning innebærer per definisjon at en respons øker i sannsynlighet (frekvens) som følge av de konsekvensene den har. Dette kan skje på to måter:
- vi kan tilføre noe i situasjonen når responsen inntreffer, positiv forsterkning (gi en godbit)
- vi kan fjerne noe fra situasjonen når responsen inntreffer, negativ forsterkning(strupehalsbånd, ubehaget fjernes når den ikke trekker)
Hvis en hund kommer på innkalling, og får en pølse (positiv forsterkning, du legger til noe) , lærer den at konsekvensen av å komme på kommando var god, derfor vil det bli høyere sannsynlighet at denne handlingen vil skje igjen i framtiden. Et annet eksempel er fireåringen som maser på far i lekebutikken og får det han maser om; masing tiltar ved neste butikkbesøk. Slike konsekvenser kalles forsterkende stimuli, og prosessen kalles forsterkning. At positiv forsterkning øker sannsynligheten for at handlingen gjentas er innlysende, men hva med negativ forsterkning. Svaret er at også negativ forsterkning øker sjangsene for at handlingen blir gjentatt. Negativ forsterkning vil si at konsekvensene av handlingen blir en opplevelse av opphør av smerte, ubehag eller andre negative faktorer. La meg ta et eksempel. Et barn som brenner seg når de skruer på varmt vannet, lærer fort at denne smerten forsvinner hvis de skrur av vannet (escape learning). ”Brent barn skyr ilden”; neste gang skrur barnet kun på det kalde vannet (avoidance learning).
Vi skiller mellom to typer forsterkninger:
- Primær forsterkere – biologisk viktige stimuli som fungerer som forsterkere i seg selv. F.eks. mat.
- Sekundær forsterkere – stimuli som fungerer som forsterkere fordi de er blitt assosiert med primærforsterkeren. (feks. Klikkeren i hundeoppdragelse).
Hvis hundeiere har problemer med masete/pipete hunder, tilsier læringsprinsippet at man må undersøke hvilke konsekvenser masingen hos hunden typisk har. Hvis hunden systematisk (eller sporadisk) får oppmerksomhet når det opptrer masete, men kanskje i mindre grad når det ikke opptrer masete, kan dette uheldige interaksjonsmønsteret forklare hvorfor masingen blir utviklet og opprettholdt. Prinsippet om forsterkning kan i slike tilfeller også anvise hvordan man går fram for å endre et slikt uheldig interaksjonsmønster, feks ved at eierne i større grad viser hunden oppmerksomhet når masingen ikke vises, og mindre oppmerksomhet når hunden maser.
Et av de viktigste funnene innenfor operant betinging er at ekstinksjon (utslokning av en betinget respons) foregår langsommere etter innlæring med sporadisk/intermitterende forsterkning (av og til) enn når innlæringen har foregått med kontinuerlig forsterkning (hver gang). Dette prinsippet har stor betydning både teoretisk og praktisk. Sporadisk belønning av en respons fører til bedre (ikke raskere, men sterkere) læring; konsekvent belønning av en respons fører til raskere læring, men den er også svakere.
Forsterkningens kunst
Vil du endre en persons atferd gjennom instrumentell betinging kan du gjøre følgende (Blindheim og Sætrang -91):
- Bestem deg for hvordan vedkommende skal oppføre seg ved bestemte anledninger.
- Velg en forsterkende stimulus som a) er mest mulig lystbetont for ham, b) er enkel å gi ham hver gang han utfører ønsket atferd
- Gi forsterkende stimulus umiddelbart etter ønsket atferd
- I begynnelsen: Gi forsterkende stimulus hver gang ønsket atferd kommer. Etterhvert: Gi forsterkende stimulus slik at vedkommende ikke kan forutse når forsterkningen kommer.
- Snakk aldri med ham om det du gjør med ham. Prosedyren har størst effekt når vedkommende ikke er helt klar over hva som skjer.
Blindheim og Sætrang gir følgende eksempel i sin bok på talefot med forbrukeren: “Din mann skur aldri korken på tannkremtuben. Tannkremrester ligger utover kanten av vasken. Noe svineri. Du er mektig irritert og vil gjerne gjøre noe med det. Men det hjelper ikke å snakke med ham om det. “jada”, sier han, og fortsetter som før. Ditt nye våpen: instrumentell betinging. Hva er det som er svært lystbetont for din mann og som du kan utsette ham for på badet? La oss si at han elsker å bli kysset i nakken. Sørg for å svinse innom badet idet han er i ferd med å avslutte tannpussen. Når han er i ferd med å legge tuben fra seg uten lokk på, sier du: “Å, å!” “Hva er det?”, spør han. “Korken”, sier du. Han skrur på korken. Umiddelbart gir du ham et kyss i nakkegropen. Gjenta prosedyren noen ganger – kanskje hver kveld en ukes tid. Deretter holder du atferden ved like ved å droppe innom under en og annen tannpuss. Etter hvert sitter den nye atferden som støpt hos din mann. Med lignende prosedyrer kan du også få din mann til å gjøre mye annet”.
Straff
Det motsatte av forsterkning er straff. Straff innebærer at noe som inntreffer som konsekvens av en respons, reduserer sannsynligheten for eller frekvensen av denne responsen. Straff kan være aversive (smertefulle) stimuli, men dette er ikke alltid tilfellet. Enhver stimuli som inntreffer etter at en respons har inntruffet og som reduserer sannsynligheten for denne responsen, vil kalles for en straffer i denne situasjonen. Straff kan være positiv og negativ. Positiv straff er når man tillegger noe for å minke atferden. For eksempel:
- Jeg spiser mat med en bestemt smak og blir syk; senere avskyr jeg mat med denne smaken (smaksaversjon)
- Jeg opplever en ubehagelig flytur; senere synes jeg det er ubehagelig å fly (flyskrekk)
Negativ straff er når man fjerner noe for å få bort atferden. For eksempel hvis hunden er opphisset og hyler når du kommer hjem, fjerner du muligheten for å hilse, du snur ryggen til, men når hunden da gjør ønsket atferd hilser du på hunden. Dette fører til at sannsynligheten for atferden (opphisselse) minker. Det er viktig å tenke på at ordet positiv betyr ikke det samme innenfor læringspsykologien som det gjør i det daglige. Positiv betyr kun det at du tilfører noe, ikke at det er noe positivt som du blir glad for.
Shaping/forming
Shaping/forming er en annen operant fungerende metode, og kan beskrives som læring gjennom å forme (styre) atferden gjennom forsterkning av “små skritt i riktig retning“. Læringsprinsippet går ut på at individet belønnes hver gang den gjør noe “nesten riktig“, slik at vi gradvis nærmere oss målet gjennom målrettet belønning (forsterkning) hver gang vi gjør noe “nesten riktig”. Vi krever altså mer og mer før vi belønner. Det er dette prinsippet barneoppdragelse går ut på. Prinsippet brukes også i barneskolen, hvor et barn lærer å skrive gradvis. Først får de ros når de klarer å skrive en bokstav. Deretter må de klare å sette sammen to og flere bokstaver til ord, før de får ros. Når de klarer det er målet å klare å bygge opp en setning. Slik fortsetter det til de har lært og skrive i henhold til pensumplanen.
Tidsdimensjonen er viktig for læringen
Tiden det tar fra en handling foretas til vedkommende kan se konsekvensene av handlingen er avgjørende for læringen. Her gjelder følgende regel:
Jo raskere et menneske kan se konsekvensene av sine handlinger, jo større er også sjansene til at de skal lære av sammenhengen mellom handlingen og konsekvensen
Alle som har hatt en hund vet at det ikke hjelper å straffe hunden 1 time etter at hunden tisset inne, da de ikke skjønner hvorfor de blir straffet på grunn av deres manglende korttidshukommelse. De ser med andre ord ikke sammenhengen mellom handlingen de har utført og konsekvensene av den. Slik er det også med mennesker. Om et barn får konsekvensen umiddelbart etter en respons, vil barnet lære fortere enn om konsekvensen kommer forsinket. Ønsker du å oppnå en atferdsendring gjennom at vedkommende ser sammenhengen mellom belønningen eller straffen de får når de fortar en handling, må forsterkningen eller straffen komme så raskt som mulig etter at handlingen er utført. Jo lengre du venter før du gir en forsterkning eller straff, jo mindre er også sjansene for at atferdsendring skjer.
Ekstinksjon (nødvendigheten av repitisjon)
Når en lært respons (konsekvens) ikke lenger forsterkes, vil den innlærte linken mellom stimulus (handling) og respons (konsekvens) etter hvert avlæres. Dette kalles ekstinksjon eller utslokning. På samme måte kan lært atferd som ikke utføres over en lengre periode også avlæres. Dette skyldes da at vi glemmer. Det er altså forskjell på avlæring som skyldes glemsel og mangel på forsterkning. For en markedsfører betyr dette at kundene må oppleve å få de samme positive konsekvensene hver gang de utfører handlingen (f.eks. kjøpet) for at de skal forbli lojale kunder. Hvis ikke vil de tidligere erfaringene bli avlært over tid. Ekstinksjon er et svært mye studert tema i læringspsykologien. Spesielt mye studert er de læringsbetingelser som gjør at ekstinksjon foregår langsomt vs. raskt. Her viste Skinner tidlig (1938) at forsterkning “av og til” (intermitterende forsterkning“) ser ut til å gi en respons som er motstandsdyktig mot ekstinksjon. Dette funnet ses i en rekke sammenhenger og med ulike arter, men er likevel omdiskutert.
Kontinuerlig forsterkning vs intermitterende forsterkning
Kontinuerlig forsterkning, det vil si belønning (forsterkning) hver gang handlingen inntreffer, gir raskere læring enn om belønning inntreffer av og til (intermitterende forsterkning). Men paradoksalt nok er effekten af disse to omvendt hvis man ser på styrken av responsen etter læring (se Ekstinksjon over).
Deprivasjon
Hvis personen ikke har hatt tilgang på det som oppleves som forsterkende på en stund, vil slik tilgang virke spesielt forsterkende. For eksempel er dette tilfelle når du ikke har spist din favoritt pizza på en stund. Når du endelig kjøper den, blir du minnet på hvor fantastisk god denne pizzaen er og hvor mye du har savnet denne smaken. Dette kalles deprivasjon.
Forsterkermengde
Større forsterkermengde virker vanligvis mer effektivt enn mindre.
Du leser nå artikkelserien: Læring