Lesetid (240 ord/min): 7 minutter
Hva er reliabilitet?
Reliabilitet betyr pålitelighet, og er en angivelse av om undersøkelsen viser den virkelige situasjonen og i hvilken grad resultatene kan etterprøves.
Reliabilitet måles på en skala som går fra høy til lav reliabilitet.
Høy rentabilitet vil si at alle uavhengige målinger andre gjør av samme fenomen skal alltid resultere i at de kommer frem til et tilnærmet identiske resultat eller konklusjon. Det vil si at hvis en annen forsker gjennomfører en identisk undersøkelse, basert på de samme premissene og metodene, skal de alltid komme fram til samme resultat. Skjer ikke dette er resultatenes reliabilitet lav. Vi kan dermed si at reliabilitet er en angivelse av målingenes konsistens og stabilitet. også kalt målingstabilitet.
Reliabiliteten forteller som sagt i hvilken grad en studie kan etterprøves, I denne sammenheng skiller vi mellom indre- og ytre reliabilitet
Indre reliabilitet
Intern konsistens, også kalt indre konsistens, viser evnen til å produsere like resultater ved å benytte forskjellige utvalg til å måle et fenomen under den samme tidsperiode.
Den indre reliabilitet forteller i hvilken grad andre forskere kan bruke begrepsapparatet i et studie på samme måte i sine egne studier og analyser. Er begrepsapparatet ikke direkte overførbart oppstår reliabilitet problemer.
Indre konsistens er med andre ord et mål på samsvar mellom ulike testledd som til sammen skal gjenspeile individuell variasjon om et gitt fenomen.
Ytre reliabilitet
Den ytre reliabiliteten angir i hvilken grad ulike forskere vil oppdage samme fenomen, generere samme begreper i den aktuelle og liknende situasjoner
Reliabilitet vs validitet
For å oppnå høy reliabilitet må alle ledd i måleprosessen være fri for unøyaktigheter. Høy rentabilitet skal sikre data en pålitelighet som gjør dem egnet til å belyse en vitenskapelig problemstilling.
En tilfredsstillende reliabiliti er en forutsetning for at data skal kunne brukes til å teste en hypotese som er stilt opp.
Vi kan godt oppnå høy reliabilitet og lav validitet i en og samme undersøkelse. Hvis vi ga en IQ-test på engelsk til franske studenter, ville vi antakelig finne høy reliabilitet ved å gjenta testen. Men vi får et ugyldig mål på disse studentenes intelligens. I stede for å måle deres intelligens, måler vi de franske studentenes engelskkunnskaper (Kidder-81).
For at dataenes validitet skal være høy, må både reliabiliteten og begrepsmessige validiteten være høy. Sammenhengen mellom reliabilitet og begreps validitet kan vises gjennom en ligning, hvor vi betrakter reliabilitet som en undermengde av begreps validitet.
X0 = Xt + Xs + Xr
hvor:
X0 = Observert verdi
Xt = Sann (virkelig) verdi
Xs = Systematisk feil
Xr = Tilfeldig feil (“random error”)
Ut i fra denne ligningen kan vi slutte følgende konklusjoner:
- En målig er perfekt reliabel når Xr = 0
Dvs. at målingen er fri for tilfeldige feil.
- En måling er perfekt valid når X0 = Xt
Dvs. at den observerte verdien er lik den virkelige (sanne) verdien i populasjonen.
- Først når reliabilitet = 0 kan man oppnå validitet
En valid måling er reliabel
En reliabel måling er ikke nødvendigvis valid, da det kan forekomme systematiske målefeil.
Har man reliabilitet kan man oppnå validitet, men ikke omvendt.
Hvordan måle reliabilitet?
Når man snakker om reliabilitet er det vanlig å skille mellom tre begreper:
- Metodetriangulering
- Test – retest reliabilitet
- “Split – half” teknikken
Metodetriangulering
Metodetriangulering kan brukes til å måle studienes validitet og relibilitet ved å prøve ut den samme problemstillingen med bruk av to eller flere metoder, f.eks. en survey og observasjoner, for å kontrollere gyldigheten og påliteligheten til resultatene og konklusjonene. Kommer begge analysene frem til det samme resultatet er gyldigheten og påliteligheten til dataene høy. Viser to undersøkelse med samme problemstilling som besvart gjennom å bruke to ulike metoder ulike resultater er påliteligheten lav.
Test – retest reliabilitet
Test-retest reliabilitet angir samsvar mellom resultater av en og samme test på to forskjellige tidspunkt. Dette uttrykkes vanligvis ved korrelasjon mellom målene, og kalles stabilitetskoeffisienten. Test-retest reliabilitet angir med andre ord et måleinstruments evne til å produsere konsistente resultater når måleinstrumentet benyttes for andre gang, under samme betingelser. Angir stabilitet eller mangel på sådan.
Tidspunktet mellom målingene avhenger av hvor stabilt vi tenker at de egenskapene er som testen er ment å måle. Dersom det dreier seg om en personlighetstest, der egenskapene som måles anses å være mer stabile trekk, er det naturlig å operere med et lengre tidspunkt mellom målingene, f eks 4 uker. Dersom testen er ment å måle mer flyktige tilstander, som for eksempel stress, angst eller depresjon, er det naturlig at tidspunktet mellom målingene er kortere, f eks 4-5 dager.
Test-retest reliabilitet er ikke like relevant for diagnostiske tester. Grunnen er at resultatet etter tidspunkt 2 påvirkes stort av tidspunkt 1. Manglende samsvar mellom disse tidspunktene kan da bedre forklares ved at ny informasjon har kommet til og endret forutsetningene for kriteriene.
“Split – half” reliabilitet (interrater reliabilitet)
Split-half reliabilitet, også kalt interrater reliabilitet, er en metode å tilegne seg reliabilitet til en skala ved å dele det totale sett av måleenheter inn i to grupper, for så å korrelere resultatene.
Interrater reliabilitet er særlig relevant for tester hvor fagfolk skal gjøre vurderinger basert på observasjoner som er innhentet ved hjelp av en test. Et slikt eksempel kan være diagnostiske intervjuer, hvor man skal ta stilling til om intervjuobjektet oppfyller visse diagnosekriterier. Hvis to forskjellige fagfolk konkluderer likt om en persons diagnoser, kan diagnosene sies å ha høy interrater reliabilitet.
Ved testing av barn er det vanlig å innhente opplysninger fra voksne som kjenner barnet godt, for eksempel foreldre og lærere. I slike tilfeller er måling av interrater reliabilitet en utfordring, fordi det, for eksempel, er rimelig å forvente stor variasjon i hvordan lekfolk svarer om én og samme person. I slike tilfeller kan reliabiliteten anslås ved hjelp av såkalte ’Generalizability’ studier, der ulike feilkilder kan avdekkes.
Argumentasjonen og dokumentasjonen avgjør reliabiliteten
For at andre skal kunne avgjøre studienes og konklusjonenes reliabilitet og for at andre skal kunne bruke resultatene dine som en del av sine studier og beslutningsgrunnlag er det er forutsetning at hele forskningsprosessen er beskrevet så grundig som mulig. Dette for å kunne avgjøre om andres studier er direkte overførbare til dette studiet og vica versa.
Et minumskrav for å kunne vurdere reliabiliteten er at vi kjenner til:
Hvem er forskeren?
Det er stor forskjell på hvor pålitelig en undersøkelse som er utført av en videregående student i forbindelse med en skoleoppgave er i forhold til en undersøkelse som en professor i markedsforskning har gjort om samme emne.
For å vurdere reliabiliteten til et studie må vi derfor vite hvilken kunnskap, kompetanse og erfaringer forskeren har omkring området studiet gjelder og de metodene som er benyttet.
I tillegg trenger vi å vite hvor nøytral forskeren har vært i sine undersøkelser, da resultatene og konklusjonene forskeren kommer frem til er avhengig av hvilke “briller forskeren bruker”. F.eks. er det nærliggende å tro at en politisk analyse som Høyre har gjort om Arbeiderpartiet ikke vil gi det samme bilde som en analyse utført av en politisk nøytral forsker.
Hva var formålet?
En undersøkelse av hvilken effekt klimaforandringene har på norsk fiskerinæring kan f.eks. ikke brukes som beslutningsgrunnlag for hvilken effekt klimaforandringene generelt har på Norge. Dette fordi et studie av fiskerinæringen isolerer kun forsker på effekten for en næring og ikke hele samfunnet som du ønsker å treffe en beslutning for. F.eks. sier studiet av fiskerinæringen ingenting om hvilken effekt dette vil ha på jordbruket, skogbruket, turismen, temperaturen, sesongsvingningene og lignende fenomen.
For at en undersøkelse skal brukes som beslutningsgrunnlag for noe må vi formålet til undersøkelsen være overførbart til beslutningssituasjonen.
Hva var problemstillingen?
Foruten at formålet må være overførbart til beslutningssituasjonen må problemstillingen mellom beslutningssituasjonen og undersøkelsen være identisk. Dette fordi selve formuleringen av problemstillingen avgjør hvordan studiet blir operasjonalisert til en gjennomførbar undersøkelse.
Hvilke informanter inngår?
Påliteligheten av en survey av hvilke politiske partier som er mest populært i Norge er svært lav hvis den kun omfatter 12 respondenter i forhold til en undersøkelse som omfatter 5.000 respondenter. Det skjønner vi alle. Samtidig er det opplagt at vi ikke kan bruke en undersøkelse som arbeiderpartiet har gjennomført blant sine medlemmer for å kartlegge deres holdning til innvandrere som beslutningsgrunnlag hvilken holdning den norske befolkningen har til innvandrere.
Når vi skal vurdere reliabliliteten må vi vurdere hvordan utvalget er trukket, hvor stort det er og hvilken utvalgsmetode som er brukt.
Hvilken sosial setting som foreligger?
Den sosiale settingen må også vurderes når reliabliliteten skal vurderes, da det er åpenbart at vi ikke kan generalisere resultatene av hva ledere og investorer mener om noe som beslutningsgrunnlag for hva den vanlige arbeider mener om noe. Dette fordi har ulike sosiale roller og rolleforventningr, behov, preferanser, samtidig som de tilhører ulike sosiale klasser.
Hvilke analytiske begreper er brukt?
For at begrepene i et studie skal brukes som en del av beslutningsgrunnlaget må operasjonaliiseringen av studienes begreper være overførbare til beslutningssituasjonen.
Hvilke metoder for innsamling og analyse av data er benyttet?
Til syvende og sist er det hvordan dataene er samlet inn og analysert som avgjør hvilke resultater og konklusjoner forskeren kommer frem til. Av den grunn må vi vurdere disse to nøkkelkriteriene inngående når dataenes reliablilitet skal vurderes.
Du leser nå artikkelserien: Feilkilder