Korrelasjon

Beskyttet innhold!

For å lese denne og våre øvrige sider må du tegne et årsabonnement og være logget inn.

Som abonnent/medlem får du tilgang til alt innholdet på sidene våre, og skulle sidene våre ikke leve opp til forventningene dine har vi en "Pengene tilbake garanti" du kan benytte.

Tegn abonnement!

    Denne artikkelen er del 11 av 14 artikler om Bivariat analyse

Korrelasjon er, i likhet med kovarians, et statisk styrkemål vi kan bruke for å finne ut om det er en lineær samvariasjon mellom to variabler. Er det f.eks. en sammenheng mellom folks høyde og vekt.

Korrelasjon, eller samvariasjon (skrive vanligvis som cor eller bare r), er et statistisk mål på styrken og retningen mellom to kvantitative variabler. Dvs. hvor mye to målbare størrelser henger sammen med hverandre. F.eks. betyr en positiv korrelasjon mellom inntekt og alder at folk med høy inntekt ofte er eldre enn folk med lav inntekt.

Korrelasjonen angir med andre ord hvilken sammenheng eller rettere sagt statistisk sammenheng som finnes mellom to variabler. Når dette er sagt må det samtidig legges til at korrelasjon mellom to variabler ikke trenger å bety at den ene variabelen er årsak til den andre. Korrelasjon også kan være resultat av spuriøse sammenhenger.

Korrelasjonskoeffisient

Korrelasjon bli ofte målt i en korrelasjonskoeffisient (ofte kun referert til som korrelasjonen). Et er et mål på den underliggende avhengigheten mellom to stokastiske variabler.

Pearsons produkt-moment korrelasjonskoeffisient (eller Pearsons p) er den mest kjente indikatoren på korrelasjon. Den måler samvariasjonen mellom to variabler ved å dele variablenes kovarians på produktet av variablenes respektive standardavvik:

Pearsons korrelasjonskoeffisient måler styrken av den lineære sammenhengen mellom to variabler og vil alltid ligge mellom -1 og 1. Hvis vi plotter variablenes verdier og legger inn en rett linje mellom punktene, angir korrelasjonskoeffisienten hvor nært punktene er til linjen. Hvis alle punktene ligger på en rett linje, blir korrelasjonen «perfekt» med en korrelasjonskoeffisient lik enten -1 eller +1. Hvis det ikke er en lineær sammenheng, blir korrelasjonskoeffisienten lik 0. En korrelasjonen nær null betyr at det ikke eksisterer noen lineær sammenheng mellom de to variablene. En positiv korrelasjonskoeffisient indikerer en positiv sammenheng, mens en negativ korrelasjonskoeffisient indikerer en negativ sammenheng.

En høy korrelasjonskoeffisient mellom f.eks. alder og inntekt forteller oss at det er en sterk samvariasjon mellom variablene. Jo elder man blir, jo sikrere er det at man har en høy inntekt. Vi kan imidlertid ikke si noe om størrelsen på effekten av en økning i en av variabelen ved hjelp av korrelasjonskoeffisienten.

Korrelasjonskoeffisient = +1 – Perfekt lineær samvariasjon
Korrelasjonskoeffisient = 0 – Ingen lineær sammenheng
Korrelasjonskoeffisient = – 1 – Perfekt negativ samvariasjon

Hvordan beregne korrelasjonskoeffisienten?

Korrelasjonskoeffisienten ( r ) beregnes slik:

Tegnforklaring:

 n =antall observasjoner (utvalget/stikkprøvens størrelse)

=X – variablens verdi (den observerte verdien)

= X – variablens gjennomsnittsverdi

= Y – variablens verdi (den observerte verdien)

= Y – variablens gjennomsnittsverdi

= X – variablens absolutte avvik fra gjennomsnittet

Korrelasjonskoeffisienter påvirkes ikke av måleenheten. Det betyr at du får samme tall for korrelasjonen hvis du måler høyde og vekt i meter og kilo, som du får hvis du måler det i cm og gram.

Intervall- eller forholdstall nivå

Svakheten med å bruke korrelasjon er at metoden forutsetter at variablene er på intervall- eller forholdstall nivå.

Spuriøs korrelasjon

Empirisk observert korrelasjon er ikke tilstrekkelig for å fastslå at det er kausalitet (dvs. at en variabel forårsaker en annen), da korrelasjon også kan være resultat av spuriøse sammenhenger.

En spuriøs sammenheng eller spuriøs korrelasjon er korrelasjon mellom variabler som seg i mellom ikke korrelerer, men likevel korrelerer fordi det finnes en bakenforliggende variabel som påvirker begge variablene eller selv er korrelert med en av variablene og påvirker den andre. Man kan da bli forledet til å anta at det finnes en årsakssammenheng uten at dette er tilfellet.

Anta for eksempel at man i en befolkning finner en positiv korrelasjon mellom bruk av lesebriller og det å ha hjerte- og karsykdommer. Da kan man ikke uten videre konkludere med at brillene øker sjansen for hjertesykdommer, eller at hjertesykdom fører til at folk trenger briller. En annen forklaring på den positive korrelasjonen kan være at både brillebruk og hjertesykdommer skyldes økende alder, og at brillebruk og hjertesykdommer derfor ofte forekommer sammen. I dette tilfellet skyldes altså korrelasjonen at begge egenskapene har kausal sammenheng med en tredje egenskap, nemlig høy alder (SNL).

Over ser du fire datasett som alle har korrelasjonen 0,81 (Eksempel hentet fra Francis Anscombe.), og som vi ser gir de fire svært ulike bilder av dataenes sammenheng, selv om alle målingene har samme korrelasjon. 

Uavhengige størrelser

Dersom de to målbare størrelsene er uavhengige, er korrelasjonskoeffisienten 0 eller nær 0. F.eks vil det være uavhengighet og null korrelasjon mellom høydemålinger som gjøres på en helsestasjon og temperaturen utendørs den dagen målingene blir gjort. Uavhengighet betyr i denne sammenhengen at kunnskap om den ene størrelsen ikke forteller oss noe om verdiene til den andre størrelsen: Ute-temperaturen gir oss ingen hint om hva høydemålingene vil være, og høydemålingene kan ikke brukes til å si noe om temperaturen utenfor huset (SNL).

En korrelasjonskoeffisient på 0 betyr imidlertid ikke nødvendigvis at de to størrelsene er uavhengige. Hvis det er en annen sammenheng mellom de to målbare størrelsene enn en rett linje, kan korrelasjonskoeffisienten allikevel bli 0. For å unngå å trekke feil konklusjon, må man derfor alltid tegne opp målingene i et diagram (SNL).

Spearmans (rang) korrelasjonskoeffisient

Spearman korrelasjon er en annen måte å måle korrelasjon. Denne bruker man til
korrelasjonsanalyse når det er rangordnede kategorier. Da forutsettes det at det er bivariate normalfordelte data og at det forventes en lineær sammenheng. Det kan sjekkes ved en grafisk fremstilling av data (Gjestad, 2008)

Spearman korrelasjon er en annen måte å måle korrelasjon. Spearmans korrelasjonskoeffisient, ofte forkortet til Spearmans rho, er statistisk relatert til Pearsons korrelasjonskoeffisient, men basert på verdiene til den relative rangeringen av observasjonene og ikke de observerte verdiene. Dette medfører at Spearmans korrelasjonskoeffisient er spesielt godt egnet for analyse av ordinale variabler, ikke-normalfordelte variabler og/eller variabler med en eller flere avvikende data (uteliggere). Metoden forutsettes det at det er bivariate normalfordelte data og at det forventes en lineær sammenheng. Det kan sjekkes ved en grafisk fremstilling av data.

Det er ingen krav om en lineær sammenheng mellom de faktisk observerte dataene, så lenge rangeringsverdiene gir en lineær sammenheng.

For å undersøke om Spearmans korrelasjonskoeffisient er egnet, er det enkelt å regne ut rangeringsverdiene ved hjelp av statistiske programvarer. 

Oppsummering

Korrelasjons estimatet er viktig, nyttig og mye brukt, men gir likevel begrenset statistisk informasjon. For å oppnå en valid statistisk anvendelse, tolkning og signifikanstesting bør de parvise observasjonene av to variabler være kontinuerlige, ha en lineær sammenheng, ikke ha data med betydelig avvik fra sammenhengen (såkalte uteliggere eller «outliers») og følge en bivariat normalfordeling.

Vi bør være varsom med å «screene» etter korrelasjoner. Et generelt råd er at en korrelasjonsanalyse begynner med deskriptiv statistikk og avsluttes med en regresjonsanalyse. Til slutt er det viktig kritisk å vurdere om korrelasjonen gir mening.

Kilder:

  • https://no.wikipedia.org/wiki/Korrelasjon
  • https://no.wikipedia.org/wiki/Spuriøssammenheng
  • https://tidsskriftet.no/2018/05/medisin-og-tall/pearsons-eller-spearmans-korrelasjonskoeffisienter
  • https://snl.no/korrelasjon
Du leser nå artikkelserien: Bivariat analyse

  Gå til neste / forrige artikkel i artikkelserien: << KovariansPriselastisitet >>
    Andre artikler i serien er: 
  • Bivariat analyse – analyse av to variabler
  • Krysstabulering og marginalfordeling
  • Epsilon – et mål for samvariasjonens styrke og retning
  • Parallell plott og trend
  • Trender og trendforlengelse (kurvefremskrivning)
  • Gruppegjennomsnitt og mediandifferanse
  • Mann – Whitney observator
  • Sammenligning av to medianer (Mann-Whitney-metoden)
  • Parvise sammenligninger
  • Kovarians
  • Korrelasjon
  • Priselastisitet
  • Krysspriselastisitet
  • Inntektselasitisitet
  • Kjetil Sander

    Kjetil Sander

    Kjetil Sander (f.1968) grunnlegger, redaktør, forfatter og serieentreprenør. Gunnla Kunnskapssenteret.com i 2001 (i dag eStudie.no) og har siden vært portalens redaktør. Utdannet Diplom økonom og Diplom markedsfører fra BI/NMH. Har i dag mer enn 30 års erfaring som serieentreprenør, leder og styremedlem.