Korrelasjon og kovarians


   Domene + webhotell + epost = kr. 198/år
   Tast inn domene du ønsker å bestille webhotell til:
   http://www.


    Denne artikkelen er del 10 av 13 artikler om Bivariat analyse
     Hvordan lese artiklene og -seriene?


Korrelasjon og kovarians er to statistisk mål vi kan bruke for å finne ut om det er en lineær samvariasjon mellom to variabler.

Kovarians og korrelasjon er styrkemål som indikerer hvordan to variabler henger sammen. Er det f.eks. en sammenheng mellom reklameinnsatsen og fortjenesten eller omsetningen ?

Kovarians

Kovarians er et mål for avhengigheten mellom to variabler. Vi skiller mellom to typer kovarians: Teoretisk- og empirisk kovarians.

Teoretisk kovarians

Teoretisk kovarians er et mål på den underliggende lineære avhengigheten mellom to stokastiske variabler. Kovariansen mellom X og Y noteres ofte som{\displaystyle \sigma _{XY}}. For to stokastiske variabler X og Y er kovariansen definert som:

{\displaystyle \operatorname {Cov} [X,Y]=E[(X-E[X])(Y-E[Y])]}

der E[\cdot ] er forventning.

Empirisk kovarians

Empirisk kovarians er et estimat av teoretisk kovarians. En estimator for den empiriske kovariansen er:

{\displaystyle {\widehat {\operatorname {Cov} }}[X,Y]={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}}_{n})(y_{i}-{\bar {y}}_{n})}

der {\displaystyle {\bar {x}}_{n}} er gjennomsnittet av,{\displaystyle x_{1},x_{2},\dots ,x_{n}} og {\displaystyle {\displaystyle {\bar {y}}_{n}} er gjennomsnittet av {\displaystyle y_{1},y_{2},\dots ,y_{n}}.

Kovariansen er avhengig av måleskalaen, slik at om skalaen endres vil kovariansen endres. Derfor er korrelasjon, som ikke er avhengig av skala, et godt alternativ til å måle lineær avhengighet.

For vilkårlige konstanter a og b og stokastiske variabler X og Y gjelder


  1. {\displaystyle \operatorname {Cov} [X,Y]=E[XY]-E[X]E[Y]}
  2. {\displaystyle \operatorname {Cov} [aX+b,cY+d]=ac\,\operatorname {Cov} [X,Y]}

La oss si at vi har benyttet et statistikkprogram og kommet frem til at kovariansen mellom X – og Y – variabelen er 453. Hva sier denne verdien (kovariansen) oss?

Ved fullstendig samvariasjon mellom X og Y variablene vil kovariansen være lik summen av variansen til X og Y variabelen. Hvis X har en varians på 250, mens y har en varians på 203 vil dette gi en kovarians på 453 – altså en perfekt samvariasjon. Ved fullstendig uavhengighet vil kovariansen bli lik 0.

Perfekt avhengighet:    Kovarians = X-variabelens varians + Y-variabelens varians

Perfekt uavhengighet:  Kovarians = 0
Positiv samvariasjon:   Kovarians > 0
Negativ samvariasjon:  Kovarians < 0

Formelen for å regne ut kovariansen mellom to variabler i en stikkprøve er:

X og Y er her de observerte verdiene.

Korrelasjon

Korrelasjon, eller samvariasjon (skrive vanligvis som corr eller bare r), er i statistikk og sannsynlighetsregning et mål på styrken og retningen mellom to kvantitative variabler. Korrelasjon bli ofte målt i en korrelasjonskoeffisient.

Korrelasjonskoeffisient (ofte kun referert til som korrelasjonen) er et mål på den underliggende avhengigheten mellom to stokastiske variabler.

Målet vil alltid ligge mellom -1 og 1: En korrelasjonen nær null betyr at det ikke ekstisterer noen lineær sammenheng mellom de to variablene. En positiv korrelasjonskoeffisient indikerer en positiv sammenheng, mens en negativ korrelasjonskoeffisient indikerer en negativ sammenheng

Metoden går ut på å beregne en korrelasjonskoeffisient mellom de to variablene som skal måles. Denne koeffisienten kan variere mellom -1.0 og +1.0. En korrelasjonen nær null betyr at det ikke ekstisterer noen lineær sammenheng mellom de to variablene. En høy korrelasjonskoeffisient mellom f.eks. alder og inntekt forteller oss at det er en sterk samvariasjon mellom variablene. Jo elder man blir, jo sikrere er det at man har en høy inntekt. Vi kan imidlertid ikke si noe om størrelsen på effekten av en økning i en av variabelen ved hjelp av korrelasjonskoeffisienten.

Korrelasjonskoeffisient = +1 – Perfekt linær samvariasjon
Korrelasjonskoeffisient = 0 – Ingen linær sammenheng
Korrelasjonskoeffisient = – 1 – Perfekt negativ samvariasjon

Korrelasjonskoeffisienten ( r ) beregnes slik:

Tegnforklaring:

n =antall observasjoner (utvalget/stikkprøvens størrelse)

=X – variablens verdi (den observerte verdien)

= X – variablens gjennomsnittsverdi

= Y – variablens verdi (den observerte verdien)

= Y – variablens gjennomsnittsverdi

= X – variablens absolutte avvik fra gjennomsnittet


Svakheten med å bruke korrelasjon er at metoden forutsetter at variablene er på intervall- eller forholdstallsnivå.

Empirisk observert korrelasjon er ikke tilstrekkelig for å fastslå at det er kausalitet (dvs. at en variabel forårsaker en annen), da korrelasjon også kan være resultat av spuriøse sammenhenger.

En spuriøs sammenheng eller spuriøs korrelasjon er korrelasjon mellom variabler som seg i mellom ikke korrelerer, men likevel korrelerer fordi det finnes en bakenforliggende variabel som påvirker begge variablene eller selv er korrelert med en av variablene og påvirker den andre. Man kan da bli forledet til å anta at det finnes en årsakssammenheng uten at dette er tilfellet.

Over ser du fire datasett som alle har korrelasjonen 0,81. (Eksempel hentet fra Francis Anscombe.)

Kilder:

  • https://no.wikipedia.org/wiki/Kovarians
  • https://no.wikipedia.org/wiki/Korrelasjon
  • https://no.wikipedia.org/wiki/Spuriøssammenheng

Denne artikkelen og resten av artikkelserien kan lastes ned som en e-bok1 ! Artikkelserien fortsetter under.

Tegn årsabonnement

Tegn et abonnement til Kr. 178/år og få ubegrenset tilgang til alle våre artikler og serier!

Bli medlem

Tegn et medlemskap til Kr. 198/år for å laste ned alle våre e-bøker i PDF-format i ett år.

Topp20 artikler
Siste 20 artikler
Nye artikkelserier
Du leser nå artikkelserien: Bivariat analyse

  Gå til neste / forrige artikkel i artikkelserien:  << Parvise sammenligningerKrysspriselastisitet >>
    Andre artikler i serien er: 
  • Bivariate analyser – analyse av to variabler
  • Krysstabulering og marginalfordeling
  • Epsilon – et mål for samvariasjonens styrke og retning
  • Parallell plott og trend
  • Trender og trendforlengelse (kurvefremskrivning)
  • Gruppegjennomsnitt og mediandifferanse
  • Mann – Whitney observator
  • Sammenligning av to medianer (Mann-Whitney-metoden)
  • Parvise sammenligninger
  • Korrelasjon og kovarians
  • Krysspriselastisitet
  • Priselastisitet
  • Inntektselasitisitet