Lesetid (240 ord/min): 5 minutter
Korrelasjon og kovarians er to statistisk styrkemål vi kan bruke for å finne ut om det er en lineær samvariasjon mellom to variabler. F.eks. om det er en sammenheng mellom markedsføringsinnsatsen og fortjeneste eller omsetning.
Kovarians er:
et styrkemål for den lineære avhengigheten mellom to variabler.
Kovariansen mellom to stokastiske variabler måler hvor mye to variabler varierer sammen (til forskjell fra varians, som måler hvor mye en enkelt variabel varierer i seg selv).
Vi skiller mellom to typer kovarians: Teoretisk- og empirisk kovarians.
Teoretisk kovarians
Teoretisk kovarians er et mål på den underliggende lineære avhengigheten mellom to stokastiske variabler. Kovariansen mellom X og Y noteres ofte som . For to stokastiske variabler X og Y er kovariansen definert som:
der er forventning.
Empirisk kovarians
Empirisk kovarians er et estimat av teoretisk kovarians. En estimator for den empiriske kovariansen er:
der er gjennomsnittet av,
og
er gjennomsnittet av
.
Kovariansen er skalaavhengig. D.v.s. avhengig av måleskalaen, slik at om skalaen endres vil kovariansen også endres. Derfor er korrelasjon, som ikke er avhengig av skala, et godt alternativ til å måle lineær avhengighet.
For vilkårlige konstanter og
og stokastiske variabler X og Y gjelder
Hvordan beregne kovariansen?
La oss si at vi har to datasett, vi kaller det ene X og det andre Y. Ser vi på avstandene mellom en verdi og gjennomsnittet i hvert av settene, , vil vi få et mål på i hvilken grad korresponderende verdier samvarierer. Hvis både
og
ligger mye over gjennomsnittet, vil summen bli et stort, positivt tall. Det samme vil skje hvis begge verdiene ligger mye under gjennomsnittet. Vi får da et sum av to store negative tall, noe som blir et stort positivt tall. Verdier nær gjennomsnittet vil gi små tall. Dersom den ene verdien ligger over og den andre under gjennomsnittet, vil produktet bli et negativt tall.
Når vi beregner summen av alle slike produkter og dividerer på antall produkter, n, får vi kovariansen mellom settene.
Vi forutsetter her at vi arbeider på hele populasjonen, slik at vi i tillegg til å beregne standardavvik for hele populasjonen kan beregne standardavviket for et utvalg ved å dividerte med –1 i stedet for. Tilsvarende kan vi også finne kovarians for et utvalg ved å dividere på –1. For korrelasjonskoeffisienten spiller dette imidlertid ingen rolle.
Formelen for å regne ut kovariansen mellom to variabler i en stikkprøve er:
X og Y er her de observerte verdiene.
Et problem med kovarians er at størrelsen på kovariansen avhenger av størrelsen på dataene. Hvis vi for eksempel får en kovarians på 100, må vi undersøke dataene for å avgjøre om denne tyder på høy eller lav samvariasjon. I noen datasett kan det være det ene, i andre datasett det andre.
Vi gjør derfor en normering ved å dividere kovariansen på produktet av standardavvikene i datasettene vi sammenlikner. Da blir vi kvitt enheten, og får en standardisert tallverdi som varierer mellom -1 og 1. Dette er korrelasjonskoeffisienten, R:
Skrevet ut i detalj:
Vi ser at n ikke er med i uttrykket, det er fordi n opptrer i både teller og nevner og kan forkortes bort.
I noen bøker brukes den greske bokstaven p i stedet for R som symbol for korrelasjonskoeffisienten.
Hva sier kovariansen oss?
La oss si at vi har benyttet et statistikkprogram og kommet frem til at kovariansen mellom X – og Y – variabelen er 453. Hva sier denne verdien (kovariansen) oss?
Ved fullstendig samvariasjon mellom X og Y variablene vil kovariansen være lik summen av variansen til X og Y variabelen. Hvis X har en varians på 250, mens y har en varians på 203 vil dette gi en kovarians på 453 – altså en perfekt samvariasjon. Ved fullstendig uavhengighet vil kovariansen bli lik 0.
Perfekt avhengighet: Kovarians = X-variabelens varians + Y-variabelens varians
Perfekt uavhengighet: Kovarians = 0
Positiv samvariasjon: Kovarians > 0
Negativ samvariasjon: Kovarians < 0
Det er sjelden vi regner ut kovariansen manuelt. På litt avanserte kalkulatorer legger vi bare inn dataene, og så gjør kalkulatoren resten av jobben. I Excel bruker vi funksjonen kovarians.p til å beregne kovarians, og korrelasjon til å beregne korrelasjonskoeffisienten. De tilsvarende funksjonene i GeoGebra heter Kovarians og Korrelasjonskoeffisient. I Excel kan vi bruke funksjonen kovarians.s hvis vi ønsker utvalgskovarians, det finnes ikke noe tilsvarende i GeoGebra.
Kilder:
- http://www.nkhansen.com/tag/kovarians/