Domene og webhotell fra OnNet.no

    Denne artikkelen er del 17 av 17 artikler om Bivariat analyse

Hva er enkel lineær regresjon?

Enkel lineær regresjon brukes til å estimere sammenhengen mellom to kontinuerlige variabler. For eksempel bruker vi enkel lineær regresjon når vi ønsker å vite:

  1. Hvor sterk sammenheng er mellom to variabler (f.eks. forholdet mellom IQ og lønnsinntekt).
  2. Verdien av den avhengige variabelen (f.eks. lønnsinntekt) ved en viss verdi av den uavhengige variabelen (f.eks. IQ).

I en enkel lineær regresjon beskriver vi forholdet mellom variabler ved å tilpasse en rett linje (Y = a + bx) til de observerte dataene. Regresjonsmodellen gjør det mulig for oss å estimere hvordan en avhengig variabel endres når den eller de uavhengige variablene endres.

Forutsetninger om enkel lineær regresjon

Enkel lineær regresjon er en parametrisk test, noe som betyr at den gjør visse antakelser om dataene. Disse forutsetningene er:

  1. Varianshomogenitet (homoskedastisitet) : størrelsen på feilen i vår prediksjon endres ikke nevneverdig på tvers av verdiene til den uavhengige variabelen.
  2. Uavhengighet av observasjoner : observasjonene i datasettet ble samlet inn ved hjelp av statistisk gyldige prøvetakingsmetoder, og det er ingen skjulte sammenhenger mellom observasjoner.
  3. Normalitet : Dataene følger en normalfordeling.

Lineær regresjon gir en ekstra antagelse:

  1. Forholdet mellom den uavhengige og avhengige variabelen er lineær : linjen som passer best gjennom datapunktene er en rett linje (i stedet for en kurve eller en slags grupperingsfaktor).

Hvis dataene dine ikke oppfyller forutsetningene om homoskedastisitet eller normalitet, kan du kanskje bruke en ikke-parametrisk test i stedet, for eksempel Spearman-rangtesten.

Hvordan utføre en enkel lineær regresjon?

Enkel lineær regresjonsformel

Formelen for en enkel lineær regresjon er:

y = B0 + B1X+e

  • y er den predikerte verdien av den avhengige variabelen (  ) for en gitt verdi av den uavhengige variabelen ( x ).
  • 0 er skjæringspunktet , den forutsagte verdien av y når x er 0.
  • 1 er regresjonskoeffisienten – hvor mye vi forventer at y endres når x øker.
  • x er den uavhengige variabelen (variabelen vi forventer påvirker y ).
  • e er feilen til estimatet, eller hvor stor variasjon det er i vårt estimat av regresjonskoeffisienten.

Lineær regresjon finner den beste tilpasningslinjen gjennom dataene dine ved å søke etter regresjonskoeffisienten (B 1) som minimerer den totale feilen (e) til modellen.

Datasett med en lineær sammenheng

Modellens utgangspunkt er et datasett med en lineær sammenheng. Med datasett menes en rekke punkter: (x1, y1), (x2, y2), …, (xn, yn). Hvis vi tegner disse punktene i datasettet i en todimensjonal graf så vil de ligge på en tilnærmet rett linje hvis det er en lineær sammenheng mellom punktene i datasettet. 

Lineær regresjon handler om å finne en rett linje som passer best mulig med alle punktene. Som vist i figuren over så kan det være flere linjer som passer ganske godt med punktene i et datasett, men det er den grønne som passer aller best!

Minste kvadraters metode

For å finne den linjen som passer best med alle punktene i datasettet benytter vi minste kvadraters metode. Poenget med denne metoden er at hvis en linje går langs alle punktene, vil vi kunne regne ut feilen mellom verdien linjen gir og den ekte verdien i punktet, altså feilen mellom predikert og observert y-verdi. En rett linje er skrevet ved hjelp av formelen:

=αx+β

Her er α og β henholdsvis stigningstall og konstantledd. Dersom punktene i datasettet nesten ligger på en rett linje, så kan vi beskrive hver y-verdi i datasettet ved hjelp av en forklaringsvariabel x og en feil ε (epsilon) som tar høyde for avviket. Aviket εi er avviket mellom et punkt i et datasett og selve linja.

Problemet er at vi ikke kjenner til α og β, så disse må vi prøve å estimere. Minste kvadraters metode går ut på å finne et estimat for denne linjen, som minimerer feilen for alle punktene i datasettet.

Vi bruker denne metoden til å predikere, altså anslå, en rett linje gitt ved:

y^=α^x+β^

«Hattene» over variablene og koeffisientene viser at disse er estimerte verdier. Derfor kalles α og β med hatter over, for regresjonskoeffisienter.

Et avvik εi har vi for alle punktene, med mindre den predikerte og observerte y-verdien sammenfaller, altså at linjen går gjennom punktet. Summen av alle de kvadrerte feilene ønsker vi å minimere. 

Koeffisientene som gir lavest sum av kvadrerte anslagsfeil er:

De ulike symbolene i formlene over er:

Presentere resultatene

Når du rapporterer resultatene, inkluderer du den estimerte effekten (dvs. regresjonskoeffisienten), standardfeilen til estimatet og p- verdien. Du bør også tolke tallene dine for å gjøre det klart for leserne dine hva regresjonskoeffisienten betyr:

“Vi fant en signifikant sammenheng ( p < 0,001) mellom inntekt og lykke (R 2 = 0,71 ± 0,018), med en økning på 0,71 enheter i rapportert lykke for hver 10 000 økning i inntekt”.

Det kan også være nyttig å inkludere en graf med resultatene. For en enkel lineær regresjon kan du ganske enkelt plotte observasjonene på x- og y-aksen og deretter inkludere regresjonslinjen og regresjonsfunksjonen:

Kilder:

  • Bevans, Rebecca – Simple Linear Regression | An Easy Introduction & Examples (2022). Hentet 03.03.24: https://www.scribbr.com/statistics/simple-linear-regression/
  • Enkeleksamen.no. Hentet 04.03.24: https://www.enkeleksamen.no/blogg/faglig/lineaer-regresjon/

 

Du leser nå artikkelserien: Bivariat analyse

  Gå til neste / forrige artikkel i artikkelserien: << Kjikvadrattest
    Andre artikler i serien er: 
  • Bivariat analyse – analyse av to variabler
  • Krysstabulering og marginalfordeling
  • Epsilon – et mål for samvariasjonens styrke og retning
  • Parallell plott og trend
  • Trender og trendforlengelse (kurvefremskrivning)
  • Gruppegjennomsnitt og mediandifferanse
  • Mann – Whitney observator
  • Sammenligning av to medianer (Mann-Whitney-metoden)
  • Parvise sammenligninger (Fortegntest og Wilcoxons tegnrangtest)
  • Kovarians
  • Korrelasjon
  • Priselastisitet
  • Krysspriselastisitet
  • Inntektselasitisitet
  • T-test (Students t-test)
  • Kjikvadrattest
  • Enkel lineær regresjon