Domene og webhotell fra OnNet.no

    Denne artikkelen er del 3 av 7 artikler om Univariat analyse

Lese tid (240 ord/min): 6 minutter

median-snitt-modus

Det finnes flere statistiske metoder som kan benyttes for å angi stikkprøvens midtpunkt og gjennomsnittsverdi.

De vanligste er:

  • Median
  • Gjennomsnitt
  • Modus

Median

Medianen er et sentralitetsmål som angir det midterste tallet/verdien i et ordnet tallsett eller i en stikkprøve (utvalg).

Median beregnes ved å dele en stikkprøve eller et utvalg i to like store deler, slik at det er like mange verdielementer på venstre og høyre side. Median er her den midterste verdien. Det vil si den verdien som deler en stikkprøve eller et utvalg i to like store deler.

Medianen = mål for beliggenhet (midtpunkt)

I en stikkprøve på 5 observasjoner, vil X (3) være medianen.

For et utvalg der antall observasjoner er et oddetall, er medianen den midterste verdien der utvalget er sortert i rekkefølge. For et utvalg der antall observasjoner er et partall er medianen gjennomsnittet av de to midterste verdiene.

Eksempel:

La oss se på følgende tall:
1.5% , 2.3% , −3.4% , −5.6% , 0.3% , −3.4% , 3.2% , 2.2%

La oss sortere disse i stigende rekkefølge:
−5.6% , −3.4% , −3.4% , 0.3% , 1.5% , 2.2% , 2.3% , 3.2%

Siden det er n = 8 observasjoner, dvs. like antall, så er:

Median = 0.3% + 1.5% / 2 = 0,9%

Medianen i en stikkprøve symboliseres med tegnet:

 , og uttales “X -tilda” eller “X krøll”.

 = stikkprøvemedian

Populasjonsmedianen, dvs. medianen i hele populasjonen, kalles “my tilda”  og syboliseres med tegnet:

 

I et sortert datasett med n elementer, hvor n er ulike vil medianen kunne finnes som element nummer \tfrac{n+1}{2}.

Fordelen ved å bruke median i forhold til gjennomsnitt er at median er stabil overfor ekstreme observasjoner (som blant annet kan fremkomme ved målefeil). Hvis man for eksempel har målt høyder i meter, men har glemt å sette komma i noen av målingene, vil det påvirke gjennomsnittet mye, mens medianen ikke blir påvirket i samme grad. Har man målingene 1,73 – 180 – 1,86, vil gjennomsnittet bli 63,59, mens medianen er 1,86. Her er medianen tett på det som ville vært medianverdien uten den ene feilmålingen (1,80).

Videre er median en fordel å benytte ved spørreundersøkelser der en observasjon skiller seg markant fra øvrige observasjoner. Dersom fem personer blir spurt hvor mange husdyr de har, og én av dem bor på gård, kan vi tenke oss dette utfallet: 0, 1, 35, 1, 2. Gjennomsnittet her vil være 7,8 og median 1. Medianen vil her gi en bedre indikasjon på hvor mange husdyr det er vanlig å ha i norske hjem (Wikipedia).

Gjennomsnitt

Gjennomsnittet, ofte kalt den aritmetiske middelverdien eller bare middelverdien, er summen av alle dataene delt på antall data. Gjennomsnitt er med andre ord en alternativ måte å finne midtpunkt i en stikkprøve eller et utvalg.

Gjennomsnittsverdien beregnes ved å summere alle verdiene i stikkprøven og dividere dette tallet med antall undersøkelses enheter.

Eksempel

Hva er gjennomsnittshøyden for de 30 rekruttene i et tenkt eksemplet?
Vi starter med å summerer alle de 30 høydene (verdiene) til studentene og får:

177+181+172+185+…+189=5397

Vi har altså 5 397 centimeter å fordele på 30 rekrutter. Gjennomsnittet blir:

5397/30=179,9

Gjennomsnittshøyden på rekruttene er altså 179,9 cm, som vi kan runde av til 180 cm.

Denne utregningen av gjennomsnittet kan uttrykkes gjennom følgende ligning:

 \bar{x} = {1 \over n} \sum_{i=1}^n{x_i}

Her er {x_i} de ulike verdiene i populasjonen.

Normalt har man bare tilgang til et representativt (tilfeldig) utvalg av en populasjon, og kan bare finne en tilnærmet verdi av gjennomsnittet. Dette symboliseres med μ eller E(X)

er en alternativ måte å finne midtpunkt i en stikkprøve eller et utvalg. Gjennomsnittsverdien beregnes ved å summere alle verdiene i stikkprøven og dividere dette tallet med antall undersøkelses enheter.

Tegnforklaring:

= Gjennomsnitt

= Summer

x = verdiene

n = antall undersøkelseenheter.

Siden både gjennomsnittsverdien og medianen er mål som skal angi midtpunktet i en stikkprøve er det nærliggende å sammenligne disse to verdiene for å se om det er samsvar mellom dem. Medianen er som tidligere nevnt den midterste verdien i en ordnet stikkprøve, rangert fra laveste til høyeste verdi. For kurs 1 er medianen lik (42+38/2) 40 studenter, mens gjennomsnittet var 35 studenter. Altså en forskjell på 5 studenter. Hva skyldes så forskjellen ? Jo, forklaringen ligger i at medianen ikke er så følsom for ekstremverdier som gjennomsnittet.

Det finnes ingen absolutte regler som sier at man skal bruke den ene metoden fremfor den andre. Begge beregningsmetodene er vanlige. Hver imidlertid bare bevist at de kan gi store forskjeller. Mange misbruker denne muligheten til å fremstille en variabel bedre eller dårligere enn den egentlig er, alt ettersom hva som ganger oppdragsgiveren. Men det finnes en tommelfingerregel som jeg anbefaler:

  • Bruk kun gjennomsnitt i stikkprøver som bygger på en normalfordeling. Foreligger det ikke en normalfordeling, bør man bruke median som mål for stikkprøvens midtpunkt.

Modus (typetall)

Et annet mål for sentraltendens er modus, også kalt typetall.

Modus (typetall) er:

verdien som forekommer oftest.

Dersom flere data forekommer flest antall ganger (For eksempel på en prøve med tallkarakterer der 10 stykker får 5 og 10 stykker får 4), er typetallet gjennomsnittet av disse dataene, eller vi kan operere med flere typetall for datasettet.

Eksempel 1

Typetallet behøver ikke å være et tall. I eksemplet med eksamenskarakterer er typetallet karakteren C, siden den karakteren forekommer flest ganger.

Eksempel 2

Høyde (cm)Frekvens
1701
1711
1722
1732
1741
1761
1772
1792
1803
1813
1825
1841
1851
1871
1881
1893

Hva er typetallet i eksemplet med rekrutthøyder?

Den høyden som forekommer flest ganger er 182 cm, hele 5 ganger. Derfor er typetallet 182 cm.

Forholdet mellom median, snitt og typetall

Selv om både median, gjennomsnitt og mode prøver å angi midtpunktet i en stikkprøve (utvalg), vil disse tre beregningene av midtpunktet gi tre forskjllige svar. Noe som er illustrert både i illustrasjonen i toppen av denne siden og illustrasjonen under. Ser vi på illustrasjonen under er ingen av disse tre beregningene av midtpunktet sammenfallene, bortsett fra en symmetrisk fordelig (figur a).

Du leser nå artikkelserien: Univariat analyse

  Gå til neste / forrige artikkel i artikkelserien: << Fordelingsanalyse og frekvensfordelingVariasjonsbredde i utvalget (stikkprøven) >>
    Andre artikler i serien er: 
  • Univariat analyse og deskriptiv statistikk
  • Fordelingsanalyse og frekvensfordeling
  • Utvalget/stikkprøvens midtpunkt (Median, gjennomsnitt og modus)
  • Variasjonsbredde i utvalget (stikkprøven)
  • Prosentil og kvartil
  • Standardavvik og varians
  • Skjevhet og normalfordeling
  • Kjetil Sander
    Kjetil Sander (f.1968) grunnlegger, redaktør, forfatter og serieentreprenør. Gunnla Kunnskapssenteret.com i 2001 (i dag eStudie.no) og har siden vært portalens redaktør. Utdannet Diplom økonom og Diplom markedsfører fra BI/NMH. Har i dag mer enn 30 års erfaring som serieentreprenør, leder og styremedlem.