Domene og webhotell fra OnNet.no

    Denne artikkelen er del 16 av 17 artikler om Bivariat analyse

kjikvadrattest
Photo by Patrick Tomasso

Hva er en kjikvadrattest?

kjikvadrattest er en statistisk test for kategoriske data. Det vil si en test for variabler på nominell eller ordinal nivå. Kjikvadrattesten angis ofte som Χ 2, og brukes til å finne ut om dataene dine er vesentlig forskjellig fra det du forventet.

Det finnes to typer av Pearsons kjikvadrat-test:

  • Kjikvadrat goodness of fit-testen brukes til å teste om frekvensfordelingen til en kategorisk variabel er forskjellig fra dine forventninger. Den lar deg teste om frekvensfordelingen til den kategoriske variabelen er vesentlig forskjellig fra dine forventninger. Ofte, men ikke alltid, er forventningen at kategoriene skal ha like proporsjoner.
  • Kjikvadrattest for uavhengighet brukes til å teste om to kategoriske variabler er relatert til hverandre. Testen lar deg teste om de to variablene er relatert til hverandre. Hvis to variabler er uavhengige (urelaterte), påvirkes ikke sannsynligheten for å tilhøre en bestemt gruppe av en variabel av den andre variabelen.

Hva som skiller dissse to kjikvadrattestene og når du skal bruke dem er sammenfattet i tabellen under.

 

Kjivadrat Goodness of Fit Test

Kjikvadrattest av uavhengighet

Antall variablerEnTo
Formålet med testenBestem om en variabel sannsynligvis kommer fra en gitt fordeling eller ikkeBestem om to variabler kan være relatert eller ikke
EksempelBestem om poser med godteri har samme antall stykker av hver smak eller ikkeBestem om filmgjengernes beslutning om å kjøpe snacks er relatert til typen film de planlegger å se
Hypoteser i eksempel

o : andelen av smaker av godteri er de samme

a : proporsjoner av smaker er ikke de samme

o : Andelen personer som kjøper snacks er uavhengig av filmtypen

a : andelen mennesker som kjøper snacks er forskjellig for ulike typer filmer

Teoretisk fordeling brukt i testChi-SquareChi-Square
Grader av frihet

Antall kategorier minus 1

  • I vårt eksempel, antall smaker av godteri minus 1

Antall kategorier for første variabel minus 1, multiplisert med antall kategorier for andre variabel minus 1

  • I vårt eksempel, antall filmkategorier minus 1, multiplisert med 1 (fordi snackskjøp er en Ja/Nei-variabel og 2-1 = 1)

Kilde: https://www.jmp.com/en_ch/statistics-knowledge-portal/chi-square-test.html

Når bruker vi en kjikvadrattest?

En kjikvadrattest for sannsynlighet brukes når:

  • Vi vil teste om en oppgitt sannsynlighetsfordeling stemmer.
  • Vi har gjennomført samme undersøkelse to ganger og vil teste om de nye svarene avviker signifikant fra svarende i den første undersøkelsen.

Pearsons kjikvadrattest (Χ 2) er en av de vanligste ikke-parametriske testene. Ikke-parametriske tester brukes for data som ikke følger antakelsene til parametriske tester, spesielt antakelsen om normalfordeling. Testen må brukes hvis vi ønske å teste en hypotese om fordelingen av en kategorisk variabel.

Forutsetninger for å kunne bruke en kjikvadrattest

For å kunne bruke en Pearsons kjikvadrattest må følgende forhold for dataene dine være sanne:

  1. Du ønsker å teste en hypotese om en eller flere kategoriske variabler. Hvis en eller flere av variablene dine er kvantitative, bør du bruke en annen statistisk test. Alternativt kan du konvertere den kvantitative variabelen til en kategorisk variabel ved å dele observasjonene i intervaller.
  2. Utvalget ble tilfeldig valgt fra populasjonen.
  3. Det forventes minimum fem observasjoner i hver gruppe eller kombinasjon av grupper.
  4. Dataene følger ikke en normalfordeling.

Hvordan utføre en kjikvadrattest?

Kjikvadrattesten er en hypotesetest, hvor vi benytter følgende fremgangsmåten, enten vi benytter en Chi-square goodness of fit-test eller en kjikvadrattest for uavhengighet:

  1. Definer Nullhypotese (H0) og Alternativ hypotese (H1) før du samler inn dataene.
  2. Bestem deg for alfaverdien (signifikantnivå). Dette innebærer å bestemme risikoen du er villig til å ta for å trekke feil konklusjon. Anta f.eks. at vi setter α=0,05 når vi tester for uavhengighet. Her har vi bestemt oss for 5 % risiko for å konkludere med at de to variablene er uavhengige når de i realiteten ikke er det. Vi bruker her P-verdien som kriterium for når H0 skal forkastes. Er P-verdien mindre enn signifikantnivået forkaster vi H0 hypotesen. Det vil si hvis P-verdien < 0,05 i dette tilfellet.
  3. Innhent dataene.
  4. Sjekk dataene for feil.
  5. Sjekk forutsetningene for testen.
  6. Beregn kjikvadratverdien fra dine observerte og forventede frekvenser ved å bruke kjikvadratformelen.
  7. Finn den kritiske kji-kvadratverdien i en tabell med kritiske kj-kvadratverdier eller bruk statistisk programvare.
  8. Sammenlign kjikvadratverdien med den kritiske verdien for å finne ut hvilken som er størst.
  9. Bestem om du vil forkaste nullhypotesen. Du bør forkaste nullhypotesen hvis kjikvadratverdien er større enn den kritiske verdien. Hvis du avviser nullhypotesen, kan du konkludere med at dataene dine er vesentlig forskjellig fra det du forventet.

Begge kjikvadrattestene innebærer å beregne en teststatistikk. Den grunnleggende ideen bak testene er at du sammenligner de faktiske dataverdiene med det som kan forventes dersom nullhypotesen er sann. Teststatistikken innebærer å finne den kvadratiske forskjellen mellom faktiske og forventede dataverdier, og dele denne forskjellen med de forventede dataverdiene. Du gjør dette for hvert datapunkt og legger sammen verdiene.

Deretter sammenligner du teststatistikken med en teoretisk verdi fra chi-kvadratfordelingen . Den teoretiske verdien avhenger av både alfaverdien og frihetsgradene for dataene dine. 

Kjikvadratformelen

Begge Pearsons kjikvadrattestene bruker samme formel for å beregne teststatistikken, kjikvadrat (Χ 2 ):

kjikvadratformelen

Hvor:

  • Χ 2 er kjikvadratteststatistikken
  • Σ er summeringsoperatoren (det betyr “ta summen av”)
  • O er den observerte frekvensen
  • E er forventet frekvens

Jo større forskjellen er mellom observasjonene og forventningene ( O − E i ligningen), desto større blir kjikvadraten. For å avgjøre om forskjellen er stor nok til å være statistisk signifikant, sammenligner vi kjikvadratverdien med en kritisk verdi.

Kjikvadratfordelingstabellen

Kjikvadratfordelingstabellen (Χ 2 ) er en referansetabell som viser kritiske verdier for kjikvadrat. En kjikvadrat kritisk verdi er en terskel for statistisk signifikans for visse hypotesetester og definerer konfidensintervaller for visse parametere.

Kritiske verdier for kjikvadrat beregnes fra kjikvadratfordelinger. De er vanskelige å beregne for hånd, og det er derfor de fleste bruker en referansetabell eller statistisk programvare i stedet.

Du trenger en kjikvadratkritisk verdi hvis vi ønsker å:

  • Beregn et konfidensintervall for en populasjonsavvik eller standardavvik
  • Test om variansen eller standardavviket til en populasjon er lik en viss verdi (test av en enkelt varians)
  • Test om frekvensfordelingen til en kategorisk variabel er forskjellig fra dine forventninger (chi-square goodness of fit test)
  • Test om to kategoriske variabler er relatert til hverandre (kikvadrattest av uavhengighet)
  • Test om proporsjonene til to nært beslektede variabler er like (McNemars test)

Kjikvadratfordelingstabell (høyre-hale-sannsynligheter)

Bruk tabellen nedenfor for å finne den kritiske verdien for kjikvadrattesten eller konfidensintervallet. Tabellen gir høyre-hale-sannsynlighetene. Hvis du trenger venstre-hale-sannsynlighetene, må du gjøre en liten tilleggsberegning.

Kjikvadratfordelingstabellen

Trinn 1: Beregn frihetsgradene

Det er ikke bare én kjikvadratfordeling – det er mange, og formene deres varierer avhengig av en parameter kalt “frihetsgrader” (også referert til som df eller k ). Hver rad i kjikvadratfordelingstabellen representerer en kjikvadratfordeling med en annen df.

Du må bruke distribusjonen med riktig df for testen eller konfidensintervallet ditt. Tabellen nedenfor gir ligninger for å beregne df for flere vanlige prosedyrer:

Test eller prosedyreFrihetsgrader ( df ) ligning

Test av en enkelt varians

Konfidensintervall for varians eller standardavvik

df = prøvestørrelse − 1
Chi-square godhet av passform testdf = antall grupper − 1
Chi-kvadrat test av uavhengighetdf = (antall variabel 1 grupper − 1) * (antall variabel 2 grupper − 1)
McNemars testdf = 1

Trinn 2: Velg et signifikansnivå

Kolonnene i kjikvadratfordelingstabellen indikerer signifikansnivået til den kritiske verdien. Etter konvensjon er signifikansnivået (α) nesten alltid .05, så kolonnen for .05 er uthevet i tabellen.

I sjeldne situasjoner kan det være lurt å øke α for å redusere Type II-feilfrekvensen eller redusere α for å redusere Type I-feilfrekvensen.

For å beregne et konfidensintervall, velg signifikansnivået basert på ønsket konfidensnivå:

α = 1 − konfidensnivå

Det vanligste konfidensnivået er 95 % (.95), som tilsvarer α = .05.

Trinn 3: Finn den kritiske verdien i tabellen

Du har nå de to tallene du trenger for å finne din kritiske verdi i kjikvadratfordelingstabellen:

  • Frihetsgradene ( df ) er oppført langs venstre side av tabellen. Finn tabellraden som tilsvarer frihetsgradene du har beregnet.
  • Signifikansnivåene (α) er oppført øverst i tabellen. Finn kolonnen som tilsvarer ditt valgte signifikansnivå.
  • Tabellcellen der raden og kolonnen møtes er den kritiske verdien.

Hvordan rapportere en kjikvadrattest

Hvis du inkludere en Pearsons kjikvadrattest i en forsknngsoppgave bør du angi dette i resultatdelen. Følg disse retningslinjene:

  • Du trenger ikke oppgi en referanse eller formel siden kjikvadrattesten er vanlig statistikk.
  • Referer til kjikvadrat ved å bruke dets greske symbol, Χ 2. Selv om symbolet ligner veldig på en “X” fra det latinske alfabetet, er det faktisk et annet symbol. Greske symboler skal ikke være kursiv.
  • Ta med et mellomrom på hver side av likhetstegnet.
  • Hvis kjikvadratet er mindre enn null, bør du inkludere en innledende null (en null før desimaltegnet) siden kjikvadratet kan være større enn null.
  • Oppgi to signifikante sifre etter desimaltegn.
  • Rapporter chi-kvadraten sammen med frihetsgrader , prøvestørrelse og p- verdi, ved å følge dette formatet: Χ 2 (frihetsgrader, N = prøvestørrelse) = kjikvadratverdi, p = p- verdi).

Kilder:

  • Turney, Shaun – Chi-Square (Χ²) Tests | Types, Formula & Examples (2022). Hentet 03.03.24: https://www.scribbr.com/statistics/chi-square-tests/
  • Turney, Shaun – Chi-Square (Χ²) Table | Examples & Downloadable Table (2022). Hentet 03.03.24: https://www.scribbr.com/statistics/chi-square-distribution-table/
Du leser nå artikkelserien: Bivariat analyse

  Gå til neste / forrige artikkel i artikkelserien: << T-test (Students t-test)Enkel lineær regresjon >>
    Andre artikler i serien er: 
  • Bivariat analyse – analyse av to variabler
  • Krysstabulering og marginalfordeling
  • Epsilon – et mål for samvariasjonens styrke og retning
  • Parallell plott og trend
  • Trender og trendforlengelse (kurvefremskrivning)
  • Gruppegjennomsnitt og mediandifferanse
  • Mann – Whitney observator
  • Sammenligning av to medianer (Mann-Whitney-metoden)
  • Parvise sammenligninger (Fortegntest og Wilcoxons tegnrangtest)
  • Kovarians
  • Korrelasjon
  • Priselastisitet
  • Krysspriselastisitet
  • Inntektselasitisitet
  • T-test (Students t-test)
  • Kjikvadrattest
  • Enkel lineær regresjon
  • Kjetil Sander
    Kjetil Sander (f.1968) grunnlegger, redaktør, forfatter og serieentreprenør. Gunnla Kunnskapssenteret.com i 2001 (i dag eStudie.no) og har siden vært portalens redaktør. Utdannet Diplom økonom og Diplom markedsfører fra BI/NMH. Har i dag mer enn 30 års erfaring som serieentreprenør, leder og styremedlem.