Lesetid (240 ord/min): 8 minutter
Hva er en dataanalyse?
En dataanalyse er en systematisk bearbeiding av innsamlet informasjon. En prosess som går ut på å inspisere, rense, transformere og modellere data med det formål å forenkle datamengden slik at det blir mulig å besvare undersøkelsen problemstilling ved å se på det bakenforliggende mønsteret, relasjoner og årsakssammenhenger i det innsamlede datamaterialet.
Forarbeid
Før vi kan starte med å analysere og tolke de innsamlede dataene må vi starte ned å gjøre dataene analyserbare uten å miste relevant informasjon. Dette gjøres ved å redusere, systematisere og ordne datamaterialet.
I praksis vil dette si at vi må lage et indexsspråk og observasjonsprotokoll for å kunne kode og organisere datamaterialet (rådataene). Foreligger dataene som video eller lydfiler må vi foreta transkribering for å få datene i et tolkbart tekstformat. Denne fremgangsmåten er lik for såvel kvantitative som kvalitative data og metoder.
Formålet med denne delen av dataanalysen er å kategorisere de innsamlede dataene slik at vi kan beskrive og analysere dataene vi har samlet inn:
- Hva karakteriserer dataene?
- Finnes det mønstre, relasjoner og/eller årsaksforhold i datamaterialet?
- Kan sammenhengen mellom variabler skyldes mellomliggende årsaksforhold ?
Faktorer som påvirker analysearbeidet
Ettersom dataanalysens formål er å besvare studiets problemstilling er problemstillingen den faktoren som i størst grad påvirker analysearbeidet. Hvilke analyseteknikker vi kan benytte avgjøres avgjøres ikke bare av problemstillingen, men også av:
- Datanivå (primærdata eller sekundærdata).
- Datatype (kvantitative eller kvalitative data).
- Forskningsprosjektets rammebetingelser.
- Forskningsperspektiv
- Teoretisk tilnærming
Er datagrunnlaget sekundærdata er det begrenset hvilke dataanalyser vi kan gjøre, da vi mangler rådataene sekundærdataene bygger på. Det eneste vi her kan gjøre er å lage enkle frekvensanalyser og tolke de innsamlede sekundørdataene. Foreligger datagrunnlaget som primærdata har vi helt andre muligheter til å foreta en skikkelig dataanalyse.
Kvantitativ eller kvalitativ metode
Selv om det er mange forhold som påvirker hvilken dataanalyse vi bør velge er den avgjørende faktoren allikevel om vi har benyttet en kvantitativ- eller kvalitativ metode for datainnsamling.
Årsaken til dette skyldes at kvalitative datainnsamlingsmetoder, f.eks. studier som er gjennomført ved hjelp av observasjoner (ikke tellinger) eller åpne spørsmål, gir kvalitative data som ikke lar seg kvantifisere eller måle på en annet måte enn på nominal eller ordinal nivå.
Velger vi å bruke en kvantitativ datainnsamlingsmetode, f.eks. gjennomføre en survey som er basert på lukkede spørsmål, vår vi kvantitative data som oss måle verdiene til alle variablene på alle målenivåer. Fra nominal nivå til forholdstall. Dette gjør at vi kan benytte oss av helt andre dataanalyse teknikker og verktøy enn som gjelder for kvalitative metoder.
Ettersom det er et så grunnleggende skille mellom hvilke analysemetoder og teknikker vi kan bruke på kvalitative data i forhold til kvantitative data, vil vi behandle disse to datatypene i egne artikkelserier, med hovedvekt på de kvantitative dataanalysene som bygger på kvantitative data.
Arbeidsmodell for dataanalysen
En generell arbeidsmodell som passer for alle typer dataanalyser er denne modellen:
- Datainnsamling – Før dataanalyse kan begynne, må dataene samles inn. Dette kan gjøres gjennom eksperimenter, spørreundersøkelser, observasjoner, eller ved å bruke eksisterende datasett.
- Dataklargjøring – Dataene renses og klargjøres for registrering og analyse. Dette innebærer å fjerne feil, manglende verdier, duplikater, koding og håndtere uoverensstemmelser. Spesielt vanskelig ved bruk av kvalitativ metode.
- Tabulering – Gjøre om alle video- og lydfiler til tekst dokumenter for å kunne dokumentere dataene og analysere dataene.
- Registrering – Registrere datamaterialet slik at det er mulig å foreta en dataanalyse av materialet ved bruk av en PC.
- Utforskende dataanalyse – Dette er den første fasen av dataanalysen der forskeren bruker statistiske metoder og visualiseringsverktøy for å forstå datamønstre, oppdage uregelmessigheter, og generere hypoteser. F.eks. bruke histogrammer, boksplott og scatterplotter for å identifisere fordelinger og sammenhenger i dataene.
- Deskriptiv statistikk – Beskrive funnene ved å gjøre beskrivende statistikkberegninger ved bruk av ulike univariat og bivariate analyser. F.eks. gjennomsnitt, median, standardavvik og prosentiler.
- Sammenhenger – Finne årsakssammenhenger og skaffe økt innsikt ved bruk av multivariate analyser.
- Modellering og prediksjon – Statistiske modeller eller maskinlæringsalgoritmer brukes til å identifisere mønstre og lage prediksjoner basert på dataene.
- Statistisk inferens – avgjøre i hvilken grad det er mulig å generalisere resultatene til dataanalysen (validitet/reabilitet).
- Tolkning i forhold til problemstillingen – tolke dataene for å komme frem til hvilke konklusjoner vi kan trekke og i hvilket omfang. Dette inkluderer hypotesetesting, konfidensintervaller og regresjonsanalyse.
- Validering og evaluering – Resultatene evalueres for å sikre at de er nøyaktige og pålitelige. Dette kan innebære å kjøre analysen på nytt med en annen metode eller bruke en del av dataene som en testgruppe. F.eks. bruke kryssvalidering i en prediktiv modell for å sikre at den generaliserer godt til nye data. Kontrollere hvilke feilkilder som finnes og beregne utvalgsvarians.
Koding og registrering
De innsamlede dataene må klargjøres slik at det er mulig å registrere de for videre analyser. For at det skal være mulig å analysere dataene ved hjelp av et dataprogram, må svarene til respondentene kodes. Dette fordi det er vanskelig å få en database til å sortere dataene etter ord og uttrykk. Statistikk-programmer og regneark liker best tallkoder.
For å få et pålitelig resultat er det viktig at man ikke foretar koding feil. Dvs. koder- eller kategoriserer de innsamlede variablene og verdiene feil. Siden vi hovedsakelig benytter oss av lukkede spørsmål i kvantitative undersøkelser er det relativt lett å unngå kodefeil, da svaralternativene er gitt på forhånd. Det gjør det også mulig for oss å kode spørreskjemaet eller telleapparatet på forhånd, før undersøkelsen tar til.
Når de innsamlede dataene så foreligger er det bare å punche dem rett inn i databasen som skal danne grunnlaget for dataanalysen. Benytter vi oss av en kvalitativ datainnsamlingmetode er det ikke fullt så enkelt å unngå kodefeil. Dette fordi vi stiller åpne spørsmål og mottar kvalitative data. Svaralternativene er ikke gitt på forhånd og variablene respondenten benytter i svaret sitt er som regel ikke endimensjonale.
De er som regle flerdimensjonale. Dette gjør at vi må foreta en subjektiv tolkning av svaret/variablene når vi skal kategorisere (kode) respondentens svar. Det er derfor langt vanskeligere å kode svarene fra en kvalitativ undersøkelse, og faren for kodefeil er overhengende.
Å kode spørreskjemaet betyr at vi gir hvert spørsmål i spørre-skjemaet et unikt numerisk nummer. Spørsmål nr. 1 gir vanligvis koden 1, spørsmål nr. 2 får koden 2, spørsmål nr 3 får koden 3 osv.
Svaralternativene vi gir respondenten går ut på å plassere svaret på en skala, foreta en prioritering, velge ut de viktigste attributtene o.s.v. Dette gjør det lett å registrere svarene, da det er lett å kategorisere svarene. Svar-alternativene i de ulike spørsmålene koder vi på samme måte som spørsmålene. Svaralternativ 1 gis koden 1, svaralternativ 2 gis koden 2 osv. Dette gjør det mulig å registrere både de ulike spørsmålene og svaralternativene i en database, hvor det er mulig å analysere dataene statistisk. Måten vi gjør det på er å lage en to – dimensjonal matrise. Kolonnene representerer de ulike spørsmålene i undersøkelsen, mens radene angir svarene til de ulike respondentene.
Tabulereing
Har vi innhentet dataene ved bruk av video- og/eller lydfiler må vi skrive ut disse video- og lydfilene slik at vi kan dokumentere materialet og analysere de innsamlede dataene videre.
Deskreptiv statistikk
Når dataene er registrert, er det vanlig å starte analysearbeidet med deskreptiv statistikk. Det vil si å beskrive de enkelte variablene i det innsamlede datamaterialet (fordelingsanalyse, frekvensfordeling, kryss-tabulering osv.).
Sammenhenger
Som regel er man ikke fornøyd å få en beskrivelse av undersøkelses fenomenet. Man ønsker som regel å finne årsakssammenhenger, bakenforliggende forklaringer, mellomliggende variabler, forklaringer som omfatter flere enn to uavhengige/avhengige variabler. Forklaringene og sammenhengene finner vi ved å benytte oss av ulike multivariate analyser.
Statistisk inferens
Statistisk inferens betyr å generalisere fra en stikkprøve eller et utvalg til en populasjon. Etter at vi har beskrevet variablene i utvalget, kan vi begynne å teste resultatenes gyldighet og pålitelighet (validitet og reabilitet), samt foreta de statistiske testene og analysene som vi finner hensiktsmessig for å kunne komme frem til konklusjoner som gir svar på problemstillingen vår.
Tolkning
Nest siste faste i analysearbeidet er å tolke resultatene som vi har kommet frem til gjennom tester og analyser av det innsamlede datamateriellet.
Kontroll/feilkilder
I enhver undersøkelse, uansett metode og analyseverktøy, vil det alltid finnes usikkerheter og potensielle feilkilder som kan gjøre at vi trekker feilaktige konklusjoner. For at det skal være mulig å feste noe lit til konklusjonene som undersøkelsen har kommet frem til er det derfor påkrevd at man prøver å avdekke alle uklarheter og potensielle feilkilder.
Analyseprosessen
Overstående modell viser på en enkel måte de viktigste fasene i et tradisjonelt forskningsprosjekt, men sier lite om hvordan man skal angripe analysen av de innsamlede forskningsdataene. Modellen under er i så måte noe bedre, da den tar for seg prosessen og ikke fasene ved analysen:
- Definer analyseformålet (Hvordan analysen skal løse problemstillingen)
- Beskriv de innsamlede rådataene.
- Vurder og korriger rådataene i forhold til analyseformålet.
- Grupper rådataene i forhold til analyseformålet
- Foreta teknisk analyse av forskningsdataene. Beregn relevante forholdtall, tabeller o.l.
- Vurdere analyseresultatene og trekk konklusjoner.
- Utarbeid en presentasjon av analyseresultatene.
Noen viktige forskjeller mellom kvalitative og kvantitative metoder som gjør at dataanalysen ofte blir vesentlig forskjellig kan sammenfattes i følgende matrise:
Kvalitative metoder | Kvantitative metoder |
|
|
Hvor langt en skal gå i dataanalysen er avhengig av formålet med undersøkelsen. I sin enkleste form går analysen ut på å gi en tallmessig beskrivelse av problemstillingen. Men som regel er siktemålet å komme fram til mer sammensatte forklaringer om undersøkelsesenhetene.
Analysemetodene du ønsker å benytte, bør ideelt sett velges før undersøkelsen starter. Tar man ikke hensyn til hvordan man har tenkt å analysere resultatene når man velger undersøkelsesproblem og operasjonaliserer problemet, kan man risikere å bli sittende med store datamengder som er ubrukelig. De forskjellige analysemetodene krever forskjellige variabler, finnes ikke disse variablene i det innsamlede datamaterialet i en slik form at de lar seg bruke i analysemetodene, er undersøkelsen nærmest bortkastet. Ellers er hovedprinsippet ved valg av analysemetode: “Velg den enkleste og bare de metodene som du behersker“.
Du leser nå artikkelserien: DataanalyseDu leser nå artikkelserien: Forskningsprosessen