Lesetid (240 ord/min): 4 minutter
Språket gjør det mulig å overføre informasjon mellom to parter, og brukes for å angi begreper eller forbindelsen mellom begrepene.
Indekseringsspråk
Begreper som forsøker å beskrive “verden” eller “noe” i verden er imidlertid ofte altfor mangfoldig og ordene vi bruker er ofte altfor diffuse og tvetydige til at lar seg bruke i en dataanalyse.
Dataene som vi samler inn må kodes og systematiseres for at det skal være mulig å registrere dem i en databases, hvor vi kan analysere dem ved hjelp av statistiske metoder.
Språket vi benytter oss av når vi skal kode og registrere de innsamlede dataene kalles indeksspråket, eller bare i-språket.
I – språket har som oppgave er å beskrive, klassifisere og gruppere data/informasjon, og kjennetegnes av et begrenset vokabular, hvor enkeltordene er underlagt strenge formregler.
Skal vi registrere opplysninger om fylke, kan man velge mellom 19 ulike ord (Oslo, Akershus, Østfold osv.) som dekker Norges fylker.
Slektskap (generiske forhold)
Ofte er det et “slektskap” eller et generisk forhold mellom begrepene i språket. Om det foreligger et generisk forhold mellom to begreper, kan avgjøres med “noen alle” testen:
- Noen mennesker er gutter – alle gutter er mennesker
- Noen biler er personbiler – alle personbiler er biler
Partitive forhold
I andre tilfeller står vi ovenfor partitive forhold . Dvs. at begrepet er en del av noe annet. F.eks.:
- Norge er en del av Europa og Norland er en del av Norge
- Stemplet er en del av motoren, og motoren er en del av bilen
Årsaken til at vi nevner dette, skyldes at det er viktig å være klar over disse sammenhengene når man skal organisere, systematisere, kode, registrere og analysere de innsamlede data.
Kategorier
Begrepene som utgjør i-språket er av forskjellig “typer” som vi kaller kategorier. Begreper som er generisk beslektet må f.eks. tilhøre samme kategori, og partitive begreper må inngå i samme struktur. Eksempler på kategorier er:
- Ting – Trær, studenter, bilder, hus, båter
- Aktiviteter – Løping, lesing, bowling
- Egenskaper – Slitestyrke, hurtighet, vaskbarhet
Spesielt er bruken av kategorier mye andvend ved kvalitative undersøkelser, hvor de kun er mulig å måle variablenes verdier på en nominal og ordinal nivå. Nominalt nivå vil si at det kun er mulig å registrere verdiene i kategorier. Siden vi ved kvalitative undersøkelser som regel benytter åpne spørsmål, er det ofte svært vanskelig å bygge opp ett i – språk med valide kategorier. Litt enklere er det ved kvantitative undersøkelser, da spørsmålene hovedsakelig er predkodede.
Antall kategorier
Forskning har vist at vi er i stand til å skille mellom 7 – 8 ulike grupper endimensjonale stimuli, og er en kanalbegrensningen vi må ta hensyn til når vi skal konstruere inndelingshiearkiet.
Databasen må derfor være hierarkisk oppbygd slik at en kan “bla seg fram” til de søkte dokumentene i en trinnvis prosess.
Antallet valgmuligheter på hvert av trinnene, må ikke overskride vår begrensede evne til å holde de enkelte alternativene fra hverandre. Bruk derfor ikke mer enn 8 kategorier på hvert nivå.
Inndelingskriverier for dataanalysen
Når vi skal bygge opp en database vil valg av inndelingskriterier for å kategorisere informasjonen være avgjørende. Inndelingskriveriene vi velger å bruke bør være basert på:
- En hierarkisk oppbygning av kategoriene og klassene
- “Se også” – forbindelser
Eksempel på en hierarkisk uttrykksfull inndeling av kategorier er vist under:
For å gjøre det enklere for brukeren å finne frem til den rette kategorien, uten å måtte vite ha nøyaktig kjennskap til inndelingskriteriene kan det legges inn synonymer i i-språket. I eksemplet under markerer tegnet # gyldige synonymer som det etter registrering vil være mulig å søke på:
Uansett om brukeren bruker begrepet “enebolig” eller “villa” vil søket etter boliger i databasen føre frem til det samme resultatet. Dvs. en oversikt over alle eneboligene.
Har man bygd opp en database som inneholder informasjon om bygninger og produkttyper, kan man koble begrepene sammen ved hjelp av “se – også” forbindelser.
Se – også” forbindelser er et begrep som brukes for å markere at det finnes beslektede termer i andre sammenhenger. Tegnet * kan brukes for å markere dette. F.eks:
Dagligvareforretninger
* Dagligvarer
Sportsforretninger
* Sportsartikler
For å presisere hva som menes med et bestemt begrep, kan man legge inn en note i databasen. Noen kan angis med tegnet $. F.eks.:
Hytter
$ Boliger som brukes til fritid.
Du leser nå artikkelserien: Dataanalyse