Innholdsfortegnelse
Hva er parallellplot?
Et parallellplott (Parallel Coordinates Plot) er en grafisk visualiseringsteknikk som brukes til å visualisere bivariate og multivariate data. Parallellplott er en enkel metode for å sammenligne to stikkprøver.
Metoden går ut på å legger inn verdiene til begge stikkprøvene i et plott. Parallell plottet leder ikke oppmerksomheten først og fremst mot verdiene til hver enkelt stikkprøve, men mot hvordan stikkprøvene står i forhold til hverandre. Parallell plottet under viser helt klart at variabelen “menn” har langt større verdier enn variabelen “kvinner“.
I et parallellplott er hver variabel representert som en vertikal akse, og hver observasjon i datasettet er representert som en linje som forbinder punkter på tvers av disse aksene. Dette gjør det mulig å visualisere mønstre og relasjoner i data med mange dimensjoner, noe som kan være vanskelig å gjøre med tradisjonelle plotter som scatterplots.
Slik fungerer et parallellplott
Aksene: Hver vertikal akse representerer en variabel i datasettet. Variablene er plassert parallelt, og deres verdier kan være enten kontinuerlige eller kategoriske.
Linjer: Hver observasjon i datasettet er representert som en linje som krysser alle aksene. Linjen forbinder verdiene for denne observasjonen på hver av variablene. Hvis dataene er normalisert eller skalert, kan de sammenlignes direkte på tvers av variablene.
Fargekoding: For å forbedre lesbarheten og fremheve mønstre, kan linjene fargekodes basert på en bestemt kategori eller en variabelverdi.
Eksempel på parallellplott
Tenk deg at du har et datasett med følgende variabler: Alder, Inntekt, Utdanningsnivå, og Helsepoeng. Du ønsker å visualisere hvordan disse variablene henger sammen for hver observasjon (f.eks. hver person i studien).
- Aksene:
- Vertikale akser representerer “Alder”, “Inntekt”, “Utdanningsnivå”, og “Helsepoeng”.
- Observasjoner:
- Hver person i studien representeres av en linje som går fra deres “Alder”, gjennom deres “Inntekt”, “Utdanningsnivå”, og til slutt til deres “Helsepoeng”.
- Fargekoding:
- Hvis det er en variabel som “Røyking” (røyker/ikke-røyker), kan linjene fargekodes etter om personen røyker eller ikke, for å undersøke om det er et mønster i hvordan røyking påvirker de andre variablene.
Bruksområder for parallellplott:
Multivariate analyser: Parallellplott brukes ofte til å utforske data med mange variabler samtidig, og til å identifisere mønstre, klynger eller uteliggere som ikke er lett synlige i lavdimensjonale plot.
Feature Selection: Ved å visualisere hvordan ulike variabler samhandler, kan parallellplott hjelpe med å identifisere hvilke variabler som er mest relevante for en gitt analyse eller modell.
Sammenligning av grupper: Parallellplott kan brukes til å sammenligne grupper i et datasett ved å fargekode linjene basert på en kategorisk variabel. For eksempel, man kan se hvordan økonomiske indikatorer varierer mellom forskjellige demografiske grupper.
Datautforskning: Parallellplott er nyttige i den tidlige fasen av dataanalyse, hvor man ønsker å få en følelse av hvordan forskjellige variabler er relatert, før man går videre til mer komplekse statistiske analyser.
Fordeler med parallellplott
De største fordelene med et parallellplott er:
- Håndtering av Høydimensjonale Data: Parallellplott er spesielt egnet for data med mange variabler, der tradisjonelle visualiseringsteknikker som scatterplots blir ubrukelige.
- Identifikasjon av Mønstre: Gjør det mulig å identifisere trender, korrelasjoner og mønstre mellom flere variabler samtidig.
- Kombinasjon av Kategoriske og Kontinuerlige Variabler: Parallellplott kan enkelt kombinere både kategoriske og kontinuerlige variabler i én visualisering.
Begrensninger med parallellplott:
De største begrensingene med et parallellplott er:
- Overlappende Linjer: Hvis datasettet er stort, kan linjene overlappe og skape visuell støy, noe som gjør det vanskelig å tolke plotet.
- Tolkningsvansker: Når det er mange variabler, kan parallellplott bli komplekse og utfordrende å tolke.
- Skaleringsproblemer: Variabler med forskjellige skalaer kan kreve normalisering eller standardisering for å gi meningsfulle sammenligninger.
Konklusjon
Parallellplott er en kraftig visualiseringsteknikk for å utforske og forstå høydimensjonale data. De gir en visuell måte å se sammenhenger mellom mange variabler samtidig, og kan være svært nyttige for å identifisere mønstre, uteliggere, og klynger i dataene. Til tross for noen utfordringer med overlapp og tolkning, er parallellplott en verdifull metode i verktøykassen for dataanalyse.
Trend
Parallellplott er spesielt egnet når vi ønsker å få en grafisk fremstilling av trender.
Med trend mener vi: “En utviklingsretning i samfunnet eller markedet”.
Skal vi fremstille grafiske trender og sammenligne dem, må vi imidlertid være klar over at det vil finnes mange ulike trender i ethvert samfunn eller marked. Noen forsterker hverandre, og dermed påvirker de utviklingen sammen. Andre trender virker i motsatt retning.
Økning for den ene, reduseres den andre. Trendene skaper derfor forskjellige virkninger i samfunnet.
Hans Lund (1982 skiller mellom følgende trender: