Innholdsfortegnelse
Hva er en klyngeanalyse (cluster analysis)?
Klyngeanalyse (Cluster Analysis) er en multivariat analyse som brukes i en dataanalyse og maskinlæring til å gruppere variabler eller observasjoner som er sterkt korrelerte. Klyngeanalysen gruppere et sett objekter slik at objekter eller datapunkter i samme klynge (eller segment) er mer like hverandre enn objekter i andre grupper.
Målet med klyngeanalyse er å sikre at objekter innenfor en klynge er så like som mulig, mens objekter fra forskjellige klynger er så forskjellige som mulig. Dette er en form for utforskende dataanalyse som brukes i en rekke felt, inkludert markedsføring, biologi, sosiale vitenskaper, og maskinlæring.
Typer av klyngeanalyse
Vi skiller mellom følgende typer klyngeanalyse:
Hierarkisk klyngeanalyse
Skaper en trelignende struktur (dendrogram) som viser hvordan objektene grupperes i klynger på forskjellige nivåer av likhet. Det finnes to hovedtilnærminger:
- Agglomerativ (bottom-up): Starter med hvert objekt som en egen klynge, og kombinerer deretter de nærmeste klyngene trinnvis til alle objektene er samlet i én klynge.
- Divisiv (top-down): Starter med alle objektene i én stor klynge, og deler dem deretter trinnvis opp til hver klynge inneholder ett objekt.
Eksempel: Hierarkisk klyngeanalyse kan brukes til å gruppere arter i biologisk forskning basert på genetiske likheter.
K-medoids
Ligner på K-means, men bruker faktiske datapunkter som sentroider (medoids) i stedet for gjennomsnittsposisjoner. Dette kan gjøre K-medoids mer robust mot uteliggere.
Eksempel: Bruke K-medoids for å gruppere geografiske områder basert på demografiske data for å finne representative lokasjoner i en markedsføringskampanje.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
En tetthetsbasert klyngeanalyse som identifiserer klynger som områder med høy tetthet av datapunkter, adskilt av områder med lav tetthet. DBSCAN er spesielt nyttig for å identifisere klynger av vilkårlig form og kan håndtere støy (uteliggere).
Eksempel: Bruke DBSCAN til å identifisere klynger av stjerner i astronomiske data basert på deres posisjon i rommet.
Gaussian Mixture Models (GMM)
En probabilistisk tilnærming til klyngeanalyse som antar at dataene er en blanding av flere normalfordelinger (Gaussianer), hvor hver Gaussian representerer en klynge. GMM er mer fleksibel enn K-means fordi den kan modellere klynger av forskjellige former og størrelser.
Eksempel: Bruke GMM for å analysere kundeatferd i en nettbutikk for å identifisere ulike kundesegmenter med forskjellige kjøpsmønstre.