Lesetid (240 ord/min): 2 minutter
Hovedkildene til Big Data er direkte og automatisk datainnsamling og frivillig dataproduksjon. I tillegg kommer åpne data. De sies at 80% av verdens samlede data idag ligger åpent tilgjengelig ute på Internett, klare til å bli strukturert, analysert og brukt.
Wikipedia oppgir følgende kilder til Big Data idag:
Innholdsfortegnelse
Direkte datainnsamling
Direkte datainnsamling er innsamling av data gjennom aktiviteter der innsamling av data er blant hovedmålene. Direkte datainnsamling kan være rettet mot gjenstander, steder eller, særlig, mot personer:
- Offentlig registrering skjer ved folketellinger og ved registrering av f eks fødsler, dødsfall og helseforhold.
- Kunde- eller klientregistrering skjer ved mange typer henvendelser til kommersielle, ideelle og offentlige virksomheter.
- Nettovervåkning er automatisert innsamling av logging av internett- og teletrafikk. Viktige formål er å forebygge og oppdage nettkriminalitet og terrorhandlinger.
- Områdeovervåkning er automatisert innsamling av bilde- og andredata fra et geografisk avgrenset område, f eks ved hjelp av digitale overvåkningskamera eller fra satellitt. Mens slikt utstyr tidligere var analogt og isolert er det i dag stadig oftere digitalt, koblet i nettverk og i økende grad smart, noe som gjør det bedre egnet til stordatainnsamling, f eks når overvåkningskameraer i økende grad blir i stand til å utføre ansikts- og irisgjenkjenning i sanntid. Ulike værovervåkningssystemer hører også til denne gruppen.
Automatisk datainnsamling
Automatisk datainnsamling er (mer eller mindre nødvendig) datainnsamling som en sideeffekt av andre typer aktiviteter:
- Teknologibruk, f eks av smarttelefoner, digital-TV bokser og smart-TV-er logges rutinemessig, både lokalt i ustyret og av og til på avstand, f eks hos utstyrsprodusenten eller i skyen. Slike objekter — som består av et vanlig fysisk objekt sammen med en løpende oppdatert logg over objektets historie — kalles på engelsk et «logject» (på norsk f eks «loggjekt»).
- Nettransaksjoner logges rutinemessig. F eks logger mange nettbutikker alle detaljer om hvordan brukerne navigerer gjennom butikken, såkalte klikkstrømmer.
- Medisinsk utstyr logger rutinemessig pasient- og andre data som siden kan benyttes til administrasjons- og forskningsformål.
Frivillig dataproduksjon
Frivillig dataproduksjon vil si at brukerne selv bidrar til store datasett:
- Sosiale medier er IKT-plattformer for brukergenerering og -deling av innhold. Mikrobloggetjenester som Twitter er en kilde til slike stordata.
- Undervåkning (fra engelsk «sousveillance», av fransk: «sous-», under) er når brukerne selv aktivt deler persondata, samlet inn f eks av skrittellere og andre typer bevegelsesmålere.
- Nettdugnad (engelsk: «crowdsourcing») er bruk av IKT-verktøy til massesamarbeid for å produsere nye produkter (Wikipedia) eller for å evaluere eksisterende produkter i stor skala (TripAdvisor). Slike dugnadsresultater kan være datasett som i seg selv er store (f eks Wikipedia og Wikidata) eller som kan inngå i stordatasett ved kombinering.
Åpne data
Åpne data, som forvaltnings- og forskningsdata, er data som er gjort alment tilgjengelige av offentlige, ideelle og, av og til, kommersielle organisasjoner. Enkelte åpne datasett er stordatasett i seg selv, f eks forskningsdata fra internasjonale forskningsfasiliteter som CERN eller fra maskiner for DNA-sekvensering. Andre åpne datasett kan inngå i stordata i kombinasjon med andre datasett.
Kilder:
- https://no.wikipedia.org/wiki/Stordata