Domene og webhotell fra OnNet.no

    Denne artikkelen er del 2 av 14 artikler om Big Data

Hovedkildene til Big Data er direkte og automatisk datainnsamling og frivillig dataproduksjon. I tillegg kommer åpne data. De sies at 80% av verdens samlede data idag ligger åpent tilgjengelig ute på Internett, klare til å bli strukturert, analysert og brukt.

Wikipedia oppgir følgende kilder til Big Data idag:

Direkte datainnsamling

Direkte datainnsamling er innsamling av data gjennom aktiviteter der innsamling av data er blant hovedmålene. Direkte datainnsamling kan være rettet mot gjenstander, steder eller, særlig, mot personer:

  • Offentlig registrering skjer ved folketellinger og ved registrering av f eks fødsler, dødsfall og helseforhold.
  • Kunde- eller klientregistrering skjer ved mange typer henvendelser til kommersielle, ideelle og offentlige virksomheter.
  • Nettovervåkning er automatisert innsamling av logging av internett- og teletrafikk. Viktige formål er å forebygge og oppdage nettkriminalitet og terrorhandlinger.
  • Områdeovervåkning er automatisert innsamling av bilde- og andredata fra et geografisk avgrenset område, f eks ved hjelp av digitale overvåkningskamera eller fra satellitt. Mens slikt utstyr tidligere var analogt og isolert er det i dag stadig oftere digitalt, koblet i nettverk og i økende grad smart, noe som gjør det bedre egnet til stordatainnsamling, f eks når overvåkningskameraer i økende grad blir i stand til å utføre ansikts- og irisgjenkjenning i sanntid. Ulike værovervåkningssystemer hører også til denne gruppen.

Automatisk datainnsamling

Automatisk datainnsamling er (mer eller mindre nødvendig) datainnsamling som en sideeffekt av andre typer aktiviteter:

  • Teknologibruk, f eks av smarttelefoner, digital-TV bokser og smart-TV-er logges rutinemessig, både lokalt i ustyret og av og til på avstand, f eks hos utstyrsprodusenten eller i skyen. Slike objekter — som består av et vanlig fysisk objekt sammen med en løpende oppdatert logg over objektets historie — kalles på engelsk et «logject» (på norsk f eks «loggjekt»).
  • Nettransaksjoner logges rutinemessig. F eks logger mange nettbutikker alle detaljer om hvordan brukerne navigerer gjennom butikken, såkalte klikkstrømmer.
  • Medisinsk utstyr logger rutinemessig pasient- og andre data som siden kan benyttes til administrasjons- og forskningsformål.

Frivillig dataproduksjon

Frivillig dataproduksjon vil si at brukerne selv bidrar til store datasett:

  • Sosiale medier er IKT-plattformer for brukergenerering og -deling av innhold. Mikrobloggetjenester som Twitter er en kilde til slike stordata.
  • Undervåkning (fra engelsk «sousveillance», av fransk: «sous-», under) er når brukerne selv aktivt deler persondata, samlet inn f eks av skrittellere og andre typer bevegelsesmålere.
  • Nettdugnad (engelsk: «crowdsourcing») er bruk av IKT-verktøy til massesamarbeid for å produsere nye produkter (Wikipedia) eller for å evaluere eksisterende produkter i stor skala (TripAdvisor). Slike dugnadsresultater kan være datasett som i seg selv er store (f eks Wikipedia og Wikidata) eller som kan inngå i stordatasett ved kombinering.

Åpne data

Åpne data, som forvaltnings- og forskningsdata, er data som er gjort alment tilgjengelige av offentlige, ideelle og, av og til, kommersielle organisasjoner. Enkelte åpne datasett er stordatasett i seg selv, f eks forskningsdata fra internasjonale forskningsfasiliteter som CERN eller fra maskiner for DNA-sekvensering. Andre åpne datasett kan inngå i stordata i kombinasjon med andre datasett.

Kilder:

  • https://no.wikipedia.org/wiki/Stordata
Du leser nå artikkelserien: Big Data

  Gå til neste / forrige artikkel i artikkelserien: << Big Data – kilde til innovasjon og konkurransefortrinnEgenskaper ved Big Data >>
    Andre artikler i serien er: 
  • Big Data – kilde til innovasjon og konkurransefortrinn
  • Kilder til Big Data
  • Egenskaper ved Big Data
  • Hvordan utnytte Big Data?
  • Data mining gir nye muligheter
  • Hvordan brukes Big Data idag?
  • Verdikjeden til Big Data
  • Big Data verdikjeden -> Innsamling av data
  • Big Data verdikjeden -> Lagring og aggregering
  • Big Data verdikjeden -> Analyse
  • Big Data verdikjeden -> Brukere og bruksområder
  • Big Data – personvernprinsipper under press
  • Big Data og sikkerhet
  • Big Data plan
  • Kjetil Sander
    Kjetil Sander (f.1968) grunnlegger, redaktør, forfatter og serieentreprenør. Gunnla Kunnskapssenteret.com i 2001 (i dag eStudie.no) og har siden vært portalens redaktør. Utdannet Diplom økonom og Diplom markedsfører fra BI/NMH. Har i dag mer enn 30 års erfaring som serieentreprenør, leder og styremedlem.