Domene og webhotell fra OnNet.no

    Denne artikkelen er del 8 av 14 artikler om Big Data

Lese tid (240 ord/min): 5 minutter

Det første trinnet i verdikjeden for Big Data er innsamling av opplysninger som skal danne grunnlag for videre analyse. Et av karaktertrekkene ved Big Data er at det benyttes et mangfold av ulike datakilder, og både strukturerte og ustrukturerte data. Det kan være datakilder som inneholder personopplysninger, eller kilder som ikke inneholder slike opplysninger, slik som for eksempel værdata og opplysninger generert fra sensorer i ulike typer produksjonsutstyr i en fabrikkhall.

Det er datakilder som inneholder personopplysninger som er interessante fra vårt perspektiv, og slike kilder er det mange av; vi legger igjen elektroniske spor i forbindelse med gjennomføringen av de fleste av våre aktiviteter fra vi står opp til vi legger oss. Dagen starter ved å sjekke Facebook. Bomringen registrerer når du kjører til og fra jobb. Kundekortet i butikken og kredittkortet registrerer dine innkjøp. Adgangskortet på jobben noterer når du starter og slutter dagen. Mobiltelefonen i lomma og bruk av lokasjonsbaserte applikasjoner registrerer ditt bevegelsesmønster gjennom hele dagen. Alt dette kan være relevante og attraktive kilder i Big Data-sammenheng.

Utviklingen mot Tingenes Internett vil bidra til å generere nye strømmer av data. Tingenes Internett betyr at stadig flere gjenstander og personer blir utstyrt med enheter som kommuniserer trådløst med hverandre i nettverk. Enhetene kan være sensorer som samler data eller RFID-brikker som brukes for å identifisere gjenstander, dyr eller personer. Slike enheter kan brukes til å overvåke og styre gjenstander, personer eller prosesser, og vi kan fjernstyre disse gjennom apper eller nettsider. For eksempel kan du sjekke om døren er låst hjemme og låse den dersom den ikke er det. Dine treningssko kan kommunisere med smarttelefonen slik at du får alle detaljer om din treningsrunde, og alarmklokken kan snakke med kaffetrakteren og lysbryteren, og tilpasse seg dine behov. Men det er ennå ikke slik at alle ting styres over Internett. Mange enheter kan kun styres innenfor et lokalt nettverk. Teknologien finnes i dag, og med IPv6 ligger det til rette for at hver enkelt ting kan få sin unike identifikator (URI) og dermed bli tilgjengelig over Internett. Tingenes Internett er en disruptiv10 teknologi og når dette tar av, vil Big Data bli virkelig stort.

Personvernutfordringer ved Tingenes Internett oppstår når det blir samlet inn og aggregert deler av data som relaterer seg til ulike gjenstander eller tjenester. En samling av mange fragmenter av data kan plutselig bli personopplysninger når hendelser blir vurdert i kontekst av sted, tid og gjentakelser. Bruk av sensorteknologi i dagligvarebutikker kan for eksempel gi indikasjoner om religion, eller gi grunnlag for antakelser om en persons livsstil og helse ved at det avslører rutinemessig innkjøp av bestemte matvarer. Sensordata hentet ut fra kjøleskapet kan for eksempel si noe om eierens hverdagsrutiner; når man er hjemme, når på døgnet man spiser, hvor ofte osv. Med ny teknologi og nye ting som kobles til Internett vil det også dukke opp nye sårbarheter som gjør at applikasjoner og systemer kan angripes. TV-en kan bli hacket, og appen som styrer sikkerhetsalarmen hjemme kan bli hacket eller lekke opplysninger til en tredjepart (ars technica 2012). 

Personopplysninger kan hentes inn på ulike måter:

  • Det kan skje frivillig ved at personer eksplisitt stiller personopplysninger om seg selv til rådighet. Dette kan for eksempel skje ved at man oppretter en profil på et sosialt nettsted, oppgir opplysninger for å bli medlem av et lojalitetsprogram til en butikkjede, laster ned en applikasjon på mobiltelefonen eller registrerer opplysninger om seg selv for å få tilgang til en tjeneste.
  • Personopplysninger kan bli automatisk registrert av virksomheter i forbindelse med at man benytter en bestemt tjeneste – dette i motsetning til opplysninger man oppgir på forespørsel. Eksempler på slike data er lokasjonsdata, nettleserhistorikk, handlevaner, besøkshistorikk på treningssenteret og passeringsdata i bomringen.
  • Personopplysninger kan bli utledet gjennom bearbeiding og analyse av data innsamlet for tidligere og andre formål. Personopplysninger kan også bli utledet fra ulike sett med tilsynelatende anonyme opplysninger.
  • Innsamling av personopplysninger til de statlige og kommunale myndighetene kan være nedfelt i egen lov og forskrift. Dette gjelder for eksempel personopplysninger i pasientjournal, i skattelistene og i kjøretøyregisteret.

Svært mange av opplysningene som benyttes i Big Data-sammenheng er generert på nett. Disse opplysningene kan samles inn eksplisitt (når man registrere en sosial profil på nett), eller mer i det skjulte, slik det gjøres ved bruk av sporingsteknologi. Bruk av cookies krever nå samtykke slik at innsamlingen skal bli mer synlig for brukerne og gi dem mer kontroll. Vi beskriver her ulike teknikker som benyttes for å samle inn personopplysninger på nett:

  • Web tracking (sporing på nett) kan defineres som innsamling, analyse og bruk av data bestående av brukeraktivitet fra en datamaskin eller annen enhet mens man bruker ulike nettjenester. Hensikten for de som samler inn data er å kombinere og analysere opplysningene til ulike formål. Det som skaper størst utfordringer ved sporing på nett er når det gjøres av en tredjepart. Et eksempel på dette er når man som registrert bruker på et nettsted klikker på en bannerannonse på dette nettstedet, og e-postadressen dermed blir sendt videre til et dusin andre selskaper (Mayer 2011).
  • Cookies (informasjonskapsler) er små tekstfiler som plasseres på en brukers datamaskin når man laster ned en nettside. En cookie kan inneholde informasjon som brukeren har registrert på siden, for eksempel brukernavn og passord i kryptert form, og som oversendes nettsiden ved påfølgende besøk. På den måten er det ikke nødvendig å registrere informasjonen mer enn én gang.
  • Supercookies er en slags cookie som blir permanent lagret på en brukers datamaskin. Supercookies er generelt vanskeligere for brukerne å finne og fjerne fra deres enheter siden disse ikke kan slettes på samme måte som vanlige cookies.
  • Browser fingerprinting kan brukes som sporingsteknikk mot folk som begrenser bruken av cookies. Metoden går ut på å samle inn data om hva slags nettleser man har, installerte plugins, systemfonter, type nettleser, operativsystem, tidssone, skjermoppløsning og fargedybde, og om cookies er blokkert. En måte å bruke browser fingerprinting på er å kombinere metoden med en IP-adresse for å finne ut hvilke enheter som skjuler seg bak den enkelte IP-adressen. Browser fingerprinting er en kraftig teknikk og et slikt fingeravtrykk kan likestilles med cookies, IP-adresser og supercookies når det snakkes om sporing på nett (Eckersley 2010).

Kilde:

Denne artikkelen er gjengitt i sin helhet som et utdrag fra Datatilsynet Big Data rapport: https://www.datatilsynet.no/globalassets/global/04_planer_rapporter/big-data_web.pdf

Du leser nå artikkelserien: Big Data

  Gå til neste / forrige artikkel i artikkelserien: << Verdikjeden til Big DataBig Data verdikjeden -> Lagring og aggregering >>
    Andre artikler i serien er: 
  • Big Data – kilde til innovasjon og konkurransefortrinn
  • Kilder til Big Data
  • Egenskaper ved Big Data
  • Hvordan utnytte Big Data?
  • Data mining gir nye muligheter
  • Hvordan brukes Big Data idag?
  • Verdikjeden til Big Data
  • Big Data verdikjeden -> Innsamling av data
  • Big Data verdikjeden -> Lagring og aggregering
  • Big Data verdikjeden -> Analyse
  • Big Data verdikjeden -> Brukere og bruksområder
  • Big Data – personvernprinsipper under press
  • Big Data og sikkerhet
  • Big Data plan
  • Kjetil Sander
    Kjetil Sander (f.1968) grunnlegger, redaktør, forfatter og serieentreprenør. Gunnla Kunnskapssenteret.com i 2001 (i dag eStudie.no) og har siden vært portalens redaktør. Utdannet Diplom økonom og Diplom markedsfører fra BI/NMH. Har i dag mer enn 30 års erfaring som serieentreprenør, leder og styremedlem.