Stordata revolusjonerer alt fra undervisning til politikk
Stordata revolusjonerer alt fra undervisning til politikk
12
JUNI, 2017
12. JUNI, 2017
Av Ruth Lothe
Spranget fra undervisning som er skreddersydd din personlighetstype til politisk reklame som er spisset inn mot akkurat dine fordommer er ikke stort, i en verden hvor såkalte stordata skaper nye muligheter.

– Men vi må huske at det også kan misbrukes, sier professor i biostatistikk Solve Sæbø.

Som statistikkprofessor er han over gjennomsnittet interessert i muligheter og fallgruver som ligger i stordata, altså store og komplekse samlinger av data.

– Veien fra statistikk til stordata er ikke lang: for hva er statistikk annet enn å analysere store mengder informasjon og trekke ut enkelte sammenhenger eller regnestykker? Det som er nytt er at datamengden er så stor, og regnemaskinene er blitt så mye bedre. Stordata har gitt et kvantesprang i nesten all forskning, sier Solve Sæbø.

Solve Sæbø

Solve Sæbø,
professor ved Fakultet for kjemi, bioteknologi og matvitenskap, NMBU

Skreddersydd undervisning
Selv forsker Sæbø på læring og på hvordan de ulike personlighetstyper blant oss lærer best. Han samarbeider med psykolog dr. Helge Brovold i å analysere resultatene fra utdanningstesten til Nasjonal Senter for Realfagsrekruttering (www.velgriktig.no), hvor så langt om lag 50000 unge mennesker frivillig har besvart spørsmål knyttet til realfagsutdanning.

Spørsmålene går på yrkesinteresse, personlighet, ønske om læringsmetode og preferanser for realfag. Sæbø har brukt samme testen på studentene som tar grunnkurset i statistikk ved NMBU, for å se på hvordan de anonymiserte studentprofilene samsvarer med læringsresultater, kursevalueringer og deltagelse i kollokviegrupper.

En del av forskningen baseres på Femfaktormodellen, som grupperer mennesker i fem kategorier etter hvor emosjonell, åpen, planmessig, nevrotisk og medmenneskelig du er. Dette har blitt et standardverktøy i Psykometri (måling av psykologiske trekk, f.eks. personlighetstrekk).

Studenter i kollokviegruppe

Trives i flokk. Noen lærer bedre av å prate, andre ved å lese alene.

Foto: Lillian Andersen

Hensikten er å finne ut hvordan vanlig forelesnings-undervisning fungerer for ulik personligheter, sammenlignet med mer studentaktive undervisningsformer, som for eksempel såkalt «omvendt klasserom»-undervisning (Flipped Classroom), med stor vekt på gruppearbeid (se faktaramme).

Jazz- og korpsmusikanter
Resultatene så langt tyder på at personlighetstyper som samarbeider og prater seg til kunnskap, kan ha stort utbytte av omvendte klasserom. Det har også mer kreative typer, det Sæbø kaller jazzmusikere.

Personlighetstyper som ikke liker å jenke seg mot midten derimot, de som liker bedre å jobbe individuelt ved å lese og regne oppgaver og de som foretrekker et fast strukturert kursopplegg, kan like godt følge tradisjonelle forelesninger. Disse er mer som korpsmusikanter.

Slik kan denne forskningen, basert på stordata, avdekke hvordan flere av typen jazzmusikere kan lokkes inn i realfag, ikke bare korpsmusikerne som det tradisjonelt har vært flest av i realfag.

 

Improvisasjon. Flere jazzmusiker-typer trengs i realfag, hvor korpsmusikk-typer til nå har vært flest.

Miles Davis, Den Haag, 1986
Foto: Rvb Creative commons

Miles Davis
Improvisasjon. Flere jazzmusiker-typer trengs i realfag, hvor korpsmusikk-typer til nå har vært flest.

Miles Davis, Den Haag, 1986
Foto: Rvb Creative commons

Ja til statistikk, takk
Stordata er informasjon som kjennetegnes ved høyt volum, høy hastighet og/eller høy grad av variasjon, og som krever nye metoder for prosessering og tilrettelegging for å kunne fungere som grunnlag for forbedrede beslutninger, økt innsikt og optimalisering av prosesser (se faktaramme nederst i saken).

Det finnes nå tilgjengelig teknologi som gjør det mulig å samle inn og lagre enorme datamengder raskt og kostnadseffektivt. Vi kan sette sammen strukturert og ustrukturert informasjon og bruke denne informasjonen til å se sammenhenger, lage analyser og generere innsikt som vi tidligere ikke trodde var mulig.

Analysen av store mengder med data er selvfølgelig veldig mye enklere når en maskin kan utføre de statistiske analysene og lete etter mønstre for oss. Vi kan jo tenke oss hvilken kjempejobb det hadde vært å telle-, notere-, og sammenstille de ulike svarene fra 50 000 personer.

Slik er det i veldig mange forskningsprosjekter om dagen. Dataene kan samles inn på utrolig lettvinte måter, og analyseres på ymse vis. Og det her er kunnskap om statistikk kommer inn, for det kan også føre helt vilt avsted.

Å finne faktiske årsaker
Kunnskap om forskjellen på kausalitet (årsakssammenheng) og korrelasjon (samvariasjon) er av avgjørende betydning. Det kan komme mange falske nyheter ut av å misforstå dette.

Et eksempel er en mye omtalt artikkel som ble publisert i Demography hvor konklusjonen var at barn med høyere utdanning har foreldre med bedre helse og lengre liv. Etter å ha dokumentert den statistiske sammenhengen, altså korrelasjonen, går forskerne i den klassiske fellen: Å gi sammenhengen en kausal fortolkning. Les om dette i Aftenpostens artikkel: Så galt kan det gå.

Tilsynelatende kausalitet kan oppstå på grunn av en så praktisk årsak som begrenset økonomi i forskningsprosjektet. For å finne faktisk korrelasjon er forskerne nemlig avhengig av nok, dvs. veldig mange, testobjekter eller i dette tilfellet: personer.

Sæbø nevner som eksempel et forskningsteam som vil undersøke om årsaken til reumatisme er å finne i genmaterialet til personene som får sykdommen.

«Forskerne tror dermed at tilfeldige markører er en indikasjon eller i verste fall årsaken til sykdommen.»

De genetiske analysemetodene er nå blitt så avanserte at forskerne kan teste for si 500 000 ulike gen-variasjoner i en vevsprøve. Forskerne tar vevsprøve av 20 personer, ti friske og ti syke. Det er tid- og arbeidskrevende, og de har ikke økonomisk ramme til å teste flere. De analyserer prøvene for 500 000 forskjellige variabler (markører) og finner typisk at flere slike genetiske markører korrelerer med det å ha gikt. Her er det lett å gå i fella dersom man ikke tar høyde for et statistisk problem kjent som multippel testing, sier Sæbø:

– Fordi man tester så mange variabler er det stor sannsynlighet for at en eller flere tilfeldige markører har målinger som går opp på de syke og ned på de friske. Forskerne tror dermed at tilfeldige markører er en indikasjon eller i verste fall årsaken til sykdommen, sier Solve Sæbø og fortsetter:

– Dette kan enkelt avsløres ved å hente inn data fra 20 nye personer for å sjekke disse markørene, men svært ofte blir dessverre ikke en slik oppfølgende studie gjort som en del av hovedstudien.

For å forstå dette kan vi tenke på Lotto. Fordi det er så ekstremt mange som leverer inn ulike kuponger, vil en eller noen få, mot nesten umulige odds (1: ca. 5 mill.), få alle rette og vinne. For sammenligningens skyld kan vi her si at alle tipperne tilsvarer variablene i reumatisme-eksempelet over, mens den kupongen som blir trukket på Hamar svarer til gikttilfellene.

Storebror ser deg
Stordata kan sies å være summen av store mengder strukturerte og ustrukturerte data.

Strukturerte data er transaksjonsdata som vi typisk finner i tradisjonelle datavarehus, økonomisystemer, kundedatabaser, osv. Ustrukturerte data er data som typisk ikke kan struktureres i tabeller – Twitter og facebook-meldinger, bilder, tekst, osv.

Stordata gjør det mulig å modellere ekstremt komplekse systemer som intet menneske ville kunne gjøre uten digital kraft. Kombinasjonen av stordata og såkalt kunstig intelligens gir oss stadig flere hjelpemidler i hverdagen, fra selvkjørende biler og automatiserte jordbruksmaskiner til avanserte proteser eller automatisk ansiktsgjenkjenning på mobilen. Mulighetene er nærmest ubegrensede.

Dessverre kan disse redskapene brukes med mindre edle hensikter enn å skape god undervisning eller å bringe ny og nyttig kunnskap til torgs gjennom forskning.

Mobilbrukere på konsert bidrar til innsamling av stordata

Frivillig forteller tusenvis av folk hvor de er, hva de ser og hva de liker til den store veven.

Foto: Ververidis Vasilis / Shutterstock.com

Tenk for eksempel på all informasjon om oss selv vi legger ut på Facebook og Twitter. Vi selv, eller folk flest, er da forskningsobjekter og all informasjonen er systematisert som variabler. Tenk hvis noen utvikler en metode for å analysere dette, og så bruke det mot oss?

Vel, det har allerede skjedd. Facebook selv analyserer våre preferanser og gir oss reklame for ting vi har vist oss interessert i – det er åpenbart for alle som har en mer eller mindre aktiv konto.

Oversikt over likes på Facebook, søk i Google – kan gi avslørende personlighetsprofiler helt ned på individnivå, såfremt statistikkekspertisen er på plass. Dette kan brukes til ekstremt spisset markedsføring mot enkeltpersoner.

Farvel til privatliv?
Stordata er i denne sammenhengen – og jeg siterer fra artikkelen på nrk.no – Dataene som snudde verden på hodet:

[…]de digitale sporene vi etterlater oss, både på og utenfor nettet, hver gang vi foretar oss noe. Hver gang vi bruker et betalingskort. Hver gang vi søker på nettet. Hver bevegelse vi foretar oss med mobilen i lomma. Hver gang vi trykker på «liker». Alt blir lagret. Særlig «liker»-klikkene våre. Lenge har det vært uklart hva disse opplysningene kan brukes til, kanskje med unntak av at vi blir vist reklame for blodtrykksmedisiner dersom vi søker etter «høyt blodtrykk» på Google.

Artikkelen fokuserer på bruken av stordata i politisk kommunikasjon, og mer enn antyder at bruken av slike verktøy hjalp Donald Trump til vinne presidentvalget i USA.

Trump på poster

Politisk propaganda. Hvis politisk reklame direkte til vår facebookside er basert på våre egne likes og dislikes; hvordan skal vi utvide vår horisont?

Foto: Michael F. Hiatt / Shutterstock.com

Hvis analytikerne har veldig mange objekter, si alle Facebook-brukerne i USA, og veldig mange variabler i form av likes, klikkmønster og meningsytringer, kan stordata ha en skremmende treffsikkerhet. Analyser av våre Facebook og Twitter-kontoer avdekker avslørende kunnskap av hvem vi er eller i hvert fall de delene av oss vi velger å legge ut på nett – og noen legger ut veldig mye, slik denne artikkelen i Stavanger Aftenblad beskriver: Michal Kosinski: Retten til et privatliv, slik vi kjenner det, er definitivt over.

Stordata til glede og besvær
Stordata, kan altså brukes som grunnlag for alt fra å skreddersy undervisning til forskjellige personlighetstyper til politisk annonsering tilpasset enkeltpersoner.

Det ligger enorme muligheter i stordata: Innen forskning, innovasjon og ikke minst til manipulering. Vi må forbli skeptiske og årvåkne – og det skader ikke å kunne statistikk.

I samtalen med Solve Sæbø, avslutter han lakonisk:
– Det  er i dag fremdeles som Francis Bacon sa det på 1500-tallet: Kunnskap er makt.

Flipped classroom / Omvendt klasserom
Nei, det er ikke et utflippet klasserom det er snakk om – men et snudd klasserom. Istedenfor at underviseren står foran og lærer bort – lærer studentene faget gjennom gruppearbeid og samtaler, altså gjennom seg selv på et vis. Det er nødvendigvis avhengig av en viss input, så i forkant har studentene sett forelesningene i ro og mak på en eller annen digital dings.

Det de faktisk skal jobbe med i gruppene skal være noe som føles relevant, noe studentene kan kjenne seg igjen i. Et (skole)eksempel er da Sæbø ga studentene i oppgave å gå inn på finn.no og sammenligne bilpriser. De hentet alle data selv, og laget så en statistikk over bilpriser i Norge.

Big data
Big Data er data som kan kjennetegnes ved tre V’er, Volume (volum), Variety (variasjon) og Velocity (hastighet).

• Volume: Tilgjengelig data øker i omfang – IBM estimerer at det innen 2020 kommer til å genereres 2,3 trillioner gigabyte data hver dag, som tilsvarer 107 millioner blue-ray disker eller 4,2 milliarder fulle CD’er

• Variety: Ulike typer data er tilgjengelig fra en rekke ulike datakilder – 400 millioner Twitter-meldinger sendes hver dag, og stadig flere datakilder kobles opp mot internett og genererer informasjon

• Velocity: Data er tilgjengelig raskere enn før og vi ønsker at dataene er tilgjengelige i tilnærmet sanntid

IBM har valgt å ta med enda en V i sin definisjon av Big Data, Veracity (pålitelighet) – usikkerhet knyttet til kvalitet i dataene, og viktigheten av å kunne stole på dataene

PUBLISERT I SERIEN

BYUTVILKING MED VIRTUAL REALITY

EN SERIE FRA NMBU
FINN ALLE ARTIKLENE HER
PUBLISERT I SERIEN
FINN DRØMMETREET MED DIGITALISERT SKOG

Pin It on Pinterest

Share This