Kun ihminen tekee haun Googlesta, hänen käyttämänsä hakusanat tallentuvat hakukoneen tietokantaan. Tallennettuna on valtavia määriä raakadataa, josta erilaiset ohjelmat ja data-analyytikot laskevat tilastoja ja tekevät erilaisia mallinnuksia. Tämän seurauksena jokainen Googlen käyttäjä saa luettavakseen juuri omaan käyttäjäprofiiliinsa sopivia mainoksia.
Raakadatan hyödyntämiseksi ja jalostamiseksi kehitetään
jatkuvasti erilaisia tiedon louhinnan ja analyysin teknologioita. Muutama vuosi
sitten arvostetussa luonnontieteellisessä aikakauslehdessä Nature ilmestyi artikkeli,
jossa Googlen tutkijat kertoivat pystyvänsä ennakoimaan ja mallintamaan
flunssaepidemian leviämistä paremmin kuin kliinistä työtä tekevät lääkärit. Kun
ihminen tuntee flunssan oireita, hän hakee Googlesta tietoa sellaisilla
hakusanoilla kuin ”päänsärky” tai ”nuha.” Sairastunut ihminen tekee näitä hakuja jo
ennen kuin menee lääkäriin. Laskemalla flunssaan liittyvien hakusanojen määrän
lisääntymistä tietyllä maantieteellisellä alueella tehdyissä hauissa, Googlen
tutkijat pystyivät seuraamaan sairauden leviämistä huomattavasti lääkäreitä
nopeammin ja paremmin.
Kenneth Cukier ja Viktor Mayer-Schoenberger ovat Foreign Affairs –lehdessä julkaisemassaan
erinomaisessa artikkelissa The Rise ofBig Data (3/2013) väittäneet, että Big Data muuttaa käsityksemme
maailmasta. Suhtautuminen tietoon muuttuu kolmella eri tavalla, kun
käytettävissä on valtavia määriä digitaalista dataa. Ensinnäkin tiedon
analysointi muuttuu. Tilastotieteessä on perinteisesti käytetty pieniä koeryhmiä
ja otoksia, jotta saadaan tarkkoja tuloksia. Tähän ei enää ole tarvetta, koska
suuren datamäärän käyttäminen tuo lopulta parempia tuloksia kuin pienten näytteiden
analysointi. Toiseksi tulee luopua vaatimasta kaikelta datalta ehdotonta
tarkkuutta ja virheettömyyttä. Kun dataa on käytettävissä lähes loputtomia
määriä, pieni epätarkkuus voidaan hyväksyä. Kolmanneksi voidaan luopua
pyrkimästä selittämään asioiden kausaalisia syysuhteita. Kun käytettävissä on
paljon dataa, ei tarvitse enää tietää, miksi jokin asia tapahtuu. Tärkeämpää
sen sijaan on se, mitä tapahtuu. Analysoimalla Big dataa on mahdollista löytää
eri asioiden välisiä suhteita ja todennäköisyyksiä, vaikka niiden perimmäistä
syytä ei tiedettäisikään.
Yritykset pyrkivät yhä enemmän hyödyntämään Big dataa
ymmärtääkseen paremmin asiakkaitaan ja kohdentaakseen markkinointiaan
tarkemmin. Väitän, että Big data tulee seuraavien vuosien aikana muuttamaan
myös poliittista toimintaa. Puolueet saavat raakadatan louhinnalla käyttöönsä
aivan uudenlaista tietoa äänestäjien arvoista, käyttäytymisestä ja
mielipiteistä.
Tänä päivänä poliittisten asenteiden kehitystä seurataan
tavallisesti mielipidetutkimuksilla. Ne perustuvat yleensä siihen, että
haastateltaviksi valitaan koko kansan ominaisuuksia (ikä, sukupuoli, koulutus,
tulot ym.) mahdollisimman tarkasti kuvaava pieni otos, esimerkiksi tuhat
henkilöä. Haastattelujen tulokset yleistetään koskemaan koko kansaa, jolloin
voidaan päätellä, että esimerkiksi 30-vuotiaat akateemisesti koulutetut
yliopistokaupunkien naiset äänestävät todennäköisesti kokoomusta tai vihreitä.
Data-analyytikot voivat kuitenkin tulevaisuudessa saada
mielipidetutkimuksia huomattavasti tarkempia tuloksia analysoimalla ihmisten
Facebook – tykkäyksiä, Twitter – verkostoja ja Google –hakuja. Pienen otoksen
sijaan analysoitavana on Suomenkin kaltaisella pienellä kielialueella satoja
miljoonia hakusanoja ja klikkauksia. Big datan louhinta antaa mahdollisuuden
selvittää, millä todennäköisyydellä kuntosalilla viihtyvä kalliissa
omistusasunnossa asuva kasvissyöjämies äänestää sosialidemokraatteja. Big datan
avulla voidaan analysoida erilaisten ominaisuuksien välisiä todennäköisyyksiä
huomattavasti laajemmin kuin perinteisissä haastattelututkimuksissa. Suuri
datan määrä antaa mahdollisuuden tehdä myös tehdä hyvin yksityiskohtaisia
ristianalyyseja (kasvissyönti-kuntosali- sosialidemokraatit) sellaisista
ominaisuuksista, jotka eivät käy ilmi pienestä otoksesta.
Googlen hakusanat muodostavat tietokannan, jota
analysoimalla voidaan paljastaa politiikan heikkoja signaaleja. Olen aivan
varma siitä, että esimerkiksi perussuomalaisten nousu näkyi Googlesta tehdyissä
hauissa ennen kuin mielipidetutkimuksissa. Tony Halme valittiin eduskuntaan
vuonna 2003. Kun vaali-iltana haastateltiin asiantuntijoita, kaikki olivat
hyvin yllättyneitä hänen valinnastaan. Hänen läpimenonsa olisi todennäköisesti kuitenkin
ennakolta nähty, jos olisi analysoitu Googlen hakuja: ”Tony Halme” hakusanan käyttö kasvoi huomattavasti ennen
vaaleja.
Suuresta datamäärästä voidaan myös luoda erilaisia
poliittisia korrelaatioita. Suomessa ei aikaisempaan tapaan enää kiinnitytä
poliittisiin puolueisiin vaan liikkuvien äänestäjien määrä on jatkuvasti
kasvanut. Tutkimalla puolueaktiivien sosiaalisten mediaverkostojen (ml.
Facebook –ystävät, Twitterin seuraajat, Whatsapp – kumppanit) kehitystä
voitaisiin todennäköisesti päätellä, mitkä poliittiset ratkaisut saavat ihmiset
jättämään puolueen – tai kiinnittymään sen tukijaksi entistä tiiviimmin. Hallituksen
päätös ansiotulojen verojen korotuksesta todennäköisesti vaikuttaisi eri
tavalla kokoomuksen ja vasemmistoliiton kansanedustajien Facebook – ystävien
määrään ja tykkäyksiin. Jos mitään muutosta näissä muuttujissa ei olisi, se
osoittaisi poliittisen ratkaisun olevan huomattavasti vähemmän merkittävän kuin
tavallisesti on luultu.
Big datan louhinta antaa puolueille mahdollisuuden myös
poliittisen markkinoinnin täsmentämiseen. Yhdysvalloissa Googlen silmälasien
käyttäjiltä välittyy tietokantoihin esimerkiksi jatkuvaa dataa ihmisten
liikkumisesta. Kun näitä sijaintitietoja yhdistetään poliittisia mielipiteitä
kuvastavaan dataan, voidaan luoda maantieteellinen mallinnus siitä, miten
tietyn puolueen kannattajat liikkuvat ja kulkevat kaupungissa. Los Angelesissa
tällaista Big datasta jalostettua tietoa hyödynnetään esimerkiksi puolueiden
varainkeräyksissä.
Big datan myötä voidaan laskea uudella tavalla poliittisia todennäköisyyksiä
ja korrelaatioita. Data-analyy-tikoille kiinnostavia ovat eri ominaisuuksien
väliset, usein yllättävätkin suhteet. Big data on esimerkiksi paljastanut, että
poikalapsen syntyminen muuttaa vanhempien poliittista käyttäytymistä eri
suuntaan kuin tyttölapsen syntymä. Poikalapsen synnyttyä vanhemmat alkavat
usein korostaa aikaisempaa enemmän oikeistolaisia arvoja. Tyttölapsen syntymä
sen sijaan saa vanhemmat äänestämään aikaisempaa vasemmistolaisemmin.
On selvää, että Big datan hyödyntämiseen liittyy monia
vaaroja esimerkiksi ihmisten yksityisyyden kannalta. Kuten kaikki teknologian
muutokset, Big data voi olla joko uhka tai mahdollisuus. Todennäköisesti se on molempia.
Jatkuvasti laajeneva digitaalisen
informaation määrä luo uusia mahdollisuuksia hyödyntää tietoa, mutta samalla
ihmisten yksityisyyden piiri kapenee. Timo Turja
2 kommenttia:
Hyvä ja erittäin ajankotainen blogi.
Tuon esille painavammin yhden näkölkulman.
Yhdysaltain maailmanlaajuinen urkinta ja salakuuntelu sekä siinä käytetyt älykkäät ict-sovellukset ovat tarjonnet etenkin maan tietoalan ja myös muille yrityksille olla mukana kehittämässä älykkäitä ict-sovellutuksía käsittelemään ja analysoimaan myös epäyhtenäistä dataa.
Tästä syystä Yhdysvaltain uudistuskyky ja talouden kasvu ovat pysyvästi muita talousalueita edellä. Tämä kasvu korvaa sen menetyksen, kun maa ei enää ole se suuri poreileva projekti, jota se vielä oli 1800- ja1900-vuosisadoilla.
http://huttunenpekka.blogspot.fi blogi 608
Hyvä teksti
Lähetä kommentti