Parlamenttikirjasto

maanantai 17. maaliskuuta 2014

Politiikka ja Big data

Internetin, sosiaalisen median ja erilaisten sovellusohjelmien sisältämään valtavaan informaation määrään on tavallisesti suomenkielessäkin viitattu englanninkielisellä termillä Big data.
Kun ihminen tekee haun Googlesta, hänen käyttämänsä hakusanat tallentuvat hakukoneen tietokantaan. Tallennettuna on valtavia määriä raakadataa, josta erilaiset ohjelmat ja data-analyytikot laskevat tilastoja ja tekevät erilaisia mallinnuksia. Tämän seurauksena jokainen Googlen käyttäjä saa luettavakseen juuri omaan käyttäjäprofiiliinsa sopivia mainoksia.

Raakadatan hyödyntämiseksi ja jalostamiseksi kehitetään jatkuvasti erilaisia tiedon louhinnan ja analyysin teknologioita. Muutama vuosi sitten arvostetussa luonnontieteellisessä aikakauslehdessä Nature  ilmestyi artikkeli, jossa Googlen tutkijat kertoivat pystyvänsä ennakoimaan ja mallintamaan flunssaepidemian leviämistä paremmin kuin kliinistä työtä tekevät lääkärit. Kun ihminen tuntee flunssan oireita, hän hakee Googlesta tietoa sellaisilla hakusanoilla kuin ”päänsärky” tai ”nuha.”  Sairastunut ihminen tekee näitä hakuja jo ennen kuin menee lääkäriin. Laskemalla flunssaan liittyvien hakusanojen määrän lisääntymistä tietyllä maantieteellisellä alueella tehdyissä hauissa, Googlen tutkijat pystyivät seuraamaan sairauden leviämistä huomattavasti lääkäreitä nopeammin ja paremmin.  
Kenneth Cukier ja Viktor Mayer-Schoenberger ovat  Foreign  Affairs –lehdessä julkaisemassaan erinomaisessa artikkelissa The Rise ofBig Data (3/2013) väittäneet, että Big Data muuttaa käsityksemme maailmasta. Suhtautuminen tietoon muuttuu kolmella eri tavalla, kun käytettävissä on valtavia määriä digitaalista dataa. Ensinnäkin tiedon analysointi muuttuu. Tilastotieteessä on perinteisesti käytetty pieniä koeryhmiä ja otoksia, jotta saadaan tarkkoja tuloksia. Tähän ei enää ole tarvetta, koska suuren datamäärän käyttäminen tuo lopulta parempia tuloksia kuin pienten näytteiden analysointi. Toiseksi tulee luopua vaatimasta kaikelta datalta ehdotonta tarkkuutta ja virheettömyyttä. Kun dataa on käytettävissä lähes loputtomia määriä, pieni epätarkkuus voidaan hyväksyä. Kolmanneksi voidaan luopua pyrkimästä selittämään asioiden kausaalisia syysuhteita. Kun käytettävissä on paljon dataa, ei tarvitse enää tietää, miksi jokin asia tapahtuu. Tärkeämpää sen sijaan on se, mitä tapahtuu. Analysoimalla Big dataa on mahdollista löytää eri asioiden välisiä suhteita ja todennäköisyyksiä, vaikka niiden perimmäistä syytä ei tiedettäisikään.

Yritykset pyrkivät yhä enemmän hyödyntämään Big dataa ymmärtääkseen paremmin asiakkaitaan ja kohdentaakseen markkinointiaan tarkemmin. Väitän, että Big data tulee seuraavien vuosien aikana muuttamaan myös poliittista toimintaa. Puolueet saavat raakadatan louhinnalla käyttöönsä aivan uudenlaista tietoa äänestäjien arvoista, käyttäytymisestä ja mielipiteistä.
Tänä päivänä poliittisten asenteiden kehitystä seurataan tavallisesti mielipidetutkimuksilla. Ne perustuvat yleensä siihen, että haastateltaviksi valitaan koko kansan ominaisuuksia (ikä, sukupuoli, koulutus, tulot ym.) mahdollisimman tarkasti kuvaava pieni otos, esimerkiksi tuhat henkilöä. Haastattelujen tulokset yleistetään koskemaan koko kansaa, jolloin voidaan päätellä, että esimerkiksi 30-vuotiaat akateemisesti koulutetut yliopistokaupunkien naiset äänestävät todennäköisesti kokoomusta tai vihreitä.

Data-analyytikot voivat kuitenkin tulevaisuudessa saada mielipidetutkimuksia huomattavasti tarkempia tuloksia analysoimalla ihmisten Facebook – tykkäyksiä, Twitter – verkostoja ja Google –hakuja. Pienen otoksen sijaan analysoitavana on Suomenkin kaltaisella pienellä kielialueella satoja miljoonia hakusanoja ja klikkauksia. Big datan louhinta antaa mahdollisuuden selvittää, millä todennäköisyydellä kuntosalilla viihtyvä kalliissa omistusasunnossa asuva kasvissyöjämies äänestää sosialidemokraatteja. Big datan avulla voidaan analysoida erilaisten ominaisuuksien välisiä todennäköisyyksiä huomattavasti laajemmin kuin perinteisissä haastattelututkimuksissa. Suuri datan määrä antaa mahdollisuuden tehdä myös tehdä hyvin yksityiskohtaisia ristianalyyseja (kasvissyönti-kuntosali- sosialidemokraatit) sellaisista ominaisuuksista, jotka eivät käy ilmi pienestä otoksesta. 
Googlen hakusanat muodostavat tietokannan, jota analysoimalla voidaan paljastaa politiikan heikkoja signaaleja. Olen aivan varma siitä, että esimerkiksi perussuomalaisten nousu näkyi Googlesta tehdyissä hauissa ennen kuin mielipidetutkimuksissa. Tony Halme valittiin eduskuntaan vuonna 2003. Kun vaali-iltana haastateltiin asiantuntijoita, kaikki olivat hyvin yllättyneitä hänen valinnastaan. Hänen läpimenonsa olisi todennäköisesti kuitenkin ennakolta nähty, jos olisi analysoitu Googlen hakuja:  ”Tony Halme”  hakusanan käyttö kasvoi huomattavasti ennen vaaleja.

Suuresta datamäärästä voidaan myös luoda erilaisia poliittisia korrelaatioita. Suomessa ei aikaisempaan tapaan enää kiinnitytä poliittisiin puolueisiin vaan liikkuvien äänestäjien määrä on jatkuvasti kasvanut. Tutkimalla puolueaktiivien sosiaalisten mediaverkostojen (ml. Facebook –ystävät, Twitterin seuraajat, Whatsapp – kumppanit) kehitystä voitaisiin todennäköisesti päätellä, mitkä poliittiset ratkaisut saavat ihmiset jättämään puolueen – tai kiinnittymään sen tukijaksi entistä tiiviimmin. Hallituksen päätös ansiotulojen verojen korotuksesta todennäköisesti vaikuttaisi eri tavalla kokoomuksen ja vasemmistoliiton kansanedustajien Facebook – ystävien määrään ja tykkäyksiin. Jos mitään muutosta näissä muuttujissa ei olisi, se osoittaisi poliittisen ratkaisun olevan huomattavasti vähemmän merkittävän kuin tavallisesti on luultu.
Big datan louhinta antaa puolueille mahdollisuuden myös poliittisen markkinoinnin täsmentämiseen. Yhdysvalloissa Googlen silmälasien käyttäjiltä välittyy tietokantoihin esimerkiksi jatkuvaa dataa ihmisten liikkumisesta. Kun näitä sijaintitietoja yhdistetään poliittisia mielipiteitä kuvastavaan dataan, voidaan luoda maantieteellinen mallinnus siitä, miten tietyn puolueen kannattajat liikkuvat ja kulkevat kaupungissa. Los Angelesissa tällaista Big datasta jalostettua tietoa hyödynnetään esimerkiksi puolueiden varainkeräyksissä.

Big datan myötä voidaan laskea uudella tavalla poliittisia todennäköisyyksiä ja korrelaatioita. Data-analyy-tikoille kiinnostavia ovat eri ominaisuuksien väliset, usein yllättävätkin suhteet. Big data on esimerkiksi paljastanut, että poikalapsen syntyminen muuttaa vanhempien poliittista käyttäytymistä eri suuntaan kuin tyttölapsen syntymä. Poikalapsen synnyttyä vanhemmat alkavat usein korostaa aikaisempaa enemmän oikeistolaisia arvoja. Tyttölapsen syntymä sen sijaan saa vanhemmat äänestämään aikaisempaa vasemmistolaisemmin.
On selvää, että Big datan hyödyntämiseen liittyy monia vaaroja esimerkiksi ihmisten yksityisyyden kannalta. Kuten kaikki teknologian muutokset, Big data voi olla joko uhka tai mahdollisuus. Todennäköisesti se on molempia.  Jatkuvasti laajeneva digitaalisen informaation määrä luo uusia mahdollisuuksia hyödyntää tietoa, mutta samalla ihmisten yksityisyyden piiri kapenee.

Timo Turja
 

2 kommenttia:

Pekka Huttunen kirjoitti...

Hyvä ja erittäin ajankotainen blogi.

Tuon esille painavammin yhden näkölkulman.

Yhdysaltain maailmanlaajuinen urkinta ja salakuuntelu sekä siinä käytetyt älykkäät ict-sovellukset ovat tarjonnet etenkin maan tietoalan ja myös muille yrityksille olla mukana kehittämässä älykkäitä ict-sovellutuksía käsittelemään ja analysoimaan myös epäyhtenäistä dataa.

Tästä syystä Yhdysvaltain uudistuskyky ja talouden kasvu ovat pysyvästi muita talousalueita edellä. Tämä kasvu korvaa sen menetyksen, kun maa ei enää ole se suuri poreileva projekti, jota se vielä oli 1800- ja1900-vuosisadoilla.

http://huttunenpekka.blogspot.fi blogi 608

Anonyymi kirjoitti...

Hyvä teksti