Mitkä tekijät johtavat demokratiaan? Seuraako vauraus demokratisoitumisesta vaiko demokratia vauraudesta? Demokratia ja demokratisoituminen ovat poliittisen tutkimuksen klassikkokysymyksiä. En ota kantaa siihen loputtomaan suohon, mikä on demokratian määrittely käsitteenä. Sen sijaan keskityn jälkimmäiseen; mitkä tekijät edesauttavat demokratisoitumista?
Perinteisesti demokratian juurtumista on selitetty valtion vauraudella, talousjärjetelmällä, kulttuuriperinteillä, poliittisen osallistumiskulttuurin perinteillä ja, myös, kansainvälisellä painostuksella (eli demokratia-ristiretkillä a la Irakin sota). Keskityn näistä ensimmäiseen, lisäten soppaan myös yhteiskunnan sosiaalisen kehityksen mittareita. Kuten kaikessa muussakin tilastotieteellisessä
toiminnassa, syy-seuraussuhteiden tulkinnan kanssa pitää muistaa olla
tarkka. Itse kuulun koulukuntaan, jonka mukaan demokraattinen
järjestelmä vähintään yhtä paljon aiheuttaa kuin seuraa taloudellista hyvinvointia (yhtä kirjaa suositellakseni, Daron Acemoglun ja James
Robinsonin Why Nations Fail on erinomainen katsaus aiheeseen). Menemättä sen syvällisemmin aiheen loputtomaan kirjallisuuteen ja teoriaan, siirrytään aineistoon ja menetelmiin. Eihän ketään kiinnosta lukea nälkävuoden mittaisia blogitekstejä tänä hektisenä Internet-aikakautena kun ei ehdi pitkiä kalsareitakaan käyttämään.
Demokratian mittarina käytän The Economistin koostamaa demokratiaindeksiä, joka on mielestäni tarpeeksi validi numeerinen mittari ikiaikaiselle ongelmakysymykselle. Selittävät muuttujat löytyvät Maailmanpankin tietovarastosta, joka kattaa todella laajan skaalan erilaisia kehityksen indikaattoreita. Demokratiaindeksin viitevuotena on 2014 ja Maailmanpankin indikaattoreiden 2013, lähinnä koska 2014 on vielä niin vajavainen tiedoiltaan. Lähinnä omaan fiilikseen ja sattumaan perustuvalla otantamenetelmällä vailla suurempia teoreettisia perusteita ja hypoteeseja selittäviksi muuttujiksi valikoitui eliniänodote, alaikäisten tyttöjen suorittamien synnytysten aste, netinkäytön kattavuus, kaupungistumisaste, kansalaisten tulotaso, puolustusmenojen osuus BKT:sta, maatalouden arvonlisäyksen osuus BKT:sta, asumistiheys, kaupungistumisaste ja aika, joka kuluu yrityksen perustamiseen.(muitakin muuttujia valittiin, mutta niissä puuttuvien arvojen osuus oli liian iso). Muuttujat ovat mukana sekä kategorisina, että muokkaamattomina numeerisina eri päätöspolkutekniikoiden havainnollistamiseksi.
Kun siivosin datasta valtioryhmittymät, kuten EU:n, sekä puuttuvia havaintoja jossain muuttujassa omaavat tapaukset, jäljelle jäi 110 valtiota. (suuri filosofinen kysymys on, että mitä puuttuville havainnoille pitäisi tehdä, imputoida, poistaa vai olla huomioimatta? Valitsin helpoimman reitin poistamalla ne, sillä aineiston koko jäi silti tarvittavan isoksi)
Ja sitten lyhyesti menetelmästä. Päätöspuut ovat joukko algoritmejä, joilla luodaan puun kaltaisia polkuja tarkoituksena luokitella tai estimoida vastemuuttujaa. Päätöspuut pyrkivät jakamaan aineistoa vastemuuttujan suhteen mahdollisimman homogeenisiin ryhmiin aloittaen tilanteesta, jossa kaikki tapaukset ovat yhdessä ryhmässä. Tämän jälkeen tehdään jako kahteen polkuun, joka mahdollisimman suuresti erottaa vastemuuttujan arvot kahtia. Tätä jatketaan kunnes päätöspuu ei voi enää kasvaa (yleensä, koska se törmää ennalta määrättyyn parametriin, joka estää puun kasvamisen liian monimutkaiseksi). No, esimerkillä tämä selviää parhaiten.
Yllä on ensimmäinen päätöspuu. Siinä vastemuuttuja on luokiteltu kahteen ryhmään, demokraattisiin ja autoritäärisiin valtioihin (poikkipisteenä demokratiaindeksin arvo 6, joka on jakopiste puutteellisten demokratioiden ja hybridiregiimien välillä The Economistin luokittelua käyttäen). Selittävät muuttujat on jaettu R:n omaa algoritmiä hyödyntäen kolmeen luokkaan, jotka nimetty alhaiseksi, normaaliksi ja korkeaksi.
Näemme, että jos maatalouden arvonlisäyksen osuus bruttokansantuotteesta on normaali tai korkea, valtio on hyvin suurella todennäköisyydellä autoritäärinen (polun päässä on 21 autoritääristä ja 2 demokraattista valtiota). Tämä vaikuttaa selkeältä päätössäännöltä. Sen sijaan jos maatalouden arvonlisäyksen osuus on alhainen, tarvitsemme vielä joukon lisäsääntöjä luokittelun tueksi. Korkean netinkäytön kattavuuden maat ovat suurelta osin demokraattisia valtioita eli vielä tässä vaiheessa meillä on selkeähkö sääntö demokraattisten valtioiden seulomiseksi: alhainen maatalous ja korkea digitalisoituminen ovat merkkejä demokraattisesti valtiosta.
Tämän jälkeen päätösten laatu heikkenee ja puu tulee monimutkaisemmaksi. Huomaamme, että luokkien jakolinjat eivät ole enää niin selkeitä. Alhaisen maatalouden, alhaisen tai normaalin netinkäytön ja alhaisen kaupungistumisasteen valtioista löytyy 6 autoritäärisestä ja 3 demokraattista valtiota. Lopullinen puu ei ole lopulta helppokäyttöisin tai intuitiivisinkaan; kaupungistumisaste esiintyy kahdesti jakaen ensin alhaisen kaupungisasteen valtiot autoritäärisiksi, mutta parin oksan päässä korkea kaupungistumisaste onkin hieman enemmän autoritäärisen valtion merkki. Mielenkiintoisen detaljina on teinisyntyvyys, jonka normaalit tai korkeat arvot itse asiassa viittavat demokraattisiin yhteiskuntiin.
Numeeristen muuttujien kategorisoinnissa menetetään aina informaatioarvoa. Erityisesti näin kävi muutaman epätasaisen jakauman omaavan muuttujan kanssa; esim. puolustusmenojen kohdalla 2 valtiota luokiteltiin normaalin ja 1 korkean puolustusmenojen valtioksi. Näin voi käydä, jos luottaa liikaa automaattiseen luokitteluun tutkimatta itse jakaumia.
Päätöspuut ovat kuitenkin siitä mukavia ja ketteriä menetelmiä, että sekä niiden selitettävät, että selittävät muuttujat voivat olla sekä kategorisia, että numeerisia. Seuraavaksi suoritan regressiopuun, jossa demokratiaindeksi toimii vastemuuttujana.
Jos siis valtiossa eliniänodote on yli 78, pääsemme varsin demokraattisiin yhteiskuntiin. Lisätarkkuutta saamme vielä katsomalla kansalaisten keskimääräistä tulotasoa, jossa 37 000 dollaria on se maaginen raja todella toimivien demokratioiden (9) ja hieman vajavaisten (7,6) välillä. Mutta demokraattiseksi valtioksi, tosin hieman puutteelliseksi, voi tämän päätöspuun mukaan päästä myös valtiot, joissa ihmiset eivät ihan keskimäärin yllä 78 vuoden ikään. Tarvitsee vain olla pienemmät puolustusmenot kuin 3,5 % BKT:sta, maatalouden arvonlisän osuuden olevan alhaisempi kuin 18 % BKT:stä ja eliniän odotteen olevan silti yli 73 vuotta. Kaikista autoritäärisimmät yhteiskunnat keskittyvät armeijaan kuluttamiseen, maatalouteen ja olemaan köyhiä.
Nyt olemme luoneet sekä luokittelevan, että estimoivan mallin (joka tässä tapauksessa kuitenkin voitaneen laskea myös luokittelevaksi, sillä demokratiaindeksin arvoilla on selkeä The Economistilta tuleva luokitteleva tulkinta). Viimeisessä mallissa yhdistän vastemuuttujan yksinkertaistamisen ja selittävien muuttujien täyden informaation. Katsotaan kuinka selitysvoimainen puu saadaan aikaan.
(tällä kertaa bokseissa on valtioiden lukumäärien sijaan todennäköisyydet)
Varsin yksinkertainen siis. Jos maatalouden arvonlisän osuus BKT:stä on yli 9,3 prosenttia, valtio on 80 prosentin todennäköisyydellä autoritäärinen. Jos valtio ei elä maataloudesta niin puolustusmenojen osuuden ollessa yli 3,2 prosenttia BKT:stä niin voimme samalla varmuudella päätellä valtion olevan autoritäärinen. Jos kumpikaan näistä ei toteudu, valtio on hyvin todennäköisesti ihan suht kiva paikka asua. Tai ainakin demokraattinen.
Käytännön bisnesmaailman sovelluksissa tällainen puu olisi varmasti ideaali: sen luokitteleva ja ennustava voima on suuri, mutta se on myös tulkinnallisesti hyvin yksinkertainen. Seuraavan kerran kun mietitte turistikohteenne poliittista järjestelmää, katsokaa vain sen maataloussektorin kokoa ja puolustusmenoja.
Blogipostauksen pituus alkaa jo lähestyä aivan liian monimutkaista päätöspuuta, joten on loppupäätelmien aika. Maatalousvaltaiset valtiot ovat yhteiskunnallisesti yksinkertaisempia ja kehittymättömämpiä, joissa todennäköisemmin valtaa pitää paikalliset päälliköt, kuin keskushallinto. Sosiologisesti voisi vielä pohtia maanviljelijöiden olevan työväenluokkaa perinteisesti konservatiivisempaa sakkia, joihin harva muutosliike on pohjautunut. Puolustusmenot ovat taas selkeästi seuraus eikä syy valtioiden autoritäärisyydelle; kun vallalla ei ole legitimiteettiä ja kansan hyväksyntää on vallassa pysymisen perustuttava voimankäyttöön. Korkea tuloaste ja netinkäytön levinneisyys tuskin yllättävät, mutta oliko muna ennen kanaa?
Demokratian syy-seuraussuhteista emme varmaan oppineet mitään uutta. Tilastolliset menetelmät kertovat suhteista, mutta eivät kausaliteettisäännöistä. Tätä ei voi liikaa korostaa. Kausaliteetit ovat perusteltava teorialla. Mutta tästä aiheesta emme olisi oppineet kausaliteeteistä, vaikka sattumanvaraisuuden sijaan olisin varustanut itseni selkeillä teorioilla ja hypoteeseillä. Kyseessä on liian monitulkintainen ja monisyinen ilmiö yksisuuntaisten kausaliteettien johtamiselle.
sunnuntai 30. elokuuta 2015
maanantai 17. elokuuta 2015
Somelouhintaa: hashtag digihaaste
Jos minulta kysyttäisiin, että mikä ilmiö kuvaa parhaiten aikakauttamme niin vastaisin sosiaalinen media. Työelämän ammattilaiset henkilöbrändäävät itseään (onhan tämäkin blogi tavallaan digitaalinen käyntikorttini, jossa esittelen osaamistani), jotkut tienaavat elantonsa lataamalla Instagramiin kuvia salilla käymisestä sekä rahkansyömisestä ja selfie-kepin keksijästä tuli miljonääri. Myös politiikassa sosiaalinen media muovaa toimintamalleja, myös muutenkin kuin Maikkarin vaalilähetyksessä selfieitä Instagramiin lataavien lukiolaisten kautta.
Ja sosiaalinen media on tiukasti kytköksissä toiseen aikamme ilmiöön: big dataan. Tuotamme ennen näkemättömän määrän dataa, jota meillä on myös viimein mahdollisuus massiivisissa määrin analysoida. Myös sosiaalisen median käyttäytymisemme tuottaa paljon tällaista hyödynnettävää dataa. Esimerkiksi vastikään uutisoitiin unettomuudesta kärsivien twiittaajien käyttäytymistä koskeva tutkimus.
Onneksi Twitterin louhintaa ei ole jätetty pelkästään ammattilaisten vastuulle vaan myös tällaiset harrastelijat pääsevät käsiksi Twitterin dataan ilmaiseksi avoimen rajapinnan kautta. Ja niin tein minäkin. Tarvitaan vain R:n kirjasto TwitteR sekä apps.twitter.com-osoitteessa rekisteröitävä "applikaatio". Tiettyjä rajoitteita tässä mekanismissa on, esimerkiksi haettavien twiittien määrä. Ja ainakin näin ensikokeilujen jälkeen vaikuttaa siltä, että twiittejä onnistuu hakemaan vain noin viikon ajalta. Siksi Twitterin louhinnassa on hyvä olla ajan hermolla uuden hashtagin syntyessä. Vaikka kuinka olisin halunnut louhia esimerkiksi #normitalkoot-hashtagia niin alle 20 twiitillä ei pitkälle pötki. Myöskään #kokoomusnuorista ei hirveästi materiaalia irronnut.
Aiheena ensimmäiselle Twitter-blogipostaukselleni valikoitui lopulta (lähinnä koska ei tullut muutakaan mieleen) #digihaaste-kampanja. Digihaaste on Valtiovarainministeriön järjestämä avoin kansalaisille suunnattu aloite, jolla haettiin ajatuksia digitalisaation hyödyntämisestä. Digitalisaatio on siis tämä trendisana, joka tarkoittaa käytännössä digiteknologian integrointia kaikkeen toimintaan. Se on myös yksi Sipilän hallituksen kärkihankkeista. Digi-jargonista jokainen voi lukea enemmän vaikka Mikael Jungnerin pamfletista. Nyt katsotaan, että ketkä ja miten aiheesta Twitterissä puhuvat. #digihaaste-hashtagilla sain käsiini 143 twiittiä, jotka toimivat aineistonani.
Katsotaan ensiksi edellisestä blogipostauksestani tuttua sanapilveä. Eli mitä sanoja digihaasteeseen liittyvät twiitit sisältävät. Tällä kertaa en tehnyt välimerkkien ja numeroiden poistamista kummempaa käsittelyä tekstiaineistolle eli yhtään sanaa ei ole mukavuussyistä poistettu.
(klikkaa taas isommaksi)
Mitään kovin syvällistä sanottavaa ei tästä sanapilvestä löydy. Luonnollisesti #digihaaste on isoin, koska se on sana jolla twiittejä haettiin. Myöskään trendisana #digitalisaation löytyminen ei yllätä. Aiheeseen täysin tutustumaton voi kuitenkin joitain viitteitä kontekstista löytää. Toimintaympäristö ja valtionhallinto kertovat perusidean, julkisen hallinnon digitalisoinnin. Digihaasteen osallistavasta luonteesta kertoo esityksiin, odottamiseen ja ehdotuksiin liittyvät sanat. Joitain ehdotusten aiheitakin löytyy: rakennuslupahakemukset ja kyberturva. Mielenkiintoisena detaljina on saamelaiset ja digisaame.En ala arvuuttelemaan, että mitä digitalisaation mahdollisuuksia saamelaisissa nähtiin.
Tekstien sisällön lisäksi on ihan mielekästä myös tarkastella vähän niiden kirjoittajia. Aineistossa selkeästi aktiivisimpana käyttäjätunnuksena esiintyy energiatutka, jolle kertyy 42 twiittiä 143 kokoisesta aineistosta. Energiatutkan jälkeen PauliinaMakela teki kuusi twiittiä ja LeenaViljo viisi. Joillakin on neljä, kolme tai kaksi twiittiä, mutta iso osa aineistosta koostuu vai yhden twiitin käyttäjätunnuksista. Keskustelu digihaasteesta on siis jakaantunut laajalle joukolle, josta löytyy vain yksi todellinen aktiivi.
Isommalla aineistolla twiittaajien suhteita olisi mielenkiintoista tarkastella lähemmin. Mutta harjoituksen vuoksi teen sen myös tällä. Alla olevassa kuvassa näkyy käyttäjien suhteet toisiin käyttäjiin siten, että vastaajan (=reply-toimintoa käyttäneen) twiitissä esiintyy #digihaaste. Nuoli osoittaa vastattavan suuntaan, esim. ParastaPalvelua vastasi SariSarkomaan twiittiin käyttäen #digihaaste-hashtagia.
Niin no, eihän tällaisesta pienestä aineistosta mitään mielenkiintoisia suhteita saa selville. Kopponen keskusteli vuorovaikutteisesti MillaVirenin ja TimoHonkon kanssa, Energiatutka vastasi twiitteihin siellä sun täällä joista vkarttun-käyttäjän kanssa oli vuoropuhelua. OKFFI onnistui vastaamaan omaan twiittiinsä.
Koska en voinut vastustaa kiusausta niin tarjoan lukijoille bonuksena: #kokoomusnuoret-hashtagia käyttävien twiittien sanapilvi (yhteensä 32 twiittiä):
Tukahduttava sääntelyhän se siellä kokoomusnuoria taas huolestuttaa eli stereotypiat toteutuvat jälleen. Sen lisäksi järjestön tuleva puheenjohtajavaali puhuttaa. Jos puheenjohtajuuden kriteerinä pidetään somepöhinää niin Daniel Sazonov voinee olla tyytyväinen twitter-preesensiinsä.
Ensi askeleet Twitter-louhinnan mielenkiintoiseen maailmaan on nyt otettu. Koska en ole trendien pinnalla ratsastava somenatiivi niin otan enemmän kuin mielelläni vastaan mielenkiintoisia hashtag- tai käyttäjätunnusehdotuksia jatkotarkasteluun. Ehkä tässä täytyy itsekin alkaa käyttämään Twitteriä enemmän ja seuraamaan siellä muitakin kuin Jari Porttilaa, aachihjk:ta ja FF2:sen Tapsaa. Twitter on kuitenkin hyvin mielenkiintoinen datan lähde, jota tulen jatkossakin varmasti hyödyntämään.
Olkoon tämä blogi minun kontribuutioni digihaasteeseen. Nykyisin kun data on lähes loputon resurssi on mielestäni liki rikollista olla käyttämättä sitä poliittisten päätösten pohjana ja alustuksena.
Ja sosiaalinen media on tiukasti kytköksissä toiseen aikamme ilmiöön: big dataan. Tuotamme ennen näkemättömän määrän dataa, jota meillä on myös viimein mahdollisuus massiivisissa määrin analysoida. Myös sosiaalisen median käyttäytymisemme tuottaa paljon tällaista hyödynnettävää dataa. Esimerkiksi vastikään uutisoitiin unettomuudesta kärsivien twiittaajien käyttäytymistä koskeva tutkimus.
Onneksi Twitterin louhintaa ei ole jätetty pelkästään ammattilaisten vastuulle vaan myös tällaiset harrastelijat pääsevät käsiksi Twitterin dataan ilmaiseksi avoimen rajapinnan kautta. Ja niin tein minäkin. Tarvitaan vain R:n kirjasto TwitteR sekä apps.twitter.com-osoitteessa rekisteröitävä "applikaatio". Tiettyjä rajoitteita tässä mekanismissa on, esimerkiksi haettavien twiittien määrä. Ja ainakin näin ensikokeilujen jälkeen vaikuttaa siltä, että twiittejä onnistuu hakemaan vain noin viikon ajalta. Siksi Twitterin louhinnassa on hyvä olla ajan hermolla uuden hashtagin syntyessä. Vaikka kuinka olisin halunnut louhia esimerkiksi #normitalkoot-hashtagia niin alle 20 twiitillä ei pitkälle pötki. Myöskään #kokoomusnuorista ei hirveästi materiaalia irronnut.
Aiheena ensimmäiselle Twitter-blogipostaukselleni valikoitui lopulta (lähinnä koska ei tullut muutakaan mieleen) #digihaaste-kampanja. Digihaaste on Valtiovarainministeriön järjestämä avoin kansalaisille suunnattu aloite, jolla haettiin ajatuksia digitalisaation hyödyntämisestä. Digitalisaatio on siis tämä trendisana, joka tarkoittaa käytännössä digiteknologian integrointia kaikkeen toimintaan. Se on myös yksi Sipilän hallituksen kärkihankkeista. Digi-jargonista jokainen voi lukea enemmän vaikka Mikael Jungnerin pamfletista. Nyt katsotaan, että ketkä ja miten aiheesta Twitterissä puhuvat. #digihaaste-hashtagilla sain käsiini 143 twiittiä, jotka toimivat aineistonani.
Katsotaan ensiksi edellisestä blogipostauksestani tuttua sanapilveä. Eli mitä sanoja digihaasteeseen liittyvät twiitit sisältävät. Tällä kertaa en tehnyt välimerkkien ja numeroiden poistamista kummempaa käsittelyä tekstiaineistolle eli yhtään sanaa ei ole mukavuussyistä poistettu.
(klikkaa taas isommaksi)
Mitään kovin syvällistä sanottavaa ei tästä sanapilvestä löydy. Luonnollisesti #digihaaste on isoin, koska se on sana jolla twiittejä haettiin. Myöskään trendisana #digitalisaation löytyminen ei yllätä. Aiheeseen täysin tutustumaton voi kuitenkin joitain viitteitä kontekstista löytää. Toimintaympäristö ja valtionhallinto kertovat perusidean, julkisen hallinnon digitalisoinnin. Digihaasteen osallistavasta luonteesta kertoo esityksiin, odottamiseen ja ehdotuksiin liittyvät sanat. Joitain ehdotusten aiheitakin löytyy: rakennuslupahakemukset ja kyberturva. Mielenkiintoisena detaljina on saamelaiset ja digisaame.En ala arvuuttelemaan, että mitä digitalisaation mahdollisuuksia saamelaisissa nähtiin.
Tekstien sisällön lisäksi on ihan mielekästä myös tarkastella vähän niiden kirjoittajia. Aineistossa selkeästi aktiivisimpana käyttäjätunnuksena esiintyy energiatutka, jolle kertyy 42 twiittiä 143 kokoisesta aineistosta. Energiatutkan jälkeen PauliinaMakela teki kuusi twiittiä ja LeenaViljo viisi. Joillakin on neljä, kolme tai kaksi twiittiä, mutta iso osa aineistosta koostuu vai yhden twiitin käyttäjätunnuksista. Keskustelu digihaasteesta on siis jakaantunut laajalle joukolle, josta löytyy vain yksi todellinen aktiivi.
Isommalla aineistolla twiittaajien suhteita olisi mielenkiintoista tarkastella lähemmin. Mutta harjoituksen vuoksi teen sen myös tällä. Alla olevassa kuvassa näkyy käyttäjien suhteet toisiin käyttäjiin siten, että vastaajan (=reply-toimintoa käyttäneen) twiitissä esiintyy #digihaaste. Nuoli osoittaa vastattavan suuntaan, esim. ParastaPalvelua vastasi SariSarkomaan twiittiin käyttäen #digihaaste-hashtagia.
Niin no, eihän tällaisesta pienestä aineistosta mitään mielenkiintoisia suhteita saa selville. Kopponen keskusteli vuorovaikutteisesti MillaVirenin ja TimoHonkon kanssa, Energiatutka vastasi twiitteihin siellä sun täällä joista vkarttun-käyttäjän kanssa oli vuoropuhelua. OKFFI onnistui vastaamaan omaan twiittiinsä.
Koska en voinut vastustaa kiusausta niin tarjoan lukijoille bonuksena: #kokoomusnuoret-hashtagia käyttävien twiittien sanapilvi (yhteensä 32 twiittiä):
Tukahduttava sääntelyhän se siellä kokoomusnuoria taas huolestuttaa eli stereotypiat toteutuvat jälleen. Sen lisäksi järjestön tuleva puheenjohtajavaali puhuttaa. Jos puheenjohtajuuden kriteerinä pidetään somepöhinää niin Daniel Sazonov voinee olla tyytyväinen twitter-preesensiinsä.
Ensi askeleet Twitter-louhinnan mielenkiintoiseen maailmaan on nyt otettu. Koska en ole trendien pinnalla ratsastava somenatiivi niin otan enemmän kuin mielelläni vastaan mielenkiintoisia hashtag- tai käyttäjätunnusehdotuksia jatkotarkasteluun. Ehkä tässä täytyy itsekin alkaa käyttämään Twitteriä enemmän ja seuraamaan siellä muitakin kuin Jari Porttilaa, aachihjk:ta ja FF2:sen Tapsaa. Twitter on kuitenkin hyvin mielenkiintoinen datan lähde, jota tulen jatkossakin varmasti hyödyntämään.
Olkoon tämä blogi minun kontribuutioni digihaasteeseen. Nykyisin kun data on lähes loputon resurssi on mielestäni liki rikollista olla käyttämättä sitä poliittisten päätösten pohjana ja alustuksena.
tiistai 4. elokuuta 2015
Tekstilouhintaa Immosen puheista
Tuskin tarvitsee kahteen kertaan miettiä, että mikä on ollut viimeisen viikon ajan Suomen kuumin puheenaihe. Olli Immonen ja natsit. Immosen facebook-postaus sai aikaan todellisen myrskyn niin sosiaalisen kuin perinteisenkin median puolella. No, kaikki tietävät taustat ja kyseisen postauksen. Ja Jyväskylän natsit ehtivät jo siirtämään median mielenkiinnon toisaalle itse facebook-viestistä.
Tässä ei nyt pureuduta Immosen tekstiin, sen retoriikkaan tai miten sen voi tulkita. Aineistona käytetään sen sijaan Immosen pitämiä puheita Eduskunnassa. Niitä on yhteensä noin 80 ja niitä voi lukea eduskunnan nettisivuilla täällä.
Laiskana ihmisenä en niitä oikeasti jaksa lukea vaan harrastan "text miningiksi" eli tekstin louhinnaksi kutsuttua toimintaa. Näin voin havaita useimmin käytettyjä sanoja ja havaita asiayhteyksiä lukematta varsinaista tekstiä. Eihän siitä kvalitatiivisen analyysin korvaajaksi ole yhteiskuntatieteellisessä kontekstissa, mutta suurilla tekstimassoilla kyseessä on hyvin kustannustehokas tapa tutkia aineistoa. Ja se mitä koneoppimisen ja business intelligencen maailmoissa big datan aikakaudella pystytään tekstiä louhimalla tekemään on kieltämättä todella siistiä. Yhtenä esimerkkinä sosiaalista mediaa tutkimalla voidaan päätellä ihmisten fiiliksiä tiettyyn tuotteeseen tai maailman tapahtumaan liittyen ns. "sentiment analysisin" avulla eli tutkimalla käytettyjä ilmauksia ja päättelemällä niistä tekstin tunnelataus.
No, itse asiaan. Ennen puheiden analysoimista siivosin dataa poistamalla ison määrän turhia täytesanoja, joilla ei ole varsinaista analyyttistä merkitystä, kuten "ja", "sillä", tai "arvon herra puhemies". Täytesanojen kohdalla toki on veteenpiirretty viiva, mikä koetaan täytesanaksi ja mikä ei. Jäljelle jäi monia sanoja, joita voi perustellusti pitää täytesanoina, joilla ei ole analyyttistä merkitystä Immosen retoriikan kannalta. No, olin laiska.
Tämän jälkeen tein seuraavan sanapilven, joka sisältää kaikki jäljelle jääneet sanat, jotka esiintyvät vähintään viisi kertaa Immosen puheessa. Yhtenä ongelmana tässä on suomen kieli; pelaamme todella paljon päätteiden kanssa, kaikkien suomea opettelevien ulkomaalaisten kauhuksi. Lyhenteiden poistoon on olemassa R-kirjastoja, mutta ainakaan seuraamaani opetusdian käyttämä SnowballC ei tue suomea. Siksi seuraavassa sanapilvessä on mainittu esimerkiksi Suomi sen monessa eri muodossa.
(valitan, että näkyy näin pienenä, mutta klikkaa se isommaksi)
Mistäs se Olli on siis huolehtinut parlamentaarisissa puheissaan? Suomesta, eurosta/EU:sta, sananvapaudesta, kaksikielisyydestä, kansasta ja maahanmuuttajista, näin muutamia sanoja tarkoituksenhakuisesti valitakseni. Saarakkala on ilmeisesti sama Immoselle kuin Kimmo Sasi Benkulle, koska nimi on mukana sekä muodoissa "saarakkala", että "saarakkalan". Jokainen voi tehdä omat päätelmänsä sanapilvestä, jos siitä selvää saa.
Mutta tiettyjen sanojen ilmentyminen puheessa itsessään ei ole vielä erityisen mielenkiintoinen uutinen. Hedelmällisempää on katsoa, että minkä sanojen kanssa tietyt sanat ilmenevät. Esimerkiksi jos Ollio käyttää puheessaan termiä "maahanmuuttajille" niin samasta puheesta löytyy termejä kuten "veronmaksajalle", "hyvinvointiyhteiskunnallemme","hallaa" ja "rasitteen". Sanan "demokratian" kanssa useimmiten samassa puheessa esiintyy "kansanäänestykset" ja "suorat". Sanan "eun" kanssa samassa puheessa esiintyy termi "liittovaltiota".
Tuottaako tekstianalyysi mitään uusia oivalluksia? No ei. Immosen aatemaailma on varmasti jo tullut kaikille entuudestaan tutuksi. Oli silti hauskaa havaita, että tekstiä louhimalla siihen on mahdollista päästä käsiksi ja henkilöä tuntemattakin voi tehdä joitain päätelmiä hänen ajatusmaailmastaan. Harmillisesti käytetty aineisto on kuitenkin vähän turhan pieni kunnolliseen tekstin louhintaan.
Mutta hauskaa oli ja sanapilvi on aika makea menetelmä.
Sen voi lisätä tälle päivälle "mitä tänään opin"-listaan.
Tässä ei nyt pureuduta Immosen tekstiin, sen retoriikkaan tai miten sen voi tulkita. Aineistona käytetään sen sijaan Immosen pitämiä puheita Eduskunnassa. Niitä on yhteensä noin 80 ja niitä voi lukea eduskunnan nettisivuilla täällä.
Laiskana ihmisenä en niitä oikeasti jaksa lukea vaan harrastan "text miningiksi" eli tekstin louhinnaksi kutsuttua toimintaa. Näin voin havaita useimmin käytettyjä sanoja ja havaita asiayhteyksiä lukematta varsinaista tekstiä. Eihän siitä kvalitatiivisen analyysin korvaajaksi ole yhteiskuntatieteellisessä kontekstissa, mutta suurilla tekstimassoilla kyseessä on hyvin kustannustehokas tapa tutkia aineistoa. Ja se mitä koneoppimisen ja business intelligencen maailmoissa big datan aikakaudella pystytään tekstiä louhimalla tekemään on kieltämättä todella siistiä. Yhtenä esimerkkinä sosiaalista mediaa tutkimalla voidaan päätellä ihmisten fiiliksiä tiettyyn tuotteeseen tai maailman tapahtumaan liittyen ns. "sentiment analysisin" avulla eli tutkimalla käytettyjä ilmauksia ja päättelemällä niistä tekstin tunnelataus.
No, itse asiaan. Ennen puheiden analysoimista siivosin dataa poistamalla ison määrän turhia täytesanoja, joilla ei ole varsinaista analyyttistä merkitystä, kuten "ja", "sillä", tai "arvon herra puhemies". Täytesanojen kohdalla toki on veteenpiirretty viiva, mikä koetaan täytesanaksi ja mikä ei. Jäljelle jäi monia sanoja, joita voi perustellusti pitää täytesanoina, joilla ei ole analyyttistä merkitystä Immosen retoriikan kannalta. No, olin laiska.
Tämän jälkeen tein seuraavan sanapilven, joka sisältää kaikki jäljelle jääneet sanat, jotka esiintyvät vähintään viisi kertaa Immosen puheessa. Yhtenä ongelmana tässä on suomen kieli; pelaamme todella paljon päätteiden kanssa, kaikkien suomea opettelevien ulkomaalaisten kauhuksi. Lyhenteiden poistoon on olemassa R-kirjastoja, mutta ainakaan seuraamaani opetusdian käyttämä SnowballC ei tue suomea. Siksi seuraavassa sanapilvessä on mainittu esimerkiksi Suomi sen monessa eri muodossa.
Mistäs se Olli on siis huolehtinut parlamentaarisissa puheissaan? Suomesta, eurosta/EU:sta, sananvapaudesta, kaksikielisyydestä, kansasta ja maahanmuuttajista, näin muutamia sanoja tarkoituksenhakuisesti valitakseni. Saarakkala on ilmeisesti sama Immoselle kuin Kimmo Sasi Benkulle, koska nimi on mukana sekä muodoissa "saarakkala", että "saarakkalan". Jokainen voi tehdä omat päätelmänsä sanapilvestä, jos siitä selvää saa.
Mutta tiettyjen sanojen ilmentyminen puheessa itsessään ei ole vielä erityisen mielenkiintoinen uutinen. Hedelmällisempää on katsoa, että minkä sanojen kanssa tietyt sanat ilmenevät. Esimerkiksi jos Ollio käyttää puheessaan termiä "maahanmuuttajille" niin samasta puheesta löytyy termejä kuten "veronmaksajalle", "hyvinvointiyhteiskunnallemme","hallaa" ja "rasitteen". Sanan "demokratian" kanssa useimmiten samassa puheessa esiintyy "kansanäänestykset" ja "suorat". Sanan "eun" kanssa samassa puheessa esiintyy termi "liittovaltiota".
Tuottaako tekstianalyysi mitään uusia oivalluksia? No ei. Immosen aatemaailma on varmasti jo tullut kaikille entuudestaan tutuksi. Oli silti hauskaa havaita, että tekstiä louhimalla siihen on mahdollista päästä käsiksi ja henkilöä tuntemattakin voi tehdä joitain päätelmiä hänen ajatusmaailmastaan. Harmillisesti käytetty aineisto on kuitenkin vähän turhan pieni kunnolliseen tekstin louhintaan.
Mutta hauskaa oli ja sanapilvi on aika makea menetelmä.
Sen voi lisätä tälle päivälle "mitä tänään opin"-listaan.
Blogin ajatuksesta ja syistä sen olemassaoloon
Kaikella pitäisi kai olla oma raison d’être, syy olemassaoloonsa. Tällä blogilla se on, sivistyssanoilla brassailun (vieläpä väärin?) lisäksi puhtaasti egoistinen. Tarvitsen insentiivin.
Kirjoittaja on yhteiskuntatieteen maisteri politiikan tutkimuksesta, joka on kuitenkin päättänyt luoda uraansa ns. data sciencen parissa. Yliopiston n. 70 opintopistettä tilastotiedettä ja muutama hassu tietojenkäsittelytieteestä eivät kuitenkaan vielä itsessään anna mitenkään suuria valmiuksia työelämässä. Tarvitsen harjoitusta monissa eri datan louhinnan menetelmissä. Onneksi Internet tarjoaa ennennäkemättömät mahdollisuudet kouluttaa itseään.
Usein on vain mukavampaa katsoa futista tai käydä lenkillä kuin tehdä nettikurssien- ja sivujen tylsiä esimerkkitehtäviä. Varsinkin kun datan parissa saa painia työpäivätkin. Siksi täytyy tehdä omasta mielenkiinnosta lähteviä projekteja. Ja luoda insentiivi toteuttaa niitä.
Eräs yhdysvaltalainen tv-sarja otti osallistujistaan kuvia alusvaatteissa. Jos, osallistujat eivät laihtuneet tarpeeksi tiettyyn aikaan mennessä, kuvat julkastaisiin kaikille nähtäväksi. Kaikki laihtuivat. Blogin päivittäminen ei ehkä ole yhtä voimakas motivaattori kuin joutuminen puolialasti kaiken kansan nähtäväksi, mutta ainakin se vähän antaa lisäpontta. Kukapa ei olisi sen verran omahyväinen, etteikö haluaisi muiden näkevän jos itse tekee jotain omasta mielestään siistiä?
Ja niin syntyi idea tästä blogista. Tässä blogissa on tarkoitus julkaista tasaisen tappavan hitaaseen tahtiin toteuttamiani projekteja (en edelleenkään ole joutumassa puolialasti valotauluille laiskuuden vuoksi). Aihepiirinä on tarkoitus pitää lähinnä politiikka ja yhteiskunta, joissa minulla on eniten substanssiosaamista. Mikään tarkoitus ei ole tästä kuitenkaan tehdä mitään poliittista blogia. Tulen aina olemaan puoluepoliittisesti neutraali, vaikken mielipiteitäni ala täysin suodattamaankaan.
Loppuun disclaimer: olen tällä hetkellä töissä Tilastokeskuksessa, mutta kaikki tässä käytetty data on täysin avoimesti saatavilla. Samoin kuin analyysin välineenä käytetty R-ohjelmisto.
Kirjoittaja on yhteiskuntatieteen maisteri politiikan tutkimuksesta, joka on kuitenkin päättänyt luoda uraansa ns. data sciencen parissa. Yliopiston n. 70 opintopistettä tilastotiedettä ja muutama hassu tietojenkäsittelytieteestä eivät kuitenkaan vielä itsessään anna mitenkään suuria valmiuksia työelämässä. Tarvitsen harjoitusta monissa eri datan louhinnan menetelmissä. Onneksi Internet tarjoaa ennennäkemättömät mahdollisuudet kouluttaa itseään.
Usein on vain mukavampaa katsoa futista tai käydä lenkillä kuin tehdä nettikurssien- ja sivujen tylsiä esimerkkitehtäviä. Varsinkin kun datan parissa saa painia työpäivätkin. Siksi täytyy tehdä omasta mielenkiinnosta lähteviä projekteja. Ja luoda insentiivi toteuttaa niitä.
Eräs yhdysvaltalainen tv-sarja otti osallistujistaan kuvia alusvaatteissa. Jos, osallistujat eivät laihtuneet tarpeeksi tiettyyn aikaan mennessä, kuvat julkastaisiin kaikille nähtäväksi. Kaikki laihtuivat. Blogin päivittäminen ei ehkä ole yhtä voimakas motivaattori kuin joutuminen puolialasti kaiken kansan nähtäväksi, mutta ainakin se vähän antaa lisäpontta. Kukapa ei olisi sen verran omahyväinen, etteikö haluaisi muiden näkevän jos itse tekee jotain omasta mielestään siistiä?
Ja niin syntyi idea tästä blogista. Tässä blogissa on tarkoitus julkaista tasaisen tappavan hitaaseen tahtiin toteuttamiani projekteja (en edelleenkään ole joutumassa puolialasti valotauluille laiskuuden vuoksi). Aihepiirinä on tarkoitus pitää lähinnä politiikka ja yhteiskunta, joissa minulla on eniten substanssiosaamista. Mikään tarkoitus ei ole tästä kuitenkaan tehdä mitään poliittista blogia. Tulen aina olemaan puoluepoliittisesti neutraali, vaikken mielipiteitäni ala täysin suodattamaankaan.
Loppuun disclaimer: olen tällä hetkellä töissä Tilastokeskuksessa, mutta kaikki tässä käytetty data on täysin avoimesti saatavilla. Samoin kuin analyysin välineenä käytetty R-ohjelmisto.
Tilaa:
Blogitekstit (Atom)