Aikaondataa-blogista on tänään aloitettu uusi versio englanniksi. Sen on tarkoitus näkyä myös tämän blogin sisällössä.
Englanninkielisessä blogissa tarkoitukseni on jakaa kirjoittamaani R-koodia ja ottaa astetta teknisempi ote. Tämän seurauksena täällä on tarkoitus jättää entistä enemmän menetelmän kuvaus taka-alalle ja keskittyä itse asiaan, eli tuloksiin.
Uusi blogi löytyy täältä.
tiistai 15. joulukuuta 2015
maanantai 7. joulukuuta 2015
Suomalainen kuntabyrokratia kartalla
Geokoodaus on yleisnimi analyyseille, joiden avulla osoite-, postinumero- tai muun tunnistetiedon omaaville tietueille luodaan spatiaalisen tiedon sisältävien tietueiden avulla maantieteellinen sijainti.
Täältä bongattu määritelmä on tarpeeksi hyvä johdatus tämän lyhyen blogipostauksen aihealueeseen. Paikkatiedolla on monia mielenkiintoisia sovelluskohteita, mutta minua näin yhteiskuntatieteellisestä taustasta kirjoittavana kiinnostaa eniten sen tarjoamat mahdollisuudet tiedon yksinkertaiseen ja ymmärrettävään visualisointiin. Parhainkaan datakikkailu kun ei hyödytä ketään, ellei siitä osata kommunikoida muille. Paitsi jos sen tekee pelkästään omaan käyttöön, mitä nyt en näin avoimen datan ja datalähtöisemmän päätöksenteon puolestapuhujana tietenkään tee. Siksi datan kaunis visualisointi on yksi muutenkin tulikuuman databisneksen kuumimpia osa-alueita.
Suomalaisen poliittisen slangin uusia muotisanoja taasen on normitalkoot. Kaikki ovat sitä mieltä, että Suomessa säännellään liikaa ja virkamiehet rajoittavat lakien valvomisellaan liikaa tavallisten ihmisten ja yrittäjien elämää. Missään ei vain synny yksimielisyyttä siitä, että mitkä säännöt ovat turhia ja missä normistoa kannattaisi löyhentää. Samaan aihepiiriin kuuluu ikuisuusaihe, Suomen julkisen sektorin koko. Onko se Euroopan tehokkaimpia ja virtaviivaisimpia (kun tarkastellaan pelkkiä valtion virkamiehiä) vai paisuneimpia (kun huomioidaan kuntienkin työntekijät)? Vastaus riippuu jokaisen omasta puolueen jäsenkirjasta.
Tässäkin asiassa on kuitenkin poliittisista mielipiteistä riippumattomia tosiasioita, rankelaisittain sanottuna wie es eigentlich gewesen (imperfekti sopinee, kun virallinen tilasto ei ole koskaan tasan nykyhetken kuva, vaan valmistuu aina pienellä tai suurella viivellä). Yksi tosiasia on, että Suomen kunnistakaan ei voida puhua yhtenä suurena kafkalaisena byrokratiakoneistona, vaan kuntien välillä on suuriakin eroja palkatun henkilöstön määrässä (palkattu henkilöstö koostuu niin opettajista, kuntien virastojen virkamiehistä kuin sairaanhoitajista). Alla kuva näistä eroista vuonna 2013.
Jos alueellisia tulkintoja voidaan tehdä niin Lapissa ja Pohjanmaan rannikkokunnissa on keskimäärin enemmän henkilöstöä, kun taas Etelä-Karjalassa näyttäisi olevan niukempi julkisen sektorin koneisto. Sen lisäksi muutamia yksittäisiä kuntia löytyy sieltä täältä, joissa palkatun henkilöstön määrä erottuu huomattavasti ympäryskuntia korkeampana.
Loppu tulkinnasta jätetään lukijalle tehtäväksi jokaisen omien ideologisten lasien takaa. Niin Kokoomusnuoret kuin Vasemmistonuoret, kuviota saa käyttää.
Aineisto on ladattu Tilastokeskuksen avoimen rajapinnan kautta, kun taas Suomen kartasta on kiittäminen erinomaista datajournalismi-blogia.
sunnuntai 22. marraskuuta 2015
Googlehaut ainoa mittari? - urheilusarjojen suosiosta
Vähän aikaa sitten julkaistiin tutkimus, jonka mukaan jääkiekko on edelleen suosituin urheilulaji Suomessa. Liigajohto uutisoi tästä (ja Nelosen oman analytiikkatiimin tuloksista) sitten lievästi harhaanjohtavasti niin, että sarja kasvattaisi yleisöään. Tosiasiassahan syksyllä on uutisoitu useaan otteeseen laskevista yleisömääristä, kuten myös vuosi sitten. Luulisi lisääntyvien videoiden toistomäärien olevan laiha lohtu, jos jääkiekkohallit tyhjenevät. Varsinkin kun liikkuvan kuvan katsominen siirtyy nykyaikana yhä enenevissä määrin televisiosta tableteille, niin liigajohdon logiikalla varmaan jokin Kummelikin on nyt suositumpi kuin koskaan.
Jalkapallon Veikkausliigassa taas oli havaittavissa kasvua yleisömäärissä ja muukin mediahype sarjan ympärillä vaikutti olevan ennätyshyvää tasoa. Tätä edesauttoi HIFK:in nouseminen ja Stadin derbyt ja tottakai pitkästä aikaa mielenkiintoinen mestaruustaisto, jonka vielä omaksi ja varmasti hyvin monen muunkin ilokseni HJK hävisi.
Sarjojen trendikäyrät siis näyttävät osoittavan eri suuntiin. Näin sunnuntai-illan ratoksi ajattelin katsella asiaa vielä vähän enemmän hyödyntäen google-hakuja. Kuten yleisömäärät, googlehaut kertovat ihmisten aidosta toiminnasta ja täten sitä voidaan mielestäni pitää varsin hyvänä mittarina sille, että kuinka kiinnostavana mitäkin tuotetta pidetään. Jos tämäkin indikaattori on SM-liigan kannalta hieman lerpallaan niin puheet liigan kasvavasta yleisöstä menevät suoraan kategoriaan Irakin tiedotusministeri.
Alla hieman dekomponoituja aikasarjoja eri urheilusarjojen googlehakujen historiasta (jostain syystä "korisliiga" ja "lentisliiga"- hakusanoilla en saanut R-kirjaston kautta ladattua hakuhistoriaa, joten Veikkausliigan ja SM-liigan ohella esitellään Superperistä ja Salibandyliigaa. Ja joo, SM-liiga on enää vain "Liiga", mutta sitä ei voi oikein huomioida, ja eiköhän kuluttajille se vielä suurelta osin puheessa ole SM-liiga). Dekomponoinnissa aikasarja "rikotaan osiin" eli trendiin, kausivaihteluun ja satunnaisvaihteluun. Tämä helpottaa aikasarjan analysoinnissa. Nyt meitä kiinnostaa lähinnä toiseksi ylin kuva eli aikasarjojen trendi.
Veikkausliigan aikasarja
SM-liigan aikasarja
Superpesiksen aikasarja
Salibandyliigan aikasarja
Veikkausliigan kohdalla vuonna 2015 noustiin sille tasolle, missä oltiin pitkälti 2008-2011. Laskeva trendi siis katkesi ja mielenkiintoisin kausi aikoihin aiheutti myös selkeän kasvun hakumäärissä. Mistään ennennäkemättömästä buumista ei kuitenkaan voida puhua. Suunta on oikea, toivottavasti jalkapallossa osataan orastava buumi hyödyntää. Suomifutiksen johtajat tuntien on tämä toki täyttä utopiaa.
Sen sijaan SM-liigan hakumäärät ovat 2014 alkaen olleet yleisömäärien tapaan selkeässä pudotuksessa. Pudotus on sen verran jyrkkä ettei sitä selitä pelkkä nimen muutos, vaikka se tapahtuikin samoihin aikoihin google-hakujen laskun myötä. Tuskin Suomen suosituimman urheilulajin päättäjien vielä tarvitsee kriisinappulaa painaa pohjaan, mutta kasvavasta lajista puhuminen ainakin asettuu aika kyseenalaiseen valoon.
Pari hajahuomiota Superpesiksestä ja Salibandyliigasta. Pesiksessä hakumäärät ovat kasvaneet tasaisesti, kuten ilmeisesti myös katsojamäärät. Salibandyssä taas on selittämätön romahdus. Ilmeisesti lajin lakipiste katsojamäärissäkin on saavutettu, mutta ei kai yleisömäärät mitenkään ole romahtaneet?
Kausivaihtelusta voi nostaa pikanttina detaljina sen, että Veikkausliigassa ainoastaan kauden alku tuo selkeän piikin hakumääriin kun taas muissa lajeissa kauden lopussa on myös piikki. Jalkapallossa viimeinen kierros ei vastaa muiden lajien finaaleja, vaikka usein ainakin toinen mestaruustaistosta ja putoamistaistosta ratkeaa juuri silloin. Myös kauden alun piikki on jalkapallossa voimakkaampi kuin muissa lajeissa. Syystäkin, niin tuskastuttavan pitkään sitä joutuu joka talvi odottamaan.
Jääkiekko on yhä edelleen kiistatta Suomen suosituin urheilulaji, sitä ei voi kiistää vaikka eläisi kuinka tiiviissä jalkapallokuplassa. Ero kuitenkin näyttää kaventuvan. Toivoisin vain, että se tapahtuu ennemmin jalkapallon suosion kasvun kuin jääkiekon suosion rapistumisen seurauksena.
Jalkapallon Veikkausliigassa taas oli havaittavissa kasvua yleisömäärissä ja muukin mediahype sarjan ympärillä vaikutti olevan ennätyshyvää tasoa. Tätä edesauttoi HIFK:in nouseminen ja Stadin derbyt ja tottakai pitkästä aikaa mielenkiintoinen mestaruustaisto, jonka vielä omaksi ja varmasti hyvin monen muunkin ilokseni HJK hävisi.
Sarjojen trendikäyrät siis näyttävät osoittavan eri suuntiin. Näin sunnuntai-illan ratoksi ajattelin katsella asiaa vielä vähän enemmän hyödyntäen google-hakuja. Kuten yleisömäärät, googlehaut kertovat ihmisten aidosta toiminnasta ja täten sitä voidaan mielestäni pitää varsin hyvänä mittarina sille, että kuinka kiinnostavana mitäkin tuotetta pidetään. Jos tämäkin indikaattori on SM-liigan kannalta hieman lerpallaan niin puheet liigan kasvavasta yleisöstä menevät suoraan kategoriaan Irakin tiedotusministeri.
Alla hieman dekomponoituja aikasarjoja eri urheilusarjojen googlehakujen historiasta (jostain syystä "korisliiga" ja "lentisliiga"- hakusanoilla en saanut R-kirjaston kautta ladattua hakuhistoriaa, joten Veikkausliigan ja SM-liigan ohella esitellään Superperistä ja Salibandyliigaa. Ja joo, SM-liiga on enää vain "Liiga", mutta sitä ei voi oikein huomioida, ja eiköhän kuluttajille se vielä suurelta osin puheessa ole SM-liiga). Dekomponoinnissa aikasarja "rikotaan osiin" eli trendiin, kausivaihteluun ja satunnaisvaihteluun. Tämä helpottaa aikasarjan analysoinnissa. Nyt meitä kiinnostaa lähinnä toiseksi ylin kuva eli aikasarjojen trendi.
Veikkausliigan aikasarja
SM-liigan aikasarja
Superpesiksen aikasarja
Salibandyliigan aikasarja
Veikkausliigan kohdalla vuonna 2015 noustiin sille tasolle, missä oltiin pitkälti 2008-2011. Laskeva trendi siis katkesi ja mielenkiintoisin kausi aikoihin aiheutti myös selkeän kasvun hakumäärissä. Mistään ennennäkemättömästä buumista ei kuitenkaan voida puhua. Suunta on oikea, toivottavasti jalkapallossa osataan orastava buumi hyödyntää. Suomifutiksen johtajat tuntien on tämä toki täyttä utopiaa.
Sen sijaan SM-liigan hakumäärät ovat 2014 alkaen olleet yleisömäärien tapaan selkeässä pudotuksessa. Pudotus on sen verran jyrkkä ettei sitä selitä pelkkä nimen muutos, vaikka se tapahtuikin samoihin aikoihin google-hakujen laskun myötä. Tuskin Suomen suosituimman urheilulajin päättäjien vielä tarvitsee kriisinappulaa painaa pohjaan, mutta kasvavasta lajista puhuminen ainakin asettuu aika kyseenalaiseen valoon.
Pari hajahuomiota Superpesiksestä ja Salibandyliigasta. Pesiksessä hakumäärät ovat kasvaneet tasaisesti, kuten ilmeisesti myös katsojamäärät. Salibandyssä taas on selittämätön romahdus. Ilmeisesti lajin lakipiste katsojamäärissäkin on saavutettu, mutta ei kai yleisömäärät mitenkään ole romahtaneet?
Kausivaihtelusta voi nostaa pikanttina detaljina sen, että Veikkausliigassa ainoastaan kauden alku tuo selkeän piikin hakumääriin kun taas muissa lajeissa kauden lopussa on myös piikki. Jalkapallossa viimeinen kierros ei vastaa muiden lajien finaaleja, vaikka usein ainakin toinen mestaruustaistosta ja putoamistaistosta ratkeaa juuri silloin. Myös kauden alun piikki on jalkapallossa voimakkaampi kuin muissa lajeissa. Syystäkin, niin tuskastuttavan pitkään sitä joutuu joka talvi odottamaan.
Jääkiekko on yhä edelleen kiistatta Suomen suosituin urheilulaji, sitä ei voi kiistää vaikka eläisi kuinka tiiviissä jalkapallokuplassa. Ero kuitenkin näyttää kaventuvan. Toivoisin vain, että se tapahtuu ennemmin jalkapallon suosion kasvun kuin jääkiekon suosion rapistumisen seurauksena.
lauantai 7. marraskuuta 2015
Vihreä ja vassari ne yhteen soppii - puolueiden Facebook-läheisyydestä
Muutamassa aikaisemmassa Facebookia datalähteenä käyttävässä postauksessani on lähdetty siitä implisiittisestä oletuksesta, että puolueen sivuilla tykkäyksiä ja kommentteja jakelevat henkilöt ovat puolueen kannattajia. Tämähän ei pidä paikkaansa vaan samat poliittisesti valveutuneet henkilöt huseeraavat useammankin puolueen sivuilla. Varsinkin kommentoinnissa oletus puolueen arvomaailman jakamisesta on heikolla pohjalla, sillä henkilöhän voi olla kiistämässä puolueen väitteitä. Viestistä tykkääminen implikoi vahvemmin jaettua arvomaailmaa, mutta ei sekään ääntä oikeissa vaaleissa takaa.
Tämän blogipostauksen aiheena on esitellä menetelmiä, joilla tutkia puolueiden "läheisyyttä" jaettujen tykkääjien ja kommentoijien perusteella. Hyödynnän ns. social network analysis-menetelmää, jolla tutkitaan erilaisia verkostoja. Klassisimmassa versiossa henkilö joko tuntee tai ei tunne toista henkilöä, mutta tässä versiossa otetaan huomioon linkkien voimakkuus. Eli niiden ihmisten määrä, jotka ovat tykänneet sekä puolueen A, että B viestistä vähintään kerran.
Koska puolueiden koolla on väliä, tarvitaan standardointia. Esimerkiksi jos kaikkiaan 200 Itsenäisyyspuolueen viestistä tykänneestä 100 tykkää lisäksi vähintään yhdestä Perussuomalaisten viestistä, on linkki puolueiden välillä hyvin vahva IPU:n näkökulmasta, vaikka se ei Perussuomalaisten kaikkiaan 10 000 tykkääjän määrässä tunnukaan. Sen sijaan jos 10 000 Keskustan viestistä tykkääjästä 400 tykkää myös Perussuomalaisten viestistä, näyttää tämä linkki huomattavasti voimakkaampana kuin Itsenäisyyspuolueen ja Perussuomalaisten välinen linkki vaikka suhteellisesti edellinen on IPU:n näkökulmasta paljon voimakkaampi.
Standardoinnissa jaan jaettujien tykkääjien määrän suhteessa puolueen tykkääjien/kommentoijien koko määrällä. Edellistä esimerkkiä hyödyntäen IPU:n näkökulmasta suhde Perussuomalaisiin saa arvon 0.5, koska 100 kaikkiaan 200 sadasta IPU:n viestistä tykänneestä on tykännyt myös Persujen viestistä, mutta Perussuomalaisten 10 000 tykkääjän näkökulmasta suhteen voimakkuus saa vain arvon 0.01. Koska jaettujen tykkääjien määrä siis ei ole kummallekin puolueelle yhtä merkityksellinen, on alla olevassa kuvassa suunnatut ja erivahvuiset nuolet, vaikka absoluuttinen määrä onkin vakio.
Mutta nyt on jaariteltu taas tarpeeksi tylsiä teknisiä detaljeja. Ei muuta kuin kuvioita pöytään.
Ylläolevasta kuviosta ensimmäisenä silmään pistää punavihreä kupla, jossa Vasemmistoliiton, Vihreiden ja SDP:n suhteet ovat läheiset, varsinkin kahden ensiksi mainitun. Vanha heitto Vihreistä "kokoomuksen puisto-osastona" on siis todella kaukana todellisuudesta. Pienpuolueet Piraatit ja IPU ovat myös kytköksissä tähän blokkiin, IPU lähinnä Vasemmistoliiton kautta, Piraattien ollessa vahvahkosti Vihreiisiin ja myös selkeästi Vasemmistoliittoon kytköksissä.
Toinen vahvempi ryhmittymä on konservatiiviblokki, jossa Kristilliset käyvät aktiivisesti tykkäilemässä myös Persujen ja Kepu viesteistä. Myös Keskustan ja Perussuomalaisten välillä on selkeä sidos. Eurokriittiset pitävät myös yhtä, IPU:n ja Perussuomalaisten välisen liitoksen ollessa IPU:n näkökulmasta todella vahva. RKP on somekartan koulukiusattu; pieniä teinipojan hapuavia askeleita otetaan Kokoomuksen ja Vihreiden suuntaan. Kokoomukselle läheisimpiä viestejä tekevät keskustalaiset ja ärkoopeelaiset, mutta tykkäyksiä jaellaan jonkin verran myös perussuomalaisille.
Tykkääjien verkosto menee siis selkeästi puolueiden ideologioiden mukaisesti ja somemaailman kumppanuudet on nähtävissä myös puolueiden periaateohjelmista. Tykkääminen on merkki tuesta. Sen sijaan kommentointi on jotain ihan muuta kuten näemme alla olevasta kuvasta:
Perussuomalaiset ovat suomalaisen somekeskustelun hubi ja oikeastaan Piraattipuoluetta ja RKP:tä lukuunottamatta perussuomalaisten sivulla kommentoineet ovat vahvasti olleet mukana muidenkin puolueiden keskustelussa mukana. Kysymys onkin, että ovatko perussuomalaisiin identifioituvat aktiivisia politiikan seuraajia ja keskustelijoita/nettitrolleja/huolestuneita kansalaisia, jotka debatoivat ja asiakeskustelevat ympäri somen puoluekenttää vai käykö jokaisen yksittäisen puolueen kannattajat purkamassa ärsyyntymisensä nimenomaan perussuomalaisten sivuilla?
Perussuomalaisten keskeisen sijainnin lisäksi Kokoomuksen näkökulmasta Keskusta on hyvin läheinen, persujakin tärkeämpi, keskustelukumppani ja punavihreä blokki esiintyy tässäkin omana kokonaisuutenaan. RKP ja Piraattipuolue ovat ne kaksi omaa saarekettaan, joiden sivuilla käyty keskustelu ei hirveästi leviä muiden puolueiden puoluelle.
Puolueiden ideologioiden kvantitaativinen mittaaminen ja asettaminen erinäisille akseleille tai nelikenttiin on yksi valtio-opin rakastetuimpia harrastuksia. Mielestäni tässä näytetty somekäyttäytymisen tutkiminen tuo yhden uuden näkökulman tähän puolueiden läheisyyteen käytyyn keskusteluun. Sillä eikö ihmisten konkreettinen käyttäytyminen pitäisi olla vähintään yhtä tärkeää kuin periaateohjelmien sanavalinnat tai kansanedustajien äänestyskäyttäytyminen?
Tämän blogipostauksen aiheena on esitellä menetelmiä, joilla tutkia puolueiden "läheisyyttä" jaettujen tykkääjien ja kommentoijien perusteella. Hyödynnän ns. social network analysis-menetelmää, jolla tutkitaan erilaisia verkostoja. Klassisimmassa versiossa henkilö joko tuntee tai ei tunne toista henkilöä, mutta tässä versiossa otetaan huomioon linkkien voimakkuus. Eli niiden ihmisten määrä, jotka ovat tykänneet sekä puolueen A, että B viestistä vähintään kerran.
Koska puolueiden koolla on väliä, tarvitaan standardointia. Esimerkiksi jos kaikkiaan 200 Itsenäisyyspuolueen viestistä tykänneestä 100 tykkää lisäksi vähintään yhdestä Perussuomalaisten viestistä, on linkki puolueiden välillä hyvin vahva IPU:n näkökulmasta, vaikka se ei Perussuomalaisten kaikkiaan 10 000 tykkääjän määrässä tunnukaan. Sen sijaan jos 10 000 Keskustan viestistä tykkääjästä 400 tykkää myös Perussuomalaisten viestistä, näyttää tämä linkki huomattavasti voimakkaampana kuin Itsenäisyyspuolueen ja Perussuomalaisten välinen linkki vaikka suhteellisesti edellinen on IPU:n näkökulmasta paljon voimakkaampi.
Standardoinnissa jaan jaettujien tykkääjien määrän suhteessa puolueen tykkääjien/kommentoijien koko määrällä. Edellistä esimerkkiä hyödyntäen IPU:n näkökulmasta suhde Perussuomalaisiin saa arvon 0.5, koska 100 kaikkiaan 200 sadasta IPU:n viestistä tykänneestä on tykännyt myös Persujen viestistä, mutta Perussuomalaisten 10 000 tykkääjän näkökulmasta suhteen voimakkuus saa vain arvon 0.01. Koska jaettujen tykkääjien määrä siis ei ole kummallekin puolueelle yhtä merkityksellinen, on alla olevassa kuvassa suunnatut ja erivahvuiset nuolet, vaikka absoluuttinen määrä onkin vakio.
Mutta nyt on jaariteltu taas tarpeeksi tylsiä teknisiä detaljeja. Ei muuta kuin kuvioita pöytään.
Ylläolevasta kuviosta ensimmäisenä silmään pistää punavihreä kupla, jossa Vasemmistoliiton, Vihreiden ja SDP:n suhteet ovat läheiset, varsinkin kahden ensiksi mainitun. Vanha heitto Vihreistä "kokoomuksen puisto-osastona" on siis todella kaukana todellisuudesta. Pienpuolueet Piraatit ja IPU ovat myös kytköksissä tähän blokkiin, IPU lähinnä Vasemmistoliiton kautta, Piraattien ollessa vahvahkosti Vihreiisiin ja myös selkeästi Vasemmistoliittoon kytköksissä.
Toinen vahvempi ryhmittymä on konservatiiviblokki, jossa Kristilliset käyvät aktiivisesti tykkäilemässä myös Persujen ja Kepu viesteistä. Myös Keskustan ja Perussuomalaisten välillä on selkeä sidos. Eurokriittiset pitävät myös yhtä, IPU:n ja Perussuomalaisten välisen liitoksen ollessa IPU:n näkökulmasta todella vahva. RKP on somekartan koulukiusattu; pieniä teinipojan hapuavia askeleita otetaan Kokoomuksen ja Vihreiden suuntaan. Kokoomukselle läheisimpiä viestejä tekevät keskustalaiset ja ärkoopeelaiset, mutta tykkäyksiä jaellaan jonkin verran myös perussuomalaisille.
Tykkääjien verkosto menee siis selkeästi puolueiden ideologioiden mukaisesti ja somemaailman kumppanuudet on nähtävissä myös puolueiden periaateohjelmista. Tykkääminen on merkki tuesta. Sen sijaan kommentointi on jotain ihan muuta kuten näemme alla olevasta kuvasta:
Perussuomalaiset ovat suomalaisen somekeskustelun hubi ja oikeastaan Piraattipuoluetta ja RKP:tä lukuunottamatta perussuomalaisten sivulla kommentoineet ovat vahvasti olleet mukana muidenkin puolueiden keskustelussa mukana. Kysymys onkin, että ovatko perussuomalaisiin identifioituvat aktiivisia politiikan seuraajia ja keskustelijoita/nettitrolleja/huolestuneita kansalaisia, jotka debatoivat ja asiakeskustelevat ympäri somen puoluekenttää vai käykö jokaisen yksittäisen puolueen kannattajat purkamassa ärsyyntymisensä nimenomaan perussuomalaisten sivuilla?
Perussuomalaisten keskeisen sijainnin lisäksi Kokoomuksen näkökulmasta Keskusta on hyvin läheinen, persujakin tärkeämpi, keskustelukumppani ja punavihreä blokki esiintyy tässäkin omana kokonaisuutenaan. RKP ja Piraattipuolue ovat ne kaksi omaa saarekettaan, joiden sivuilla käyty keskustelu ei hirveästi leviä muiden puolueiden puoluelle.
Puolueiden ideologioiden kvantitaativinen mittaaminen ja asettaminen erinäisille akseleille tai nelikenttiin on yksi valtio-opin rakastetuimpia harrastuksia. Mielestäni tässä näytetty somekäyttäytymisen tutkiminen tuo yhden uuden näkökulman tähän puolueiden läheisyyteen käytyyn keskusteluun. Sillä eikö ihmisten konkreettinen käyttäytyminen pitäisi olla vähintään yhtä tärkeää kuin periaateohjelmien sanavalinnat tai kansanedustajien äänestyskäyttäytyminen?
lauantai 31. lokakuuta 2015
Niin paljon avointa dataa, ja vähän myös luottamusta kunnallisiin päättäjiin
Ehkä paras asia mihin olen viime aikoina törmännyt on Louhos ja heidän R-kirjastonsa sotkanet ja pxweb. (plus muutamat muut, joita en ole vielä ehtinyt testaamaan ajanpuutteen vuoksi). Heidän blogikirjoituksiinsa törmäsin varsinkin viime eduskuntavaalien aikaan, mutta vasta noin kuukausi sitten tajusin heidän tekemänsä mittaamattoman arvokkaan työn suomalaisen avoimen datan käytön edistämiseksi.
Niin paljon avointa dataa muutamassa helppokäyttöisessä paketissa.Itse asiassa pxwebin graafista käyttöliittymää muistuttava hakuprosessi on niin helppo ja yksinkertainen, että minua jopa hävetti käyttää sitä. Aikaisemmin datan yhdistely eri lähteistä on tarkoittanut joko ärsyttävää excel-näpräämistä tai vähintään useamman monimutkaisen JSON-kyselyn tai vastaavan tekemistä useaan eri rajapintaan. Louhoksen R-kirjastojen ansiosta datan yhdistely eri lähteistä käy minuuteissa. Aivan erinomainen asia tällaiselle rajoitesti aikaa ja energiaa tällaiselle omalla ajalla tehtävälle datakäpistelylle omaavalle ihmiselle. Ette varmaan koskaan tule tätä lukemaan, mutta kiitos!
Ja nyt kun olen buffannut Louhosta niin aika mennä tämän kerran aiheeseen eli poliittiseen luottamukseen. Tunnetustihan poliittinen luottamus päättäjiin on romahtanut ja viimeiset 30 vuotta, mutta ehkä aihe on jälleen ajankohtainen. Sipilän hallitus on onnistunut suututtamaan kaikki palkansaajajärjestöt, eläkeläiset ja monta muutakin eturyhmää. Sebastian Tynkkysen avoin kapina taas nakertaa puolueen kannattajien luottamusta uutena ja erilaisena puolueena esiintyneeseen Perussuomalaisiin ja sen yhä diktaattorimaisempaan johtajaan Timo Soiniin.
Tässä teen hyvin yksinkertaisen mallin, jota havainnollistan perinteisellä sirontakuviolla. Hyödynnän THL:n kyselytutkimusta, jossa on kysytty henkilön luottamusta oman kuntansa päätöksentekoon. Kuntatason dataa tästä indikaattorista on käytettävissä 17 isosta kaupungista. Tähän liitän Tilastokeskuksen koulutustaso-indikaattorin, joka saa arvoja 200 ja 800 välillä. Ja ihan vain koska voin, heitän huvikseni vielä värityksen tupakoivien määrän mukaan.
Koulutushan on ollut perinteisesti ehkä voimakkaimmin poliittista aktiivisuutta, luottamusta ja ymmärtämistä selittävä tekijä. Korkeasti koulutetut kokevat olevansa enemmän osa poliittista järjestelmää, tuntevat voivansa vaikuttaa yhteisiin asioihin ja myös ymmärtävät käsiteltävät poliittiset asiakysymykset paremmin. On siis hyvin perusteltua tehdä hypoteesi: kaupungin korkeammin koulutettu väestö johtaa parempaan luottamukseen kunnan poliittiseen päätöksentekoon. Ja kuten alla olevasta kuviosta näemme, hypoteesti pitää todella hyvin paikkansa, sillä selkeä lineaarinen trendi koulutustason ja luottamuksen välillä on nähtävissä.
Tutkitaan ja spekuloidaan muutamia yksittäistapauksia. Ensiksi täytyy nauraa Kouvolalle, joka on tässä asiassa sui generis. Yleinen koulutustaso on siellä huomattavan alhainen, mutta siitä seuraava epäluottamus poliittiseen päätöksentekoon on aivan omaa luokkaansa. En ihmettele, jos tämä on se kuntapäättäjien paras yritys nostaa Kouvolan vetovoimaa.
Turku ja Jyväskylä nousevat esiin suhteellisen koulutettuina kaupunkeina, joissa kuitekin luottamus kunnan päätöksentekoon on todella alhaista. Turussa viisi vuotta asuneena en hirveästi ihmettele Turun tulosta. Kirjastosilta, miksi!? Ja entäs se toriparkki, joko päätös on tehty? Jos kaupunki on antanut nimensä poliittista suhmurointia käsittelevälle ilmiölle niin ei tarvitse ihmetellä kaupunkilaisten alhaista luottamusta päättäjiinsä. Jyväskylästä minulla ei ole tarpeeksi tietoa osatakseni sitä spekuloida.
Vantaa ja Seinäjoki taas ovat kaupunkeja, joissa luottamus kunnalliseen päätöksentekoon on korkeampaa kuin mitä väestön koulutustaso antaisi ymmärtää. Seinäjokiset ovat ainakin hyvin itsetietoista ja hyvän itsetunnon omaavaa pohjalaista kansaa, joten tulos on hyvin ymmärrettävissä. Mutta Vantaata en oikein ymmärrä. Kai sielläkin sitten on syytä olla tyytyväinen. Tai ehkä he äänestivät koko metropolialueen tilanne mielessään.
Muut kaupungit sitten osuivatkin mukavasti regressiosuoran luottamusvälin sisälle. Espoo on koulutetuin, mutta Helsingissä luotetaan vähän enemmän kunnalliseen päätöksentekoon. Tampere ja Oulu tulevat tämän kaksikon jälkeen. Toisesta päästä löytyy sitten Poria ja Lappeenrantaa. Tuo käsittämätön klusteri Hämeenlinnasta oikealle sisältää Vaasaa, Rovaniemeä, Lahtea, Kuopiota ja Joensuuta.
Lisäsikö tupakoinnin yleisyyden lisääminen kuvioon sen informaatioarvoa? No jaa. Mutta miksei sitä tekisi, kun ylimääräisen datan käyttö on nyt niin helppoa?
Niin paljon avointa dataa muutamassa helppokäyttöisessä paketissa.Itse asiassa pxwebin graafista käyttöliittymää muistuttava hakuprosessi on niin helppo ja yksinkertainen, että minua jopa hävetti käyttää sitä. Aikaisemmin datan yhdistely eri lähteistä on tarkoittanut joko ärsyttävää excel-näpräämistä tai vähintään useamman monimutkaisen JSON-kyselyn tai vastaavan tekemistä useaan eri rajapintaan. Louhoksen R-kirjastojen ansiosta datan yhdistely eri lähteistä käy minuuteissa. Aivan erinomainen asia tällaiselle rajoitesti aikaa ja energiaa tällaiselle omalla ajalla tehtävälle datakäpistelylle omaavalle ihmiselle. Ette varmaan koskaan tule tätä lukemaan, mutta kiitos!
Ja nyt kun olen buffannut Louhosta niin aika mennä tämän kerran aiheeseen eli poliittiseen luottamukseen. Tunnetustihan poliittinen luottamus päättäjiin on romahtanut ja viimeiset 30 vuotta, mutta ehkä aihe on jälleen ajankohtainen. Sipilän hallitus on onnistunut suututtamaan kaikki palkansaajajärjestöt, eläkeläiset ja monta muutakin eturyhmää. Sebastian Tynkkysen avoin kapina taas nakertaa puolueen kannattajien luottamusta uutena ja erilaisena puolueena esiintyneeseen Perussuomalaisiin ja sen yhä diktaattorimaisempaan johtajaan Timo Soiniin.
Tässä teen hyvin yksinkertaisen mallin, jota havainnollistan perinteisellä sirontakuviolla. Hyödynnän THL:n kyselytutkimusta, jossa on kysytty henkilön luottamusta oman kuntansa päätöksentekoon. Kuntatason dataa tästä indikaattorista on käytettävissä 17 isosta kaupungista. Tähän liitän Tilastokeskuksen koulutustaso-indikaattorin, joka saa arvoja 200 ja 800 välillä. Ja ihan vain koska voin, heitän huvikseni vielä värityksen tupakoivien määrän mukaan.
Koulutushan on ollut perinteisesti ehkä voimakkaimmin poliittista aktiivisuutta, luottamusta ja ymmärtämistä selittävä tekijä. Korkeasti koulutetut kokevat olevansa enemmän osa poliittista järjestelmää, tuntevat voivansa vaikuttaa yhteisiin asioihin ja myös ymmärtävät käsiteltävät poliittiset asiakysymykset paremmin. On siis hyvin perusteltua tehdä hypoteesi: kaupungin korkeammin koulutettu väestö johtaa parempaan luottamukseen kunnan poliittiseen päätöksentekoon. Ja kuten alla olevasta kuviosta näemme, hypoteesti pitää todella hyvin paikkansa, sillä selkeä lineaarinen trendi koulutustason ja luottamuksen välillä on nähtävissä.
Tutkitaan ja spekuloidaan muutamia yksittäistapauksia. Ensiksi täytyy nauraa Kouvolalle, joka on tässä asiassa sui generis. Yleinen koulutustaso on siellä huomattavan alhainen, mutta siitä seuraava epäluottamus poliittiseen päätöksentekoon on aivan omaa luokkaansa. En ihmettele, jos tämä on se kuntapäättäjien paras yritys nostaa Kouvolan vetovoimaa.
Turku ja Jyväskylä nousevat esiin suhteellisen koulutettuina kaupunkeina, joissa kuitekin luottamus kunnan päätöksentekoon on todella alhaista. Turussa viisi vuotta asuneena en hirveästi ihmettele Turun tulosta. Kirjastosilta, miksi!? Ja entäs se toriparkki, joko päätös on tehty? Jos kaupunki on antanut nimensä poliittista suhmurointia käsittelevälle ilmiölle niin ei tarvitse ihmetellä kaupunkilaisten alhaista luottamusta päättäjiinsä. Jyväskylästä minulla ei ole tarpeeksi tietoa osatakseni sitä spekuloida.
Vantaa ja Seinäjoki taas ovat kaupunkeja, joissa luottamus kunnalliseen päätöksentekoon on korkeampaa kuin mitä väestön koulutustaso antaisi ymmärtää. Seinäjokiset ovat ainakin hyvin itsetietoista ja hyvän itsetunnon omaavaa pohjalaista kansaa, joten tulos on hyvin ymmärrettävissä. Mutta Vantaata en oikein ymmärrä. Kai sielläkin sitten on syytä olla tyytyväinen. Tai ehkä he äänestivät koko metropolialueen tilanne mielessään.
Muut kaupungit sitten osuivatkin mukavasti regressiosuoran luottamusvälin sisälle. Espoo on koulutetuin, mutta Helsingissä luotetaan vähän enemmän kunnalliseen päätöksentekoon. Tampere ja Oulu tulevat tämän kaksikon jälkeen. Toisesta päästä löytyy sitten Poria ja Lappeenrantaa. Tuo käsittämätön klusteri Hämeenlinnasta oikealle sisältää Vaasaa, Rovaniemeä, Lahtea, Kuopiota ja Joensuuta.
Lisäsikö tupakoinnin yleisyyden lisääminen kuvioon sen informaatioarvoa? No jaa. Mutta miksei sitä tekisi, kun ylimääräisen datan käyttö on nyt niin helppoa?
sunnuntai 18. lokakuuta 2015
Pakolaistulva ja Google-hakujen vyöry
En tiedä oletteko huomanneet, mutta Syyriassa on sodittu viimeiset neljä vuotta varsin ikävää sisällissotaa. Islamilainen valtio (ennen tunnettu Islamilaisena valtiona Syyriassa ja Iraqissa, tuttavallisemmin ISIS) perusti alueelle oman mukavan pikku kalifaattinsa, joka vähän niin kuin vahingossa levisi myös omista sisäisistä ongelmistaan kärsivän Irakin alueelle. Siinähän sitä ihmisellä on vähän taipumusta lähteä liikkeelle ja kun Syyrian naapurivaltioidenkin kärsivällisyys ja resurssit alkoivat vähän loppumaan niin Eurooppaankin päätti jokunen tyyppi lähteä. Ja eihän ne kaikki voineet jäädä Välimeren rajavaltioihin. Kreikallakin meni valmiiksi jo vähän heikonlaisesti.
Niinpä Suomeenkin on jokunen promille turvapaikanhakijoista saapunut. Tämän seurauksena Lahteen saatiin avattua uusi Ku Klux Klanin alajaosto, Torniossa mieltä osoitettiin jääkääkän mömmöm 95-hengessä ja vähän myös vastaanottokeskuksia vastaan on hyökätty polttopulloilla, silleen ei-rasistisesti. Ihmiskauppaajat ovat saaneet hyvän asiakaskunnan hätää kärsivistä ja jotkut balkanilaiset ovat koittaneet hyödyntää tilannetta hakemalla turvapaikkaa lähinnä taloudellisin perustein. Viimeistään kun hommafoorumilaisten alkavat suunnitella Suomesta pois muuttamista liiallisen maahanmuuttajien määrän vuoksi voidaan virallisesti sanoa tilanteen olevan hieman huolestuttava.
Sosiaalisen median sijaan uppoudumme tällä kertaa yhteen big datan klassisimmista ilmentymismuodoista: google-hakuihin. Google on esimerkiksi ennustanut flunssa-aaltoja ja onpa Suomessakin hyödynnetty hakutietoja työttömyyden ennustamiseen. Ja myös tämän blogini aiheeseen liittyen, jälkikäteen nähty irakilaisten google-käyttäytymisessä perusta irakilaisten pakolaisten lisääntymiselle Suomessa. Google-haut ovat mielenkiintoinen peili reaalimaailmaan, mutta toisaalta aikasarjadatana varsin ikäviä. Ne kuvastavat 2000-luvun nopeatempoista mediamaailmaa, jossa uutisaihe on koluttu tyhjiin päivissä, ellei tunneissa. Siksi niissä on yleisenä ilmiönä vahvat piikit, jotka eivät kuvasta sen liiemmin yleistä trendiä kuin kausivaihteluakaan. Mutta yksittäisten piikkien lisäksi voi aina havaita myös pitkäkestoisempia trendejä sekä mielenkiintoisia kausivaihtelu-ilmiöitä. Ja nämä aikasarja-komponentit voivat kertoa paljon reaalimaailman ilmiöistä ja ihmisten käyttäymisestä ja muuttuvista huolenaiheista.
Google Trends, ja sen hauska veli Google Correlate ovat avoimesti käytettävissä selaimella. Sen lisäksi R:ään on saatavissa parikin kirjastoa, joiden avulla voi päästä kiinni Google Trendsin avoimeen rajapintaan ja ladata data hieman monimutkaisempaa analyysiä varten. Itse hain, ilman maantieteellisiä rajauksia, alla olevien yhdeksän termin Google-hakujen historiat. Alla olevia kuvioita ei voi oikeastaan verrata toisiinsa määrien osalta, sillä Google Trends tuottaa vain normalisoituna termin haun suhteellisen yleisyyden suhteessa kaikkiin muihin hakuihin jolloin on mahdotonta sanoa mitään termin absoluuttisista hakumääristä tai hakujen yleisyydestä suhteessa muihin termeihin. (Google Trendsin kautta tehtynä kahden termin hakujen mittakaavasuhteet on saatavissa selville). Haussa otetaan huomioon kaikki haut, joissa termi esiintyy, esim. "crisis" tuottaa niin "financial crisis" kuin "refugee crisis"-hakuja.
Pakolaistermien google-hakujen aikasarjat
Valitut termit pyrin jollain tavalla valitsemaan liittymään pakolaiskeskusteluun. "Floodeja" tai muitakaan luonnonilmiöitä en ottanut mukaan, lähinnä koska tein sen ja ei siellä ollut havaittavissa mitään hauskaa.
"Asylumin" piikki syksyllä 2009 johtunee Batman - Arkham Asylumin julkaisusta, kahden muun selkeämmän piikin varmaan myös jollain tavalla liittyen peliin, voisi luulla. Kriisissä on selkeästi talouskriisi ja eurokriisi, mutta "refugee crisis" ei ole kovin suurta kasvua saanut aikaan google-hauissa. 2014-vuoden alussa oletettu Ukrainan kriisikin on kriittisempi kriisi. Sen sijaan turvapaikan hakijat nousivat todella vahvana piikkinä ihan aikasarjan lopussa, kuten myös eurooppalaisessa englannin kielisessä diskurssissa paljon käytetty "migrant". ISIS ei enää niin kiinnosta. Mutta mitä ihmettä Muslimit tekivät 2012 lopussa?
Haettujen termien hakuhistorioiden korrelaatiomatriisi
Tässä korrelaatiomatriisi, tällä kertaa luvuilla pallojen sijaan. Huomataan, että "migrant" ja "refugee" korreloivat suhteellisen vahvasti keskenään, mutta muuten selkeitä yhteyksiä hakutermien välille ei löydy.
Migrant-termin aikasarja tarkemmin 2013-alkaen
Tässä tarkemmin "migrant"-termin aikasarja vuodesta 2013 alkaen niin pääsemme hieman tarkemmin käsiksi termin hakuhistorian käyttäymiseen ja sen kausivaihteluihin. Kuten aikaisemmin vähän sivusin, aikasarjojen ajatellaan yleensä koostuvan kolmesta komponentista, trendistä, kausikomponentista ja satunnaisvaihtelusta. Kausivaihtelu tarkoittaa säännönmukaista vaihtelua riippumatta trendistä (esimerkiksi jäätelöä myydään vuodesta toiseen eniten kesäisin, vaikka jäätelön myynnin trendi olisi nouseva tai laskeva).
Yllä olevassa aikasarjassa on havaittavissa puolen vuoden sykliä noudattava kausivaihtelu. Hakuhistorian aktiivisuus on alhaisimmillaan keskikesällä ja vuodenvaihteessa. Muuta syytä en keksi kuin virallisten organisaatioiden lomakaudet. 2015 alkoi samoin "migrant"-termin hakuhistorian kohdalla samoin kuin pari aikaisempaakin vuotta, mutta keväällä ilmeisesti paljon uutisoidut Välimeren hukkumistapaukset aiheuttivat yhden vahvan piikin ja elokuusta alkaen tietysti termin google-haut räjähtivät käsiin, tosin trendi on jo kääntynyt kovimpaan piikkiin nähden jo selkeään laskuun.
Aikasarjojen tuijottaminen ei itsessään ole kovin mielekästä puuhaa. Aikasarjan purkaminen komponentteihinsa tuottaa jo jonkinlaisia ahaa-elämyksiä. Mutta aikasarjoilla ennustaminen on jo hauskaa, vaikkakaan usein kovin luotettavaa. Ennustamisessa voi hyödyntää muita aikasarjoja, mutta tässä käytetään ainoastaan aikasarjaa itseään. Alla on kolme esimerkkiä ennustamisesta. Ennusteet on tehty hyödyntäen forecast-kirjaston auto.arima-funktiota, jolloin minun ei itse tarvitse päätellä mallin komponentteja (jokainen, joka on joskus käynyt aikasarjakurssin tietää kuinka turhauttavaa se on. Sitä paitsi jo surkean luennoitsijan takia en koskaan oikein kunnolla sisäistänyt sen pointtia, joten aikasarja-analyysi on menetelmänä minulle hieman vieras. Ehkä olisi pitänyt vähän paremmin perehtyä aiheen teoriaan ennen blogipostausta, mutta ei tässä tiedettä olla tekemässä)
"Migrant"-termin google-hakujen ennuste
Migrant-termissä ennuste on siis se, että raju lasku aiheen kiinnostavuudessa jatkuu. Noin 2016 keväällä tulee taas uusi kausivaihtelun mukainen piikki, joka on vuotta 2015 heikompi. Ensi syksyllä tulee taas uusi voimakas piikki. Huomattavaa myös on, että ennusteen mukaan haun kiinnostavuuden perustaso nousee kuitenkin pysyvästi selkeästi aikaisempaa korkeammalle. Ainakin lähitulevaisuudessa pakolaiset ovat tulleet google-hakuihimme, jos ennustetta on uskominen.
Kriisi-hakujen ennuste
Jos migrant-termin kohdalla ennuste oli jollain tasolla uskottava niin on hyvä näyttää myös esimerkki siitä, miltä ennuste voi pahimmillaan näyttää. Luottamusvälit ovat valtavat ja ennusteen käyttäytyminen poikkeaa hyvin suuresti kriisi-hakujen aikaisemmasta käyttäytymisestä. Johtunee siitä, että käyttäytyminen on ollut todella epäsäännöllistä. Kriisit eivät katso kausivaihteluja tai trendejä vaan elävät ja kuolevat nopeasti hetkessä. Nassim Nicholas Taleb varmaan puhuisi ennustamattomista mustista joutsenista.
"Human trafficking"-termin ennuste
Ihmiskaupan käyttäytyminen aikasarja oli miellyttävän ennustettavaa. Ennuste kertookin tuttua kieltä kausivaihtelunsa puolesta. Toisaalta ennusteen mukaan kausivaihtelun voimakkuus laskisi huomattavasti piikkien ollessa pienempiä ja pohjien korkeammalla. Tämä maltillistaminen tuntuu olevankin yksi (näin huonosti tehtyjen kuin minun) aikasarjaennusteiden ominaispiirre.
Mielestäni aikasarjoja voi hyvällä syyllä pitää yhtenä monimutkaisimpana tilastollisena menetelmänä. Niiden oikea käyttö vaatii paljon harjaannusta ja aikasarjapraktiikka on yhtä paljon taidetta kuin tiedettä. Google-hakujen kohdalla aikasarjat ovat vieläpä normaaliakin kinkkisempiä, sillä niille säännönmukaisia kausivaihteluja ja trendejä kuvaavampaa ovat lyhytkestoiset, sattumanvaraiset piikit. Ainakin jos puhutaan kovin mediaseksikkäistä aiheista, kuten nyt kriisien ja pakolaisten kohdalla tehdään.
Google-haut tarjoaa uniikin peilin ihmisten käyttäytymiseen ja datan hyödyntämisen mahdollisuudet ovat suuret. Näinkin epämääräisesti toteutusta Google Trendsin analysoinnista voi saada jotain irti.Kuten Mikko Wennberg kirjoitti blogissaan (jonka hemmetti julkaisi ennen minua, nämä analyysithän ovat olleet tekstiä vaille valmiita jo useamman viikon. On kyllä myös myönnettävä, että Mikon toteutus on tosielämän kannalta mittaamattoman paljon relevantimpi kuin minun lähinnä teknisen toteutuksen harjoitteluun keskittyvät viritelmäni), ei meidän ehkä olisi tarvinnut olla niin yllättyneitä syksyn pakolaismäärän kasvusta. Kukaan vaan ei osannut etsiä oikeita signaaleja.
Niinpä Suomeenkin on jokunen promille turvapaikanhakijoista saapunut. Tämän seurauksena Lahteen saatiin avattua uusi Ku Klux Klanin alajaosto, Torniossa mieltä osoitettiin jääkääkän mömmöm 95-hengessä ja vähän myös vastaanottokeskuksia vastaan on hyökätty polttopulloilla, silleen ei-rasistisesti. Ihmiskauppaajat ovat saaneet hyvän asiakaskunnan hätää kärsivistä ja jotkut balkanilaiset ovat koittaneet hyödyntää tilannetta hakemalla turvapaikkaa lähinnä taloudellisin perustein. Viimeistään kun hommafoorumilaisten alkavat suunnitella Suomesta pois muuttamista liiallisen maahanmuuttajien määrän vuoksi voidaan virallisesti sanoa tilanteen olevan hieman huolestuttava.
Sosiaalisen median sijaan uppoudumme tällä kertaa yhteen big datan klassisimmista ilmentymismuodoista: google-hakuihin. Google on esimerkiksi ennustanut flunssa-aaltoja ja onpa Suomessakin hyödynnetty hakutietoja työttömyyden ennustamiseen. Ja myös tämän blogini aiheeseen liittyen, jälkikäteen nähty irakilaisten google-käyttäytymisessä perusta irakilaisten pakolaisten lisääntymiselle Suomessa. Google-haut ovat mielenkiintoinen peili reaalimaailmaan, mutta toisaalta aikasarjadatana varsin ikäviä. Ne kuvastavat 2000-luvun nopeatempoista mediamaailmaa, jossa uutisaihe on koluttu tyhjiin päivissä, ellei tunneissa. Siksi niissä on yleisenä ilmiönä vahvat piikit, jotka eivät kuvasta sen liiemmin yleistä trendiä kuin kausivaihteluakaan. Mutta yksittäisten piikkien lisäksi voi aina havaita myös pitkäkestoisempia trendejä sekä mielenkiintoisia kausivaihtelu-ilmiöitä. Ja nämä aikasarja-komponentit voivat kertoa paljon reaalimaailman ilmiöistä ja ihmisten käyttäymisestä ja muuttuvista huolenaiheista.
Google Trends, ja sen hauska veli Google Correlate ovat avoimesti käytettävissä selaimella. Sen lisäksi R:ään on saatavissa parikin kirjastoa, joiden avulla voi päästä kiinni Google Trendsin avoimeen rajapintaan ja ladata data hieman monimutkaisempaa analyysiä varten. Itse hain, ilman maantieteellisiä rajauksia, alla olevien yhdeksän termin Google-hakujen historiat. Alla olevia kuvioita ei voi oikeastaan verrata toisiinsa määrien osalta, sillä Google Trends tuottaa vain normalisoituna termin haun suhteellisen yleisyyden suhteessa kaikkiin muihin hakuihin jolloin on mahdotonta sanoa mitään termin absoluuttisista hakumääristä tai hakujen yleisyydestä suhteessa muihin termeihin. (Google Trendsin kautta tehtynä kahden termin hakujen mittakaavasuhteet on saatavissa selville). Haussa otetaan huomioon kaikki haut, joissa termi esiintyy, esim. "crisis" tuottaa niin "financial crisis" kuin "refugee crisis"-hakuja.
Pakolaistermien google-hakujen aikasarjat
Valitut termit pyrin jollain tavalla valitsemaan liittymään pakolaiskeskusteluun. "Floodeja" tai muitakaan luonnonilmiöitä en ottanut mukaan, lähinnä koska tein sen ja ei siellä ollut havaittavissa mitään hauskaa.
"Asylumin" piikki syksyllä 2009 johtunee Batman - Arkham Asylumin julkaisusta, kahden muun selkeämmän piikin varmaan myös jollain tavalla liittyen peliin, voisi luulla. Kriisissä on selkeästi talouskriisi ja eurokriisi, mutta "refugee crisis" ei ole kovin suurta kasvua saanut aikaan google-hauissa. 2014-vuoden alussa oletettu Ukrainan kriisikin on kriittisempi kriisi. Sen sijaan turvapaikan hakijat nousivat todella vahvana piikkinä ihan aikasarjan lopussa, kuten myös eurooppalaisessa englannin kielisessä diskurssissa paljon käytetty "migrant". ISIS ei enää niin kiinnosta. Mutta mitä ihmettä Muslimit tekivät 2012 lopussa?
Haettujen termien hakuhistorioiden korrelaatiomatriisi
Tässä korrelaatiomatriisi, tällä kertaa luvuilla pallojen sijaan. Huomataan, että "migrant" ja "refugee" korreloivat suhteellisen vahvasti keskenään, mutta muuten selkeitä yhteyksiä hakutermien välille ei löydy.
Migrant-termin aikasarja tarkemmin 2013-alkaen
Tässä tarkemmin "migrant"-termin aikasarja vuodesta 2013 alkaen niin pääsemme hieman tarkemmin käsiksi termin hakuhistorian käyttäymiseen ja sen kausivaihteluihin. Kuten aikaisemmin vähän sivusin, aikasarjojen ajatellaan yleensä koostuvan kolmesta komponentista, trendistä, kausikomponentista ja satunnaisvaihtelusta. Kausivaihtelu tarkoittaa säännönmukaista vaihtelua riippumatta trendistä (esimerkiksi jäätelöä myydään vuodesta toiseen eniten kesäisin, vaikka jäätelön myynnin trendi olisi nouseva tai laskeva).
Yllä olevassa aikasarjassa on havaittavissa puolen vuoden sykliä noudattava kausivaihtelu. Hakuhistorian aktiivisuus on alhaisimmillaan keskikesällä ja vuodenvaihteessa. Muuta syytä en keksi kuin virallisten organisaatioiden lomakaudet. 2015 alkoi samoin "migrant"-termin hakuhistorian kohdalla samoin kuin pari aikaisempaakin vuotta, mutta keväällä ilmeisesti paljon uutisoidut Välimeren hukkumistapaukset aiheuttivat yhden vahvan piikin ja elokuusta alkaen tietysti termin google-haut räjähtivät käsiin, tosin trendi on jo kääntynyt kovimpaan piikkiin nähden jo selkeään laskuun.
Aikasarjojen tuijottaminen ei itsessään ole kovin mielekästä puuhaa. Aikasarjan purkaminen komponentteihinsa tuottaa jo jonkinlaisia ahaa-elämyksiä. Mutta aikasarjoilla ennustaminen on jo hauskaa, vaikkakaan usein kovin luotettavaa. Ennustamisessa voi hyödyntää muita aikasarjoja, mutta tässä käytetään ainoastaan aikasarjaa itseään. Alla on kolme esimerkkiä ennustamisesta. Ennusteet on tehty hyödyntäen forecast-kirjaston auto.arima-funktiota, jolloin minun ei itse tarvitse päätellä mallin komponentteja (jokainen, joka on joskus käynyt aikasarjakurssin tietää kuinka turhauttavaa se on. Sitä paitsi jo surkean luennoitsijan takia en koskaan oikein kunnolla sisäistänyt sen pointtia, joten aikasarja-analyysi on menetelmänä minulle hieman vieras. Ehkä olisi pitänyt vähän paremmin perehtyä aiheen teoriaan ennen blogipostausta, mutta ei tässä tiedettä olla tekemässä)
"Migrant"-termin google-hakujen ennuste
Migrant-termissä ennuste on siis se, että raju lasku aiheen kiinnostavuudessa jatkuu. Noin 2016 keväällä tulee taas uusi kausivaihtelun mukainen piikki, joka on vuotta 2015 heikompi. Ensi syksyllä tulee taas uusi voimakas piikki. Huomattavaa myös on, että ennusteen mukaan haun kiinnostavuuden perustaso nousee kuitenkin pysyvästi selkeästi aikaisempaa korkeammalle. Ainakin lähitulevaisuudessa pakolaiset ovat tulleet google-hakuihimme, jos ennustetta on uskominen.
Kriisi-hakujen ennuste
Jos migrant-termin kohdalla ennuste oli jollain tasolla uskottava niin on hyvä näyttää myös esimerkki siitä, miltä ennuste voi pahimmillaan näyttää. Luottamusvälit ovat valtavat ja ennusteen käyttäytyminen poikkeaa hyvin suuresti kriisi-hakujen aikaisemmasta käyttäytymisestä. Johtunee siitä, että käyttäytyminen on ollut todella epäsäännöllistä. Kriisit eivät katso kausivaihteluja tai trendejä vaan elävät ja kuolevat nopeasti hetkessä. Nassim Nicholas Taleb varmaan puhuisi ennustamattomista mustista joutsenista.
"Human trafficking"-termin ennuste
Ihmiskaupan käyttäytyminen aikasarja oli miellyttävän ennustettavaa. Ennuste kertookin tuttua kieltä kausivaihtelunsa puolesta. Toisaalta ennusteen mukaan kausivaihtelun voimakkuus laskisi huomattavasti piikkien ollessa pienempiä ja pohjien korkeammalla. Tämä maltillistaminen tuntuu olevankin yksi (näin huonosti tehtyjen kuin minun) aikasarjaennusteiden ominaispiirre.
Mielestäni aikasarjoja voi hyvällä syyllä pitää yhtenä monimutkaisimpana tilastollisena menetelmänä. Niiden oikea käyttö vaatii paljon harjaannusta ja aikasarjapraktiikka on yhtä paljon taidetta kuin tiedettä. Google-hakujen kohdalla aikasarjat ovat vieläpä normaaliakin kinkkisempiä, sillä niille säännönmukaisia kausivaihteluja ja trendejä kuvaavampaa ovat lyhytkestoiset, sattumanvaraiset piikit. Ainakin jos puhutaan kovin mediaseksikkäistä aiheista, kuten nyt kriisien ja pakolaisten kohdalla tehdään.
Google-haut tarjoaa uniikin peilin ihmisten käyttäytymiseen ja datan hyödyntämisen mahdollisuudet ovat suuret. Näinkin epämääräisesti toteutusta Google Trendsin analysoinnista voi saada jotain irti.Kuten Mikko Wennberg kirjoitti blogissaan (jonka hemmetti julkaisi ennen minua, nämä analyysithän ovat olleet tekstiä vaille valmiita jo useamman viikon. On kyllä myös myönnettävä, että Mikon toteutus on tosielämän kannalta mittaamattoman paljon relevantimpi kuin minun lähinnä teknisen toteutuksen harjoitteluun keskittyvät viritelmäni), ei meidän ehkä olisi tarvinnut olla niin yllättyneitä syksyn pakolaismäärän kasvusta. Kukaan vaan ei osannut etsiä oikeita signaaleja.
torstai 8. lokakuuta 2015
Jatkoa puolueiden mielipidelouhintaan - reaktiot KOHUgallupiin
Yllättyneiden lista oli varmaan aika lyhyt kun perussuomalaisten kannatus oli uudessa gallup-tuloksessa laskusuunnassa. Laskun voimakkuus saattoi sitten yllättää Kurikan ulkopuolellakin. (asiantuntijapiireissä tämä ennustettiin toki jo sunnuntaina...)
Vasemmisto saikin sitten muutakin kuin tekohengitystä ja demarit nousivat kerralla toiseksi suurimmaksi puolueeksi. SAK:n voimannäyttö lakkomielenosoitusperjantaina varmaan yhdistettiin SDP:hen. Ja varmaan persuista hallituksen leikkausten jälkeen loikkaaville duunareille nykyinen Vasemmistoliitto voi olla jo liian vieras.
Ei yhdestä gallupista kannata mitään suurempia johtopäätöksiä vetää ja jos vasemmistopuolueet eivät olisi nostattaneet kannatustaan niin viimeinen olisi saanut jo sammuttaa valot.
Mutta, mutta. Koska kehuin voivani olevani ajanhermolla ja saada tehokkaan yleiskuvan kansan syvien rivien tunnoista niin kokeillaan edellisestä blogipostauksesta tuttua kaavaa huomattavasti rajatumpaan otokseen ja tehdään pieni pika-analyysi aiheesta. Pienellä määrällä dataa virhemarginaalin määrä kasvaa eksponentiaalisesti tällaisella metodilla. Katsotaan siis mitä saatiin aikaan! Tällä kertaa aineistona viiden edellisen puolueen lähettämän Facebook-viestin alla käyty keskustelu (haettu 8.10 alkuillasta) eli aiheena on varmasti KOHUgallupin lisäksi myös muita ajankohtaisia asioita.
SDP: indeksi 0.17
Persut: indeksi -0.18
Kokkarit: indeksi 0.33
Vasurit: indeksi 0.14
Vihreät: indeksi 0.01
Kepu: indeksi -0.19
(RKP:n ja Kristillisten sivuilta ei saatu tarpeeksi dataa, joten jätettiin pois)
SDP siis loikkaa toiseksi negatiivisimmasta toiseksi positiivimmaksi samalla kun kannatus nousi "ynnä muut"-sijoilta hopealle. Perussuomalaisten negatiivisuus ei varsinaisesti näyttänyt kasvavan sitten edellisen viestin, mutta mollivoittoisuus jatkuu. Olisi voinut kuvitella, että kannatuksen lasku olisi näkynyt vieläkin vahvempana reaktiona (ja varmaan jos Facebookiin oikeasti näitä menisi lukemaan niin näkyykin, mutta jää nyt tässä koneaivolta huomaamatta)
Kokoomuksessa positiivisuus huitelee taivaissa. Sanapilvestä päätellä siellä on dynaamisesti toimittu ja tehty asioita. Sanoista ei kyllä voi päätellä, että mitä. Tässä näkyy selkeimmin pienen aineiston vaarat, eikä haluttua signaalia, gallup-tulosta, voitu paikantaa. Toki Kokoomuksen lasku ei niin leukoja loksauttava ollut, vaikka tippuivatkin Demarien taakse. Vasemmistoliitossa on myös puhe kääntynyt positiivissävytteiseksi. Vihreissä muutos ei ole niin suuri; onhan puolue ollut jo valmiiksi opposition henkinen johtaja ja heidän kannatuksen kasvunsa ei vetänyt vertoja perinteisen vasemmiston kasvulle.
Ja gallup-johtaja Kepussa ei hymyillä. Voinee tosin olla, että syynä ovat pakkolait ja pakolaiset, ei niinkään pudonnut kannatus.
Tiedä sitten kuinka suuri osa tästä on signaalia ja kuinka suuri osa melua, mutta kyllä sanoisin gallup-tuloksen näkyvän posiitivisiksi ja negatiivisiksi luokiteltujen kommentien jakaumassa.
Vasemmisto saikin sitten muutakin kuin tekohengitystä ja demarit nousivat kerralla toiseksi suurimmaksi puolueeksi. SAK:n voimannäyttö lakkomielenosoitusperjantaina varmaan yhdistettiin SDP:hen. Ja varmaan persuista hallituksen leikkausten jälkeen loikkaaville duunareille nykyinen Vasemmistoliitto voi olla jo liian vieras.
Ei yhdestä gallupista kannata mitään suurempia johtopäätöksiä vetää ja jos vasemmistopuolueet eivät olisi nostattaneet kannatustaan niin viimeinen olisi saanut jo sammuttaa valot.
Mutta, mutta. Koska kehuin voivani olevani ajanhermolla ja saada tehokkaan yleiskuvan kansan syvien rivien tunnoista niin kokeillaan edellisestä blogipostauksesta tuttua kaavaa huomattavasti rajatumpaan otokseen ja tehdään pieni pika-analyysi aiheesta. Pienellä määrällä dataa virhemarginaalin määrä kasvaa eksponentiaalisesti tällaisella metodilla. Katsotaan siis mitä saatiin aikaan! Tällä kertaa aineistona viiden edellisen puolueen lähettämän Facebook-viestin alla käyty keskustelu (haettu 8.10 alkuillasta) eli aiheena on varmasti KOHUgallupin lisäksi myös muita ajankohtaisia asioita.
SDP: indeksi 0.17
Persut: indeksi -0.18
Kokkarit: indeksi 0.33
Vasurit: indeksi 0.14
Vihreät: indeksi 0.01
Kepu: indeksi -0.19
(RKP:n ja Kristillisten sivuilta ei saatu tarpeeksi dataa, joten jätettiin pois)
SDP siis loikkaa toiseksi negatiivisimmasta toiseksi positiivimmaksi samalla kun kannatus nousi "ynnä muut"-sijoilta hopealle. Perussuomalaisten negatiivisuus ei varsinaisesti näyttänyt kasvavan sitten edellisen viestin, mutta mollivoittoisuus jatkuu. Olisi voinut kuvitella, että kannatuksen lasku olisi näkynyt vieläkin vahvempana reaktiona (ja varmaan jos Facebookiin oikeasti näitä menisi lukemaan niin näkyykin, mutta jää nyt tässä koneaivolta huomaamatta)
Kokoomuksessa positiivisuus huitelee taivaissa. Sanapilvestä päätellä siellä on dynaamisesti toimittu ja tehty asioita. Sanoista ei kyllä voi päätellä, että mitä. Tässä näkyy selkeimmin pienen aineiston vaarat, eikä haluttua signaalia, gallup-tulosta, voitu paikantaa. Toki Kokoomuksen lasku ei niin leukoja loksauttava ollut, vaikka tippuivatkin Demarien taakse. Vasemmistoliitossa on myös puhe kääntynyt positiivissävytteiseksi. Vihreissä muutos ei ole niin suuri; onhan puolue ollut jo valmiiksi opposition henkinen johtaja ja heidän kannatuksen kasvunsa ei vetänyt vertoja perinteisen vasemmiston kasvulle.
Ja gallup-johtaja Kepussa ei hymyillä. Voinee tosin olla, että syynä ovat pakkolait ja pakolaiset, ei niinkään pudonnut kannatus.
Tiedä sitten kuinka suuri osa tästä on signaalia ja kuinka suuri osa melua, mutta kyllä sanoisin gallup-tuloksen näkyvän posiitivisiksi ja negatiivisiksi luokiteltujen kommentien jakaumassa.
sunnuntai 4. lokakuuta 2015
Nukkuuko porvari hyvin, onko suomenruotsalaisilla hauskempaa? Mielipiteen louhintaa Facebookissa
Edellisellä kerralla sovelsin mielipiteen louhintaa mielenosoituspäivän Twitter-feedin analysointiin ja luokitteluun. Koska menetelmä oli varsin hauska ja ongelmistaan huolimatta tuotti vähintään välttäviä tuloksia niin en millään malta olla käyttämättä sitä jälleen. Metodologisesti muutoksia edelliseen blogaukseen verrattuna on kaksi: ensinnäkin käänsin Hun ja Liun sanalistat suomeksi ja pyrin hieman manuaalisesti vielä korjaamaan niitä. Näin päästään eroon kääntämisen aiheuttamista epävarmuustekijöistä. Semminkin kuin sanalistan kääntäminen suomeksi ja minun vajavaisilla kielitieteellisillä taidoilla sörkkimäni korjaukset eivät pahentaneet ongelmaa. RKP.n kohdalla käytän kommentit edelleen Microsoftin käännöspalvelun kautta.
Toinen on lisäys raportointiin. Jo edellisellä kerralla mietin, että mikä luku kuvaisi parhaiten mielialan positiivisuutta tai negatiivisuutta. Pelkkien positiivisten kommenttien osuus kaikista kommenteista on varsin vajavainen mittari; se ei huomioi luokitellaanko ne loput neutraaleiksi vai negatiivisiksi. Tähän ongelmaan ratkaisuksi keksin positiivisuusindeksiksi dubbaamani yksinkertaisen laskukaavan: (positiiviset kommentit - negatiiviset kommentit) / kaikki kommentit. Näin saadaan luku, joka saa arvoja -1 ja 1 välissä. Eli jos kaikki kommentit ovat negatiivisia, saa indeksi arvon -1 ja jos kaikki ovat neutraaleja niin arvo on 0. Toki kritiikkiä voi esittää siitä, että jos 50 % kommenteista on positiivisia ja 50 % negatiivisia niin silloinkin lopputuloksena on 0. Lisäksi erotuksen luonteen vuoksi tulokset pakkautuvat luontaisesti nollan ympärille (vaikka kaksi kolmasosaa kommenteista olisi negatiivisia niin kolmasosan positiivisten osuus tiputtaa indeksin arvoksi -0.33) Siksi tarjoan indeksin lisäksi myös pylväskuvioita, joista näkee todellisen jakauman.
Mutta varoitetaan silti jo valmiiksi jos ette muista lähtökohtaista varovaisuuttani edellisestä viestistäni. Mielipiteen louhinta on vaikeaa. Se on erityisen vaikeaa suomeksi, koska pohjaa jonka päälle työni rakentaa ei oikeastaan ole (ainakaan julkisesti saatavilla) ja sijamuotoja on huomattavasti englantia enemmän. Sarkasmi, piilomerkitykset ja erityisslangi on erittäin vaikeaa huomioida. Sanalistapohjaisessa menetelmässä hävitään jo sijamuodoissa valtavasti. Jos "huono" esiintyy sanalistassa niin ei se lohduta kun kommentissa puhutaan "huonoa". Tiedän sanalistani olevan vaillinainen. Mutta voin aina lohduttautua sillä, että jos sanalistoissa on systemaattisia virheitä niin virheet varmaan ovat satunnaisesti jakautuneita ja pitkässä juoksussa tasoittuvat. Ehkä.
Pieni ihmisaivon suorittama laaduntarkistus koneaivon luokittelun tuloksiin näytti osoittavan, että ei tulokset hatusta revittyjä olleet ja tarpeeksi moni luokittelu osui aivan oikeaan. Mutta parantamisen varaakin jäi; nopean arvioinnin perusteella algoritmi näytti luokittelevan negatiivisen kommentin herkemmin positiiviseksi kuin toisinpäin eli ainakaan se virheiden satunnainen jakautuminen ei täysin toteutunut ja luokittelussa on pieni strukturaalinen, ei pelkästään satunnainen virhe. Toisaalta puolueiden välisessä vertailussa tällä ei ole niin väliä, sillä samat virheet toistuvat puolueesta toiseen. Isossa ja vertailevassa kuvassa tuloksissa onkin oikein riittävästi tarkkuutta ja oikeita eroja puolueiden sivuilla käydyn keskustelun välille löytyi.
Ja niin: eihän se oletus, että puolueen facebook-sivulla keskustelisi ainoastaan puolueen kannattajat ihan kestä vettä. Mutta yksinkertaistuksen vuoksi lähdetään siitä, mutta pidetään mielessä muidenkin kuin omien sananvapaus sosiaalisen median areenalla. Vaikka sosiaalinen kuplautuminen onkin kivaa ja "kupla" vuoden muotisana.
Ja sitten kun olen saanut teidät epäilemään kaikkea mitä seuraavaksi on tulossa niin onkin hyvä mennä tuloksiin. Tiedossa pylväskuvio- ja sanapilviähkyä.
Perussuomalaiset: positiivisuusindeksi -0.18
Perussuomalaisten sanapilvi
Vihreät: positiivisuusindeksi -0.09
Vihreiden sanapilvi
Kokoomus: positiivisuusindeksi 0
Kokoomuksen sanapilvi
SDP: positiivisuusindeksi -0.15
SDP:n sanapilvi
Keskusta: positiivisuusindeksi -0.08
Keskustan sanapilvi
Vasemmistoliitto: positiivisuusindeksi -0.07
Vasemmistoliiton sanapilvi
Kristillisdemokraatit: positiivisuusindeksi 0
Kristillisdemokraattien sanapilvi
RKP: positiivisuusindeksi 0.17
RKP:n sanapilvi
Selvisittekö tänne asti? Hyvä. Tehdään sitten muutamia poimintoja ja tulkintoja.
Perussuomalaisten facebook-sivulla keskustelu on hallituspuolueista selvästi negatiivisinta. Itse asiassa meno persujen sivuilla on vielä oppositiopuolueitakin mollivoittoisempaa. Toki perussuomalaiseen retoriikkaan kuuluu suorapuheisuus, jonka typerä koneaivo voi tulkita helposti negatiivisiksi tunteiksi. Mutta siltikin johtopäätös on selvä: persuissa tai ainakin heidän facebook-sivullaan kuohuu. Sitä tukee myös se fakta, että perussuomalaisten sivuilla käyty keskustelu on myös aktiivisuudessaan aivan omilla tuhatluvuillaan verrattuna mihinkään muuhun puolueeseen.
Mistä perussuomalaisten huonot vibat sitten johtuvat? Mieleen tulee heti kaksi selitysmallia: hallitusvastuu ja pakolaiskriisi. Perussuomalaisten hallitustaival on ollut kaikea muuta kuin helppo. Kannattajakunnaltaan vahvasti duunaritaustainen puolue on hallituksessa, jonka talouspolitiikka on ollut todella oikeistolaista ja jonka leikkaukset ja ajamat työelämäreformit koskevat kipeästi puolueen ydinkannattajakuntaan. Toisaalta europolitiikkaan tai maahanmuuttopolitiikkaan perussuomalaiset eivät varmasti ole päässeet aivan haluamassaan laajuudessa vaikuttamaan, vaikka molemmissa puolueen kädenjälki on ollut nähtävissä.
Lisäksi perussuomalaiset ovat nähdäkseni puolueena hyvin mielenkiintoisessa vaiheessa. Eurooppalainen trendi on ollut, että oikeistopopulistiset puolueet ovat yrittää silottaa itseään "salonkikelpoiseksi". Mutta puolueille, joiden kantava moottori ja elinvoimaa antava eliksiiri on ollut poliittinen tyytymättömyys ja protestiliike, muutos ei ole helppo. Esimerkiksi Ranskassa Le Penin perheen valtataistelut ovat erinomainen esimerkki uuden ja vanhan oikeistopopulismin jännitteestä.
Nyt myös perussuomalaiset ovat vaiheessa, jossa tyytymättömyyttä kanavoiva populistipuolue on pakostakin muuttumassa "normaaliksi" puolueeksi. Puolueeksi, jota äänestetään ennemminkin sen ajaman aatteen ja asioiden vuoksi kuin keskisormen heilutteluna muille. Ja pakostakin se tyytymättömyyden tunne, joka ennen on ollut puolueelle sitä eteenpäin vievä voima alkaa kääntyä sitä vastaan. Tästä seuraa sisäisiä jännitteitä, jotka ovat jo manifestoituneet esimerkiksi kantasuomalaisena projektina. Niin, ja sitten ne pakolaiset. Niistä ei perussuomalaiset tykkää. Sen tietää Hakkarainen.
Mielenkiintoisesti "maahanmuutto" on perussuomalaisten facebook-keskustelussa positiivissävytteisten joukossa. Kyseessä lienee positiinen reaktio perussuomalaisten viimeaikaisiin ulostuloihin pakolaiskysymyksestä. Negatiivista diskurssi on odotetusti hallituksen eläkeläisiin ja köyhiin kohdistuvista leikkauksista käydyssä keskustelussa.
Vihreiden facebook-sivulla kokonaiskuva on myös negatiivinen. Vihreät ovat kritisoineet vahvasti hallituksen toimia, jotka varmasti aiheuttavat ahdistusta. Toisaalta Vihreät ja Ville Niinistö ovat ottaneet selkeän johtoroolin oppositiopolitiikassa, mikä näyttää myös saavan kiitosta, sen verran usein sana Ville mainitaan positiivissa kommenteissa.
Positiiviksi ja negatiiviksi luokitelluissa kommenteissa on molemmissa selkeänä teemana pakolaiset ja maahanmuutto. Näin näppituntumalta väittäisin, että positiivissävytteiset viestit ovat Vihreiden kannattajien tekemiä ja negatiiviset taas muiden puolueiden kannattajia, jotka ovat saapuneet Vihreiden facebook-sivulle keskustelemaan aiheesta. Lisäksi sanapilvestä voisi päätellä, että Vihreiden sivuilla puhutaan negatiiviseen sävyyn niistä suomalaisista, jotka vastustavat pakolaisten maahantuloa
Kokoomuksessa kokonaiskuva on tasaisen harmaa indeksin saadessa (pyöristetyksi) arvokseen pyöreän nollan. Hallituksen talouspolitiikka onkin ollut vahvasti kokoomuslaista kädenjälkeä, joten ei ole ihme, että kokoomuslaiset ovat hallituspuolueista positiivisimmin fiiliksin sosiaalisessa mediassa. Jos sanapilvestä voi tulkintoja tehdä niin hallituksen toimia pidetäänkin hyvinä. Lomapäivät eivät ainakaan julkisen sektorin työntekijöissä tällä hetkellä positiivista kaikua herätä, mutta Kokoomuksella sana löytyy positiivissävytteisten kommenttien joukosta. Negatiivisestä sanapilven kulmasta poimintana julkinen sektori, joka edelleenkään ei taida olla kokoomuslaisittain kuuminta hottia.
Demarit ovat oppositiopuolueista negatiivisimmalla tuulella ja lähes persujen tasolla syysmasiksessaan. Selkeästi ammattiliittojen kyykytys hallituksen toimesta sekä hallituksen kaavailemat muutokset sairauspäiviin ja lomarahoihin ovat pistäneet demarit vihaiseksi. Toisaalta puolueen oma toiminta vaikuttaa olevan hieman sekasortoisessa tilassa, eikä puheenjohtaja Antti Rinne ole missään vaiheessa esiintynyt varteenotettavana johtajana. Kuvaavaa onkin, että "Lauri" eli oletettavasti SAK:n ammattiliittopamppu Lauri Lyly, esiintyy jopa hieman useammin kuin "Rinne" demarien posiitiviseksi luokitelluissa kommenteissa.
Mutta ei juhlita pääministeripuolueenkaan facebook-sivuilla. Keskustan kenttä ei varmasti niele hallituksen työelämäuudistuksia tai pakolaisvirtaa täysin kyseenalaistamatta. Ja varmasti Sipilään henkilöityvä leikkauslinja kerää myös ei-kepulaisia diskuteeraamaan sivistyneesti Keskustan facebook-sivuille. Toisaalta sanapilvestä on selkeästi havaittavissa myös kiitosta Sipilälle vaalivoitosta. Eiköhän Keskustassa katsota nykymenoa varsin ristiriitaisissa merkeissä.
Vasemmistoliiton sivuilla keskustelu negatiivisuustasoltaan noin Vihreiden luokkaa. Vasemmistoliitolta olisi odottanut demareiden tavoin hyvin negatiivista suhtautumista hallituksen toimiin. Mutta demareiden kaaoksen tilalla Vasemmistoliitolla Aino-Kaisa Pekonen ja Li Andersson ovat nähtävästi saaneet paljon kiitosta. Puolue onkin ollut vasemmistopuolueista se hieman ärhäkämpi oppositiopolitiikassaan, mikä varmaan selittää eroa. Ärsytyksen aiheina esiintyy odotetusti sunnuntait, stubbit, soinit ja työaika. Lisäksi pakolaisdiskurssin ollessa positiivista näyttää vasemmistoliittolainen maahanmuuttokeskustelu taas liittyvän negatiivisiin sanoihin. Mielenkiintoista, jos pitää paikkaansa.
Kristillisdemokraatit ovat myös diskurssiltaan neutraalia sakkia. Jumala hyvä, työ (sen puute, siihen tulevat muutokset?) paha. Kristillisdemokraateilla on varmasti iloittavaa ainakin uudesta valovoimaisesta puheenjohtajasta Sari Essayahista (joka ei muuten ole Päivi Räsänen!) ja "aito avioliitto"-aloitteen saamasta allekirjoittajamäärästä. Lisäksi kristilliseen arvomaailmaan ei kuitenkaan porvarillinen talouspolitiikka ole aivan vierasta, vaikka heikompiosaisten puolella he väittävätkin olevansa.
Ja sitten on RKP, nuo positiivisten rantaruotsalaisten edunvalvovat. En tiedä johtuuko se Microsoftin tekemistä käännösvirheistä vaiko ruotsinkielisten luontaisesta positiivisuudesta, mutta RKP:n sivuilla näyttää olevan oikeinkin hyvät kekkerit ja positiivinen meno. Vaikka RKP onkin ensi kertaa oppositiossa miesmuistiin niin hallituksen politiikka onkin RKP:lle varsin läheistä. Lisäksi jos jokin puolue Suomessa ottaa pakolaiset ilomielin vastaan niin juuri RKP:llä on varmasti vähiten vastaansanomista, onhan puolueen ideologiassa hyvin vahvasti läsnä kulttuuri- ja kielivähemmistöjen suojelu.
Kuten tuli sanottua, puutteellinenkin menetelmä voi saada aikaan ihan järkeviä tuloksia. Kyllä minä itse voisin ainakin uskoa saatuihin tuloksiin, varsinkin kuultuani omat kootut selitykseni. Silmämääräinen luokittelun tarkastelu osoitti toisaalta algoritmin vahvuudet (positiiviset kommentit saatiin aika hyvin luokiteltua positiivisiksi) ja toisaalta heikkoudet (negatiivisten kommenttien luokittelu oikein tuotti enemmän vaikeuksia, toki aineistossa niitä olikin huomattavasti positiivisia enemmän). Näillä opeilla on hyvä lähteä jatkokehittämään menetelmiäni ja opinion lexiconiani.
Sanalistoihin perustuvan mielipiteen louhinnan lisäksi pyrin myös näiden oppien pohjalta kokeilla itseoppivaa koneoppimismenetelmää, "naive bayes classifieria". Siinä algoritmille annetaan esimerkkejä etukäteen positiiviseksi tai negatiiviseksi luokitelluista teksteistä ja sovelletaan näitä oppeja uuteen aineistoon. Toistaiseksi olen vältellyt sitä, koska se on sanalistaa huomattavasti kontekstisidonnaisempi: "pakolainen" tuo mieleen aivan eri asioita vihreälle ja perussuomalaiselle. Toisaalta päivän politiikan aiheiden jatkuva eläminen tarkoittaa, että jos opetan tämän hetkisellä kommenttidatalla algoritmia, jonka pitää luokitella kolmen kuukauden päästä tulevaa kommenttidataa niin ongelmia syntyy jos puheenaiheet ovat täysin erit. Uskoisin kuitenkin, että jos ja kun teen jokaiselle puolueelle oman harjoitteludatan niin uskoisin laadun paranevan minun geneeriseen sanalistaani verrattuna. Tämä näin pienenä ääneen pohdintana kahden sentiment analysis-menetelmän hyvistä ja huonoista puolista. Katsotaan joidenkin kuukausien päästä jos olen tämän toteuttanut.
Mutta kun blogipostauksen pituus on jo aikapäiviä sitten ohittanut "too long; did not read"-rajan niin ei voi muuta kuin todeta Niilo22:n sanoin: "ei siitä sitten sen enempää".
Toinen on lisäys raportointiin. Jo edellisellä kerralla mietin, että mikä luku kuvaisi parhaiten mielialan positiivisuutta tai negatiivisuutta. Pelkkien positiivisten kommenttien osuus kaikista kommenteista on varsin vajavainen mittari; se ei huomioi luokitellaanko ne loput neutraaleiksi vai negatiivisiksi. Tähän ongelmaan ratkaisuksi keksin positiivisuusindeksiksi dubbaamani yksinkertaisen laskukaavan: (positiiviset kommentit - negatiiviset kommentit) / kaikki kommentit. Näin saadaan luku, joka saa arvoja -1 ja 1 välissä. Eli jos kaikki kommentit ovat negatiivisia, saa indeksi arvon -1 ja jos kaikki ovat neutraaleja niin arvo on 0. Toki kritiikkiä voi esittää siitä, että jos 50 % kommenteista on positiivisia ja 50 % negatiivisia niin silloinkin lopputuloksena on 0. Lisäksi erotuksen luonteen vuoksi tulokset pakkautuvat luontaisesti nollan ympärille (vaikka kaksi kolmasosaa kommenteista olisi negatiivisia niin kolmasosan positiivisten osuus tiputtaa indeksin arvoksi -0.33) Siksi tarjoan indeksin lisäksi myös pylväskuvioita, joista näkee todellisen jakauman.
Mutta varoitetaan silti jo valmiiksi jos ette muista lähtökohtaista varovaisuuttani edellisestä viestistäni. Mielipiteen louhinta on vaikeaa. Se on erityisen vaikeaa suomeksi, koska pohjaa jonka päälle työni rakentaa ei oikeastaan ole (ainakaan julkisesti saatavilla) ja sijamuotoja on huomattavasti englantia enemmän. Sarkasmi, piilomerkitykset ja erityisslangi on erittäin vaikeaa huomioida. Sanalistapohjaisessa menetelmässä hävitään jo sijamuodoissa valtavasti. Jos "huono" esiintyy sanalistassa niin ei se lohduta kun kommentissa puhutaan "huonoa". Tiedän sanalistani olevan vaillinainen. Mutta voin aina lohduttautua sillä, että jos sanalistoissa on systemaattisia virheitä niin virheet varmaan ovat satunnaisesti jakautuneita ja pitkässä juoksussa tasoittuvat. Ehkä.
Pieni ihmisaivon suorittama laaduntarkistus koneaivon luokittelun tuloksiin näytti osoittavan, että ei tulokset hatusta revittyjä olleet ja tarpeeksi moni luokittelu osui aivan oikeaan. Mutta parantamisen varaakin jäi; nopean arvioinnin perusteella algoritmi näytti luokittelevan negatiivisen kommentin herkemmin positiiviseksi kuin toisinpäin eli ainakaan se virheiden satunnainen jakautuminen ei täysin toteutunut ja luokittelussa on pieni strukturaalinen, ei pelkästään satunnainen virhe. Toisaalta puolueiden välisessä vertailussa tällä ei ole niin väliä, sillä samat virheet toistuvat puolueesta toiseen. Isossa ja vertailevassa kuvassa tuloksissa onkin oikein riittävästi tarkkuutta ja oikeita eroja puolueiden sivuilla käydyn keskustelun välille löytyi.
Ja niin: eihän se oletus, että puolueen facebook-sivulla keskustelisi ainoastaan puolueen kannattajat ihan kestä vettä. Mutta yksinkertaistuksen vuoksi lähdetään siitä, mutta pidetään mielessä muidenkin kuin omien sananvapaus sosiaalisen median areenalla. Vaikka sosiaalinen kuplautuminen onkin kivaa ja "kupla" vuoden muotisana.
Ja sitten kun olen saanut teidät epäilemään kaikkea mitä seuraavaksi on tulossa niin onkin hyvä mennä tuloksiin. Tiedossa pylväskuvio- ja sanapilviähkyä.
Perussuomalaiset: positiivisuusindeksi -0.18
Perussuomalaisten sanapilvi
Vihreät: positiivisuusindeksi -0.09
Vihreiden sanapilvi
Kokoomus: positiivisuusindeksi 0
Kokoomuksen sanapilvi
SDP: positiivisuusindeksi -0.15
SDP:n sanapilvi
Keskusta: positiivisuusindeksi -0.08
Keskustan sanapilvi
Vasemmistoliitto: positiivisuusindeksi -0.07
Vasemmistoliiton sanapilvi
Kristillisdemokraatit: positiivisuusindeksi 0
Kristillisdemokraattien sanapilvi
RKP: positiivisuusindeksi 0.17
RKP:n sanapilvi
Selvisittekö tänne asti? Hyvä. Tehdään sitten muutamia poimintoja ja tulkintoja.
Perussuomalaisten facebook-sivulla keskustelu on hallituspuolueista selvästi negatiivisinta. Itse asiassa meno persujen sivuilla on vielä oppositiopuolueitakin mollivoittoisempaa. Toki perussuomalaiseen retoriikkaan kuuluu suorapuheisuus, jonka typerä koneaivo voi tulkita helposti negatiivisiksi tunteiksi. Mutta siltikin johtopäätös on selvä: persuissa tai ainakin heidän facebook-sivullaan kuohuu. Sitä tukee myös se fakta, että perussuomalaisten sivuilla käyty keskustelu on myös aktiivisuudessaan aivan omilla tuhatluvuillaan verrattuna mihinkään muuhun puolueeseen.
Mistä perussuomalaisten huonot vibat sitten johtuvat? Mieleen tulee heti kaksi selitysmallia: hallitusvastuu ja pakolaiskriisi. Perussuomalaisten hallitustaival on ollut kaikea muuta kuin helppo. Kannattajakunnaltaan vahvasti duunaritaustainen puolue on hallituksessa, jonka talouspolitiikka on ollut todella oikeistolaista ja jonka leikkaukset ja ajamat työelämäreformit koskevat kipeästi puolueen ydinkannattajakuntaan. Toisaalta europolitiikkaan tai maahanmuuttopolitiikkaan perussuomalaiset eivät varmasti ole päässeet aivan haluamassaan laajuudessa vaikuttamaan, vaikka molemmissa puolueen kädenjälki on ollut nähtävissä.
Lisäksi perussuomalaiset ovat nähdäkseni puolueena hyvin mielenkiintoisessa vaiheessa. Eurooppalainen trendi on ollut, että oikeistopopulistiset puolueet ovat yrittää silottaa itseään "salonkikelpoiseksi". Mutta puolueille, joiden kantava moottori ja elinvoimaa antava eliksiiri on ollut poliittinen tyytymättömyys ja protestiliike, muutos ei ole helppo. Esimerkiksi Ranskassa Le Penin perheen valtataistelut ovat erinomainen esimerkki uuden ja vanhan oikeistopopulismin jännitteestä.
Nyt myös perussuomalaiset ovat vaiheessa, jossa tyytymättömyyttä kanavoiva populistipuolue on pakostakin muuttumassa "normaaliksi" puolueeksi. Puolueeksi, jota äänestetään ennemminkin sen ajaman aatteen ja asioiden vuoksi kuin keskisormen heilutteluna muille. Ja pakostakin se tyytymättömyyden tunne, joka ennen on ollut puolueelle sitä eteenpäin vievä voima alkaa kääntyä sitä vastaan. Tästä seuraa sisäisiä jännitteitä, jotka ovat jo manifestoituneet esimerkiksi kantasuomalaisena projektina. Niin, ja sitten ne pakolaiset. Niistä ei perussuomalaiset tykkää. Sen tietää Hakkarainen.
Mielenkiintoisesti "maahanmuutto" on perussuomalaisten facebook-keskustelussa positiivissävytteisten joukossa. Kyseessä lienee positiinen reaktio perussuomalaisten viimeaikaisiin ulostuloihin pakolaiskysymyksestä. Negatiivista diskurssi on odotetusti hallituksen eläkeläisiin ja köyhiin kohdistuvista leikkauksista käydyssä keskustelussa.
Vihreiden facebook-sivulla kokonaiskuva on myös negatiivinen. Vihreät ovat kritisoineet vahvasti hallituksen toimia, jotka varmasti aiheuttavat ahdistusta. Toisaalta Vihreät ja Ville Niinistö ovat ottaneet selkeän johtoroolin oppositiopolitiikassa, mikä näyttää myös saavan kiitosta, sen verran usein sana Ville mainitaan positiivissa kommenteissa.
Positiiviksi ja negatiiviksi luokitelluissa kommenteissa on molemmissa selkeänä teemana pakolaiset ja maahanmuutto. Näin näppituntumalta väittäisin, että positiivissävytteiset viestit ovat Vihreiden kannattajien tekemiä ja negatiiviset taas muiden puolueiden kannattajia, jotka ovat saapuneet Vihreiden facebook-sivulle keskustelemaan aiheesta. Lisäksi sanapilvestä voisi päätellä, että Vihreiden sivuilla puhutaan negatiiviseen sävyyn niistä suomalaisista, jotka vastustavat pakolaisten maahantuloa
Kokoomuksessa kokonaiskuva on tasaisen harmaa indeksin saadessa (pyöristetyksi) arvokseen pyöreän nollan. Hallituksen talouspolitiikka onkin ollut vahvasti kokoomuslaista kädenjälkeä, joten ei ole ihme, että kokoomuslaiset ovat hallituspuolueista positiivisimmin fiiliksin sosiaalisessa mediassa. Jos sanapilvestä voi tulkintoja tehdä niin hallituksen toimia pidetäänkin hyvinä. Lomapäivät eivät ainakaan julkisen sektorin työntekijöissä tällä hetkellä positiivista kaikua herätä, mutta Kokoomuksella sana löytyy positiivissävytteisten kommenttien joukosta. Negatiivisestä sanapilven kulmasta poimintana julkinen sektori, joka edelleenkään ei taida olla kokoomuslaisittain kuuminta hottia.
Demarit ovat oppositiopuolueista negatiivisimmalla tuulella ja lähes persujen tasolla syysmasiksessaan. Selkeästi ammattiliittojen kyykytys hallituksen toimesta sekä hallituksen kaavailemat muutokset sairauspäiviin ja lomarahoihin ovat pistäneet demarit vihaiseksi. Toisaalta puolueen oma toiminta vaikuttaa olevan hieman sekasortoisessa tilassa, eikä puheenjohtaja Antti Rinne ole missään vaiheessa esiintynyt varteenotettavana johtajana. Kuvaavaa onkin, että "Lauri" eli oletettavasti SAK:n ammattiliittopamppu Lauri Lyly, esiintyy jopa hieman useammin kuin "Rinne" demarien posiitiviseksi luokitelluissa kommenteissa.
Mutta ei juhlita pääministeripuolueenkaan facebook-sivuilla. Keskustan kenttä ei varmasti niele hallituksen työelämäuudistuksia tai pakolaisvirtaa täysin kyseenalaistamatta. Ja varmasti Sipilään henkilöityvä leikkauslinja kerää myös ei-kepulaisia diskuteeraamaan sivistyneesti Keskustan facebook-sivuille. Toisaalta sanapilvestä on selkeästi havaittavissa myös kiitosta Sipilälle vaalivoitosta. Eiköhän Keskustassa katsota nykymenoa varsin ristiriitaisissa merkeissä.
Vasemmistoliiton sivuilla keskustelu negatiivisuustasoltaan noin Vihreiden luokkaa. Vasemmistoliitolta olisi odottanut demareiden tavoin hyvin negatiivista suhtautumista hallituksen toimiin. Mutta demareiden kaaoksen tilalla Vasemmistoliitolla Aino-Kaisa Pekonen ja Li Andersson ovat nähtävästi saaneet paljon kiitosta. Puolue onkin ollut vasemmistopuolueista se hieman ärhäkämpi oppositiopolitiikassaan, mikä varmaan selittää eroa. Ärsytyksen aiheina esiintyy odotetusti sunnuntait, stubbit, soinit ja työaika. Lisäksi pakolaisdiskurssin ollessa positiivista näyttää vasemmistoliittolainen maahanmuuttokeskustelu taas liittyvän negatiivisiin sanoihin. Mielenkiintoista, jos pitää paikkaansa.
Kristillisdemokraatit ovat myös diskurssiltaan neutraalia sakkia. Jumala hyvä, työ (sen puute, siihen tulevat muutokset?) paha. Kristillisdemokraateilla on varmasti iloittavaa ainakin uudesta valovoimaisesta puheenjohtajasta Sari Essayahista (joka ei muuten ole Päivi Räsänen!) ja "aito avioliitto"-aloitteen saamasta allekirjoittajamäärästä. Lisäksi kristilliseen arvomaailmaan ei kuitenkaan porvarillinen talouspolitiikka ole aivan vierasta, vaikka heikompiosaisten puolella he väittävätkin olevansa.
Ja sitten on RKP, nuo positiivisten rantaruotsalaisten edunvalvovat. En tiedä johtuuko se Microsoftin tekemistä käännösvirheistä vaiko ruotsinkielisten luontaisesta positiivisuudesta, mutta RKP:n sivuilla näyttää olevan oikeinkin hyvät kekkerit ja positiivinen meno. Vaikka RKP onkin ensi kertaa oppositiossa miesmuistiin niin hallituksen politiikka onkin RKP:lle varsin läheistä. Lisäksi jos jokin puolue Suomessa ottaa pakolaiset ilomielin vastaan niin juuri RKP:llä on varmasti vähiten vastaansanomista, onhan puolueen ideologiassa hyvin vahvasti läsnä kulttuuri- ja kielivähemmistöjen suojelu.
Kuten tuli sanottua, puutteellinenkin menetelmä voi saada aikaan ihan järkeviä tuloksia. Kyllä minä itse voisin ainakin uskoa saatuihin tuloksiin, varsinkin kuultuani omat kootut selitykseni. Silmämääräinen luokittelun tarkastelu osoitti toisaalta algoritmin vahvuudet (positiiviset kommentit saatiin aika hyvin luokiteltua positiivisiksi) ja toisaalta heikkoudet (negatiivisten kommenttien luokittelu oikein tuotti enemmän vaikeuksia, toki aineistossa niitä olikin huomattavasti positiivisia enemmän). Näillä opeilla on hyvä lähteä jatkokehittämään menetelmiäni ja opinion lexiconiani.
Sanalistoihin perustuvan mielipiteen louhinnan lisäksi pyrin myös näiden oppien pohjalta kokeilla itseoppivaa koneoppimismenetelmää, "naive bayes classifieria". Siinä algoritmille annetaan esimerkkejä etukäteen positiiviseksi tai negatiiviseksi luokitelluista teksteistä ja sovelletaan näitä oppeja uuteen aineistoon. Toistaiseksi olen vältellyt sitä, koska se on sanalistaa huomattavasti kontekstisidonnaisempi: "pakolainen" tuo mieleen aivan eri asioita vihreälle ja perussuomalaiselle. Toisaalta päivän politiikan aiheiden jatkuva eläminen tarkoittaa, että jos opetan tämän hetkisellä kommenttidatalla algoritmia, jonka pitää luokitella kolmen kuukauden päästä tulevaa kommenttidataa niin ongelmia syntyy jos puheenaiheet ovat täysin erit. Uskoisin kuitenkin, että jos ja kun teen jokaiselle puolueelle oman harjoitteludatan niin uskoisin laadun paranevan minun geneeriseen sanalistaani verrattuna. Tämä näin pienenä ääneen pohdintana kahden sentiment analysis-menetelmän hyvistä ja huonoista puolista. Katsotaan joidenkin kuukausien päästä jos olen tämän toteuttanut.
Mutta kun blogipostauksen pituus on jo aikapäiviä sitten ohittanut "too long; did not read"-rajan niin ei voi muuta kuin todeta Niilo22:n sanoin: "ei siitä sitten sen enempää".
perjantai 18. syyskuuta 2015
Suuri suurlakko-spesiaali - mielenosoitusdiskurssi Twitterissä
En tiedä huomasiko kukaan lukija, mutta tänään Suomessa lakkoiltiin. Tai osoitettiin mieltä. Ehkä jopa molempia. Miten itse kukainenkin haluaa omasta poliittisesta kuplastaan käsin asiasta puhua. Tuskin tässä tarvitsee enempää asiaa käsitellä. Mennään suoraan asiaan ja haetaan Twitteristä 4000 twiittiä, jotka sisältävät sanon "lakko" sekä 4000 twiittiä sanalla "mielenilmaus".
Twitter-analysoinnista on näköjään tullut tämän blogin ydintoimintaa. Mutta uteliaan ihmisen on vaikea vastustaa sen helppoutta, ajankohtaisuutta ja monipuolisuutta. Jotta asiat pysyvät mielenkiintoisina niin lukijoille kuin kirjoittajallekin niin otamme pari uutta menetelmää käyttöön analyysimme tueksi.
Ensiksi harrastan ns. sentiment analysisia, jonka voinee suomentaa mielipiteiden louhinnaksi tai mielipideanalyysiksi. Tässä käytetty algoritmi on hyvin yksinkertainen; twiitit käännetään Microsoftin käännösohjelman avoimen rajapinnan avulla englanniksi, jonka jälkeen sanoja verrataan Hun ja Liun mielipidesanastoon. Jos twiitissä on enemmän positiivisiksi kuin negatiiviseksi miellettyjä sanoja, luokitellaan se mielipiteeltään positiiviseksi. Ja toisin päin. Jos kumpaankaan sanalistaan ei saada osumia tai niitä on yhtä paljon, on mielipide luokaltaan neutraali. Metodi jättää luonnollisesti paljon kritisoitavaa alkaen suomesta englantiin kääntämisen epätarkkuudesta ja merkitysten muutoksista päättyen sarkasmiin ja sanojen luontaiseen monitulkintaisuuteen. Puhumattakaan siitä, että miten tulkitaan negatiiviseksi luokiteltua twiittiä tapahtumasta, jonka perusvire ei ole kovin positiivinen? Kyllä Wittgenstein kääntyy haudassaan.
Toinen menetelmä keskittyy etsimään erilaisia diskurssityyppejä luokitellen sanoja toisilleen läheisiksi. Eli jos esimerkiksi "ollaan", "lapista, "hallitus", "voi" ja "vapista" esiintyvät jatkuvasti yhdessä eri twiiteissä, luokitellaan ne omaksi ryhmäkseen. Tähän käytetään kahta menetelmää. Toinen perustuu adjacency matrixiin (läheisyysmatriisiin?) ja toinen edellisessä postauksessa esiteltyyn hierarkiseen klusterointiin.
Aloitetaan mielipiteen louhinnalla. Positiivisiksi twiiteiksi luokiteltiin yhteensä 1290 twiittiä, neutraaleiksi 3107 ja negatiivisiksi 3603. Alla niihin liittyvä vertailusanapilvi:
Ensiksi huomataan, että lakko-sanan sisältävät twiitit ovat järjestään negatiivisia. Siellä puhutaan elinkeinoelämästä, velasta, kitisemisestä, maksamisesta ja humalasta. Tästä voitaneen päätellä, että negatiivisiksi luokitellut twiitit ovat lähtökohtaisesti kriittisesti tämän päivän tapahtumaan suhtautuvia.
Positiivisessa sanapilvessä mainitaan Petteri Poukka, hyi. Ja en tiedä mihin liittyy sanat "isot" ja "tissit". Mutta mutta! Positiivissa puhutaan duunareista sekä kätilöistä, mainitaan bussikuljetukset ja tunnelma ja ilmeisesti rauhallisesti meni myös tapahtuma. Oikeudenmukaisuus ja tasapuolisuus kuuluvat myös positiivisiin.
Mielenilmaus oli selkeästi neutraali termi. Toisaalta neutraaleihin on lipsahtanut paljon twiittejä, jotka kannattivat tai vastustivat tämän päivän lakkomielenilmaussuurtapahtumaa. Ainakaan Alkosta ei ole neutraalista puhuttu, tuskin hallituksesta tai ay-liikkeestäkään.
Yhteenvetona voitaneen todeta, että ennakko-odotuksista huolimatta twiittien luokittelualgoritmi teki vähintään välttävää ellei jopa kelvollista työtä.
Yllä olevasta sekavasta kuviosta nähdään, kuinka tietyt sanat esiintyvät yhdessä. Ison massan lisäksi on oikeastaan havaittavissa vain kaksi hieman muista poikkeavaa diskurssia. Yksi on Petteri Poukan Internetiäkin vanhempi mömmöm-95-Jutirillaa-hassuttelu ja toinen ilmeisesti johonkin random-Keskustanuoreen alekoivistoon kiteytyvä aikuiset-kitisee-nuoret-maksaa-velan-leikataan-diskurssi. Hieman enemmän sanoja sisältävässä versiossa miniminin ja iPadin kanssa esiintyi vielä PC-lakko ja Amazon. Mikä sitten on pc-lakko? Pitää varmaan kysyä piraateilta.
Värien mukaan myös muita ryhmittymiä voisi löytyä, mutta tuosta massasta niitä ei voi bongata. Siirrytään siis hierarkiseen klusterointiin.
Omana selkeänä isona klusterina erottuu ensiksikin edellisestäkin kuviosta bongatut Petteri Poukan elämääkin väsyneemmät hakamussuttelut sekä kepunuoridiskurssi. AY-liike esiintyy vähemmän yllättäen "eileikata"-tagin kanssa ja "leikkaukset" esiintyy sanan "vastaan" kanssa. Yle "seuraa" ja "näkyy" palkansaajien yhteydessä, Hesaria kiinnostaa enemmän liikenne ja Helsinki. Ammattiliittopomot Sture Fjäder ja Lauri Lyly esiintyvät ammattiliittojensa Akavan ja SAK:n kanssa yhdessä, SAK huomattavasti lähempänä "eileikata" ja "AY-liike"-tageja. Mutta miten klementiini liittyy yleislakkoon? No olemalla vallaskumousbloggari.
Katsotaan vielä muutaman sanan korrelaatiot. "Eileikata" korreloi voimakkaasti jostain syystä feminismin ja naisunionin kanssa. "Leikkausten" kanssa esiintyy usein "turhaa", "pikkumaista" ja "itkemistä". SAK:n kanssa esiintyy "ulostulon", "lakkopolitiikan" ja "työnuuden" lisäksi "tuhoaa".
Alustava johtopäätös tästä kaikesta on, että twitter-kansa siis näyttää hieman enemmän tuominneen tämänpäiväisen mielenilmauksen kuin tukeneen sitä. Mutta myös ymmärrystä ja kannatusta mielenosoittajille löytyi huomattava määrä. Täytyy toisaalta muistaa laajempia johtopäätöksiä tehdessä, että Twitter ei ole millään tavalla edustava otos kansasta, vaan siellä on yliedustettuna toimittajat, poliitikon alut sekä narsistiset social media power playerit.
Keskustelu jatkuu aiheen ympärillä vielä varmasti pitkään ja sosiaalisen median vaikuttajilla tulee näppäimistö laulamaan niin puolesta kuin vastaan, ehkä myös päinvastoin. Kokoomusnuorten tai Vasemmistonuorten diskurssin ennustamista varten ei tarvitse tehdä naiivia bayesilaista luokittelija-algoritmia tai muitakaan malleja, joten ehkä tämä riitti tästä aiheesta.
Twitter-analysoinnista on näköjään tullut tämän blogin ydintoimintaa. Mutta uteliaan ihmisen on vaikea vastustaa sen helppoutta, ajankohtaisuutta ja monipuolisuutta. Jotta asiat pysyvät mielenkiintoisina niin lukijoille kuin kirjoittajallekin niin otamme pari uutta menetelmää käyttöön analyysimme tueksi.
Ensiksi harrastan ns. sentiment analysisia, jonka voinee suomentaa mielipiteiden louhinnaksi tai mielipideanalyysiksi. Tässä käytetty algoritmi on hyvin yksinkertainen; twiitit käännetään Microsoftin käännösohjelman avoimen rajapinnan avulla englanniksi, jonka jälkeen sanoja verrataan Hun ja Liun mielipidesanastoon. Jos twiitissä on enemmän positiivisiksi kuin negatiiviseksi miellettyjä sanoja, luokitellaan se mielipiteeltään positiiviseksi. Ja toisin päin. Jos kumpaankaan sanalistaan ei saada osumia tai niitä on yhtä paljon, on mielipide luokaltaan neutraali. Metodi jättää luonnollisesti paljon kritisoitavaa alkaen suomesta englantiin kääntämisen epätarkkuudesta ja merkitysten muutoksista päättyen sarkasmiin ja sanojen luontaiseen monitulkintaisuuteen. Puhumattakaan siitä, että miten tulkitaan negatiiviseksi luokiteltua twiittiä tapahtumasta, jonka perusvire ei ole kovin positiivinen? Kyllä Wittgenstein kääntyy haudassaan.
Toinen menetelmä keskittyy etsimään erilaisia diskurssityyppejä luokitellen sanoja toisilleen läheisiksi. Eli jos esimerkiksi "ollaan", "lapista, "hallitus", "voi" ja "vapista" esiintyvät jatkuvasti yhdessä eri twiiteissä, luokitellaan ne omaksi ryhmäkseen. Tähän käytetään kahta menetelmää. Toinen perustuu adjacency matrixiin (läheisyysmatriisiin?) ja toinen edellisessä postauksessa esiteltyyn hierarkiseen klusterointiin.
Aloitetaan mielipiteen louhinnalla. Positiivisiksi twiiteiksi luokiteltiin yhteensä 1290 twiittiä, neutraaleiksi 3107 ja negatiivisiksi 3603. Alla niihin liittyvä vertailusanapilvi:
Ensiksi huomataan, että lakko-sanan sisältävät twiitit ovat järjestään negatiivisia. Siellä puhutaan elinkeinoelämästä, velasta, kitisemisestä, maksamisesta ja humalasta. Tästä voitaneen päätellä, että negatiivisiksi luokitellut twiitit ovat lähtökohtaisesti kriittisesti tämän päivän tapahtumaan suhtautuvia.
Positiivisessa sanapilvessä mainitaan Petteri Poukka, hyi. Ja en tiedä mihin liittyy sanat "isot" ja "tissit". Mutta mutta! Positiivissa puhutaan duunareista sekä kätilöistä, mainitaan bussikuljetukset ja tunnelma ja ilmeisesti rauhallisesti meni myös tapahtuma. Oikeudenmukaisuus ja tasapuolisuus kuuluvat myös positiivisiin.
Mielenilmaus oli selkeästi neutraali termi. Toisaalta neutraaleihin on lipsahtanut paljon twiittejä, jotka kannattivat tai vastustivat tämän päivän lakkomielenilmaussuurtapahtumaa. Ainakaan Alkosta ei ole neutraalista puhuttu, tuskin hallituksesta tai ay-liikkeestäkään.
Yhteenvetona voitaneen todeta, että ennakko-odotuksista huolimatta twiittien luokittelualgoritmi teki vähintään välttävää ellei jopa kelvollista työtä.
Yllä olevasta sekavasta kuviosta nähdään, kuinka tietyt sanat esiintyvät yhdessä. Ison massan lisäksi on oikeastaan havaittavissa vain kaksi hieman muista poikkeavaa diskurssia. Yksi on Petteri Poukan Internetiäkin vanhempi mömmöm-95-Jutirillaa-hassuttelu ja toinen ilmeisesti johonkin random-Keskustanuoreen alekoivistoon kiteytyvä aikuiset-kitisee-nuoret-maksaa-velan-leikataan-diskurssi. Hieman enemmän sanoja sisältävässä versiossa miniminin ja iPadin kanssa esiintyi vielä PC-lakko ja Amazon. Mikä sitten on pc-lakko? Pitää varmaan kysyä piraateilta.
Värien mukaan myös muita ryhmittymiä voisi löytyä, mutta tuosta massasta niitä ei voi bongata. Siirrytään siis hierarkiseen klusterointiin.
Omana selkeänä isona klusterina erottuu ensiksikin edellisestäkin kuviosta bongatut Petteri Poukan elämääkin väsyneemmät hakamussuttelut sekä kepunuoridiskurssi. AY-liike esiintyy vähemmän yllättäen "eileikata"-tagin kanssa ja "leikkaukset" esiintyy sanan "vastaan" kanssa. Yle "seuraa" ja "näkyy" palkansaajien yhteydessä, Hesaria kiinnostaa enemmän liikenne ja Helsinki. Ammattiliittopomot Sture Fjäder ja Lauri Lyly esiintyvät ammattiliittojensa Akavan ja SAK:n kanssa yhdessä, SAK huomattavasti lähempänä "eileikata" ja "AY-liike"-tageja. Mutta miten klementiini liittyy yleislakkoon? No olemalla vallaskumousbloggari.
Katsotaan vielä muutaman sanan korrelaatiot. "Eileikata" korreloi voimakkaasti jostain syystä feminismin ja naisunionin kanssa. "Leikkausten" kanssa esiintyy usein "turhaa", "pikkumaista" ja "itkemistä". SAK:n kanssa esiintyy "ulostulon", "lakkopolitiikan" ja "työnuuden" lisäksi "tuhoaa".
Alustava johtopäätös tästä kaikesta on, että twitter-kansa siis näyttää hieman enemmän tuominneen tämänpäiväisen mielenilmauksen kuin tukeneen sitä. Mutta myös ymmärrystä ja kannatusta mielenosoittajille löytyi huomattava määrä. Täytyy toisaalta muistaa laajempia johtopäätöksiä tehdessä, että Twitter ei ole millään tavalla edustava otos kansasta, vaan siellä on yliedustettuna toimittajat, poliitikon alut sekä narsistiset social media power playerit.
Keskustelu jatkuu aiheen ympärillä vielä varmasti pitkään ja sosiaalisen median vaikuttajilla tulee näppäimistö laulamaan niin puolesta kuin vastaan, ehkä myös päinvastoin. Kokoomusnuorten tai Vasemmistonuorten diskurssin ennustamista varten ei tarvitse tehdä naiivia bayesilaista luokittelija-algoritmia tai muitakaan malleja, joten ehkä tämä riitti tästä aiheesta.
sunnuntai 13. syyskuuta 2015
Suomalaisten asuinympäristöjen tyypittelyä
Kai tilastokeskuslaisen on myös käytettävä Tilastokeskuksen avointa dataa jossain analyysissään hyväksi. Tilastokeskuksen Paavo-palvelua voi ainakin suositella hyvällä omalla tunnolla; se tarjoaa postinumeroalueittain avointa dataa eri aihealueista. Suhteellisen tarkalle tasolle vietynä datana Paavo on erinomainen datalähde suomalaisten asuinlähiöiden tarkempaan tarkasteltuun. Suomeahan ei voi hyvällä tahdollakaan pitää yhtenäisenä, tasa-arvoisena asuinalueena vaan maantieteelliset erot eri kuntien ja kaupunginosien välillä ovat huimia.
Hyödynnettynä nenetelmämä on klusterianalyysi eli suomeksi sanottuna datapisteiden luokittelu eri kategorioihin matemaattisen algoritmin perusteella. Yleisimmin käytetty klusterointimenetelmä on ns. K-means clustering. Siinä lukitaan etukäteen haluttu klusterien eli kategorioiden määrä ja asetetaan satunnaisesti dataan ns. centroidit eli eräänlaiset laskennalliset keskipisteet (yhtä monta kuin k eli haluttu klusterien määrä on). Muut datapisteet luokitellaan klustereihin siten, että ne sijoitetaan etäisyyden (esim. euklidinen etäisyys) perusteella lähimpään centroidiin. Tämän jälkeen centroidit lasketaan uudelleen pyrkien optimoimaan klusterijakoa ja prosessi alkaa uudelleen, kunnes saavutaan lopullisiin klustereihin. Menetelmän huonoja puolia on, että klusterien järkevää määrää on vaikeahko päättää etukäteen ja ensimmäiset klusterikeskustat ovat satunnaisesti päätettyjä, jolloin samalla menetelmällä toistetut klusterijaot voivat poiketa toisistaan useammin toistettuna.
Toinen klusterointimenetelmä on hierarkinen klusterointi. Siinä aloitetaan tilanteesta, jossa kaikki datapisteet ovat yksittäisiä datapisteitä (tai kuuluvat yhteen klusteriin) Tämän jälkeen luodaan eri tasoisia klustereita riippuen datapisteiden läheisyydestä toisiinsa päätyen tilanteeseen, jossa kaikki datapisteet koostuvat yhdestä klusterista (ovat erillisiä datapisteitä). Tässä blogipostauksessa hyödynnetään molempia menetelmiä. Klusteroinnista voi lukea tarkemmin esimerkiksi täältä.
Mutta ensin muutama sana käytetystä datasta. Tilastokeskuksen Paavo-palvelu siis tarjoaa postinumeroalueittaista avointa dataa monilta eri yhteiskunnallisilta osa-alueilta. Tässä analyysissä klusteroinnin pohjana toimiviksi muuttujiksi valittiin keski-ikä, mediaanitulo, asumisväljyys, työllisyysaste, ylemmän korkeakoulututkinnon (maisteri, tohtori tai ylempi korkeakoulututkinto) osuus kaikista koulutuksen saaneista, lapsiperheiden osuus kaikista talouksista, hyvätuloisten eli ylimpään tulokvintiilien kuuluvien osuus asukkaista, vuokralla asuvien osuus kaikista talouksista ja alkutuotannon sekä jalostuksen osuudet kaikista työpaikoista.
Aluksi k-means clustering. Aloitetaan tarkastelu määrittelemällä kuinka suuren osan varianssista tietty klusterien määrä selittää. Tämä on raaka tapa tutkia eri klusterimäärien sopivuutta aineistoon. Nyrkkisääntönä voi pitää kuvion tasaantumista. Kuvion jollain tasolla ehdottavan kolmen klusterin lisäksi kokeilin lisäksi neljän ja viiden klusterin malleja, mutta ne eivät lisänneet varsinaisesti informaatiota.
Tässä seuraa kolmen klusterin centroidit eli arkkityypit hieman pyöristettynä:
Klustereiden määrän voisi vähentää jopa kahteen, sillä siinä määrin selkeät mallit ovat havaittavissa. Toisaalta on korkean keski-iän ja alhaiset mediaanitulon maatalouseroalueet, joissa perheet asuvat tilavasti ja asuntonsa omistaen. Sitten on korkean mediaanitulon korkeasti koulutetut ja paremmin työllistetyt postinumeroalueet, joissa asutaan ahtaammin ja enemmän vuokralla, mutta alkutuotannon osuus on pienempi ja lapsiperheiden osuus suurempi.Valitut muuttujat näyttävät korreloivan varsin vahvan lineaarisesti toistensa kanssa, jolloin mitään mielenkiintoisempia ryhmittelyjö ei pääse syntymään.
(yllä korrelaatiomatriisi, jossa isommat pallot ja tummemmat värit kertovat vahvemmasta korrelaatiosta)
Seuraavaksi käytetään hierarkista klusterianalyysiää rajatumpaan aineistoon, joka tässä tapauksessa on Oulun nelisenkymmentä postinumeroaluetta. Alla dendrogrammi Oulun postinumeroalueista:
Ensinnäkin havaitaan, että hiljattain Ouluun liittyneet ympärysalueet (Jääli, Oulunsalo, Kiiminki) ja muuten kauempana Oulun keskustasta olevat alueet (Pateniemi) koostavat yhden isomman ala-osastoihin jakautuvan klusterin. Toinen pääklusteri jakaantuu kahteen isompaan alaklusteriin, joilla on lisäksi omat alaklusterinsa. Toiseen näistä isommista alaklustereista kuuluu Oulun ydinkeskusta-alueeseen laskettavat Oulu Keskus, Tuira sekä Heinäpää. Tämän lisäksi klusteriin kuuluu esimerkiksi Kaukovainio ja Välivainio. Kolmas isompi klusteri koostuu sekalaisemmasa seurakunnasta hiljattain liittyneitä ympärysalueita (Kello, Haukiputaan keskus) ja enemmän ydin-Ouluun kuuluvista alueista (Raksila, Koskela, Äimärautio)
Kirjoitushetkellä Suomessa puhutaan paljon vastakkainasettelusta. Hallituksen leikkaukset ovat saaneet palkansaajajärjestöt sotajalalle ja valmistelemaan suurlakkoa, toisaalta pakolaiskeskustelukin on jakaantunut kahteen leiriin ja eräät ihmiset lopettavat jo urheilujoukkueen "kannattamisenkin" pakolaismyönteisten ulostulojen vuoksi. Teemaan sopii siis huomata Suomen olevan karkeasti katsottuna kahden erilaisen asuinympäristön maa, ainakin tarkasteltujen muuttujien valossa.
Kyllä tilastoihmisenä on oltava tyytyväinen, että asiat jakaantuvat mukavasti erilaisiin luokkiin. Tekee maailman hahmottamisesta helpompaa. Toisaalta se yhteiskuntatieteilijäpuoli minussa ei ole asiasta yhtä innoissaan.
Hyödynnettynä nenetelmämä on klusterianalyysi eli suomeksi sanottuna datapisteiden luokittelu eri kategorioihin matemaattisen algoritmin perusteella. Yleisimmin käytetty klusterointimenetelmä on ns. K-means clustering. Siinä lukitaan etukäteen haluttu klusterien eli kategorioiden määrä ja asetetaan satunnaisesti dataan ns. centroidit eli eräänlaiset laskennalliset keskipisteet (yhtä monta kuin k eli haluttu klusterien määrä on). Muut datapisteet luokitellaan klustereihin siten, että ne sijoitetaan etäisyyden (esim. euklidinen etäisyys) perusteella lähimpään centroidiin. Tämän jälkeen centroidit lasketaan uudelleen pyrkien optimoimaan klusterijakoa ja prosessi alkaa uudelleen, kunnes saavutaan lopullisiin klustereihin. Menetelmän huonoja puolia on, että klusterien järkevää määrää on vaikeahko päättää etukäteen ja ensimmäiset klusterikeskustat ovat satunnaisesti päätettyjä, jolloin samalla menetelmällä toistetut klusterijaot voivat poiketa toisistaan useammin toistettuna.
Toinen klusterointimenetelmä on hierarkinen klusterointi. Siinä aloitetaan tilanteesta, jossa kaikki datapisteet ovat yksittäisiä datapisteitä (tai kuuluvat yhteen klusteriin) Tämän jälkeen luodaan eri tasoisia klustereita riippuen datapisteiden läheisyydestä toisiinsa päätyen tilanteeseen, jossa kaikki datapisteet koostuvat yhdestä klusterista (ovat erillisiä datapisteitä). Tässä blogipostauksessa hyödynnetään molempia menetelmiä. Klusteroinnista voi lukea tarkemmin esimerkiksi täältä.
Mutta ensin muutama sana käytetystä datasta. Tilastokeskuksen Paavo-palvelu siis tarjoaa postinumeroalueittaista avointa dataa monilta eri yhteiskunnallisilta osa-alueilta. Tässä analyysissä klusteroinnin pohjana toimiviksi muuttujiksi valittiin keski-ikä, mediaanitulo, asumisväljyys, työllisyysaste, ylemmän korkeakoulututkinnon (maisteri, tohtori tai ylempi korkeakoulututkinto) osuus kaikista koulutuksen saaneista, lapsiperheiden osuus kaikista talouksista, hyvätuloisten eli ylimpään tulokvintiilien kuuluvien osuus asukkaista, vuokralla asuvien osuus kaikista talouksista ja alkutuotannon sekä jalostuksen osuudet kaikista työpaikoista.
Aluksi k-means clustering. Aloitetaan tarkastelu määrittelemällä kuinka suuren osan varianssista tietty klusterien määrä selittää. Tämä on raaka tapa tutkia eri klusterimäärien sopivuutta aineistoon. Nyrkkisääntönä voi pitää kuvion tasaantumista. Kuvion jollain tasolla ehdottavan kolmen klusterin lisäksi kokeilin lisäksi neljän ja viiden klusterin malleja, mutta ne eivät lisänneet varsinaisesti informaatiota.
Tässä seuraa kolmen klusterin centroidit eli arkkityypit hieman pyöristettynä:
Klusteri 1: Keski-ikä 47, mediaanitulo 16 000, asumisväljyys 45 m^2, työllisyysaste 36 %, ylemmän korkeakoulututkinnon suorittaineiden osuus 4,7 %, lapsiperheiden osuus talouksista 18, % ylimpään tulokvintiiliin kuuluvien osuus 9,9 %, vuokralla asuvien talouksien osuus 14 %, , alkutuotannon työpaikkojen osuus työpaikoista 35 %, jalostuksen työpaikkojen osuus työpaikoista 23 %.
Klusteri 2: Keski-ikä 43, mediaanitulo 20 000, asumisväljyys 43 m^2, työllisyysaste 42 %, ylemmän korkeakoulututkinnon suorittaineiden osuus 7,8 %, lapsiperheiden osuus talouksista 24, % ylimpään tulokvintiiliin kuuluvien osuus 14 %, vuokralla asuvien talouksien osuus 17 %, , alkutuotannon työpaikkojen osuus työpaikoista 19 %, jalostuksen työpaikkojen osuus työpaikoista 27 %.
Klusteri 3: Keski-ikä 38, mediaanitulo 24 000, asumisväljyys 41 m^2, työllisyysaste 48 %, ylemmän korkeakoulututkinnon suorittaineiden osuus 14,8 %, lapsiperheiden osuus talouksista 33, % ylimpään tulokvintiiliin kuuluvien osuus 21,5 %, vuokralla asuvien talouksien osuus 17 %, , alkutuotannon työpaikkojen osuus työpaikoista 6,7 %, jalostuksen työpaikkojen osuus työpaikoista 25 %.
Klustereiden määrän voisi vähentää jopa kahteen, sillä siinä määrin selkeät mallit ovat havaittavissa. Toisaalta on korkean keski-iän ja alhaiset mediaanitulon maatalouseroalueet, joissa perheet asuvat tilavasti ja asuntonsa omistaen. Sitten on korkean mediaanitulon korkeasti koulutetut ja paremmin työllistetyt postinumeroalueet, joissa asutaan ahtaammin ja enemmän vuokralla, mutta alkutuotannon osuus on pienempi ja lapsiperheiden osuus suurempi.Valitut muuttujat näyttävät korreloivan varsin vahvan lineaarisesti toistensa kanssa, jolloin mitään mielenkiintoisempia ryhmittelyjö ei pääse syntymään.
(yllä korrelaatiomatriisi, jossa isommat pallot ja tummemmat värit kertovat vahvemmasta korrelaatiosta)
Seuraavaksi käytetään hierarkista klusterianalyysiää rajatumpaan aineistoon, joka tässä tapauksessa on Oulun nelisenkymmentä postinumeroaluetta. Alla dendrogrammi Oulun postinumeroalueista:
Ensinnäkin havaitaan, että hiljattain Ouluun liittyneet ympärysalueet (Jääli, Oulunsalo, Kiiminki) ja muuten kauempana Oulun keskustasta olevat alueet (Pateniemi) koostavat yhden isomman ala-osastoihin jakautuvan klusterin. Toinen pääklusteri jakaantuu kahteen isompaan alaklusteriin, joilla on lisäksi omat alaklusterinsa. Toiseen näistä isommista alaklustereista kuuluu Oulun ydinkeskusta-alueeseen laskettavat Oulu Keskus, Tuira sekä Heinäpää. Tämän lisäksi klusteriin kuuluu esimerkiksi Kaukovainio ja Välivainio. Kolmas isompi klusteri koostuu sekalaisemmasa seurakunnasta hiljattain liittyneitä ympärysalueita (Kello, Haukiputaan keskus) ja enemmän ydin-Ouluun kuuluvista alueista (Raksila, Koskela, Äimärautio)
Kirjoitushetkellä Suomessa puhutaan paljon vastakkainasettelusta. Hallituksen leikkaukset ovat saaneet palkansaajajärjestöt sotajalalle ja valmistelemaan suurlakkoa, toisaalta pakolaiskeskustelukin on jakaantunut kahteen leiriin ja eräät ihmiset lopettavat jo urheilujoukkueen "kannattamisenkin" pakolaismyönteisten ulostulojen vuoksi. Teemaan sopii siis huomata Suomen olevan karkeasti katsottuna kahden erilaisen asuinympäristön maa, ainakin tarkasteltujen muuttujien valossa.
Kyllä tilastoihmisenä on oltava tyytyväinen, että asiat jakaantuvat mukavasti erilaisiin luokkiin. Tekee maailman hahmottamisesta helpompaa. Toisaalta se yhteiskuntatieteilijäpuoli minussa ei ole asiasta yhtä innoissaan.
sunnuntai 6. syyskuuta 2015
Monnin kalastelua Twitteristä: sunnuntaihupailuna tapaus Valavuori
Sunnuntai-illan ratoksi irrottaudutaan blogin tähän asti punaisena lankana toimineesta yhteiskuntapoliittisesta teemasta ja siirrytään hetkeksi urheilun, sosiaalisen median ja betsauksen maailmaan. Aleksi Valavuori on omien sanojensa mukaan suomalainen Sports Agent, TV Host, Media Power Player ja Gambler, joka tunnetaan Teemu Selänteen virallisena ystävänä, Bisons Loimaan epävirallisessa asemassa olevana taustahenkilönä, lyhytaikaisena Jarkko Niemisen agenttina sekä hyvää tekevänä Kummisetänä. Lisäksi tässä blogipostauksessa tutkitaan Aleksin veljen Joonas Valavuoren sekä Teemu Selänteen twitter-käyttäytymistä.
Aikaisemmassa viestissä olen jo kertonut hieman Twitterin avoimesta rajapinnasta ja hyödyntänyt sieltä louhittua dataa. Kerrotaan kuitenkin erikseen muutama sana kuvioista.
Sanapilvissä esiintyviä sanoja ei ole rajattu mitenkään. Aleksilta näytetään henkilöt joille hän twiittaa sekä ne twiittisuhteet, joille Aleksi on twiitannut kerran ja Aleksille on myös vastattu (jos näissä suhteissa nuoli menee kahden muun henkilön kuin Aleksin välille niin samassa twiitissä on vastattu myös Aleksille. Twitterin avoimesta rajapinnasta "reply to" voi saada vain yhden arvon, vaikka twiitti olisi vastaus useammalle henkilölle.)
Teemun ja Joonaksen kohdalla näytetään vain kenelle he ovat twiitanneet. Kaikilta näytetään kuvio twiittien tekoajasta tunneittain.
Sunnuntai-illan mukahassuttelupostauksena tällä kertaa en jaksa sen kummemmin kirjoittaa mitään auki vaan annan kuvioiden puhua puolestaan ja jätän tulkinnat lukijoille.
Aleksi Valavuoren twiittien sisällöstä tehty sanapilvi
Joonas Valavuoren twiittien sisällöstä tehty sanapilvi
Teemu Selänteen twiittien sisällöstä tehty sanapilvi
Aleksi Valavuoren twiittien kirjoitusaika tunneittain
Joonas Valavuoren twiittien kirjoitusaika tunneittain
Teemu Selänteen twiittien kirjoitusaika tunneittain
Henkilöt, joille Aleksi Valavuori on twiitannut
Aleksi Valavuoren twitter-verkosto: henkilöt, jotka ovat twiitanneet Aleksi Valavuorelle ja joille Aleksi on twiitannt vähintään kerran
Henkilöt, joille Joonas Valavuori on twiitannut
Henkilöt, joille Teemu Selänne on twiitannut
Aleksi Valavuoren aineisto koostuu 513 twiitistä. Lisäksi löytyi 628 twiittiä, joissa esiintyy sana "@valavuori", joista suuri osa on vastauksia hänelle.
Joonas Valavuoren aineisto koostuu 664 twiitistä.
Teemu Selänteen aineisto koostuu 114 twiitistä.
Aikaisemmassa viestissä olen jo kertonut hieman Twitterin avoimesta rajapinnasta ja hyödyntänyt sieltä louhittua dataa. Kerrotaan kuitenkin erikseen muutama sana kuvioista.
Sanapilvissä esiintyviä sanoja ei ole rajattu mitenkään. Aleksilta näytetään henkilöt joille hän twiittaa sekä ne twiittisuhteet, joille Aleksi on twiitannut kerran ja Aleksille on myös vastattu (jos näissä suhteissa nuoli menee kahden muun henkilön kuin Aleksin välille niin samassa twiitissä on vastattu myös Aleksille. Twitterin avoimesta rajapinnasta "reply to" voi saada vain yhden arvon, vaikka twiitti olisi vastaus useammalle henkilölle.)
Teemun ja Joonaksen kohdalla näytetään vain kenelle he ovat twiitanneet. Kaikilta näytetään kuvio twiittien tekoajasta tunneittain.
Sunnuntai-illan mukahassuttelupostauksena tällä kertaa en jaksa sen kummemmin kirjoittaa mitään auki vaan annan kuvioiden puhua puolestaan ja jätän tulkinnat lukijoille.
Aleksi Valavuoren twiittien sisällöstä tehty sanapilvi
Joonas Valavuoren twiittien sisällöstä tehty sanapilvi
Teemu Selänteen twiittien sisällöstä tehty sanapilvi
Aleksi Valavuoren twiittien kirjoitusaika tunneittain
Joonas Valavuoren twiittien kirjoitusaika tunneittain
Teemu Selänteen twiittien kirjoitusaika tunneittain
Henkilöt, joille Aleksi Valavuori on twiitannut
Aleksi Valavuoren twitter-verkosto: henkilöt, jotka ovat twiitanneet Aleksi Valavuorelle ja joille Aleksi on twiitannt vähintään kerran
Henkilöt, joille Joonas Valavuori on twiitannut
Henkilöt, joille Teemu Selänne on twiitannut
Aleksi Valavuoren aineisto koostuu 513 twiitistä. Lisäksi löytyi 628 twiittiä, joissa esiintyy sana "@valavuori", joista suuri osa on vastauksia hänelle.
Joonas Valavuoren aineisto koostuu 664 twiitistä.
Teemu Selänteen aineisto koostuu 114 twiitistä.
Tilaa:
Blogitekstit (Atom)