Suomen presidentinvaaleja 2018 voidaan monesta syystä pitää länsimaisten demokratioiden katsantokannassakin poikkeuksellisina. Sauli Niinistö vei tittelin historiallisesti jo ensimmäisellä kierroksella yli 60 prosentin kannatuksella eikä hänen edes tarvinnut hikoilla. Perinteisten valtapuolueiden SDP:n ja Keskustan ehdokkaat saivat hieman korkeamman kannatuksen kuin oman kansanliikkeensä perustanut politiikan ikiliikkuja Paavo Väyrynen; ja tämä ei johdu siitä, että Paavokaan olisi päässyt edes lähelle kaksinumeroisia lukuja. Vaalien voittaja ei tullut kenellekään yllätyksenä, mutta Saulin ylivoima oli odotettuakin murskaavampi.
Ennen vaalien tulosiltaa jännitystä haettiin lähinnä teemoista "tuleeko toinen kierros", "voittaako Väyrynen Vanhasen" ja "voiko Väyrynen haastaa Haaviston toisesta sijasta?". Miten Suomen Twitter-kansa innostui spekuloimaan vaaleja kun voittajan sijaan jännitettiin lähinnä jämäsijoja ja hyvän tsempparin palkintoja?
Laitoin sunnuntaina koodini keräämään kaikki twiitit, joissa mainittiin muutamia vaaleihin liittyviä hashtageja, kuten "#presidentinvaalit2018. Twiittien kalastelu alkoi hieman ennen kolmea iltapäivällä ja päättyi yhdentoista aikaan illalla. Saaliikseni sain vajaa 9000 twiittiä, joista uusia (eli ei-retweettejä) oli 6389. Katsotaan seuraavaksi nopeasti mitä haaviini tarttui (ja pidetään mielessä, että koko Suomen presidentinvaaleja koskeva vaalipäivän Twitter-keskustelu ei varmasti sisälly aineistooni hakusanojen rajallisuuden vuoksi)
Ennen vaalien tulosiltaa jännitystä haettiin lähinnä teemoista "tuleeko toinen kierros", "voittaako Väyrynen Vanhasen" ja "voiko Väyrynen haastaa Haaviston toisesta sijasta?". Miten Suomen Twitter-kansa innostui spekuloimaan vaaleja kun voittajan sijaan jännitettiin lähinnä jämäsijoja ja hyvän tsempparin palkintoja?
Laitoin sunnuntaina koodini keräämään kaikki twiitit, joissa mainittiin muutamia vaaleihin liittyviä hashtageja, kuten "#presidentinvaalit2018. Twiittien kalastelu alkoi hieman ennen kolmea iltapäivällä ja päättyi yhdentoista aikaan illalla. Saaliikseni sain vajaa 9000 twiittiä, joista uusia (eli ei-retweettejä) oli 6389. Katsotaan seuraavaksi nopeasti mitä haaviini tarttui (ja pidetään mielessä, että koko Suomen presidentinvaaleja koskeva vaalipäivän Twitter-keskustelu ei varmasti sisälly aineistooni hakusanojen rajallisuuden vuoksi)
Kuvio 1. Twiittien lähetysajankohta
Ylläolevasta kuviosta nähdään, että twiittejä tuli päivän mittaan varsin tasaisesti kunnes Ylen ja Maikkarin vaalilähetykset alkoivat 19:30. Kello 20.00 paljastettiin ennakkoäänien tulokset, mikä aiheutti suuren piikin twiittien määrään. Tämän jälkeen twiittien määrä pysyi korkeahkolla tasolla, mutta laski koko ajan. 21.00 aikaan julkaistu Ylen ennuste näkyy vielä yhtenä piikkinä. Kellon lähetessä 23.00 ei twiittejä enää kauhean aktiivisesti haaviini kertynyt.
Mitä twiitit sitten käsittelivät?
Kuvio 2. Twiittien sanapilvi
Sanapilvi ei tuota yllätyksiä yleisimmissä sanoissa. Kiinnostavinta on ehkä nähdä, ketkä ehdokkaat siinä esiintyvät: Sauli Niinistö, Laura Huhtasaari, Paavo Väyrynen ja Pekka Haavisto. Haatainen ja Kyllönen esiintyvät vähemmän, mutta Keskustan Matti-raukkaa ei näy missään.
Jos sanapilvi ei kauheasti kiinnostavaa informaatiota meille tarjoa niin matemaattisesti edistyksellisempi topic model-mallikaan ei hirveästi aukaise twiittien sisältöä. Kokeilin ajaa mallin usealla eri topicien määrällä, mutta kovin informatiivisia aihealueita ei twiiteistä onnistuttu löytämään. Alla nähdään kolmen (alle 10 kertaa esiintyvät sanat poistettu) sekä viiden (tf-idf-muunnoksella) aihealueen mallin tulokset aihealueisiin voimakkaimmin latautuneiden sanojen osalta.
Sanapilvi ei tuota yllätyksiä yleisimmissä sanoissa. Kiinnostavinta on ehkä nähdä, ketkä ehdokkaat siinä esiintyvät: Sauli Niinistö, Laura Huhtasaari, Paavo Väyrynen ja Pekka Haavisto. Haatainen ja Kyllönen esiintyvät vähemmän, mutta Keskustan Matti-raukkaa ei näy missään.
Jos sanapilvi ei kauheasti kiinnostavaa informaatiota meille tarjoa niin matemaattisesti edistyksellisempi topic model-mallikaan ei hirveästi aukaise twiittien sisältöä. Kokeilin ajaa mallin usealla eri topicien määrällä, mutta kovin informatiivisia aihealueita ei twiiteistä onnistuttu löytämään. Alla nähdään kolmen (alle 10 kertaa esiintyvät sanat poistettu) sekä viiden (tf-idf-muunnoksella) aihealueen mallin tulokset aihealueisiin voimakkaimmin latautuneiden sanojen osalta.
Topic 1 Topic 2 Topic 3 [1,] "huhtasaari" "niinistö" "niinistö" [2,] "vaalit" "sitten" "väyrynen" [3,] "niinistö" "uusi" "vaalit" [4,] "the" "jo" "sauli" [5,] "kaikki" "voi" "niinistön" [6,] "presidentti" "onnea" "niinisto" [7,] "sauli" "sauli" "presidentinvaalit" [8,] "kyllä" "hyvä" "vielä" [9,] "presidentinvaalit" "tule" "tänään" [10,] "väyrynen" "kannatus" "paavo"
Toinen aihealue sisältänee onnittelu viestejä Saulille. Aihealueet 1 ja 3 sisältävät yleisempää keskustelua vaaleista ja sisältävät myös mainintoja kilpakumppaneista, Väyrysestä ja Huhtasaaresta. Mitään mielenkiintoista ei tästä kuitenkaan irtoa.
Topic 1 Topic 2 Topic 3 Topic 4 Topic 5 [1,] "vaalit" "niinistö" "の" "the" "niinistö" [2,] "uusi" "sauli" "hienoa" "of" "prosenttia" [3,] "normaali" "näyttää" "が" "vote" "toinen" [4,] "väyrynen" "äänesti" "siinä" "in" "päästä" [5,] "laura" "selvä" "voittaja" "niinistö" "onnea" [6,] "huhtasaari" "onneksi" "を" "elect" "kekkonen" [7,] "äänestin" "jo" "フィンランド" "finland" "sauli" [8,] "voi" "vaalit" "tuntuu" "for" "vaalit" [9,] "suomessa" "presidentinvaalit" "niinistö" "and" "presidentti" [10,] "paavo" "presidentti" "niinistön" "is" "niinisto"
Tf-idf-muunnoksen jälkeen aihepiireihin ilmestyi Huhtasaaren illan aikana tutuksi tullutta "uutta normaalia" käsittelevä aihealue, joka sisältää myös Paavon. Aihepiiri 2 sisältää keskustelua Niinistön selvästä voitosta, aihepiiri 5 taas rinnastanee Saulia Suomen historian pitkäaikaisimpaan presidenttiin Urho Kekkoseen. Aihepiiri 4 sisältää kansainväliset twiitit Suomen vaaleista, aihepiiri 3 taas on aikamoinen jämäluokka.
Aineistoa olisi voinut yrittää muokata ja korjata rankemmalla kädellä ennen LDA-mallin ajamista, niin ehkä twiittailun luonne ja eri diskurssit olisivat selvinneet helpommin. Nyt näistä ei saada mitään kummempaa irti.
Tein aineistolle myös kömpelön sanalista-pohjaisen sentimenttianalyysini, jota olen hyödyntänyt aikaisemmissakin blogipostauksissa. Algoritmini luokitteli 3500 twiittiä neutraaliksi, 1500 positiiviseksi ja 1300 negatiiviseksi. Suuria tunteita twiiteissä ei siis ilmeisesti pääpiirteittäin esiintynyt.
neg neut pos 1310 3541 1538 |
Lopuksi tein verkostomallin saadakseni selville, että käytiinkö vaalien yhteydessä vuorovaikutteista keskustelua,
vai oliko kyseessä ennemminkin yksittäisten twiittajien arviot ja julistukset, joihin muut eivät reagoineet. |
Kuvio 3. Verkostomalli kaikille twiittaajille
Ja, tuskin yllätyksenä, pientä ristiintwiittailevaan ydinjoukkoa lukuunottamatta twitter-massat kävivät Väyrysmäistä "Me, myself and I"-dialogia itsensä kanssa kohdistamatta viestejä kenellekään toiselle. Tylsähköt vaalit eivät siis luoneet kovin vuorovaikutteista keskustelua. Tässä on tosin huomioitava, että hakusanojeni rajallisuudesta johtuen olen voinut hyvin kaapata twiitin, jossa ei mainita ketään, mutta missata siihen tulleen vastauksen.
Kuvio 4. Verkostomalli twiittaajista, jotka kohdistivat viestin toiselle
Jotta keskustelun luonnetta voi tutkia tarkemmin otan mukaan verkostomalliin vain ne tapaukset, jotka ovat joko twiitanneet toiselle henkilölle tai ovat twiitin kohteena. Kuviossa siniset viivat tarkoittavat positiiviseksi luokiteltuja twiittejä, punaiset negatiivisia ja harmaat neutraaleja. Kuviosta nähdään verkostossa muutamia isompia keskittymiä, joiden ympärillä valtaosa interaktiivisesta twiittailusta käydään. Ulkokehällä on lisäksi paljon 2-4 twiittaajaan pienverkostoja, jotka eivät ole yhteydessä ytimeen.
Kun katsotaan ne henkilöt, joilla on eniten yhteyksiä, yllätyksenä ei tule seuraava lista:
Jotta keskustelun luonnetta voi tutkia tarkemmin otan mukaan verkostomalliin vain ne tapaukset, jotka ovat joko twiitanneet toiselle henkilölle tai ovat twiitin kohteena. Kuviossa siniset viivat tarkoittavat positiiviseksi luokiteltuja twiittejä, punaiset negatiivisia ja harmaat neutraaleja. Kuviosta nähdään verkostossa muutamia isompia keskittymiä, joiden ympärillä valtaosa interaktiivisesta twiittailusta käydään. Ulkokehällä on lisäksi paljon 2-4 twiittaajaan pienverkostoja, jotka eivät ole yhteydessä ytimeen.
Kun katsotaan ne henkilöt, joilla on eniten yhteyksiä, yllätyksenä ei tule seuraava lista:
[1] "niinisto" "niinisto2018" "LauraHuhtasaari" "Haavisto""YleTV1" "kokokansanpaavo" "yleuutiset" [8] "Yleisradio" "VanhanenMatti" "GreenThaifood""TuulaHaatainen""antti_koo" "StarckTii" "hsfi" [15] "LazyTwitTwat"
Niinistö, Huhtasaari, Haavisto ja Väyrynen ovat isoja keskittymiä. Haatainen ja Vanhanen mahtuvat mukaan myös mediatalojen ja muutaman aktiivitwiittaajan sekaan. Verkoston isoimman keskittymän keskipiste on Sauli Niinistö ja kuten kuviosta nähdään, hänelle twiitattiin ensisijaisesti positiivisia onnitteluviestejä.
Siispä verkoston ydinkin antaa turhan ruuhuisen kuvan vuorovaikutteisesta debatista, kun tosiasiassa ehdokkaiden ja mediatalojen luomat keskipisteet ovat pääsyynä twiittaajien välisille yhteyksille.
Siispä verkoston ydinkin antaa turhan ruuhuisen kuvan vuorovaikutteisesta debatista, kun tosiasiassa ehdokkaiden ja mediatalojen luomat keskipisteet ovat pääsyynä twiittaajien välisille yhteyksille.
Kokonaisuutena voitaneen tiivistää, että tylsät vaalit, tylsä keskustelu. Siksipä päätin rikastaa keskustelua itse tekemällä twitter-botin, joka apinoi muiden mielipiteet ja luo niistä uusia helmiä.