Aika on dataa: tammikuuta 2018

tiistai 30. tammikuuta 2018

Suomen presidentinvaalit Twitter-maailmassa

Suomen presidentinvaaleja 2018 voidaan monesta syystä pitää länsimaisten demokratioiden katsantokannassakin poikkeuksellisina. Sauli Niinistö vei tittelin historiallisesti jo ensimmäisellä kierroksella yli 60 prosentin kannatuksella eikä hänen edes tarvinnut hikoilla. Perinteisten valtapuolueiden SDP:n ja Keskustan ehdokkaat saivat hieman korkeamman kannatuksen kuin oman kansanliikkeensä perustanut politiikan ikiliikkuja Paavo Väyrynen; ja tämä ei johdu siitä, että Paavokaan olisi päässyt edes lähelle kaksinumeroisia lukuja. Vaalien voittaja ei tullut kenellekään yllätyksenä, mutta Saulin ylivoima oli odotettuakin murskaavampi.

Ennen vaalien tulosiltaa jännitystä haettiin lähinnä teemoista "tuleeko toinen kierros", "voittaako Väyrynen Vanhasen" ja "voiko Väyrynen haastaa Haaviston toisesta sijasta?". Miten Suomen Twitter-kansa innostui spekuloimaan vaaleja kun voittajan sijaan jännitettiin lähinnä jämäsijoja ja hyvän tsempparin palkintoja?

Laitoin sunnuntaina koodini keräämään kaikki twiitit, joissa mainittiin muutamia vaaleihin liittyviä hashtageja, kuten "#presidentinvaalit2018. Twiittien kalastelu alkoi hieman ennen kolmea iltapäivällä ja päättyi yhdentoista aikaan illalla. Saaliikseni sain vajaa 9000 twiittiä, joista uusia (eli ei-retweettejä) oli 6389. Katsotaan seuraavaksi nopeasti mitä haaviini tarttui (ja pidetään mielessä, että koko Suomen presidentinvaaleja koskeva vaalipäivän Twitter-keskustelu ei varmasti sisälly aineistooni hakusanojen rajallisuuden vuoksi)

Kuvio 1. Twiittien lähetysajankohta

Ylläolevasta kuviosta nähdään, että twiittejä tuli päivän mittaan varsin tasaisesti kunnes Ylen ja Maikkarin vaalilähetykset alkoivat 19:30. Kello 20.00 paljastettiin ennakkoäänien tulokset, mikä aiheutti suuren piikin twiittien määrään. Tämän jälkeen twiittien määrä pysyi korkeahkolla tasolla, mutta laski koko ajan. 21.00 aikaan julkaistu Ylen ennuste näkyy vielä yhtenä piikkinä. Kellon lähetessä 23.00 ei twiittejä enää kauhean aktiivisesti haaviini kertynyt.

Mitä twiitit sitten käsittelivät?

Kuvio 2. Twiittien sanapilvi

Sanapilvi ei tuota yllätyksiä yleisimmissä sanoissa. Kiinnostavinta on ehkä nähdä, ketkä ehdokkaat siinä esiintyvät: Sauli Niinistö, Laura Huhtasaari, Paavo Väyrynen ja Pekka Haavisto. Haatainen ja Kyllönen esiintyvät vähemmän, mutta Keskustan Matti-raukkaa ei näy missään.

Jos sanapilvi ei kauheasti kiinnostavaa informaatiota meille tarjoa niin matemaattisesti edistyksellisempi topic model-mallikaan ei hirveästi aukaise twiittien sisältöä. Kokeilin ajaa mallin usealla eri topicien määrällä, mutta kovin informatiivisia aihealueita ei twiiteistä onnistuttu löytämään. Alla nähdään kolmen (alle 10 kertaa esiintyvät sanat poistettu) sekä viiden (tf-idf-muunnoksella) aihealueen mallin tulokset aihealueisiin voimakkaimmin latautuneiden sanojen osalta.

     Topic 1             Topic 2    Topic 3            
 [1,] "huhtasaari"        "niinistö" "niinistö"         
 [2,] "vaalit"            "sitten"   "väyrynen"         
 [3,] "niinistö"          "uusi"     "vaalit"           
 [4,] "the"               "jo"       "sauli"            
 [5,] "kaikki"            "voi"      "niinistön"        
 [6,] "presidentti"       "onnea"    "niinisto"         
 [7,] "sauli"             "sauli"    "presidentinvaalit"
 [8,] "kyllä"             "hyvä"     "vielä"            
 [9,] "presidentinvaalit" "tule"     "tänään"           
[10,] "väyrynen"          "kannatus" "paavo"

Toinen aihealue sisältänee onnittelu viestejä Saulille. Aihealueet 1 ja 3 sisältävät yleisempää keskustelua vaaleista ja sisältävät myös mainintoja kilpakumppaneista, Väyrysestä ja Huhtasaaresta. Mitään mielenkiintoista ei tästä kuitenkaan irtoa.

     Topic 1      Topic 2             Topic 3        Topic 4    Topic 5      
 [1,] "vaalit"     "niinistö"          "の"           "the"      "niinistö"   
 [2,] "uusi"       "sauli"             "hienoa"       "of"       "prosenttia" 
 [3,] "normaali"   "näyttää"           "が"           "vote"     "toinen"     
 [4,] "väyrynen"   "äänesti"           "siinä"        "in"       "päästä"     
 [5,] "laura"      "selvä"             "voittaja"     "niinistö" "onnea"      
 [6,] "huhtasaari" "onneksi"           "を"           "elect"    "kekkonen"   
 [7,] "äänestin"   "jo"                "フィンランド" "finland"  "sauli"      
 [8,] "voi"        "vaalit"            "tuntuu"       "for"      "vaalit"     
 [9,] "suomessa"   "presidentinvaalit" "niinistö"     "and"      "presidentti"
[10,] "paavo"      "presidentti"       "niinistön"    "is"       "niinisto"

Tf-idf-muunnoksen jälkeen aihepiireihin ilmestyi Huhtasaaren illan aikana tutuksi tullutta "uutta normaalia" käsittelevä aihealue, joka sisältää myös Paavon. Aihepiiri 2 sisältää keskustelua Niinistön selvästä voitosta, aihepiiri 5 taas rinnastanee Saulia Suomen historian pitkäaikaisimpaan presidenttiin Urho Kekkoseen. Aihepiiri 4 sisältää kansainväliset twiitit Suomen vaaleista, aihepiiri 3 taas on aikamoinen jämäluokka.

Aineistoa olisi voinut yrittää muokata ja korjata rankemmalla kädellä ennen LDA-mallin ajamista, niin ehkä twiittailun luonne ja eri diskurssit olisivat selvinneet helpommin. Nyt näistä ei saada mitään kummempaa irti.

Tein aineistolle myös kömpelön sanalista-pohjaisen sentimenttianalyysini, jota olen hyödyntänyt aikaisemmissakin blogipostauksissa. Algoritmini luokitteli 3500 twiittiä neutraaliksi, 1500 positiiviseksi ja 1300 negatiiviseksi. Suuria tunteita twiiteissä ei siis ilmeisesti pääpiirteittäin esiintynyt.

 neg neut  pos 
1310 3541 1538

Lopuksi tein verkostomallin saadakseni selville, että käytiinkö vaalien yhteydessä vuorovaikutteista keskustelua, vai oliko kyseessä ennemminkin yksittäisten twiittajien arviot ja julistukset, joihin muut eivät reagoineet.

Kuvio 3. Verkostomalli kaikille twiittaajille

Ja, tuskin yllätyksenä, pientä ristiintwiittailevaan ydinjoukkoa lukuunottamatta twitter-massat kävivät Väyrysmäistä "Me, myself and I"-dialogia itsensä kanssa kohdistamatta viestejä kenellekään toiselle. Tylsähköt vaalit eivät siis luoneet kovin vuorovaikutteista keskustelua. Tässä on tosin huomioitava, että hakusanojeni rajallisuudesta johtuen olen voinut hyvin kaapata twiitin, jossa ei mainita ketään, mutta missata siihen tulleen vastauksen.

Kuvio 4. Verkostomalli twiittaajista, jotka kohdistivat viestin toiselle

Jotta keskustelun luonnetta voi tutkia tarkemmin otan mukaan verkostomalliin vain ne tapaukset, jotka ovat joko twiitanneet toiselle henkilölle tai ovat twiitin kohteena. Kuviossa siniset viivat tarkoittavat positiiviseksi luokiteltuja twiittejä, punaiset negatiivisia ja harmaat neutraaleja. Kuviosta nähdään verkostossa muutamia isompia keskittymiä, joiden ympärillä valtaosa interaktiivisesta twiittailusta käydään. Ulkokehällä on lisäksi paljon 2-4 twiittaajaan pienverkostoja, jotka eivät ole yhteydessä ytimeen.

Kun katsotaan ne henkilöt, joilla on eniten yhteyksiä, yllätyksenä ei tule seuraava lista:

[1] "niinisto"        "niinisto2018"    "LauraHuhtasaari" "Haavisto"        
"YleTV1"          "kokokansanpaavo" "yleuutiset"     
 [8] "Yleisradio"      "VanhanenMatti"   "GreenThaifood"   
"TuulaHaatainen"  
"antti_koo"       "StarckTii"       "hsfi"           
[15] "LazyTwitTwat"

Niinistö, Huhtasaari, Haavisto ja Väyrynen ovat isoja keskittymiä. Haatainen ja Vanhanen mahtuvat mukaan myös mediatalojen ja muutaman aktiivitwiittaajan sekaan. Verkoston isoimman keskittymän keskipiste on Sauli Niinistö ja kuten kuviosta nähdään, hänelle twiitattiin ensisijaisesti positiivisia onnitteluviestejä.

Siispä verkoston ydinkin antaa turhan ruuhuisen kuvan vuorovaikutteisesta debatista, kun tosiasiassa ehdokkaiden ja mediatalojen luomat keskipisteet ovat pääsyynä twiittaajien välisille yhteyksille.

Kokonaisuutena voitaneen tiivistää, että tylsät vaalit, tylsä keskustelu. Siksipä päätin rikastaa keskustelua itse tekemällä twitter-botin, joka apinoi muiden mielipiteet ja luo niistä uusia helmiä.

lauantai 13. tammikuuta 2018

Deittailun maailma - yksi tavoite, kaksi todellisuutta?

Satuin törmäämään mielenkiintoiseen datasettiin, joka sisältää dataa Speed Dating - tapahtumista Yhdysvalloista vuosilta 2002-2004. Tinder ja muut sovellukset ovat muovanneet deittailun kenttää noista vuosista, mutta oletettavasti miehet ja naiset suhtautuvat unelmien prinssinsä/prinsessansa ominaisuuksiin ja omaan viehättävyyteensä edelleen suurin piirtein samalla tavoin.

Datasettini on varsin massiivinen tarjolla olevien muuttujien suhteen, joten keskityn tässä vain nopeasti muutamaan huomioon; kuinka miehet/naiset suhtautuvat etukäteen sokkotreffiensä laatuun, kuinka monen he uskovat olevan kiinnostuneen heistä ja mitkä ominaisuudet vaikuttavat siihen, että vastapuoli sanoo "kyllä" jatkotapaamiselle.

Yleisenä huomiona olen siirtynyt R-kielestä Pythoniin, koska töissä saan näperrellä R:n parissa nykyään aivan tarpeeksi. Blogi siirtyy siis tavallaan taas aivan alkuaikoihin, kun koitan opetella uutta ohjelmointikieltä ja motivoida itseäni blogin kirjoittamisella. Ehkä tämä blogi tulee kielen muutoksen seurauksena aktivoitumaan. Ehkä ei. Ainakin analyysieni tekninen toteutustaso ottaa takapakkia.

Mutta aloitetaan pureutuminen deittailun maailmaan!

Naisia kritisoidaan nykyään paljon siitä, että he ovat niin nirsoja ja asettavat miehille korkeat kriteerit. Tunnetusti Tinderissä naiset "swaippaavat vasemmalle" moninkertaisella todennäköisyydellä suhteessa miehiin. Perinteisemmillä nettideittailusivustoilla naiset hukkuvat miesten yhteydenottoihin, mutta miehet saavat naisilta yhteydenoton paljon harvemmin (Christian Rudderin Dataclysm-kirja sisältää paljon mielenkiintoista dataa kirjoittajan perustamalta OKCupid-sivustolta, voin suositella tutustumaan). Miten nämä nettideittailussa havaitut toimintamallit jalkautuvat speed dating-maailmaan?

Ylläolevasta kuviosta nähdään naisten ja miesten odotus tyytyväisyyteen tilaisuudessa tapaamiaan ihmisiä kohtaan, skaalalla 0-10, jossa 10 = täysin tyytyväinen. Histogrammista nähdään, että miesten odotukset ovat keskimäärin korkeammat kuin naisten. Naisten jakauma on selvästi enemmän vasemmalle kallellaan kuin miesten. Miesten keskiarvo tyytyväisyydelleen onkin 5,85, naisten 5,18. Ero on yli puoli "tyytyväisyysyksikköä". Se ei ole massiivinen, kuten Tinderissä ja OKCupidissa havaitut erot käyttäytymisessä, mutta selkeästi naisilla on lähtökohtaisesti skeptisempi asenne potentiaalisia miehiä kohtaan kuin miehillä vielä tapaamattomia naisia.

Näkyykö miesten optimistisempi asenne naisten viehättävyyttä kohtaan sitten naisten itsetunnossa? Koska naiset näyttäytyvät odottavan miesten miellyttävyydeltä vähemmän kuin miehet heiltä, loogisesti naisten tulisi osoittaa korkeampaa tietoisuutta omasta "markkina-arvostaan" deittailumarkkinoilla. Kyselylomakkeella kysyttiin, että kuinka monen he uskovat 20 pian tapaamastaan partnerista haluavan nähdä heidät tulevaisuudessakin. Mitä korkeampi vastaus, sitä viehättävämpänä vastaaja pitää itseään. Näkyykö sukupuolten välillä eroa tässä muuttujassa? Valitettavasti kysymykseen on paljon vähemmän vastauksia kuin ylläolevaan, joten ero on vaikeampi saada selville.

Pienellä otoskoolla jakaumista ei tällä kertaa saa selvää vastausta. Sukupuolten keskiarvot ovat käytännössä samat, miehillä 5,9 ja naisilla 5,87. Erot ovat kuitenkin nähtävissä: miehistä löytyy muutama oman elämänsä Casanova, jotka kelpaavat omasta mielestään kaikille pikadeittailukumppaneilleen. Naisista löytyy enemmän oman elämänsä hylkiöitä, jotka eivät mielestään tule kelpaamaan kenellekään, toisaalta vain yhdelle tai kahdelle kumppanille mielestään kelpaavissa miehiä on moninkertainen määrä. Pienen aineiston perusteella emme siis voi havaita merkittävää eroa siinä, että naiset pitäisivät omaa markkina-arvoaan miehiä lähtökohtaisesti korkeampana.

Siirrytään lopuksi miesten ja naisten odotuksista aitoon käyttäytymiseen. Jokainen pikadeittailija päättää jokaisen tapaamansa pikakumppanin kohdalla, että haluaako hän tavata häntä jatkossakin vai ei. Tämän lisäksi hän arvioi kumppanin kuudella asteikolla, jotka ovat ulkonäkö (=attr_o), vilpittömyys (=sinc_o), älykkyys (=intel_o), hauskuus (=fun_o), kunnianhimo (=amb_o) sekä kuinka paljon heillä on hänen mielestään yhteisiä harrastuksia sekä mielenkiinnon kohteita (=shar_o). Tahtovatko miehet nähdä kumppania naisia useammin ja miten eri ominaisuudet vaikuttavat todennäköisyyteen tulla hyväksytyksi niin miehillä kuin naisilla?

Naiset kelpuuttavat 36,5 % miehistä toisille treffeille 4 minuutin pikatutustumisen jälkeen. Miehiin taasen teki riittävän vaikutuksen 47,5 % naisista. Tässäkin siten havaitaan naisten korkeammat kriteerit kumppanille. Odotukset omasta viehätysvoimasta olivat sukupuolten välillä suurin piirtein samat, mutta todellisuus oli miehille karumpi. Kolmesta täyttä 20 valloitusta odottaneesta Casanovastakaan yksikään ei saanut kaikkia (lopulta kymmentä) kumppania valloitetuksi. Kaikki tosin voittivat 36,5 prosentin keskiarvon, yhden hurmatessa jopa 9 naista, toisen 5 ja viimeisen 4.

Naiset siis vaativat mieheltä enemmän ennen kuin he sanovat "kyllä" toisille treffeille. Mutta arvostavatko sukupuolet samalla tavalla kumppanin ominaisuuksia? Tähän hain vastausta tekemällä logistisen regression, jossa käytin kumppanin arvioita kuudella mainitulla asteikolla selittävinä muuttujina.

attr_o 1.620445 sinc_o 0.723257 intel_o 0.752947 fun_o 1.248377 amb_o 0.797075 shar_o 1.284619

Miesten arviot naisesta ja niiden vaikutus todennäköisyyten sanoa "kyllä" toisille treffeille

Miehillä tärkeintä on naisen ulkonäkö. Yhden pykälän lisäys ulkonäkö-skaalalla lisää todennäköisyyttä sanoa "kyllä" 1,6-kertaisesti. Naisen älykkyys, vilpittömyys ja kunnianhimo yllättäen laskivat (muiden muuttujien ollessa vakiona) todennäköisyyttä haluta nähdä häntä uudestaan. Hauskuus ja yhteiset mielenkiinnon kohteet lisäsivät todennäköisyyttä noin 1,25-kertaiseksi.

Yllättäen naisilla tulokset olivat samansuuntaiset:

attr_o 1.273116 sinc_o 0.843561 intel_o 0.781485 fun_o 1.256415 amb_o 0.783069 shar_o 1.287888

Naisille miehen ulkonäöllä ei ole niin suurta vaikutusta, mutta muiden muuttujien kertoimet ovat likipitäin samat kuin miesten mallissa. Siis kun kyseessä on nopea 4 minuutin tapaaminen, kummatkin sukupuolet keskittyvät toisen ulkonäköön ja huumorintajuun sekä mahdollisiin samoihin mielenkiinnon kohteisiin. Tämä on varsin loogista. 4 minuuttia on lyhyt aika. Jos toinen miellyttää silmää ja lyhyessä ajassa löytyy yhteinen mielenkiinnon kohde, on nämä paljon tärkeämpiä kuin toisen kunnianhimo tai älykkyys; neljässä minuutissa harvoin käsitellään toisen urasuunnitelmia tai keskustella Platon ajattelun meriiteistä ja heikkouksista.

Lyhyenä yhteenvetona: naiset lähtökohtaisesti odottavat heikompitasoisia miehiä kuin miehet naisia ja myös konkreettisesti kelpuuttavat heitä pienemmällä todennäköisyydellä jatkotapaamiseen neljän minuutin pikatutustumisen jälkeen. Sen sijaan sukupuolten käsityksessä omasta viehätysvoimastaan ei ole pienestä aineistosta havaittavissa merkittävää eroa. Aineisto on vanha ja toisesta kulttuurista, mutta väittäisin tehtyjen havaintojen enemmän tai vähemmän myös sopivan Suomeen.