sunnuntai 26. maaliskuuta 2017

Näkyykö hallitus-oppositioasetelma kuntavaaliehdokkaissa?

Kuntavaalit 2017 ovat muutaman viikon päässä, joten on aika siirtää katse tulevaan. Yle julkaisi pari päivää sitten oman vaalikoneensa datan avoimeen käyttöön, joten katsotaan mitä siitä saadaan irti! Suomen Kuvalehti ehtikin jo aineistosta tehdä oman tekstianalyysinsä ehdokkaiden vaalilupaus-kentistä.

Aikaisemmin kirjoitin parikin artikkelia Ylen eduskantavaalikonedatasta kun etsin yhtäläisyyksiä kansanedustajaehdokkaiden vastauksista. Varsinkin ennustavaa analytiikkaa hyödyntävässä mallissani kävi ilmi, että puolueilla on kyllä pitkälti selkeähköt identiteettinsä ja ehdokkaat ovat homogeenisempiä puolueiden sisällä kuin välillä.

Eduskuntavaalit ovat kuitenkin eri tarina verrattuna kuntavaaleihin. Jos eduskuntavaalit ovat politiikan liiga niin kuntavaalit ovat aladivarihöntsää; kyllä siellä huippunimet käyvät lämmittelemässä, mutta puolueiden pyrkiessä haalimaan mahdollisimman paljon ehdokkaita jokaiseen kuntaan ovat ovet avoimemmat ja seinät leveämmällä kuin eduskuntavaaleissa. Lisämausteensa peliin tuo alueelliset erot ja kuntien valtavasti poikkeava elinvoimaisuus; Helsingin keskustalainen ei ole sama otus kuin Kainuun syrjäkylän serkkunsa. Myös Ylen vaalikone lisää puolueen sisäisiä eroja, sillä kysymykset ovat eduskuntavaaleja riippuvaisempia vastaajan kunnasta. Oletusarvoisesti puolueet ovat kuitenkin edelleen tunnistettavia, mutta heterogeenisyys on suurempaa.

Puolueiden välisten erojen sijaan keskityn kuitenkin tällä kertaa hallitus/oppositio-asetelman tutkimiseen. Suomenkin lehdistön johtava narratiivi kuntavaaleihin on usein "hallituksen väliarvio", ei niinkään paikallispäättäjien valinta. Tämä vastaa valtio-opin teoriaa "toisen asteen vaaleista", jossa kuntavaalien merkitys äänestäjille on toissijainen parlamenttivaaleihin nähden. Kääntäen asetelma päälaelleen onkin hauska nähdä näkyykö hallitus/oppositio-asenne myös paikallisiin valtuustoihin pyrkivien divarijyrien vastauksissa. 2017 hallitus on vieläpä suhteellisen yhtenäinen oikeisto-konservativiinen blokki, joten todennäköisyys onnistumiseen on suurempi kuin Kataisen sateenkaarihallitukseen kuulumisen ennustaminen.

Kuntavaaliehdokkaiden vastausten lisäksi teen vielä ennustemallin käyttäen hyödyksi ehdokkaiden vaalikoneelle antamia tietoja heidän sosioekonomisesta asemastaan. Viime eduskuntavaalien aikaan onnistuin ennustamaan yllättävän tarkasti läpimenevät ehdokkaat näiden tietojen avulla; katsotaan voidaanko hallitus/oppositioasetelmaa tutkia samoin menetelmin. Lähtökohtaisesti ei, mutta kokeillaan.

Menetelmistä: käytän tukivektorikonetta ja random forestia, joiden lisäksi käytän dimensioiden vähentämiseksi pääkomponenttianalyysiä. Viimeistä lukuunottamatta kaikkia on jo tämän blogin historiassa käytetty, eikä niihin kannata tässä enempää paneutua. Viimeisestä voin sanoa sen verran, että pääkomponenttianalyysin tarkoitus on löytyy suuresta määrästä muuttujia pienempi joukko pääkomponentteja, jotka selittäisivät dataa mahdollisimman hyvin. Esimerkiksi vaalikonevastausten perusteella tehdyt nelikentät perustuvat jonkinlaiseen pääkomponentti- tai faktorianalyysiin, jossa lasketaan joukosta keskenään korreloivia vastauksia yksikäsitteinen luku, joka kuvaa kyseistä dimensiota. Pääkomponenttianalyysiä käytetään tässä osana tukivektorikone (jatkossa SVM)-mallinnusta, sillä alustavien testien mukaan SVM: ää ei saa sovitettua tarpeeksi jäykästi korkeadimensionaaliseen koko kysymyspatteriston sisältävään dataan.

Aineistoon ei saa sovitettua pääkomponenttimallia, joka selittäisi suuren osan varianssista. Kaksi ensimmäistä pääkomponenttia selittää yhteensä vain n. 21 prosenttia aineistossa esiintyvästä vaihtelusta. Tämä tarkoittaa sitä, että Ylen vaalikoneen kysymykset eivät muodosta selkeitä kokonaisuuksia tyyliin vasemmisto/oikeisto tai liberaali/konservatiivi, joiden sisällä ehdokkaat vastaisivat saman suuntaisesti kaikkiin patteristo-osion kysymyksiin.

Tässä kaksi ensimmäistä pääkomponenttia ja niihin 10 voimakkaimmin latautuvaa kysymystä.

Pääkomponentti 1:
X129.Kouluissa.pitaa.olla.vahintaan.kerran.viikossa.kasvisruokapaiva. -0.2827778
X138.Rakentamista.on.nopeutettava.kansalaisten.valitusoikeutta.rajoittamalla.  0.2754592
X135.Kunnallisten.terveyspalveluiden.yksityistaminen.tuo.palveluihin.tehokkuutta.ja.saastaa.kustannuksia.  0.2752507
X147.Jokaisen.pitaa.paasta.palveluiden.aarelle.joukkoliikenteella. -0.2650160
X141.Ymparisto..ja.luontoarvoista.voidaan.joustaa..jos.siten.voidaan.lisata.tyopaikkoja.  0.2555743
X143.Oman.kuntani.tulee.ottaa.vastaan.Suomesta.turvapaikan.saaneita. -0.2459348
X133.Nykyisten.kuntatyontekijoiden.tyopaikat.on.turvattava.sote.uudistuksessa. -0.2438184
X128.Kuntien.tulee.tarjota.lasten.paivahoidon.varhaiskasvatus.ilmaiseksi.kaikille.lapsille. -0.2433295
X244.Tarvitsemme.vahvaa.johtajuutta..joka.voi.korjata.ongelmat.ilman.tarvetta.kompromisseille.  0.2398265
X248.Suomessa.kaikilla.on.yhtalaiset.mahdollisuudet.rikkauteen.ja.onneen.  0.2357479

Pääkomponentti 2:
X1809.Kunnanvaltuutetun.tarkein.tehtava.on.puolustaa.oman.aanestajakuntansa.etuja. -0.3384631
X143.Oman.kuntani.tulee.ottaa.vastaan.Suomesta.turvapaikan.saaneita.  0.3196248                             X201.Ennen.ei.ollut.paremmin...suomalaisen.elamantavan.muutokset.ovat.olleet.hyvasta.  0.2751113 X136.Avohoidon.suosiminen.mielenterveystyossa.luo.turvattomuuden.tunnetta. -0.2658305
X133.Nykyisten.kuntatyontekijoiden.tyopaikat.on.turvattava.sote.uudistuksessa. -0.2624327
X246.Pohjimmiltaan.elamassa.vallitsee.resurssi..ja.valtakilpailu..jossa.ei.parjaa.ilman.taistelua. -0.2489658
X1811.Sosiaali..ja.terveyspalveluiden.jarjestaminen.kuntalaisille.onnistuu.paremmin.maakuntahallinnolta.kuin.kunnaltani.itsenaisesti.  0.2430052
X132.Vanhuksilla.on.oltava.oikeus.palvelukotipaikkaan..koska.nykyinen.kotihoito.ei.ole.riittavaa. -0.2376379
X131.Koulujen.opetusryhmat.ovat.jo.niin.isoja..etta.oppiminen.hairiintyy. -0.2257555
X134.Sosiaali..ja.terveyspalveluiden.toimivuus.on.tarkeampaa.kuin.sijainti.  0.2161348

Molemmat pääkomponentit koostuvat (jopa osittain samoista) kysymyksistä, jotka mittaavat ehdokkaan asemoitumista vasemmisto/oikeisto sekä konservatiivi/liberaali-akseleille. Mediatalojen nelikentistä poiketen molemmat pääkomponenttini ovat siis näiden sekasikiöitä eivätkä spesifisti kumpaakaan.

Hallitus - ja oppositiopuolueiden ehdokkaat kahden pääkomponentin muodostamassa avaruudessa

Kuviosta nähdään, että hallitus- ja oppositiopuolueiden edustajien välillä on eroa lähinnä ensimmäisessä pääkomponentissa, jossa oppositioedustajat saavat keskimäärin korkeampia arvoja. SVM-mallin sovittaminen koko aineistoon (eduskuntapuolueiden ehdokkaat, reilu 16 000 tapausta). Malli on sovitettu melko joustavaksi, jolloin parille oppositiopuolueiden outlier-tapaukselle tulee oma luokitusalueensa.

Tukivektorikoneen ennustemalli kahden pääkomponentin muodostamassa avaruudessa


Nyt on jaariteltu tarpeeksi; miten ennustaminen lopulta onnistuu random forestilla ja pääkomponentti-SVM: llä?

Pääkomponentti-SVM:

                    Hallitus       Oppositio
  Hallitus        2422       413
  Oppositio      667      1963


Random forest:

                  Hallitus Oppositio
  Hallitus        2518       317
  Oppositio      605      2025


Molemmat mallit saavat siis noin 80 % tapauksista luokiteltua oikein. Random forest on hieman parempi tarkkuudeltaan, mutta ottaen huomioon, että SVM hyödyntää vain kahta pääkomponenttia, jotka sisältävät vain noin 20 % koko aineiston informaatiosta, ei random forestin etu ole huomattava.

Mutta laajalti hallitus/oppositio-asetelma on siis havaittavissa puolueiden kunnallisvaaliehdokkaiden vaalikonevastauksissa. Sipilän hallituskokoonpano esittäytyy verrattain homogeenisenä blokkina, mikä vahvistaa kuntavaalien "hallituksen väliarvio"-narratiivia.

Entä taustamuuttujat? No, vaikka vaaleissa läpimenon niillä pystyikin yllättävän hyvin ennustamaan niin siinä suhteessa ei sentään ole selkeää hallitus/oppositio-jakoa ja sekä SVM, että random forest-mallien tulokset olivat kolikonheiton tasoa. Mutta kuten alla olevasta kuviosta nähdään, kyllä puolueiden välillä erojakin on näiltä osin. Tässä esimerkiksi ehdokkaiden sijoitusomaisuuden arvo puolueittain.



Kokoomuksen ja RKP:n ehdokkaiden omaisuus on muita puolueita suurempaa, Vasemmistoliitolla taasen on eniten ehdokkaita, joilla on tasan 0 euroa kiinni arvopapereissa.

Mainittakoon muuten, että 29 ehdokasta ilmoittaa vuosituloikseen yli 100 000 euroa, mutta myös, ettei heillä ole yhtään sijoituksia. Tässä joukossa on nimiä kuten Jan Vapaavuori, Anni Sinnemäki, Mikko Alatalo, Jussi Niinistö, Juhana Vartiainen sekä Tarja Filatov. Joko kyseiset politiikan konkarit elävät kädestä suuhun jetset-elämää, makuuttavat varojaan nollakorkoisilla pankkitileillä tai kertovat muunneltua totuutta. Esimerkiksi Helsingin tulevalta pormestarilta en toivoisi löytyvän yhtään yllämainituista ominaisuuksista, mutta eipä taida olla vaihtoehtoa.

Muokkaus: tarkemmin katsoen Ylen kyselyn asettelu ei ota kantaa sijoitusasuntoihin vaan siinä puhutaan vain arvopapereista. Otan sanojani takaisin varauksella.