tiistai 31. toukokuuta 2016

Onko kaikki poliitikot veistetty samasta puusta?

PÄIVITYS: tätä samaa teemaa käsittelevä artikkeli on julkaistu Time is Datan puolella, näkökulman siirtyessä "supervised learningin" puolelle. Käy lukaisemassa!

Yksi yleisimmistä kritiikeistä poliitikkoja ja puolueita kohtaan on se, että loppupeleissä ne ovat erottamattomia toisistaan ja ajavat suurin piirtein samoja asioita. Teoreettisesti kaksipuoluejärjestelmissä tämä on Downsin teoreeman mukainen lopputulema, kun molemmat puolueet koittavat miellyttää mediaaniäänestäjää.

Toisaalta ei tarvitse katsoa kuin Yhdysvaltojen presidentinvaaleja 2016, ja maan politiikkaa yleisemminkin, huomatakseen että kaksipuoluejärjestelmäkin voi tuottaa poliitikkoja, jotka eivät nyt ainakaan keskitien maltillisia hamua ydinäänestäjäkunnakseen. Suomenkin poliittinen kulttuuri on varovaisen arvion perusteella myös siirtynyt konfliktihakuisempaan suuntaan aiemmasta konsensus-hakuisuudesta ja Kokoomus-Vasemmistoliitto akselin lisäksi on tullut Vihreät-Perussuomalaiset-akseli. Eroja siis pitäisi löytyä puolueista ja niiden ehdokkaista.

Onneksi asiaa voi tutkia vaalikoneinstituution avulla, sillä Yle on verorahoilleni antanut vastinetta Noin viikon uutisten lisäksi julkaisemalla vaalikoneidensa vastaukset avoimena datana. Nyt hyödynnettävä data on vuoden 2015 eduskuntavaaleista.

Olettaen lievästi naiivisti, että ehdokkaat vastaavat vaalikoneen kysymyksiin oman tuntonsa mukaan eikä koittaen optimoida ykkössijaansa mahdollisimman monelle äänestäjälle, käytössämme on varsin kattava data ehdokkaiden poliittisista mielipiteistä. Aineiston avulla pitäisi voida tutkia, kuinka moneen puolueeseen ehdokkaiden oikeasti kannattaisi ryhmittäytyä ja onko puolueiden välillä oikeasti havaittavissa olevaa eroa isolla tasolla. Blogin teemana on siis klusterointi. (tulen hyödyntämään samaa data-aineistoa myös ennustavaan mallintamiseen Time is Datan puolella myöhemmin kunhan jaksan)

Vaalikoneaineistosta valitsen ainoastaan kahdeksan eduskuntapuolueen jäsenten vastaukset. Kysymyksistä valitsen 32 kaikille vaalipiireille yhteistä. Vaalikonevastauksia käsittelen kategorisena aineistona (filosofinen valinta, jolla ei kuitenkaan taida olla suurta käytännön merkitystä suhteessa ordinaaliseen tai numeeriseen käsittelyyn) ja etäisyysmatriisit laskenkin siis Gowerin metodin perusteella.

Minua kiinnostaa erityisesti, että minkälaisiin ryhmiin ehdokkaat klusteroituvat kun klustereiden määrää ei pakoteta etukäteen. Siispä aloitan tarkasteluni ns. DBSCAN-metodilla, jossa parametrina annetaan klusterien sijaan eräänlainen etäisyysalue sekä minimimäärä niille datapisteille, jotka on kyseisen alueen piirtämän alueen sisältä löydyttävä klusterin perustamiseksi.

Tulos? Kokeilenpa melkein mitä tahansa parametrien arvoja, saan kaksi klusteria. Toisessa ryhmässä on 1495 ehdokasta ja toisessa 87. Se niistä puheista, että Suomessakin ehdokkaiden ja puolueiden erot olisivat kasvaneet.Hieman kiusallista myös on, että ne 87 eivät edes edusta erityisen ideologisesti koherenttia blokkia:

                                       0   1
  Kansallinen Kokoomus                206   8
  Perussuomalaiset                    202  13
  Suomen Keskusta                     208   8
  Suomen Kristillisdemokraatit (KD)   183  10
  Suomen ruotsalainen kansanpuolue     87  17
  Suomen Sosialidemokraattinen Puolue 210   6
  Vasemmistoliitto                    199  17
  Vihreä liitto                       200   8


Seuraavaksi kokeilin hierarkista klusterointia parilla erilaisella metodilla, joista esittelen järkevimmän tuloksen tuottavan klassisen Wardin lopputuloksen.






Saamme siis taas yhden täysin muusta porukasta erillään olevan klusterin vasempaan reunaan ja karkeasti arvioiden loppuosa jakautuu kahteen isompaan leiriin, joista voi vielä tulkinnanvaraisesti löytää 4 tai 5 hieman isompaa kokonaisuutta. No, tarkastellaan vaihtoehtoja, joissa klustereita on yhteensä 3 ja 5 ja katkaistaan puu näistä kohdin ja tarkastellaan syntyviä klustereita tarkemmin.

Kolmen klusterin katkopisteessä ensimmäiseen klusteriin löysi tiensä 880 tapausta, toiseen 615 ja kolmanteen tutut 87. Saamme seuraavan taulukon:

                                        1   2   3
  Kansallinen Kokoomus                204   2   8
  Perussuomalaiset                    194   8  13
  Suomen Keskusta                     176  32   8
  Suomen Kristillisdemokraatit (KD)   163  20  10
  Suomen ruotsalainen kansanpuolue     69  18  17
  Suomen Sosialidemokraattinen Puolue  35 175   6
  Vasemmistoliitto                     10 189  17
  Vihreä liitto                        29 171   8


Huh, onneksi nyt sentään alkaa jo vähän ideologiset erotkin näkymään. Ensimmäiseen klusteriin ajautuu selkeästi porvarilliset/konservatiiviset puolueet Kokoomus, Kepu, Persut ja KD ja enemmistö RKP:n edustajista. Toiseen klusteriin menee SDP, Vasurit, ja Vihreät. Kolmosklusteri on edelleen mystinen sekasikiö eri puolueiden toisinajattelijoita.

Viiden klusterin vaihtoehdossa taas saamme seuraavan kokoonpanon (1. klusteri 568, 2. 284 3. 331 4. 312 5. 87)

                                        1   2   3   4   5
  Kansallinen Kokoomus                 21   2   0 183   8
  Perussuomalaiset                    178   3   5  16  13
  Suomen Keskusta                     143  25   7  33   8
  Suomen Kristillisdemokraatit (KD)   155  14   6   8  10
  Suomen ruotsalainen kansanpuolue     14  13   5  55  17
  Suomen Sosialidemokraattinen Puolue  30  48 127   5   6
  Vasemmistoliitto                      9  30 159   1  17
  Vihreä liitto                        18 149  22  11   8
 
 


Kokoomuksen pääosa löysi itsensä klusterista neljä RKP:n enemmistön ja hajapersujen, kepulaisten ja Vihreiden kanssa. Tässä on selkeästi se Suomen talousoikeistolaisten ehdokkaiden joukko. Ehdokasmäärältään suurin klusteri koostui Persuista, Kepulaisista ja Kristillisistä, mikä taas koostanee arvokonservatiivien joukon. Talousvasemmistolaiset demareista ja vassareista menivät klusteriin 3 ja Vihreiden dominoiva ja demareilla sekä vasemmistolaisilla höystetty klusteri 2 taas on Suomen arvoliberaalit. 

Näin äkkinäisellä analyysillä klustereista oli hahmotettavissa nykyajan poliittisten ristiriitaulottuvuuksien, talousvasemmisto-talousoikeisto ja arvokonservatiivit-arvoliberaalit neljä pääklusteria ja sitten tuo mystinen viides joukkio.

Koska tiedämme, että eduskuntapuolueita on 8, niin koitetaan lopuksi vielä pakottaa ehdokkaat kahdeksaan ryhmään ja katsotaan, että löytävätkö samojen puolueiden edustajat itsensä pääsääntöisesti samoista ryhmistä. Tähän tarkoitukseen käytän ns. PAM-menetelmää, joka on robustimpi versio klassisesta k-meansista (tulokset eivät siis heittele niin paljon outlierien vuoksi)



                                        1   2   3   4   5   6   7   8
  Kansallinen Kokoomus                 12   0   1  16  30   0 147   8
  Perussuomalaiset                    146   1  16  10  22   2   4  14
  Suomen Keskusta                      26   8  10  87  55   7  15   8
  Suomen Kristillisdemokraatit (KD)     8  14  13  66  51  15  16  10
  Suomen ruotsalainen kansanpuolue      1   9   3  10  29  10  25  17
  Suomen Sosialidemokraattinen Puolue   9  32  49  10  45  58   6   7
  Vasemmistoliitto                      1   8 133   2   6  49   0  17
  Vihreä liitto                         1  78  50   8  44  15   3   9
 
 
 
Klusteri 8 siellä edelleen kummittelee omana kokonaisuutenaan. Mutta muuten tulokset antavat lisää indikaatioita siitä, ettei puolueet täysin olen taloja ilman seiniä, mutta toisaalta ainoastaan Kokoomuksella, Perussuomalaisilla ja Vasemmistoliitolla on suhteellisen selkeä oma identiteettinsä kun taas muissa puolueissa ehdokkaat hajaantuvat 2-3 siipeen.

Parhaiten puolueen sisäinen yhtenäisyys näkyy Kokoomuksen kohdalla, jonka ehdokkaista valtaosa löysi itsensä 7 klusterista Keskustan, kristillisten ja RKP:n talousoikeistolaisemman siiven kanssa. Perussuomalaiset ovat myös vahvasti oma blokkinsa 1 klusterissa.

Keskusta on jakaantanut pääasiallisesti klustereihin 4 ja 5. Nelosklusterissa kavereina on kristillisdemokraatteja, viidennessä kristillisten lisäksi löytyy paljon demareita ja vihreitä.
RKP: ta tuntuu yhdistävän pakkoruotsi, ehdokkaat ovat jakautuneet suhteellisen tasaisesti useampaan klusteriin, joista viides ja seitsemäs ovat isoimmat RKP-keskittymät.

Demareilla on myös puolue jakaantunut noin 4 osaan. Pienin osista jakaa kakkosklusterin Vihreiden kanssa. Vasemmistoliiton kanssa on kaksi klusteria, 3 ja 6, joista kolmanteen klusteriin ilmeisesti keskittyy kovan vasemman linjan siipi. Kepun ja kristillisten kanssa myös viidennessä klusterissa on paljon demareita. Vasureilla oli tosiaan kaksi isompaa klusteria, joista kolmosklusteri on selkeästi heidän dominoiva. Vihreillä oli kakkosklusterissa oma arvoliberaali joukkonsa, jonkun verran vasemman siiven vihreitä löytyy Vassarien kolmosklusterista ja sekasikiö vitosklusterista.

Yllä tehdyn tarkastelun perusteella näyttää siltä, että Suomessa on kylläkin puolueiden välillä eroja, mutta harva puolue on ideologisesti kuitenkaan kovin yhtenäinen. Tulos on siis hyvin odotetun kaltainen. Paitsi tämä menetelmästä toiseen yhdessä pysynyt vajaan 90 ehdokkaan sakki. Keitä he oikein ovat ja mikä ihmeen salaseura heillä on pystyssä? Itse epäilen Vapaamuurareita.