sunnuntai 28. helmikuuta 2016

Voiko vaaleja ennustaa?

Ennen vaaleja tutkijoiden, median ja kahvipöytäkeskustelujen yhdeksi lempiaiheeksi tulee vaalituloksen ennustaminen. Media tuuttaa gallupeja ulos kiihtyvällä tahdilla ja niiden tuloksia seurataan tarkasti niin puoluetoimistoissa, yliopistojen työhuoneissakin kuin politiikkanörttien Facebook-ketjuissakin. Valveutuneimmat seuraajat yhdistelevät gallupeihin omaa teoreettista näkemystään ja mututuntumaa luodakseen omia ennusteita vaalien lopputulemasta.

Jenkki Nate Silver nousi monien tietoisuuteen hyvin tarkoilla, monia gallupeja ja bayesilaista
päättelyä yhdistelevillä ennusteillaan. Joskus Suomessakin tehdyt ennusteet osuvat täysin oikeaan. Mutta Fivethirtyeightin kaltaisesti systemaattisesta formaaleihin malleihin perustuvasta ennustamisesta me Suomessa olemme kaukana.

Arvostan suuresti Fivethirtyeightia ja Nate Silveria, mutta itse olen vaalien fiksua ja tarkkaa ennustamistakin kiinnostuneempi siitä, että kuinka hyvin vaaleja voidaan ennustaa "ilman poliittista järkeä". Tarkoitan tällä tilastollisten ennustemallien soveltamista dataan, josta on irrotettu kaikki tieto kannatusmittauksista ja muista vaalien alla poliittiseen mielialaan vaikuttavista tekijöistä. Ehdokastasolla valituksi tulleiden ennustamista käsittelevää juttuani jo mainostinkin. Seuraavaksi on aika pyrkiä samaan puoluetasolla ja "ennustaa" puolueiden kunnittaista kannatusta vuoden 2015 eduskuntavaaleissa hyödyntäen vain kuntien sosioekonomisia indikaattoreita ja vuoden 2011 eduskuntavaalien tulosta.

Mallina hyödynnetään random forest - tekniikkaa. Kyseessä on paranneltu versio tässä blogipostauksessa esitellystä päätöspuumenetelmästä. Satunnaismetsässä tehdään nimensä mukaisesti useita eri päätöspuu-malleja, joita kaikkia varioidaan vähän käytetyn datan ja muuttujien suhteen ja näistä yksittäistä päätöspuu-malleista aggregoidaan käytettävä lopullinen malli. Näin yhden mallin vinoumat ja virheet tasoittuvat ja lopputuloksen mallin pitäisi olla tasapainoisempi ja ennustamiskykyisempi kuin mikään yksittäinen päätöspuu. Haittapuolena on tulkittavuuden vähentyminen; satunnaismetsämallin vaikutussuhteita ei enää voi selvittää, eli syitä tehtyisin ennustuksiin on yksittäistä päätöspuuta vaikeampi päätellä. Malli koulutetaan rakentamaan jokaiselle puolueelle kannatusta alla mainituilla sosioekonomisilla indikaattoreilla vuoden 2011 vaalitulosta selittävä malli, jolla sitten "ennustetaan" vuosien 2015 tulosta.

Datana käytetään Tilastokeskukselta vuosilta 2011 ja 2014 muuttujia keskimääräinen asunnon koko per henkilö, väestön keskimääräinen koulutusaste (VKTM-mittari), mediaanitulo, väestöllinen huoltosuhde, keski-ikä, muuhun uskontokuntaan kuuluvien osuus, työttömyysaste ja pois muuttaneiden osuus väestöstä. Työttömyysasteessa jouduttiin käyttämään 2016 mukaista kuntajakoa ja kaksi havaintoa aineistosta näyttää puuttuvan ihan muuten vaan, joten havaintojen lukumäärä on lopulta 311 molemmissa vaaleissa.

Ja sitten itse tuloksiin.

SDP, ennustetut vs toteutuneet kunnittaiset ääniosuudet
Kunnittaisten ääniosuuksien keskihajonta:7,3
Jäännösten keskihajonta:5,8
R2: 0,38
Ennusteen ja aidon tuloksen keskimääräinen ero: 5,5
Kunnittaisten äänestysosuuksien keskiarvo (toteutunut): 13,1
Kunnittaisten äänestysosuuksien keskiarvo (ennustettu): 16,4
Kristillisdemokraatit , ennustetut vs toteutuneet kunnittaiset ääniosuudet
Kunnittaisten ääniosuuksien keskihajonta:3,7
Jäännösten keskihajonta:2,6
R2: 0,5
Ennusteen ja aidon tuloksen keskimääräinen ero: 2,1
Kunnittaisten äänestysosuuksien keskiarvo (toteutunut): 3.5
Kunnittaisten äänestysosuuksien keskiarvo (ennustettu): 4,3


Keskusta, ennustetut vs toteutuneet kunnittaiset ääniosuudet
Kunnittaisten ääniosuuksien keskihajonta: 18,5
Jäännösten keskihajonta: 11,5
R2: 0,62
Ennusteen ja aidon tuloksen keskimääräinen ero:11,5
Kunnittaisten äänestysosuuksien keskiarvo (toteutunut): 34
Kunnittaisten äänestysosuuksien keskiarvo (ennustettu): 28,1

Kokoomus, ennustetut vs toteutuneet kunnittaiset ääniosuudet
Kunnittaisten ääniosuuksien keskihajonta:7,2
Jäännösten keskihajonta:4,6
R2: 0,58
Ennusteen ja aidon tuloksen keskimääräinen ero: 4,5
Kunnittaisten äänestysosuuksien keskiarvo (toteutunut): 11
Kunnittaisten äänestysosuuksien keskiarvo (ennustettu): 13,5

Perussuomalaiset, ennustetut vs toteutuneet kunnittaiset ääniosuudet
Kunnittaisten ääniosuuksien keskihajonta:7,4
Jäännösten keskihajonta:5,8
R2: 0,39
Ennusteen ja aidon tuloksen keskimääräinen ero: 4,5
Kunnittaisten äänestysosuuksien keskiarvo (toteutunut): 18
Kunnittaisten äänestysosuuksien keskiarvo (ennustettu): 19,9

RKP, ennustetut vs toteutuneet kunnittaiset ääniosuudet
Kunnittaisten ääniosuuksien keskihajonta:14,5
Jäännösten keskihajonta:11,5
R2: 0,36
Ennusteen ja aidon tuloksen keskimääräinen ero: 5,5
Kunnittaisten äänestysosuuksien keskiarvo (toteutunut): 4,4
Kunnittaisten äänestysosuuksien keskiarvo (ennustettu): 4,6

Vasemmistoliitto
Kunnittaisten ääniosuuksien keskihajonta:4,8
Jäännösten keskihajonta:4
R2: 0,31
Ennusteen ja aidon tuloksen keskimääräinen ero: 4,3
Kunnittaisten äänestysosuuksien keskiarvo (toteutunut): 5,7
Kunnittaisten äänestysosuuksien keskiarvo (ennustettu): 8,9
Vihreät, ennustetut vs toteutuneet kunnittaiset ääniosuudet
Kunnittaisten ääniosuuksien keskihajonta:2,9
Jäännösten keskihajonta:1,6 R2: 0,69
Ennusteen ja aidon tuloksen keskimääräinen ero: 1,4
Kunnittaisten äänestysosuuksien keskiarvo (toteutunut): 3,7
Kunnittaisten äänestysosuuksien keskiarvo (ennustettu): 3,4


Ylläolevista kuvioista ja tunnusluvuista nähdään, että puolueen vaalitulosta tietyssä kunnassa todellakin on mahdollista suhteellisen hyvin ennustaa neljä vuotta sitten käytyjen vaalien ja nykyhetken sosioekonomisten indikaattorien tietämisellä. Joidenkin puolueiden kohdalla tämä onnistui paremmin kuin toisten.

Parhaiten ennustaminen onnistui Vihreiden, Keskustan ja Kokoomuksen kohdalla. Heikoiten se onnistui Vasemmistoliiton ja RKP:n kanssa. Näillä kolmella puolueella onkin aika selkeä maantieteellinen profiili. Sekä Kokoomus, että Vihreät ovat suosittuja etelän suurissa kaupunkikeskittymissä, kun taas Keskusta pitää valtaa suuressa osaa pienempiä pitäjiä.

Toisaalta RKP: lläkin on selkeä maantieteellinen profiili. Valitettavasti tähän ei päästy kiinni, koska Tilastokeskus ei taida tarjota avoimena datana ruotsinkielisten osuutta väestöstä kunnittaisella tasolla. Tästä syystä mallin ennustamat ja oikeasti korkean kannatuksen kunnat eivät kohdanneet. RKP:n selkeä eriytyminen muutamaan korkean kannatuksen kuntaan ja muuten olemattomaan kannatukseen ei sekään helpottanut ennustamistyötä. Vasemmistoliiton kohdalla varsinkin harvojen korkean kannatuksen kuntien profilointi tuotti suuria vaikeuksia.

Perussuomalaisten jytkyn havaitsin jo gradua aikoinani tehdessäni ja Perussuomalaisten kannatusta matemaattisesti mallintaessani olleen varsin tasaisesti jakautunut eri kuntiin. Oletettavasti tästä syystä mallinikin tahtoi ehdottaa suurimmalle osalle kunnista kannatusosuudeksi noin 20 %. Ei mennyt ihan nappiin. Kristillisten kohdalla yllättäen malli osasi hakea sen yksittäisen korkean kannatuksen kunnan muusta joukosta erilleen, vaikka ennustikin yli 20 prosenttiyksikköä liian alhaisen tuloksen.

Demarien vaaliennustekin on niin keskinkertaisen hajuton ja mauton, ettei siitä ole mitään erityisempää sanottavaa.

Puutteellisellakin sosioekonomisella datalla voidaan siis saada ainakin kelvollisia vaaliennusteita, vaikka toimisimmekin neljän vuoden viiveellä edellisestä kannatusmittauksesta. Kuvittelisin Suomen historiassa politiikan tutkijoiden esittäneen heikommin paikkansa pitäneitä ennusteita juuri ennen vaalejakin.