sunnuntai 13. syyskuuta 2015

Suomalaisten asuinympäristöjen tyypittelyä

Kai tilastokeskuslaisen on myös käytettävä Tilastokeskuksen avointa dataa jossain analyysissään hyväksi. Tilastokeskuksen Paavo-palvelua voi ainakin suositella hyvällä omalla tunnolla; se tarjoaa postinumeroalueittain avointa dataa eri aihealueista. Suhteellisen tarkalle tasolle vietynä datana Paavo on erinomainen datalähde suomalaisten asuinlähiöiden tarkempaan tarkasteltuun. Suomeahan ei voi hyvällä tahdollakaan pitää yhtenäisenä, tasa-arvoisena asuinalueena vaan maantieteelliset erot eri kuntien ja kaupunginosien välillä ovat huimia.

Hyödynnettynä nenetelmämä on klusterianalyysi eli suomeksi sanottuna datapisteiden luokittelu eri kategorioihin matemaattisen algoritmin perusteella. Yleisimmin käytetty klusterointimenetelmä on ns. K-means clustering. Siinä lukitaan etukäteen haluttu klusterien eli kategorioiden määrä ja asetetaan satunnaisesti dataan ns. centroidit eli eräänlaiset laskennalliset keskipisteet (yhtä monta kuin k eli haluttu klusterien määrä on). Muut datapisteet luokitellaan klustereihin siten, että ne sijoitetaan etäisyyden (esim. euklidinen etäisyys) perusteella lähimpään centroidiin. Tämän jälkeen centroidit lasketaan uudelleen pyrkien optimoimaan klusterijakoa ja prosessi alkaa uudelleen, kunnes saavutaan lopullisiin klustereihin. Menetelmän huonoja puolia on, että klusterien järkevää määrää on vaikeahko päättää etukäteen ja ensimmäiset klusterikeskustat ovat satunnaisesti päätettyjä, jolloin samalla menetelmällä toistetut klusterijaot voivat poiketa toisistaan useammin toistettuna.

Toinen klusterointimenetelmä on hierarkinen klusterointi. Siinä aloitetaan tilanteesta, jossa kaikki datapisteet ovat yksittäisiä datapisteitä (tai kuuluvat yhteen klusteriin) Tämän jälkeen luodaan eri tasoisia klustereita riippuen datapisteiden läheisyydestä toisiinsa päätyen tilanteeseen, jossa kaikki datapisteet koostuvat yhdestä klusterista (ovat erillisiä datapisteitä). Tässä blogipostauksessa hyödynnetään molempia menetelmiä. Klusteroinnista voi lukea tarkemmin esimerkiksi täältä. 

Mutta ensin muutama sana käytetystä datasta. Tilastokeskuksen Paavo-palvelu siis tarjoaa postinumeroalueittaista avointa dataa monilta eri yhteiskunnallisilta osa-alueilta. Tässä analyysissä klusteroinnin pohjana toimiviksi muuttujiksi valittiin keski-ikä, mediaanitulo, asumisväljyys, työllisyysaste, ylemmän korkeakoulututkinnon (maisteri, tohtori tai ylempi korkeakoulututkinto) osuus kaikista koulutuksen saaneista, lapsiperheiden osuus kaikista talouksista, hyvätuloisten eli ylimpään tulokvintiilien kuuluvien osuus asukkaista, vuokralla asuvien osuus kaikista talouksista ja alkutuotannon sekä jalostuksen osuudet kaikista työpaikoista.




Aluksi k-means clustering. Aloitetaan tarkastelu määrittelemällä kuinka suuren osan varianssista tietty klusterien määrä selittää. Tämä on raaka tapa tutkia eri klusterimäärien sopivuutta aineistoon. Nyrkkisääntönä voi pitää kuvion tasaantumista. Kuvion jollain tasolla ehdottavan kolmen klusterin lisäksi kokeilin lisäksi neljän ja viiden klusterin malleja, mutta ne eivät lisänneet varsinaisesti informaatiota.

Tässä seuraa kolmen klusterin centroidit eli arkkityypit hieman pyöristettynä:

Klusteri 1: Keski-ikä 47, mediaanitulo 16 000, asumisväljyys 45 m^2, työllisyysaste 36 %, ylemmän korkeakoulututkinnon suorittaineiden osuus 4,7 %, lapsiperheiden osuus talouksista 18, % ylimpään tulokvintiiliin kuuluvien osuus 9,9 %, vuokralla asuvien talouksien osuus 14 %, , alkutuotannon työpaikkojen osuus työpaikoista 35 %, jalostuksen työpaikkojen osuus työpaikoista 23 %.

Klusteri 2: Keski-ikä 43, mediaanitulo 20 000, asumisväljyys 43 m^2, työllisyysaste 42 %, ylemmän korkeakoulututkinnon suorittaineiden osuus 7,8 %, lapsiperheiden osuus talouksista 24, % ylimpään tulokvintiiliin kuuluvien osuus 14 %, vuokralla asuvien talouksien osuus 17 %, , alkutuotannon työpaikkojen osuus työpaikoista 19 %, jalostuksen työpaikkojen osuus työpaikoista 27 %.

Klusteri 3: Keski-ikä 38, mediaanitulo 24 000, asumisväljyys 41 m^2, työllisyysaste 48 %, ylemmän korkeakoulututkinnon suorittaineiden osuus 14,8 %, lapsiperheiden osuus talouksista 33, % ylimpään tulokvintiiliin kuuluvien osuus 21,5 %, vuokralla asuvien talouksien osuus 17 %, , alkutuotannon työpaikkojen osuus työpaikoista 6,7 %, jalostuksen työpaikkojen osuus työpaikoista 25 %.

Klustereiden määrän voisi vähentää jopa kahteen, sillä siinä määrin selkeät mallit ovat havaittavissa. Toisaalta on korkean keski-iän ja alhaiset mediaanitulon maatalouseroalueet, joissa perheet asuvat tilavasti ja asuntonsa omistaen. Sitten on korkean mediaanitulon korkeasti koulutetut ja paremmin työllistetyt postinumeroalueet, joissa asutaan ahtaammin ja enemmän vuokralla, mutta alkutuotannon osuus on pienempi ja lapsiperheiden osuus suurempi.Valitut muuttujat näyttävät korreloivan varsin vahvan lineaarisesti toistensa kanssa, jolloin mitään mielenkiintoisempia ryhmittelyjö ei pääse syntymään.

(yllä korrelaatiomatriisi, jossa isommat pallot ja tummemmat värit kertovat vahvemmasta korrelaatiosta)

Seuraavaksi käytetään hierarkista klusterianalyysiää rajatumpaan aineistoon, joka tässä tapauksessa on Oulun nelisenkymmentä postinumeroaluetta. Alla dendrogrammi Oulun postinumeroalueista:



Ensinnäkin havaitaan, että hiljattain Ouluun liittyneet ympärysalueet (Jääli, Oulunsalo, Kiiminki) ja muuten kauempana Oulun keskustasta olevat alueet (Pateniemi)  koostavat yhden isomman ala-osastoihin jakautuvan klusterin. Toinen pääklusteri jakaantuu kahteen isompaan alaklusteriin, joilla on lisäksi omat alaklusterinsa. Toiseen näistä isommista alaklustereista kuuluu Oulun ydinkeskusta-alueeseen laskettavat Oulu Keskus, Tuira sekä Heinäpää. Tämän lisäksi klusteriin kuuluu esimerkiksi Kaukovainio ja Välivainio.  Kolmas isompi klusteri koostuu sekalaisemmasa seurakunnasta hiljattain liittyneitä ympärysalueita (Kello, Haukiputaan keskus) ja enemmän ydin-Ouluun kuuluvista alueista (Raksila, Koskela, Äimärautio)

Kirjoitushetkellä Suomessa puhutaan paljon vastakkainasettelusta. Hallituksen leikkaukset ovat saaneet palkansaajajärjestöt sotajalalle ja valmistelemaan suurlakkoa, toisaalta pakolaiskeskustelukin on jakaantunut kahteen leiriin ja eräät ihmiset lopettavat jo urheilujoukkueen "kannattamisenkin" pakolaismyönteisten ulostulojen vuoksi. Teemaan sopii siis huomata Suomen olevan karkeasti katsottuna kahden erilaisen asuinympäristön maa, ainakin tarkasteltujen muuttujien valossa.

Kyllä tilastoihmisenä on oltava tyytyväinen, että asiat jakaantuvat mukavasti erilaisiin luokkiin. Tekee maailman hahmottamisesta helpompaa. Toisaalta se yhteiskuntatieteilijäpuoli minussa ei ole asiasta yhtä innoissaan.

Ei kommentteja:

Lähetä kommentti