sunnuntai 18. joulukuuta 2016

Voimaannutan kansalaisdatatietelijöitä vai olen laiska? - Shiny

Blogin kirjoittamisen epämiellyttävin osuus on, no, kirjoittaminen. Älkää käsittäkö väärin, ei se epämiellyttävää ole. Minulla ei ole koskaan ollut kauheaa luomisen tuskaa kirjoittamisen yhteydessä tai tyhjän paperin pelkoa.

Se ei vain usein ole niin hauskaa kuin itse datan kanssa näpräily. Kun itse on kertaalleen saanut hauskan näpräilyn jälkeen datasta enemmän tai vähemmän innostavia oivalluksia, on niistä kaikelle kansalle kirjoittamisen hauskuus suoraan verrannollinen löydösten kiinnostavuuteen. Ja aina sen hauskuus jää jälkeen varsinaisen data-analyysin tekemisestä.

Miten siis optimoida hauskan koodinäpräilyn ja enemmän tai vähemmän miellyttävän kirjoittamisprosessin suhde? Vastaus on yksinkertainen.

Shiny.

Shiny on R:n kirjasto, jolla voi kirjoittaa erilaisia interaktiivisia applikaatioita. Sovelluksen voi jakaa kaikkien käyttöön erilaisten palvelimien kautta. Tällöin jokainen sovellusta käyttävä voi itse tutkia dataa osaamatta itse sen kummemmin koodata tai tuntematta tilastotiedettä, sovelluksen asettamien reunaehtojen puitteissa.

Koska kansalaisdatatieteilijöiden nousu on tällä hetkellä yksi data-alan isoista trendeistä, on vain soveliasta, että minäkin tarjoan lukijoille välineet tehdä löytöjä sen sijaan, että tekisin löydöt lukijoiden puolesta.

Siispä, saanen esitellä ensimmäisen Shiny-applikaationi!

Applikaatio  käyttää hyväkseen Tilastokeskuksen tarjoamaan Paavo-rajapintaa, joka sisältää postinumeroalueittaista avointa dataa. Paavoa käytettiin vanhassa blogipostauksessani hyödyksi, mikä onkin Shiny-sovellukseni idean pohjana. Sovelluksessa voidaan tutkia halutun kunnan postinumeroalueita kahden muuttujan perusteella (yhteensä valittavana 13 muuttujaa). Applikaatio piirtää sirontakuvion, jossa havainnot väritetään kahteen tai useampaan väriin taustalla pyörivän k-means klusterointialgoritmin perusteella. Paavon data on vuodelta 2014, lukuunottamatta rakennustietoja (mökkien lukumäärä ja keskimääräinen asunnon pinta-ala) ja väestötietoja (keski-ikä ja asukasmäärä)

Ja ei muuta kuin tutkimaan! Ideoita uusista Shiny-applikaatioista saa lähettää, toteutan niitä osaamisen ja käytettävisen olevissa ajan mukaan.

Perinteisempien blogi-postauksien ystävien ei kuitenkaan tarvitse huolestua. Aion myös jatkossa kirjoittaa perinteisempien data-kikkailujeni tuloksia auki.

Otsikon kysymykseen muuten vielä oikea vastaus: ei kumpikaan, shiny-appsit ovat vaan pirun siistejä!

lauantai 17. joulukuuta 2016

Paljon liikuntaa, huono terveydentila ja viinaa - eurooppalainen kansanterveys eurooppalaisten kertomana

Suomalaiset ovat yleisen stereotypian mukaan kovia juomaan ja tottahan se on, ainakin jos uskomme suomalaisia itseään ja muita eurooppalaisia. Ja miksi emme uskoisi?

 Aivan Euroopan kovimpia ryyppymiehiä ei täällä kuitenkaan olla; Tanskan huolettomat hyggeilijät vievät voiton myös tällä mittarilla mitattuna.  Maailman onnellisimpien on helppo avata viinipullo. Mittarina alla olevassa kartassa käytetään vähintään kerran kuukaudessa kovaan humalaan ("heavy episodic drinking" käyttäen Eurostatin virallista termistöä) itsensä juovien osuutta.


 Vähintään kerran kuukaudessa itsensä kovaan humalaan juovien osuus populaatiosta

Vaikka Suomen tuleva alkoholilainsäädännön uudistus nostaa taas kerran suomalaisen alkoholipolitiikan ja juomiskulttuurin esille, niin itsessään kuin suhteessa ympäröivään maailmaan, niin tässä postauksessa ei aiheesta enempää jutella.Varsinaista terveystieteellistä data-analyysiäkään ei harrasteta. Sen sijaan tässä käsitellään EU-valtioiden terveysprofiileja näiden maiden kansalaisten itse ilmoittaman tiedon perusteella. Miten erilaiset terveysindikaattorit korreloivat keskenään mitattuna valtiotasolla? Ja mitkä valtiot muistuttavat eniten toisiaan terveysprofiililtaan?

Aineistona käytetään Eurostatin lukuja vuodelta 2014. Aineiston lopullinen koko on valitettavasti vain 24 maata, sillä kaikista EU-maista ei dataa ole saatavilla. Valittuina muuttujina on jo mainittu vähintään kerran kuukaudessa kovempaa juomista harrastavien osuus, ylipainoisten (BMI > 25) osuus, melko tai hyvin masentuneiksi itsensä kokevien osuus, 5 tai enemmän hedelmä ja/tai vihannesannosta päivässä syövien osuus, päivittäin tupakoivien osuus, hyväksi tai erittäin hyväksi oman terveydentilansa kokevien osuus, vähintään 150 minuuttia viikossa urheilevien osuus sekä pitkäaikaissairaiden osuus. Muistaakseni. Tuhosin vahingossa koodit sen jälkeen kun tein kuvat. Hups. Joka tapauksessa, alla kuvio korrelaatioverkostosta muuttujien kesken.




Selittävien muuttujien korrelaatioverkosto

Valtiotasolla kova alkoholin kulutus on siis vahvasti kytköksissä säännölliseen liikkumiseen ja vähäiseen tupakointiin. Maissa, joissa ihmiset liikkuvat paljon, ihmiset myös kokevat olevansa sairaampia. Ylipainisemmissa maissa ihmiset kokevat olonsa terveemmäksi. Paljon tupakoivissa maissa masennusta on vähemmän. Viskipaukun tai viiden kanssa nautitaan hiukopalaksi virkistävä mandariini.

Kuten näemme, ihmisten terveysaiheisten vastausten aggregointi valtiotasolle ei tuota mikrotasolta odotettavissa olevia riippuvuussuhteita. Sen sijaan aineisto antaa mielenkiintoisen läåpileikkauksen eurooppalaisiin kulttuureihin ja elämäntapoihin.


EU-maat terveysprofiilin verkostograafissa

Yllä nähdään, että miten eri maat ovat linkittyneitä toisiinsa näiden terveysprofiilien perusteella. Mittarina käytetään euklidista etäisyyttä. Suomelle läheisiä ovat siis Tanskan ja Ruotsin kaltaisten pohjoismaiden lisäksi köyhät Romania ja Bulgaria. Myös Puolaan, Kreikkaan (EL), Liettuaan ja Italiaan linkki on verrattain voimakas.

Jos kuviota tulkitsee laajemmin niin näyttää siltä, että EU: sta löytyy terveysprofiililtaan samankaltaisten maiden ydin sekä joukko oman tien kulkijoita, joiden terveysprofiili ei valituilla mittareilla ole hirveän lähellä mitään toista maata. EU: ta ei siis voi terveyskentässä esimerkiksi jakaa selkeisiin pohjoinen/etelä tai itä/länsi-blokkeihin.

Tämä oli vain pintaraapaisu aiheeseen. Olisi mielenkiintoista tutkia, että miten ihmisten kyselytutkimuksissa itseilmoittamat mittarit korreloivat makrotasolla valtioiden mitattavissa oleviin terveysindikaattoreihin (esimerkiksi myyty alkoholin, tupakan ja vihannesten määrä per asukas, sairaspoissaolojen määrä). Jos EU-maiden tulisi unionin tulevaisuuden kannalta lähentyä niin poliittisesti kuin taloudellisesti toisiaan niin ihmisten kannalta oleellisena voitaisiin pitää myös terveydellistä lähentymistä; ja niin, että esimerkiksi ylipainoisten osuus laskisi, ei kasvaisi.