sunnuntai 18. joulukuuta 2016

Voimaannutan kansalaisdatatietelijöitä vai olen laiska? - Shiny

Blogin kirjoittamisen epämiellyttävin osuus on, no, kirjoittaminen. Älkää käsittäkö väärin, ei se epämiellyttävää ole. Minulla ei ole koskaan ollut kauheaa luomisen tuskaa kirjoittamisen yhteydessä tai tyhjän paperin pelkoa.

Se ei vain usein ole niin hauskaa kuin itse datan kanssa näpräily. Kun itse on kertaalleen saanut hauskan näpräilyn jälkeen datasta enemmän tai vähemmän innostavia oivalluksia, on niistä kaikelle kansalle kirjoittamisen hauskuus suoraan verrannollinen löydösten kiinnostavuuteen. Ja aina sen hauskuus jää jälkeen varsinaisen data-analyysin tekemisestä.

Miten siis optimoida hauskan koodinäpräilyn ja enemmän tai vähemmän miellyttävän kirjoittamisprosessin suhde? Vastaus on yksinkertainen.

Shiny.

Shiny on R:n kirjasto, jolla voi kirjoittaa erilaisia interaktiivisia applikaatioita. Sovelluksen voi jakaa kaikkien käyttöön erilaisten palvelimien kautta. Tällöin jokainen sovellusta käyttävä voi itse tutkia dataa osaamatta itse sen kummemmin koodata tai tuntematta tilastotiedettä, sovelluksen asettamien reunaehtojen puitteissa.

Koska kansalaisdatatieteilijöiden nousu on tällä hetkellä yksi data-alan isoista trendeistä, on vain soveliasta, että minäkin tarjoan lukijoille välineet tehdä löytöjä sen sijaan, että tekisin löydöt lukijoiden puolesta.

Siispä, saanen esitellä ensimmäisen Shiny-applikaationi!

Applikaatio  käyttää hyväkseen Tilastokeskuksen tarjoamaan Paavo-rajapintaa, joka sisältää postinumeroalueittaista avointa dataa. Paavoa käytettiin vanhassa blogipostauksessani hyödyksi, mikä onkin Shiny-sovellukseni idean pohjana. Sovelluksessa voidaan tutkia halutun kunnan postinumeroalueita kahden muuttujan perusteella (yhteensä valittavana 13 muuttujaa). Applikaatio piirtää sirontakuvion, jossa havainnot väritetään kahteen tai useampaan väriin taustalla pyörivän k-means klusterointialgoritmin perusteella. Paavon data on vuodelta 2014, lukuunottamatta rakennustietoja (mökkien lukumäärä ja keskimääräinen asunnon pinta-ala) ja väestötietoja (keski-ikä ja asukasmäärä)

Ja ei muuta kuin tutkimaan! Ideoita uusista Shiny-applikaatioista saa lähettää, toteutan niitä osaamisen ja käytettävisen olevissa ajan mukaan.

Perinteisempien blogi-postauksien ystävien ei kuitenkaan tarvitse huolestua. Aion myös jatkossa kirjoittaa perinteisempien data-kikkailujeni tuloksia auki.

Otsikon kysymykseen muuten vielä oikea vastaus: ei kumpikaan, shiny-appsit ovat vaan pirun siistejä!

Ei kommentteja:

Lähetä kommentti