En tiedä huomasiko kukaan lukija, mutta tänään Suomessa lakkoiltiin. Tai osoitettiin mieltä. Ehkä jopa molempia. Miten itse kukainenkin haluaa omasta poliittisesta kuplastaan käsin asiasta puhua. Tuskin tässä tarvitsee enempää asiaa käsitellä. Mennään suoraan asiaan ja haetaan Twitteristä 4000 twiittiä, jotka sisältävät sanon "lakko" sekä 4000 twiittiä sanalla "mielenilmaus".
Twitter-analysoinnista on näköjään tullut tämän blogin ydintoimintaa. Mutta uteliaan ihmisen on vaikea vastustaa sen helppoutta, ajankohtaisuutta ja monipuolisuutta. Jotta asiat pysyvät mielenkiintoisina niin lukijoille kuin kirjoittajallekin niin otamme pari uutta menetelmää käyttöön analyysimme tueksi.
Ensiksi harrastan ns. sentiment analysisia, jonka voinee suomentaa mielipiteiden louhinnaksi tai mielipideanalyysiksi. Tässä käytetty algoritmi on hyvin yksinkertainen; twiitit käännetään Microsoftin käännösohjelman avoimen rajapinnan avulla englanniksi, jonka jälkeen sanoja verrataan Hun ja Liun mielipidesanastoon. Jos twiitissä on enemmän positiivisiksi kuin negatiiviseksi miellettyjä sanoja, luokitellaan se mielipiteeltään positiiviseksi. Ja toisin päin. Jos kumpaankaan sanalistaan ei saada osumia tai niitä on yhtä paljon, on mielipide luokaltaan neutraali. Metodi jättää luonnollisesti paljon kritisoitavaa alkaen suomesta englantiin kääntämisen epätarkkuudesta ja merkitysten muutoksista päättyen sarkasmiin ja sanojen luontaiseen monitulkintaisuuteen. Puhumattakaan siitä, että miten tulkitaan negatiiviseksi luokiteltua twiittiä tapahtumasta, jonka perusvire ei ole kovin positiivinen? Kyllä Wittgenstein kääntyy haudassaan.
Toinen menetelmä keskittyy etsimään erilaisia diskurssityyppejä luokitellen sanoja toisilleen läheisiksi. Eli jos esimerkiksi "ollaan", "lapista, "hallitus", "voi" ja "vapista" esiintyvät jatkuvasti yhdessä eri twiiteissä, luokitellaan ne omaksi ryhmäkseen. Tähän käytetään kahta menetelmää. Toinen perustuu adjacency matrixiin (läheisyysmatriisiin?) ja toinen edellisessä postauksessa esiteltyyn hierarkiseen klusterointiin.
Aloitetaan mielipiteen louhinnalla. Positiivisiksi twiiteiksi luokiteltiin yhteensä 1290 twiittiä, neutraaleiksi 3107 ja negatiivisiksi 3603. Alla niihin liittyvä vertailusanapilvi:
Ensiksi huomataan, että lakko-sanan sisältävät twiitit ovat järjestään negatiivisia. Siellä puhutaan elinkeinoelämästä, velasta, kitisemisestä, maksamisesta ja humalasta. Tästä voitaneen päätellä, että negatiivisiksi luokitellut twiitit ovat lähtökohtaisesti kriittisesti tämän päivän tapahtumaan suhtautuvia.
Positiivisessa sanapilvessä mainitaan Petteri Poukka, hyi. Ja en tiedä mihin liittyy sanat "isot" ja "tissit". Mutta mutta! Positiivissa puhutaan duunareista sekä kätilöistä, mainitaan bussikuljetukset ja tunnelma ja ilmeisesti rauhallisesti meni myös tapahtuma. Oikeudenmukaisuus ja tasapuolisuus kuuluvat myös positiivisiin.
Mielenilmaus oli selkeästi neutraali termi. Toisaalta neutraaleihin on lipsahtanut paljon twiittejä, jotka kannattivat tai vastustivat tämän päivän lakkomielenilmaussuurtapahtumaa. Ainakaan Alkosta ei ole neutraalista puhuttu, tuskin hallituksesta tai ay-liikkeestäkään.
Yhteenvetona voitaneen todeta, että ennakko-odotuksista huolimatta twiittien luokittelualgoritmi teki vähintään välttävää ellei jopa kelvollista työtä.
Yllä olevasta sekavasta kuviosta nähdään, kuinka tietyt sanat esiintyvät yhdessä. Ison massan lisäksi on oikeastaan havaittavissa vain kaksi hieman muista poikkeavaa diskurssia. Yksi on Petteri Poukan Internetiäkin vanhempi mömmöm-95-Jutirillaa-hassuttelu ja toinen ilmeisesti johonkin random-Keskustanuoreen alekoivistoon kiteytyvä aikuiset-kitisee-nuoret-maksaa-velan-leikataan-diskurssi. Hieman enemmän sanoja sisältävässä versiossa miniminin ja iPadin kanssa esiintyi vielä PC-lakko ja Amazon. Mikä sitten on pc-lakko? Pitää varmaan kysyä piraateilta.
Värien mukaan myös muita ryhmittymiä voisi löytyä, mutta tuosta massasta niitä ei voi bongata. Siirrytään siis hierarkiseen klusterointiin.
Omana selkeänä isona klusterina erottuu ensiksikin edellisestäkin kuviosta bongatut Petteri Poukan elämääkin väsyneemmät hakamussuttelut sekä kepunuoridiskurssi. AY-liike esiintyy vähemmän yllättäen "eileikata"-tagin kanssa ja "leikkaukset" esiintyy sanan "vastaan" kanssa. Yle "seuraa" ja "näkyy" palkansaajien yhteydessä, Hesaria kiinnostaa enemmän liikenne ja Helsinki. Ammattiliittopomot Sture Fjäder ja Lauri Lyly esiintyvät ammattiliittojensa Akavan ja SAK:n kanssa yhdessä, SAK huomattavasti lähempänä "eileikata" ja "AY-liike"-tageja. Mutta miten klementiini liittyy yleislakkoon? No olemalla vallaskumousbloggari.
Katsotaan vielä muutaman sanan korrelaatiot. "Eileikata" korreloi voimakkaasti jostain syystä feminismin ja naisunionin kanssa. "Leikkausten" kanssa esiintyy usein "turhaa", "pikkumaista" ja "itkemistä". SAK:n kanssa esiintyy "ulostulon", "lakkopolitiikan" ja "työnuuden" lisäksi "tuhoaa".
Alustava johtopäätös tästä kaikesta on, että twitter-kansa siis näyttää hieman enemmän tuominneen tämänpäiväisen mielenilmauksen kuin tukeneen sitä. Mutta myös ymmärrystä ja kannatusta mielenosoittajille löytyi huomattava määrä. Täytyy toisaalta muistaa laajempia johtopäätöksiä tehdessä, että Twitter ei ole millään tavalla edustava
otos kansasta, vaan siellä on yliedustettuna toimittajat, poliitikon
alut sekä narsistiset social media power playerit.
Keskustelu jatkuu aiheen ympärillä vielä varmasti pitkään ja sosiaalisen median vaikuttajilla tulee näppäimistö laulamaan niin puolesta kuin vastaan, ehkä myös päinvastoin. Kokoomusnuorten tai Vasemmistonuorten diskurssin ennustamista varten ei tarvitse tehdä naiivia bayesilaista luokittelija-algoritmia tai muitakaan malleja, joten ehkä tämä riitti tästä aiheesta.
perjantai 18. syyskuuta 2015
sunnuntai 13. syyskuuta 2015
Suomalaisten asuinympäristöjen tyypittelyä
Kai tilastokeskuslaisen on myös käytettävä Tilastokeskuksen avointa dataa jossain analyysissään hyväksi. Tilastokeskuksen Paavo-palvelua voi ainakin suositella hyvällä omalla tunnolla; se tarjoaa postinumeroalueittain avointa dataa eri aihealueista. Suhteellisen tarkalle tasolle vietynä datana Paavo on erinomainen datalähde suomalaisten asuinlähiöiden tarkempaan tarkasteltuun. Suomeahan ei voi hyvällä tahdollakaan pitää yhtenäisenä, tasa-arvoisena asuinalueena vaan maantieteelliset erot eri kuntien ja kaupunginosien välillä ovat huimia.
Hyödynnettynä nenetelmämä on klusterianalyysi eli suomeksi sanottuna datapisteiden luokittelu eri kategorioihin matemaattisen algoritmin perusteella. Yleisimmin käytetty klusterointimenetelmä on ns. K-means clustering. Siinä lukitaan etukäteen haluttu klusterien eli kategorioiden määrä ja asetetaan satunnaisesti dataan ns. centroidit eli eräänlaiset laskennalliset keskipisteet (yhtä monta kuin k eli haluttu klusterien määrä on). Muut datapisteet luokitellaan klustereihin siten, että ne sijoitetaan etäisyyden (esim. euklidinen etäisyys) perusteella lähimpään centroidiin. Tämän jälkeen centroidit lasketaan uudelleen pyrkien optimoimaan klusterijakoa ja prosessi alkaa uudelleen, kunnes saavutaan lopullisiin klustereihin. Menetelmän huonoja puolia on, että klusterien järkevää määrää on vaikeahko päättää etukäteen ja ensimmäiset klusterikeskustat ovat satunnaisesti päätettyjä, jolloin samalla menetelmällä toistetut klusterijaot voivat poiketa toisistaan useammin toistettuna.
Toinen klusterointimenetelmä on hierarkinen klusterointi. Siinä aloitetaan tilanteesta, jossa kaikki datapisteet ovat yksittäisiä datapisteitä (tai kuuluvat yhteen klusteriin) Tämän jälkeen luodaan eri tasoisia klustereita riippuen datapisteiden läheisyydestä toisiinsa päätyen tilanteeseen, jossa kaikki datapisteet koostuvat yhdestä klusterista (ovat erillisiä datapisteitä). Tässä blogipostauksessa hyödynnetään molempia menetelmiä. Klusteroinnista voi lukea tarkemmin esimerkiksi täältä.
Mutta ensin muutama sana käytetystä datasta. Tilastokeskuksen Paavo-palvelu siis tarjoaa postinumeroalueittaista avointa dataa monilta eri yhteiskunnallisilta osa-alueilta. Tässä analyysissä klusteroinnin pohjana toimiviksi muuttujiksi valittiin keski-ikä, mediaanitulo, asumisväljyys, työllisyysaste, ylemmän korkeakoulututkinnon (maisteri, tohtori tai ylempi korkeakoulututkinto) osuus kaikista koulutuksen saaneista, lapsiperheiden osuus kaikista talouksista, hyvätuloisten eli ylimpään tulokvintiilien kuuluvien osuus asukkaista, vuokralla asuvien osuus kaikista talouksista ja alkutuotannon sekä jalostuksen osuudet kaikista työpaikoista.
Aluksi k-means clustering. Aloitetaan tarkastelu määrittelemällä kuinka suuren osan varianssista tietty klusterien määrä selittää. Tämä on raaka tapa tutkia eri klusterimäärien sopivuutta aineistoon. Nyrkkisääntönä voi pitää kuvion tasaantumista. Kuvion jollain tasolla ehdottavan kolmen klusterin lisäksi kokeilin lisäksi neljän ja viiden klusterin malleja, mutta ne eivät lisänneet varsinaisesti informaatiota.
Tässä seuraa kolmen klusterin centroidit eli arkkityypit hieman pyöristettynä:
Klustereiden määrän voisi vähentää jopa kahteen, sillä siinä määrin selkeät mallit ovat havaittavissa. Toisaalta on korkean keski-iän ja alhaiset mediaanitulon maatalouseroalueet, joissa perheet asuvat tilavasti ja asuntonsa omistaen. Sitten on korkean mediaanitulon korkeasti koulutetut ja paremmin työllistetyt postinumeroalueet, joissa asutaan ahtaammin ja enemmän vuokralla, mutta alkutuotannon osuus on pienempi ja lapsiperheiden osuus suurempi.Valitut muuttujat näyttävät korreloivan varsin vahvan lineaarisesti toistensa kanssa, jolloin mitään mielenkiintoisempia ryhmittelyjö ei pääse syntymään.
(yllä korrelaatiomatriisi, jossa isommat pallot ja tummemmat värit kertovat vahvemmasta korrelaatiosta)
Seuraavaksi käytetään hierarkista klusterianalyysiää rajatumpaan aineistoon, joka tässä tapauksessa on Oulun nelisenkymmentä postinumeroaluetta. Alla dendrogrammi Oulun postinumeroalueista:
Ensinnäkin havaitaan, että hiljattain Ouluun liittyneet ympärysalueet (Jääli, Oulunsalo, Kiiminki) ja muuten kauempana Oulun keskustasta olevat alueet (Pateniemi) koostavat yhden isomman ala-osastoihin jakautuvan klusterin. Toinen pääklusteri jakaantuu kahteen isompaan alaklusteriin, joilla on lisäksi omat alaklusterinsa. Toiseen näistä isommista alaklustereista kuuluu Oulun ydinkeskusta-alueeseen laskettavat Oulu Keskus, Tuira sekä Heinäpää. Tämän lisäksi klusteriin kuuluu esimerkiksi Kaukovainio ja Välivainio. Kolmas isompi klusteri koostuu sekalaisemmasa seurakunnasta hiljattain liittyneitä ympärysalueita (Kello, Haukiputaan keskus) ja enemmän ydin-Ouluun kuuluvista alueista (Raksila, Koskela, Äimärautio)
Kirjoitushetkellä Suomessa puhutaan paljon vastakkainasettelusta. Hallituksen leikkaukset ovat saaneet palkansaajajärjestöt sotajalalle ja valmistelemaan suurlakkoa, toisaalta pakolaiskeskustelukin on jakaantunut kahteen leiriin ja eräät ihmiset lopettavat jo urheilujoukkueen "kannattamisenkin" pakolaismyönteisten ulostulojen vuoksi. Teemaan sopii siis huomata Suomen olevan karkeasti katsottuna kahden erilaisen asuinympäristön maa, ainakin tarkasteltujen muuttujien valossa.
Kyllä tilastoihmisenä on oltava tyytyväinen, että asiat jakaantuvat mukavasti erilaisiin luokkiin. Tekee maailman hahmottamisesta helpompaa. Toisaalta se yhteiskuntatieteilijäpuoli minussa ei ole asiasta yhtä innoissaan.
Hyödynnettynä nenetelmämä on klusterianalyysi eli suomeksi sanottuna datapisteiden luokittelu eri kategorioihin matemaattisen algoritmin perusteella. Yleisimmin käytetty klusterointimenetelmä on ns. K-means clustering. Siinä lukitaan etukäteen haluttu klusterien eli kategorioiden määrä ja asetetaan satunnaisesti dataan ns. centroidit eli eräänlaiset laskennalliset keskipisteet (yhtä monta kuin k eli haluttu klusterien määrä on). Muut datapisteet luokitellaan klustereihin siten, että ne sijoitetaan etäisyyden (esim. euklidinen etäisyys) perusteella lähimpään centroidiin. Tämän jälkeen centroidit lasketaan uudelleen pyrkien optimoimaan klusterijakoa ja prosessi alkaa uudelleen, kunnes saavutaan lopullisiin klustereihin. Menetelmän huonoja puolia on, että klusterien järkevää määrää on vaikeahko päättää etukäteen ja ensimmäiset klusterikeskustat ovat satunnaisesti päätettyjä, jolloin samalla menetelmällä toistetut klusterijaot voivat poiketa toisistaan useammin toistettuna.
Toinen klusterointimenetelmä on hierarkinen klusterointi. Siinä aloitetaan tilanteesta, jossa kaikki datapisteet ovat yksittäisiä datapisteitä (tai kuuluvat yhteen klusteriin) Tämän jälkeen luodaan eri tasoisia klustereita riippuen datapisteiden läheisyydestä toisiinsa päätyen tilanteeseen, jossa kaikki datapisteet koostuvat yhdestä klusterista (ovat erillisiä datapisteitä). Tässä blogipostauksessa hyödynnetään molempia menetelmiä. Klusteroinnista voi lukea tarkemmin esimerkiksi täältä.
Mutta ensin muutama sana käytetystä datasta. Tilastokeskuksen Paavo-palvelu siis tarjoaa postinumeroalueittaista avointa dataa monilta eri yhteiskunnallisilta osa-alueilta. Tässä analyysissä klusteroinnin pohjana toimiviksi muuttujiksi valittiin keski-ikä, mediaanitulo, asumisväljyys, työllisyysaste, ylemmän korkeakoulututkinnon (maisteri, tohtori tai ylempi korkeakoulututkinto) osuus kaikista koulutuksen saaneista, lapsiperheiden osuus kaikista talouksista, hyvätuloisten eli ylimpään tulokvintiilien kuuluvien osuus asukkaista, vuokralla asuvien osuus kaikista talouksista ja alkutuotannon sekä jalostuksen osuudet kaikista työpaikoista.
Aluksi k-means clustering. Aloitetaan tarkastelu määrittelemällä kuinka suuren osan varianssista tietty klusterien määrä selittää. Tämä on raaka tapa tutkia eri klusterimäärien sopivuutta aineistoon. Nyrkkisääntönä voi pitää kuvion tasaantumista. Kuvion jollain tasolla ehdottavan kolmen klusterin lisäksi kokeilin lisäksi neljän ja viiden klusterin malleja, mutta ne eivät lisänneet varsinaisesti informaatiota.
Tässä seuraa kolmen klusterin centroidit eli arkkityypit hieman pyöristettynä:
Klusteri 1: Keski-ikä 47, mediaanitulo 16 000, asumisväljyys 45 m^2, työllisyysaste 36 %, ylemmän korkeakoulututkinnon suorittaineiden osuus 4,7 %, lapsiperheiden osuus talouksista 18, % ylimpään tulokvintiiliin kuuluvien osuus 9,9 %, vuokralla asuvien talouksien osuus 14 %, , alkutuotannon työpaikkojen osuus työpaikoista 35 %, jalostuksen työpaikkojen osuus työpaikoista 23 %.
Klusteri 2: Keski-ikä 43, mediaanitulo 20 000, asumisväljyys 43 m^2, työllisyysaste 42 %, ylemmän korkeakoulututkinnon suorittaineiden osuus 7,8 %, lapsiperheiden osuus talouksista 24, % ylimpään tulokvintiiliin kuuluvien osuus 14 %, vuokralla asuvien talouksien osuus 17 %, , alkutuotannon työpaikkojen osuus työpaikoista 19 %, jalostuksen työpaikkojen osuus työpaikoista 27 %.
Klusteri 3: Keski-ikä 38, mediaanitulo 24 000, asumisväljyys 41 m^2, työllisyysaste 48 %, ylemmän korkeakoulututkinnon suorittaineiden osuus 14,8 %, lapsiperheiden osuus talouksista 33, % ylimpään tulokvintiiliin kuuluvien osuus 21,5 %, vuokralla asuvien talouksien osuus 17 %, , alkutuotannon työpaikkojen osuus työpaikoista 6,7 %, jalostuksen työpaikkojen osuus työpaikoista 25 %.
Klustereiden määrän voisi vähentää jopa kahteen, sillä siinä määrin selkeät mallit ovat havaittavissa. Toisaalta on korkean keski-iän ja alhaiset mediaanitulon maatalouseroalueet, joissa perheet asuvat tilavasti ja asuntonsa omistaen. Sitten on korkean mediaanitulon korkeasti koulutetut ja paremmin työllistetyt postinumeroalueet, joissa asutaan ahtaammin ja enemmän vuokralla, mutta alkutuotannon osuus on pienempi ja lapsiperheiden osuus suurempi.Valitut muuttujat näyttävät korreloivan varsin vahvan lineaarisesti toistensa kanssa, jolloin mitään mielenkiintoisempia ryhmittelyjö ei pääse syntymään.
(yllä korrelaatiomatriisi, jossa isommat pallot ja tummemmat värit kertovat vahvemmasta korrelaatiosta)
Seuraavaksi käytetään hierarkista klusterianalyysiää rajatumpaan aineistoon, joka tässä tapauksessa on Oulun nelisenkymmentä postinumeroaluetta. Alla dendrogrammi Oulun postinumeroalueista:
Ensinnäkin havaitaan, että hiljattain Ouluun liittyneet ympärysalueet (Jääli, Oulunsalo, Kiiminki) ja muuten kauempana Oulun keskustasta olevat alueet (Pateniemi) koostavat yhden isomman ala-osastoihin jakautuvan klusterin. Toinen pääklusteri jakaantuu kahteen isompaan alaklusteriin, joilla on lisäksi omat alaklusterinsa. Toiseen näistä isommista alaklustereista kuuluu Oulun ydinkeskusta-alueeseen laskettavat Oulu Keskus, Tuira sekä Heinäpää. Tämän lisäksi klusteriin kuuluu esimerkiksi Kaukovainio ja Välivainio. Kolmas isompi klusteri koostuu sekalaisemmasa seurakunnasta hiljattain liittyneitä ympärysalueita (Kello, Haukiputaan keskus) ja enemmän ydin-Ouluun kuuluvista alueista (Raksila, Koskela, Äimärautio)
Kirjoitushetkellä Suomessa puhutaan paljon vastakkainasettelusta. Hallituksen leikkaukset ovat saaneet palkansaajajärjestöt sotajalalle ja valmistelemaan suurlakkoa, toisaalta pakolaiskeskustelukin on jakaantunut kahteen leiriin ja eräät ihmiset lopettavat jo urheilujoukkueen "kannattamisenkin" pakolaismyönteisten ulostulojen vuoksi. Teemaan sopii siis huomata Suomen olevan karkeasti katsottuna kahden erilaisen asuinympäristön maa, ainakin tarkasteltujen muuttujien valossa.
Kyllä tilastoihmisenä on oltava tyytyväinen, että asiat jakaantuvat mukavasti erilaisiin luokkiin. Tekee maailman hahmottamisesta helpompaa. Toisaalta se yhteiskuntatieteilijäpuoli minussa ei ole asiasta yhtä innoissaan.
sunnuntai 6. syyskuuta 2015
Monnin kalastelua Twitteristä: sunnuntaihupailuna tapaus Valavuori
Sunnuntai-illan ratoksi irrottaudutaan blogin tähän asti punaisena lankana toimineesta yhteiskuntapoliittisesta teemasta ja siirrytään hetkeksi urheilun, sosiaalisen median ja betsauksen maailmaan. Aleksi Valavuori on omien sanojensa mukaan suomalainen Sports Agent, TV Host, Media Power Player ja Gambler, joka tunnetaan Teemu Selänteen virallisena ystävänä, Bisons Loimaan epävirallisessa asemassa olevana taustahenkilönä, lyhytaikaisena Jarkko Niemisen agenttina sekä hyvää tekevänä Kummisetänä. Lisäksi tässä blogipostauksessa tutkitaan Aleksin veljen Joonas Valavuoren sekä Teemu Selänteen twitter-käyttäytymistä.
Aikaisemmassa viestissä olen jo kertonut hieman Twitterin avoimesta rajapinnasta ja hyödyntänyt sieltä louhittua dataa. Kerrotaan kuitenkin erikseen muutama sana kuvioista.
Sanapilvissä esiintyviä sanoja ei ole rajattu mitenkään. Aleksilta näytetään henkilöt joille hän twiittaa sekä ne twiittisuhteet, joille Aleksi on twiitannut kerran ja Aleksille on myös vastattu (jos näissä suhteissa nuoli menee kahden muun henkilön kuin Aleksin välille niin samassa twiitissä on vastattu myös Aleksille. Twitterin avoimesta rajapinnasta "reply to" voi saada vain yhden arvon, vaikka twiitti olisi vastaus useammalle henkilölle.)
Teemun ja Joonaksen kohdalla näytetään vain kenelle he ovat twiitanneet. Kaikilta näytetään kuvio twiittien tekoajasta tunneittain.
Sunnuntai-illan mukahassuttelupostauksena tällä kertaa en jaksa sen kummemmin kirjoittaa mitään auki vaan annan kuvioiden puhua puolestaan ja jätän tulkinnat lukijoille.
Aleksi Valavuoren twiittien sisällöstä tehty sanapilvi
Joonas Valavuoren twiittien sisällöstä tehty sanapilvi
Teemu Selänteen twiittien sisällöstä tehty sanapilvi
Aleksi Valavuoren twiittien kirjoitusaika tunneittain
Joonas Valavuoren twiittien kirjoitusaika tunneittain
Teemu Selänteen twiittien kirjoitusaika tunneittain
Henkilöt, joille Aleksi Valavuori on twiitannut
Aleksi Valavuoren twitter-verkosto: henkilöt, jotka ovat twiitanneet Aleksi Valavuorelle ja joille Aleksi on twiitannt vähintään kerran
Henkilöt, joille Joonas Valavuori on twiitannut
Henkilöt, joille Teemu Selänne on twiitannut
Aleksi Valavuoren aineisto koostuu 513 twiitistä. Lisäksi löytyi 628 twiittiä, joissa esiintyy sana "@valavuori", joista suuri osa on vastauksia hänelle.
Joonas Valavuoren aineisto koostuu 664 twiitistä.
Teemu Selänteen aineisto koostuu 114 twiitistä.
Aikaisemmassa viestissä olen jo kertonut hieman Twitterin avoimesta rajapinnasta ja hyödyntänyt sieltä louhittua dataa. Kerrotaan kuitenkin erikseen muutama sana kuvioista.
Sanapilvissä esiintyviä sanoja ei ole rajattu mitenkään. Aleksilta näytetään henkilöt joille hän twiittaa sekä ne twiittisuhteet, joille Aleksi on twiitannut kerran ja Aleksille on myös vastattu (jos näissä suhteissa nuoli menee kahden muun henkilön kuin Aleksin välille niin samassa twiitissä on vastattu myös Aleksille. Twitterin avoimesta rajapinnasta "reply to" voi saada vain yhden arvon, vaikka twiitti olisi vastaus useammalle henkilölle.)
Teemun ja Joonaksen kohdalla näytetään vain kenelle he ovat twiitanneet. Kaikilta näytetään kuvio twiittien tekoajasta tunneittain.
Sunnuntai-illan mukahassuttelupostauksena tällä kertaa en jaksa sen kummemmin kirjoittaa mitään auki vaan annan kuvioiden puhua puolestaan ja jätän tulkinnat lukijoille.
Aleksi Valavuoren twiittien sisällöstä tehty sanapilvi
Joonas Valavuoren twiittien sisällöstä tehty sanapilvi
Teemu Selänteen twiittien sisällöstä tehty sanapilvi
Aleksi Valavuoren twiittien kirjoitusaika tunneittain
Joonas Valavuoren twiittien kirjoitusaika tunneittain
Teemu Selänteen twiittien kirjoitusaika tunneittain
Henkilöt, joille Aleksi Valavuori on twiitannut
Aleksi Valavuoren twitter-verkosto: henkilöt, jotka ovat twiitanneet Aleksi Valavuorelle ja joille Aleksi on twiitannt vähintään kerran
Henkilöt, joille Joonas Valavuori on twiitannut
Henkilöt, joille Teemu Selänne on twiitannut
Aleksi Valavuoren aineisto koostuu 513 twiitistä. Lisäksi löytyi 628 twiittiä, joissa esiintyy sana "@valavuori", joista suuri osa on vastauksia hänelle.
Joonas Valavuoren aineisto koostuu 664 twiitistä.
Teemu Selänteen aineisto koostuu 114 twiitistä.
lauantai 5. syyskuuta 2015
Tiina Vihreä, Seppo Sosialidemokraatti ja Juha Perussuomalainen: FB-louhintaa puolueiden tykkääjistä
Jo aikaisemmassa postauksessani puhuin sosiaalisen mediasta ja sen merkityksestä niin yhteiskunnalle kuin data-analyysille. Nyt on aika palata teemaan sosiaalisen median suurimman ja kauneimman (kauheimman?) eli Facebookin merkeissä. Facebook tarjoaa Twitterin tapaan avoimen rajapinnan, mutta valitettavasti Facebookin avoimen rajapinnan tarjoama data on nykyään valitettavan rajattua. Tästä huolimatta Facebookin louhinta ilman laajoja oikeuksiakin tarjoaa paljon mielenkiintoisia mahdollisuuksia.
Ja mielestäni juuri nyt sosiaalisen median louhinta on ajankohtaisempaa kuin koskaan. Kuten viime aikoina on paljon puhuttu, suomalainen yhteiskunta ja keskustelukultttuuri on tällä hetkellä hieman tulehtuneessa tilassa ja varsinkin pakolaiskriisin seurauksena ja tiimoilla (some)keskustelu on kärkästä. Tämän seurauksena jopa eräät uutismediatkin ovat menneet ja sulkeneet kommenttiosioitaan nettisivuiltaan.
Valitettavasti suomalainen yhteiskuntatiede ei mielestäni ole tarpeeksi tarttunut somen tutkimiseen. Varsinkin politiikan tutkimuksessa sosiaalista mediaa voisi käyttää tutkimusten aineistona paljon nykyistä useammin ja monipuolisemmin. Perinteinen media rakastaa raportoida "annoin mummolle 50 senttiä"-sankaritarinoista ja ottaa Twitter-hashtagit osaksi jokaikistä keskusteluohjelmaa. Syvällisemmin sosiaalista mediaa hyödyntävät uutisjutut ovat kuitenkin harvinaisempia, mutta eivät onneksi olemattomia. (esim. tämä juttu on ihan näppärä)
Tällä kertaa en kuitenkaan tahdo mennä analysoimaan turvapaikanhakijoista käytävää keskustelua tai mitään muutakaan ahdistavaa vaan ensimmäisen FB-louhintani aihe on kepeämpi. Inspiraationa toimi Naisasialiitto Unionin tilasto siitä, että suomalaista pörssiyhtiötä johtaa useammin Juha kuin nainen. Facebookin rajapinta ei käyttäjistä juuri tarjoa muuta infoa kuin nimen, joten teen nyt saman tempun ja teen yhteiskunnallisia päätelmiä etunimen pohjalta. Seuraavana sanapilviä Facebookissa eri puolueiden viesteistä tykänneiden etunimistä.
Metodista lyhyesti: haen Facebookin avoimen rajapinnan kautta puolueen omalla Facebook-sivulla julkaisemat viestit (rajapinta rajoittaa palautetut viestit sataan eli aineistona on puolueen 100 viimeistä viestiä). Simppelillä luupilla voin hakea rajapinnasta jokaisen yksittäisen viestin tarkemmat tiedot ja kaivaa niistä esiin tykkääjien nimet. Tämän jälkeen poistan duplikaatit eli jäljelle jää uniikit nimet (Matti Meikäläinen esiintyy vain kerran vaikka olisikin tykännyt jokaisesta Piraattipuolueen julkaisemasta viestistä. Toki virhe tapahtuu jos on olemassa kaksi eri Matti Meikäläistä. Tämän olisi voinut kiertää kikkailemalla käyttäjäID:n kanssa, mutta jätin sen nyt tekemättä, kokien ongelman olevan sen verran merkityksetön ja harvinainen).
Tämän jälkeen poistan sukunimen ja teen sanapilven 150 useimmin esiintyvästä nimestä. (onneksi viime kerralla tein päätöspuita niin olen todistanut osaavani tehdä muutakin kuin sanapilviä. Nyt kuitenkin lisäbonuksena värit!). Puolueina ovat kaikki eduskuntapuolueet sekä eduskunnan ulkopuolisista jonkinlaiset aktiiviset Facebook-sivut omistavat Itsenäisyyspuolue ja Piraattipuolue.
Ja tässä sanapilvet sekä pientä informaatiota tykkääjien ja tykkäysten määrästä:
Vihreät: tykkääjiä 6971, tykkäyksiä yhteensä 20171, tykkäyksiä per tykkääjä keskimäärin 2,89
Perussuomalaiset: tykkääjiä 6120, tykkäyksiä yhteensä 25016, tykkäyksiä per tykkääjä keskimäärin 4,09
Kokoomus: tykkääjiä 5529, tykkäyksiä yhteensä 21367, tykkäyksiä per tykkääjä keskimäärin 3,86
SDP: tykkääjiä 3864, tykkäyksiä yhteensä 16401, tykkäyksiä per tykkääjä keskimäärin 4,24
Keskusta: tykkääjiä 6629, tykkäyksiä yhteensä 34605, tykkäyksiä per tykkääjä keskimäärin 5,22
Vasemmistoliitto: tykkääjiä 3851, tykkäyksiä yhteensä 13726, tykkäyksiä per tykkääjä keskimäärin 3,56
Kristillisdemokraatit: tykkääjiä 882, tykkäyksiä yhteensä 3505, tykkäyksiä per tykkääjä keskimäärin 3,97
RKP: tykkääjiä 3736, tykkäyksiä yhteensä 13824, tykkäyksiä per tykkääjä keskimäärin 3,70
Piraattipuolue: tykkääjiä 2034, tykkäyksiä yhteensä 7579, tykkäyksiä per tykkääjä keskimäärin 3,72
Vihreät on siis vahvasti naisten suosiossa. Nimet viittaavat myös hieman nuorempaan kaartiin. Sivuilla on paljon tykkääjiä, mutta yksi ihminen tykkää keskimäärin vain vajaasta kolmesta viestistä per 100. Vihreät on siis kokoonsa nähden suuri somepuolue, mutta sen tykkääjät eivät ole niin aktiivisia kuin monella muulla puolueella.
Perussuomalaiset on tässäkin asiassa Vihreiden peilikuva hyvin maskuulinisella nimikattauksellaan. Nimenomaan Naisasialiitto Unionin viestin valossa on hauska nähdä Juha yleisimpänä nimenä (119 eri tykkääjää). Perussuomalaisilla on suhteellisen paljon uniikkeja tykkääjiä, jotka ovat myös verrattain aktiivisia, tykäten keskimäärin neljästä viestistä.
Kokoomus on sukupuolten välillä aika tasapuolinen, kuten myös SDP. Kokoomuksen nimet vaikuttavat ehkä hiukkasen uudenaikaisemmilta, joka voisi viitata alhaisempaan keski-ikään, mutta tämä on vain puhdasta spekulaatiota. Kokoomuksella on enemmän uniikkeja tykkääjiä, mutta Demareiden tykkääjät ovat aktiivisempia. Kumpikin on somemaailmassa Perussuomalaisia ja Vihreitä pienempiä.
Keskustankin nimipaletti on varsin tasapuolinen sukupuolten välillä. Keskusta kuitenkin yllättää vahvalla somepreesensillään, ollen uniikkien tykkääjien määrässä vain Vihreiden takana ja tykkäysten kokonaismäärässä aivan omalla kymmentuhat-luvullaan. Kun puolueella menee kovaa niin se näkyy myös sosiaalisessa mediassa.
Vasemmistoliitto on somemaailman harmaa, hajuton ja mauton. Sukupuolijakaumasta ei voi tehdä suuria päätelmiä ja tykkääjien ja tykkäystenkin määrässä puolue on harmaata keskikastia.
Kristillisdemokraatit on naisvoittoinen puolue, jonka kannattajien nimet ovat silmiinpistävän vanhahtavia. Pikanttina detaljina on puolueen kannattajien vanhempien mieltymys "Marjaan" ja sen johdannaisiin; Marjojen lisäksi aktiivisina tykkääjinä on Marjaliisoja, Marjaleenoja ja Marjattoja. Uniikkien tykkääjien määrässä KD on somekääpiö, mutta tykkääjillä on kelvollinen aktiivisuus.
RKP:n tykkääjillä on erikoisen usein ruotsinkielinen nimi.
Eduskunnan ulkopuoliset pienpuolueet näyttävät olevat miesten leikkikenttiä. Niin Piraattipuolueen kuin Itsenäisyyspuolueenkin viesteistä on harva nainen uskaltautunut tykkäämään. Piraateilla on eduskunnan ulkopuoliseksi puolueeksi kiitettävä määrä uniikkeja tykkääjiä. Itsenäisyyspuolueella taas on fanaattisimmat someaktiivit suurimmalla keskimääräisten tykkäysten määrällä per tykkääjä.
Valitettavasti avoimen rajapinnan kautta ei enää saa käyttäjistä kaivettua esiin informaatiota (kuten sukupuoli, syntymäaika, koulutus), joten analyysin välineet puolueiden kannattajien jatkoprofiloimiseksi sosiaalisen median avulla jäävät vajaaksi. Facebookin avoin rajapinta onkin parhaimmillaan tekstianalyysin teossa. Ja tähän on vielä tarkoitus palata myöhemmin.
Mutta toivottavasti tämäkin tarjosi muutamat naurut.
Ja mielestäni juuri nyt sosiaalisen median louhinta on ajankohtaisempaa kuin koskaan. Kuten viime aikoina on paljon puhuttu, suomalainen yhteiskunta ja keskustelukultttuuri on tällä hetkellä hieman tulehtuneessa tilassa ja varsinkin pakolaiskriisin seurauksena ja tiimoilla (some)keskustelu on kärkästä. Tämän seurauksena jopa eräät uutismediatkin ovat menneet ja sulkeneet kommenttiosioitaan nettisivuiltaan.
Valitettavasti suomalainen yhteiskuntatiede ei mielestäni ole tarpeeksi tarttunut somen tutkimiseen. Varsinkin politiikan tutkimuksessa sosiaalista mediaa voisi käyttää tutkimusten aineistona paljon nykyistä useammin ja monipuolisemmin. Perinteinen media rakastaa raportoida "annoin mummolle 50 senttiä"-sankaritarinoista ja ottaa Twitter-hashtagit osaksi jokaikistä keskusteluohjelmaa. Syvällisemmin sosiaalista mediaa hyödyntävät uutisjutut ovat kuitenkin harvinaisempia, mutta eivät onneksi olemattomia. (esim. tämä juttu on ihan näppärä)
Tällä kertaa en kuitenkaan tahdo mennä analysoimaan turvapaikanhakijoista käytävää keskustelua tai mitään muutakaan ahdistavaa vaan ensimmäisen FB-louhintani aihe on kepeämpi. Inspiraationa toimi Naisasialiitto Unionin tilasto siitä, että suomalaista pörssiyhtiötä johtaa useammin Juha kuin nainen. Facebookin rajapinta ei käyttäjistä juuri tarjoa muuta infoa kuin nimen, joten teen nyt saman tempun ja teen yhteiskunnallisia päätelmiä etunimen pohjalta. Seuraavana sanapilviä Facebookissa eri puolueiden viesteistä tykänneiden etunimistä.
Metodista lyhyesti: haen Facebookin avoimen rajapinnan kautta puolueen omalla Facebook-sivulla julkaisemat viestit (rajapinta rajoittaa palautetut viestit sataan eli aineistona on puolueen 100 viimeistä viestiä). Simppelillä luupilla voin hakea rajapinnasta jokaisen yksittäisen viestin tarkemmat tiedot ja kaivaa niistä esiin tykkääjien nimet. Tämän jälkeen poistan duplikaatit eli jäljelle jää uniikit nimet (Matti Meikäläinen esiintyy vain kerran vaikka olisikin tykännyt jokaisesta Piraattipuolueen julkaisemasta viestistä. Toki virhe tapahtuu jos on olemassa kaksi eri Matti Meikäläistä. Tämän olisi voinut kiertää kikkailemalla käyttäjäID:n kanssa, mutta jätin sen nyt tekemättä, kokien ongelman olevan sen verran merkityksetön ja harvinainen).
Tämän jälkeen poistan sukunimen ja teen sanapilven 150 useimmin esiintyvästä nimestä. (onneksi viime kerralla tein päätöspuita niin olen todistanut osaavani tehdä muutakin kuin sanapilviä. Nyt kuitenkin lisäbonuksena värit!). Puolueina ovat kaikki eduskuntapuolueet sekä eduskunnan ulkopuolisista jonkinlaiset aktiiviset Facebook-sivut omistavat Itsenäisyyspuolue ja Piraattipuolue.
Ja tässä sanapilvet sekä pientä informaatiota tykkääjien ja tykkäysten määrästä:
Vihreät: tykkääjiä 6971, tykkäyksiä yhteensä 20171, tykkäyksiä per tykkääjä keskimäärin 2,89
Perussuomalaiset: tykkääjiä 6120, tykkäyksiä yhteensä 25016, tykkäyksiä per tykkääjä keskimäärin 4,09
Kokoomus: tykkääjiä 5529, tykkäyksiä yhteensä 21367, tykkäyksiä per tykkääjä keskimäärin 3,86
SDP: tykkääjiä 3864, tykkäyksiä yhteensä 16401, tykkäyksiä per tykkääjä keskimäärin 4,24
Keskusta: tykkääjiä 6629, tykkäyksiä yhteensä 34605, tykkäyksiä per tykkääjä keskimäärin 5,22
Vasemmistoliitto: tykkääjiä 3851, tykkäyksiä yhteensä 13726, tykkäyksiä per tykkääjä keskimäärin 3,56
Kristillisdemokraatit: tykkääjiä 882, tykkäyksiä yhteensä 3505, tykkäyksiä per tykkääjä keskimäärin 3,97
RKP: tykkääjiä 3736, tykkäyksiä yhteensä 13824, tykkäyksiä per tykkääjä keskimäärin 3,70
Piraattipuolue: tykkääjiä 2034, tykkäyksiä yhteensä 7579, tykkäyksiä per tykkääjä keskimäärin 3,72
Itsenäisyyspuolue: tykkääjiä 960, tykkäyksiä yhteensä 5132, tykkäyksiä per tykkääjä keskimäärin 5,35
Vihreät on siis vahvasti naisten suosiossa. Nimet viittaavat myös hieman nuorempaan kaartiin. Sivuilla on paljon tykkääjiä, mutta yksi ihminen tykkää keskimäärin vain vajaasta kolmesta viestistä per 100. Vihreät on siis kokoonsa nähden suuri somepuolue, mutta sen tykkääjät eivät ole niin aktiivisia kuin monella muulla puolueella.
Perussuomalaiset on tässäkin asiassa Vihreiden peilikuva hyvin maskuulinisella nimikattauksellaan. Nimenomaan Naisasialiitto Unionin viestin valossa on hauska nähdä Juha yleisimpänä nimenä (119 eri tykkääjää). Perussuomalaisilla on suhteellisen paljon uniikkeja tykkääjiä, jotka ovat myös verrattain aktiivisia, tykäten keskimäärin neljästä viestistä.
Kokoomus on sukupuolten välillä aika tasapuolinen, kuten myös SDP. Kokoomuksen nimet vaikuttavat ehkä hiukkasen uudenaikaisemmilta, joka voisi viitata alhaisempaan keski-ikään, mutta tämä on vain puhdasta spekulaatiota. Kokoomuksella on enemmän uniikkeja tykkääjiä, mutta Demareiden tykkääjät ovat aktiivisempia. Kumpikin on somemaailmassa Perussuomalaisia ja Vihreitä pienempiä.
Keskustankin nimipaletti on varsin tasapuolinen sukupuolten välillä. Keskusta kuitenkin yllättää vahvalla somepreesensillään, ollen uniikkien tykkääjien määrässä vain Vihreiden takana ja tykkäysten kokonaismäärässä aivan omalla kymmentuhat-luvullaan. Kun puolueella menee kovaa niin se näkyy myös sosiaalisessa mediassa.
Vasemmistoliitto on somemaailman harmaa, hajuton ja mauton. Sukupuolijakaumasta ei voi tehdä suuria päätelmiä ja tykkääjien ja tykkäystenkin määrässä puolue on harmaata keskikastia.
Kristillisdemokraatit on naisvoittoinen puolue, jonka kannattajien nimet ovat silmiinpistävän vanhahtavia. Pikanttina detaljina on puolueen kannattajien vanhempien mieltymys "Marjaan" ja sen johdannaisiin; Marjojen lisäksi aktiivisina tykkääjinä on Marjaliisoja, Marjaleenoja ja Marjattoja. Uniikkien tykkääjien määrässä KD on somekääpiö, mutta tykkääjillä on kelvollinen aktiivisuus.
RKP:n tykkääjillä on erikoisen usein ruotsinkielinen nimi.
Eduskunnan ulkopuoliset pienpuolueet näyttävät olevat miesten leikkikenttiä. Niin Piraattipuolueen kuin Itsenäisyyspuolueenkin viesteistä on harva nainen uskaltautunut tykkäämään. Piraateilla on eduskunnan ulkopuoliseksi puolueeksi kiitettävä määrä uniikkeja tykkääjiä. Itsenäisyyspuolueella taas on fanaattisimmat someaktiivit suurimmalla keskimääräisten tykkäysten määrällä per tykkääjä.
Valitettavasti avoimen rajapinnan kautta ei enää saa käyttäjistä kaivettua esiin informaatiota (kuten sukupuoli, syntymäaika, koulutus), joten analyysin välineet puolueiden kannattajien jatkoprofiloimiseksi sosiaalisen median avulla jäävät vajaaksi. Facebookin avoin rajapinta onkin parhaimmillaan tekstianalyysin teossa. Ja tähän on vielä tarkoitus palata myöhemmin.
Mutta toivottavasti tämäkin tarjosi muutamat naurut.
Tilaa:
Blogitekstit (Atom)