Aika on dataa: Mistä Suomi(24) puhuu nyt?

Suomi24 lienee jokaisen tuntema ajatusten kaatopaikka, joka Suomen suurimpana keskustelupalstana tarjoaa mielipiteitä jokaiseen mahdolliseen ja mahdottomaan asiaan. Suomi24:n aineistot on jo aikaisemmin avattu tutkimuskäyttöön ja aineisto tarjoaakin hedelmällisen aineiston monien elämänalojen tutkimiseen ja niin politologit kuin sosiologitkin ovat varmasti saaneet datasta paljon irti.

Minulla ei tuota aineistoa ole käytössäni, joten harjoitan oman aineistoni keräämiseksi ns. "web scrapingia" eli datan imemistä suoraan nettisivuilta. Toimin niin, että valitsen ylätason aihealueen (tässä postauksessa keskityn pääasiassa yhteiskunta/politiikka-otsakkeen alta löytyviin topiceihin) ja käyn lukemassa otsakkeen alta löytyvien noin 20 viimeisen topikin jokaisen viestin.

Mistä siis Suomi24 tällä hetkellä puhuu?

Lyhyt vastaus: työstä ja poliittisesta vasemmistosta, suhteessa Ruotsiin.

Selkeästi Martti Ahtisaaren uusi kirja, jossa tasavallan presidentti hyökkäsi vanhaa puoluettaan Demareita sekä ay-liikettä vastaan kovasanaisesti on saanut paljon keskustelua aikaan myös Suomen epävirallisella agoralla. Li Andersson on myös on näkyvästi esillä Suomi24:n talouspoliittiseen ja vasemmistoon tällä hetkellä keskittyvässä diskurssissa ja ainoa poliitikko pääministeri Sipilän ja Ahtisaaren lisäksi, joka pääsee 150 yleisimmän sanan joukkoon. Oppositiojohtajana Li nauttii siis tällä hetkellä huomattavasti todellista valtaansa parempaa näkyvyttä Suomi24:n poliittisessa keskustelussa.

Sanapilvestä ei ole oikeastaan havaittavissa kuin kaksi suurta teemaa, työpolitiikka/ay-liike/vasemmisto ja suomi/ruotsi-vertailu. Aineisto kuitenkin aidosti jakautuu hienovaraisempiin aihepiireihin, joiden pitäisi karkeasti noudattaa niitä 22 otsaketta, joiden alta aineisto on haettu. Kokeilen siis seuraavaksi löytää algoritmien avulla hienovaraisempia aihepiirejä, joihin aineisto jakaantuu.

Hyvä lähtökohta hienovaraisempaan jaotteluun on tehdä visuaalinen hierarkinen klusterointi, joka näkyy yllä.

Data jakaantuu algoritmin mukaan hyvin rankasti yhteen homogeeniseen joukkoon tekstejä sekä toiseen ryhmittymään, josta hienovaraisempia jaotteluja on havaittavissa. Dendrogramin pohjalta onkin hyvä kehittää jatkotarkastelua. Hierarkinen klusterointi kun itsessään ei ole paras mahdollinen tekstimuotoisen datan ryhmittelijä. Latent Dirichlet Allocation on menetelmä, joka on optimoitu toimimaan tekstimuotoisen datan kanssa. Siinä yhtä dokumenttia (tässä tapauksessa viestiä politiikka-aiheiseen topikkiin) ei luokitella yhteen ja vain yhteen aihepiiriin (klusteriin, kuten yllä) vaan yhden viestin sallitaan sisältään useita eri aihepiirejä eri painotuksilla. Erona hierarkiseen klusteriin aihepiirien lukumäärä k täytyy päättää ennalta, kuten k means klusteroinnissakin.

Hierarkisen klusteroinnin perusteella päädyin valitsemaan parametrin k arvoksi 7. Alla on taulukko jokaiseen aihepiiriin 15 vahvimmin latautuvasta sanasta.


1	työtä	ahtisaari	ihmisiä	andersson	miten	paljon	suomen
2	maksaa	vastaan	suomeen	vasemmisto	hyvä	kannattaa	suomalaiset
3	pitäisi	niiden	euron	suomen	lisää	soini	suomalaisia
4	suomessa	suomi	yrittäjien	vasemmistoliiton	niitä	oikein	suomalaisten
5	minimipalkka	tullut	itsensätyöllistäjien	osa	todella	oma	ruotsalaiset
6	esim	hänen	samalla	demarit	toveri	pois	ruotsin
7	tehdä	vuoden	toisaalta	alle	sellaista	mielestä	ruotsissa
8	kansan	ahtisaaren	usein	häntä	yrityksen	muuta	suomea
9	vasemmistoliitto	halua	itsensätyöllistäjiä	kieli	ollaan	suurin	meillä
10	tahansa	käyttää	työ	poliitikko	asiaa	tulisi	ruotsi
11	kyse	presidentti	asemaa	anderssonin	jotain	suomi	ainakin
12	maksetaan	metsään	nostaa	haluaa	pidä	vähemmän	heitä
13	nykyään	osaa	parantaa	oman	kiinni	ennen	suomalaisista
14	riittää	puolueen	töitä	tarvitse	liikaa	tarkoitus	ihmisten
15	siten	maissa	työn	avulla	rahaa	valtion	sellainen

Ensimmäinen aihepiiri liittyy työhön ja erityisesti palkanmaksuun. Ja minimipalkasta puhuttaessa myös Vasemmistoliitto on näkyvästi läsnä. Toinen aihepiiri taas liittyy Martti Ahtisaaren kirjaan, mutta kirjan sisältämät teemat eivät ole näkyvästi esillä. Metsään ilmeisesti kuitenkin mennään Martin ay-liikkeen ja demarien kritisoinnissa.

Kolmas aihepiiri liittyy yrittämiseen ja itsensätyöllistämiseen ja on siten myös vahvasti työhön liittyvä aihepiiri. Neljäs on Li Anderssonille ja Vasemmistoliitolle omistettu aihepiiri, jossa myös vähemmän sosialistisempi työväenpuolue SDP mainitaan. Aihepiirit 5 ja 6 ovat vaikeammin pääteltävissä. Kuudennessa mainitaan Soini, joten liittynee etäisestä perussuomalaisiin. Viimeinen ja seitsemäs aineistosta löydetty aihepiiri taas liittyy iki-ihanaan vertailuun Suomen ja ruotsalaisten välillä. Mistä aiheesta siinä puhutaan, en tiedä, kunhan ruotsalaiset todetaan huonommiksi.

Aineistosta havaitaan taas tarve laadukkaalle suomenkieliselle stemmerille eli algoritmille, joka muuttaa sanat perusmuotoonsa. Tässäkin aineistoissa Suomi mainitaan lähes jokaisessa mahdollisessa sijamuodossa. Tästä huolimatta saamme ihan kelvollisen kuvan tämän hetken suomi24:sta puhuttavista aiheista.

1 kommentti:

Lasse Winter17. lokakuuta 2016 klo 5.19
Moi! Ärrää joo, rvest-paketilla webscraping, tm-kirjastolla datan muokkaus ja topicmodels-paketilla lopullinen malli.

Kiitos näistä! Olen tuskaillut R:n kanssa suomenkielisen datan preprosessoinnin heikkouden kanssa. Pythonissa on nltk-kirjastossa jonkinlaista suomenkielistä stemmausta tarjolla, R:stä en ollut aikaisemmin löytänyt edes sitä vähää. Nämä varmasti auttavat paljon jatkossa! :)
VastaaPoista
Vastaukset

Lisää kommentti

Aika on dataa

lauantai 8. lokakuuta 2016

Mistä Suomi(24) puhuu nyt?

1 kommentti:

Blogiarkisto