Minulla ei tuota aineistoa ole käytössäni, joten harjoitan oman aineistoni keräämiseksi ns. "web scrapingia" eli datan imemistä suoraan nettisivuilta. Toimin niin, että valitsen ylätason aihealueen (tässä postauksessa keskityn pääasiassa yhteiskunta/politiikka-otsakkeen alta löytyviin topiceihin) ja käyn lukemassa otsakkeen alta löytyvien noin 20 viimeisen topikin jokaisen viestin.
Mistä siis Suomi24 tällä hetkellä puhuu?
Lyhyt vastaus: työstä ja poliittisesta vasemmistosta, suhteessa Ruotsiin.
Selkeästi Martti Ahtisaaren uusi kirja, jossa tasavallan presidentti hyökkäsi vanhaa puoluettaan Demareita sekä ay-liikettä vastaan kovasanaisesti on saanut paljon keskustelua aikaan myös Suomen epävirallisella agoralla. Li Andersson on myös on näkyvästi esillä Suomi24:n talouspoliittiseen ja vasemmistoon tällä hetkellä keskittyvässä diskurssissa ja ainoa poliitikko pääministeri Sipilän ja Ahtisaaren lisäksi, joka pääsee 150 yleisimmän sanan joukkoon. Oppositiojohtajana Li nauttii siis tällä hetkellä huomattavasti todellista valtaansa parempaa näkyvyttä Suomi24:n poliittisessa keskustelussa.
Sanapilvestä ei ole oikeastaan havaittavissa kuin kaksi suurta teemaa, työpolitiikka/ay-liike/vasemmisto ja suomi/ruotsi-vertailu. Aineisto kuitenkin aidosti jakautuu hienovaraisempiin aihepiireihin, joiden pitäisi karkeasti noudattaa niitä 22 otsaketta, joiden alta aineisto on haettu. Kokeilen siis seuraavaksi löytää algoritmien avulla hienovaraisempia aihepiirejä, joihin aineisto jakaantuu.
Hyvä lähtökohta hienovaraisempaan jaotteluun on tehdä visuaalinen hierarkinen klusterointi, joka näkyy yllä.
Data jakaantuu algoritmin mukaan hyvin rankasti yhteen homogeeniseen joukkoon tekstejä sekä toiseen ryhmittymään, josta hienovaraisempia jaotteluja on havaittavissa. Dendrogramin pohjalta onkin hyvä kehittää jatkotarkastelua. Hierarkinen klusterointi kun itsessään ei ole paras mahdollinen tekstimuotoisen datan ryhmittelijä. Latent Dirichlet Allocation on menetelmä, joka on optimoitu toimimaan tekstimuotoisen datan kanssa. Siinä yhtä dokumenttia (tässä tapauksessa viestiä politiikka-aiheiseen topikkiin) ei luokitella yhteen ja vain yhteen aihepiiriin (klusteriin, kuten yllä) vaan yhden viestin sallitaan sisältään useita eri aihepiirejä eri painotuksilla. Erona hierarkiseen klusteriin aihepiirien lukumäärä k täytyy päättää ennalta, kuten k means klusteroinnissakin.
Hierarkisen klusteroinnin perusteella päädyin valitsemaan parametrin k arvoksi 7. Alla on taulukko jokaiseen aihepiiriin 15 vahvimmin latautuvasta sanasta.
Ensimmäinen aihepiiri liittyy työhön ja erityisesti palkanmaksuun. Ja minimipalkasta puhuttaessa myös Vasemmistoliitto on näkyvästi läsnä. Toinen aihepiiri taas liittyy Martti Ahtisaaren kirjaan, mutta kirjan sisältämät teemat eivät ole näkyvästi esillä. Metsään ilmeisesti kuitenkin mennään Martin ay-liikkeen ja demarien kritisoinnissa.
Kolmas aihepiiri liittyy yrittämiseen ja itsensätyöllistämiseen ja on siten myös vahvasti työhön liittyvä aihepiiri. Neljäs on Li Anderssonille ja Vasemmistoliitolle omistettu aihepiiri, jossa myös vähemmän sosialistisempi työväenpuolue SDP mainitaan. Aihepiirit 5 ja 6 ovat vaikeammin pääteltävissä. Kuudennessa mainitaan Soini, joten liittynee etäisestä perussuomalaisiin. Viimeinen ja seitsemäs aineistosta löydetty aihepiiri taas liittyy iki-ihanaan vertailuun Suomen ja ruotsalaisten välillä. Mistä aiheesta siinä puhutaan, en tiedä, kunhan ruotsalaiset todetaan huonommiksi.
Aineistosta havaitaan taas tarve laadukkaalle suomenkieliselle stemmerille eli algoritmille, joka muuttaa sanat perusmuotoonsa. Tässäkin aineistoissa Suomi mainitaan lähes jokaisessa mahdollisessa sijamuodossa. Tästä huolimatta saamme ihan kelvollisen kuvan tämän hetken suomi24:sta puhuttavista aiheista.
Moi! Ärrää joo, rvest-paketilla webscraping, tm-kirjastolla datan muokkaus ja topicmodels-paketilla lopullinen malli.
VastaaPoistaKiitos näistä! Olen tuskaillut R:n kanssa suomenkielisen datan preprosessoinnin heikkouden kanssa. Pythonissa on nltk-kirjastossa jonkinlaista suomenkielistä stemmausta tarjolla, R:stä en ollut aikaisemmin löytänyt edes sitä vähää. Nämä varmasti auttavat paljon jatkossa! :)