tiistai 4. elokuuta 2015

Tekstilouhintaa Immosen puheista

Tuskin tarvitsee kahteen kertaan miettiä, että mikä on ollut viimeisen viikon ajan Suomen kuumin puheenaihe. Olli Immonen ja natsit. Immosen facebook-postaus sai aikaan todellisen myrskyn niin sosiaalisen kuin perinteisenkin median puolella. No, kaikki tietävät taustat ja kyseisen postauksen. Ja Jyväskylän natsit ehtivät jo siirtämään median mielenkiinnon toisaalle itse facebook-viestistä.

Tässä ei nyt pureuduta Immosen tekstiin, sen retoriikkaan tai miten sen voi tulkita. Aineistona käytetään sen sijaan Immosen pitämiä puheita Eduskunnassa. Niitä on yhteensä noin 80 ja niitä voi lukea eduskunnan nettisivuilla täällä.

Laiskana ihmisenä en niitä oikeasti jaksa lukea vaan harrastan "text miningiksi" eli tekstin louhinnaksi kutsuttua toimintaa. Näin voin havaita useimmin käytettyjä sanoja ja havaita asiayhteyksiä lukematta varsinaista tekstiä. Eihän siitä kvalitatiivisen analyysin korvaajaksi ole yhteiskuntatieteellisessä kontekstissa, mutta suurilla tekstimassoilla kyseessä on hyvin kustannustehokas tapa tutkia aineistoa. Ja se mitä koneoppimisen ja business intelligencen maailmoissa big datan aikakaudella pystytään tekstiä louhimalla tekemään on kieltämättä todella siistiä. Yhtenä esimerkkinä sosiaalista mediaa tutkimalla voidaan päätellä ihmisten fiiliksiä tiettyyn tuotteeseen tai maailman tapahtumaan liittyen ns. "sentiment analysisin" avulla eli tutkimalla käytettyjä ilmauksia ja päättelemällä niistä tekstin tunnelataus.

No, itse asiaan. Ennen puheiden analysoimista siivosin dataa poistamalla ison määrän turhia täytesanoja, joilla ei ole varsinaista analyyttistä merkitystä, kuten "ja", "sillä", tai "arvon herra puhemies". Täytesanojen kohdalla toki on veteenpiirretty viiva, mikä koetaan täytesanaksi ja mikä ei. Jäljelle jäi monia sanoja, joita voi perustellusti pitää täytesanoina, joilla ei ole analyyttistä merkitystä Immosen retoriikan kannalta. No, olin laiska.

Tämän jälkeen tein seuraavan sanapilven, joka sisältää kaikki jäljelle jääneet sanat, jotka esiintyvät vähintään viisi kertaa Immosen puheessa. Yhtenä ongelmana tässä on suomen kieli; pelaamme todella paljon päätteiden kanssa, kaikkien suomea opettelevien ulkomaalaisten kauhuksi. Lyhenteiden poistoon on olemassa R-kirjastoja, mutta ainakaan seuraamaani opetusdian käyttämä SnowballC ei tue suomea. Siksi seuraavassa sanapilvessä on mainittu esimerkiksi Suomi sen monessa eri muodossa.


(valitan, että näkyy näin pienenä, mutta klikkaa se isommaksi)

Mistäs se Olli on siis huolehtinut parlamentaarisissa puheissaan? Suomesta, eurosta/EU:sta, sananvapaudesta, kaksikielisyydestä, kansasta ja maahanmuuttajista, näin muutamia sanoja tarkoituksenhakuisesti valitakseni. Saarakkala on ilmeisesti sama Immoselle kuin Kimmo Sasi Benkulle, koska nimi on mukana sekä muodoissa "saarakkala", että "saarakkalan". Jokainen voi tehdä omat päätelmänsä sanapilvestä, jos siitä selvää saa.

Mutta tiettyjen sanojen ilmentyminen puheessa itsessään ei ole vielä erityisen mielenkiintoinen uutinen. Hedelmällisempää on katsoa, että minkä sanojen kanssa tietyt sanat ilmenevät. Esimerkiksi jos Ollio käyttää puheessaan termiä "maahanmuuttajille" niin samasta puheesta löytyy termejä kuten "veronmaksajalle", "hyvinvointiyhteiskunnallemme","hallaa" ja "rasitteen". Sanan "demokratian" kanssa useimmiten samassa puheessa esiintyy "kansanäänestykset" ja "suorat". Sanan "eun" kanssa samassa puheessa esiintyy termi "liittovaltiota".

Tuottaako tekstianalyysi mitään uusia oivalluksia? No ei. Immosen aatemaailma on varmasti jo tullut kaikille entuudestaan tutuksi. Oli silti hauskaa havaita, että tekstiä louhimalla siihen on mahdollista päästä käsiksi ja henkilöä tuntemattakin voi tehdä joitain päätelmiä hänen ajatusmaailmastaan. Harmillisesti käytetty aineisto on kuitenkin vähän turhan pieni kunnolliseen tekstin louhintaan.

Mutta hauskaa oli ja sanapilvi on aika makea menetelmä.

Sen voi lisätä tälle päivälle "mitä tänään opin"-listaan.

Ei kommentteja:

Lähetä kommentti