En tiedä oletteko huomanneet, mutta Syyriassa on sodittu viimeiset neljä vuotta varsin ikävää sisällissotaa. Islamilainen valtio (ennen tunnettu Islamilaisena valtiona Syyriassa ja Iraqissa, tuttavallisemmin ISIS) perusti alueelle oman mukavan pikku kalifaattinsa, joka vähän niin kuin vahingossa levisi myös omista sisäisistä ongelmistaan kärsivän Irakin alueelle. Siinähän sitä ihmisellä on vähän taipumusta lähteä liikkeelle ja kun Syyrian naapurivaltioidenkin kärsivällisyys ja resurssit alkoivat vähän loppumaan niin Eurooppaankin päätti jokunen tyyppi lähteä. Ja eihän ne kaikki voineet jäädä Välimeren rajavaltioihin. Kreikallakin meni valmiiksi jo vähän heikonlaisesti.
Niinpä Suomeenkin on jokunen promille turvapaikanhakijoista saapunut. Tämän seurauksena Lahteen saatiin avattua uusi Ku Klux Klanin alajaosto, Torniossa mieltä osoitettiin jääkääkän mömmöm 95-hengessä ja vähän myös vastaanottokeskuksia vastaan on hyökätty polttopulloilla, silleen ei-rasistisesti. Ihmiskauppaajat ovat saaneet hyvän asiakaskunnan hätää kärsivistä ja jotkut balkanilaiset ovat koittaneet hyödyntää tilannetta hakemalla turvapaikkaa lähinnä taloudellisin perustein. Viimeistään kun hommafoorumilaisten alkavat suunnitella Suomesta pois muuttamista liiallisen maahanmuuttajien määrän vuoksi voidaan virallisesti sanoa tilanteen olevan hieman huolestuttava.
Sosiaalisen median sijaan uppoudumme tällä kertaa yhteen big datan klassisimmista ilmentymismuodoista: google-hakuihin. Google on esimerkiksi ennustanut flunssa-aaltoja ja onpa Suomessakin hyödynnetty hakutietoja työttömyyden ennustamiseen. Ja myös tämän blogini aiheeseen liittyen, jälkikäteen nähty irakilaisten google-käyttäytymisessä perusta irakilaisten pakolaisten lisääntymiselle Suomessa. Google-haut ovat mielenkiintoinen peili reaalimaailmaan, mutta toisaalta aikasarjadatana varsin ikäviä. Ne kuvastavat 2000-luvun nopeatempoista mediamaailmaa, jossa uutisaihe on koluttu tyhjiin päivissä, ellei tunneissa. Siksi niissä on yleisenä ilmiönä vahvat piikit, jotka eivät kuvasta sen liiemmin yleistä trendiä kuin kausivaihteluakaan. Mutta yksittäisten piikkien lisäksi voi aina havaita myös pitkäkestoisempia trendejä sekä mielenkiintoisia kausivaihtelu-ilmiöitä. Ja nämä aikasarja-komponentit voivat kertoa paljon reaalimaailman ilmiöistä ja ihmisten käyttäymisestä ja muuttuvista huolenaiheista.
Google Trends, ja sen hauska veli Google Correlate ovat avoimesti käytettävissä selaimella. Sen lisäksi R:ään on saatavissa parikin kirjastoa, joiden avulla voi päästä kiinni Google Trendsin avoimeen rajapintaan ja ladata data hieman monimutkaisempaa analyysiä varten. Itse hain, ilman maantieteellisiä rajauksia, alla olevien yhdeksän termin Google-hakujen historiat. Alla olevia kuvioita ei voi oikeastaan verrata toisiinsa määrien osalta, sillä Google Trends tuottaa vain normalisoituna termin haun suhteellisen yleisyyden suhteessa kaikkiin muihin hakuihin jolloin on mahdotonta sanoa mitään termin absoluuttisista hakumääristä tai hakujen yleisyydestä suhteessa muihin termeihin. (Google Trendsin kautta tehtynä kahden termin hakujen mittakaavasuhteet on saatavissa selville). Haussa otetaan huomioon kaikki haut, joissa termi esiintyy, esim. "crisis" tuottaa niin "financial crisis" kuin "refugee crisis"-hakuja.
Pakolaistermien google-hakujen aikasarjat
Valitut termit pyrin jollain tavalla valitsemaan liittymään pakolaiskeskusteluun. "Floodeja" tai muitakaan luonnonilmiöitä en ottanut mukaan, lähinnä koska tein sen ja ei siellä ollut havaittavissa mitään hauskaa.
"Asylumin" piikki syksyllä 2009 johtunee Batman - Arkham Asylumin julkaisusta, kahden muun selkeämmän piikin varmaan myös jollain tavalla liittyen peliin, voisi luulla. Kriisissä on selkeästi talouskriisi ja eurokriisi, mutta "refugee crisis" ei ole kovin suurta kasvua saanut aikaan google-hauissa. 2014-vuoden alussa oletettu Ukrainan kriisikin on kriittisempi kriisi. Sen sijaan turvapaikan hakijat nousivat todella vahvana piikkinä ihan aikasarjan lopussa, kuten myös eurooppalaisessa englannin kielisessä diskurssissa paljon käytetty "migrant". ISIS ei enää niin kiinnosta. Mutta mitä ihmettä Muslimit tekivät 2012 lopussa?
Haettujen termien hakuhistorioiden korrelaatiomatriisi
Tässä korrelaatiomatriisi, tällä kertaa luvuilla pallojen sijaan. Huomataan, että "migrant" ja "refugee" korreloivat suhteellisen vahvasti keskenään, mutta muuten selkeitä yhteyksiä hakutermien välille ei löydy.
Migrant-termin aikasarja tarkemmin 2013-alkaen
Tässä tarkemmin "migrant"-termin aikasarja vuodesta 2013 alkaen niin pääsemme hieman tarkemmin käsiksi termin hakuhistorian käyttäymiseen ja sen kausivaihteluihin. Kuten aikaisemmin vähän sivusin, aikasarjojen ajatellaan yleensä koostuvan kolmesta komponentista, trendistä, kausikomponentista ja satunnaisvaihtelusta. Kausivaihtelu tarkoittaa säännönmukaista vaihtelua riippumatta trendistä (esimerkiksi jäätelöä myydään vuodesta toiseen eniten kesäisin, vaikka jäätelön myynnin trendi olisi nouseva tai laskeva).
Yllä olevassa aikasarjassa on havaittavissa puolen vuoden sykliä noudattava kausivaihtelu. Hakuhistorian aktiivisuus on alhaisimmillaan keskikesällä ja vuodenvaihteessa. Muuta syytä en keksi kuin virallisten organisaatioiden lomakaudet. 2015 alkoi samoin "migrant"-termin hakuhistorian kohdalla samoin kuin pari aikaisempaakin vuotta, mutta keväällä ilmeisesti paljon uutisoidut Välimeren hukkumistapaukset aiheuttivat yhden vahvan piikin ja elokuusta alkaen tietysti termin google-haut räjähtivät käsiin, tosin trendi on jo kääntynyt kovimpaan piikkiin nähden jo selkeään laskuun.
Aikasarjojen tuijottaminen ei itsessään ole kovin mielekästä puuhaa. Aikasarjan purkaminen komponentteihinsa tuottaa jo jonkinlaisia ahaa-elämyksiä. Mutta aikasarjoilla ennustaminen on jo hauskaa, vaikkakaan usein kovin luotettavaa. Ennustamisessa voi hyödyntää muita aikasarjoja, mutta tässä käytetään ainoastaan aikasarjaa itseään. Alla on kolme esimerkkiä ennustamisesta. Ennusteet on tehty hyödyntäen forecast-kirjaston auto.arima-funktiota, jolloin minun ei itse tarvitse päätellä mallin komponentteja (jokainen, joka on joskus käynyt aikasarjakurssin tietää kuinka turhauttavaa se on. Sitä paitsi jo surkean luennoitsijan takia en koskaan oikein kunnolla sisäistänyt sen pointtia, joten aikasarja-analyysi on menetelmänä minulle hieman vieras. Ehkä olisi pitänyt vähän paremmin perehtyä aiheen teoriaan ennen blogipostausta, mutta ei tässä tiedettä olla tekemässä)
"Migrant"-termin google-hakujen ennuste
Migrant-termissä ennuste on siis se, että raju lasku aiheen kiinnostavuudessa jatkuu. Noin 2016 keväällä tulee taas uusi kausivaihtelun mukainen piikki, joka on vuotta 2015 heikompi. Ensi syksyllä tulee taas uusi voimakas piikki. Huomattavaa myös on, että ennusteen mukaan haun kiinnostavuuden perustaso nousee kuitenkin pysyvästi selkeästi aikaisempaa korkeammalle. Ainakin lähitulevaisuudessa pakolaiset ovat tulleet google-hakuihimme, jos ennustetta on uskominen.
Kriisi-hakujen ennuste
Jos migrant-termin kohdalla ennuste oli jollain tasolla uskottava niin on hyvä näyttää myös esimerkki siitä, miltä ennuste voi pahimmillaan näyttää. Luottamusvälit ovat valtavat ja ennusteen käyttäytyminen poikkeaa hyvin suuresti kriisi-hakujen aikaisemmasta käyttäytymisestä. Johtunee siitä, että käyttäytyminen on ollut todella epäsäännöllistä. Kriisit eivät katso kausivaihteluja tai trendejä vaan elävät ja kuolevat nopeasti hetkessä. Nassim Nicholas Taleb varmaan puhuisi ennustamattomista mustista joutsenista.
"Human trafficking"-termin ennuste
Ihmiskaupan käyttäytyminen aikasarja oli miellyttävän ennustettavaa. Ennuste kertookin tuttua kieltä kausivaihtelunsa puolesta. Toisaalta ennusteen mukaan kausivaihtelun voimakkuus laskisi huomattavasti piikkien ollessa pienempiä ja pohjien korkeammalla. Tämä maltillistaminen tuntuu olevankin yksi (näin huonosti tehtyjen kuin minun) aikasarjaennusteiden ominaispiirre.
Mielestäni aikasarjoja voi hyvällä syyllä pitää yhtenä monimutkaisimpana tilastollisena menetelmänä. Niiden oikea käyttö vaatii paljon harjaannusta ja aikasarjapraktiikka on yhtä paljon taidetta kuin tiedettä. Google-hakujen kohdalla aikasarjat ovat vieläpä normaaliakin kinkkisempiä, sillä niille säännönmukaisia kausivaihteluja ja trendejä kuvaavampaa ovat lyhytkestoiset, sattumanvaraiset piikit. Ainakin jos puhutaan kovin mediaseksikkäistä aiheista, kuten nyt kriisien ja pakolaisten kohdalla tehdään.
Google-haut tarjoaa uniikin peilin ihmisten käyttäytymiseen ja datan hyödyntämisen mahdollisuudet ovat suuret. Näinkin epämääräisesti toteutusta Google Trendsin analysoinnista voi saada jotain irti.Kuten Mikko Wennberg kirjoitti blogissaan (jonka hemmetti julkaisi ennen minua, nämä analyysithän ovat olleet tekstiä vaille valmiita jo useamman viikon. On kyllä myös myönnettävä, että Mikon toteutus on tosielämän kannalta mittaamattoman paljon relevantimpi kuin minun lähinnä teknisen toteutuksen harjoitteluun keskittyvät viritelmäni), ei meidän ehkä olisi tarvinnut olla niin yllättyneitä syksyn pakolaismäärän kasvusta. Kukaan vaan ei osannut etsiä oikeita signaaleja.
Ei kommentteja:
Lähetä kommentti