Suomi on perinteisesti tunnettu konsensus-hakuisesta politiikastaan, jossa karkeasti yleistäen harmaan eri sävyissä vaihtelevat puolueet tekevät yhteistyötä suurin piirten saman suuntaisten tavoitteiden eteen. Mutta Suomeenkin on rantautunut viime aikoina korostunut poliittinen polarisaatio; Pekka Haavistokin sai omiltaan täyslaidallisen kun ei kategorisesti suostunut sulkemaan pois (muutenkin äärimmäisen epätodennäköistä) hallitusyhteistyötä Perussuomalaisten kanssa. Isossa maailmassa USA: ssa demokraattien ja republikaanien välinen yhteistyö on käytännössä jo mahdotonta ja maa on jakautunut kahteen vihamieliseen leiriin, jossa jopa perinteinen vihollinen Venäjä voi alkaa näyttäytymään oman maan vastapuolta parempana vaihtoehtona.
Toinen äänestysten ennalta-arvattavuutta lisäävä tekijä on puoluekuri. Puoluekuria on usein demonisoitu Suomessa, koska se sitoo kansanedustajat kädet äänestämään mahdollisesti oman omatuntonsa vastaisesti. Toisaalta se on tärkeää eduskunnan jouhevalle toiminnalle ja tavallaan äänestysten ennustettavuuden parantumisen kautta myös lisää äänestäjien kuluttajan turvaa (niin kauan kuin äänestää ensisijaisesti puoluetta eikä ehdokasta, kuten Suomen järjestelmässä tulisi tehdä). Mutta puoluekuri on myös omiaan lisäämään eduskuntaäänestys äänijakauman polarisaatiota; joko koko puolue äänestää asian puolesta tai kukaan ei äänestä.
Joskus harvoin kuitenkin eduskuntaankin päätyy sellaisia aloitteita, jotka saavat yksimielisen tai liki yksimielisen tuen. Tarkoitukseni on tutkia, että voidaanko äänestyksen lopputulosta ennustaa aloitteen otsikon perusteella. Data on haettu Eduskunnan avoimen rajapinnan kautta, rajaten kysely suurin piirtein nykyiseen hallituskauteen alkaen vuodesta 2015 (kysely tehdään äänestysId:n avulla ja kerralla saa maksimissaan 100 tulosta). Lisäksi datasta otetaan vain suomenkieliset rivit mukaan. Lopullinen data sisältää 2550 äänestystulosta. Tekstidataa ei kummemmin esikäsitellä vaan se otetaan vastaan sellaisenaan.
Lasken jokaiselle äänestystulokselle "yhdenmukaisuusindeksin" kaavalla itseisarvo(jaa-äänet - ei-äänet - 0.5*tyhjä-äänet / jaa-äänet + ei-äänet + 0.5*tyhjä-äänet). Näin saadaan nollan ja ykkösen välillä arvoja saava muuttuja, jossa lähellä ykköstä olevat arvot tarkoittavat sitä, että suurin osa kansanedustajista äänesti joko jaa tai ei ja lähellä nollaa olevat arvot taas sitä, että äänestys oli tiukka ja jakautui lähes tasan jaa- ja ei-äänien kesken. Tyhjää äänestäneet arvotetaan vain puolikkaan ei-äänen-arvoiseksi, koska ne eivät kuvasta täyttä erimielisyyttä. Poissa-olevia ei huomioida. Indeksin keskiarvo on 0,44 ja mediaani 0,37. Tämä tarkoittaa sitä, että kun yhdenmielisyys löytyy, se löytyy kunnolla.
Teen vielä binäärisen kohdemuuttujan jakamalla yli 0.5 indeksin arvon saaneet "melko yksimielisiin" ja vastaavasti sen alle jääneet "melko erimielisiin" äänestystuloksiin. Tätä binääristä muuttujaa vasten rupean sitten ennustamaan.
Kuvio 1. Kaikkien aloitteiden otsikoiden sanapilvi
Rakensin sekä nykyisen tekoälyhypen taustalla olevan seksikkään syvän neuroverkkomallin, jossa oli kolme "piilotettua tasoa" (hidden layer) sekä perinteisemmän tukivektorikoneen (vaikkakin tosiasiassa neuroverkot kehitettiin kauan ennen tukivektorikoneita). Tällä kertaa neuroverkkomalli vei pidemmän korren, päätyen eri testeissä noin 0,72 AUC: in tasolle (malli ei ole siis erityisen maaginen, mutta aivan toivotonkaan). Käyttäen 0.39 rajana yhdenmielisten-luokkaan kuulumiselle, malli löytää 200 sadasta testiaineiston yhdenmielisestä lopputuloksesta lopulta 122, mutta toisaalta ennustaa siihen väärin 97 tapausta, kokonaistarkkuuden jääden maltilliseen 0,66. Malli varmasti tarvitsisi sekä enemmän dataa, että myös varsinaisen aloitteen tekstisisällön, jotta pääsisimme aidosti hyviin tuloksiin.
Neuroverkosta emme saa mitenkään selville, että minkälaiset aloitteet sitten lopulta saavat koko eduskunnan tuen, enkä myöskään itse tehnyt sen enempää tutkivaa analytiikkaa asian selvittämiseksi. Alla on sanapilvi, kun data on rajoitettu vain yhdenmielisyys-indeksissä yli 0,8 arvon saaneisiin:
Kuvio 2. Varsin yksimieliseen päätökseen päätyneiden aloitteiden otsikoiden sanapilvi
Näyttää siis siltä, että erityisesti liikenne- ja viestintäministeriön hallinnonalaan kuuluvat tapaukset nauttivat suurta yksimielisyyttä.
Tämän aiheen parissa saisi varmasti hedelmällistä tutkimusta aikaiseksi. Vinkki innokkaalle väitöskirjan tekijälle, jolla on allekirjoittanutta enemmän aikaa.
lauantai 15. joulukuuta 2018
maanantai 24. syyskuuta 2018
Jalkapallojoukkueen syöttöverkoston merkitys menestykseen Venäjän MM-kisoissa
Jalkapallo ei jatkuvasti liikkeessä olevana pelinä ole yhtä hedelmällinen maaperä tilastotieteelle kuin Moneyballin synnyttänyt baseball. Kuitenkin tilastot ovat lajin kehityskulussa olleet jo pitkään mukana. Charles Reepin laskelmista 50-luvulla saatiin "tukea" Englannin surullisen kuuluisalle pitkän pallon taktiikalle, kun taas astetta sofistikoituneemmin jalkapallon tieteellistämistä edisti Kiovan Dynamossa 70-80-luvuilla Valeri Lobanovski. Lobanovski uskoi vahvasti systeemiteoriaan ja kollektiiviin. Jalkapallossa yksilöitä tärkeämpää on yhteydet heidän välillä. "Koko elämä on numero".
Bisnesmaailman tavoin 2010-luvulla datan hyödyntäminen jalkapallossa on lyönyt kunnolla lävitse. xG eli maaliodote on levinnyt muutamien tilastonörttien käytöstä jo televisiokommentaareihin. Jopa suomalaiset joukkueet keräävät laajalti dataa ja hyödyntävät sitä kehittäessään omaa pelaamistaan ja skoutatessaan vastustajaa.
StatsBomb, suurin jalkapalloanalytiikkaan keskittyvä sivusto, on julkaissut Venäjän MM-kisojen datan avoimella lisenssillä. Aion hyödyntää verkostoanalyysimenetelmiä datan perkaamiseen tutkiakseni Lobanovskin ajatusta joukkueista kahtena järjestelmänä, jossa avaimena on pelaajien väliset yhteydet.
Verkostoanalyysia on yksinkertaista soveltaa jalkapalloon ajattelemalla pelaajat noodeiksi ja pelaajan A syöttö pelaajalle B pelaajien A ja B väliseksi suunnatuksi linkiksi A -> B. Mitä useammin ottelun aikana A syöttää B:lle, sitä voimakkaampi on suhde A: sta B:hen (mutta ei välttämättä B: stä A:han). Tällä tavalla syntyvästä syöttöverkostosta voi laskea erilaisia tunnuslukuja. Yksi näistä on läheisyys (closeness), jossa lasketaan kuinka keskeinen kukin noodi on verkostossa mittaamalla noodin lyhin polku kuhunkin toiseen noodiin. Tämän syöttöfrekvenssillä painotetun verkoston tapauksessa tulkinta on, kuinka helposti pallo menee pelaajalta A pelaajalle B. Esimerkiksi jos A syöttää todella usein pelaajalle C ja C todella usein pelaajalle B, pallon saaminen A:lta B:lle on verrattain kivutonta. (mutta C:ltä A:lle taas vaikeaa, mutta käytän algoritmissäni sekä annettuja, että vastaanotettuja syöttöjä, jolloin syöttöketjun suunnalla ei ole väliä kahden pelaajan läheisyyttä arvioitaessa)
Esimerkiksi keskikenttäpelaajat ovat usein joukkueen pelinrakentelun dynamoja, joten on oletettavaa, että heillä on vahvat molemmin puoliset yhteydet kaikkiin muihin joukkueen pelaajiin ja täten lyhyt etäisyys jokaiseen joukkueen muuhun pelaajaan. Klassisesti hyökkääjät taas ovat voittopuolisesti vain vastaanottaneet syöttöjä, jolloin he ovat etäällä muusta joukkueesta, eikä pallo liiku heiltä esimerkiksi puolustukseen enää jouhevasti. Tosin jalkapallon evoluution nykytrendi on vahvasti universaaleja pelaajia suosiva, eikä Pippo Inzaghin kaltaiset peliin lähinnä maalin törkkäämällä osallistuvat pelaajat pelaa enää huipulla vaan myös kärjiltä odotetaan kokonaisvaltaista osallistumista niin puolustamiseen kuin pelinrakenteluun.
Oletukseni on, että syöttöverkostoltaan tiiviimpi joukkue on menestyvämpi kuin löyhempi. Eli joukkueen jokainen pelaaja on kiinteästi yhteyksissä muihin pelaajiin, pelipaikasta riippumatta. Tällöin joukkueen on helppo käyttää koko kenttää hyödykseen, sillä palloa saadaan liikutettua kivuttomasti keltä pelaajalta tahansa kelle pelaajalle tahansa. Jos taas syöttöverkosto pyörii lähinnä parin dynamon kautta muiden ollessa heikosti kytköksissä toisiinsa, on joukkue heikompi. Tällöin vastustajan on helppo prässätä pelinrakentelu pois eikä kentän tilaa käytetä optimaalisesti.
Kuvio 1. Finaalin syöttöverkostot
Yllä on esimerkiksi laskettu finaalin syöttöketjuista painotetut graafit. Kroatian syöttöverkosto näyttää silmämääräisesti tiiviimmältä ja myös läheisyys-mittari vahvistaa havainnon: Kroatian läheisyysindeksin keskiarvo on 0,33 ja Ranskan 0,4 (mitä lähempänä nollaa sen parempi), keskihajontojen ollessa 0,06 ja 0,11. Kroatian syöttelyssä siis oli koko joukkue paremmin mukana kuin Ranskalla.
Kroatia olikin ainakin omien muistikuvieni mukaan parempi joukkue aina helposti annettuun 2-1 rankkarimaaliin asti, jonka jälkeen pelin kontrolli (jos ei pallon hallinta) siirtyi Ranskalle. Kuvaavaaa on, että Ranskan syöttöverkostossa maalivahti Hugo Lloris on kiinteämmin mukana kuin Kroatian kollegansa Subasic ja hän syötti usein kärkeen Oliver Giroudille kun taas Subasicin syötöt kohdistuivat pääsääntöisesti toppariparille Lovren - Vida. Mielenkiintoisesti Ranskan keskikentän loistelias rakkikoira N'golo Kante on syöttöverkostossa sivuosassa, kun taas Kroatian trio Modric - Rakitic - Brozovic on kaiken ytimessä. Syöttöverkostosta saa sen kuvan, että Kroatia hallitsi palloa monipuolisesti, kun taas Ranska luotti yksinkertaisempiin kuvioihin ja parin pelaajan yhteistyöhön. Kroatia pitikin ottelussa pallo yli 60 prosenttisesti.
Ranska voitti finaalin kuitenkin lopulta melko vaivatta, vaikka teorian mukaan Kroatian olisi pitänyt viedä. Kuten sanottu, pallon hallinta ja pelin hallinta ovat kaksi eri asiaa. Miten teoria pärjää, kun läheisyysindeksiä tarkastellaan kaikkien 63 ottelun katsannossa?
Ottelun lopputulosta voi mallintaa sekä kategorisena (1X2), että jatkuvana maalierona (3-0 -> +3, 1-2 -> -1 jne). Päätän yksinkertaisuuden ja toisaalta voiton voimakkuuden huomioimisen vuoksi mallintaa ongelman jatkuvana muuttujana lineaarisella regressiolla. Selittävänä muuttujana on aina kahden joukkueen erotus valitussa muuttujassa, esimerkiksi jos kotijoukkue syötti ottelussa 300 kertaa ja vierasjoukkue 500 kertaa niin totalPassesDiff saa arvon -200. Läheisyysindikaattoreita laskin monia erilaisia, mutta lopuksi päädyin neljään: closenessMinDiff (erotus joukkueiden tärkeimmän pelaajan läheisyys-indikaattorissa), closenessSdDiff (erotus joukkueiden keskihajonnoissa), closenessMedianDiff (erotus mediaaneissa) sekä closesessForMinDiff (parhaiten joukkueiden syöttöverkostoihin integroituneiden hyökkääjien erotus).
Hypoteesihän oli: mitä tiiviimpi joukkue on (alhaisempi läheisyyden mediaani eli keskivertopelaajan integroituminen verkostoon ja alhaisempi keskihajonta, sitä paremmin se menestyy). Hyökkääjien integroituminen peliin on otettu mukaan, koska nykyfutiksen trendien mukaan oletusarvoisesti pelin rakenteluun osallistuvat giroudit ovat joukkueelleen hyödyllisempiä kuin voittopuolisesti maalintekoon keskittyvät kanet.
Koska alhaisemmat läheisyys-indikaattorien luvut ovat "parempia" ja ottelun lopputulos koodattu niin, että positiiviset arvot ovat kotijoukkueelle parempia, tulisi korrelaatiosuhteiden olla negatiivisia (jos kotijoukkueen läheisyyden mediaani on alhaisempi, menee arvo negatiivisen puolelle. Myös vierasjoukkueen korkeampi hajonta johtaisi kotijoukkueen kannalta toivottavaan negatiiviseen arvoon indikaattorissa)
Kuvio 2. Selittävien muuttujien sekä ottelun lopputuloksen korrelaatio
Ylläolevasta korrelaatiomatriisista nähdään, että joukkueen läheisyyden mediaani sekä minimi ja hyökkääjän minimi vaikuttavat heikohkosti negatiivisesti hypoteesin mukaan. Sen sijaan keskihajonnan vaikutus tuntuisi olevan lähes nollassa. Myös joukkueiden kokonaissyöttömäärällä ei ole vaikutusta; on tärkeämpää, että koko joukkue osallistuu syöttelyyn kuin kuinka paljon lopulta syötellään.
Lineaarisesta regressiosta nähdään, että vaikutussuhteet pysyvät oletettuina (lukuunottamatta keskihajontaa, joka vaikuttaa positiivisesti ja syöttöjen yhteismäärää, joka vaikuttaa negatiivisesti), mutta pienessä aineistossa ei päästä lähellekään tilastollista merkitsevyyttä eikö merkittäviä vaikutussuhteita. Muistetaan, että läheisyyden indikaattorin skaala on 0-1, jolloin täydellisen integroituneen mediaanipelaajan suhteessa täysin irtautuneeseen mediaanipelaajaan toisi vain 0,13 maalia lisää. Jos ottelun lopputulosta (1X2) pyritään ennustamaan hyödyntäen luotuja muuttujia ja kehittyneitä koneoppimisalgoritmejä, niin ei minusta vielä betsimiljönääriä ole tulossa; xgboost-mallini toimii juuri ja juuri arvaamista paremmin.
Syöttöverkostoja yksittäistapauksina tutkimalla saa jonkinlaisen idean joukkueen pelitavasta ja potentiaalisista kipukohdista, joihin vastustajaa kannata prässätä. Jonkun verran verkostosta lasketut tunnusluvut auttavat myös selittämään ottelun lopputulosta. Mutta vain vähän. Onneksi jalkapallo pysyy lajina, jota tiede ei voi koskaan ratkaista.
Loppuun: myös StatsBombissa on selitetty xgChain-metriikalla höystettyjä syöttöverkostoja jos aihe alkoi kiinnostamaan enemmän. Lähestymistapa on erilainen kuin omani, sillä itse hyödynnän verkostoa itseään metriikan laskemiseen.
Bisnesmaailman tavoin 2010-luvulla datan hyödyntäminen jalkapallossa on lyönyt kunnolla lävitse. xG eli maaliodote on levinnyt muutamien tilastonörttien käytöstä jo televisiokommentaareihin. Jopa suomalaiset joukkueet keräävät laajalti dataa ja hyödyntävät sitä kehittäessään omaa pelaamistaan ja skoutatessaan vastustajaa.
StatsBomb, suurin jalkapalloanalytiikkaan keskittyvä sivusto, on julkaissut Venäjän MM-kisojen datan avoimella lisenssillä. Aion hyödyntää verkostoanalyysimenetelmiä datan perkaamiseen tutkiakseni Lobanovskin ajatusta joukkueista kahtena järjestelmänä, jossa avaimena on pelaajien väliset yhteydet.
Verkostoanalyysia on yksinkertaista soveltaa jalkapalloon ajattelemalla pelaajat noodeiksi ja pelaajan A syöttö pelaajalle B pelaajien A ja B väliseksi suunnatuksi linkiksi A -> B. Mitä useammin ottelun aikana A syöttää B:lle, sitä voimakkaampi on suhde A: sta B:hen (mutta ei välttämättä B: stä A:han). Tällä tavalla syntyvästä syöttöverkostosta voi laskea erilaisia tunnuslukuja. Yksi näistä on läheisyys (closeness), jossa lasketaan kuinka keskeinen kukin noodi on verkostossa mittaamalla noodin lyhin polku kuhunkin toiseen noodiin. Tämän syöttöfrekvenssillä painotetun verkoston tapauksessa tulkinta on, kuinka helposti pallo menee pelaajalta A pelaajalle B. Esimerkiksi jos A syöttää todella usein pelaajalle C ja C todella usein pelaajalle B, pallon saaminen A:lta B:lle on verrattain kivutonta. (mutta C:ltä A:lle taas vaikeaa, mutta käytän algoritmissäni sekä annettuja, että vastaanotettuja syöttöjä, jolloin syöttöketjun suunnalla ei ole väliä kahden pelaajan läheisyyttä arvioitaessa)
Esimerkiksi keskikenttäpelaajat ovat usein joukkueen pelinrakentelun dynamoja, joten on oletettavaa, että heillä on vahvat molemmin puoliset yhteydet kaikkiin muihin joukkueen pelaajiin ja täten lyhyt etäisyys jokaiseen joukkueen muuhun pelaajaan. Klassisesti hyökkääjät taas ovat voittopuolisesti vain vastaanottaneet syöttöjä, jolloin he ovat etäällä muusta joukkueesta, eikä pallo liiku heiltä esimerkiksi puolustukseen enää jouhevasti. Tosin jalkapallon evoluution nykytrendi on vahvasti universaaleja pelaajia suosiva, eikä Pippo Inzaghin kaltaiset peliin lähinnä maalin törkkäämällä osallistuvat pelaajat pelaa enää huipulla vaan myös kärjiltä odotetaan kokonaisvaltaista osallistumista niin puolustamiseen kuin pelinrakenteluun.
Oletukseni on, että syöttöverkostoltaan tiiviimpi joukkue on menestyvämpi kuin löyhempi. Eli joukkueen jokainen pelaaja on kiinteästi yhteyksissä muihin pelaajiin, pelipaikasta riippumatta. Tällöin joukkueen on helppo käyttää koko kenttää hyödykseen, sillä palloa saadaan liikutettua kivuttomasti keltä pelaajalta tahansa kelle pelaajalle tahansa. Jos taas syöttöverkosto pyörii lähinnä parin dynamon kautta muiden ollessa heikosti kytköksissä toisiinsa, on joukkue heikompi. Tällöin vastustajan on helppo prässätä pelinrakentelu pois eikä kentän tilaa käytetä optimaalisesti.
Kuvio 1. Finaalin syöttöverkostot
Yllä on esimerkiksi laskettu finaalin syöttöketjuista painotetut graafit. Kroatian syöttöverkosto näyttää silmämääräisesti tiiviimmältä ja myös läheisyys-mittari vahvistaa havainnon: Kroatian läheisyysindeksin keskiarvo on 0,33 ja Ranskan 0,4 (mitä lähempänä nollaa sen parempi), keskihajontojen ollessa 0,06 ja 0,11. Kroatian syöttelyssä siis oli koko joukkue paremmin mukana kuin Ranskalla.
Kroatia olikin ainakin omien muistikuvieni mukaan parempi joukkue aina helposti annettuun 2-1 rankkarimaaliin asti, jonka jälkeen pelin kontrolli (jos ei pallon hallinta) siirtyi Ranskalle. Kuvaavaaa on, että Ranskan syöttöverkostossa maalivahti Hugo Lloris on kiinteämmin mukana kuin Kroatian kollegansa Subasic ja hän syötti usein kärkeen Oliver Giroudille kun taas Subasicin syötöt kohdistuivat pääsääntöisesti toppariparille Lovren - Vida. Mielenkiintoisesti Ranskan keskikentän loistelias rakkikoira N'golo Kante on syöttöverkostossa sivuosassa, kun taas Kroatian trio Modric - Rakitic - Brozovic on kaiken ytimessä. Syöttöverkostosta saa sen kuvan, että Kroatia hallitsi palloa monipuolisesti, kun taas Ranska luotti yksinkertaisempiin kuvioihin ja parin pelaajan yhteistyöhön. Kroatia pitikin ottelussa pallo yli 60 prosenttisesti.
Ranska voitti finaalin kuitenkin lopulta melko vaivatta, vaikka teorian mukaan Kroatian olisi pitänyt viedä. Kuten sanottu, pallon hallinta ja pelin hallinta ovat kaksi eri asiaa. Miten teoria pärjää, kun läheisyysindeksiä tarkastellaan kaikkien 63 ottelun katsannossa?
Ottelun lopputulosta voi mallintaa sekä kategorisena (1X2), että jatkuvana maalierona (3-0 -> +3, 1-2 -> -1 jne). Päätän yksinkertaisuuden ja toisaalta voiton voimakkuuden huomioimisen vuoksi mallintaa ongelman jatkuvana muuttujana lineaarisella regressiolla. Selittävänä muuttujana on aina kahden joukkueen erotus valitussa muuttujassa, esimerkiksi jos kotijoukkue syötti ottelussa 300 kertaa ja vierasjoukkue 500 kertaa niin totalPassesDiff saa arvon -200. Läheisyysindikaattoreita laskin monia erilaisia, mutta lopuksi päädyin neljään: closenessMinDiff (erotus joukkueiden tärkeimmän pelaajan läheisyys-indikaattorissa), closenessSdDiff (erotus joukkueiden keskihajonnoissa), closenessMedianDiff (erotus mediaaneissa) sekä closesessForMinDiff (parhaiten joukkueiden syöttöverkostoihin integroituneiden hyökkääjien erotus).
Hypoteesihän oli: mitä tiiviimpi joukkue on (alhaisempi läheisyyden mediaani eli keskivertopelaajan integroituminen verkostoon ja alhaisempi keskihajonta, sitä paremmin se menestyy). Hyökkääjien integroituminen peliin on otettu mukaan, koska nykyfutiksen trendien mukaan oletusarvoisesti pelin rakenteluun osallistuvat giroudit ovat joukkueelleen hyödyllisempiä kuin voittopuolisesti maalintekoon keskittyvät kanet.
Koska alhaisemmat läheisyys-indikaattorien luvut ovat "parempia" ja ottelun lopputulos koodattu niin, että positiiviset arvot ovat kotijoukkueelle parempia, tulisi korrelaatiosuhteiden olla negatiivisia (jos kotijoukkueen läheisyyden mediaani on alhaisempi, menee arvo negatiivisen puolelle. Myös vierasjoukkueen korkeampi hajonta johtaisi kotijoukkueen kannalta toivottavaan negatiiviseen arvoon indikaattorissa)
Kuvio 2. Selittävien muuttujien sekä ottelun lopputuloksen korrelaatio
Ylläolevasta korrelaatiomatriisista nähdään, että joukkueen läheisyyden mediaani sekä minimi ja hyökkääjän minimi vaikuttavat heikohkosti negatiivisesti hypoteesin mukaan. Sen sijaan keskihajonnan vaikutus tuntuisi olevan lähes nollassa. Myös joukkueiden kokonaissyöttömäärällä ei ole vaikutusta; on tärkeämpää, että koko joukkue osallistuu syöttelyyn kuin kuinka paljon lopulta syötellään.
Lineaarisesta regressiosta nähdään, että vaikutussuhteet pysyvät oletettuina (lukuunottamatta keskihajontaa, joka vaikuttaa positiivisesti ja syöttöjen yhteismäärää, joka vaikuttaa negatiivisesti), mutta pienessä aineistossa ei päästä lähellekään tilastollista merkitsevyyttä eikö merkittäviä vaikutussuhteita. Muistetaan, että läheisyyden indikaattorin skaala on 0-1, jolloin täydellisen integroituneen mediaanipelaajan suhteessa täysin irtautuneeseen mediaanipelaajaan toisi vain 0,13 maalia lisää. Jos ottelun lopputulosta (1X2) pyritään ennustamaan hyödyntäen luotuja muuttujia ja kehittyneitä koneoppimisalgoritmejä, niin ei minusta vielä betsimiljönääriä ole tulossa; xgboost-mallini toimii juuri ja juuri arvaamista paremmin.
Syöttöverkostoja yksittäistapauksina tutkimalla saa jonkinlaisen idean joukkueen pelitavasta ja potentiaalisista kipukohdista, joihin vastustajaa kannata prässätä. Jonkun verran verkostosta lasketut tunnusluvut auttavat myös selittämään ottelun lopputulosta. Mutta vain vähän. Onneksi jalkapallo pysyy lajina, jota tiede ei voi koskaan ratkaista.
Loppuun: myös StatsBombissa on selitetty xgChain-metriikalla höystettyjä syöttöverkostoja jos aihe alkoi kiinnostamaan enemmän. Lähestymistapa on erilainen kuin omani, sillä itse hyödynnän verkostoa itseään metriikan laskemiseen.
keskiviikko 21. maaliskuuta 2018
Millainen kansalaiskampanja, sellainen yhteiskunta? Digitaalinen aktivismi ja poliittinen järjestelmä
Suomessa on viime aikoina käyty keskustelua kansalaisaloitteesta, kun eduskuntakäsittelyyn etenevien kansalaisaloitteiden lukumäärä alkaa hiljalleen kasvamaan, viimeisimpänä perintöverosta luopumista ajava aloite. Kansalaisaloitteet ja kansalaisaktivismi on muutenkin tutkimusten mukaan nuorempien sukupolvien preferoima tapa vaikuttaa ympäröivään yhteiskuntaan. Äänestäminen ja eritoten poliittiset puolueet menettävät suosiotaan. Suurten ideologisten narratiivien sijaan ihmisiä ajaa liikkeelle hyvin spesifit ja tarkkarajaiset, konkreettisia tavoitteita ajavat kampanjat.
Netti on tuonut myös aivan uusia vaikuttamisen mahdollisuuksia. Nykyajan vaikuttamisen mahdollisuudet eivät rajoitu mielenosoituksessa marssimiseen tai itsensä kahlitsemiseen kiinni puuhun.
Suomen kaltaisessa demokratiassa kansalaisaktivismi on kuitenkin vain yksi tapa muiden joukossa vaikuttaa yhteiskuntaan. Hauraissa demokratioissa tai suoranaisissa diktatuureissa se voi olla ainoa; ja silloinkin hengenvaarallinen. Tämän luulisi vaikuttavan merkittävästi myös kansalaisaktivismin muotoihin. On varmasti eri asia koittaa saada tasa-arvoinen avioliittolaki lävitse Suomessa kuin Ugandassa. Tutkitaan siis Digital Activism-tutkimusprojektin datasettiä!
Datassa on tutkittu reilua 400 digitaalista kampanjaa, joita kuvaillaan yli 20 muuttujalla. Kampanjan sijaintivaltiot luokitellaan täysiksi, siirtyviksi, vaillinaisiksi demokratioiksi sekä diktatuureiksi. Tämän analyysin tarpeisiin luokittelin muut kuin Suomen kaltaiset kypsät demokratiat samaan ei-demokratioiden luokkaan. Datan havainnoista 165 sijoittuu täyteen demokratiaan ja 241 muuhun valtioon. Muuttujiksi valitsin seuraavat kyllä/ei-muuttujat: käytetäänkö kampanjassa väkivaltaa, videoita, tekstiviestejä tai hakkerointia sekä onko sillä omaa nettisivua, foorumia, mikroblogia, blogia, sosiaalisen median tunnuksia tai adressia.
Ylläolevista muuttujista haktivismi eli hakkeroinnin hyödyntäminen ja väkivallan hyödyntäminen ovat varsin harvoin hyödynnettyjä keinoja. Väkivaltaan sortui 14 kampanjaa, hakkerointiin 9. Myös tekstiviestien ja omien keskustelufoorumien hyödyntäminen oli hyvin vähäistä. Muita keinoja hyödynnettiin sitten enemmän. Kaikista yleisintä oli blogin ylläpitäminen; sellainen löytyi yli puolelta eli 213 tapaukselta.
Miten nämä valitut muuttujat sitten suhtautuvat kampanjan yhteiskunnan demokraattisuuteen? Hyödynnetään logistista regressiomallinnusta asian selvittämiseen. Alla mallin ristitulosuhteet (referenssiluokkana demokratia ja muuttujissa aina "ei käytössä".)
VIOL 2.737586
SITE 0.332152 ***
FORUM 0.345003
EPET 0.292376 ***
SOCNET 0.935437
MICBLOG 1.596549 **
BLOG 1.045787
VIDEO 0.954749
SMS 1.740650
HACK 2.180810
Pienessä aineistosssa vain kolme muuttujaa yltää tilastolliseen merkitsevyyteen. Demokraattisissa valtioissa hyödynnetään merkittävästi enemmän adresseja sekä omia nettisivuja. Adressi onkin selkeästi työkalu, joka on useissa ei-demokraattisissa valtioissa kielletty. Myöskään harva epävarmassa poliittisessa ympäristössä toimiva varmaan haluaa lisätä omaa nimeään yhtään mihinkään aloitteeseen, jonka kohtalosta ja hallituksen suhtautumisesta siihen ei ole varma, ihan oman turvallisuutensa vuoksi.
Nettisivut ovat internetin mittapuulla varsin stabiili ja virallinen työkalu. Epävarmassa tilanteessa, jossa kampanja elää jatkuvasti, nettisivu ei siten liene optimaalinen väline vaikuttamiseen. Nettisivun olemassaolo lisääkin kampanjan todennäköisyyden sijaita demokraattisessa valtiossa noin kolminkertaiseksi. Nettisivulla ei ole des takeita pysyä kauaa pystyssä Kiinan kaltaisia nettiään ankarasti sensuroivissa maissa. Kypsissä demokratioissa, joissa kampanjat voivat luottaa pysyvyyteen ja mahdollisuuteen vaikuttaa virallisia väyliä pitkin, nettisivu on paljon toimivampi. Sama pätee keskustelufoorumeihin, joita oli tosin käytössä niin harvassa kampanjassa, ettei sen kerroin ole tilastollisesti merkitsevä.
Mikroblogit taas ovat epädemokraattisten maiden kampanjoiden välineistöä, mikroblogin käytön lisätessä todennäköisyyden kampanjan kotivaltion epädemokraattiselle järjestelmälle noin 1,6-kertaiseksi. Ne ovat nopea ja joustava väline, jotka mahdollistavat nopean reagoinnin ja tiedonvaihdon, mutta myös sen, ettei kampanja hirttäydy yhteen, viralliseen blogikanavaan. Tekstiviestit ovat myös epädemokraattisten maiden käytössä useammin, mutta niin vähissä määrin, ettei aineistosta voi tehdä suurempia johtopäätöksiä.
Hakkerointi ja väkivalta ovat vähän käytettyjä metodeja, mutta spesifisti epädemokraattisten valtioiden kampanjoiden arsenaalissa, yli kaksinkertaisella todennäköisyydellä demokraattisiin maihin nähden. Blogi, sosiaalisen median tunnukset sekä videoiden käyttö ovat suurin piirtein yhtäläisesti käytössä sekä demokraattisten että epädemokraattisten valtioiden kampanjoissa.
Kokeilin vielä lopuksi huvikseni kokeilla, että voidaanko kampanjan kotivaltion poliittinen järjestelmä ennustaa yllämainittujen muuttujien avulla. Jaoin aineiston kahteen osaan, joista mallin sovitin 80 % aineistosta ja opitulla mallilla ennustin jäljellejäävää 20 prosenttia. Mallina kokeilin sekä random forestia sekä support vector machinea. Mallien tulokset heittelivät aika paljon aineiston pienen koon vuoksi, mutta kokonaistarkkuus heilui noin 56 ja 68 prosentin välissä. Alla on parhaan saadun SVM-mallin virhematriisi.
[[37, 12],
[14, 19]]
Malli ennusti kokonaisuudessaan reilu 68 % tapauksista oikein, virheiden jakautuessa melko tasaisesti vääriin positiivisiin ja vääriin negatiivisiin. Tällä kertaa malli on siis eroteltavissa helposti taikuudesta, mutta pienellä opetusaineistolla ei mahdottomiin pystykään.
Netti on tuonut myös aivan uusia vaikuttamisen mahdollisuuksia. Nykyajan vaikuttamisen mahdollisuudet eivät rajoitu mielenosoituksessa marssimiseen tai itsensä kahlitsemiseen kiinni puuhun.
Suomen kaltaisessa demokratiassa kansalaisaktivismi on kuitenkin vain yksi tapa muiden joukossa vaikuttaa yhteiskuntaan. Hauraissa demokratioissa tai suoranaisissa diktatuureissa se voi olla ainoa; ja silloinkin hengenvaarallinen. Tämän luulisi vaikuttavan merkittävästi myös kansalaisaktivismin muotoihin. On varmasti eri asia koittaa saada tasa-arvoinen avioliittolaki lävitse Suomessa kuin Ugandassa. Tutkitaan siis Digital Activism-tutkimusprojektin datasettiä!
Datassa on tutkittu reilua 400 digitaalista kampanjaa, joita kuvaillaan yli 20 muuttujalla. Kampanjan sijaintivaltiot luokitellaan täysiksi, siirtyviksi, vaillinaisiksi demokratioiksi sekä diktatuureiksi. Tämän analyysin tarpeisiin luokittelin muut kuin Suomen kaltaiset kypsät demokratiat samaan ei-demokratioiden luokkaan. Datan havainnoista 165 sijoittuu täyteen demokratiaan ja 241 muuhun valtioon. Muuttujiksi valitsin seuraavat kyllä/ei-muuttujat: käytetäänkö kampanjassa väkivaltaa, videoita, tekstiviestejä tai hakkerointia sekä onko sillä omaa nettisivua, foorumia, mikroblogia, blogia, sosiaalisen median tunnuksia tai adressia.
Ylläolevista muuttujista haktivismi eli hakkeroinnin hyödyntäminen ja väkivallan hyödyntäminen ovat varsin harvoin hyödynnettyjä keinoja. Väkivaltaan sortui 14 kampanjaa, hakkerointiin 9. Myös tekstiviestien ja omien keskustelufoorumien hyödyntäminen oli hyvin vähäistä. Muita keinoja hyödynnettiin sitten enemmän. Kaikista yleisintä oli blogin ylläpitäminen; sellainen löytyi yli puolelta eli 213 tapaukselta.
Miten nämä valitut muuttujat sitten suhtautuvat kampanjan yhteiskunnan demokraattisuuteen? Hyödynnetään logistista regressiomallinnusta asian selvittämiseen. Alla mallin ristitulosuhteet (referenssiluokkana demokratia ja muuttujissa aina "ei käytössä".)
VIOL 2.737586
SITE 0.332152 ***
FORUM 0.345003
EPET 0.292376 ***
SOCNET 0.935437
MICBLOG 1.596549 **
BLOG 1.045787
VIDEO 0.954749
SMS 1.740650
HACK 2.180810
Pienessä aineistosssa vain kolme muuttujaa yltää tilastolliseen merkitsevyyteen. Demokraattisissa valtioissa hyödynnetään merkittävästi enemmän adresseja sekä omia nettisivuja. Adressi onkin selkeästi työkalu, joka on useissa ei-demokraattisissa valtioissa kielletty. Myöskään harva epävarmassa poliittisessa ympäristössä toimiva varmaan haluaa lisätä omaa nimeään yhtään mihinkään aloitteeseen, jonka kohtalosta ja hallituksen suhtautumisesta siihen ei ole varma, ihan oman turvallisuutensa vuoksi.
Nettisivut ovat internetin mittapuulla varsin stabiili ja virallinen työkalu. Epävarmassa tilanteessa, jossa kampanja elää jatkuvasti, nettisivu ei siten liene optimaalinen väline vaikuttamiseen. Nettisivun olemassaolo lisääkin kampanjan todennäköisyyden sijaita demokraattisessa valtiossa noin kolminkertaiseksi. Nettisivulla ei ole des takeita pysyä kauaa pystyssä Kiinan kaltaisia nettiään ankarasti sensuroivissa maissa. Kypsissä demokratioissa, joissa kampanjat voivat luottaa pysyvyyteen ja mahdollisuuteen vaikuttaa virallisia väyliä pitkin, nettisivu on paljon toimivampi. Sama pätee keskustelufoorumeihin, joita oli tosin käytössä niin harvassa kampanjassa, ettei sen kerroin ole tilastollisesti merkitsevä.
Mikroblogit taas ovat epädemokraattisten maiden kampanjoiden välineistöä, mikroblogin käytön lisätessä todennäköisyyden kampanjan kotivaltion epädemokraattiselle järjestelmälle noin 1,6-kertaiseksi. Ne ovat nopea ja joustava väline, jotka mahdollistavat nopean reagoinnin ja tiedonvaihdon, mutta myös sen, ettei kampanja hirttäydy yhteen, viralliseen blogikanavaan. Tekstiviestit ovat myös epädemokraattisten maiden käytössä useammin, mutta niin vähissä määrin, ettei aineistosta voi tehdä suurempia johtopäätöksiä.
Hakkerointi ja väkivalta ovat vähän käytettyjä metodeja, mutta spesifisti epädemokraattisten valtioiden kampanjoiden arsenaalissa, yli kaksinkertaisella todennäköisyydellä demokraattisiin maihin nähden. Blogi, sosiaalisen median tunnukset sekä videoiden käyttö ovat suurin piirtein yhtäläisesti käytössä sekä demokraattisten että epädemokraattisten valtioiden kampanjoissa.
Kokeilin vielä lopuksi huvikseni kokeilla, että voidaanko kampanjan kotivaltion poliittinen järjestelmä ennustaa yllämainittujen muuttujien avulla. Jaoin aineiston kahteen osaan, joista mallin sovitin 80 % aineistosta ja opitulla mallilla ennustin jäljellejäävää 20 prosenttia. Mallina kokeilin sekä random forestia sekä support vector machinea. Mallien tulokset heittelivät aika paljon aineiston pienen koon vuoksi, mutta kokonaistarkkuus heilui noin 56 ja 68 prosentin välissä. Alla on parhaan saadun SVM-mallin virhematriisi.
[[37, 12],
[14, 19]]
Malli ennusti kokonaisuudessaan reilu 68 % tapauksista oikein, virheiden jakautuessa melko tasaisesti vääriin positiivisiin ja vääriin negatiivisiin. Tällä kertaa malli on siis eroteltavissa helposti taikuudesta, mutta pienellä opetusaineistolla ei mahdottomiin pystykään.
tiistai 30. tammikuuta 2018
Suomen presidentinvaalit Twitter-maailmassa
Suomen presidentinvaaleja 2018 voidaan monesta syystä pitää länsimaisten demokratioiden katsantokannassakin poikkeuksellisina. Sauli Niinistö vei tittelin historiallisesti jo ensimmäisellä kierroksella yli 60 prosentin kannatuksella eikä hänen edes tarvinnut hikoilla. Perinteisten valtapuolueiden SDP:n ja Keskustan ehdokkaat saivat hieman korkeamman kannatuksen kuin oman kansanliikkeensä perustanut politiikan ikiliikkuja Paavo Väyrynen; ja tämä ei johdu siitä, että Paavokaan olisi päässyt edes lähelle kaksinumeroisia lukuja. Vaalien voittaja ei tullut kenellekään yllätyksenä, mutta Saulin ylivoima oli odotettuakin murskaavampi.
Ennen vaalien tulosiltaa jännitystä haettiin lähinnä teemoista "tuleeko toinen kierros", "voittaako Väyrynen Vanhasen" ja "voiko Väyrynen haastaa Haaviston toisesta sijasta?". Miten Suomen Twitter-kansa innostui spekuloimaan vaaleja kun voittajan sijaan jännitettiin lähinnä jämäsijoja ja hyvän tsempparin palkintoja?
Laitoin sunnuntaina koodini keräämään kaikki twiitit, joissa mainittiin muutamia vaaleihin liittyviä hashtageja, kuten "#presidentinvaalit2018. Twiittien kalastelu alkoi hieman ennen kolmea iltapäivällä ja päättyi yhdentoista aikaan illalla. Saaliikseni sain vajaa 9000 twiittiä, joista uusia (eli ei-retweettejä) oli 6389. Katsotaan seuraavaksi nopeasti mitä haaviini tarttui (ja pidetään mielessä, että koko Suomen presidentinvaaleja koskeva vaalipäivän Twitter-keskustelu ei varmasti sisälly aineistooni hakusanojen rajallisuuden vuoksi)
Ennen vaalien tulosiltaa jännitystä haettiin lähinnä teemoista "tuleeko toinen kierros", "voittaako Väyrynen Vanhasen" ja "voiko Väyrynen haastaa Haaviston toisesta sijasta?". Miten Suomen Twitter-kansa innostui spekuloimaan vaaleja kun voittajan sijaan jännitettiin lähinnä jämäsijoja ja hyvän tsempparin palkintoja?
Laitoin sunnuntaina koodini keräämään kaikki twiitit, joissa mainittiin muutamia vaaleihin liittyviä hashtageja, kuten "#presidentinvaalit2018. Twiittien kalastelu alkoi hieman ennen kolmea iltapäivällä ja päättyi yhdentoista aikaan illalla. Saaliikseni sain vajaa 9000 twiittiä, joista uusia (eli ei-retweettejä) oli 6389. Katsotaan seuraavaksi nopeasti mitä haaviini tarttui (ja pidetään mielessä, että koko Suomen presidentinvaaleja koskeva vaalipäivän Twitter-keskustelu ei varmasti sisälly aineistooni hakusanojen rajallisuuden vuoksi)
Kuvio 1. Twiittien lähetysajankohta
Ylläolevasta kuviosta nähdään, että twiittejä tuli päivän mittaan varsin tasaisesti kunnes Ylen ja Maikkarin vaalilähetykset alkoivat 19:30. Kello 20.00 paljastettiin ennakkoäänien tulokset, mikä aiheutti suuren piikin twiittien määrään. Tämän jälkeen twiittien määrä pysyi korkeahkolla tasolla, mutta laski koko ajan. 21.00 aikaan julkaistu Ylen ennuste näkyy vielä yhtenä piikkinä. Kellon lähetessä 23.00 ei twiittejä enää kauhean aktiivisesti haaviini kertynyt.
Mitä twiitit sitten käsittelivät?
Kuvio 2. Twiittien sanapilvi
Sanapilvi ei tuota yllätyksiä yleisimmissä sanoissa. Kiinnostavinta on ehkä nähdä, ketkä ehdokkaat siinä esiintyvät: Sauli Niinistö, Laura Huhtasaari, Paavo Väyrynen ja Pekka Haavisto. Haatainen ja Kyllönen esiintyvät vähemmän, mutta Keskustan Matti-raukkaa ei näy missään.
Jos sanapilvi ei kauheasti kiinnostavaa informaatiota meille tarjoa niin matemaattisesti edistyksellisempi topic model-mallikaan ei hirveästi aukaise twiittien sisältöä. Kokeilin ajaa mallin usealla eri topicien määrällä, mutta kovin informatiivisia aihealueita ei twiiteistä onnistuttu löytämään. Alla nähdään kolmen (alle 10 kertaa esiintyvät sanat poistettu) sekä viiden (tf-idf-muunnoksella) aihealueen mallin tulokset aihealueisiin voimakkaimmin latautuneiden sanojen osalta.
Sanapilvi ei tuota yllätyksiä yleisimmissä sanoissa. Kiinnostavinta on ehkä nähdä, ketkä ehdokkaat siinä esiintyvät: Sauli Niinistö, Laura Huhtasaari, Paavo Väyrynen ja Pekka Haavisto. Haatainen ja Kyllönen esiintyvät vähemmän, mutta Keskustan Matti-raukkaa ei näy missään.
Jos sanapilvi ei kauheasti kiinnostavaa informaatiota meille tarjoa niin matemaattisesti edistyksellisempi topic model-mallikaan ei hirveästi aukaise twiittien sisältöä. Kokeilin ajaa mallin usealla eri topicien määrällä, mutta kovin informatiivisia aihealueita ei twiiteistä onnistuttu löytämään. Alla nähdään kolmen (alle 10 kertaa esiintyvät sanat poistettu) sekä viiden (tf-idf-muunnoksella) aihealueen mallin tulokset aihealueisiin voimakkaimmin latautuneiden sanojen osalta.
Topic 1 Topic 2 Topic 3 [1,] "huhtasaari" "niinistö" "niinistö" [2,] "vaalit" "sitten" "väyrynen" [3,] "niinistö" "uusi" "vaalit" [4,] "the" "jo" "sauli" [5,] "kaikki" "voi" "niinistön" [6,] "presidentti" "onnea" "niinisto" [7,] "sauli" "sauli" "presidentinvaalit" [8,] "kyllä" "hyvä" "vielä" [9,] "presidentinvaalit" "tule" "tänään" [10,] "väyrynen" "kannatus" "paavo"
Toinen aihealue sisältänee onnittelu viestejä Saulille. Aihealueet 1 ja 3 sisältävät yleisempää keskustelua vaaleista ja sisältävät myös mainintoja kilpakumppaneista, Väyrysestä ja Huhtasaaresta. Mitään mielenkiintoista ei tästä kuitenkaan irtoa.
Topic 1 Topic 2 Topic 3 Topic 4 Topic 5 [1,] "vaalit" "niinistö" "の" "the" "niinistö" [2,] "uusi" "sauli" "hienoa" "of" "prosenttia" [3,] "normaali" "näyttää" "が" "vote" "toinen" [4,] "väyrynen" "äänesti" "siinä" "in" "päästä" [5,] "laura" "selvä" "voittaja" "niinistö" "onnea" [6,] "huhtasaari" "onneksi" "を" "elect" "kekkonen" [7,] "äänestin" "jo" "フィンランド" "finland" "sauli" [8,] "voi" "vaalit" "tuntuu" "for" "vaalit" [9,] "suomessa" "presidentinvaalit" "niinistö" "and" "presidentti" [10,] "paavo" "presidentti" "niinistön" "is" "niinisto"
Tf-idf-muunnoksen jälkeen aihepiireihin ilmestyi Huhtasaaren illan aikana tutuksi tullutta "uutta normaalia" käsittelevä aihealue, joka sisältää myös Paavon. Aihepiiri 2 sisältää keskustelua Niinistön selvästä voitosta, aihepiiri 5 taas rinnastanee Saulia Suomen historian pitkäaikaisimpaan presidenttiin Urho Kekkoseen. Aihepiiri 4 sisältää kansainväliset twiitit Suomen vaaleista, aihepiiri 3 taas on aikamoinen jämäluokka.
Aineistoa olisi voinut yrittää muokata ja korjata rankemmalla kädellä ennen LDA-mallin ajamista, niin ehkä twiittailun luonne ja eri diskurssit olisivat selvinneet helpommin. Nyt näistä ei saada mitään kummempaa irti.
Tein aineistolle myös kömpelön sanalista-pohjaisen sentimenttianalyysini, jota olen hyödyntänyt aikaisemmissakin blogipostauksissa. Algoritmini luokitteli 3500 twiittiä neutraaliksi, 1500 positiiviseksi ja 1300 negatiiviseksi. Suuria tunteita twiiteissä ei siis ilmeisesti pääpiirteittäin esiintynyt.
neg neut pos 1310 3541 1538 |
Lopuksi tein verkostomallin saadakseni selville, että käytiinkö vaalien yhteydessä vuorovaikutteista keskustelua,
vai oliko kyseessä ennemminkin yksittäisten twiittajien arviot ja julistukset, joihin muut eivät reagoineet. |
Kuvio 3. Verkostomalli kaikille twiittaajille
Ja, tuskin yllätyksenä, pientä ristiintwiittailevaan ydinjoukkoa lukuunottamatta twitter-massat kävivät Väyrysmäistä "Me, myself and I"-dialogia itsensä kanssa kohdistamatta viestejä kenellekään toiselle. Tylsähköt vaalit eivät siis luoneet kovin vuorovaikutteista keskustelua. Tässä on tosin huomioitava, että hakusanojeni rajallisuudesta johtuen olen voinut hyvin kaapata twiitin, jossa ei mainita ketään, mutta missata siihen tulleen vastauksen.
Kuvio 4. Verkostomalli twiittaajista, jotka kohdistivat viestin toiselle
Jotta keskustelun luonnetta voi tutkia tarkemmin otan mukaan verkostomalliin vain ne tapaukset, jotka ovat joko twiitanneet toiselle henkilölle tai ovat twiitin kohteena. Kuviossa siniset viivat tarkoittavat positiiviseksi luokiteltuja twiittejä, punaiset negatiivisia ja harmaat neutraaleja. Kuviosta nähdään verkostossa muutamia isompia keskittymiä, joiden ympärillä valtaosa interaktiivisesta twiittailusta käydään. Ulkokehällä on lisäksi paljon 2-4 twiittaajaan pienverkostoja, jotka eivät ole yhteydessä ytimeen.
Kun katsotaan ne henkilöt, joilla on eniten yhteyksiä, yllätyksenä ei tule seuraava lista:
Jotta keskustelun luonnetta voi tutkia tarkemmin otan mukaan verkostomalliin vain ne tapaukset, jotka ovat joko twiitanneet toiselle henkilölle tai ovat twiitin kohteena. Kuviossa siniset viivat tarkoittavat positiiviseksi luokiteltuja twiittejä, punaiset negatiivisia ja harmaat neutraaleja. Kuviosta nähdään verkostossa muutamia isompia keskittymiä, joiden ympärillä valtaosa interaktiivisesta twiittailusta käydään. Ulkokehällä on lisäksi paljon 2-4 twiittaajaan pienverkostoja, jotka eivät ole yhteydessä ytimeen.
Kun katsotaan ne henkilöt, joilla on eniten yhteyksiä, yllätyksenä ei tule seuraava lista:
[1] "niinisto" "niinisto2018" "LauraHuhtasaari" "Haavisto""YleTV1" "kokokansanpaavo" "yleuutiset" [8] "Yleisradio" "VanhanenMatti" "GreenThaifood""TuulaHaatainen""antti_koo" "StarckTii" "hsfi" [15] "LazyTwitTwat"
Niinistö, Huhtasaari, Haavisto ja Väyrynen ovat isoja keskittymiä. Haatainen ja Vanhanen mahtuvat mukaan myös mediatalojen ja muutaman aktiivitwiittaajan sekaan. Verkoston isoimman keskittymän keskipiste on Sauli Niinistö ja kuten kuviosta nähdään, hänelle twiitattiin ensisijaisesti positiivisia onnitteluviestejä.
Siispä verkoston ydinkin antaa turhan ruuhuisen kuvan vuorovaikutteisesta debatista, kun tosiasiassa ehdokkaiden ja mediatalojen luomat keskipisteet ovat pääsyynä twiittaajien välisille yhteyksille.
Siispä verkoston ydinkin antaa turhan ruuhuisen kuvan vuorovaikutteisesta debatista, kun tosiasiassa ehdokkaiden ja mediatalojen luomat keskipisteet ovat pääsyynä twiittaajien välisille yhteyksille.
Kokonaisuutena voitaneen tiivistää, että tylsät vaalit, tylsä keskustelu. Siksipä päätin rikastaa keskustelua itse tekemällä twitter-botin, joka apinoi muiden mielipiteet ja luo niistä uusia helmiä.
lauantai 13. tammikuuta 2018
Deittailun maailma - yksi tavoite, kaksi todellisuutta?
Satuin törmäämään mielenkiintoiseen datasettiin, joka sisältää dataa Speed Dating - tapahtumista Yhdysvalloista vuosilta 2002-2004. Tinder ja muut sovellukset ovat muovanneet deittailun kenttää noista vuosista, mutta oletettavasti miehet ja naiset suhtautuvat unelmien prinssinsä/prinsessansa ominaisuuksiin ja omaan viehättävyyteensä edelleen suurin piirtein samalla tavoin.
Datasettini on varsin massiivinen tarjolla olevien muuttujien suhteen, joten keskityn tässä vain nopeasti muutamaan huomioon; kuinka miehet/naiset suhtautuvat etukäteen sokkotreffiensä laatuun, kuinka monen he uskovat olevan kiinnostuneen heistä ja mitkä ominaisuudet vaikuttavat siihen, että vastapuoli sanoo "kyllä" jatkotapaamiselle.
Yleisenä huomiona olen siirtynyt R-kielestä Pythoniin, koska töissä saan näperrellä R:n parissa nykyään aivan tarpeeksi. Blogi siirtyy siis tavallaan taas aivan alkuaikoihin, kun koitan opetella uutta ohjelmointikieltä ja motivoida itseäni blogin kirjoittamisella. Ehkä tämä blogi tulee kielen muutoksen seurauksena aktivoitumaan. Ehkä ei. Ainakin analyysieni tekninen toteutustaso ottaa takapakkia.
Mutta aloitetaan pureutuminen deittailun maailmaan!
Naisia kritisoidaan nykyään paljon siitä, että he ovat niin nirsoja ja asettavat miehille korkeat kriteerit. Tunnetusti Tinderissä naiset "swaippaavat vasemmalle" moninkertaisella todennäköisyydellä suhteessa miehiin. Perinteisemmillä nettideittailusivustoilla naiset hukkuvat miesten yhteydenottoihin, mutta miehet saavat naisilta yhteydenoton paljon harvemmin (Christian Rudderin Dataclysm-kirja sisältää paljon mielenkiintoista dataa kirjoittajan perustamalta OKCupid-sivustolta, voin suositella tutustumaan). Miten nämä nettideittailussa havaitut toimintamallit jalkautuvat speed dating-maailmaan?
Ylläolevasta kuviosta nähdään naisten ja miesten odotus tyytyväisyyteen tilaisuudessa tapaamiaan ihmisiä kohtaan, skaalalla 0-10, jossa 10 = täysin tyytyväinen. Histogrammista nähdään, että miesten odotukset ovat keskimäärin korkeammat kuin naisten. Naisten jakauma on selvästi enemmän vasemmalle kallellaan kuin miesten. Miesten keskiarvo tyytyväisyydelleen onkin 5,85, naisten 5,18. Ero on yli puoli "tyytyväisyysyksikköä". Se ei ole massiivinen, kuten Tinderissä ja OKCupidissa havaitut erot käyttäytymisessä, mutta selkeästi naisilla on lähtökohtaisesti skeptisempi asenne potentiaalisia miehiä kohtaan kuin miehillä vielä tapaamattomia naisia.
Näkyykö miesten optimistisempi asenne naisten viehättävyyttä kohtaan sitten naisten itsetunnossa? Koska naiset näyttäytyvät odottavan miesten miellyttävyydeltä vähemmän kuin miehet heiltä, loogisesti naisten tulisi osoittaa korkeampaa tietoisuutta omasta "markkina-arvostaan" deittailumarkkinoilla. Kyselylomakkeella kysyttiin, että kuinka monen he uskovat 20 pian tapaamastaan partnerista haluavan nähdä heidät tulevaisuudessakin. Mitä korkeampi vastaus, sitä viehättävämpänä vastaaja pitää itseään. Näkyykö sukupuolten välillä eroa tässä muuttujassa? Valitettavasti kysymykseen on paljon vähemmän vastauksia kuin ylläolevaan, joten ero on vaikeampi saada selville.
Siirrytään lopuksi miesten ja naisten odotuksista aitoon käyttäytymiseen. Jokainen pikadeittailija päättää jokaisen tapaamansa pikakumppanin kohdalla, että haluaako hän tavata häntä jatkossakin vai ei. Tämän lisäksi hän arvioi kumppanin kuudella asteikolla, jotka ovat ulkonäkö (=attr_o), vilpittömyys (=sinc_o), älykkyys (=intel_o), hauskuus (=fun_o), kunnianhimo (=amb_o) sekä kuinka paljon heillä on hänen mielestään yhteisiä harrastuksia sekä mielenkiinnon kohteita (=shar_o). Tahtovatko miehet nähdä kumppania naisia useammin ja miten eri ominaisuudet vaikuttavat todennäköisyyteen tulla hyväksytyksi niin miehillä kuin naisilla?
Naiset kelpuuttavat 36,5 % miehistä toisille treffeille 4 minuutin pikatutustumisen jälkeen. Miehiin taasen teki riittävän vaikutuksen 47,5 % naisista. Tässäkin siten havaitaan naisten korkeammat kriteerit kumppanille. Odotukset omasta viehätysvoimasta olivat sukupuolten välillä suurin piirtein samat, mutta todellisuus oli miehille karumpi. Kolmesta täyttä 20 valloitusta odottaneesta Casanovastakaan yksikään ei saanut kaikkia (lopulta kymmentä) kumppania valloitetuksi. Kaikki tosin voittivat 36,5 prosentin keskiarvon, yhden hurmatessa jopa 9 naista, toisen 5 ja viimeisen 4.
Datasettini on varsin massiivinen tarjolla olevien muuttujien suhteen, joten keskityn tässä vain nopeasti muutamaan huomioon; kuinka miehet/naiset suhtautuvat etukäteen sokkotreffiensä laatuun, kuinka monen he uskovat olevan kiinnostuneen heistä ja mitkä ominaisuudet vaikuttavat siihen, että vastapuoli sanoo "kyllä" jatkotapaamiselle.
Yleisenä huomiona olen siirtynyt R-kielestä Pythoniin, koska töissä saan näperrellä R:n parissa nykyään aivan tarpeeksi. Blogi siirtyy siis tavallaan taas aivan alkuaikoihin, kun koitan opetella uutta ohjelmointikieltä ja motivoida itseäni blogin kirjoittamisella. Ehkä tämä blogi tulee kielen muutoksen seurauksena aktivoitumaan. Ehkä ei. Ainakin analyysieni tekninen toteutustaso ottaa takapakkia.
Mutta aloitetaan pureutuminen deittailun maailmaan!
Naisia kritisoidaan nykyään paljon siitä, että he ovat niin nirsoja ja asettavat miehille korkeat kriteerit. Tunnetusti Tinderissä naiset "swaippaavat vasemmalle" moninkertaisella todennäköisyydellä suhteessa miehiin. Perinteisemmillä nettideittailusivustoilla naiset hukkuvat miesten yhteydenottoihin, mutta miehet saavat naisilta yhteydenoton paljon harvemmin (Christian Rudderin Dataclysm-kirja sisältää paljon mielenkiintoista dataa kirjoittajan perustamalta OKCupid-sivustolta, voin suositella tutustumaan). Miten nämä nettideittailussa havaitut toimintamallit jalkautuvat speed dating-maailmaan?
Ylläolevasta kuviosta nähdään naisten ja miesten odotus tyytyväisyyteen tilaisuudessa tapaamiaan ihmisiä kohtaan, skaalalla 0-10, jossa 10 = täysin tyytyväinen. Histogrammista nähdään, että miesten odotukset ovat keskimäärin korkeammat kuin naisten. Naisten jakauma on selvästi enemmän vasemmalle kallellaan kuin miesten. Miesten keskiarvo tyytyväisyydelleen onkin 5,85, naisten 5,18. Ero on yli puoli "tyytyväisyysyksikköä". Se ei ole massiivinen, kuten Tinderissä ja OKCupidissa havaitut erot käyttäytymisessä, mutta selkeästi naisilla on lähtökohtaisesti skeptisempi asenne potentiaalisia miehiä kohtaan kuin miehillä vielä tapaamattomia naisia.
Näkyykö miesten optimistisempi asenne naisten viehättävyyttä kohtaan sitten naisten itsetunnossa? Koska naiset näyttäytyvät odottavan miesten miellyttävyydeltä vähemmän kuin miehet heiltä, loogisesti naisten tulisi osoittaa korkeampaa tietoisuutta omasta "markkina-arvostaan" deittailumarkkinoilla. Kyselylomakkeella kysyttiin, että kuinka monen he uskovat 20 pian tapaamastaan partnerista haluavan nähdä heidät tulevaisuudessakin. Mitä korkeampi vastaus, sitä viehättävämpänä vastaaja pitää itseään. Näkyykö sukupuolten välillä eroa tässä muuttujassa? Valitettavasti kysymykseen on paljon vähemmän vastauksia kuin ylläolevaan, joten ero on vaikeampi saada selville.
Pienellä otoskoolla jakaumista ei tällä kertaa saa selvää vastausta. Sukupuolten keskiarvot ovat käytännössä samat, miehillä 5,9 ja naisilla 5,87. Erot ovat kuitenkin nähtävissä: miehistä löytyy muutama oman elämänsä Casanova, jotka kelpaavat omasta mielestään kaikille pikadeittailukumppaneilleen. Naisista löytyy enemmän oman elämänsä hylkiöitä, jotka eivät mielestään tule kelpaamaan kenellekään, toisaalta vain yhdelle tai kahdelle kumppanille mielestään kelpaavissa miehiä on moninkertainen määrä. Pienen aineiston perusteella emme siis voi havaita merkittävää eroa siinä, että naiset pitäisivät omaa markkina-arvoaan miehiä lähtökohtaisesti korkeampana.
Siirrytään lopuksi miesten ja naisten odotuksista aitoon käyttäytymiseen. Jokainen pikadeittailija päättää jokaisen tapaamansa pikakumppanin kohdalla, että haluaako hän tavata häntä jatkossakin vai ei. Tämän lisäksi hän arvioi kumppanin kuudella asteikolla, jotka ovat ulkonäkö (=attr_o), vilpittömyys (=sinc_o), älykkyys (=intel_o), hauskuus (=fun_o), kunnianhimo (=amb_o) sekä kuinka paljon heillä on hänen mielestään yhteisiä harrastuksia sekä mielenkiinnon kohteita (=shar_o). Tahtovatko miehet nähdä kumppania naisia useammin ja miten eri ominaisuudet vaikuttavat todennäköisyyteen tulla hyväksytyksi niin miehillä kuin naisilla?
Naiset kelpuuttavat 36,5 % miehistä toisille treffeille 4 minuutin pikatutustumisen jälkeen. Miehiin taasen teki riittävän vaikutuksen 47,5 % naisista. Tässäkin siten havaitaan naisten korkeammat kriteerit kumppanille. Odotukset omasta viehätysvoimasta olivat sukupuolten välillä suurin piirtein samat, mutta todellisuus oli miehille karumpi. Kolmesta täyttä 20 valloitusta odottaneesta Casanovastakaan yksikään ei saanut kaikkia (lopulta kymmentä) kumppania valloitetuksi. Kaikki tosin voittivat 36,5 prosentin keskiarvon, yhden hurmatessa jopa 9 naista, toisen 5 ja viimeisen 4.
Naiset siis vaativat mieheltä enemmän ennen kuin he sanovat "kyllä" toisille treffeille. Mutta arvostavatko sukupuolet samalla tavalla kumppanin ominaisuuksia? Tähän hain vastausta tekemällä logistisen regression, jossa käytin kumppanin arvioita kuudella mainitulla asteikolla selittävinä muuttujina.
attr_o 1.620445
sinc_o 0.723257
intel_o 0.752947
fun_o 1.248377
amb_o 0.797075
shar_o 1.284619
Miesten arviot naisesta ja niiden vaikutus todennäköisyyten sanoa "kyllä" toisille treffeille
Miehillä tärkeintä on naisen ulkonäkö. Yhden pykälän lisäys ulkonäkö-skaalalla lisää todennäköisyyttä sanoa "kyllä" 1,6-kertaisesti. Naisen älykkyys, vilpittömyys ja kunnianhimo yllättäen laskivat (muiden muuttujien ollessa vakiona) todennäköisyyttä haluta nähdä häntä uudestaan. Hauskuus ja yhteiset mielenkiinnon kohteet lisäsivät todennäköisyyttä noin 1,25-kertaiseksi.
Yllättäen naisilla tulokset olivat samansuuntaiset:
Yllättäen naisilla tulokset olivat samansuuntaiset:
attr_o 1.273116
sinc_o 0.843561
intel_o 0.781485
fun_o 1.256415
amb_o 0.783069
shar_o 1.287888
Naisille miehen ulkonäöllä ei ole niin suurta vaikutusta, mutta muiden muuttujien kertoimet ovat likipitäin samat kuin miesten mallissa. Siis kun kyseessä on nopea 4 minuutin tapaaminen, kummatkin sukupuolet keskittyvät toisen ulkonäköön ja huumorintajuun sekä mahdollisiin samoihin mielenkiinnon kohteisiin. Tämä on varsin loogista. 4 minuuttia on lyhyt aika. Jos toinen miellyttää silmää ja lyhyessä ajassa löytyy yhteinen mielenkiinnon kohde, on nämä paljon tärkeämpiä kuin toisen kunnianhimo tai älykkyys; neljässä minuutissa harvoin käsitellään toisen urasuunnitelmia tai keskustella Platon ajattelun meriiteistä ja heikkouksista.
Lyhyenä yhteenvetona: naiset lähtökohtaisesti odottavat heikompitasoisia miehiä kuin miehet naisia ja myös konkreettisesti kelpuuttavat heitä pienemmällä todennäköisyydellä jatkotapaamiseen neljän minuutin pikatutustumisen jälkeen. Sen sijaan sukupuolten käsityksessä omasta viehätysvoimastaan ei ole pienestä aineistosta havaittavissa merkittävää eroa. Aineisto on vanha ja toisesta kulttuurista, mutta väittäisin tehtyjen havaintojen enemmän tai vähemmän myös sopivan Suomeen.
Tilaa:
Blogitekstit (Atom)