maanantai 24. syyskuuta 2018

Jalkapallojoukkueen syöttöverkoston merkitys menestykseen Venäjän MM-kisoissa

Jalkapallo ei jatkuvasti liikkeessä olevana pelinä ole yhtä hedelmällinen maaperä tilastotieteelle kuin Moneyballin synnyttänyt baseball. Kuitenkin tilastot ovat lajin kehityskulussa olleet jo pitkään mukana. Charles Reepin laskelmista 50-luvulla saatiin "tukea" Englannin surullisen kuuluisalle pitkän pallon taktiikalle, kun taas astetta sofistikoituneemmin jalkapallon tieteellistämistä edisti Kiovan Dynamossa 70-80-luvuilla Valeri Lobanovski. Lobanovski uskoi vahvasti systeemiteoriaan ja kollektiiviin. Jalkapallossa yksilöitä tärkeämpää on yhteydet heidän välillä. "Koko elämä on numero".

Bisnesmaailman tavoin 2010-luvulla datan hyödyntäminen jalkapallossa on lyönyt kunnolla lävitse. xG eli maaliodote on levinnyt muutamien tilastonörttien käytöstä jo televisiokommentaareihin. Jopa suomalaiset joukkueet keräävät laajalti dataa ja hyödyntävät sitä kehittäessään omaa pelaamistaan ja skoutatessaan vastustajaa.

StatsBomb, suurin jalkapalloanalytiikkaan keskittyvä sivusto, on julkaissut Venäjän MM-kisojen datan avoimella lisenssillä. Aion hyödyntää verkostoanalyysimenetelmiä datan perkaamiseen tutkiakseni Lobanovskin ajatusta joukkueista kahtena järjestelmänä, jossa avaimena on pelaajien väliset yhteydet.

Verkostoanalyysia on yksinkertaista soveltaa jalkapalloon ajattelemalla pelaajat noodeiksi ja pelaajan A syöttö pelaajalle B pelaajien A ja B väliseksi suunnatuksi linkiksi A -> B. Mitä useammin ottelun aikana A syöttää B:lle, sitä voimakkaampi on suhde A: sta B:hen (mutta ei välttämättä B: stä A:han). Tällä tavalla syntyvästä syöttöverkostosta voi laskea erilaisia tunnuslukuja. Yksi näistä on läheisyys (closeness), jossa lasketaan kuinka keskeinen kukin noodi on verkostossa mittaamalla noodin lyhin polku kuhunkin toiseen noodiin. Tämän syöttöfrekvenssillä painotetun verkoston tapauksessa tulkinta on, kuinka helposti pallo menee pelaajalta A pelaajalle B. Esimerkiksi jos A syöttää todella usein pelaajalle C ja C todella usein pelaajalle B, pallon saaminen A:lta B:lle on verrattain kivutonta. (mutta C:ltä A:lle taas vaikeaa, mutta käytän algoritmissäni sekä annettuja, että vastaanotettuja syöttöjä, jolloin syöttöketjun suunnalla ei ole väliä kahden pelaajan läheisyyttä arvioitaessa)

Esimerkiksi keskikenttäpelaajat ovat usein joukkueen pelinrakentelun dynamoja, joten on oletettavaa, että heillä on vahvat molemmin puoliset yhteydet kaikkiin muihin joukkueen pelaajiin ja täten lyhyt etäisyys jokaiseen joukkueen muuhun pelaajaan. Klassisesti hyökkääjät taas ovat voittopuolisesti vain vastaanottaneet syöttöjä, jolloin he ovat etäällä muusta joukkueesta, eikä pallo liiku heiltä esimerkiksi puolustukseen enää jouhevasti. Tosin jalkapallon evoluution nykytrendi on vahvasti universaaleja pelaajia suosiva, eikä Pippo Inzaghin kaltaiset peliin lähinnä maalin törkkäämällä osallistuvat pelaajat pelaa enää huipulla vaan myös kärjiltä odotetaan kokonaisvaltaista osallistumista niin puolustamiseen kuin pelinrakenteluun.

Oletukseni on, että syöttöverkostoltaan tiiviimpi joukkue on menestyvämpi kuin löyhempi. Eli joukkueen jokainen pelaaja on kiinteästi yhteyksissä muihin pelaajiin, pelipaikasta riippumatta. Tällöin joukkueen on helppo käyttää koko kenttää hyödykseen, sillä palloa saadaan liikutettua kivuttomasti keltä pelaajalta tahansa kelle pelaajalle tahansa. Jos taas syöttöverkosto pyörii lähinnä parin dynamon kautta muiden ollessa heikosti kytköksissä toisiinsa, on joukkue heikompi. Tällöin vastustajan on helppo prässätä pelinrakentelu pois eikä kentän tilaa käytetä optimaalisesti.


Kuvio 1. Finaalin syöttöverkostot

Yllä on esimerkiksi laskettu finaalin syöttöketjuista painotetut graafit. Kroatian syöttöverkosto näyttää silmämääräisesti tiiviimmältä ja myös läheisyys-mittari vahvistaa havainnon: Kroatian läheisyysindeksin keskiarvo on 0,33 ja Ranskan 0,4 (mitä lähempänä nollaa sen parempi), keskihajontojen ollessa 0,06 ja 0,11. Kroatian syöttelyssä siis oli koko joukkue paremmin mukana kuin Ranskalla.

Kroatia olikin ainakin omien muistikuvieni mukaan parempi joukkue aina helposti annettuun 2-1 rankkarimaaliin asti, jonka jälkeen pelin kontrolli (jos ei pallon hallinta) siirtyi Ranskalle. Kuvaavaaa on, että Ranskan syöttöverkostossa maalivahti Hugo Lloris on kiinteämmin mukana kuin Kroatian kollegansa Subasic ja hän syötti usein kärkeen Oliver Giroudille kun taas Subasicin syötöt kohdistuivat pääsääntöisesti toppariparille Lovren - Vida. Mielenkiintoisesti Ranskan keskikentän loistelias rakkikoira N'golo Kante on syöttöverkostossa sivuosassa, kun taas Kroatian trio Modric - Rakitic - Brozovic on kaiken ytimessä. Syöttöverkostosta saa sen kuvan, että Kroatia hallitsi palloa monipuolisesti, kun taas Ranska luotti yksinkertaisempiin kuvioihin ja parin pelaajan yhteistyöhön. Kroatia pitikin ottelussa pallo yli 60 prosenttisesti.

Ranska voitti finaalin kuitenkin lopulta melko vaivatta, vaikka teorian mukaan Kroatian olisi pitänyt viedä. Kuten sanottu, pallon hallinta ja pelin hallinta ovat kaksi eri asiaa. Miten teoria pärjää, kun läheisyysindeksiä tarkastellaan kaikkien 63 ottelun katsannossa?

Ottelun lopputulosta voi mallintaa sekä kategorisena (1X2), että jatkuvana maalierona (3-0 -> +3, 1-2 -> -1 jne). Päätän yksinkertaisuuden ja toisaalta voiton voimakkuuden huomioimisen vuoksi mallintaa ongelman jatkuvana muuttujana lineaarisella regressiolla. Selittävänä muuttujana on aina kahden joukkueen erotus valitussa muuttujassa, esimerkiksi jos kotijoukkue syötti ottelussa 300 kertaa ja vierasjoukkue 500 kertaa niin totalPassesDiff saa arvon -200. Läheisyysindikaattoreita laskin monia erilaisia, mutta lopuksi päädyin neljään: closenessMinDiff (erotus joukkueiden tärkeimmän pelaajan läheisyys-indikaattorissa), closenessSdDiff (erotus joukkueiden keskihajonnoissa), closenessMedianDiff (erotus mediaaneissa) sekä closesessForMinDiff (parhaiten joukkueiden syöttöverkostoihin integroituneiden hyökkääjien erotus).

Hypoteesihän oli: mitä tiiviimpi joukkue on (alhaisempi läheisyyden mediaani eli keskivertopelaajan integroituminen verkostoon ja alhaisempi keskihajonta, sitä paremmin se menestyy). Hyökkääjien integroituminen peliin on otettu mukaan, koska nykyfutiksen trendien mukaan oletusarvoisesti pelin rakenteluun osallistuvat giroudit ovat joukkueelleen hyödyllisempiä kuin voittopuolisesti maalintekoon keskittyvät kanet.

Koska alhaisemmat läheisyys-indikaattorien luvut ovat "parempia" ja ottelun lopputulos koodattu niin, että positiiviset arvot ovat kotijoukkueelle parempia, tulisi korrelaatiosuhteiden olla negatiivisia (jos kotijoukkueen läheisyyden mediaani on alhaisempi, menee arvo negatiivisen puolelle. Myös vierasjoukkueen korkeampi hajonta johtaisi kotijoukkueen kannalta toivottavaan negatiiviseen arvoon indikaattorissa)

Kuvio 2. Selittävien muuttujien sekä ottelun lopputuloksen korrelaatio

Ylläolevasta korrelaatiomatriisista nähdään, että joukkueen läheisyyden mediaani sekä minimi ja hyökkääjän minimi vaikuttavat heikohkosti negatiivisesti hypoteesin mukaan. Sen sijaan keskihajonnan vaikutus tuntuisi olevan lähes nollassa. Myös joukkueiden kokonaissyöttömäärällä ei ole vaikutusta; on tärkeämpää, että koko joukkue osallistuu syöttelyyn kuin kuinka paljon lopulta syötellään.



Lineaarisesta regressiosta nähdään, että vaikutussuhteet pysyvät oletettuina (lukuunottamatta keskihajontaa, joka vaikuttaa positiivisesti ja syöttöjen yhteismäärää, joka vaikuttaa negatiivisesti), mutta pienessä aineistossa ei päästä lähellekään tilastollista merkitsevyyttä eikö merkittäviä vaikutussuhteita. Muistetaan, että läheisyyden indikaattorin skaala on 0-1, jolloin täydellisen integroituneen mediaanipelaajan suhteessa täysin irtautuneeseen mediaanipelaajaan toisi vain 0,13 maalia lisää. Jos ottelun lopputulosta (1X2) pyritään ennustamaan hyödyntäen luotuja muuttujia ja kehittyneitä koneoppimisalgoritmejä, niin ei minusta vielä betsimiljönääriä ole tulossa; xgboost-mallini toimii juuri ja juuri arvaamista paremmin.

Syöttöverkostoja yksittäistapauksina tutkimalla saa jonkinlaisen idean joukkueen pelitavasta ja potentiaalisista kipukohdista, joihin vastustajaa kannata prässätä. Jonkun verran verkostosta lasketut tunnusluvut auttavat myös selittämään ottelun lopputulosta. Mutta vain vähän. Onneksi jalkapallo pysyy lajina, jota tiede ei voi koskaan ratkaista.

Loppuun: myös StatsBombissa on selitetty xgChain-metriikalla höystettyjä syöttöverkostoja jos aihe alkoi kiinnostamaan enemmän. Lähestymistapa on erilainen kuin omani, sillä itse hyödynnän verkostoa itseään metriikan laskemiseen.