Istraživači su predvidjeli ishod nakon simulacije čitavog fudbalskog turnira 100.000 puta.
Svjetsko prvenstvo u fudbalu 2018. godine je počelo u Rusiji u četvrtak i vjerovatno će biti jedan od najgledanijih sportskih događaja u historiji, što je popularnije čak i od Olimpijade. Dakle, potencijalni pobjednici su od velikog značaja.
Jedan od načina za procjenu vjerovatnih ishoda je gledati kladionice. Ove kompanije koriste profesionalne statistike da analiziraju obimne baze podataka o rezultatima na način koji kvantifikuje vjerovatnoću različitih ishoda bilo koje moguće utakmice. Na ovaj način, kladionice mogu ponuditi kvote na svim igrama koje će početi u narednih nekoliko nedelja, kao i kvote potencijalnih pobednika.
Još bolja procjena dolazi od kombinovanja kvota od puno različitih kladionica. Ovakav pristup predlaže da bi Brazil trebao biti najvjerojatniji pobjednik Svjetskog prvenstva 2018. godine, sa vjerovatnoćom od 16,6 odsto, a zatim slede Nemačka (12,8 odsto) i Španija (12,5 odsto).
Ali posljednjih godina, istraživači su razvili tehnike mašinskog učenja koje imaju potencijal da prevazilaze konvencionalne statističke pristupe. Šta ove nove tehnike predviđaju kao vjerovatni ishod Svjetskog prvenstva u 2018?
Odgovor dolazi od rada Andreasa Grolla na Tehničkom univerzitetu u Dortmundu u Nemačkoj i nekoliko kolega. Ovi momci koriste kombinaciju mašinskog učenja i konvencionalnih statistika, metod nazvanog slučajnog pristupa, da bi se identifikovao drugačiji najvjerovatniji pobjednik.
Prvo malo pozadine. Tehnika nasumičnog šuma pojavila se u posljednjih nekoliko godina kao moćan način za analizu velikih skupova podataka uz izbjegavanje nekih zamki drugih metoda rukovanja podacima. Zasniva se na ideji da se neki budući događaj može odrediti u stablu odlučivanja u kojem se ishod izračunava u svakoj grani, pozivajući se na skup podataka u obuci.
Međutim, stablo odluke pati od poznatog problema. U drugoj fazi procesa razgranavanja, odluke mogu biti ozbiljno iskrivljene pomoću podataka o obuci koji su rijetki i skloni velikim varijacijama u ovoj vrsti rezolucije, problemu koji se naziva prefitovanje.
Pristup nasumičnih šuma je drugačiji. Umjesto izračunavanja ishoda u svakoj grani, proces izračunava je ishod slučajnih grana. I ovo radi mnogo puta, svaki put sa različitim skupom slučajno odabranih grana. Konačni rezultat je prosjek svih ovih nasumično konstruisanih stabala odlučivanja.
Ovaj pristup ima značajne prednosti. Prvo, ne pati od istog problema sa prevelikim prestankom koji je uobičajen za drveće. Takođe otkriva koji su faktori najvažniji u određivanju ishoda.
Dakle, ako određeno drvo odluke sadrži puno parametara, postaje lako vidjeti koji je najveći utjecaj na ishod i koji ne. Ovi manje važni faktori se u budućnosti mogu ignorisati.
Groll i suradnici koriste upravo ovaj pristup za model Svjetskog prvenstva u 2018. godini. Modeliraju ishod svake igre koju će timovi vjerovatno igrati i koriste rezultate za izgradnju najvjerovatnijeg kursa turnira.
Groll i suradnici počinju sa širokim spektrom potencijalnih faktora koji mogu utvrditi ishod. Ovo uključuje ekonomske faktore kao što su BDP i populaciju zemlje, rangiranje nacionalnih timova FIFE i osobine samih timova, kao što je njihova prosječna starost, broj igrača u Ligi šampiona, imaju li prednost u domaćinstvu i tako dalje.
Zanimljivo je da pristup slučajne šume omogućava Grollu i suradnicima da uključe druge pokušaje rangiranja, kao što je rangiranje koje koriste kladionice.
Priključivanje svega toga u model pruža neke zanimljive uvide. Na primjer, najutjecajniji faktori se ispostavljaju kao rangiranje tima kreiranih drugim metodama, uključujući i one iz knjižara, FIFA i druge.
Drugi važni faktori uključuju BDP i broj igrača Lige šampiona u timu. Nenavadni faktori uključuju populaciju zemlje, nacionalnost trenera i tako dalje.
Predviđanja koja su stigla kroz ovaj proces razlikuju se od drugih na neke bitne načine. Za početak, metod slučajnih šuma odabira Španiju kao najverovatnijeg dobitnika, sa vjerovatnoćom od 17,8 odsto.
Međutim, veliki faktor u ovom predviđanju je struktura samog turnira. Ako Njemačka razjasni grupnu fazu takmičenja, verovatnije će se suočiti sa snažnim protivljenjem u fazi 16-tima. Zbog toga, metod slučajnih šuma izračunava šanse Njemačke da postignu četvrtfinale kao 58 procenata. Za razliku od toga, malo je vjerovatno da će se Španija suočiti s jakom opozicijom u finalu 16 i ima šansu od 73 odsto da dostigne četvrtfinale.
Ako oba igraju četvrtfinale, oni imaju manje ili više jednake šanse da pobjede. “Španija je blago favorizirana nad Njemačkom”, kaže Groll i co.
Ali postoji dodatni preokret. Proces nasumičnog drveta omogućava simuliranje čitavog turnira, i to stvara drugačiji rezultat.
Groll i ekipa su simulirali cijeli turnir 100.000 puta. “Prema najverovatnijem turnirskom kursu, umesto Španaca Nemački tim bi osvojio Svjetsko prvenstvo”, kažu.
Naravno, zbog velikog broja permutacija igara, ovaj kurs i dalje je izuzetno malo verovatan. Groll i Co su stavili kvote na oko 1 na 100.000.
Dakle, na početku turnira, Španija ima najbolje šanse za pobjedu, kaže Groll i co. Ali ako Njemačka dođe do četvrtfinala, onda postaje favorit.
Izvor: https://www.technologyreview.com/s/611397/machine-learning-predicts-world-cup-winner/