Voetbal, vorm en toeval

Gisteren wonnen de Rode Duivels met 5-0 van Cyprus. Een mooie match, ik heb ervan genoten. Vooral van het prachtige voetwerk van Hazard, die ik hetzelfde iedere week bij Chelsea zie doen. Maar ook de andere spelers leverden goed werk. Een forfaitzege waarvan ik op voorhand alleen had kunnen dromen (ik vond mijn 3-0 pronostiek al vrij gewaagd). Waar ik het wel al een hele tijd over wil hebben is “vorm”. Ik ben in mijn onderzoeksdomein (finance) veel bezig met randomness. Op de beurs is quasi alles random, maar mensen slagen er toch in om altijd wel patronen te zien waar er geen enkele bestaan.

Ik wil eens de analogie leggen met voetbal. Resultaten bij voetbal zijn een combinatie van vaardigheden (spelers, tactiek, ervaring, …) en van puur toeval (geluk & pech door oncontroleerbare omstandigheden). Dat kan niemand ontkennen. Waar wel over gediscussieerd kan worden is de verdeling tussen de twee. Veel mensen zullen intuïtief (en foutief) denken dat geluk maar een kleine rol speelt. Uiteraard hangt het af van de twee ploegen die tegenover elkaar staan. Hoe dichter hun niveau bij elkaar ligt, des te meer het toeval de uitslag van de wedstrijd zal bepalen. Hoe verder hun niveau uit elkaar ligt, des te meer de vaardigheden de uitslag van de wedstrijd zullen bepalen.

Om het verschil duidelijk te maken: een gedachte-experimentje. Stel dat Duitsland tegen zichzelf speelt. Beide ploegen hebben exact dezelfde opstelling. Neuer in de goal aan beide kanten, Reus aan beide kanten op linksvoor, noem maar op. Wie gaat die wedstrijd winnen? Wel, dat zal volledig door het toeval bepaald worden, want de vaardigheden zijn exact hetzelfde. De Reus met het witte truitje zal zijn finesseschot misschien net tegen de lat zien vliegen, terwijl de Reus met het zwart-rode truitje hem 5 cm meer naar links legt en de bal recht in de winkelhaak vliegt. Hoe dat komt? Wel, de wind stond wat anders, het gras lag een beetje verschillend, noem maar op. Er zijn zoveel factoren die niemand kan controleren.

Of laat Hazard en Diego Costa elk 10 penalties nemen tegen Thibaut Courtois. Van Hazard verwacht je misschien dat hij er 9 in de netten knalt, van Costa misschien 8. Dát is het verschil in vaardigheden. Maar als ze dan elk een reeks van 10 penalties geschoten hebben, en Hazard er 7 scoort en Costa 8, dan moet je niet afkomen dat Costa beter penalties kan nemen. Ook hier speelt geluk een grote rol. Zelfs een keeper die op volledig toevallig basis zijn hoek kiest zal af en toe een bal pakken. Hazard zal gemiddeld beter zijn, dát zijn de vaardigheden. Maar niemand kan voorspellen wat er op slechts 10 penalties kan gebeuren.

Kortom, geluk speelt een rol. Gisteren tijdens de wedstrijd hoorde ik mensen spreken over “vorm”. Het is een vreemd concept dat links en rechts gevormd wordt door analisten en sportjournalisten. Zijn je balcontrole’s beter, win je meer duels, maak je meer goals, geef je meer assists, dan is je vorm ongetwijfeld goed. Verlies je vaak de bal en duels, maak je een hele tijd geen goals, dan is je vorm slecht. Vaardigheden zullen hier zeker een rol spelen. Ik beweer niet dat vaardigheden constant zijn doorheen de tijd. Wellicht schommelen ze door allerlei factoren. Inzet, motivatie, blessureleed, enzovoorts. Maar geluk speelt ook een grote rol en dat lijkt niemand in te zien. Fellaini is sinds het begin van het seizoen bij ManU niet opeens drie keer beter geworden. In het begin van het seizoen dacht niemand dat hij zou spelen. Vandaag is hij een vaste waarde in dat team en ook bij de Rode Duivels toont hij ‘zijn vorm’. But really: hoeveel heeft dat met toeval te maken? We zullen dat nooit weten, maar ik wil er gerust op wedden: dat heeft véél met toeval te maken.

Het is alvast de moeite om altijd in het achterhoofd te houden: soms hebben spelers gewoon pech. Soms hebben ze gewoon geluk. Als Hazard geen voorzet geeft maar op wandel gaat, dan kopt Benteke geen bal binnen en vraag achteraf iedereen zich af waar hij was. Maar Hazard geeft de voorzet, Benteke kopt de bal er prachtig in and all is forgiven. Zoveel van hoe wij voetbal ervaren is puur toeval. Of neem het nog een graad erger: trainers. Je hebt trainers die hun ploeg het ene seizoen tot kampioen schoppen en het volgende seizoen moeten oprotten. Zijn de kwaliteiten van die trainer écht veranderd op die paar maanden tijd, of ben je gewoon een uitvlucht aan het zoeken omdat je te lui bent om eens goed na te denken? Had de ploeg  misschien eerst wat geluk en dan wat pech? Daarover wordt niet nagedacht. De trainer moet buiten, basta.

Het probleem met slechte wetenschap: jelly beans!

Ik heb gisteren in een aflevering van EconTalk een prachtig voorbeeld gehoord van een probleem dat in de statistiek vaak de kop opsteekt en het is relevant op zoveel vlakken dat je ervan achterover zou vallen.

Stel dat iemand beweert dat je van jelly beans uitslag krijgt. Hij wil daarmee naar de rechtbank. Dus besluit men dat te testen. Men neemt twee random groepen met mensen en geeft één van die groepen een week lang een zakje jelly beans, de andere (controle)groep krijgt niets. Na een week gaan ze de twee groepen vergelijken. Ze berekenen voor iedere groep het gemiddelde aantal rode vlekjes: 3 rode vlekjes voor de jelly beans groep en 2 rode vlekjes voor de controle groep. De jelly bean groep heeft meer rode vlekjes! Pr_JellyBeans_Lge

Maar how, wacht even. Uiteraard zijn die twee groepen maar steekproeven. En steekproeven zijn toevallige trekkingen uit een populatie. Als je toevallig een steekproef van andere mensen had genomen, dan had je misschien ook andere resultaten gekregen. Het is dus belangrijk om rekening te houden met de statistische significantie van je resultaten: is het gevonden effect echt, of is het gewoon toeval? Om daar rekening mee te houden veronderstel je eerst dat er in realiteit géén verschil in rode vlekjes bestaat tussen beide groepen, maar dat het aantal rode vlekjes natuurlijk wel varieert van persoon tot persoon. Als je dat veronderstelt, dan kan je berekenen hoe vaak je steekproeven gaat tegenkomen die wél een verschil in rode vlekjes tonen, zelfs als je zeker weet dat er geen echt verschil is. En als je dit alles hebt gedaan, dan kan je berekenen hoeveel het verschil in rode vlekjes moet bedragen opdat je in slechts 5% van alle mogelijke steekproeven die je kan trekken een foute beslissing neemt, met name zeggen dat er een verschil in vlekjes bestaat als er in realiteit geen verschil bestaat. Die 5% is een conventie. Dat wil zeggen dat je in 1 op 20 steekproeven toch de foute conclusie gaat trekken. Je kan immers nooit zeker zijn. Sommige gebruiken liever een foutenkans van 1%, maar de conventie is gewoonlijk 5%

Nadat men de statistische significantie heeft beoordeeld, ontdekt men dat het verschil in rode vlekjes dat men gevonden had statistisch niet significant is. Dus: geen probleem met jelly beans! “Ja maar how!”, roept iemand. “Het zijn alleen de blauwe jelly beans die rode vlekjes veroorzaken!”. Men doet de hele test opnieuw voor de blauwe jelly beans, maar geen significant verschil. “Ja maar how!”, roept iemand anders. “Het zijn de rode die problemen veroorzaken!”. Men doet de test opnieuw, geen significant verschil. En zo blijven er maar mensen roepen. Het zijn de groene, de gele, de zwarte, de witte, de fuchsia, de oranje, de mauve, noem maar op! Uiteindelijk heeft met 19 niet-significante tests bekomen en gaat men de laatste kleur onderzoeken: de roze jelly beans! En verdomme, het verschil in rode vlekjes in significant!

De dag erna in de gazet: “Roze jelly beans veroorzaken uitslag”. Je ziet het probleem al wel. Men heeft 20 tests gedaan, voor elke kleur. En in ieder van die tests gebruikt men die maximale foutenkans van 5%. M.a.w. de test die je gebruikt gaat in 1 op 20 gevallen een significant resultaat opleveren, zonder dat er in realiteit een effect bestaat. Het probleem is nu duidelijk.

In de realiteit gebeurt dit de hele tijd. Men komt met een nieuw medicijn en men blijft steekproeven nemen totdat er significante resultaten uit voort vloeien. Alle studies die niks opleveren smijten ze weg, maar de gouden studie stuurt men op naar een wetenschappelijk tijdschrift en iedereen is onder de indruk. Uiteraard, ze hebben die andere studies niet gezien. Dit is pure fraude, maar er zijn ook minder slechtbedoelde gevallen. Men schat een model, maar de resultaten zijn niet perfect. Hier en daar wordt er aan de variabelen gesleuteld en opeens bekomt men wel goede resulaten. Publicatiedruk speelt hier ook mee. In de psychologie geraak je amper gepubliceerd als je hypothese niet bevestigd wordt door je data. Of je hebt een verhaal waaruit een hypothese volgt en je onderzoekt een dataset, maar je hypothese wordt niet bevestigd. Maar er blijkt wel een andere variabele belangrijk te zijn. Je verzint een geloofwaardig verhaal rond deze variabele en schrijft je paper alsof je de juiste stappen hebt gevolgd. Geloof mij: dit wordt zeer – zeer – zeer vaak gedaan. Het verhaal wordt aangepast aan de resultaten. De kar wordt voor het paard gespannen.

Of neem Warren Buffett, same thing. Zijn trackrecord lijkt indrukwekkend. Jaar na jaar na jaar winst, absoluut significant hoger dan de markt. Maar is dat dan geluk of niet? Om dat te bepalen kan je niet enkel naar Buffett kijken. Het kan immers dat hij die ene lucky guy is uit de steekproef van miljoenen beleggers die op toevallige basis jaar na jaar geluk heeft gehad. De kans dat iemand bij roulette 25 keer na elkaar de juiste kleur kiest is 18/37 tot de 25e macht, of 0.0000015%. Als je iemand vindt die 25 keer na elkaar de juiste kleur heeft gekozen en je berekent die kans, dan zou je voor minder geloven dat hij het wiel gemanipuleerd heeft. Maar als je weet dat er 1 miljard mensen 25 keer een betje maken aan de roulettetafel, dan is er meer dan 90% kans dat er 10 of meer mensen 25 keer prijs hebben. Zijn dat allemaal Warren Buffett’s?