Het probleem met slechte wetenschap: jelly beans!

Ik heb gisteren in een aflevering van EconTalk een prachtig voorbeeld gehoord van een probleem dat in de statistiek vaak de kop opsteekt en het is relevant op zoveel vlakken dat je ervan achterover zou vallen.

Stel dat iemand beweert dat je van jelly beans uitslag krijgt. Hij wil daarmee naar de rechtbank. Dus besluit men dat te testen. Men neemt twee random groepen met mensen en geeft één van die groepen een week lang een zakje jelly beans, de andere (controle)groep krijgt niets. Na een week gaan ze de twee groepen vergelijken. Ze berekenen voor iedere groep het gemiddelde aantal rode vlekjes: 3 rode vlekjes voor de jelly beans groep en 2 rode vlekjes voor de controle groep. De jelly bean groep heeft meer rode vlekjes! Pr_JellyBeans_Lge

Maar how, wacht even. Uiteraard zijn die twee groepen maar steekproeven. En steekproeven zijn toevallige trekkingen uit een populatie. Als je toevallig een steekproef van andere mensen had genomen, dan had je misschien ook andere resultaten gekregen. Het is dus belangrijk om rekening te houden met de statistische significantie van je resultaten: is het gevonden effect echt, of is het gewoon toeval? Om daar rekening mee te houden veronderstel je eerst dat er in realiteit géén verschil in rode vlekjes bestaat tussen beide groepen, maar dat het aantal rode vlekjes natuurlijk wel varieert van persoon tot persoon. Als je dat veronderstelt, dan kan je berekenen hoe vaak je steekproeven gaat tegenkomen die wél een verschil in rode vlekjes tonen, zelfs als je zeker weet dat er geen echt verschil is. En als je dit alles hebt gedaan, dan kan je berekenen hoeveel het verschil in rode vlekjes moet bedragen opdat je in slechts 5% van alle mogelijke steekproeven die je kan trekken een foute beslissing neemt, met name zeggen dat er een verschil in vlekjes bestaat als er in realiteit geen verschil bestaat. Die 5% is een conventie. Dat wil zeggen dat je in 1 op 20 steekproeven toch de foute conclusie gaat trekken. Je kan immers nooit zeker zijn. Sommige gebruiken liever een foutenkans van 1%, maar de conventie is gewoonlijk 5%

Nadat men de statistische significantie heeft beoordeeld, ontdekt men dat het verschil in rode vlekjes dat men gevonden had statistisch niet significant is. Dus: geen probleem met jelly beans! “Ja maar how!”, roept iemand. “Het zijn alleen de blauwe jelly beans die rode vlekjes veroorzaken!”. Men doet de hele test opnieuw voor de blauwe jelly beans, maar geen significant verschil. “Ja maar how!”, roept iemand anders. “Het zijn de rode die problemen veroorzaken!”. Men doet de test opnieuw, geen significant verschil. En zo blijven er maar mensen roepen. Het zijn de groene, de gele, de zwarte, de witte, de fuchsia, de oranje, de mauve, noem maar op! Uiteindelijk heeft met 19 niet-significante tests bekomen en gaat men de laatste kleur onderzoeken: de roze jelly beans! En verdomme, het verschil in rode vlekjes in significant!

De dag erna in de gazet: “Roze jelly beans veroorzaken uitslag”. Je ziet het probleem al wel. Men heeft 20 tests gedaan, voor elke kleur. En in ieder van die tests gebruikt men die maximale foutenkans van 5%. M.a.w. de test die je gebruikt gaat in 1 op 20 gevallen een significant resultaat opleveren, zonder dat er in realiteit een effect bestaat. Het probleem is nu duidelijk.

In de realiteit gebeurt dit de hele tijd. Men komt met een nieuw medicijn en men blijft steekproeven nemen totdat er significante resultaten uit voort vloeien. Alle studies die niks opleveren smijten ze weg, maar de gouden studie stuurt men op naar een wetenschappelijk tijdschrift en iedereen is onder de indruk. Uiteraard, ze hebben die andere studies niet gezien. Dit is pure fraude, maar er zijn ook minder slechtbedoelde gevallen. Men schat een model, maar de resultaten zijn niet perfect. Hier en daar wordt er aan de variabelen gesleuteld en opeens bekomt men wel goede resulaten. Publicatiedruk speelt hier ook mee. In de psychologie geraak je amper gepubliceerd als je hypothese niet bevestigd wordt door je data. Of je hebt een verhaal waaruit een hypothese volgt en je onderzoekt een dataset, maar je hypothese wordt niet bevestigd. Maar er blijkt wel een andere variabele belangrijk te zijn. Je verzint een geloofwaardig verhaal rond deze variabele en schrijft je paper alsof je de juiste stappen hebt gevolgd. Geloof mij: dit wordt zeer – zeer – zeer vaak gedaan. Het verhaal wordt aangepast aan de resultaten. De kar wordt voor het paard gespannen.

Of neem Warren Buffett, same thing. Zijn trackrecord lijkt indrukwekkend. Jaar na jaar na jaar winst, absoluut significant hoger dan de markt. Maar is dat dan geluk of niet? Om dat te bepalen kan je niet enkel naar Buffett kijken. Het kan immers dat hij die ene lucky guy is uit de steekproef van miljoenen beleggers die op toevallige basis jaar na jaar geluk heeft gehad. De kans dat iemand bij roulette 25 keer na elkaar de juiste kleur kiest is 18/37 tot de 25e macht, of 0.0000015%. Als je iemand vindt die 25 keer na elkaar de juiste kleur heeft gekozen en je berekent die kans, dan zou je voor minder geloven dat hij het wiel gemanipuleerd heeft. Maar als je weet dat er 1 miljard mensen 25 keer een betje maken aan de roulettetafel, dan is er meer dan 90% kans dat er 10 of meer mensen 25 keer prijs hebben. Zijn dat allemaal Warren Buffett’s?

4 gedachten over “Het probleem met slechte wetenschap: jelly beans!

  1. Warren Buffett lijkt zo speciaal, maar ik heb een artikel gelezen dat hij eigenlijk undergeperformed heeft t.o.v. een denkbeeldige smallcap value index. Hij kocht voornamelijk US smallcaps met lage p/es en die hebben uitzonderlijk goed gepresteerd sinds WWII , je zou dus kunnen stellen dat zelfs Buffett index investing heeft undergeperformd. dus zo speciaal is hij dan niet.

  2. Ik heb gelijkaardige verhalen gehoord maar heb ze nog niet in detail kunnen checken. Wel heb ik weet van deze paper: http://www.econ.yale.edu/~af227/pdf/Buffett%27s%20Alpha%20-%20Frazzini,%20Kabiller%20and%20Pedersen.pdf

    Als ze zijn returns tegen traditionele risicofactoren afzetten heeft hij een significante alpha. Maar: “However, we find that the alpha becomes insignificant when controlling for exposures to Betting-Against-Beta and Quality-Minus-Junk factors.”

    Hij lijkt niet speciaal geluk gehad te hebben maar ook niet speciaal skills te hebben. Integendeel: zijn returns lijken het resultaat van een leveraged strategy met goedkope veilige aandelen.

  3. Leuke post! Doet me terugdenken aan een schoolvoorbeeld van ‘foute statistiek’: je kan bijvoorbeeld statistisch aantonen dat er correlatie is tussen iemands lengte en IQ, door ‘leeftijd’ als variabele weg te laten en je groep samen te stellen door van elke lengte voldoende samples te nemen. 10 mensen tussen 0-50cm, 10 tussen 50-100cm enz… De aandachtige lezer zal altijd wel merken dat er iets niet klopt, maar de doordeweekse lezer van een krantenartikel zal wederom om de tuin geleid worden, zoals in zovele statistische studies.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s