Peilingen en foutenmarges: watskeburt?!

Er is alweer een nieuwe politieke peiling beschikbaar, de zoveelste. Hier en daar doen zich dalingen en stijgingen van een paar procent voor, gewoonlijk binnen de foutenmarge. Dan zie je doorgaans twee soorten reacties. De eerste reactie is het zoeken naar allerlei verklaringen. Men extrapoleert de verschuivingen die waargenomen werden in de steekproef onmiddellijk naar de populatie, en daar moeten dus verklaringen voor bestaan. Een tweede reactie is de steekproef negeren omdat veel of alle verschuivingen binnen de foutenmarge liggen. Welke is de juiste?

Hoe werkt zo’n peiling?

Laten we eerst even overlopen wat er min of meer gebeurt. Je hebt dus een populatie van Vlamingen en daarvan wordt verondersteld dat ze in bepaalde categorieën opgedeeld kunnen worden. Die categorieën, dat zijn de verschillende politieke partijen waarop ze zouden stemmen op een bepaald ogenblik in de tijd. En doorgaans is er ook nog wel zo’n vervelende “ik weet het niet” categorie. Om te weten wat álle Vlamingen vinden, moet je verkiezingen organiseren. En dat kost véél geld. Dus niet echt de beste manier om iets te weten te komen over die Vlamingen. En dan mogen we op onze handen aan knieën gaan zitten en de statistische wetenschap bedanken voor de mooie alternatieven die ze in haar repertoire heeft zitten. De steekproef!

Zo’n steekproef (of peiling) wordt dan op verschillende tijdstippen genomen en er worden dan proporties berekend. Hoeveel % stemt op CD&V? Hoeveel % stemt op Groen? Enzovoorts. Maar een steekproef is maar een steekproef. Als die goed genomen wordt, is ze volledig random (eventueel gecorrigeerd voor bepaalde trends maar dat is hier niet zo belangrijk). Zie het als een grote pot met een dikke 6 miljoen snoepjes met allemaal andere kleuren. Oranje, blauw, geel, groen, etc. Je wil weten hoeveel snoepjes van elke kleur in de pot zitten. De hele pot openbreken en alle snoepjes tellen duurt véél te lang, dus je wil een steekproef nemen. Maar er bestaan héél veel variaties om op toevallige wijze 1.000 snoepjes uit die pot kan halen. De ene keer trek je 305 oranje snoepjes, de andere keer maar 280. Dus: je had net zo goed een andere steekproef kunnen nemen. En dan waren je proporties ook verschillend geweest. Daar moet je dus rekening mee houden. Je gaat rekening houden met de onzekerheid die je steekproef met zich meebrengt.

Ik heb even een populatie gesimuleerd van 6 miljoen virtuele kiezers. Van die 6 miljoen stemmen er exact 1.2 miljoen op Blauw (20%), 1.8 miljoen op Oranje (30%), 0.9 miljoen op Rood (15%) en 2.1 miljoen op Geel (35%). Vervolgens gaan we een steekproef van 1.000 kiezers nemen uit die populatie, op volledig toevallige wijze. In die steekproef gaan we dan telkens de proporties Blauw, Oranje, Rood en Geel berekenen en bijhouden op een ouderwets kladblaadje. En dan nemen we nog eens zo’n volledig toevallige steekproef. En opnieuw schrijven we de resultaten op. En nog eens, en nog eens, en nog eens. Totdat we duizend steekproeven bekomen. De onderstaande grafiek toont de proporties die ik heb neergepend in mijn kladblok (klik voor een groter exemplaar). En het was verdomme hard labeur!

samples1000

Zoals je kan zien kunnen de proporties nogal verschillen van steekproef tot steekproef. Zo behaalt Geel een maximum van 39.50%, of een minimum van 30.60%, in de steekproeven die ik getrokken heb. En dat terwijl we weten dat 35% van de kiezers voor Geel zou stemmen. Zo’n steekproef moet dus met de nodige voorzichtigheid geïnterpreteerd worden. Je ziet wel dat het er gemiddeld wel rond ligt. De gele lijn ligt gemiddeld inderdaad rond de 35%. Uiteraard wordt de variatie op zo’n grafiek kleiner als je een grotere steekproef neemt. Stel dat we een steekproef nemen van 10.000 Vlamingen i.p.v. 1.000. Dan ziet het er als volgt uit.

samples10000

Geel haalt nu een maximum van 36.85% en een minimum van 33.53% in de steekproeven die ik getrokken heb. De onzekerheid is erg verminderd, maar een steekproef van 10.000 Vlamingen is natuurlijk ook een pak duurder dan eentje van 1.000 Vlamingen. Keuzes maken!

(Mijn MATLAB code kan je hier downloaden)

Hoe interpreteren?

De interpretatie is niet bijzonder eenvoudig. Je moet eigenlijk al wat feeling met statistiek hebben. Ten eerste hangt het er al van af wat je referentiepunt is: een eerdere peiling of resultaten uit een verkiezing? Als je vergelijkt met de vorige verkiezing, dan had je indertijd de populatieproportie te pakken, die constant en 100% zeker is. Als je echter vergelijkt met een vorige peiling, dan had je de vorige keer ook maar een schatting te pakken, met de gebruikelijke onzekerheid daaromtrent. In beide gevallen ga je een hypothese testen, maar in het eerste geval ga je vergelijken met een constante en in het tweede geval met een andere onzekere schatting. Geen probleem hoor, dat gaat perfect, maar het verschil is belangrijk.

Nu spreekt men wel eens over een foutenmarge. Ik weet niet wat ze er exact mee bedoelen, maar ik gok dat ze een soort betrouwbaarheidsinterval bedoelen (zie mijn blogpost daarover). De vraag is natuurlijk: een betrouwbaarheidsinterval van wat? Van de schatting zelf? Van de schatting minus een constante proportie van bij de vorige verkiezing? Van de schatting minus een onzekere proportie van bij een vorige peiling? Dit alles zal immers de conclusie beïnvloeden. Het staat er helaas nooit bij, dus we hebben er het raden naar. Ik gok dat het gewoon een 95% betrouwbaarheidsinterval is rond de schatting zelf. In dat geval kan je zien of de resultaten van de vorige verkiezing (niet uit een peiling!) in dat interval vallen. Als ze binnen het interval liggen kan je zeggen dat er statistisch gezien geen significante wijziging heeft plaatsgevonden.

We zouden eigenlijk de data zelf moeten hebben, of de journalisten zouden ons meer informatie moeten geven, opdat we de juiste conclusie zouden kunnen trekken. Stel dat Geel in je steekproef 35% behaalt en op de vorige verkiezingen maar 30%. Je wil weten of die stijging significant is. Dan ga je dus de hypothese testen dat de huidige proportie van Geel groter is dan 30%. Afhankelijk van je berekeningen kan je die hypothese dan wél of niet gaan verwerpen. Altijd hangt aan zo’n hypothesetest een p-waarde vast. Stel dat de p-waarde in ons geval 0.15 is. Dan kunnen we bijv. zeggen:

“Als in realiteit de proporties in de populatie NIET gewijzigd zijn tussen vandaag en de vorige verkiezingen, dan is er nog steeds 15% kans dat we een verschil van +5% (of groter) observeren in een genomen steekproef.”

Doorgaans is de conclusie dan: “we gaan de hypothese dat de proporties NIET gewijzigd zijn niet verwerpen”. Of met andere woorden: statistisch gezien zijn de proporties niet verschillend van elkaar. Je kan daar nu op twee manieren op reageren, zoals hierboven beschreven:

  1. Redenen zoeken waarom Geel er 5% op vooruitgaat.
  2. Zeggen dat Geel er niet op vooruitgaat omdat die +5% even goed +0% zou kunnen zijn.

Beide reacties zijn suboptimaal. De eerste omdat het wel eens zou kunnen dat de proporties helemaal niet gewijzigd zijn en je dus helemaal geen redenen te zoeken hebt. Als de kans 15% is dat je +5% (of groter) zou vinden als in realiteit de proporties niet gewijzigd zijn, dan loop je dus risico dat je naar redenen zit te zoeken die gewoonweg niet bestaan. Je ziet dit fenomeen overal. De rente stijgt twee dagen op rij en opeens draait de economie beter, toch? Maar waren dat niet gewoon normale fluctuaties op de beurs, waar je per se patronen in wil zien?

De tweede reactie is ook suboptimaal, in die zin dat de proporties in je steekproef nog steeds de beste schatting zijn van wat er in realiteit gebeurd is. Als je in een steekproef een proportie van 35% vindt, dan is 35% de allerbeste schatting die je kan maken voor de onbekende proportie in de populatie. Dat wil zeggen: die schatting is niet vertekend en heeft de kleinste onzekerheid van alle mogelijke andere schatters. Om dus te stellen dat het evengoed 30% had kunnen zijn, is voor mij een brug te ver. Maar anderzijds kan je met deze methoden (betrouwbaarheidsinterval, p-waarde, etc… allemaal methoden uit de frequentistische statistiek) geen uitspraken doen in de zin van: “de kans dat de proportie in de populatie X% is zus of zo“. De onbekende parameter is immers een constante en over een constante kan je geen kansuitspraken doen. Je kan enkel veronderstellen dat de resultaten gelijk zijn gebleven (de nulhypothese heet dat) en zien hoe extreem je eigen steekproef is in het licht van die veronderstelling.

Bayesiaanse statistiek

Een andere oplossing hier is de Bayesiaanse statistiek. Die neemt de onbekende proportie als een toevalsvariabele. Je begint dan met een prior-verdeling. Zo’n verdeling beschrijft de kansverdeling van de proportie van iedere partij. Je behandelt de onbekende proportie hier dus, in tegenstelling tot de frequentistische statistiek, als een toevalsvariabele. De tweede stap is een steekproef nemen en de proporties daarin berekenen. De derde en laatste stap is een posterior-verdeling opstellen. Dat is een combinatie van de prior en de data: je gaat de prior verdeling “updaten” met de nieuwe informatie uit de steekproef. En wanneer je die posterior verdeling te pakken hebt, kan je kansuitspraken doen over de onbekende proporties in de populatie. En dan kan je dus ook perfect uitspraken doen als deze: “de kans dat de proportie van Geel gestegen is t.o.v. de vorige verkiezing is 50%“.

Mijn advies? Probeer eerst de frequentistische statistiek onder de knie te krijgen, dat kost al genoeg moeite. Ik zou al bijzonder tevreden zijn als journalisten in hun artikel niet van foutenmarge zouden spreken, maar betrouwbaarheidsintervallen zouden berekenen en die in een grafiekje zouden gieten. En dan kunnen ze ook ergens een streepje trekken om de resultaten van de vorige verkiezing aan te duiden. Liggen die binnen het interval? Dan is er mogelijk (maar niet zeker) niks aan het handje. Vallen ze er buiten, dan kan je spreken van een statistisch significant verschil. Zo’n grafiek is écht supersimpel en iedereen kan dat wel min of meer interpreteren.

Advertenties

Betrouwbaarheidsintervallen: hoe wél en hoe niet te interpreteren.

We gaan het over statistiek hebben. Het doel is om meer te weten te komen over een onbekende populatie. Daartoe gaan we een steekproef nemen en op basis daarvan gaan we uitspraken doen over de onbekende populatie. Bijvoorbeeld: we weten niet hoeveel de Belg gemiddeld weegt, maar we kunnen een steekproef nemen van een aantal Belgen, hun gewicht meten, en daar dan een gemiddelde van berekenen. Dat is het steekproefgemiddelde. Dit gemiddelde is meteen ook de beste schatting van het onbekende populatiegemiddelde. Er bestaat geen enkele functie van de observaties in de steekproef die een betere schatter is voor het populatiegemiddelde dan het steekproefgemiddelde.

Maar dat is ook maar één schatting, een puntschatting, zoals dat heet. Misschien heb je liever een intervalschatting. Een interval met waarden die wel eens in de buurt van het onbekende populatiegemiddelde zouden kunnen liggen. Dat noemt men een betrouwbaarheidsinterval. Iedereen heeft daar al wel een van gehoord, maar er bestaan veel misverstanden. Het belangrijkste misverstand ga ik hier bespreken. Om alles wat aangenamer te brengen ga ik eerst zelf een “onbekende” populatie simuleren. We weten dan wel hoe de populatie eruit ziet, maar straks kunnen we doen alsof we dat niet weten en dan zien of onze resultaten een beetje kloppen. Om het interessant te houden ga ik niet kiezen voor een normaalverdeling, maar voor iets dat wat schever is. Ik kies voor de Chi-kwadraat verdeling. Die is zo scheef als maar kan. Ik simuleer een populatie van 10.000 eenheden uit een Chi-kwadraat verdeling met 3 vrijheidsgraden. Een histogram van deze populatie ziet er zo uit (klik erop voor een groter formaat)

histogram

Dit is onze populatie. Het gemiddelde van deze populatie is 2.98, dat kunnen we gemakkelijk berekenen. Maar stel nu even dat we deze populatie niet observeren en dat we slechts een steekproef kunnen nemen. Ik neem een steekproef van 100 random observaties uit deze 10.000 datapunten. Het histogram van de steekproef ziet er als volgt uit:

sample

Het gemiddelde van deze steekproef is 3.13. We zien dat dit gemiddelde inderdaad kort bij 2.98 ligt. Het is dus zeker al een goede schatting van het populatiegemiddelde. Merk ook op dat dit zelfs het geval is ondanks dat de populatie zo scheef als wat is. Gelukkig maakt dat niet uit. Maar dit is dus slechts een puntschatting. We zouden ook een betrouwbaarheidsinterval (BI) kunnen opstellen. Aan zo’n interval is altijd een betrouwbaarheidspercentage gekoppeld. Vaak gebruikt men 95%. Als je met de data van deze steekproef een 95% BI zou berekenen, dan kom je op het volgende interval uit:

95% BI = [ 2.62 ; 3.65 ]

Maar hoe interpreteer je dit interval nu? Ik ben er vrij zeker van dat de meeste mensen zullen zeggen: “Er is 95% kans dat het populatiegemiddelde binnen dit interval ligt. M.a.w. er is 95% kans dat het populatiegemiddelde tussen 2.62 en 3.65 ligt.” Dat is helaas fout. Dit is niet de juiste manier om een betrouwbaarheidsinterval te interpreteren. De juiste manier is als volgt:

Het interval [ 2.62 ; 3.65 ] is tot stand gekomen met een methode die in 95% van de gevallen een interval zal opleveren waar het onbekende populatiegemiddelde in ligt.

Het verschil is erg subtiel. Het achterliggende idee is dat het populatiegemiddelde een constante is. Die constante mag dan wel onbekend zijn, maar het blijft een constante. Je kan geen kansuitspraken doen over een constante. Een constante ligt maar op één plek en nergens anders. Het betrouwbaarheidsinterval, echter, is wel het resultaat van toeval. Iedere steekproef die je neemt is gebaseerd op toeval. Je kan dus wel kansuitspraken doen over zo’n interval. Vandaar dat we zeggen dat de methode die we gebruiken om betrouwbaarheidsintervallen te berekenen in 95% van alle gevallen een interval oplevert waar het populatiegemiddelde in ligt. Maar dit wil dus niet (NIET!) zeggen dat, eenmaal je zo’n interval hebt berekend, er 95% kans is dat het onbekende populatiegemiddelde binnen dit interval ligt. Eénmaal je een interval hebt, ligt het populatiegemiddelde er ofwel in, ofwel niet in.

Om dat verder te duiden, zal ik 1.000 steekproeven van 100 observaties nemen uit onze populatie. Voor iedere steekproef bereken ik zo’n interval en dan gaan we kijken of het échte gemiddelde, 2.98, erin ligt. Het eerste interval dat we bekomen is [ 2.72 ; 3.62 ]. Het populatiegemiddelde ligt er inderdaad in. Het tweede dat we bekomen is [ 2.50 ; 3.49 ]. Alweer ligt het populatiegemiddelde erin. Het zeventiende interval dat we bekomen is [ 2.11 ; 2.91 ]. Het populatiegemiddelde ligt er deze keer niet in. En ga zo maar verder. De grafiek hieronder toont alle intervallen die we bekomen, alsook het “onbekende” populatiegemiddelde. Het is duidelijk dat bijzonder veel maar niet alle betrouwbaarheidsintervallen het onbekende populatiegemiddelde bevatten. Wanneer de rode lijn onder de oranje lijn komt, of de blauwe lijn boven de oranje lijn komt, bevat zo’n interval het gemiddelde niet. In alle andere gevallen wel.

bis

Uiteindelijk blijkt dat er 942 intervallen zijn waar het populatiegemiddelde wél binnen valt en 58 intervallen waar het populatiegemiddelde niet binnen valt. M.a.w. ruwweg 95%* van alle intervallen die we hebben berekend bevatten het onbekende populatiegemiddelde. Ruweg 5%* bevatten dit populatiegemiddelde niet. Als je er één interval uitpikt kan je echter niet meer zeggen: “de kans dat dit interval het onbekende populatiegemiddelde bevat is 95%”. Neen, ofwel ligt het gemiddelde erin, ofwel ligt het er niet in. Op voorhand (voordat je een steekproef neemt) heeft zo’n interval dus 95% kans om het onbekende populatiegemiddelde te bevatten. Maar achteraf is daar geen sprake meer van.

Dit is de enige correcte manier waarop je een betrouwbaarheidsinterval kan interpreteren. De onbekende parameter is een constante en het interval is het resultaat van het toeval. Je doet dus kansuitspraken over het interval en niet over de onbekende parameter. Maar het belangrijkste van al: enjoy the data and use statistics wisely!

*De reden waarom het niet éxact 95% en 5% is in dit voorbeeld is natuurlijk omdat we maar 1.000 steekproeven hebben genomen en het toeval dus nog altijd een rol speelt. Hoe meer steekproeven we nemen, hoe korter we bij het theoretische percentage van 95% zullen uitkomen.

Voetbal, vorm en toeval

Gisteren wonnen de Rode Duivels met 5-0 van Cyprus. Een mooie match, ik heb ervan genoten. Vooral van het prachtige voetwerk van Hazard, die ik hetzelfde iedere week bij Chelsea zie doen. Maar ook de andere spelers leverden goed werk. Een forfaitzege waarvan ik op voorhand alleen had kunnen dromen (ik vond mijn 3-0 pronostiek al vrij gewaagd). Waar ik het wel al een hele tijd over wil hebben is “vorm”. Ik ben in mijn onderzoeksdomein (finance) veel bezig met randomness. Op de beurs is quasi alles random, maar mensen slagen er toch in om altijd wel patronen te zien waar er geen enkele bestaan.

Ik wil eens de analogie leggen met voetbal. Resultaten bij voetbal zijn een combinatie van vaardigheden (spelers, tactiek, ervaring, …) en van puur toeval (geluk & pech door oncontroleerbare omstandigheden). Dat kan niemand ontkennen. Waar wel over gediscussieerd kan worden is de verdeling tussen de twee. Veel mensen zullen intuïtief (en foutief) denken dat geluk maar een kleine rol speelt. Uiteraard hangt het af van de twee ploegen die tegenover elkaar staan. Hoe dichter hun niveau bij elkaar ligt, des te meer het toeval de uitslag van de wedstrijd zal bepalen. Hoe verder hun niveau uit elkaar ligt, des te meer de vaardigheden de uitslag van de wedstrijd zullen bepalen.

Om het verschil duidelijk te maken: een gedachte-experimentje. Stel dat Duitsland tegen zichzelf speelt. Beide ploegen hebben exact dezelfde opstelling. Neuer in de goal aan beide kanten, Reus aan beide kanten op linksvoor, noem maar op. Wie gaat die wedstrijd winnen? Wel, dat zal volledig door het toeval bepaald worden, want de vaardigheden zijn exact hetzelfde. De Reus met het witte truitje zal zijn finesseschot misschien net tegen de lat zien vliegen, terwijl de Reus met het zwart-rode truitje hem 5 cm meer naar links legt en de bal recht in de winkelhaak vliegt. Hoe dat komt? Wel, de wind stond wat anders, het gras lag een beetje verschillend, noem maar op. Er zijn zoveel factoren die niemand kan controleren.

Of laat Hazard en Diego Costa elk 10 penalties nemen tegen Thibaut Courtois. Van Hazard verwacht je misschien dat hij er 9 in de netten knalt, van Costa misschien 8. Dát is het verschil in vaardigheden. Maar als ze dan elk een reeks van 10 penalties geschoten hebben, en Hazard er 7 scoort en Costa 8, dan moet je niet afkomen dat Costa beter penalties kan nemen. Ook hier speelt geluk een grote rol. Zelfs een keeper die op volledig toevallig basis zijn hoek kiest zal af en toe een bal pakken. Hazard zal gemiddeld beter zijn, dát zijn de vaardigheden. Maar niemand kan voorspellen wat er op slechts 10 penalties kan gebeuren.

Kortom, geluk speelt een rol. Gisteren tijdens de wedstrijd hoorde ik mensen spreken over “vorm”. Het is een vreemd concept dat links en rechts gevormd wordt door analisten en sportjournalisten. Zijn je balcontrole’s beter, win je meer duels, maak je meer goals, geef je meer assists, dan is je vorm ongetwijfeld goed. Verlies je vaak de bal en duels, maak je een hele tijd geen goals, dan is je vorm slecht. Vaardigheden zullen hier zeker een rol spelen. Ik beweer niet dat vaardigheden constant zijn doorheen de tijd. Wellicht schommelen ze door allerlei factoren. Inzet, motivatie, blessureleed, enzovoorts. Maar geluk speelt ook een grote rol en dat lijkt niemand in te zien. Fellaini is sinds het begin van het seizoen bij ManU niet opeens drie keer beter geworden. In het begin van het seizoen dacht niemand dat hij zou spelen. Vandaag is hij een vaste waarde in dat team en ook bij de Rode Duivels toont hij ‘zijn vorm’. But really: hoeveel heeft dat met toeval te maken? We zullen dat nooit weten, maar ik wil er gerust op wedden: dat heeft véél met toeval te maken.

Het is alvast de moeite om altijd in het achterhoofd te houden: soms hebben spelers gewoon pech. Soms hebben ze gewoon geluk. Als Hazard geen voorzet geeft maar op wandel gaat, dan kopt Benteke geen bal binnen en vraag achteraf iedereen zich af waar hij was. Maar Hazard geeft de voorzet, Benteke kopt de bal er prachtig in and all is forgiven. Zoveel van hoe wij voetbal ervaren is puur toeval. Of neem het nog een graad erger: trainers. Je hebt trainers die hun ploeg het ene seizoen tot kampioen schoppen en het volgende seizoen moeten oprotten. Zijn de kwaliteiten van die trainer écht veranderd op die paar maanden tijd, of ben je gewoon een uitvlucht aan het zoeken omdat je te lui bent om eens goed na te denken? Had de ploeg  misschien eerst wat geluk en dan wat pech? Daarover wordt niet nagedacht. De trainer moet buiten, basta.

Het probleem met slechte wetenschap: jelly beans!

Ik heb gisteren in een aflevering van EconTalk een prachtig voorbeeld gehoord van een probleem dat in de statistiek vaak de kop opsteekt en het is relevant op zoveel vlakken dat je ervan achterover zou vallen.

Stel dat iemand beweert dat je van jelly beans uitslag krijgt. Hij wil daarmee naar de rechtbank. Dus besluit men dat te testen. Men neemt twee random groepen met mensen en geeft één van die groepen een week lang een zakje jelly beans, de andere (controle)groep krijgt niets. Na een week gaan ze de twee groepen vergelijken. Ze berekenen voor iedere groep het gemiddelde aantal rode vlekjes: 3 rode vlekjes voor de jelly beans groep en 2 rode vlekjes voor de controle groep. De jelly bean groep heeft meer rode vlekjes! Pr_JellyBeans_Lge

Maar how, wacht even. Uiteraard zijn die twee groepen maar steekproeven. En steekproeven zijn toevallige trekkingen uit een populatie. Als je toevallig een steekproef van andere mensen had genomen, dan had je misschien ook andere resultaten gekregen. Het is dus belangrijk om rekening te houden met de statistische significantie van je resultaten: is het gevonden effect echt, of is het gewoon toeval? Om daar rekening mee te houden veronderstel je eerst dat er in realiteit géén verschil in rode vlekjes bestaat tussen beide groepen, maar dat het aantal rode vlekjes natuurlijk wel varieert van persoon tot persoon. Als je dat veronderstelt, dan kan je berekenen hoe vaak je steekproeven gaat tegenkomen die wél een verschil in rode vlekjes tonen, zelfs als je zeker weet dat er geen echt verschil is. En als je dit alles hebt gedaan, dan kan je berekenen hoeveel het verschil in rode vlekjes moet bedragen opdat je in slechts 5% van alle mogelijke steekproeven die je kan trekken een foute beslissing neemt, met name zeggen dat er een verschil in vlekjes bestaat als er in realiteit geen verschil bestaat. Die 5% is een conventie. Dat wil zeggen dat je in 1 op 20 steekproeven toch de foute conclusie gaat trekken. Je kan immers nooit zeker zijn. Sommige gebruiken liever een foutenkans van 1%, maar de conventie is gewoonlijk 5%

Nadat men de statistische significantie heeft beoordeeld, ontdekt men dat het verschil in rode vlekjes dat men gevonden had statistisch niet significant is. Dus: geen probleem met jelly beans! “Ja maar how!”, roept iemand. “Het zijn alleen de blauwe jelly beans die rode vlekjes veroorzaken!”. Men doet de hele test opnieuw voor de blauwe jelly beans, maar geen significant verschil. “Ja maar how!”, roept iemand anders. “Het zijn de rode die problemen veroorzaken!”. Men doet de test opnieuw, geen significant verschil. En zo blijven er maar mensen roepen. Het zijn de groene, de gele, de zwarte, de witte, de fuchsia, de oranje, de mauve, noem maar op! Uiteindelijk heeft met 19 niet-significante tests bekomen en gaat men de laatste kleur onderzoeken: de roze jelly beans! En verdomme, het verschil in rode vlekjes in significant!

De dag erna in de gazet: “Roze jelly beans veroorzaken uitslag”. Je ziet het probleem al wel. Men heeft 20 tests gedaan, voor elke kleur. En in ieder van die tests gebruikt men die maximale foutenkans van 5%. M.a.w. de test die je gebruikt gaat in 1 op 20 gevallen een significant resultaat opleveren, zonder dat er in realiteit een effect bestaat. Het probleem is nu duidelijk.

In de realiteit gebeurt dit de hele tijd. Men komt met een nieuw medicijn en men blijft steekproeven nemen totdat er significante resultaten uit voort vloeien. Alle studies die niks opleveren smijten ze weg, maar de gouden studie stuurt men op naar een wetenschappelijk tijdschrift en iedereen is onder de indruk. Uiteraard, ze hebben die andere studies niet gezien. Dit is pure fraude, maar er zijn ook minder slechtbedoelde gevallen. Men schat een model, maar de resultaten zijn niet perfect. Hier en daar wordt er aan de variabelen gesleuteld en opeens bekomt men wel goede resulaten. Publicatiedruk speelt hier ook mee. In de psychologie geraak je amper gepubliceerd als je hypothese niet bevestigd wordt door je data. Of je hebt een verhaal waaruit een hypothese volgt en je onderzoekt een dataset, maar je hypothese wordt niet bevestigd. Maar er blijkt wel een andere variabele belangrijk te zijn. Je verzint een geloofwaardig verhaal rond deze variabele en schrijft je paper alsof je de juiste stappen hebt gevolgd. Geloof mij: dit wordt zeer – zeer – zeer vaak gedaan. Het verhaal wordt aangepast aan de resultaten. De kar wordt voor het paard gespannen.

Of neem Warren Buffett, same thing. Zijn trackrecord lijkt indrukwekkend. Jaar na jaar na jaar winst, absoluut significant hoger dan de markt. Maar is dat dan geluk of niet? Om dat te bepalen kan je niet enkel naar Buffett kijken. Het kan immers dat hij die ene lucky guy is uit de steekproef van miljoenen beleggers die op toevallige basis jaar na jaar geluk heeft gehad. De kans dat iemand bij roulette 25 keer na elkaar de juiste kleur kiest is 18/37 tot de 25e macht, of 0.0000015%. Als je iemand vindt die 25 keer na elkaar de juiste kleur heeft gekozen en je berekent die kans, dan zou je voor minder geloven dat hij het wiel gemanipuleerd heeft. Maar als je weet dat er 1 miljard mensen 25 keer een betje maken aan de roulettetafel, dan is er meer dan 90% kans dat er 10 of meer mensen 25 keer prijs hebben. Zijn dat allemaal Warren Buffett’s?

Why the FT is talking nonsense (again)

Yesterday, I read this article: Why the BoE is talking nonsense (Google). It’s all about a graph from the Bank of England and how the axes are defined. According to the author, the graph is complete bullshit because the observations are graphed in terms of the number of standard deviations from the mean.

BoE-Nov-labour-market-slackSay you have time-series for three variables. All these variables could have different means and all these variables could have different degrees of variability. One variable might go up and down all over the place, while another may vary just a small amount. You can put them all in one graph, but you’ll have the risk that the graph will look like shit. If one variable has a mean of 100 and another a mean of 0, you can imagine you need a very large graph to show both variables. Or one variable might vary in such a way that another variable with smaller variability will look like a straight line.

A handy way to overcome this issue is to standardize all observations. For each variable, you first substract the mean from all observations. This way, all observations will be centered around zero and all variables will have the same mean: zero. But now there is still the issue of variability. To overcome this issue, we divide all the demeaned observations by the standard deviation of the variable. Now, each observation is expressed in the number of standard deviations from their mean. Standardizing data does not change the information content of the data. It is still the same data, with the same meaning.

So, what’s wrong with this article? The author’s claim is that some observations on the graph are six standard deviations away from the mean, which would make such events extremely unlikely (once in 254 million years). Therefore, the BoE is talking nonsense. So what’s wrong here? It’s really quite simple. In order to express observations in terms of probabilities, you need a probability distribution. The author implicitly assumed a normal distribution for the underlying data. I don’t know why, but he did. Different probability distributions have different parameters. For example, a normal distribution has two parameters: mean and standard deviation. So, if you know the mean and the standard deviation of a normal distribution, you can make statements about probabilities for normally distributed variables. But let’s take a look at other distributions. For example, a Beta distribution has four parameters and a Poisson distribution has only one. They also have a mean and a standard deviation, but they don’t necessarily tell you anything about the probabilities. Just remember that you need to know the distribution and its parameters in order to calculate probabilities. In the rare case of the normal distribution, the parameters just happen to be the mean and the standard deviation. But don’t think you can calculate a mean and a standard deviation from any kind of dataset and think you now have magical powers to infer probabilities. You don’t.

I could show you a graph of standardized daily stock returns through history, and you would see a huge drop somewhere around October 1987, on Black Monday. An observation about 22 standard deviations below the mean. Would that graph be silly? Of course not. If you assume a normal distribution, you wouldn’t expect a 22 standard deviation observation anywhere in the history of the universe. But we know daily returns do not follow a normal distribution. In fact, they follow a distribution with much heavier tails (i.e. higher probability of extreme events). This distribution still has a mean and a standard deviation and you can still standardize observations, but you cannot use the mean and the standard deviation to infer probabilities. If you’d like to talk about probabilities, first find out which distribution describes the random process (this is not always easy!), then estimate the parameters (this is not always easy!) and then talk about probabilities (okay, this is pretty easy).

It disturbs me a bit that a quality newspaper publishes these kinds of harsh articles. Don’t they have somebody over there that has elementary knowledge of statistics? By the way, I’ve seen this kind of stuff before at the FT. They claimed that markets are not efficient because the Capital Asset Pricing Model (CAPM) does not hold in reality. They even proclaimed Gene Fama is crazy because of this. But market efficiency doesn’t require the CAPM to hold. So they’re really quite funny, those harsh articles. Personally, I don’t write about stuff if I don’t understand it. Criticizing others for making errors when you don’t really know what you are talking about is just horrible. It’s too bad that some journalists can get away with this stuff, because surely some people out there will read their articles, believe them, and move on. And that’s just a shame.

Dubbele belasting: non bis in idem!

Ik las recent een uitstekend stuk van Daan Killemaes over de meerwaardebelasting. Het legt duidelijk uit waarom Marc Coecke geen meerwaardebelasting moet betalen. Wat mij wel opviel is het volgende:

“Bovendien zijn er goede economische en fiscale redenen om de meerwaarde hier niet te belasten. Zo is er het principe ‘non bis in idem’, dat stelt iets geen twee keer mag worden belast.”

Ik heb dit altijd een vreemd principe gevonden, omdat het aantal keer dat je een bedrag belast eigenlijk niet zo relevant is. Ik kom dit argument vaak tegen in verschillende discussies over belastingen: “men mag niet dubbel belasten!”. Ik wil dat hier tegenspreken. Wat vooral relevant is hoe efficiënt en effectief je belastingen heft. En dan kan het wel eens zijn dat je dubbel moet belasten, maar dat wil niet noodzakelijk zeggen dat je méér moet belasten. Laten we drie eenvoudige situaties bekijken om te duiden wat ik bedoel.

Situatie 1 – 30% personenbelasting en 21% BTW

Stel, mijn brutoloon is 3.000 euro per maand. Hierop moet ik 30% belastingen betalen, dus 900 euro. Mijn nettoloon is dan 2.100 euro en ik kan dus 2.100 euro bruto (incl. BTW) consumeren. In netto termen (excl. BTW) kan ik 1.736 euro consumeren en zal ik 364 euro (21%) BTW betalen. In totaal betaal ik 1.264 euro belastingen, of 42.15% op mijn brutoloon.

Situatie 2 – 42.15% personenbelasting en 0% BTW

Stel, mijn brutoloon is 3.000 euro per maand. Hierop moet ik 42.15% belastingen betalen, dus 1.264 euro. Mijn nettoloon is dan 1.736 euro en ik kan dus 1.736 euro bruto (incl. BTW) consumeren. In netto termen (excl. BTW) kan ik 1.736 euro consumeren en zal ik 0 euro (0%) BTW betalen. In totaal betaal ik 1.264 euro belastingen, of 42.15% op mijn brutoloon.

Situatie 3 – 0% personenbelasting en 42.15% BTW

Stel, mijn brutoloon is 3.000 euro per maand. Hierop moet ik 0% belastingen betalen, dus 0 euro. Mijn nettoloon is dan 3.000 euro en ik kan dus 3.000 euro bruto (incl. BTW) consumeren. In netto termen (excl. BTW) kan ik 1.736 euro consumeren en zal ik 1.264 euro (42.15%) BTW betalen. In totaal betaal ik 1.264 euro belastingen, of 42.15% op mijn brutoloon.

Conclusie

In alle drie de situaties kan ik excl. BTW exact evenveel consumeren. Ik mis dus niks. De totale belastingen die ik betaal zijn ook overal gelijk. Ik mis opnieuw dus niks en de overheid ook niet. Maar waar ligt het verschil dan? Het verschil ligt op het tijdstip en de manier van belasten. En het is niet moeilijk om jezelf in te beelden dat die tijdstippen en die manieren een invloed kunnen hebben op de efficiëntie en effectiviteit van het heffen van belastingen.

Je zou in situatie 1 kunnen spreken van een “dubbele belasting” die dus te verwerpen valt volgens het “non bis in idem” principe, maar als je situatie 2 en 3 gezien hebt, is er geen sprake van dubbele belasting. Je betaalt daar echter gewoon even veel. Je bent even goed af, alle andere zaken constant houdende. Het is dus niet de dubbele belasting die je als argument moet gebruiken, maar het argument dat de totale belasting te hoog of te laag zou zijn, of dat de manier waarop deze belasting geïnd wordt niet efficiënt is. Hetzelfde heb je bijvoorbeeld bij bedrijven. Men zegt wel eens dat men de winst dubbel belast: een keer met de vennootschapsbelasting om tot de nettowinst te komen en nog een keer met de roerende voorheffing wanneer de nettowinst als dividend uitgekeerd wordt. Dat is ook een dubbele belasting, maar men zou even goed de vennootschapsbelasting kunnen afschaffen en de roerende voorheffing kunnen verhogen, om aan hetzelfde bedrag aan belastingen te komen. Maar dan zullen er bedrijven zijn die geen dividenden uitkeren en alle winst aan het kapitaal toevoegen (waar absoluut niets mis mee is), zodat er vele jaren geen belasting betaald moet worden. Die bedrijven zullen pas op het einde een belasting betalen op hun winst, wanneer ze hun winst gaan omzetten naar cash aan private individuen, zoals bijvoorbeeld de aandeelhouders. Is dat de meest efficiënte oplossing? Zou het efficiënter zijn om ieder jaar een soort van voorschot te nemen? Zou dat de belastingsinkomsten van de overheid stabieler kunnen maken? Dat weet ik natuurlijk niet, want ik doe er geen onderzoek naar. Maar het toont alvast aan dat er in principe weinig mis is met dubbel belasten. Ik word liever 10 keer belast aan 3% dan 1 keer aan 30%. In het eerste geval hou ik immers meer over, desondanks dat ik 9 keer meer werd belast dan in het tweede geval.

Laat het a.u.b. dus verleden tijd zijn dat mensen argumenteren dat er geen vermogenswinstbelasting mag komen omdat die vermogens al eens belast werden bij de verwerving ervan. Zoek naar betere argumenten. Want dergelijk argument zou ik ook kunnen inroepen wanneer ik geen BTW wil betalen omdat op mijn inkomen al belastingen zijn betaald. Vrij absurd. Het gaat niet over hoeveel je belast, het gaat over de manier waarop je belast. Optimal taxation, naar het schijnt zijn er in Leuven enkele uitstekende onderzoekers die daar mee bezig zijn.

 

Hoe verklaren we het gedrag van aandelen?

Recent werd er door wellicht het bekendste finance-duo in de academische wereld nieuw en interessant onderzoek uitgebracht dat ons meer vertelt over de aandelenmarkt en het gedrag van de aandelen die daarin bestaan. Hun namen zijn Eugene Fama en Kenneth French en de vraag die ze helpen beantwoorden is: wat drijft het gedrag van aandelen? Sommigen onder jullie denken nu misschien: “ai, Fama, dat gaat over efficiënte markten”. Gelukkig is dat niet het geval. Deze paper is een pure empirische oefening die het gedrag van aandelen bestudeert. In wat volgt zal ik de belangrijkste conclusie uit het onderzoek (en al het onderzoek dat eraan vooraf ging) bespreken.

Wanneer we spreken over aandelen, kan je het over prijzen hebben, maar je kan het ook over rendement hebben. De prijs van een aandeel of het rendement ervan vertellen ons eigenlijk hetzelfde. De ene biedt niet noodzakelijk meer informatie dan de andere. Uit prijzen haal je het rendement, en met een rendementshistoriek en een beginprijs kan je de hele prijshistorie herconstrueren. We gaan specifiek focussen op rendement omdat je zo véél makkelijker aandelen kan vergelijken. Een aandeel dat stijgt van 100 naar 200 euro is qua prijs verschillend van eentje dat stijgt van 1 naar 2 euro, maar qua rendement zijn ze identiek. Bovendien bezit het rendement statistisch gezien leukere eigenschappen dan de prijs.

Alle aandelen ter wereld gedragen zich op een schijnbaar unieke manier. Ze bewegen vaak samen op en neer maar zijn toch uniek. Echter, uit het onderzoek blijkt dat je alle aandelen in slechts vijf dimensies kan klasseren, op basis van de correlatie van het aandeel zelf met vijf gediversifieerde aandelenportefeuilles met een zeer specifieke focus, die men ook wel eens “factoren” noemt. Je kan het gedrag van een aandeel dus reduceren door te kijken naar de gevoeligheid van het rendement van het aandeel aan het rendement van de vijf factoren. Deze factoren zijn:

  1. EMR : een marktportefeuille, de markt in zijn geheel dus, bijv. de MSCI World index of de S&P500 voor de VS. De afkorting EMR staat voor “excess market return”. Dit is het rendement van de marktportefeuille verminderd met het rendement op risicovrije overheidsobligaties.
  2. SMB: een portefeuille die specifiek in aandelen van kleine bedrijven belegt en dit financiert door aandelen van grote bedrijven te ‘short-sellen’. (Short selling =  een aandeel lenen en het onmiddellijk verkopen op de markt. Vandaag heb je dus cash waarmee je iets kan doen. Later moet je het aandeel op de markt kopen en teruggeven aan degene van wie je het geleend hebt. Je maakt winst als het aandeel in waarde is gezakt). SMB staat voor “small minus big”.
  3. HML: een portefeuille die specifiek in aandelen van zogenaamde waardebedrijven belegt en dit financiert door aandelen van groeibedrijven te short-sellen. Waardebedrijven zijn bedrijven met een hoge book-to-market ratio. Dat wil zeggen dat de waarde van hun eigen vermogen in de boeken veel hoger is dan de waarde van hun eigen vermogen op de beurs zelf. Groeibedrijven zijn bedrijven wiens waarde van het eigen vermogen in de boeken veel lager is dan de waarde van dat eigen vermogen op de beurs. HML staat voor “high minus low”.
  4. RMW: een portefeuille die specifiek in aandelen van bedrijven met hoge winstgevendheid belegt en dit financiert door aandelen van bedrijven met een lage winstgevendheid te short-sellen. RMW staat voor “robust minus weak”.
  5. CMA: een portefeuille die specifiek in aandelen van bedrijven die conservatief (weinig) investeren belegt en dit financiert door aandelen van bedrijven die aggresief (veel) investeren te short-sellen. CMA staat voor “conservative minus aggresive”.

Wat wil dit allemaal nu écht zeggen? Wel, laten we het even kwantificeren, we hebben het tenslotte over cijfers. Rendement is vrij volatiel. Het gaat omhoog en omlaag en het is dus een uitdaging om patronen van toevallige schommelingen te onderscheiden. Hiervoor gebruikt men een statistische techniek die regressieanalyse heet. Men kan dan het onderstaande model schatten:

R_{it} = a_i + b_i EMR_t + s_i SMB_t + h_i HML_t + r_i RMW_t + c_i CMA_t + e_{it}

Dit model lijkt complex, maar het is eenvoudig. Het verklaart het rendement van het aandeel van bedrijf i op tijdstip t, R_{it}, door het rendement van de vijf factoren EMR, SMB, HML, RMW en CMA op hetzelfde tijdstip t. De manier waarop iedere factor doorweegt wordt gemeten door de gevoeligheidscoëfficiënten b, s, h, r en c. Ze hebben het subscript i omdat ze voor ieder aandeel verschillend zijn, maar ze hebben geen subscript t omdat ze constant zijn doorheen de tijd, althans in dit model. Dan hebben we tenslotte nog a of “alpha”. Deze alpha is zeer belangrijk, omdat ze de gemiddelde component van het rendement vat die niet verklaard kan worden door één van de vijf factoren. Tenslotte zal e alle andere onvoorspelbare invloeden opvangen, die gemiddeld nul zijn.

Een concreet voorbeeld. Stel we hebben een aandeel waarvoor vandaag geldt: a = 0, b = 1, s = 0.5, h = 0, r = 0.2, c = 0.3 en e = 0.01. Verder zijn vandaag EMR = 2%, SMB = 3%, HML = 3%, RMW = 1% en CMA = 5%. Als je nu alles invult, krijg je het volgende:

R_{it}=0+1\times0.02+0.5\times0.03+0\times0.03+0.2\times0.01+0.3\times0.05+0.01=0.062

Met andere woorden, het aandeel heeft een rendement van 6.2% vandaag.

De manier waarop je onderzoekt of het ‘vijf-factor-model’ goed in staat is om aandelen te reduceren tot vijf dimensies is als volgt. Je beschouwt een groot aandeel portefeuilles, met allerlei types aandelen. Aparte portefeuilles met daarin kleine bedrijven, grote bedrijven, middelmatig grote bedrijven, winstgevende bedrijven, verlieslatende bedrijven, aggresieve investeerders, noem maar op. Uiteindelijk heb je voor ieder soort bedrijf dat er bestaat wel een portefeuille met gelijkaardige aandelen erin, bijv. eentje met allemaal grote bedrijven. Welnu, als je het bovenstaande model op al die portefeuilles toepast en telkens kunt stellen dat a = 0, dan heb je een goed model te pakken. Als a = 0, dan wil dat immers zeggen dat er geen component te vinden is die gemiddeld verschillend van nul is maar ongerelateerd aan de factoren. M.a.w. je kan alles verklaren met de factoren en niets anders. En wat blijkt nu? Dit model is inderdaad in staat om aandelen te reduceren tot vijf belangrijke dimensies.

Dit is wat ik wou meegeven. De volgende stap in de discussie is: wat betekenen die factoren nu eigenlijk? Wat is de economische intuïtie? Fama en French zullen je daar vertellen dat die factoren risico’s meten. Uit onderzoek in 2004 is bijvoorbeeld gebleken dat SMB en HML sterk gelinkt zijn aan het risico op faillissement. Andere onderzoekers hebben SMB en HML dan weer gelinkt aan macro-economisch risico. De verklaring van de risico-factoren lijkt dus plausibel. Meer onderzoek naar RMW en CMA moet echter nog gebeuren. In ieder geval is dit slechts de volgende stap in de discussie. Wat we echter zeker weten is dat aandelen niet echt uniek zijn. Ze worden allemaal gedreven door de vijf factoren en dit  onderzoek biedt iedere belegger een handige methodologie om complexe problemen te reduceren tot eenvoudige problemen.