Peilingen en foutenmarges: watskeburt?!

Er is alweer een nieuwe politieke peiling beschikbaar, de zoveelste. Hier en daar doen zich dalingen en stijgingen van een paar procent voor, gewoonlijk binnen de foutenmarge. Dan zie je doorgaans twee soorten reacties. De eerste reactie is het zoeken naar allerlei verklaringen. Men extrapoleert de verschuivingen die waargenomen werden in de steekproef onmiddellijk naar de populatie, en daar moeten dus verklaringen voor bestaan. Een tweede reactie is de steekproef negeren omdat veel of alle verschuivingen binnen de foutenmarge liggen. Welke is de juiste?

Hoe werkt zo’n peiling?

Laten we eerst even overlopen wat er min of meer gebeurt. Je hebt dus een populatie van Vlamingen en daarvan wordt verondersteld dat ze in bepaalde categorieën opgedeeld kunnen worden. Die categorieën, dat zijn de verschillende politieke partijen waarop ze zouden stemmen op een bepaald ogenblik in de tijd. En doorgaans is er ook nog wel zo’n vervelende “ik weet het niet” categorie. Om te weten wat álle Vlamingen vinden, moet je verkiezingen organiseren. En dat kost véél geld. Dus niet echt de beste manier om iets te weten te komen over die Vlamingen. En dan mogen we op onze handen aan knieën gaan zitten en de statistische wetenschap bedanken voor de mooie alternatieven die ze in haar repertoire heeft zitten. De steekproef!

Zo’n steekproef (of peiling) wordt dan op verschillende tijdstippen genomen en er worden dan proporties berekend. Hoeveel % stemt op CD&V? Hoeveel % stemt op Groen? Enzovoorts. Maar een steekproef is maar een steekproef. Als die goed genomen wordt, is ze volledig random (eventueel gecorrigeerd voor bepaalde trends maar dat is hier niet zo belangrijk). Zie het als een grote pot met een dikke 6 miljoen snoepjes met allemaal andere kleuren. Oranje, blauw, geel, groen, etc. Je wil weten hoeveel snoepjes van elke kleur in de pot zitten. De hele pot openbreken en alle snoepjes tellen duurt véél te lang, dus je wil een steekproef nemen. Maar er bestaan héél veel variaties om op toevallige wijze 1.000 snoepjes uit die pot kan halen. De ene keer trek je 305 oranje snoepjes, de andere keer maar 280. Dus: je had net zo goed een andere steekproef kunnen nemen. En dan waren je proporties ook verschillend geweest. Daar moet je dus rekening mee houden. Je gaat rekening houden met de onzekerheid die je steekproef met zich meebrengt.

Ik heb even een populatie gesimuleerd van 6 miljoen virtuele kiezers. Van die 6 miljoen stemmen er exact 1.2 miljoen op Blauw (20%), 1.8 miljoen op Oranje (30%), 0.9 miljoen op Rood (15%) en 2.1 miljoen op Geel (35%). Vervolgens gaan we een steekproef van 1.000 kiezers nemen uit die populatie, op volledig toevallige wijze. In die steekproef gaan we dan telkens de proporties Blauw, Oranje, Rood en Geel berekenen en bijhouden op een ouderwets kladblaadje. En dan nemen we nog eens zo’n volledig toevallige steekproef. En opnieuw schrijven we de resultaten op. En nog eens, en nog eens, en nog eens. Totdat we duizend steekproeven bekomen. De onderstaande grafiek toont de proporties die ik heb neergepend in mijn kladblok (klik voor een groter exemplaar). En het was verdomme hard labeur!

samples1000

Zoals je kan zien kunnen de proporties nogal verschillen van steekproef tot steekproef. Zo behaalt Geel een maximum van 39.50%, of een minimum van 30.60%, in de steekproeven die ik getrokken heb. En dat terwijl we weten dat 35% van de kiezers voor Geel zou stemmen. Zo’n steekproef moet dus met de nodige voorzichtigheid geïnterpreteerd worden. Je ziet wel dat het er gemiddeld wel rond ligt. De gele lijn ligt gemiddeld inderdaad rond de 35%. Uiteraard wordt de variatie op zo’n grafiek kleiner als je een grotere steekproef neemt. Stel dat we een steekproef nemen van 10.000 Vlamingen i.p.v. 1.000. Dan ziet het er als volgt uit.

samples10000

Geel haalt nu een maximum van 36.85% en een minimum van 33.53% in de steekproeven die ik getrokken heb. De onzekerheid is erg verminderd, maar een steekproef van 10.000 Vlamingen is natuurlijk ook een pak duurder dan eentje van 1.000 Vlamingen. Keuzes maken!

(Mijn MATLAB code kan je hier downloaden)

Hoe interpreteren?

De interpretatie is niet bijzonder eenvoudig. Je moet eigenlijk al wat feeling met statistiek hebben. Ten eerste hangt het er al van af wat je referentiepunt is: een eerdere peiling of resultaten uit een verkiezing? Als je vergelijkt met de vorige verkiezing, dan had je indertijd de populatieproportie te pakken, die constant en 100% zeker is. Als je echter vergelijkt met een vorige peiling, dan had je de vorige keer ook maar een schatting te pakken, met de gebruikelijke onzekerheid daaromtrent. In beide gevallen ga je een hypothese testen, maar in het eerste geval ga je vergelijken met een constante en in het tweede geval met een andere onzekere schatting. Geen probleem hoor, dat gaat perfect, maar het verschil is belangrijk.

Nu spreekt men wel eens over een foutenmarge. Ik weet niet wat ze er exact mee bedoelen, maar ik gok dat ze een soort betrouwbaarheidsinterval bedoelen (zie mijn blogpost daarover). De vraag is natuurlijk: een betrouwbaarheidsinterval van wat? Van de schatting zelf? Van de schatting minus een constante proportie van bij de vorige verkiezing? Van de schatting minus een onzekere proportie van bij een vorige peiling? Dit alles zal immers de conclusie beïnvloeden. Het staat er helaas nooit bij, dus we hebben er het raden naar. Ik gok dat het gewoon een 95% betrouwbaarheidsinterval is rond de schatting zelf. In dat geval kan je zien of de resultaten van de vorige verkiezing (niet uit een peiling!) in dat interval vallen. Als ze binnen het interval liggen kan je zeggen dat er statistisch gezien geen significante wijziging heeft plaatsgevonden.

We zouden eigenlijk de data zelf moeten hebben, of de journalisten zouden ons meer informatie moeten geven, opdat we de juiste conclusie zouden kunnen trekken. Stel dat Geel in je steekproef 35% behaalt en op de vorige verkiezingen maar 30%. Je wil weten of die stijging significant is. Dan ga je dus de hypothese testen dat de huidige proportie van Geel groter is dan 30%. Afhankelijk van je berekeningen kan je die hypothese dan wél of niet gaan verwerpen. Altijd hangt aan zo’n hypothesetest een p-waarde vast. Stel dat de p-waarde in ons geval 0.15 is. Dan kunnen we bijv. zeggen:

“Als in realiteit de proporties in de populatie NIET gewijzigd zijn tussen vandaag en de vorige verkiezingen, dan is er nog steeds 15% kans dat we een verschil van +5% (of groter) observeren in een genomen steekproef.”

Doorgaans is de conclusie dan: “we gaan de hypothese dat de proporties NIET gewijzigd zijn niet verwerpen”. Of met andere woorden: statistisch gezien zijn de proporties niet verschillend van elkaar. Je kan daar nu op twee manieren op reageren, zoals hierboven beschreven:

  1. Redenen zoeken waarom Geel er 5% op vooruitgaat.
  2. Zeggen dat Geel er niet op vooruitgaat omdat die +5% even goed +0% zou kunnen zijn.

Beide reacties zijn suboptimaal. De eerste omdat het wel eens zou kunnen dat de proporties helemaal niet gewijzigd zijn en je dus helemaal geen redenen te zoeken hebt. Als de kans 15% is dat je +5% (of groter) zou vinden als in realiteit de proporties niet gewijzigd zijn, dan loop je dus risico dat je naar redenen zit te zoeken die gewoonweg niet bestaan. Je ziet dit fenomeen overal. De rente stijgt twee dagen op rij en opeens draait de economie beter, toch? Maar waren dat niet gewoon normale fluctuaties op de beurs, waar je per se patronen in wil zien?

De tweede reactie is ook suboptimaal, in die zin dat de proporties in je steekproef nog steeds de beste schatting zijn van wat er in realiteit gebeurd is. Als je in een steekproef een proportie van 35% vindt, dan is 35% de allerbeste schatting die je kan maken voor de onbekende proportie in de populatie. Dat wil zeggen: die schatting is niet vertekend en heeft de kleinste onzekerheid van alle mogelijke andere schatters. Om dus te stellen dat het evengoed 30% had kunnen zijn, is voor mij een brug te ver. Maar anderzijds kan je met deze methoden (betrouwbaarheidsinterval, p-waarde, etc… allemaal methoden uit de frequentistische statistiek) geen uitspraken doen in de zin van: “de kans dat de proportie in de populatie X% is zus of zo“. De onbekende parameter is immers een constante en over een constante kan je geen kansuitspraken doen. Je kan enkel veronderstellen dat de resultaten gelijk zijn gebleven (de nulhypothese heet dat) en zien hoe extreem je eigen steekproef is in het licht van die veronderstelling.

Bayesiaanse statistiek

Een andere oplossing hier is de Bayesiaanse statistiek. Die neemt de onbekende proportie als een toevalsvariabele. Je begint dan met een prior-verdeling. Zo’n verdeling beschrijft de kansverdeling van de proportie van iedere partij. Je behandelt de onbekende proportie hier dus, in tegenstelling tot de frequentistische statistiek, als een toevalsvariabele. De tweede stap is een steekproef nemen en de proporties daarin berekenen. De derde en laatste stap is een posterior-verdeling opstellen. Dat is een combinatie van de prior en de data: je gaat de prior verdeling “updaten” met de nieuwe informatie uit de steekproef. En wanneer je die posterior verdeling te pakken hebt, kan je kansuitspraken doen over de onbekende proporties in de populatie. En dan kan je dus ook perfect uitspraken doen als deze: “de kans dat de proportie van Geel gestegen is t.o.v. de vorige verkiezing is 50%“.

Mijn advies? Probeer eerst de frequentistische statistiek onder de knie te krijgen, dat kost al genoeg moeite. Ik zou al bijzonder tevreden zijn als journalisten in hun artikel niet van foutenmarge zouden spreken, maar betrouwbaarheidsintervallen zouden berekenen en die in een grafiekje zouden gieten. En dan kunnen ze ook ergens een streepje trekken om de resultaten van de vorige verkiezing aan te duiden. Liggen die binnen het interval? Dan is er mogelijk (maar niet zeker) niks aan het handje. Vallen ze er buiten, dan kan je spreken van een statistisch significant verschil. Zo’n grafiek is écht supersimpel en iedereen kan dat wel min of meer interpreteren.

Betrouwbaarheidsintervallen: hoe wél en hoe niet te interpreteren.

We gaan het over statistiek hebben. Het doel is om meer te weten te komen over een onbekende populatie. Daartoe gaan we een steekproef nemen en op basis daarvan gaan we uitspraken doen over de onbekende populatie. Bijvoorbeeld: we weten niet hoeveel de Belg gemiddeld weegt, maar we kunnen een steekproef nemen van een aantal Belgen, hun gewicht meten, en daar dan een gemiddelde van berekenen. Dat is het steekproefgemiddelde. Dit gemiddelde is meteen ook de beste schatting van het onbekende populatiegemiddelde. Er bestaat geen enkele functie van de observaties in de steekproef die een betere schatter is voor het populatiegemiddelde dan het steekproefgemiddelde.

Maar dat is ook maar één schatting, een puntschatting, zoals dat heet. Misschien heb je liever een intervalschatting. Een interval met waarden die wel eens in de buurt van het onbekende populatiegemiddelde zouden kunnen liggen. Dat noemt men een betrouwbaarheidsinterval. Iedereen heeft daar al wel een van gehoord, maar er bestaan veel misverstanden. Het belangrijkste misverstand ga ik hier bespreken. Om alles wat aangenamer te brengen ga ik eerst zelf een “onbekende” populatie simuleren. We weten dan wel hoe de populatie eruit ziet, maar straks kunnen we doen alsof we dat niet weten en dan zien of onze resultaten een beetje kloppen. Om het interessant te houden ga ik niet kiezen voor een normaalverdeling, maar voor iets dat wat schever is. Ik kies voor de Chi-kwadraat verdeling. Die is zo scheef als maar kan. Ik simuleer een populatie van 10.000 eenheden uit een Chi-kwadraat verdeling met 3 vrijheidsgraden. Een histogram van deze populatie ziet er zo uit (klik erop voor een groter formaat)

histogram

Dit is onze populatie. Het gemiddelde van deze populatie is 2.98, dat kunnen we gemakkelijk berekenen. Maar stel nu even dat we deze populatie niet observeren en dat we slechts een steekproef kunnen nemen. Ik neem een steekproef van 100 random observaties uit deze 10.000 datapunten. Het histogram van de steekproef ziet er als volgt uit:

sample

Het gemiddelde van deze steekproef is 3.13. We zien dat dit gemiddelde inderdaad kort bij 2.98 ligt. Het is dus zeker al een goede schatting van het populatiegemiddelde. Merk ook op dat dit zelfs het geval is ondanks dat de populatie zo scheef als wat is. Gelukkig maakt dat niet uit. Maar dit is dus slechts een puntschatting. We zouden ook een betrouwbaarheidsinterval (BI) kunnen opstellen. Aan zo’n interval is altijd een betrouwbaarheidspercentage gekoppeld. Vaak gebruikt men 95%. Als je met de data van deze steekproef een 95% BI zou berekenen, dan kom je op het volgende interval uit:

95% BI = [ 2.62 ; 3.65 ]

Maar hoe interpreteer je dit interval nu? Ik ben er vrij zeker van dat de meeste mensen zullen zeggen: “Er is 95% kans dat het populatiegemiddelde binnen dit interval ligt. M.a.w. er is 95% kans dat het populatiegemiddelde tussen 2.62 en 3.65 ligt.” Dat is helaas fout. Dit is niet de juiste manier om een betrouwbaarheidsinterval te interpreteren. De juiste manier is als volgt:

Het interval [ 2.62 ; 3.65 ] is tot stand gekomen met een methode die in 95% van de gevallen een interval zal opleveren waar het onbekende populatiegemiddelde in ligt.

Het verschil is erg subtiel. Het achterliggende idee is dat het populatiegemiddelde een constante is. Die constante mag dan wel onbekend zijn, maar het blijft een constante. Je kan geen kansuitspraken doen over een constante. Een constante ligt maar op één plek en nergens anders. Het betrouwbaarheidsinterval, echter, is wel het resultaat van toeval. Iedere steekproef die je neemt is gebaseerd op toeval. Je kan dus wel kansuitspraken doen over zo’n interval. Vandaar dat we zeggen dat de methode die we gebruiken om betrouwbaarheidsintervallen te berekenen in 95% van alle gevallen een interval oplevert waar het populatiegemiddelde in ligt. Maar dit wil dus niet (NIET!) zeggen dat, eenmaal je zo’n interval hebt berekend, er 95% kans is dat het onbekende populatiegemiddelde binnen dit interval ligt. Eénmaal je een interval hebt, ligt het populatiegemiddelde er ofwel in, ofwel niet in.

Om dat verder te duiden, zal ik 1.000 steekproeven van 100 observaties nemen uit onze populatie. Voor iedere steekproef bereken ik zo’n interval en dan gaan we kijken of het échte gemiddelde, 2.98, erin ligt. Het eerste interval dat we bekomen is [ 2.72 ; 3.62 ]. Het populatiegemiddelde ligt er inderdaad in. Het tweede dat we bekomen is [ 2.50 ; 3.49 ]. Alweer ligt het populatiegemiddelde erin. Het zeventiende interval dat we bekomen is [ 2.11 ; 2.91 ]. Het populatiegemiddelde ligt er deze keer niet in. En ga zo maar verder. De grafiek hieronder toont alle intervallen die we bekomen, alsook het “onbekende” populatiegemiddelde. Het is duidelijk dat bijzonder veel maar niet alle betrouwbaarheidsintervallen het onbekende populatiegemiddelde bevatten. Wanneer de rode lijn onder de oranje lijn komt, of de blauwe lijn boven de oranje lijn komt, bevat zo’n interval het gemiddelde niet. In alle andere gevallen wel.

bis

Uiteindelijk blijkt dat er 942 intervallen zijn waar het populatiegemiddelde wél binnen valt en 58 intervallen waar het populatiegemiddelde niet binnen valt. M.a.w. ruwweg 95%* van alle intervallen die we hebben berekend bevatten het onbekende populatiegemiddelde. Ruweg 5%* bevatten dit populatiegemiddelde niet. Als je er één interval uitpikt kan je echter niet meer zeggen: “de kans dat dit interval het onbekende populatiegemiddelde bevat is 95%”. Neen, ofwel ligt het gemiddelde erin, ofwel ligt het er niet in. Op voorhand (voordat je een steekproef neemt) heeft zo’n interval dus 95% kans om het onbekende populatiegemiddelde te bevatten. Maar achteraf is daar geen sprake meer van.

Dit is de enige correcte manier waarop je een betrouwbaarheidsinterval kan interpreteren. De onbekende parameter is een constante en het interval is het resultaat van het toeval. Je doet dus kansuitspraken over het interval en niet over de onbekende parameter. Maar het belangrijkste van al: enjoy the data and use statistics wisely!

*De reden waarom het niet éxact 95% en 5% is in dit voorbeeld is natuurlijk omdat we maar 1.000 steekproeven hebben genomen en het toeval dus nog altijd een rol speelt. Hoe meer steekproeven we nemen, hoe korter we bij het theoretische percentage van 95% zullen uitkomen.