Peilingen en foutenmarges: watskeburt?!

Er is alweer een nieuwe politieke peiling beschikbaar, de zoveelste. Hier en daar doen zich dalingen en stijgingen van een paar procent voor, gewoonlijk binnen de foutenmarge. Dan zie je doorgaans twee soorten reacties. De eerste reactie is het zoeken naar allerlei verklaringen. Men extrapoleert de verschuivingen die waargenomen werden in de steekproef onmiddellijk naar de populatie, en daar moeten dus verklaringen voor bestaan. Een tweede reactie is de steekproef negeren omdat veel of alle verschuivingen binnen de foutenmarge liggen. Welke is de juiste?

Hoe werkt zo’n peiling?

Laten we eerst even overlopen wat er min of meer gebeurt. Je hebt dus een populatie van Vlamingen en daarvan wordt verondersteld dat ze in bepaalde categorieën opgedeeld kunnen worden. Die categorieën, dat zijn de verschillende politieke partijen waarop ze zouden stemmen op een bepaald ogenblik in de tijd. En doorgaans is er ook nog wel zo’n vervelende “ik weet het niet” categorie. Om te weten wat álle Vlamingen vinden, moet je verkiezingen organiseren. En dat kost véél geld. Dus niet echt de beste manier om iets te weten te komen over die Vlamingen. En dan mogen we op onze handen aan knieën gaan zitten en de statistische wetenschap bedanken voor de mooie alternatieven die ze in haar repertoire heeft zitten. De steekproef!

Zo’n steekproef (of peiling) wordt dan op verschillende tijdstippen genomen en er worden dan proporties berekend. Hoeveel % stemt op CD&V? Hoeveel % stemt op Groen? Enzovoorts. Maar een steekproef is maar een steekproef. Als die goed genomen wordt, is ze volledig random (eventueel gecorrigeerd voor bepaalde trends maar dat is hier niet zo belangrijk). Zie het als een grote pot met een dikke 6 miljoen snoepjes met allemaal andere kleuren. Oranje, blauw, geel, groen, etc. Je wil weten hoeveel snoepjes van elke kleur in de pot zitten. De hele pot openbreken en alle snoepjes tellen duurt véél te lang, dus je wil een steekproef nemen. Maar er bestaan héél veel variaties om op toevallige wijze 1.000 snoepjes uit die pot kan halen. De ene keer trek je 305 oranje snoepjes, de andere keer maar 280. Dus: je had net zo goed een andere steekproef kunnen nemen. En dan waren je proporties ook verschillend geweest. Daar moet je dus rekening mee houden. Je gaat rekening houden met de onzekerheid die je steekproef met zich meebrengt.

Ik heb even een populatie gesimuleerd van 6 miljoen virtuele kiezers. Van die 6 miljoen stemmen er exact 1.2 miljoen op Blauw (20%), 1.8 miljoen op Oranje (30%), 0.9 miljoen op Rood (15%) en 2.1 miljoen op Geel (35%). Vervolgens gaan we een steekproef van 1.000 kiezers nemen uit die populatie, op volledig toevallige wijze. In die steekproef gaan we dan telkens de proporties Blauw, Oranje, Rood en Geel berekenen en bijhouden op een ouderwets kladblaadje. En dan nemen we nog eens zo’n volledig toevallige steekproef. En opnieuw schrijven we de resultaten op. En nog eens, en nog eens, en nog eens. Totdat we duizend steekproeven bekomen. De onderstaande grafiek toont de proporties die ik heb neergepend in mijn kladblok (klik voor een groter exemplaar). En het was verdomme hard labeur!

samples1000

Zoals je kan zien kunnen de proporties nogal verschillen van steekproef tot steekproef. Zo behaalt Geel een maximum van 39.50%, of een minimum van 30.60%, in de steekproeven die ik getrokken heb. En dat terwijl we weten dat 35% van de kiezers voor Geel zou stemmen. Zo’n steekproef moet dus met de nodige voorzichtigheid geïnterpreteerd worden. Je ziet wel dat het er gemiddeld wel rond ligt. De gele lijn ligt gemiddeld inderdaad rond de 35%. Uiteraard wordt de variatie op zo’n grafiek kleiner als je een grotere steekproef neemt. Stel dat we een steekproef nemen van 10.000 Vlamingen i.p.v. 1.000. Dan ziet het er als volgt uit.

samples10000

Geel haalt nu een maximum van 36.85% en een minimum van 33.53% in de steekproeven die ik getrokken heb. De onzekerheid is erg verminderd, maar een steekproef van 10.000 Vlamingen is natuurlijk ook een pak duurder dan eentje van 1.000 Vlamingen. Keuzes maken!

(Mijn MATLAB code kan je hier downloaden)

Hoe interpreteren?

De interpretatie is niet bijzonder eenvoudig. Je moet eigenlijk al wat feeling met statistiek hebben. Ten eerste hangt het er al van af wat je referentiepunt is: een eerdere peiling of resultaten uit een verkiezing? Als je vergelijkt met de vorige verkiezing, dan had je indertijd de populatieproportie te pakken, die constant en 100% zeker is. Als je echter vergelijkt met een vorige peiling, dan had je de vorige keer ook maar een schatting te pakken, met de gebruikelijke onzekerheid daaromtrent. In beide gevallen ga je een hypothese testen, maar in het eerste geval ga je vergelijken met een constante en in het tweede geval met een andere onzekere schatting. Geen probleem hoor, dat gaat perfect, maar het verschil is belangrijk.

Nu spreekt men wel eens over een foutenmarge. Ik weet niet wat ze er exact mee bedoelen, maar ik gok dat ze een soort betrouwbaarheidsinterval bedoelen (zie mijn blogpost daarover). De vraag is natuurlijk: een betrouwbaarheidsinterval van wat? Van de schatting zelf? Van de schatting minus een constante proportie van bij de vorige verkiezing? Van de schatting minus een onzekere proportie van bij een vorige peiling? Dit alles zal immers de conclusie beïnvloeden. Het staat er helaas nooit bij, dus we hebben er het raden naar. Ik gok dat het gewoon een 95% betrouwbaarheidsinterval is rond de schatting zelf. In dat geval kan je zien of de resultaten van de vorige verkiezing (niet uit een peiling!) in dat interval vallen. Als ze binnen het interval liggen kan je zeggen dat er statistisch gezien geen significante wijziging heeft plaatsgevonden.

We zouden eigenlijk de data zelf moeten hebben, of de journalisten zouden ons meer informatie moeten geven, opdat we de juiste conclusie zouden kunnen trekken. Stel dat Geel in je steekproef 35% behaalt en op de vorige verkiezingen maar 30%. Je wil weten of die stijging significant is. Dan ga je dus de hypothese testen dat de huidige proportie van Geel groter is dan 30%. Afhankelijk van je berekeningen kan je die hypothese dan wél of niet gaan verwerpen. Altijd hangt aan zo’n hypothesetest een p-waarde vast. Stel dat de p-waarde in ons geval 0.15 is. Dan kunnen we bijv. zeggen:

“Als in realiteit de proporties in de populatie NIET gewijzigd zijn tussen vandaag en de vorige verkiezingen, dan is er nog steeds 15% kans dat we een verschil van +5% (of groter) observeren in een genomen steekproef.”

Doorgaans is de conclusie dan: “we gaan de hypothese dat de proporties NIET gewijzigd zijn niet verwerpen”. Of met andere woorden: statistisch gezien zijn de proporties niet verschillend van elkaar. Je kan daar nu op twee manieren op reageren, zoals hierboven beschreven:

  1. Redenen zoeken waarom Geel er 5% op vooruitgaat.
  2. Zeggen dat Geel er niet op vooruitgaat omdat die +5% even goed +0% zou kunnen zijn.

Beide reacties zijn suboptimaal. De eerste omdat het wel eens zou kunnen dat de proporties helemaal niet gewijzigd zijn en je dus helemaal geen redenen te zoeken hebt. Als de kans 15% is dat je +5% (of groter) zou vinden als in realiteit de proporties niet gewijzigd zijn, dan loop je dus risico dat je naar redenen zit te zoeken die gewoonweg niet bestaan. Je ziet dit fenomeen overal. De rente stijgt twee dagen op rij en opeens draait de economie beter, toch? Maar waren dat niet gewoon normale fluctuaties op de beurs, waar je per se patronen in wil zien?

De tweede reactie is ook suboptimaal, in die zin dat de proporties in je steekproef nog steeds de beste schatting zijn van wat er in realiteit gebeurd is. Als je in een steekproef een proportie van 35% vindt, dan is 35% de allerbeste schatting die je kan maken voor de onbekende proportie in de populatie. Dat wil zeggen: die schatting is niet vertekend en heeft de kleinste onzekerheid van alle mogelijke andere schatters. Om dus te stellen dat het evengoed 30% had kunnen zijn, is voor mij een brug te ver. Maar anderzijds kan je met deze methoden (betrouwbaarheidsinterval, p-waarde, etc… allemaal methoden uit de frequentistische statistiek) geen uitspraken doen in de zin van: “de kans dat de proportie in de populatie X% is zus of zo“. De onbekende parameter is immers een constante en over een constante kan je geen kansuitspraken doen. Je kan enkel veronderstellen dat de resultaten gelijk zijn gebleven (de nulhypothese heet dat) en zien hoe extreem je eigen steekproef is in het licht van die veronderstelling.

Bayesiaanse statistiek

Een andere oplossing hier is de Bayesiaanse statistiek. Die neemt de onbekende proportie als een toevalsvariabele. Je begint dan met een prior-verdeling. Zo’n verdeling beschrijft de kansverdeling van de proportie van iedere partij. Je behandelt de onbekende proportie hier dus, in tegenstelling tot de frequentistische statistiek, als een toevalsvariabele. De tweede stap is een steekproef nemen en de proporties daarin berekenen. De derde en laatste stap is een posterior-verdeling opstellen. Dat is een combinatie van de prior en de data: je gaat de prior verdeling “updaten” met de nieuwe informatie uit de steekproef. En wanneer je die posterior verdeling te pakken hebt, kan je kansuitspraken doen over de onbekende proporties in de populatie. En dan kan je dus ook perfect uitspraken doen als deze: “de kans dat de proportie van Geel gestegen is t.o.v. de vorige verkiezing is 50%“.

Mijn advies? Probeer eerst de frequentistische statistiek onder de knie te krijgen, dat kost al genoeg moeite. Ik zou al bijzonder tevreden zijn als journalisten in hun artikel niet van foutenmarge zouden spreken, maar betrouwbaarheidsintervallen zouden berekenen en die in een grafiekje zouden gieten. En dan kunnen ze ook ergens een streepje trekken om de resultaten van de vorige verkiezing aan te duiden. Liggen die binnen het interval? Dan is er mogelijk (maar niet zeker) niks aan het handje. Vallen ze er buiten, dan kan je spreken van een statistisch significant verschil. Zo’n grafiek is écht supersimpel en iedereen kan dat wel min of meer interpreteren.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s