Betrouwbaarheidsintervallen: hoe wél en hoe niet te interpreteren.

We gaan het over statistiek hebben. Het doel is om meer te weten te komen over een onbekende populatie. Daartoe gaan we een steekproef nemen en op basis daarvan gaan we uitspraken doen over de onbekende populatie. Bijvoorbeeld: we weten niet hoeveel de Belg gemiddeld weegt, maar we kunnen een steekproef nemen van een aantal Belgen, hun gewicht meten, en daar dan een gemiddelde van berekenen. Dat is het steekproefgemiddelde. Dit gemiddelde is meteen ook de beste schatting van het onbekende populatiegemiddelde. Er bestaat geen enkele functie van de observaties in de steekproef die een betere schatter is voor het populatiegemiddelde dan het steekproefgemiddelde.

Maar dat is ook maar één schatting, een puntschatting, zoals dat heet. Misschien heb je liever een intervalschatting. Een interval met waarden die wel eens in de buurt van het onbekende populatiegemiddelde zouden kunnen liggen. Dat noemt men een betrouwbaarheidsinterval. Iedereen heeft daar al wel een van gehoord, maar er bestaan veel misverstanden. Het belangrijkste misverstand ga ik hier bespreken. Om alles wat aangenamer te brengen ga ik eerst zelf een “onbekende” populatie simuleren. We weten dan wel hoe de populatie eruit ziet, maar straks kunnen we doen alsof we dat niet weten en dan zien of onze resultaten een beetje kloppen. Om het interessant te houden ga ik niet kiezen voor een normaalverdeling, maar voor iets dat wat schever is. Ik kies voor de Chi-kwadraat verdeling. Die is zo scheef als maar kan. Ik simuleer een populatie van 10.000 eenheden uit een Chi-kwadraat verdeling met 3 vrijheidsgraden. Een histogram van deze populatie ziet er zo uit (klik erop voor een groter formaat)

histogram

Dit is onze populatie. Het gemiddelde van deze populatie is 2.98, dat kunnen we gemakkelijk berekenen. Maar stel nu even dat we deze populatie niet observeren en dat we slechts een steekproef kunnen nemen. Ik neem een steekproef van 100 random observaties uit deze 10.000 datapunten. Het histogram van de steekproef ziet er als volgt uit:

sample

Het gemiddelde van deze steekproef is 3.13. We zien dat dit gemiddelde inderdaad kort bij 2.98 ligt. Het is dus zeker al een goede schatting van het populatiegemiddelde. Merk ook op dat dit zelfs het geval is ondanks dat de populatie zo scheef als wat is. Gelukkig maakt dat niet uit. Maar dit is dus slechts een puntschatting. We zouden ook een betrouwbaarheidsinterval (BI) kunnen opstellen. Aan zo’n interval is altijd een betrouwbaarheidspercentage gekoppeld. Vaak gebruikt men 95%. Als je met de data van deze steekproef een 95% BI zou berekenen, dan kom je op het volgende interval uit:

95% BI = [ 2.62 ; 3.65 ]

Maar hoe interpreteer je dit interval nu? Ik ben er vrij zeker van dat de meeste mensen zullen zeggen: “Er is 95% kans dat het populatiegemiddelde binnen dit interval ligt. M.a.w. er is 95% kans dat het populatiegemiddelde tussen 2.62 en 3.65 ligt.” Dat is helaas fout. Dit is niet de juiste manier om een betrouwbaarheidsinterval te interpreteren. De juiste manier is als volgt:

Het interval [ 2.62 ; 3.65 ] is tot stand gekomen met een methode die in 95% van de gevallen een interval zal opleveren waar het onbekende populatiegemiddelde in ligt.

Het verschil is erg subtiel. Het achterliggende idee is dat het populatiegemiddelde een constante is. Die constante mag dan wel onbekend zijn, maar het blijft een constante. Je kan geen kansuitspraken doen over een constante. Een constante ligt maar op één plek en nergens anders. Het betrouwbaarheidsinterval, echter, is wel het resultaat van toeval. Iedere steekproef die je neemt is gebaseerd op toeval. Je kan dus wel kansuitspraken doen over zo’n interval. Vandaar dat we zeggen dat de methode die we gebruiken om betrouwbaarheidsintervallen te berekenen in 95% van alle gevallen een interval oplevert waar het populatiegemiddelde in ligt. Maar dit wil dus niet (NIET!) zeggen dat, eenmaal je zo’n interval hebt berekend, er 95% kans is dat het onbekende populatiegemiddelde binnen dit interval ligt. Eénmaal je een interval hebt, ligt het populatiegemiddelde er ofwel in, ofwel niet in.

Om dat verder te duiden, zal ik 1.000 steekproeven van 100 observaties nemen uit onze populatie. Voor iedere steekproef bereken ik zo’n interval en dan gaan we kijken of het échte gemiddelde, 2.98, erin ligt. Het eerste interval dat we bekomen is [ 2.72 ; 3.62 ]. Het populatiegemiddelde ligt er inderdaad in. Het tweede dat we bekomen is [ 2.50 ; 3.49 ]. Alweer ligt het populatiegemiddelde erin. Het zeventiende interval dat we bekomen is [ 2.11 ; 2.91 ]. Het populatiegemiddelde ligt er deze keer niet in. En ga zo maar verder. De grafiek hieronder toont alle intervallen die we bekomen, alsook het “onbekende” populatiegemiddelde. Het is duidelijk dat bijzonder veel maar niet alle betrouwbaarheidsintervallen het onbekende populatiegemiddelde bevatten. Wanneer de rode lijn onder de oranje lijn komt, of de blauwe lijn boven de oranje lijn komt, bevat zo’n interval het gemiddelde niet. In alle andere gevallen wel.

bis

Uiteindelijk blijkt dat er 942 intervallen zijn waar het populatiegemiddelde wél binnen valt en 58 intervallen waar het populatiegemiddelde niet binnen valt. M.a.w. ruwweg 95%* van alle intervallen die we hebben berekend bevatten het onbekende populatiegemiddelde. Ruweg 5%* bevatten dit populatiegemiddelde niet. Als je er één interval uitpikt kan je echter niet meer zeggen: “de kans dat dit interval het onbekende populatiegemiddelde bevat is 95%”. Neen, ofwel ligt het gemiddelde erin, ofwel ligt het er niet in. Op voorhand (voordat je een steekproef neemt) heeft zo’n interval dus 95% kans om het onbekende populatiegemiddelde te bevatten. Maar achteraf is daar geen sprake meer van.

Dit is de enige correcte manier waarop je een betrouwbaarheidsinterval kan interpreteren. De onbekende parameter is een constante en het interval is het resultaat van het toeval. Je doet dus kansuitspraken over het interval en niet over de onbekende parameter. Maar het belangrijkste van al: enjoy the data and use statistics wisely!

*De reden waarom het niet éxact 95% en 5% is in dit voorbeeld is natuurlijk omdat we maar 1.000 steekproeven hebben genomen en het toeval dus nog altijd een rol speelt. Hoe meer steekproeven we nemen, hoe korter we bij het theoretische percentage van 95% zullen uitkomen.

Een gedachte over “Betrouwbaarheidsintervallen: hoe wél en hoe niet te interpreteren.

  1. Pingback: Peilingen en foutenmarges: watskeburt?! | De blog van Kurt

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s