Welke soorten steekproeven en variabelen zijn er? – Chapter 2

2.1 Wat zijn variabelen en hoe kun je ze meten?
2.2 Hoe werkt randomisatie?
2.3 Hoe beperk je de steekproefvariabiliteit en mogelijke vertekening?
2.4 Welke methoden zijn er voor kanssteekproeven?
TentamenTickets

2.1 Wat zijn variabelen en hoe kun je ze meten?

Elk meetbaar kenmerk van een subject heet een variabele. Het is een kenmerk dat kan variëren in waarde tussen verschillende subjecten in een steekproef of populatie (bijvoorbeeld geslacht, inkomen, mening). Het nut van variabelen is dat ze de spreiding weergeven, hoeveel een waarde varieert. Bijvoorbeeld het aantal biertjes dat studenten per week consumeren. De waarden die een variabele kan aannemen, vormen de meetschaal ofwel het meetniveau. Er zijn verschillende meetniveaus; verschillende manieren om variabelen in te delen.

Ten eerste zijn er kwantitatieve en categorische variabelen. Kwantitatieve variabelen hebben een meetniveau met numerieke waarden, zoals leeftijd, aantal broers en zussen, inkomen. Categorische variabelen (ook wel kwalitatieve variabelen genoemd) hebben een meetniveau met categorieën, zoals geslacht, burgerlijke staat, religie. Hier is ook te zien hoe de meetniveaus zijn verbonden aan de statistische analyses: bij kwantitatieve variabelen kun je wel een gemiddelde berekenen (bijvoorbeeld de gemiddelde leeftijd), en bij categorische variabelen kan dat niet (het gemiddelde geslacht valt bijvoorbeeld niet te berekenen).

Vervolgens zijn er vier meetniveaus: nominaal, ordinaal, interval en ratio. Categorische variabelen zijn nominaal of ordinaal.

Het nominale meetniveau is puur beschrijvend. Neem de variabele geslacht. De mogelijke waarden hierop zijn man en vrouw. Er is geen volgorde waar te nemen, de ene waarde is niet hoger dan de andere. Het is een puur beschrijvend verschil.

Het ordinale meetniveau veronderstelt een bepaalde volgorde. Neem de variabele stemgedrag. De mogelijke waarden zijn extreemlinks, links, centrum, rechts en extreemrechts. Hier is het wel degelijk zo dat er een volgorde in zit, omdat extreemrechts meer rechts is dan rechts, en dat weer meer rechts is dan centrum etc. Dit is daarom een ordinaal meetniveau. Belangrijk hierbij is echter dat de afstanden tussen de waarden niet aan te duiden zijn: je kunt niet aangeven hoe groot het verschil is tussen rechts en extreemrechts. Dit is belangrijk, omdat het een kenmerkend verschil is tussen het ordinaal meetniveau en het interval meetniveau.

Kwantitatieve variabelen hebben een interval meetniveau of een ratio meetniveau. Het interval meetniveau heeft meetbare verschillen tussen de waarden. Neem de variabele temperatuur in Celcius. Niet alleen zit er een volgorde in (30 graden is meer dan 20 graden), maar dit verschil is ook duidelijk meetbaar en consistent. Het verschil tussen 10 en 20 graden is even groot als het verschil tussen 15 en 25 graden.

Het onderscheid tussen interval en ratio meetniveau ligt in het feit dat het interval meetniveau geen nulpunt kent, terwijl ratio dat wel heeft. Het ratio meetniveau kent dus waarden die numeriek zijn, een bepaalde volgorde hebben, meetbare verschillen hebben, en tot slot een nulpunt hebben. Een voorbeeld is een percentage of inkomen.

Tot slot is er een onderscheid tussen discrete en continue variabelen. Een variabele is discreet wanneer de mogelijke waarden alleen bepaalde, afzonderlijke nummers zijn. Een variabele is continu wanneer de waarden alle mogelijke waarden kunnen aannemen. Neem bijvoorbeeld de variabelen aantal broers en zussen (een discrete variabele) en gewicht (een continue variabele). Aantal broers en zussen is een discrete variabele omdat de mogelijke waarden 0, 1, 2, 3, etc. kunnen zijn, maar geen 2,43 broer/zus. Dus niet alle waarden zijn hier mogelijk. Bij gewicht kan dit echter wel. Je kunt daar (in theorie) alle mogelijke waarden op hebben. Je kunt 70 kilo wegen, maar ook 70,1 en 70,5 en 70,52. Het is bij zo’n variabele onmogelijk om alle mogelijke waarden op te schrijven, omdat het te veel mogelijkheden zijn.

Categorische variabelen (nominaal of ordinaal) zijn discrete variabelen omdat ze een beperkte hoeveelheid categorieën hebben. Kwantitatieve variabelen kunnen zowel discreet als continu zijn.

In de praktijk is het zo dat kwantitatieve variabelen die veel mogelijke waarden aan kunnen nemen, worden beschouwd als continue variabelen.

2.2 Hoe werkt randomisatie?

Randomisatie is het mechanisme achter het verkrijgen van een representatieve steekproef. Bij simpele random steekproeftrekking (of: aselecte steekproef) heeft ieder subject uit de populatie een even grote kans om in de steekproef terecht te komen. Je kunt het zien alsof je ieder lid van de populatie een nummer geeft, deze in een bak doet en er vervolgens willekeurig een aantal uittrekt. Deze willekeur is belangrijk, omdat je er zeker van moet zijn dat je data niet biased (vertekend) is. Dit zou de inferentiële statistiek nutteloos maken: je kunt dan niets zeggen over de populatie.

Om een willekeurige steekproef (random sample) te trekken, is er eerst een lijst nodig van alle subjecten in de populatie, een sampling frame. Vervolgens krijgen de subjecten een nummer en worden er willekeurig nummers aangewezen. Het aanwijzen van willekeurige nummers kan met software worden gedaan, bijvoorbeeld met R. In R gebruik je de volgende formule:

> sample(1:60, 4) #

[1] 22 47 38 44 #

Hierbij is > de opdrachtprompt, de indicatie voor het programma dat het een taak uit moet voeren. In het voorbeeld wil je vier willekeurige subjecten selecteren uit een lijst van 60 subjecten. Wat het programma vervolgens voor je doet, is vier willekeurige subjecten aanwijzen: nummers 22, 47, 38 en 44.

Data kan verzameld worden aan de hand van enquêtes, experimenten en observatiestudies. Bij al deze methoden kan randomisatie een rol spelen.

Er zijn verschillende typen enquêtes, zoals telefonische enquêtes, persoonlijke vragenlijsten. Elke manier van data verzamelen heeft uitdagingen op het gebied van representativiteit.

Het doel van experimenten is de reacties meten en vergelijken van subjecten onder verschillende condities. Deze condities zijn waarden van een variabele die de reactie kunnen beïnvloeden. De onderzoeker kan bepalen welke subjecten aan welke condities worden blootgesteld. Dat is waar randomisatie een rol speelt. De onderzoeker moet op basis van willekeur de groepen indelen. In een experimental design legt de onderzoeker vast welke subjecten aan welke behandelingen/omstandigheden zullen worden blootgesteld.

Bij observatiestudies (observational studies) meet de onderzoeker waarden van bepaalde variabelen, zonder de situatie te beïnvloeden of manipuleren. Op basis van willekeur wordt bepaald wie er wordt geobserveerd. Het risico van deze methode is dat er mogelijk een variabele over het hoofd wordt gezien die de uitkomsten beïnvloedt.

2.3 Hoe beperk je de steekproefvariabiliteit en mogelijke vertekening?

Bij een steekproef is het belangrijk dat deze representatief is voor de populatie. Een meting moet valide zijn, wat inhoudt dat vooraf beschreven wordt wat je wil weten en dat de meetmaten accuraat het concept weergeven. Ook moet een meting betrouwbaar zijn, wat inhoudt dat de meting consistent is en een subject dezelfde respons zou geven als dezelfde vraag nogmaals gesteld wordt. In de praktijk zijn er echter allerlei factoren die een onderzoek kunnen beïnvloeden.

Ook al trek je meerdere volledig willekeurige steekproeven, dan nog zijn deze verschillend en wijken ze allebei anders af van de populatie. Het verschil heet de steekproeffout (sampling error); de mate waarin de statistiek (die voortvloeit uit een steekproef) verschilt van de parameter die de waarde in de populatie voorspelt. Met andere woorden, de steekproeffout geeft het percentage aan waarin de steekproef af kan wijken van de daadwerkelijke populatie. Bijvoorbeeld: in de populatie staat 66% achter het beleid van de regering, maar in de steekproef is dat 68%. De steekproeffout is in dat geval 2%. Verschillende steekproeven hebben verschillende steekproeffouten. In de meeste gevallen is de steekproeffout bij steekproeven van meer dan 1000 subjecten beperkt tot ongeveer 3%. Dit heet de foutmarge (margin of error), een term die vaak terugkomt in de statistiek omdat deze de kwaliteit van een onderzoek aan kan duiden.

Naast de steekproeffout zijn er nog andere factoren die de resultaten uit een random steekproef kunnen laten variëren. Er worden er hier drie besproken: de steekproef bias, de response bias en de non-response bias.

Bij probability sampling (kanssteekproeven) is de waarschijnlijkheid van elke mogelijke steekproef bekend. Bij nonprobability sampling is dit echter niet bekend. De betrouwbaarheid is dan onbekend en dan ontstaat er steekproefbias. De steekproefbias is dus het geval wanneer het niet mogelijk is om vast te stellen dat alle leden uit de populatie een even grote kans hebben om in de steekproef te komen. Een voorbeeld hiervan is wanneer mensen worden opgeroepen om mee te doen aan een onderzoek. Je krijgt dan alleen vrijwilligers. Maar deze vrijwilligers kunnen op belangrijke variabelen verschillen van de mensen die zich niet aanmelden. Zij vertekenen dan de steekproefdata. De afwijking die deze vrijwilligers veroorzaken, heet selectiebias.

Wanneer vragen in een enquête of interview slecht worden gesteld of in een ongelukkige volgorde, ontstaat er response bias. Een voorbeeld is het opwekken van sociaal wenselijke antwoorden, door vragen als: “Bent u het er ook mee eens dat…?”. Respondenten willen het liever niet oneens zijn met de onderzoeker en zullen eerder instemmen, terwijl ze dat misschien eigenlijk niet willen. Ook de neiging in het algemeen om antwoorden te geven die de interviewer waarschijnlijk prefereert, valt onder response bias.

De non-response bias treedt op bij uitval en missing data. Sommige mensen kiezen ervoor om geen antwoord te geven op bepaalde vragen, om uiteenlopende redenen. Ook vallen sommige respondenten halverwege een onderzoek uit. Deze mensen kunnen op belangrijke variabelen verschillen van de overblijvers. Dit kan de data vertekenen, zelfs bij een random steekproef.

2.4 Welke methoden zijn er voor kanssteekproeven?

Behalve simpele random steekproeven zijn er ook andere methoden. Het doen van een volledig aselecte steekproef is niet altijd mogelijk. Soms is het wenselijker of makkelijker om dat niet te doen. Er zijn ook andere methoden waarbij er toch nog sprake is van probability sampling (waarbij de waarschijnlijkheid van iedere steekproef bekend is) en van randomisatie (waarbij het doel een representatieve steekproef is).

Bij een systematische willekeurige steekproef worden de subjecten die in de steekproef moeten komen op systematische wijze gekozen, namelijk door telkens een bepaald aantal subjecten over te slaan. Een voorbeeld hiervan is elk tiende huis in een straat selecteren. De formule hiervoor is: k = N/n. De k is hierbij het skip number, het subject dat wordt geselecteerd nadat een aantal subjecten zijn overgeslagen. N is de populatie en n is de steekproefgrootte.

Een gestratificeerde steekproef verdeelt de populatie in groepen, ook wel strata genoemd. Vervolgens wordt uit elk stratum willekeurig een aantal subjecten gekozen die samen de steekproef gaan vormen. Zo’n steekproef kan proportioneel of disproportioneel zijn. Bij een proportionele gestratificeerde steekproef zijn de proporties in de strata gelijk aan de proporties in de populatie. Bijvoorbeeld wanneer in de populatie 60% man is en 40% vrouw, dan moet dat in de steekproef ook zo zijn. Soms is het echter beter om een disproportionele gestratificeerde steekproef te doen. Stel je voor dat er een steekproef van 100 subjecten is, en dat in de populatie slechts 10% vrouw is. Dan zouden er anders ook maar 10 vrouwen in de steekproef zitten. Zo’n aantal is alleen te klein om representatief te zijn en dan valt er niks zeggen over de populatie. Het is dan beter om voor een disproportionele gestratificeerde steekproef te kiezen.

Bovenstaande steekproeven vereisen echter dat je toegang hebt tot de gehele populatie. Maar in de realiteit is dat niet altijd zo. Dan kan je beter een clustersteekproef doen. Hierbij verdeel je de populatie onder in clusters (bijvoorbeeld stadsblokken), en vervolgens kies je er willekeurig een cluster uit. Het verschil met gestratificeerde steekproeven is dat niet elk cluster gerepresenteerd wordt.

Een getrapte steekproef (multistage sample) bestaat uit meerdere, gelaagde steekproeftrekkingen. Er worden bijvoorbeeld eerst willekeurig een aantal provincies gekozen, vervolgens worden daar willekeurig een aantal steden in gekozen, en daarin worden willekeurig een aantal straten gekozen.

TentamenTickets

Het is makkelijk om het overzicht te verliezen bij de vele verschillende soorten variabelen. Een trucje is om je een onderzoek in te beelden dat je zelf interessant vindt, bijvoorbeeld hoeveel make-up vrouwen dragen, en je af te vragen welke soort variabelen gebruikt kunnen worden. Je kunt uitgaan van categorische variabelen met een nominaal meetniveau (geen make-up versus wel make-up) of een ordinaal meetniveau (geen make-up, een beetje make-up, veel make-up, of heel veel make-up). Ook kun je uitgaan van kwantitatieve variabelen, bijvoorbeeld gemeten in aantal miligram gebruikte make-up per dag. Is er dan sprake van een interval meetniveau of een ratio meetniveau? Zijn de variabelen discreet of continu? Via welke soorten onderzoek kun je de hoeveelheid make-up meten? En met welke soorten bias moet je rekening houden? Stel jezelf deze vragen voor een paar mogelijke onderzoeksonderwerpen.
Als je parameter een lastig begrip vindt, probeer deze dan aan te wijzen in verschillende onderzoeken, zodat het begrip concreter wordt. Bedenk je dat de parameter hetgene is waar het om draait.
Een veelgebruikte term binnen de statistiek is margin of error, de foutmarge, meestal ongeveer 3%. Als dit significant groter of kleiner is dan 3%, geeft dit informatie over de kwaliteit van een onderzoek.
Naast simpele random steekproeven zijn ook systematische steekproeven, gestratificeerde steekproeven, clustersteekproeven en getrapte steekproeven mogelijk. In de praktijk worden echter simpele random steekproeven het meest gebruikt.

Access:

Public

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check: concept of JoHo WorldSupporter

Concept of JoHo WorldSupporter

JoHo WorldSupporter mission and vision:

JoHo wants to enable people and organizations to develop and work better together, and thereby contribute to a tolerant tolerant and sustainable world. Through physical and online platforms, it support personal development and promote international cooperation is encouraged.

JoHo concept:

As a JoHo donor, member or insured, you provide support to the JoHo objectives. JoHo then supports you with tools, coaching and benefits in the areas of personal development and international activities.
JoHo's core services include: study support, competence development, coaching and insurance mediation when departure abroad.