Samenvatting bij de 9e druk van Introduction to the Practice of Statistics van Moore, McCabe & Craig

Wat zijn distributies? - Chapter 1
Wat zijn statistische verbanden? - Chapter 2
Hoe moet je data verzamelen? - Chapter 3
Wat werkt kansrekening in de statistiek? - Chapter 4
Wat zijn steekproefdistributies? - Chapter 5
Wat zijn statistische gevolgtrekkingen? - Chapter 6
Wat zijn statistische gevolgtrekkingen voor distributies? - Chapter 7
Wat zijn statistische gevolgtrekkingen voor proporties? - Chapter 8
Wat zijn gevolgtrekkingen voor categorische data? - Chapter 9
Wat is regressie? - Chapter 10
Wat is meervoudige regressie? - Chapter 11
Wat is eenweg ANOVA? - Chapter 12
Wat is tweeweg ANOVA? - Chapter 13
Wat is logistische regressie? - Chapter 14
Wat zijn nonparametrische toetsen? - Chapter 15

Wat zijn distributies? - Chapter 1

In dit hoofdstuk staan distributies centraal. Een distributie beschrijft de verdeling van een variabele. Het vertelt ons welke waarden van een variabele bij individuen voorkomen en hoe vaak deze waarden voorkomen. Distributies kunnen numeriek worden beschreven met bijvoorbeeld een gemiddelde of een mediaan. Ook worden in dit hoofdstuk diverse manieren beschreven waarop je distributies grafisch kunt weergeven, bijvoorbeeld via een histogram of een boxplot.

Hoe leer je van data?

Statistiek is de wetenschap van kennis opdoen op basis van data. Data zijn numerieke (of kwalitatieve) beschrijvingen en gegevens van objecten om te bestuderen. Dit eerste deel gaat in op het omgaan met data. Eerst wordt ingegaan op de verschillende soorten data die we kunnen verzamelen en hoe datasets georganiseerd zijn. Daarna wordt aandacht besteed aan het verwerken van data door naar grafieken te kijken. Grafieken zijn nuttig omdat ze een visueel beeld geven, waarmee patronen in data kunnen worden ontdekt. De volgende stap in het proces van leren van data is het berekenen van numerieke samenvattingen. Hiermee kunnen patronen in de distributie van data worden beschreven. Tot slot maken we de overstap van data samenvattingen naar statistische modellen. Hier wordt uitgelegd wat dichtheidscurves zijn en wordt de normaalverdeling geïntroduceerd. Deze verdelingen spelen een cruciale rol in methoden om conclusies te trekken uit verschillende datasets.

Wat is een dataset?

Statistische analyse start met een dataset. Een dataset is een geordende 'bak' met data.

Data bestaat uit numerieke waarden.
Een dataset wordt geconstrueerd door te bepalen welke cases (of units) we willen bestuderen. Voor elke case verzamelen we informatie over eigenschappen die variabelen genoemd worden.
Cases zijn de objecten die beschreven worden door een dataset. Dit kunnen klanten, bedrijven, proefpersonen of andere objecten zijn.
Een label is een speciale variabele die gebruikt wordt in sommige datasets om verschillende cases van elkaar te onderscheiden.
Een variabele is een eigenschap van een case.
Verschillende cases kunnen verschillende waarden hebben op de variabelen.
Een categorische variabele plaatst een individu in één of van de twee of meer groepen of categorieën. Een voorbeeld is sekse.
Een kwantitatieve variabele heeft numerieke waarden waarmee gerekend kan worden. Een voorbeeld is lengte: iemand van twee meter is twee keer zo lang als iemand van één meter.
Een distributie van een variabele vertelt ons welke waarden van een variabele bij individuen voorkomen en hoe vaak deze waarden voorkomen.
We gebruiken de term units of measurement (meeteenheden) om te verwijzen naar de manier waarop een variabele gemeten wordt. Tijd wordt bijvoorbeeld in uren, minuten of seconden gemeten, de lengte van een kind in meters of centimeters. Deze meeteenheden zijn een belangrijk deel van de beschrijving van een kwantitatieve variabele.

Wat zijn de belangrijkste eigenschappen van een dataset?

Bij elke dataset hoort bepaalde achtergrondinformatie die helpt bij het interpreteren van de data. Denk hierbij aan de volgende punten:

Wie? Welke cases beschrijven de data? Hoe veel van deze cases bevat de dataset?
Wat? Hoe veel variabelen bevat de data? Wat zijn de precieze definities van die variabelen? Wat zijn de meeteenheden voor elke kwantitatieve variabele?
Waarom? Welk doel hebben de data? Hopen we een specifieke vraag te kunnen beantwoorden? Willen we conclusies trekken over cases waarover we geen data hebben? Zijn de gebruikte variabelen geschikt voor het beoogde doel?

Voor het verwerken van de data kan een spreadsheet worden gebruikt. Dit kan bijvoorbeeld in Excel. Het is belangrijk om bij de variabele-namen spaties te vermijden, omdat deze in sommige statistische software niet toegestaan zijn. In plaats van een spatie kan een underscore ( _ ) gebruikt worden.

Wanneer we een variabele geschikt willen maken om mee te rekenen, kunnen we de variabele transformeren. Zo kunnen de letter beoordelingen uit het Amerikaanse schoolsysteem omgezet worden in cijfers (A=4, B=3, etc.). Dit kan alleen wanneer het verschil tussen A en B even groot is als bijvoorbeeld het verschil tussen C en D.

Een onderdeel van het goed worden in statistiek is weten welke variabelen belangrijk zijn en hoe deze het beste gemeten kunnen worden. Voor verschillende soorten variabelen kunnen verschillende instrumenten nodig zijn om metingen te verrichten. Bijvoorbeeld een ademtest voor het meten van longcapaciteit, en een enquête om persoonlijkheid te testen. Vaak is voor details van bepaalde metingen kennis nodig van het specifieke studieveld. Zorg er in ieder geval voor dat elke variabele echt meet wat jij wilt dat hij meet. Een slechte keuze van variabelen kan leiden tot misleidende conclusies.

Hoe kun je distributies grafisch weergeven?

Wat is verkennende data-analyse?

Verkennende data-analyse (exploratory data analysis) houdt in dat de belangrijkste kenmerken van een dataset worden beschreven. De volgende twee strategieën kunnen in dit verband gebruikt worden:

Onderzoek elke variabele eerst afzonderlijk. Pas daarna dient gekeken te worden naar de relatie tussen de variabelen.
Geef grafisch de waarden van variabelen weer. Daarna kunnen numerieke samenvattingen gemaakt worden van deze waarden.

De waarden van een categorische variabele zijn labels voor de categorieën, zoals ‘vrouw’ en ‘man’. De distributie van een categorische variabele laat zien hoeveel van de onderzochte mensen een bepaalde waarde heeft gescoord (count). Dit kan ook door middel van percentages vermeld worden.

Welke diagrammen voor categorische variabelen zijn er?

Een distributie kan grafisch weergegeven worden door een:

Staafdiagram (bar graph): De hoogtes van de staven zegt iets over hoe vaak bepaalde waarden voorkomen. De frequenties staan op de y-as en de lengtes van de staven dienen daar dan ook mee te corresponderen.
Cirkeldiagram (pie chart): Hiermee kun je bijvoorbeeld meteen zien of er meer mannen dan vrouwen hebben meegedaan aan een onderzoek. Omdat cirkeldiagrammen geen gebruik maken van schalen, worden hoeveelheden door middel van percentages uitgedrukt. Voor cirkeldiagrammen is het nodig dat alle categorieën, waaruit het geheel bestaat, worden toegevoegd.

Staafdiagrammen zijn makkelijker te interpreteren en zijn ook flexibeler dan cirkeldiagrammen. Ze kunnen allebei gebruikt worden wanneer je wilt dat mensen in één oogopslag kunnen zien hoe het zit met frequenties van waarden van een variabele.

Welke diagrammen voor kwantitatieve variabelen zijn er?

Stam-en-bladdiagram

Een stam-en-bladdiagram (stemplot) geeft snel een beeld van de vorm van een distributie, terwijl elke waarde in de oorspronkelijke vorm worden toegevoegd. Zo een diagram is het handigst als er sprake is van niet al te veel observaties (die allemaal groter dan nul zijn). Om een stam-en-bladdiagram te maken, dienen de volgende stappen uitgevoerd te worden:

Allereerst moet elke waarde opgedeeld worden in een stam en een blad. De stam is het eerste cijfer en het blad is het laatste cijfer (bij het getal 35 is 3 dus de stam en 5 het blad). Stammen kunnen meerdere cijfers bevatten (bij het getal 135 is 13 de stam), maar een blad bestaat altijd uit maar één cijfer.
Vervolgens moeten alle stammen onder elkaar genoteerd worden. De kleinste stam moet bovenaan staan. Na dit gedaan te hebben moet een verticale lijn aan de rechterkant van de stammen getrokken worden.
Tot slot moet het bijbehorende blad in elke rij rechts van de stam genoteerd worden. Er moet met het kleinste blad begonnen worden.

Rug-aan-rugdiagram

Een rug-aan-rugdiagram (back-to-back stemplot) is een variant van de stam-en-bladdiagram. Met zo een diagram kunnen twee gerelateerde distributies vergeleken worden. Zo een diagram maakt gebruik van gemeenschappelijke stammen. Je kunt bijvoorbeeld het gewicht van mannen en vrouwen in een rug-aan-rugdiagram verwerken. De stammen van de gewichten staan dan in het midden en er worden twee lijnen (zowel links als rechts) vanaf de stammen getrokken. Aan de rechterkant kun je dan bijvoorbeeld de bladen van de vrouwen noteren, terwijl je aan de linkerkant de bladen van de mannen opschrijft.

Welke diagrammen zijn er bij een grote dataset?

Stam-en-bladdiagrammen en rug-aan-rugdiagrammen zijn niet handig wanneer er een grote dataset gebruikt wordt. Het duurt dan erg lang om elke waarde in het diagram te verwerken en dit ziet er bovendien onoverzichtelijk uit. Dit kan echter opgelost worden door het aantal stammen in een diagram te verdubbelen. Dit kan gedaan worden door:

Splitting each stem: Elke stam door twee te delen.
Trimming: Hierbij maak je de cijfers passend wanneer de geobserveerde waarden veel cijfers bevatten. Dit wordt gedaan door de laatste cijfers te verwijderen voordat een stam-en-bladdiagram gemaakt wordt.

Wat zijn histogrammen?

Bij een histogram worden de waarden van een variabele opgedeeld in groepen. Daarom worden alleen de frequenties of percentages beschreven die bij de groepen horen. Je mag zelf weten hoeveel groepen je maakt, maar de groepen moeten wel van gelijke grootte zijn. Wel is het belangrijk om te weten dat de manier waarop een histogram eruit ziet kan veranderen wanneer de klassen veranderd worden. Het duurt (in vergelijking tot stam-en-bladdiagrammen) langer om histogrammen handmatig te maken. Ook komen de oorspronkelijke datawaarden niet letterlijk voor in een histogram. Dit is juist wel het geval bij stam-en-bladdiagrammen. Om een histogram te maken moeten drie stappen uitgevoerd worden:

Het maken van groepen. Bij een dataset met de IQ-meting van vijftig mensen kun je bijvoorbeeld intervallen maken van 75≤ IQ <85, 85 ≤ IQ <85 enz.
Deel de gevonden waarden in per groep. Vervolgens moet geteld worden hoe vaak waarden in een bepaalde groep vallen (frequenties). Een tabel met de frequenties die samengaan met elke groep wordt een frequentietabel genoemd.
Teken tot slot een histogram. Op de horizontale as (X-as) moeten in ons geval de IQ-scores staan, terwijl op de Y-as de frequenties staan. Elke staaf staat voor een groep. Er is geen ruimte tussen de staven, behalve als niemand binnen een bepaalde groep gescoord heeft. Dat is bijvoorbeeld het geval als niemand een IQ-score heeft tussen de 75 en 84.

Wat zijn de verschillen tussen histogrammen en staafdiagrammen?

Histogrammen en staafdiagrammen lijken op elkaar, maar zijn niet hetzelfde. Bij een staafdiagram staan de staven niet precies tegen elkaar aan, terwijl dit wel het geval is bij een histogram. Bij een histogram gaat het om de tellingen of percentages van verschillende waarden van een variabele. Een staafdiagram vergelijkt de grootte van verschillende items. De horizontale as van een staafdiagram hoeft geen meetschaal te hebben, maar kan bestaan uit labels. Als men wil weten hoeveel studenten er biologie, psychologie of geneeskunde studeren, dan zijn dit categorische variabelen die je op de X-as kunt zetten. In dit geval dient een staafdiagram gemaakt te worden. Als het gaat om een numerieke variabele (bijvoorbeeld IQ, lengte of gewicht), dan dient een histogram gebruikt te worden.

Staafdiagrammen zijn dus handig voor categorische variabelen, terwijl histogrammen van belang zijn voor kwantitatieve variabelen.

Wat zijn de belangrijkste kenmerken van distributies?

Nadat een dataset in een grafiek of diagram verwerkt is, moeten de belangrijkste kenmerken van de distributie onderzocht worden. Het is in dit verband van belang om te kijken naar de volgende zaken:

Bekijk het algemene patroon (overall pattern) en let goed op opvallende afwijkingen van het algemene patroon (deviations).
Ook moet gekeken worden naar de vorm (shape), het midden (center) en de spreiding (spread) binnen een dataset. Het midden van een distributie is de waarde waardoor de helft van de observaties kleiner is dan die waarde en de andere helft groter is dan die waarde. De spreiding van een distributie kan beschreven worden door naar de kleinste en grootste waarden te kijken. Bij het bekijken van de vorm is het belangrijk of er meerdere pieken in de distributie zijn. Als er sprake is van maar één piek (mode), dan noemen we de distributie unimodaal. Ook moet bekeken worden of de distributie symmetrisch is of dat er een afwijking naar links of rechts is. Een distributie is symmetrisch wanneer de waarden die kleiner en groter zijn dan het middelpunt met elkaar gespiegeld kunnen worden. Als er een afwijking naar rechts is (skewed to the right), dan is de rechterstaart (die bestaat uit grotere waarden) veel langer dan de linkerstaart (die uit kleine waarden bestaat). Lengte en IQ zijn variabelen die vaak een (ongeveer) symmetrische distributie hebben. Er zijn maar weinig mensen die extreem klein of extreem groot zijn en het gros van de mensen scoort gemiddeld. Hetzelfde geldt voor IQ-scores. Huizenprijzen hebben een distributie met een afwijking naar rechts. Veel huizen zijn ongeveer even duur, terwijl er een aantal zeer dure villa’s bestaat.
Een belangrijke afwijkende score is een uitbijter (outlier). Dit is een individuele score die duidelijk buiten het algemene patroon valt.

Wat zijn uitbijters?

Het vaststellen van uitbijters gaat niet volgens specifieke regels. Het gaat er juist om dat je zelf een mening vormt over welke scores als afwijkend bestempeld moeten worden. Zoek in ieder geval altijd naar waarden die duidelijk anders zijn dan de meeste waarden; het hoeft dus niet alleen te gaan om extreme observaties binnen een distributie. Daarnaast is het belangrijk om uitbijters te proberen te verklaren. Een uitbijter kan bijvoorbeeld het gevolg zijn van ongewone omstandigheden.

Wat zijn tijdplots?

Wanneer data door de tijd heen verzameld wordt, is het een goed idee om de observaties grafisch op volgorde te verwerken. Het gebruik van histogrammen en stam-en-bladdiagrammen kunnen in dit verband misleidend zijn, omdat er sprake kan zijn van systematische veranderingen door de tijd heen.

Een tijdplot (time plot) van een variabele geeft een grafische weergave van elke observatie in relatie tot het moment waarop deze gemeten variabele is. Tijd moet altijd op de horizontale lijn gezet worden, terwijl de gemeten variabele op de Y-as moet staan. Het verbinden van datapunten (door middel van lijnen) laat zien of er veranderingen door de tijd heen plaatsgevonden hebben. Ook kunnen op deze manier trends ontdekt worden.
Veel datasets zijn tijdseries (time series). Dit zijn metingen van een variabele die op verschillende momenten zijn gedaan. Denk in dit verband bijvoorbeeld aan het meten van de landelijke werkloosheid per kwartaal.
Een trend in een tijdserie is een aanhoudende stijging of daling op lange termijn. Een patroon dat zich in een tijdserie steeds op specifieke momenten herhaalt, wordt seizoensgerelateerde variatie (seasonal variation) genoemd. In dat geval wordt seizoensgerelateerde aanpassing (seasonal adjustment) uitgevoerd, zodat onderzoeksresultaten geen misleidend effect hebben. Dat het werkloosheidspercentage in december en januari is toegenomen, zegt niet per se dat meer mensen werkloos zijn geworden. Werkloosheidscijfers stijgen namelijk altijd in deze periode, omdat tijdelijke werkkrachten bijvoorbeeld vaak aan het eind van het jaar stoppen met werken. Rekening houden met zo een verschijnsel is een vorm van seizoensgerelateerde aanpassing.

Met welke getallen kun je distributies beschrijven?

Wat is het gemiddelde?

Een numerieke beschrijving van een distributie begint met een meting van het middelpunt. De meest bekende metingen van het middelpunt zijn het gemiddelde (the mean) en de mediaan (the median). Het gemiddelde gaat ook echt om het vinden van de gemiddelde waarde, terwijl de mediaan gaat over het vinden van de middelste waarde.

Om het gemiddelde (mean) te vinden moeten alle scores opgeteld worden en worden gedeeld door het aantal scores. Als n aantal mensen de scores x₁, x₂, x₃, x_n hebben, dan is hun gemiddelde:

Gemiddelde = ( x₁+ x₂ + x₃ + … +x_n ) / n.

Een andere notatie is: = 1/n Σ x_i. In deze formule staat Σ als Griekse letter voor ‘alles bij elkaar optellen’.

Het nadeel van het gemiddelde is dat deze maat erg gevoelig is voor de invloed van een aantal extreme observaties. Deze extreme scores kunnen uitbijters zijn, maar dat hoeft niet. Omdat het gemiddelde wordt beïnvloed door extreme scores, zeggen we dat het gemiddelde geen robuuste maat (resistant measure) van het middelpunt is. Dat het gemiddelde geen robuuste maat is, blijkt ook uit het feit dat je alleen al één score uit de distributie kunt aanpassen om het gemiddelde te laten veranderen.

Wat is de mediaan?

De mediaan M is het letterlijke midden van een distributie. De helft van de observaties valt onder de mediaan, terwijl de andere helft zich boven de mediaan bevindt. De mediaan van een distributie kan als volgt gevonden worden:

Zet alle scores eerst op volgorde (van klein naar groot).
Als het aantal observaties oneven is, dan is de mediaan precies het middelste getal. Als er bijvoorbeeld vijf getallen zijn, dan is de mediaan het derde getal. De plaats van de mediaan kan in dit geval als volgt gevonden worden: (n+1)/2. In ons voorbeeld is dat dus: (5+1)/2=3. Deze formule zegt dus niet wat de mediaan is, maar waar de mediaan zich in de reeks getallen bevindt.
Als het aantal observaties even is, dan is de mediaan M het gemiddelde van de twee middelste observaties in de distributie. De plaats van de mediaan wordt op dezelfde manier gevonden: M= (n+1)/2.

Wat is het verschil tussen het gemiddelde en de mediaan?

Als een distributie helemaal symmetrisch is, dan zijn de mediaan en het gemiddelde hetzelfde. In een distributie die afwijkt naar links of rechts, bevindt het gemiddelde zich meer in de staart dan de mediaan. Dit omdat het gemiddelde veel meer door extreme scores wordt beïnvloed. De staart van een distributie bestaat uit extreme scores.

Wat is spreiding (variabiliteit)?

De meest simpele numerieke beschrijving van een distributie moet bestaan uit een maat voor het middelpunt (zoals het gemiddelde en de mediaan), maar ook uit een meting van de spreiding binnen een distributie. We kunnen de spreiding van een distributie beschrijven door verschillende percentielen uit te rekenen. De mediaan deelt de distributie precies in tweeën en daarom zeggen we ook wel dat de mediaan het vijftigste percentiel is. Er is echter nog een kwartiel in de bovenste helft van de data. Er is ook een lager kwartiel in de lagere helft van de data. De kwartielen zorgen ervoor dat de data in vieren gedeeld kan worden; elk kwartiel gaat over een kwart van de data. Kwartielen kunnen als volgt berekend worden:

Eerst moeten alle scores van klein naar groot op volgorde gezet worden. Daarna moet de mediaan voor de hele set berekend worden.
Het eerste kwartiel (Q₁) is de mediaan van de kwart laagste scores van een distributie.
Het derde kwartiel (Q₃) is de mediaan van de kwart hoogste scores een distributie.

Het p^ste percentiel van een distributie is de waarde waaraan p procent van de scores gelijk is of waar p procent van de scores onder liggen.

Wat is de vijf-getallen-samenvatting?

Om een beschrijving van het middelpunt en de spreiding van een distributie te maken, is het handig om (1)de laagste score, (2) Q₁ , (3) M (de mediaan), (4) Q₃ en (5) de hoogste score te berekenen. Deze waarden worden bij elkaar ook wel de vijf-getallen-samenvatting genoemd. Deze vijf waarden zijn zichtbaar in een boxplot.

De buitenste twee randen van het doosje (box) in een boxplot staan voor Q₁ en voor Q₃.
De mediaan wordt weergegeven door de lijn midden in het doosje.
Twee lijnen (naar boven en naar beneden toe) vanaf het doosje laten zien wat de hoogste waarde is en wat de laagste waarde is.

Wat is de interkwartiele range?

De bekijken van de grootste en de kleinste waarde zegt in principe weinig over de spreiding binnen de data. De afstand tussen de eerste en het derde kwartiel is een meer robuuste maat voor spreiding. Deze afstand wordt de interkwartiele range (interquartile range, IQR) genoemd en wordt als volgt berekend:

IQR: Q₃ - Q₁.
De IQR wordt vaak gebruikt als vuistregel om uitbijters vast te stellen. Vaak wordt een score een uitbijter genoemd als deze 1.5xIQR boven het derde kwartiel of 1.5xIQR onder het eerste kwartiel valt.

Wat zijn afwijkende distributies?

Kwartielen en de IQR worden niet beïnvloed door veranderingen in de staart van een distributie. Ze zijn dus behoorlijk robuust. Wel moet gezegd worden dat geen enkele numerieke waarde van spreiding (zoals de IQR) erg handig is om de spreiding van distributies met een afwijking (naar links of rechts) te beschrijven. De twee kanten van een afwijkende distributie hebben namelijk verschillende spreidingen en dus kan één spreidingswaarde niet toereikend zijn. Een afwijking naar links of rechts kan opgemerkt worden door te bekijken hoe ver het eerste kwartiel en de laagste score afliggen van de mediaan (linker staart) en door te kijken naar hoe ver het derde kwartiel van de hoogste score ligt (rechter staart).

Wat zijn variantie en standaarddeviatie?

Veel vaker dan de vijf-getallen-samenvatting wordt de standaarddeviatie (samen met een maat voor het middelpunt) gebruikt om een beeld van een distributie te krijgen. De standaarddeviatie meet de spreiding door te kijken naar hoe ver observaties van het gemiddelde af liggen.

De variantie (s²) van een dataset is het gemiddelde van de gekwadrateerde standaarddeviaties. In formulevorm is dit: s²=(x1-)²+(x2-)²+ …+(x_n-)²/ n-1. Een andere juiste formule is: s²=1/n-1 Σ(x_i-)². In dit verband staat n-1 voor het aantal vrijheidsgraden (degrees of freedom).
Om de standaarddeviatie (s) te vinden moet de wortel uit de variantie getrokken worden. Het vinden van de standaarddeviatie is vooral handig als er sprake is van normaalverdelingen. Deze distributies worden in de volgende paragraaf besproken. De standaarddeviatie wordt geprefereerd boven de variantie. Dit omdat het trekken van de wortel uit de variantie ervoor zorgt dat spreiding wordt gemeten volgens de oorspronkelijke schaal van de variabele.

De afwijkingen van het gemiddelde (x_i-) laten zien in welke mate scores van het gemiddelde verschillen. Sommige van deze afwijkingen zullen positief zijn, terwijl andere afwijkingen negatief zullen zijn. De som van afwijkingen van de scores zal daarom altijd nul zijn. Om deze reden worden de afwijkingen van het gemiddelde gekwadrateerd; zo komt de berekening namelijk niet uit op nul. De variantie en de standaarddeviatie zullen groot zijn als scores erg verspreid liggen vanaf het gemiddelde.

De variantie en de standaarddeviatie zullen klein zijn wanneer de scores dichtbij het gemiddelde liggen.

Wat zijn kenmerken van de standaarddeviatie?

Standaarddeviatie s meet de spreiding vanaf het gemiddelde en moet alleen gebruikt worden wanneer het gemiddelde (en dus niet de mediaan) als maat voor middelpunt wordt gekozen.
De standaarddeviatie is nul wanneer er geen spreiding in een distributie aanwezig is. Dit gebeurt alleen als alle waarden hetzelfde zijn. Als dit niet zo is, dan die standaarddeviatie groter dan nul. Hoe meer spreiding er is, hoe groter s wordt.
De standaarddeviatie s is, zoals het gemiddelde, niet robuust. De aanwezigheid van een paar uitbijters kan s meteen erg groot maken. De standaarddeviatie is in vergelijking met het gemiddelde zelfs gevoeliger voor extreme scores.
Distributies met een sterke afwijking (naar links of rechts) hebben grote standaarddeviaties. In dit geval is het niet erg handig om de standaarddeviatie uit te rekenen. De vijf-getallen-samenvatting is vaak handiger dan het gemiddelde en de standaarddeviatie wanneer een afwijkende distributie beschreven moet worden of wanneer een distributie extreme uitbijters heeft. Het gebruik van het gemiddelde en de standaarddeviatie is juist handiger wanneer er weinig uitbijters aanwezig zijn en als de distributie symmetrisch is.

Hoe kun je meeteenheden transformeren?

Dezelfde variabele kan vaak gemeten worden door middel van verschillende meeteenheden. Temperatuur kan bijvoorbeeld zowel in Fahrenheit als in Celsius gemeten worden. Gelukkig is het gemakkelijk om meeteenheden om te zetten. Dit omdat een verandering in meeteenheid een lineaire transformatie van de metingen is. Zo een transformatie verandert de vorm van een distributie niet. Als temperatuurmetingen in Fahrenheit zorgen voor een distributie met aan afwijking naar rechts, dan zal dat zo blijven als de waarden omgezet zijn naar Celsius. De spreiding en het middelpunt zullen echter wel veranderen na zo een verandering. Een lineaire transformatie verandert de oorspronkelijke variabele x in een nieuwe variabele (x_new) op basis van de volgende formule:

x_new = a+bx. Het toevoegen van de constante a verandert alle waarden van x in dezelfde mate. Zo een aanpassing verandert het nulpunt van een variabele. Vermenigvuldigen met de positieve constante b verandert de grootte van de meeteenheid.
Om het effect van lineaire transformatie op spreidingsmaten en op maten van het midden te bekijken, is het van belang om elke observatie met het positieve getal b te vermenigvuldigen. Dit zorgt ervoor dat de mediaan, het gemiddelde, de standaarddeviatie en de IQR vermenigvuldigd worden met b.
Het toevoegen van hetzelfde getal a (of dit getal nou positief of negatief is) aan elke observatie, voegt a toe aan het gemiddelde, de mediaan, de kwartielen en de percentielen. Spreidingsmaten worden echter niet beïnvloed.

Wat zijn normaalverdelingen?

Wat zijn dichtheidscurves?

Het handmatig maken van histogrammen is onhandig. Tegenwoordig gebruiken wetenschappers dan ook vaak computerprogramma’s om histogrammen te maken. Het voordeel van computerprogramma’s is dat je hiermee ook een passende curve kan maken op basis van een histogram. Dit worden dichtheidscurves (density curves) genoemd. Door zo'n curve ‘vloeit’ een histogram als het ware. Gebieden onder de curve staan voor proporties van scores.

Een dichtheidscurve wordt altijd boven de horizontale as gemaakt.
Het totale gebied binnen de curve staat gelijk aan 1.
Een dichtheidscurve beschrijft het algemene patroon van een distributie. Dichtheidscurves kunnen, net zoals distributies, allerlei vormen hebben. Een bijzondere variant is de normaalverdeling, waarbij beide helften van de curve symmetrisch zijn. Uitbijters worden niet beschreven met een dichtheidscurve.

Hoe meet je het middelpunt en de spreiding bij normaalverdelingen?

De modus van een distributie beschrijft het piekpunt van de curve. Het gaat dus om de plaats waar de curve het hoogst is. Omdat gebieden onder de curve voor proporties staan, is de mediaan het punt dat precies in het midden ligt.

De kwartielen kunnen geschat worden door de curve in ongeveer vier gelijke stukken te verdelen. De IQR is dan de afstand tussen het eerste en het derde kwartiel. Er zijn rekenkundige manieren om de gebieden onder een curve te berekenen. Door deze rekenkundige manieren kunnen we de mediaan en de kwartielen precies berekenen.

Het gemiddelde van een dichtheidscurve is het punt waarop de curve zou balanceren als deze van vast materiaal gemaakt zou zijn. Bij een symmetrische curve liggen de mediaan en het gemiddelde op hetzelfde punt. Bij een afwijkende distributie is dat niet het geval. Bij een curve met een afwijking naar rechts ligt de mediaan iets meer richting de piek van de curve dan het gemiddelde. Het gemiddelde bevindt zich dus meer naar de staart toe. Bij een afwijkende distributie is het lastig om het balanspunt met het blote oog te bepalen. Er zijn rekenkundige manieren om het gemiddelde en de standaarddeviatie van een dichtheidscurve te berekenen. Kortom:

De mediaan van een dichtheidscurve ligt dus op het punt dat het gebied onder de curve in tweeën deelt.
Het gemiddelde van een dichtheidscurve is het balanspunt waarop de curve zou balanceren als deze van vast materiaal gemaakt zou zijn.
De mediaan en het gemiddelde zijn hetzelfde voor een symmetrische dichtheidscurve. Het gemiddelde van een afwijkende distributie ligt meer in de richting van de lange staart, terwijl de mediaan meer in de richting van de piek ligt.

Wat zijn kenmerken van normaalverdelingen?

Het gemiddelde van een dichtheidscurve geven we aan met de letter µ. De standaarddeviatie wordt genoteerd aan de hand van het symbool σ. Deze waarden worden benaderd met het steekproefgemiddelde () en de standaarddeviatie (s) die bij deze scores hoort. Normaalverdelingen zijn symmetrisch en unimodaal: ze hebben dus maar één piek. Het veranderen van µ (terwijl de standaarddeviatie onveranderd blijft) zorgt ervoor dat de plaats van de curve op de horizontale as opschuift, terwijl de spreiding hetzelfde blijft. Een curve met een grotere standaarddeviatie is breder en lager. De standaarddeviatie σ is de spreidingsmaat die bij een normaalverdeling hoort. Samen met µ bepaalt σ de vorm van een normaalverdeling.

Waarom zijn normaalverdelingen belangrijk in de statistiek?

Normaalverdelingen zijn goede beschrijvingen van distributies die bij echte data horen. Het gaat in dit verband om distributies die bijna normaalverdeeld zijn. Voorbeelden zijn distributies van lengte, gewicht en IQ.
Normaalverdelingen zijn goede benaderingen van de uitkomsten van kansberekeningen, bijvoorbeeld in het geval van het werpen van een munt.
Tot slot zijn normaalverdelingen handig, omdat statistische berekeningen (die op basis van normaal verdelingen gemaakt zijn), gebruikt kunnen worden voor andere, bijna symmetrische distributies.

Wat zijn gemeenschappelijke kenmerken van normaalverdelingen?

Er zijn veel soorten normaalverdelingen, maar ze hebben een aantal gemeenschappelijke kenmerken. Hieronder worden de belangrijkste kenmerken uiteengezet.

Ongeveer 68% van de scores valt binnen 1 standaarddeviatie (σ) van het gemiddelde (µ).
Ongeveer 95% van de scores valt binnen twee standaarddeviaties van het gemiddelde.
Ongeveer 99.7% van de scores valt binnen drie standaarddeviaties van het gemiddelde.

De bovenste kenmerken staan samen bekend als de 68-95-99.7 regel. De normaalverdeling met gemiddelde µ en standaarddeviatie σ wordt genoteerd als N(µ,σ). Bij het onderzoek naar de lengte van Nederlandse vrouwen is het bijvoorbeeld mogelijk dat N(1.70,10) wordt gevonden.

Wat zijn gestandaardiseerde waarden?

Als iemand zestig punten op een test heeft gescoord, weet je niet of dit een hoge of lage score is in vergelijking tot alle andere scores. Het is daarom belangrijk om de waarde te standaardiseren.

Als x een score is uit een distributie met gemiddelde µ en standaarddeviatie σ, dan is de gestandaardiseerde waarde van x: z = (x-µ)/σ. Een gestandaardiseerde waarde wordt vaak een z-score genoemd.
De gestandaardiseerde waarden van een distributie hebben samen een gemiddelde van 0 en een standaarddeviatie van 1. De gestandaardiseerde normaalverdeling heeft dus de N(0,1) – distributie.

Wat zijn cumulatieve proporties?

Het op precieze wijze berekenen van de proporties onder de normaalverdeling kan door middel van z-tabellen of software.

Z-tabellen en software berekenen vaak een cumulatieve proportie: dit is de proportie observaties in een distributie die onder een bepaalde waarde ligt of daar precies gelijk aan is.

Wanneer een distributie door middel van een dichtheidscurve wordt beschreven, dan is de cumulatieve proportie het gebied onder de curve dat aan de linkerkant van een bepaalde waarde ligt. Hiermee wordt rekening gehouden worden als je bijvoorbeeld juist alleen de proportie wilt hebben dat zich aan de rechterkant van de waarde bevindt. In dat geval moet je 1- de proportie aan de linkerkant berekenen. De z-tabel kan gebruikt worden om proporties onder de curve te achterhalen. Om dit te doen moeten scores wel eerst gestandaardiseerd worden. Een voorbeeld is dat je wilt weten hoeveel studenten minimaal een score van 820 hadden op een bepaalde test. Het gemiddelde blijkt 1026 te zijn en de standaarddeviatie is 209.

De bijbehorende z-score is: 820-1026/209= -0.99.
Vervolgens moet de z-tabel gebruikt worden om te kijken welke proportie bij -0.99 hoort. Dat blijkt 0.1611 te zijn. Het gebied rechts van -0.99 is daarom 1-0.1611=0.8389.
Als je had willen weten hoeveel studenten maximaal een score van 820 hadden behaald, dan was het antwoord 0.1611 geweest.

Wat is een normaal kwantielplot?

Stam-en-bladdiagrammen en histogrammen word vaak gebruikt om te kijken of een distributie normaal verdeeld is. De normaal kwantiel plot (normal quantile plot) is echter de beste grafische manier om normaliteit te ontdekken. Het is niet praktisch om zo een plot zelf te maken. In de meeste gevallen wordt dan ook software gebruikt. Hieronder wordt een algemeen beeld geschetst van hoe zo een plot handmatig gemaakt kan worden.

Allereerst worden scores van klein naar groot op volgorde gezet. Ook wordt genoteerd met wel percentiel elke waarde samengaat.
Vervolgens moeten de z-waarden gevonden worden die met deze percentielen samengaan. Dit worden ook wel z-normaal-scores genoemd.
Tot slot moet elke datapunt grafisch verbonden worden aan de corresponderende normaalscore. Als de distributie (bijna) normaal verdeeld is, dan zullen de datapunten bijna op een rechte lijn liggen. Systematische afwijkingen van de rechte lijn duiden op een niet-normaal verdeelde distributie. Uitbijters zijn datapunten die ver van het algemene patroon in de plot liggen.

Wat zijn statistische verbanden? - Chapter 2

In het gebruik van statistiek komen we vaak relaties tussen variabelen tegen. De focus van dit hoofdstuk ligt op het leren hoe deze relaties op grafische en numerieke wijze beschreven kunnen worden. Er wordt gekeken naar grafische beschrijvingen, zoals de scatterplot. Deze geeft de relatie weer tussen twee kwantitatieve variabelen. Daarna kijken we naar numerieke samenvattingen voor deze relaties en grafische en numerieke methoden voor het beschrijven van de relatie tussen twee categorische variabelen. Tot slot wordt nog aandacht besteed aan het onderscheid tussen associatie en causale verbanden.

Wat zijn relaties tussen variabelen?

We gebruiken de term associatie om de relatie tussen twee variabelen te beschrijven. Een voorbeeld is de relatie tussen gewicht en lengte.

Twee variabelen zijn geassocieerd wanneer een waarde op de eerste variabele iets zegt over de waarde op de andere variabele.

Waar moet je op letten bij relaties tussen twee variabelen?

Bij het bekijken van de relatie tussen twee variabelen is het doel van de onderzoeker van belang. Probeert de onderzoeker de relatie alleen maar bloot te leggen of hoopt hij of zij te ontdekken dat één van de variabelen variantie in de andere variabele verklaart? In het laatste geval is het handig om onderscheid te maken tussen verklarende (explanatory variables) en responsvariabelen.

Een responsvariabele is gerelateerd aan de uitkomsten van een onderzoek. Een onderzoeker wil bijvoorbeeld weten of lengte invloed heeft op gewicht. In dit geval is gewicht de responsvariabele.
Een verklarende variabele verklaart of veroorzaakt veranderingen in de responsvariabelen. In ons voorbeeld is lengte de verklarende variabele.

Een beschrijving van de belangrijkste eigenschappen van een dataset die gebruikt wordt om de relatie tussen twee variabelen moet in ieder geval de volgende punten bevatten:

Cases. Identificeer de cases en hoeveel er zijn in de dataset.
Label. Identificeer welke variabele als label-variabele gebruikt wordt (als er één is).
Categorisch of kwantitatief. Classificeer elke variabele als categorisch of kwantitatief.
Waarden. Identificeer de mogelijke waarden voor elke variabele.
Verklarend of respons. Wanneer toepasbaar, classificeer elke variabele als verklarende of als responsvariabele.

Wat is causaliteit?

Veel onderzoekers zijn geïnteresseerd in hoe verklarende variabelen veranderingen in de responsvariabelen veroorzaken. Veel relaties tussen verklarende variabelen en responsvariabelen gaan echter niet over een directe vorm van causaliteit. Een motivatietest voor een sollicitant voorspelt misschien wel in welke mate deze persoon gemotiveerd zou zijn als hij of zij aangenomen wordt, maar een motivatietest veroorzaakt niet de motivatie om goed te presteren.

Vaak worden verklarende variabelen ook wel onafhankelijke (independent) variabelen genoemd. Responsvariabelen worden ook wel afhankelijke (dependent) variabelen genoemd. Wanneer dit gebeurt, beschrijven deze termen wiskundige ideeën, het zijn geen statistische termen. De principes die het werk onderbouwen blijven hetzelfde:

Begin met een grafische weergave van de data.
Kijk naar algemene patronen en afwijkingen van deze patronen.
Gebaseerd op wat je ziet, kun je numerieke samenvattingen gebruiken om specifieke aspecten van de data te beschrijven.

Wat zijn puntgrafieken?

Grafisch wordt de relatie tussen twee kwantitatieve variabelen vaak in een puntgrafiek (scatterplot) verwerkt. De twee variabelen moeten wel bij dezelfde individuen gemeten worden.

De waarden van de ene variabele worden op de X-as gezet, terwijl de waarden van de andere variabele op de Y-as staan. Elk individu in de data wordt als een punt in de grafiek verwerkt op basis van de scores die de persoon op de X-as en de Y-as heeft behaald.
De verklarende variabele hoort bij de X-as. Om deze reden wordt de verklarende variabele ook wel de X-variabele genoemd. De responsvariabele wordt op de Y-as gezet. We noemen zo een variabele daarom ook wel een Y-variabele.
Als er geen onderscheid is tussen verklarende variabelen en responsvariabelen, dan maakt het niet uit welke variabele op de X-as belandt en welke variabele op de Y-as belandt.

Hoe interpreteer je puntgrafieken?

Om een eerste indruk van een puntgrafiek te krijgen, is het handig om:

Het algemene patroon en afwijkingen te bekijken.
De vorm, richting en de sterkte van de relatie te beschrijven.
Oog te hebben voor uitbijters. Dit zijn individuele waarden die buiten het algemene patroon vallen.

Het is mogelijk dat er clusters in de puntgrafiek waar te nemen zijn. Dit betekent dat de data verschillende soorten individuen beschrijven.

Hoe worden verbanden ingedeeld?

De relatie tussen twee variabelen kan positief of negatief zijn.

Twee variabelen zijn positief geassocieerd wanneer hoge scores op de ene variabele samengaan met hoge scores op de andere variabele. Een voorbeeld is dat een hoge score op lengte vaak samengaat met een hoge score op gewicht.
Twee variabelen zijn negatief geassocieerd wanneer hoge scores op de ene variabele gepaard gaan met lage scores op de andere variabele. Er is bijvoorbeeld een negatief verband tussen faalangst en prestatie op een tentamen. Hoe meer faalangst iemand heeft, hoe lager hij of zij zal scoren op een tentamen.

Wanneer er verschillende clusters in een puntgrafiek waar te nemen zijn, is het vaak handig om het patroon van elk cluster te beschrijven. De sterkte van een relatie wordt bepaald door te kijken naar de mate waarin punten in de grafiek bij elkaar in de buurt liggen. Veel spreiding gaat dus samen met een zwakke samenhang. In puntgrafieken zijn vaak lineaire relaties te ontdekken; de punten liggen dan ongeveer op een rechte lijn.

Soms liggen de punten niet op een rechte lijn, maar is er sprake van een curve (een gebogen lijn). Om te zorgen dat er een rechte lijn wordt weergegeven in plaats van een curve, kun je de data: transformeren.

De meest gebruikte transformatie is de log transformatie. Hiervoor is het noodzakelijk dat er alleen positieve waarden zijn. Een logaritme is een wiskundige functie, het is de exponent waarmee een constante waarde moet worden verheven om een bepaald getal als resultaat te krijgen. Op de meeste statistische software en uitgebreide rekenmachines zit een knop waarmee je makkelijk een logaritme kunt toepassen.

Als je een categorische variabele aan de puntgrafiek wilt toevoegen, dan is het handig om verschillende kleuren of symbolen voor elke categorie te gebruiken.

Om een duidelijke relatie in de punten te ontdekken, is het mogelijk om de grafiek als het ware vloeiend te maken (smoothing). Dit kan door middel van software gedaan worden. Er wordt dan een lijn door de punten getrokken. Deze lijn past het beste bij de gevonden x- en y-waarden. Hoe meer vloeiend (smooth) je de lijn maakt, hoe meer de lijn slechts één boog wordt, in plaats van meerdere boogjes.

Puntgrafieken laten het verband zien tussen twee kwantitatieve variabelen. In sommige gevallen is het echter noodzakelijk om het verband te bestuderen tussen een categorische variabele en een kwantitatieve variabele. Dan is het nodig om voor elke categorie apart een vergelijking te maken van de verdelingen.

Wat is correlatie?

Kort samengevat kan dus gezegd worden dat een puntgrafiek de vorm, richting en de sterkte van een relatie tussen twee kwantitatieve variabelen beschrijft. Het kan soms misleidend zijn om met het blote oog uitspraken te doen over de sterkte van een relatie. Door het veranderen van de getallen op de assen kan het namelijk lijken alsof er een zeer sterke samenhang is, terwijl dat niet zo hoeft te zijn. Het omgekeerde is overigens ook mogelijk. Om deze reden gebruiken we de correlatiemaat.

Hoe bereken je correlatie?

Je berekent de correlatie (r) als volgt:

De correlatie meet de richting en de sterke van een lineaire relatie tussen twee kwantitatieve variabelen. Vaak wordt de letter r gebruikt om de correlatie te beschrijven.
Stel: we hebben data verzameld voor variabelen X en Y voor n aantal personen. De gemiddelden en standaarddeviatie van de twee variabelen zijn dan x̄ en s_x voor de x-waarden en ȳ en s_y voor de y-waarden.
De correlatie r tussen X en Y is:

\[ r = \frac{cov(x,y)}{s(x)s(y)} = \frac{ \sum{ ((x_{i} - \bar{x})(y_{i} - \bar{y})) / (N - 1) } }{s(x)s(y)} \]

In bovenstaande berekening betekenen de symbolen het volgende:

r = correlatie tussen X en Y
n = het totaal aantal personen
Σ = sommatie/sigma. Tel alles bij elkaar op wat erachter staat.
x̄ = het gemiddelde van X
ȳ = het gemiddelde van Y
s_x = de standaarddeviatie van X
s_y = de standaarddeviatie van Y

Eerst wordt van elke individuele score dus het gemiddelde van de variabele afgetrokken. Daarna wordt dit getal door de bijbehorende standaarddeviatie gedeeld. In feite worden alle scores op X en Y dus gestandaardiseerd.

Wat zijn kenmerken van de correlatie?

r is negatief wanneer er sprake is van een negatieve associatie en r is positief wanneer er sprake is van een positieve samenhang.
Correlatie maakt geen onderscheid tussen verklarende variabelen en responsvariabelen. Het maakt, voor het berekenen van de correlatie dus niet uit welke variabele je X en welke variabele je Y noemt.
Om een correlatie uit te rekenen moeten allebei de variabelen kwantitatief zijn.
Omdat r gebruik maakt van gestandaardiseerde waarden, verandert de correlatie niet als de meeteenheden van X, Y of beide worden veranderd. Het meten van lengte in centimeters of meters en het meten van gewicht in kilogram of pond, verandert dus niets aan de correlatie. De correlatie r heeft zelf geen meeteenheid; het is alleen een getal.
De correlatie r is altijd een getal tussen de -1 en de 1. Waarden rond de 0 laten zien dat er sprake is van een zeer zwakke relatie. De sterkte van een relatie neemt toe naarmate r zich richting de -1 of 1 ontwikkelt. Dit betekent namelijk dat de waarden steeds meer op een rechte lijn gaan liggen en dat er weinig spreiding waar te nemen is. Een correlatie van -1 of 1 komt zelden voor en is extreem. In die gevallen liggen alle punten precies op een rechte lijn.
Correlatie meet alleen de sterkte van de lineaire relatie tussen twee variabelen. Correlatie beschrijft dus niet de gebogen (curved) relatie tussen variabelen, hoe sterk deze ook is.
Net zoals het gemiddelde en de standaarddeviatie, is ook de correlatie niet robuust: r wordt sterk beïnvloed door slechts een paar afwijkende scores.
De schaal van een puntgrafiek aanpassen kan misleidend zijn, het verandert echter niets aan de gestandaardiseerde waarden van de variabelen en kan de correlatie niet veranderen.
Correlatie is nooit een complete beschrijving van data waarbij twee variabelen voorkomen. Er moet onder andere ook gekeken worden naar de gemiddelden en standaarddeviaties.

Wat is regressie?

Wat zijn regressielijnen?

Als uit een puntgrafiek blijkt dat er sprake is van een lineaire relatie, dan willen we een zo goed mogelijk passende regressielijn ontwerpen die deze relatie beschrijft.

Een regressielijn is een rechte lijn die beschrijft hoe een responsvariabele Y verandert als een verklarende variabele X verandert.
We gebruiken een regressielijn vaak om de waarde van Y te voorspellen voor een gegeven waarde van X. Voor regressie is, in tegenstelling tot correlatie, wel van belang dat we een verklarende variabelen en een responsvariabele hebben.

Hoe vind je een passende regressielijn?

Natuurlijk is er geen enkele rechte lijn die precies door alle punten van de puntgrafiek gaat. Een lijn passend maken (fitting a line) betekent dat we op zoek gaan naar een lijn die het beste in de buurt komt van alle punten. Stel dat Y een responsvariabele op de verticale as is en dat X een verklarende variabele op de horizontale as is. Een rechte lijn die Y aan X verbindt heeft dan de vorm van:

Y= b₀+ b₁x.
In deze formule is b1 de regressiecoëfficiënt (slope) en is b0 het intercept.
De regressiecoëfficiënt (slope) is de waarde waarmee Y verandert als X met 1 eenheid toeneemt. Het geeft hiermee informatie over hoeveel het geheel onderhevig is verandering indien de waarden worden aangepast. Dit geeft aan of een grafiek een sterke of zwakke helling heeft.
Het intercept is de waarde van Y wanneer X nul is.

Wat is extrapolatie?

Extrapoleren (extrapolation) is het gebruik van een regressielijn om voorspellingen te doen die ver buiten de onderzochte waarden liggen. Je kunt bijvoorbeeld een puntgrafiek maken op basis van de lengte- en gewichtscores van een groep mensen. De langste persoon kan bijvoorbeeld 1.80 zijn. Als je wilt extrapoleren probeer je te voorspellen hoeveel iemand van bijvoorbeeld 1.95 weegt. Vaak leidt extrapolatie echter tot onbetrouwbare voorspellingen.

Wat is minste-kwadraten-regressie

We willen dus een lijn vinden waarmee we waarden van Y zo goed mogelijk kunnen voorspellen op basis van waarden van X. De lijn moet zo goed mogelijk bij de punten liggen, maar wel in een verticale richting. Onze voorspellingen (Ŷ) zijn echter nooit perfect, er is altijd een mate van error.

Error = geobserveerde score – voorspelde score. Fouten zijn positief als een geobserveerde respons (Y) boven de regressielijn ligt en negatief als een geobserveerde respons (X) onder de lijn ligt. We willen een lijn vinden die deze voorspellingsfouten zo klein mogelijk maakt. De meest gebruikte manier is de minste-kwadraten-regressie (least-squares regression).
De minste-kwadraten-regressielijn (least-squares regression) van Y op X is de lijn die de som van kwadraten van de verticale afstanden (van de datapunten) zo klein mogelijk maakt. Om deze regressielijn te maken, moeten we eerst de waarden van b0 en b1 vinden, die samengaan met zo min mogelijk voorspellingsfouten: Σ (error)² = Σ(y_i - b₀ - b₁x_i)².
Vaak kan deze lijn door middel van computerprogramma’s gevonden worden. Het is echter ook mogelijk om de regressielijn zelf te berekenen: ŷ = b₀+ b₁x.
De waarde van b₁wordt gevonden met de formule: r ( S_y / S_x ). Hierbij deel je S_y door S_x, vervolgens vermenigvuldig je het met r.
De waarde van b₀ wordt gevonden met de formule: - b₁ .

Hoe moet je de regressielijn interpreteren?

De regressiecoëfficiënt (slope) en intercept van de minste-kwadraten-regressielijn zijn erg afhankelijk van het soort meeteenheden dat is gebruikt. Als niet bekend is welke meeteenheid is gebruikt, valt er aan de hand van de omvang van de slope en intercept niks te concluderen.

Bekijk bij het gebruik van software welke informatie je nodig hebt, en welke informatie niet. Zodra je de statistische methode begrijpt, kun je output uit vrijwel elke software aflezen.

Wat zijn eigenschappen van minste-kwadraten-regressie?

Minste-kwadraten-regressie is de meest gebruikte methode om een regressielijn op data toe te passen. Deze methode heeft de volgende condities:

Correlatie en de regressiecoëfficiënt (slope) van de minste-kwadraten-regressielijn hangen met elkaar samen. Een verandering van een standarddeviatie in X heeft een verandering van r standaarddeviaties in Y tot gevolg.
De minste-kwadraten-regressielijn passeert altijd langs het punt (,) op een y/x grafriek.
Het onderscheid tussen verklarende variabelen en responsveriabelen is belangrijk bij regressie. Deze moeten niet met elkaar worden verward, anders komt de regressielijn er anders uit te zien. Als je het toegenomen lichaamsgewicht als gevolg van activiteiten wilt meten, dan is lichaamsgewicht je responsvariabele, deze wordt op de y-as (verticale as) weergegeven.

Wat is de proportie verklaarde variantie

Het kwadraat van de correlatie, r², zegt ons hoeveel van de variantie in Y wordt verklaard door de regressielijn die hoort bij Y. Als een correlatie -1 of 1 is, dan is de proportie verklaarde variantie precies 1. Dit komt doordat dan alle variantie in Y perfect wordt verklaard door de bijbehorende regressielijn

Ook kan r² gezien worden als de variantie van de voorspelde scores (Ŷ) gedeeld door de variantie van de geobserveerde waarden (Y).

Wat zijn beperkingen van correlatie en regressie?

Wat zijn residuen?

Zelfs met een zo goed mogelijk passende regressielijn, liggen nooit alle punten precies op de lijn. Sommige punten worden dus niet goed voorspeld aan de hand van de regressielijn. De punten die afwijken van de regressielijn worden residuen genoemd.

Een residu is het verschil tussen een geobserveerde waarde van een responsvariabele en de voorspelde waarde volgens de regressielijn: residu = y- ŷ. Het gemiddelde van alle residuen is altijd nul.
Een residu-plot is een puntgrafiek van alle regressieresiduen ten opzichte van de verklarende variabele. Met zo een plot kan nagegaan worden in hoeverre een regressielijn goed past. Als de regressielijn past bij het algemene patroon van de data, dan zal er geen patroon aanwezig zijn in de residuen. Een uitbijter is een observatie die ver van het algemene patroon binnen een residu- plot ligt.
Punten die uitbijters zijn in de Y-richting van een puntgrafiek hebben grote residuen, maar dat hoeft niet voor andere residuen te gelden.
Een score is invloedrijk (influential) voor een rekenkundige berekening als de verwijdering ervan zou leiden tot een belangrijke verandering in de berekening. Punten die uitbijters in de X-richting zijn, hebben vaak invloed op de minste-kwadraten-regressielijn.
De minste-kwadraten-regressielijn is, net zoals de correlatie, niet robuust.

Wat zijn verborgen variabelen?

De relatie tussen twee variabelen kan vaak het beste begrepen worden door ook naar de invloed van andere variabelen te kijken. Op de loer liggende variabelen kunnen een correlatie of een regressie misleidend maken.

Een verborgen variabele (lurking variable) is een variabele die niet in het onderzoek als een verklarende variabele of responsvariabele opgenomen is, maar toch de interpretatie van de relatie tussen deze variabelen kan beïnvloeden.

Wat zijn correlatie en causaliteit?

Een (sterke) relatie tussen een verklarende variabele (X) en een responsvariabele (Y) is geen bewijs voor het feit dat X veranderingen in Y veroorzaakt. Correlatie zegt dus niets over causaliteit. Daarnaast is het zo dat een correlatie die op de gemiddelde scores van individuen gebaseerd is vaak veel hoger is dan een correlatie die gebaseerd is op gewone scores. Ook kan er in sommige gevallen sprake zijn van het restricted-range probleem: de data bevat dan geen informatie over alle mogelijke scores op de verklarende variabele en de responsvariabele. In dat geval zullen de correlatie (r) en de proportie verklaarde variantie (r²) lager uitvallen dan als alle mogelijke scores bij de data betrokken zouden worden.

Onderzoekers maken vaak gebruik van meerdere verklarende variabelen. Een hoge score op een rekentoets (Y) kan bijvoorbeeld samenhangen met aanleg, maar ook met motivatie en opvoeding. Als een onderzoeker meerdere verklarende variabelen gebruikt, dan doet hij of zij aan multipele regressie. Er kan een correlatie tussen alle verklarende variabelen samen en de responsvariabele berekend worden. Deze correlatie wordt een multipele correlatiecoëfficiënt genoemd.

Wat is data mining?

Explanatory data analysis (EDA) is een term voor het analyseren en interpreteren van data met (punt)grafieken en regressie etc. Dit kan ook worden gebruikt voor enorme hoeveelheden data en hele grote databases. In dat geval heet het data mining. Hoe een database wordt gestructureerd en hoe data erin wordt opgeslagen, heet data warehousing. Het is bij data mining belangrijk om efficiënte algoritmes te gebruiken, de data helder te structureren en meer geautomatiseerde analysemethoden te gebruiken.

Welke data van tweewegtabellen zijn er?

Wat is categorische data?

Puntgrafieken zijn handig als er sprake is van kwantitatieve data. Bij categorische data dienen tweewegtabellen (two-way tables) gebruikt te worden. Voorbeelden van categorische variabelen zijn sekse en beroep. Een tweewegtabel laat zien hoe vaak verschillende combinaties van twee categorische data voorkomen.

Hoeveel mannen en hoeveel vrouwen zijn bijvoorbeeld psycholoog van beroep? En hoeveel mannen en vrouwen zijn dokter? Sekse wordt in het algemeen als rijvariabele in zo een tabel gebruikt, terwijl de andere variabele vaak de kolomvariabele is. Elke combinatie van de twee variabelen vormt een cel. In ons voorbeeld worden twee beroepen en twee geslachten onderzocht. Hier horen dus vier cellen bij. Om de relatie tussen twee categorische variabelen te beschrijven, berekenen we verschillende percentages, bijvoorbeeld het percentage mannen dat dokter is of het percentage vrouwen dat psycholoog is. Bij elkaar opgeteld komen de proporties precies op 1 uit. De verzameling van deze proporties maakt deel uit van de verzamelde distributie (joint distribution) van de twee categorische variabelen.

Wat zijn marginale en conditionele distributies?

Naast een verzamelde distributie is het ook mogelijk om marginale distributies weer te geven. Je kunt dan van beide variabelen afzonderlijk een proportie distributie maken. Je kunt dus een distributie maken van sekse (met de proportie mannen en vrouwen die onderzocht zijn) en een distributie maken voor beroep (met de bijbehorende proportie voor dokter en psycholoog).

Een conditionele distributie geeft echter meer informatie dan afzonderlijke marginale distributies. Je kijkt dan bijvoorbeeld naar de proportie doktoren, gegeven dat iemand een man is.

Staafdiagrammen (bar graphs) helpen ons om de relatie tussen twee categorische variabelen te ontdekken. Geen enkele grafische weergave (zoals de puntgrafiek) laat de vorm van de relatie tussen categorische variabelen zien en geen enkele numerieke waarde (zoals de correlatie) is een uiting van de sterkte van de relatie tussen dit soort variabelen.

Tweewegtabellen zijn een compacte manier om veel informatie te tonen, de eerste stap om ze te maken is bepalen welke percentages je wilt tonen.

Wat is een mozaïekplot?

Een mozaïekplot (mosaic plot) toont een verdeling ingedeeld in meestal vier rechthoeken. Het lijkt qua vormgeving op een staafdiagram, alleen is elke staaf in twee stukken verdeeld, het gedeelte van een populatie dat wel en niet aan een bepaalde variabele voldoet. Een mozaïekplot kan worden gebruikt om zowel marginale als conditionele distributies op een overzichtelijke manier weer te geven.

Wat is de Paradox van Simpson?

Zoals bij kwantitatieve variabelen, kunnen op de loer liggende variabelen ook invloed hebben op de relatie tussen categorische variabelen.

Een verband of vergelijking die opgaat voor alle onderzochte groepen kan van richting veranderen wanneer de data wordt gecombineerd tot een enkele groep. Deze verandering van richting wordt het paradox van Simpson genoemd. Dit paradox laat in extreme vorm zien dat relaties misleidend kunnen zijn wanneer er op de loer liggende variabelen aanwezig zijn.

Er kunnen ook driewegtabellen ontworpen worden. Hiervoor is het nodig om uitkomsten samen te stellen voor drie variabelen. Dit proces heet aggregatie (aggregation).

Wat is causaliteit?

Welke samenhang is er?

Correlatie zegt alleen iets over de mate waarin twee variabelen samenhangen. Met een (sterke) correlatie kan daarom niets gezegd wordt over causaliteit. Als we zien dat veel faalangst samengaat met lagere schoolcijfers, kunnen we dus (nog) niet concluderen dat faalangst de oorzaak van de lage cijfers is.

Als variabele X variabele Y veroorzaakt, is er sprake van causaliteit (X>Y). Causaliteit kan door middel van experimenten ontdekt worden. In dat geval worden waarden van variabele X gevarieerd om het effect op Y te onderzoeken. Andere factoren worden constant gehouden. Dit om de invloed van op de loer liggende variabelen zo klein mogelijk te houden.

Het is ook mogelijk dat X en Y lijken samen te hangen omdat ze allebei worden beïnvloed door een andere variabele, namelijk variabele Z. Dit wordt ook wel algemene respons (common response) genoemd. Variabele Z is in dit geval dus een op de loer liggende variabele. De waargenomen correlatie tussen X en Y is dus misleidend.

Tot slot kan er sprake zijn van confounding. Twee variabelen zijn ‘confounded’ wanneer hun effecten op een responsvariabele niet van elkaar kunnen worden onderscheiden. Deze ‘confounded’ variabelen kunnen zowel verklarende als op de loer liggende variabelen zijn. De waargenomen correlatie tussen X en Y is dus misleidend als er sprake is van confounding.

Wat zijn oorzakelijke verbanden?

Soms is het niet mogelijk om causaliteit te ontdekken door middel van experimenten. Je kunt mensen bijvoorbeeld niet laten roken om te kijken of ze kanker krijgen. Zo een onderzoek zou onethisch zijn. Uit onderzoek blijkt dat rookgedrag vaak wel samengaat met kanker, maar hieruit mag nog niet geconcludeerd worden dat roken kanker veroorzaakt. Dit omdat er geen sprake is geweest van een experiment. Hoe moet causaliteit ontdekt worden als er geen experimenten gedaan kunnen worden?

De onderstaande factoren zijn van belang:

Als blijkt dat er een sterke samenhang tussen variabele X (roken) en variabele Y (kanker) bestaat, dan moet hier aandacht aan besteed worden.
Ook moet de samenhang consistent zijn. Uit onderzoeken in verschillende landen blijkt bijvoorbeeld dat roken en kanker vaak samengaan.
Ook moet blijken dat hoge doseringen samengaan met sterkere reacties. Mensen die erg veel roken krijgen bijvoorbeeld vaker kanker.
De vermoede oorzaak moet aan het gevolg voorafgaan. Longkanker blijkt zich bijvoorbeeld pas na vele jaren van roken te ontwikkelen.
De vermoede oorzaak moet plausibel zijn. Uit onderzoeken met dieren blijkt bijvoorbeeld dat sigarettenrook kanker veroorzaakt.

Hoe moet je data verzamelen? - Chapter 3

Wanneer we bezig zijn met verkennende data-analyse (exploratory data analysis), is de grafische weergave van distributies belangrijk. Alleen maar deze vorm van data-analyse uitvoeren is echter vaak onvoldoende. Dit omdat opvallende patronen in de data veel verschillende oorzaken kunnen hebben. De validiteit van de conclusies die we uit een data-analyse trekken hangen niet alleen af van de beste methoden van analyse, maar ook van de kwaliteit van de data. Daarom wordt hier begonnen met het behandelen van de bronnen van data. De belangrijkste bronnen zijn experimenten en steekproef-surveys. Deze worden daarom ook behandeld. Statistische technieken voor het produceren van data zijn de basis voor statistische gevolgtrekkingen, die antwoord geven op specifieke vragen. Ook ethische vragen met betrekking tot het ontwerp van studies en de analyse van data worden in dit hoofdstuk behandeld.

Welke verschillende bronnen van data zijn er?

Anekdotische data en beschikbare data

Vaak komt het voor dat mensen op basis van hun eigen ervaringen conclusies trekken. Ze hebben dan niet door dat hun ervaringen niet altijd representatief zijn. We zeggen dat mensen in dit soort gevallen uitgaan van anekdotes. Anekdotisch bewijs (anecdotal evidence) is gebaseerd op onze eigen selectie van informatie. Deze selectie is vaak gebaseerd op zaken die op één of andere manier onze aandacht trekken. Deze informatie is dus niet per se representatief.

Soms maken we gebruik van beschikbare data (available data), welke in het verleden voor een bepaald doel verzameld is. We gebruiken deze data dan om een nieuwe vraag te beantwoorden. Beschikbare data kan bijvoorbeeld in de bibliotheek of op het internet gevonden worden. Soms moet er toch data gemaakt worden op specifieke vragen. We gebruiken daarbij experimenten en steekproeven.

Steekproeven (samples)

Vaak zijn onderzoekers geïnteresseerd in hoe de populatie naar bepaalde zaken kijkt. Hoe denken Amerikanen bijvoorbeeld over abortus? En hoeveel geven studenten uit aan studieboeken? Om dit soort vragen te beantwoorden, worden mensen ondervraagd (sample surveys). Het idee is dat een steekproef representatief is voor een grotere populatie. Sampling houdt in dat we een onderdeel van een groep bestuderen om uitspraken over de hele groep te doen.

Onderzoekers geven de voorkeur aan steekproeven boven een census. Bij een census wordt elk individu uit de gehele populatie onderzocht. Dit is niet efficiënt en bovendien blijkt dat een goed uitgevoerde steekproefprocedure preciezere resultaten geeft dan een census. Dit omdat onderzoekers minder scherp worden als ze ontzettend veel mensen moeten onderzoeken. Ze kunnen dan sneller fouten maken.

Het bestuderen van steekproeven is een vorm van een observationeel onderzoek (observational study). Dit omdat individuen geobserveerd worden en variabelen gemeten worden. De reacties worden niet beïnvloed. Dit in tegenstelling tot een experiment, waarbij opzettelijk een interventie uitgevoerd wordt, om te kijken hoe mensen hierop reageren. Als onderzoeker veroorzaak je dan dus zelf veranderingen in responsen van mensen. Experimenten krijgen vaak de voorkeur boven observationele onderzoeken, omdat we bij experimenten meer controle hebben over de variabelen.

Voorbeelden van bronnen

Hoe breder en vindingrijker je omgaat met het zoeken van bronnen voor data, hoe meer er te vinden valt. Bij elke bron is het belangrijk om na te gaan wat de betrouwbaarheid en waarde van het materiaal is en of en hoe het te analyseren valt. Elke bron heeft voor- en nadelen. Bronnen kunnen bijvoorbeeld het volgende zijn:

Anekdotische data: een student die vertelt dat een docent de beste docent van de universiteit is.
Beschikbare data: statistische gegevens van het UWV over het aantal werkenden.
Steekproeven: enquêtes gehouden door het Centraal Bureau voor de Statistiek.
Observationeel onderzoek: een groep wielrenners die de kracht in hun kuiten opmeet
Experiment: een bedrijf dat schoenen verkoopt op internet, wisselt af tussen twee websites, om te bekijken welke website voor de hoogste verkoop zorgt.

Welke verschillende typen experimenten zijn er?

Begrippen

De individuen die we voor een experiment gebruiken, worden experimentele eenheden (exprimental units) genoemd.
Wanneer deze eenheden mensen zijn, noemen we ze proefpersonen (subjects).
Een specifieke experimentele conditie die op experimentele eenheden wordt toegepast, wordt een behandeling (treatment) genoemd.
Het onderscheid tussen verklarende variabelen en responsvariabelen is voor experimenten van belang, omdat we causaliteit willen vastleggen. Vaak lukt dit ook echt alleen met experimenten. De verklarende variabelen worden factoren genoemd. Vaak wordt er in onderzoeken gekeken naar de gezamenlijke invloed van meerdere factoren. In zo een experiment wordt elke behandeling gevormd door specifieke waarden of hoeveelheden van factoren te combineren. Deze specifieke waarden worden levels genoemd.

Vergelijkende experimenten

In veel experimenten in het laboratorium wordt er maar één interventie in een experiment uitgevoerd. Deze interventie wordt dan toegepast op alle experimentele eenheden. Een dergelijke opzet wordt als volgt samengevat:

Behandeling > Geobserveerde respons.

Wanneer experimenten echter met levende organismen worden gedaan, zijn wat complexere designs handiger. Dit om echt vast te stellen dat de geobserveerde responsen het gevolg zijn van de behandeling en niet van bijvoorbeeld een op de loer liggende variabele.

Soms wordt er in experimenten gebruik gemaakt van een placebo-effect. Mensen denken dan dat een bepaalde behandeling effect heeft gehad, terwijl het effect in werkelijkheid niet toe te schrijven is aan de behandeling. Je kunt mensen bijvoorbeeld een neppilletje geven en zeggen dat deze hun depressie zal verminderen. Het komt regelmatig voor dat mensen na afloop echt het gevoel hebben dat ze minder depressief zijn geworden.

Een controlegroep kan ingezet worden om te kijken of een interventie echt leidt tot specifieke resultaten. De controlegroep krijgt dan geen interventie, terwijl andere groepen dat wel krijgen. Als blijkt dat de groepen die wel een interventie (interventiegroep) gehad hebben anders scoren op de responsvariabele dan de controlegroep, dan komt dit hoogstwaarschijnlijk door de interventie zelf en niet door andere variabelen.

Een onderzoek is partijdig (‘biased’) wanneer deze systematisch bepaalde resultaten geeft die niet het gevolg zijn van echte effecten.

Randomisatie (randomization)

Het design van een experiment beschrijft de responsvariabele(n), de factoren (verklarende variabelen) en hoe het experiment opgezet is. Vergelijkingen tussen groepen maken (en verschillen ontdekken) is voor een onderzoeker het allerbelangrijkst. Een tweede aspect van een experiment gaat over hoe deelnemers worden toegewezen aan condities. Dit kan door subjects met verschillende sekse, leeftijd, gezondheid, etc. met elkaar te matchen. Echter is dit niet geheel adequaat omdat de onderzoeker dit niet van iedereen kan onderzoeken vooraf en er zelfs andere variabelen zijn waar hij vooraf niet aan gedacht had. Daarom wordt er vaak gebruikt gemaakt van het random toewijzen, zodat onderzoeksresultaten echt het gevolg zijn van de interventie en niet van andere factoren tussen groepen, die voor de interventie al aanwezig waren. Randomisatie is vaak het gevolg van toeval. De onderzoeker beoordeelt dan zelf niet in welke groepen mensen terecht moeten komen. Hij of zij kan bijvoorbeeld door middel van tossen mensen toewijzen aan verschillende condities. Randomisatie is het gebruik van toeval om experimentele eenheden in groepen in te delen.

Vergelijkende experimenten randomiseren

Het randomiseren van vergelijkende experimenten heeft de volgende gevolgen:

Randomisatie zorgt ervoor dat we twee groepen proefpersonen krijgen waarvan we verwachten dat ze soortgelijk zijn op alle relevante vlakken, voordat de behandelingen uitgevoerd worden.
Een vergelijkend design zorgt ervoor dat invloeden, behalve de behandeling zelf, gelijk over de groepen verdeeld zijn. Dit zorgt ervoor dat er geen systematische verschillen tussen de groepen bestaan.
Verschillen in groepsgemiddelden op de responsvariabele moeten dan dus wel het gevolg zijn van de experimentele ingreep.

Het zou kunnen zijn dat de verschillen in de responsvariabele toch oorzaak zijn van de verschillende proefpersonen in de groepen. Gebruik daarom genoeg proefpersonen om kansvariatie te verminderen.

Principes van experimentele designs

De belangrijkste principes van experimentele designs zijn:

Vergelijking: Experimenten vergelijken twee of meer behandelingen met elkaar. Dit zorgt ervoor dat de effecten van op de loer liggende variabelen onder controle worden gehouden.
Randomisering: Het gebruik van toeval om experimentele eenheden aan behandelingen tot te wijzen.
Herhaling: De herhaling van elke behandeling op vele verschillende experimentele eenheden zorgt ervoor dat variatie in de onderzoeksresultaten, als gevolg van toeval, wordt verkleind.

We hopen dat de verschillen op de responsvariabele per groep verschillen en dat deze zo groot zijn dat ze niet het gevolg kunnen zijn van toevalsverschijnselen. We kunnen met statistische formules achterhalen of de resultaten het gevolg van toeval zijn of hoogstwaarschijnlijk het gevolg van echte effecten zijn. Een gevonden effect dat zo groot is dat deze hoogstwaarschijnlijk niet het gevolg is van toeval, noemen we statistisch significant.

Het proces van randomiseren

Je kunt software gebruiken om te randomiseren, maar handmatig kan ook gerandomiseerd worden. Er moet dan een tabel met random cijfers gebruikt worden. Een tabel van random cijfers is een lijst van de cijfers 0,1,2,3,4,5,6,7,8,9. Deze getallen:

Hebben allemaal dezelfde kans om geselecteerd te worden.
Zijn onafhankelijk van elkaar, omdat de ene waarde geen invloed heeft op een andere waarde.

Een experimenteel design is helemaal gerandomiseerd (completely randomized design) wanneer alle experimentele eenheden random aan alle condities worden toegewezen. Met zo een design kunnen heel wat behandelingen met elkaar vergeleken worden.

Experimentele designs

Een onderzoek is dubbel-blind (double-blind) wanneer zowel de subjecten zelf als de onderzoekers niet weten welke behandelingen de proefpersonen gekregen hebben. Zo een design zorgt ervoor dat verwachtingen van onderzoekers geen invloed hebben op hun interpretaties van de gevonden resultaten, en dat de onderzoeker iedere proefpersoon op dezelfde manier onderzoekt. Een nadeel van experimenten is het gebrek aan realisme (lack of realism). In dat geval zijn de proefpersonen, de behandelingen of de setting van een experiment geen goede representaties van de condities die de onderzoekers willen onderzoeken. Veel onderzoekers willen hun conclusies generaliseren naar een setting die anders is dan de setting waarin het experiment gedaan is. Het is belangrijk om te onthouden dat statistische analyse van een experiment ons niet kan vertellen hoe goed de resultaten naar andere settings te generaliseren zijn.

Gematchte paar-ontwerpen (matched pair designs) en blok ontwerpen

Gematchte paar-design: bij dit design worden twee behandelingen met elkaar vergeleken. In sommige matched pair-designs ontvangt iedere proefpersoon twee behandelingen. In andere worden de proefpersonen aan elkaar gekoppeld, waarbij één proefpersoon in elk paar een behandeling krijgt. De onderzoeker kan de proefpersonen bijvoorbeeld koppelen op basis van geslacht, sekse en inkomen. Het idee is dat gekoppelde proefpersonen meer op elkaar lijken dan proefpersonen die niet gekoppeld worden. Het vergelijken van responsen binnen paren zou daarom meer zeggen dan het vergelijken van responsen van mensen die niets met elkaar gemeen hebben. Het koppelen van proefpersonen (matching) geeft vaak preciezere resultaten dan wanneer alleen randomisatie wordt toegepast.
Blok design: in dit design wordt gebruik gemaakt van zogenaamde blokken. Een blok is een groep van experimentele eenheden of proefpersonen die op elkaar lijken. Er wordt van uitgegaan dat de overeenkomsten tussen proefpersonen invloed zullen hebben op de resultaten. In een blokdesign wordt de random toewijzing van experimentele eenheden aan behandelingen afzonderlijk voor elk blok gedaan. Je kunt het bijvoorbeeld zo doen dat je eerst mannen en vrouwen van elkaar splitst in twee blokken. Vervolgens ga je deze random toewijzen aan verschillende behandelingen. Nu kun je de behandeling tussen de groepen van een bepaald geslacht vergelijken en het geslacht op zich vergelijken. Deze designs kunnen van alle groottes zijn.

Waar moet je op letten bij het trekken van een steekproef uit de populatie?

Begrippen

Een hele groep individuen waar we iets over willen weten, noemen we een populatie. Zo kunnen we spreken over de Nederlandse kiezer, Nederlandse studenten en Ajax-supporters. Dit zijn allemaal voorbeelden van populaties.
Een sample (steekproef) is een deel van de populatie. Dit deel onderzoeken we om informatie te verzamelen. Deze informatie kunnen we gebruiken om uitspraken over de populatie als geheel te doen.
Het design van een steekproefonderzoek (sample survey) vertelt ons iets over de manier waarop we een steekproef uit de populatie selecteren.
Soms worden er steekproeven gebruikt die twee keer onderzocht worden. Sommige individuen doen de tweede keer echter niet meer mee, omdat ze bijvoorbeeld verhuisd zijn. Het deel van de oorspronkelijke sample dat bruikbare data levert, wordt de response rate genoemd.

Extreme meningen

Een vrijwillige responssteekproef (voluntary response sample) bestaat uit mensen die zelf kiezen om mee te doen aan een onderzoek. Dit soort steekproeven zijn partijdig (‘biased’), omdat mensen met sterke meningen (vooral negatieve meningen) vaker reageren.

Voorbeeld: Een onderzoeker wil uitzoeken of de bevolking denkt dat er te veel immigranten in Nederland worden toegelaten. Mensen die er helemaal van overtuigd zijn dat er te veel immigranten in Nederland worden toegelaten, reageren veel sneller op zo een onderzoek, dan mensen die daar een neutrale mening over hebben. Om deze reden zijn de verkregen onderzoeksresultaten vaak misleidend. Bij een dergelijke steekproef is randomisatie niet aan de orde.

Soorten steekproefdesigns

Om juiste conclusies te trekken, is het van belang om bij het selecteren van steekproeven randomisatietechnieken toe te passen.

Een kanssteekproef (probability sample) is een steekproef die aan de hand van toeval wordt geselecteerd. We moeten weten welke steekproeven mogelijk zijn en welke kans met elke steekproef gepaard gaat. Een kanssteekproef kan simple random zijn, of gestratificeerd.

Een simpele random steekproef (SRS) is een steekproef waar individuen zo zijn gekozen dat elke set van n aantal individuen evenveel kans heeft gehad om voor de steekproef geselecteerd te worden. We selecteren een SRS door alle individuen uit de populatie een label te geven en software (of een tabel met random cijfers) te gebruiken om een steekproef van de gewenste grootte te selecteren. Bij een SRS heeft elk individu evenveel kans om gekozen worden, maar elke set van individuen heeft ook evenveel kans om gekozen te worden.

Een gestratificeerde (stratified) random steekproef wordt vaak gebruikt als er sprake is van een onderzoek naar een grote populatie. Een SRS is dan vaak niet toereikend genoeg. Om een gestratificeerde random steekproef te trekken moet de populatie eerst in groepen van soortgelijke individuen verdeeld worden. Deze groepen noemen we strata. Vervolgens wordt afzonderlijk per stratum een SRS getrokken. Tot slot worden al deze SRS’s gecombineerd tot een volledige steekproef.

Tot slot bestaat er nog het multistage sampling ontwerp. Bij dit ontwerp wordt de steekproef in fasen geselecteerd. Dit design wordt bijvoorbeeld vaak gebruikt bij nationale onderzoeken over huishoudens en werkloosheid. In zo een geval moet je als onderzoeker informatie verzamelen over de werkloosheid in het hele land, maar het is ook belangrijk om per provincie te weten hoe het met de werkloosheid zit. Daarom wordt een land als het ware opgedeeld in gebieden (bijvoorbeeld in termen van provincies) voor een multistage sampling ontwerp. Vervolgens worden er blokken gevormd in elke provincie. Deze blokken zijn voorbeelden van stratificatie (zoals bij een gestratificeerde random steekproef). De blokken kunnen gevormd worden op basis van etniciteit of (een) andere variabele(n). Tot slot wordt er een gestratificeerde steekproef van de blokken in elke provincie getrokken.

Gevaren van steekproeven

Vaak weten we niet precies hoe groot de populatie is waar we een uitspraak over willen doen. Omdat er zelden een lijst beschikbaar is van de hele populatie, is er bij veel steekproeven sprake van onvoldoende dekking.

Onvoldoende dekking (undercoverage): hiervan is sprake als sommige groepen uit de populatie systematisch niet betrokken worden bij een steekproef. Een voorbeeld is dat iemand een onderzoek uitvoert door mensen te bellen. In Amerika heeft 6% van de mensen echter geen telefoon. Zo een onderzoek kan dan ook tot misleidende resultaten leiden.

Een andere bron van misleidende informatie is nonrespons. Er is sprake van nonrespons wanneer een individu, die voor een steekproef geselecteerd is, niet meewerkt aan het onderzoek of als er met hem of haar geen contact opgenomen kan worden.

Vervolgens kan er bij steekproeven ook sprake zijn van responsbias: deelnemers reageren dan bijvoorbeeld niet eerlijk over zaken als drugsgebruik of stelen. Dit omdat niemand ongewenst gedrag wil toegeven.

Tot slot kan de bepaalde verwoording van vragen invloed hebben op de respons in de steekproef. Verwarrende vragen kunnen bijvoorbeeld voor veel bias zorgen.

Wat zijn de grondbeginselen van ethiek bij onderzoek?

Basisbeginselen

Onderzoekers kunnen voor ethische dilemma’s komen te staan wanneer ze data proberen te verzamelen. Dit komt vooral vaak voor bij experimenten, omdat deze altijd samengaan met een interventie. Zo kunnen bijvoorbeeld nieuwe medicijnen op een groep mensen uitgeprobeerd worden. De vraag is natuurlijk of dit ethisch gezien acceptabel is. Er is een aantal grondbeginselen waar een onderzoeker zich aan moet houden, of hij of zij nou een sample survey of een experiment uitvoert.

Grondbeginselen van ethiek bij onderzoek:

Beoordelingscommissie (institutional review board)

De organisatie die het onderzoek laat uitvoeren moet een beoordelingscommissie (institutional review board) hebben, die alle geplande onderzoeken van tevoren moet bekijken en goed moet keuren. Dit wordt gedaan om deelnemers te beschermen tegen gevaren.

Informed consent (toestemming van de respondenten)

Alle deelnemers die mee willen doen aan een onderzoek moeten hun goedkeuring voor deelname geven. Dit moet gedaan worden nadat de deelnemers volledig over het onderzoek geïnformeerd zijn en voordat het onderzoek van start gaat.

Confidential (vertrouwelijkheid)

Individuele data moet vertrouwelijk blijven. Alleen statistische informatie over groepen of individuen mag openbaar gemaakt worden.

De beoordelingscommissie

Het doel van de beoordelingscommissie is het beschermen van de rechten en de (mentale) gezondheid van deelnemers. De beoordelingscommissie beoordeelt verder dus niet of een onderzoek genoeg waardevolle informatie zal opleveren. De commissie bekijkt het onderzoeksplan en kan vragen om aanpassingen. Ook bekijkt de commissie het goedkeuringsformulier die de deelnemers van de onderzoeker zullen krijgen.

Staan echt alle relevante feiten en mogelijke risico’s op het formulier?

Goedkeuring van de deelnemer (informed consent)

Subjecten moeten van tevoren geïnformeerd worden over hoe het onderzoek gedaan zal worden en of het onderzoek risico’s en gevaren met zich meebrengt. Op basis van deze informatie dienen deelnemers vervolgens hun goedkeuring (consent) op papier te bevestigen.

Vertrouwelijkheid (confidentiality)

Vertrouwelijkheid staat niet gelijk aan anonimiteit. Bij vertrouwelijkheid maakt de onderzoeker de namen van de deelnemers niet openbaar, maar heeft hij of zij de namen zelf wel genoteerd voordat het onderzoek van start ging. Van anonimiteit is echter sprake wanneer de onderzoeker zelf ook niet weet wie er precies hebben meegedaan aan het onderzoek. Dit komt in de praktijk maar zelden voor.

Klinische onderzoeken

Klinische onderzoeken (clinical trials) bestuderen de effectiviteit van medische behandelingen op patiënten. Dit is ethisch gezien een complex onderwerp, omdat medische behandelingen soms meer kwaad verrichten dan goed. Vanwege de belangen van de patiënten, moet goed worden nagedacht over of placebo's of andere middelen worden gebruikt om de resultaten te controleren. De data moet bij alle groepen op dezelfde manier worden gekregen, om uit te kunnen gaan van de betrouwbaarheid van de resultaten.

Gedragsexperimenten en sociale experimenten

Mogelijke problemen bij gedragsexperimenten en sociale experimenten zijn:

Ook niet-medische experimenten kunnen schadelijk zijn voor mensen, bijvoorbeeld emotioneel. Het is de vraag tot in hoeverre onderzoekers mensen hiervoor moeten beschermen.
Goedkeuring van de deelnemer kan in het gedrang komen als op voorhand weinig informatie was gegeven over het experiment, omdat voor sommige experimenten het verrassingselement noodzakelijk is.

Wat werkt kansrekening in de statistiek? - Chapter 4

Als je een munt opgooit (of zelfs als je een SRS trekt) kunnen de resultaten van tevoren voorspeld worden, omdat de uitkomsten zullen variëren wanneer je herhaaldelijk een munt opgooit of herhaaldelijk een steekproef trekt. Kansen beschrijven alleen wat er op lange termijn gebeurt. Veel mensen verwachten dat kansuitkomsten op korte termijn al regelmatig zijn, terwijl dat niet zo is. Als je een munt opgooit, dan is het zo dat er na pas na heel vaak gooien een patroon van 50% kans op munt en 50% kans op kop ontstaat. Op korte termijn is dit vaak nog niet het geval.

Wat wordt er bedoeld met toeval in statistiek?

Wat zijn herhalingen en kansen?

Kansen beschrijven alleen wat er op lange termijn gebeurt. Veel mensen verwachten dat kansuitkomsten op korte termijn al regelmatig zijn, terwijl dat niet zo is. Als je een munt opgooit, dan is het zo dat er na pas na heel vaak gooien een patroon van 50% kans op munt en 50% kans op kop ontstaat. Op korte termijn is dit vaak nog niet het geval.

Welke begrippen worden bij toeval gebruikt?

We noemen een fenomeen random als individuele uitkomsten onzeker zijn, maar er toch een duidelijk uitkomstenpatroon op lange termijn waar te nemen is. Er moet dan wel sprake zijn van vele herhalingen. Denk in dit verband maar aan het opgooien van een munt.
De kans (probability) op een uitkomst van een random fenomeen is de proportie van het aantal keren dat de uitkomst voor zal komen na vele herhalingen. Bij een munt is de bijbehorende proportie voor munt dus 0.5 en voor kop geldt dezelfde proportie. Echte munten hebben echter kleine imperfecties waardoor de kans op kop niet precies 0.5 is. We noemen een munt eerlijk (fair) wanneer de kans op kop precies 0.5 is en de kans op munt ook 0.5.

Wat betekent random?

Met het idee van 'random' (willekeurig) kun je zelf experimenteren, door bijvoorbeeld meerdere malen een munt op te gooien. Je moet dan wel zeer vaak de munt opgooien om een patroon in kansen te ontdekken.

Uitkomsten zijn random als herhalingen van dezelfde handeling onafhankelijk (independent) van elkaar zijn. Dit betekent dat de uitkomst van de eerste keer een munt opgooien geen invloed heeft op de uitkomst van de volgende keer. De kansen beïnvloeden elkaar dus niet.
Het idee van kansberekeningen is empirisch. Simulaties beginnen met een gegeven kans en imiteren daarmee random gebeurtenissen. We kunnen een kans uit het dagelijks leven echter alleen schatten door vele herhalingen van dezelfde handeling te observeren.
Toch zijn simulaties erg handig, omdat het niet handig is om een munt in de praktijk honderden keren op te gooien.

Wat zijn kansmodellen?

Een kansmodel (probability model) is de beschrijving van een random fenomeen in rekenkundige termen. Een dergelijk model bevat altijd:

Een lijst met alle mogelijke uitkomsten (bij een munt is dat dus de kop of munt).
De kans op elke uitkomst (kop en munt hebben beide een kans van 0.5).

Wat zijn steekproefruimten?

Een steekproefruimte (sample space) (S) van een random fenomeen is de set van alle mogelijke uitkomsten. Bij een munt zijn dit dus kop en munt: S =(kop, munt). S is dus een opsomming van alle mogelijke uitkomsten van een random fenomeen. Een gebeurtenis (event) is een uitkomst (of een set van uitkomsten) van een random fenomeen. Een gebeurtenis is dus een kleiner onderdeel van de steekproefruimte. De kans op twee keer kop bij vier keer een munt werpen is een voorbeeld van een gebeurtenis. Dit wordt als volgt weergegeven:

A = (KKMM, KMKM, KMMK, MKKM, MKMK, MMKK)

Wat zijn de belangrijkste feiten over kansen?

Elke kans bevindt zich tussen de 0 en de 1. Als de kans op een gebeurtenis 0 is, betekent dit dat deze gebeurtenis nooit voorkomt. Is de kans op een gebeurtenis 1, dan komt deze juist in alle gevallen voor. Een gebeurtenis met kans 0,5 komt voor de helft van de keren voor.
Alle mogelijke uitkomsten bij elkaar hebben een kans van 1. De optelling van alle mogelijkheden is dus altijd 1. Als er een kans van 0.5 op munt gooien is en een kans van 0.5 op kop gooien is, dan is dit samen 1.
Als twee gebeurtenissen geen gemeenschappelijke uitkomsten hebben, dan is de kans dat de ene of de andere voorkomt de optelling van de kansen op beide uitkomsten. Als de ene gebeurtenis samengaat met een kans van 0.40 en de ander met een kans van 0.25, en de twee kunnen nooit samen voorkomen, dan komt één van de twee dus voor in 65% van de gevallen.
De kans dat een gebeurtenis niet voorkomt, is 1 min maal de kans dat de gebeurtenis wel voorkomt. Als er een kans van 0.4 is dat we munt gooien, dan is er 0.6 kans dat we geen munt gooien.

Wat zijn kansregels in statistische termen?

De bovenstaande feiten zijn gebruikt om een aantal kansregels te formuleren. Deze regels worden hieronder beschreven.

Regel 1: De kans P(A) die bij een gebeurtenis hoort, is 0 ≤ P(A) ≤1. Dit betekent dus dat de kans zich tussen de 0 en 1 bevindt.
Regel 2: Als S de steekproefruimte in een kansmodel is, dan geldt: P(S)=1.
Regel 3: Twee gebeurtenissen A en B zijn disjunct als ze geen gemeenschappelijke uitkomsten zijn en dus nooit samen voor kunnen komen. Als A en B disjunct zijn, geldt: P(A of B)=P(A)+P(B). Dit wordt ook wel de optelregel voor disjuncte gebeurtenissen genoemd.
Regel 4: Het complement van gebeurtenis A is de gebeurtenis waar A niet voorkomt. Het complement vinden we door de kans op gebeurtenis A af te trekken van 1. Dit noemen we ook wel de complementregel.

Om complementen en disjuncte gebeurtenissen beter te begrijpen kan het tekenen van een Venndiagram handig zijn. A en B zijn disjunct wanneer de gebieden elkaar niet overlappen. A en B zijn complementair wanneer gebieden A en B elkaar niet overlappen en er ook geen overige gebieden aanwezig zijn.

Hoe wijs je kansen toe aan een eindig aantal uitkomsten?

De individuele uitkomsten van een random fenomeen zijn altijd disjunct. De optelregel voor disjuncte gebeurtenissen geeft aan hoe we kansen moeten toewijzen aan individuele uitkomsten. Deze uitkomsten kunnen vervolgens opgeteld worden om de kans op gebeurtenissen te beschrijven. Dit idee werkt goed als er een eindig (dus beperkt) aantal uitkomsten is.

Wijs eerst een kans toe aan elke individuele uitkomst. Deze kansen moeten tussen de 0 en 1 zijn.
De kans op een gebeurtenis is de optelling van de kansen voor de uitkomsten die deel uitmaken van de gebeurtenis.

Hoe ga je om met uitkomsten met dezelfde kans?

Soms nemen we aan dat er een gelijke kans is op uitkomsten, omdat er een soort balans aanwezig is in een fenomeen. We nemen bijvoorbeeld aan dat er een kans van 0.5 is op het gooien van munt en een kans van 0.5 is op het gooien van kop. Je kunt bijvoorbeeld de kans uitzoeken dat een cijferreeks met een 1,2,3,4,5,6,7,8 of 9 begint. Er is een gelijke kans om al deze cijfers als eerste waar te nemen in een cijferreeks. Met al deze cijfers gaat dus een kans van 1/9 samen. Deze kansen tellen allemaal op tot 1, zoals de kansregel beweert. De kans op het waarnemen van een 6 of hoger als eerste cijfer is 4/9. Omdat de uitkomsten disjunct zijn, mogen de kansen op een 6,7,8 of 9 dus opgeteld worden.

Bij een random fenomeen met k aantal mogelijke uitkomsten (met dezelfde kans), is de kans op een specifieke uitkomst 1/k. De kans op gebeurtenis A is dan: P(A)= telling van de uitkomsten in A/ telling van de uitkomsten in S. Dit is hetzelfde als: telling van uitkomsten in A/k.

In de praktijk gaan veel uitkomsten niet samen met dezelfde kansen. De regel die gebruikt wordt voor een eindig aantal uitkomsten is daarom belangrijker.

Wat is onafhankelijkheid en wat is de vermenigvuldigingsregel?

De derde kansregel stelt dat als de één of de ander van twee gebeurtenissen, A en B, afzonderlijk van elkaar voorkomen, dat ze dan disjunct genoemd kunnen worden. De vierde kansregel beschrijft dat de kans dat beide gebeurtenissen, A en B, samen voor kunnen komen. Stel dat je een munt twee keer werpt. Je wilt graag weten hoe vaak je munt hebt gegooid. De bijbehorende kansen zijn dus: P(A) de eerste worp geeft munt en P(B) de tweede worp geeft munt. De gebeurtenissen A en B zijn in dit geval niet disjunct, je kunt ze niet optellen. De kans op twee keer munt is niet 0.5 + 0.5 = 1. Ze komen samen voor als beide worpen munt opleveren. Wij willen de kans berekenen dat beide gebeurtenissen (A en B) beide munt opleveren. De twee gebeurtenissen zijn niet disjunct, maar wel onafhankelijk. De kans dat twee keer munt geworpen zal worden is 0.5x0.5=0.25. Dit is dan ook meteen de laatste kansregel:

Regel 5: Twee gebeurtenissen A en B zijn onafhankelijk als het voorkomen van de ene gebeurtenis geen invloed heeft op het voorkomen van de andere gebeurtenis. Als A en B onafhankelijk zijn, dan geldt: P(A en B)= P(A)P(B). Dit noemen we ook wel de vermenigvuldigingsregel voor onafhankelijke gebeurtenissen. Deze regel geldt alleen voor onafhankelijke gebeurtenissen en kan dus niet voor disjuncte gebeurtenissen gebruikt worden. Disjuncte gebeurtenissen kunnen nooit onafhankelijk zijn. Het is belangrijk om disjuncte gebeurtenissen niet te verwarren met onafhankelijke gebeurtenissen. Als A en B onafhankelijk zijn, dan zijn de complementen van A en B ook onafhankelijk.

Wat zijn random variabelen?

Steekproefruimten hoeven niet uit cijfers te bestaan. Als je vier keer een munt werpt dan kunnen we de uitkomsten ook in letters beschrijven, bijvoorbeeld: MMKK. Als we het aantal koppen tellen, dan is dat in dit voorbeeld dus X=2. Wanneer een munt viermaal geworpen wordt, dan is er een kans dat er 0,1,2,3 en 4 keer kop wordt gegooid. Als je dan het aantal koppen wilt tellen, dan neemt X dus een andere waarde aan. We noemen X een random variabele.

Een random variabele heeft een numerieke waarde die bij een random fenomeen hoort.
Random variabelen korten we vaak af met hoofdletters, zoals X en Y. Als een random variabele X een random fenomeen beschrijft, dan is de steekproefruimte van S een lijst van de mogelijke uitkomsten van de random variabele.

Wat zijn discrete random variabelen?

Er zijn twee manieren om kansen toe te wijzen aan gebeurtenissen: discrete random variabelen en continuerende random variabelen.

Een discrete random variabele X heeft een eindig aantal mogelijke waarden. De kansdistributie van X is een lijst van de waarden en de kansen. Bij de eerste waarde van X hoort een kans, bij de tweede waarde van X hoort een kans enz. De waarden van X noemen we x1, x2, x3… xk. De bijbehorende kansen zijn p1, p2, p3… pk. De kansen moeten aan twee voorwaarden doen:

(1) Elke kans moet tussen de 0 en 1 zijn.
(2) Alle kansen samen (p1+ p2 + p3 +…+ pk) moeten optellen tot 1. De kans op een gebeurtenis kan gevonden worden door de benodigde kansen die bij bepaalde X-waarden horen op te tellen.

Wat zijn continue random variabelen?

Wanneer we een tabel van random cijfers tussen de 0 en 9 gebruiken, dan is het resultaat een discrete random variabele. Er is dan evenveel kans om random 1 van de 10 cijfers te trekken. Het is echter ook denkbaar dat we geïnteresseerd zijn in het trekken van een getal tussen de 0 en 1. Je kunt bijvoorbeeld geïnteresseerd zijn in de vraag hoe groot de kans is dat we iets tussen de 0.3 en 0.7 trekken. Er is oneindig aantal mogelijkheden tussen 0 en 1 en daarom kunnen we niet zomaar een aantal kansen optellen, zoals we dat wel kunnen doen bij discrete random variabelen. We wijzen de kansen bij een continuerende random variabele aan gebeurtenissen toe middels gebieden onder een dichtheidscurve.

Een continue random variabele X kan alle waarden in een interval van getallen aannemen.
De kansdistributie van X wordt beschreven met een dichtheidscurve. De kans op een gebeurtenis is het gebied onder de dichtheidscurve en boven de waarden van X die samengaan met de gebeurtenis.
Alle continue kansdistributies wijzen een kans van 0 toe aan elke individuele uitkomst. De dichtheidscurve die het meest voor continuerende random variabelen worden gebruikt is de Normaalverdeling. Normaalverdelingen worden ook wel kansdistributies genoemd. Als X de N(μ,σ)-distributie heeft, dan is de gestandaardiseerde variabele: z= (x-μ)/σ. Deze gestandaardiseerde variabele heeft een gemiddelde van 0 en een standaard deviatie van 1: N(0,1).

Wat zijn kenmerken van gemiddelden en varianties van random variabelen?

Welke kenmerken heeft het gemiddelde van een random variabele?

Het gemiddelde van variabele X is een gemiddelde van alle mogelijk waarden van X. Het is echter niet zo dat er een even grote kans moet zijn dat elke uitkomst voorkomt. Het gemiddelde van een kansdistributie beschrijft welke waarde voor een variabele X gevonden zou worden op lange termijn.

Het gemiddelde van een kansdistributie wordt aangeduid met μ. Om onszelf eraan te herinneren dat we praten over het gemiddelde van X (en bijvoorbeeld niet het gemiddelde van een populatie) gebruiken we de notatie μx. Soms wordt het gemiddelde in dit verband ook wel de verwachte waarde van X genoemd. Deze term kan misleidend zijn, aangezien een waarde van X niet per se dichtbij het gemiddelde hoeft te liggen.

Hoe bereken je het gemiddelde van discrete variabelen en continuerende variabelen?

Het gemiddelde van een discrete variabele wordt gevonden door alle waarden van X te vermenigvuldigen met alle bijbehorende kansen en deze allemaal op te tellen. Het gemiddelde van een continuerende random variabele wordt gevonden door te kijken naar de bijbehorende dichtheidscurve. Het gemiddelde is het punt waarop de curve balanceert als de curve van vast materiaal gemaakt zou zijn. Het gemiddelde ligt precies in het midden van symmetrische dichtheidscurven, zoals bij normaalverdelingen. De precieze berekening van het gemiddelde van een curve met een afwijking naar links of rechts wordt met ingewikkelde rekenkundige formules uitgevoerd. Ook bij een curve met een afwijking naar links of rechts is het gemiddelde het balanspunt van de curve. Deze is alleen lastiger te ontdekken dan bij een symmetrische curve het geval is.

Wat is de wet van grote getallen?

De wet van grote getallen stelt dat als het aantal observaties stijgt, de waarde van μ benaderd zal worden. Het moet dan wel gaan om onafhankelijke observaties die random uit de populatie getrokken worden. De benaderde waarde zal in de buurt van μ blijven liggen. Deze wet geldt voor elke populatie. De wet van grote getallen stelt dus dat grote steekproeven waarden met zich meebrengen die erg lijken op populatiewaarden.

Stel: we willen weten hoe lang Nederlandse vrouwen tussen de 15 en 25 gemiddeld (μ) zijn. Deze μ is de μx van de random variabele X, die verkregen wordt door een jonge vrouw random te kiezen en haar lengte te meten. Om μ te schatten kiezen we een SRS van jonge vrouwen en gebruiken we het steekproefgemiddelde als schattingsmethode: μ is een parameter en is een statistiek. Statistieken die door middel van steekproeven verkregen worden zijn random variabelen, omdat hun waarden variëren als er opnieuw een steekproef wordt getrokken. De steekproevendistributies van statistieken zijn eigenlijk de kansdistributies van deze random variabelen. Natuurlijk is nooit helemaal gelijk aan μ en verschillende steekproeven geven vaak verschillende statistieken. Waarom is dan toch een goede schatter van het populatiegemiddelde? Het antwoord is dat een foutloze schatter is en dat we de spreiding van kunnen beïnvloeden aan de hand van de grootte van de steekproef. Als we steeds meer mensen onderzoeken, dan is het te garanderen dat zich dichtbij het populatiegemiddelde zal gaan bevinden.

Hoe groot moet een steekproef dan zijn?

Er is geen eenduidig antwoord voor deze vraag. Hoeveel observaties gedaan moeten worden hangt namelijk af van de spreiding van de random uitkomsten. Hoe meer spreiding er in de uitkomsten waarneembaar is, hoe meer observaties nodig zijn om te garanderen dat dichtbij μ zal liggen.

Wat is de wet van kleine getallen?

De wet van grote getallen beschrijft wat er op lange termijn gebeurt. Als je vier keer een munt werpt, dan kan het zo zijn dat er vier keer munt uitkomt, terwijl we weten dat er een kans van 0.5 bestaat om munt te gooien. Deze kans van 0.5 uit zich echter nog niet op korte termijn. Dat patroon wordt pas zichtbaar na honderden keren werpen. Vaak verwachten we op korte termijn ook een regelmatig patroon te ontdekken, terwijl dat in werkelijkheid niet gebeurt. Deze verwachting wordt ook wel de wet van kleine getallen genoemd.

Wat zijn de regels voor gemiddelden van random variabelen?

Er gelden twee regels voor gemiddelden van random variabelen:

Regel 1: als X een random variabele is en a en b vastgestelde getallen zijn, dan geldt: μ_a+bX= ^a+bμx.
Regel 2: als X en Y random variabelen zijn, dan geldt: μ_x+y= μ_x+μ_y.

Wat is de variantie van een random variabele (σ_^x²)?

De variantie is het gemiddelde van de gekwadrateerde afwijkingen (X- μ_x)² van de variabele tot het gemiddelde (μ_x). De variantie van een discrete random variabele is handmatig uit te rekenen, terwijl dat voor een continuerende random variabele alleen met lastige rekenkundige formules lukt. De variantie van een discrete random variabele wordt hieronder beschreven.

Voorbeeld:

Je hebt verschillende waarden voor X (X₁, X₂, X₃… X_k) met verschillende bijbehorende kansen (P₁+ P₂ + P₃ +…+ P_k). Het gemiddelde wordt gevonden door elke waarde van X te vermenigvuldigen met elke bijbehorende proportie. Vervolgens moeten alle uitkomsten bij elkaar opgeteld worden. De variantie van X is: σ_x²= (x₁-μ_x)²p₁ +(x₂-μ_x)²p₂ + (x₃-μ_x)²p₃ + …+ (x_k-μ_x)²p_k. De standaard deviatie σ_x wordt gevonden door de wortel uit de variantie te trekken.

Wat zijn de regels voor varianties en standaarddeviaties?

Er gelden drie regels voor varianties en standaarddeviaties van random variabelen.

Regel 1: als X een random variabele is en a en b vastgestelde cijfers zijn, dan geldt: σ²_a+bX = b₂σ₂.
Regel 2: als X en Y onafhankelijke random variabelen zijn, dan geldt: σ²_X+Y= σ_x²+ σ_y². Ook geldt: σ²X-Y = σ²x+ σ²y. Dit wordt ook wel de optelregel voor varianties van onafhankelijke random variabelen genoemd.
Regel 3: als X en Y een correlatie ρ hebben, dan geldt: σ²X+Y= σx²+ σy²+ 2ρσXσy. Ook geldt: σ²_X-Y= σ_X²+ σ_Y²- 2ρσ ×σ_y. Dit is de algemene optelregel voor varianties van random variabelen. Om de standaard deviatie te vinden moet de wortel uit de variantie getrokken worden.

Wat zijn algemene kansregels?

Wat zijn algemene optelregels?

Als er twee gebeurtenissen disjunct zijn, dan is de kans op de ene of de andere P (A of B) een optelling van de afzonderlijke kansen: P (A) + P (B). Wat gebeurt er als er meer dan twee gebeurtenissen zijn of als de gebeurtenissen niet disjunct zijn? In dit soort gevallen zijn algemene optelregels van toepassing.

Een unie van een verzameling van gebeurtenissen is de gebeurtenis dat minstens één van de alle gebeurtenissen voorkomt.
Als gebeurtenissen A, B en C disjunct zijn en dus geen uitkomsten met elkaar gemeen hebben, dan geldt: P(één of meer van A, B,C) = P (A) + P (B) + P (C). Deze regel is ook toepasbaar in situaties waarbij sprake is van nog veel meer gebeurtenissen.
De kans op gebeurtenis A of B kan ook anders gevonden worden: P(A of B) = P (A) + P (B) -P(A en B). Als A en B disjunct zijn, dan is de kans op P(A en B) nul. Dit deel van de formule valt in dat geval weg. We houden dan de oorspronkelijke regel voor disjuncte gebeurtenissen over. Deze regel is eerder besproken.

Wat zijn conditionele kansen?

Van een conditionele kans wordt gesproken als we kijken naar de kans op een bepaalde gebeurtenis, gegeven het feit dat een andere gebeurtenis is voorgekomen. Je kunt bijvoorbeeld de vraag stellen hoeveel studenten Psychologie studeren gegeven dat ze man zijn. Een conditionele kans noteren we als P(A|B).

Dit is te vertalen naar de kans op gebeurtenis A, gegeven dat gebeurtenis B voorkomt.

De kans dat gebeurtenissen A en B samen voorkomen wordt uitgerekend met de formule: P(A en B)= P

P (B | A). Hier is P(B | A) de conditionele kans dat B voorkomt, als gebeurtenis A waar is.

Voorbeeld

29% van de internetgebruikers downloadt muziek, en 67% van de downloaders maakt het niet uit of de muziek een copyright heeft. Dus het percentage van internetgebruikers die muziek downloadt (gebeurtenis A) en het niet uitmaakt of er copyright op zit (gebeurtenis B) is 67% van 29% oftewel:

(0.67)(0.29) = 0.1943 = 19,43%

Of in statistische termen:

P (A en B) = P (A) x P (B | A)

Wanneer de kans op gebeurtenis A groter dan 0 is, dan wordt de conditionele kans van B, gegeven A, gevonden met de formule: P (B | A)= P(A en B)/ P(A)

Voorbeeld

We hebben de tabel:

Leeftijd	Studie
	Voltijd
15 - 19	0.21
20 - 24	0.32
25 - 35	0.10
30 of meer	0.05

We willen de kans weten dat een student tussen de 15 en 19 jaar is, gegeven het een voltijd student is. De kans dat een student tussen de 15 en 19 jaar is en voltijd student is 0.21. Dus P ( A en B) = 0.21

P (B) = 0.21 + 0.32 + 0.10 + 0.05 = 0.68 P (A|B) = P (A en B) / P (B)
= 0.21 / 0.68
= 0.31

Dus de kans dat een student tussen de 15 en 19 jaar is gegeven het een voltijd student te zijn is 31% Als gebeurtenissen A en B onafhankelijk zijn, dan geldt: P(B | A)= P (B).

Wat is intersectie?

De intersectie van een verzameling gebeurtenissen is de gebeurtenis waarbij alle gebeurtenissen uit de verzameling voorkomen. De intersectie voor gebeurtenis A, B en C is daarom:

P (A en B en C) = P (A) P (B | A) P (C | A en B). Van belang zijn dus de kans op A, de kans op B gegeven A en de kans op C gegeven A en B.

Voorbeeld

5% van de sporters op de middelbare school blijft op hetzelfde niveau sporten op de universiteit. Van deze is 1,7% van de topsport. 40% van de sporters die doorgaan in universiteit en daarna topsport gaat doen heeft een carrière in sport van meer dan 3 jaar.

Variabelen:

= Doorgaan in universiteit
= Topsport
= Carrière van meer dan 3 jaar.

Berekening:

P (A) = 0.05
P (B|A) = 0.017
P (C| A en B) = 0.4

De kans dat A, B, en C voorkomen is:

P (A en B en C) = P(A) P(B|A) (C|A en B)
= 0.05 x 0.017 x 0.4 = 0.00034

Dus maar 3 uit ieder 10,000 middelbare school sporten gaan verder op hetzelfde niveau op de universiteit en krijgen een sportcarrière van minimaal 3 jaar.

Wat is de regel van Bayes?

Stel dat er A1, A2,.., Ak disjuncte gebeurtenissen zijn die allemaal een kans van boven de 0 hebben en samen optellen tot 1. Stel dat C een andere gebeurtenis is waarvan de kans niet 0 of 1 is. In dat geval kan de regel van Bayes toegepast worden:

\[ P(A_{i}|C) = \frac{ P(C|A_{1}) P(A_{1}) }{ P(C|A_{1}) P(A_{1}) + P(C|A_{2}) P(A_{2}) ... P(C|A_{k}) P(A_{k}) } \]

Wat zijn onafhankelijke gebeurtenissen?

Twee gebeurtenissen A en B met positieve kansen zijn onafhankelijk als: P (B | A) = P (B)

Wat zijn steekproefdistributies? - Chapter 5

Statistische gevolgtrekking (statistical inference) wordt gebruikt om conclusies over een populatie of proces te trekken op basis van data. Deze data wordt samengevat door middel van toetsen, zoals gemiddelden, proporties en hellingscoëfficiënten van regressielijnen. Er zijn verschillende stappen en mogelijkheden om vanuit data die verkregen is in een steekproef, met behulp van kansberekening een gevolgtrekking te maken, om voorspellingen voor de toekomst te doen.

Wat zijn statistische gevolgtrekkingen?

Als we door middel van een steekproef een conclusie over een bijbehorende populatie willen trekken, dan hebben we het over statistische gevolgtrekkingen (statistical inference).

Een parameter is een getal dat de populatie beschrijft. Een parameter is een vaststaand getal, maar in de praktijk kennen we deze waarde niet. We weten bijvoorbeeld niet precies hoeveel Nederlanders tegen abortus zijn.
Een statistiek is een getal dat een steekproef beschrijft. De waarde van een statistiek is bekend nadat we een steekproef hebben geselecteerd, maar deze waarde kan per steekproef wel verschillen. We gebruiken vaak een statistiek om een onbekende parameter te schatten.

Wat is spreiding binnen de steekproef?

Sampling variabiliteit houdt in dat de waarde van een statistiek per steekproef zal variëren. Random steekproeven verwijderen vertekening (bias) door een steekproef te trekken op basis van toevalsverschijnselen. Zo een steekproef kan echter wel misleidende resultaten geven, omdat er met elke steekproef andere waarden gepaard gaan. Het blijkt echter zo te zijn dat het trekken van vele random steekproeven (van dezelfde grootte en uit dezelfde populatie) een voorspelbare spreiding per steekproef met zich meebrengt. Statistische gevolgtrekkingen zijn gebaseerd op het idee dat de betrouwbaarheid van steekproeven afhangt van het herhalen van steekproefprocedures. We vragen ons dus af wat er zou gebeuren als we allemaal verschillende steekproeven (van dezelfde grootte) trekken uit een populatie. Om deze vraag te beantwoorden kan het volgende gedaan worden:

Allereerst moeten er veel steekproeven uit een populatie getrokken worden.
Vervolgens moet de steekproefproportie voor elke steekproef berekend worden. Denk bijvoorbeeld aan het deel van de steekproef dat abortus steunt.
Daarna moet er een histogram van alle proporties gemaakt worden.
Tot slot moeten de vorm, het centrum, de spreiding en uitbijters aan de hand van een histogram bekeken worden.

Het is in de praktijk te duur om heel veel steekproeven uit dezelfde populatie te trekken. We kunnen dit proces echter wel imiteren door random cijfers te gebruiken. Het gebruik van random cijfers uit een tabel of door middel van computersoftware om kansverschijnselen te imiteren, wordt simulatie genoemd.

Wat is steekproefdistributie?

De steekproefdistributie (sampling distribution) van een statistiek is de distributie van alle waarden die de statistiek aanneemt in alle mogelijke steekproeven van dezelfde grootte en uit dezelfde populatie. Als deze distributie door middel van een histogram bekeken wordt, dan blijkt het volgende:

Een histogram heeft een normale verdeling. Dit betekent dat veel steekproeven dezelfde resultaten geven, terwijl er enkele afwijkende steekproeven zijn.
Ook blijkt uit een histogram dat de gemiddelden uit de steekproeven steeds bijna hetzelfde zijn. Dit betekent dat de geschatte proportie niet vertekend (biased) is als schatter van p (proportie in de populatie).
In de praktijk blijkt ook dat waarden uit steekproeven van behoorlijke grootte (bijvoorbeeld >2500) veel minder spreiding hebben dan waarden uit kleinere steekproeven (bijvoorbeeld met een grootte van 100). Dit omdat grotere steekproeven een betere representatie zijn van de populatie dan kleinere steekproeven.

Wat zijn bias en spreiding?

Vertekening (bias) gaat over het middelpunt van een steekproefdistributie. Een statistiek die een parameter beschrijft, is niet vertekend (unbiased) als het gemiddelde van de bijbehorende steekproefdistributie gelijk is aan de echte waarde van de geschatte parameter.
De variabiliteit van een statistiek wordt beschreven door de spreiding van de bijbehorende steekproefdistributie. Deze spreiding wordt bepaald door het steekproefontwerp en de grootte van de steekproef (n). Statistieken van grotere steekproeven kennen minder spreiding.
Weinig bias kan samengaan met veel variabiliteit en weinig variabiliteit kan gepaard gaan met veel bias. In een goed onderzoek is er sprake van weinig spreiding en zo min mogelijk bias.

Hoe kun je bias en spreiding verminderen?

Bias kan verminderd worden door steekproeven op random wijze te selecteren. Als we met een lijst van de gehele populatie beginnen, dan zorgt het trekken van een SRS voor zo min mogelijk bias. De waarden van een statistiek die middels een SRS zijn berekend, onder- en overschatten de waarde van de populatieparameter niet op systematische wijze. Grote random steekproeven geven bijna altijd een schatting van een parameter die dicht bij de echte waarde ligt.

De spreiding van een statistiek kan verminderd worden door een grote steekproef te gebruiken. Je kunt de spreiding zo klein maken als je wilt, door een steekproef te selecteren die groot genoeg is. De grootte van de steekproef zegt dus iets over de mate waarin de steekproef representatief is voor de populatieparameter. Resultaten van een steekproef worden vaak gepresenteerd samen met de beschrijving van een zogenaamd foutenmarge. Deze marge beschrijft hoe groot de kans is dat de gevonden statistieken niet representatief zijn voor de populatie.

De spreiding van een statistiek hangt niet af van de grootte van de populatie, zolang de populatie maar minstens 100 keer zo groot is als de steekproef. Het is belangrijk om te onthouden dat een steekproefdistributie alleen laat zien hoe een statistiek varieert door randomisatie. Een steekproefdistributie zegt niets over bias, welke veroorzaakt zou kunnen zijn door onvoldoende dekking of non-respons.

Wat zijn de kenmerken van een steekproefdistributie van een steekproefgemiddelde?

Wanneer data het gevolg is van een random wijze van steekproeven trekken, dan is een toets een random variabele die met kansberekeningen begrepen kan worden.

Een toets van een random steekproef of een gerandomiseerd experiment is een random variabele.
De kansdistributie van een toets wordt de steekproefdistributie (sampling distribution) genoemd. Zo een distributie laat zien hoe een toets (zoals een gemiddelde) zal variëren wanneer herhaaldelijk een steekproef getrokken zou worden.
De populatiedistributie van een variabele is een distributie die alle waarden bevat die een variabele aanneemt bij leden van de populatie. De populatiedistributie is ook de kansdistributie van een variabele wanneer we random een individu uit de populatie trekken.

Wat zijn categorische en kwantitatieve data?

Tellingen en proporties zijn discrete random variabelen en beschrijven categorische data. De toetsen om kwantitatieve variabelen mee te beschrijven zijn echter continuerend van aard. Voorbeelden zijn het steekproefgemiddelde, percentielen en de standaarddeviatie.

Steekproefgemiddelden worden vaak gebruikt om een algemeen beeld te geven van een steekproef.

Wat zijn kenmerken van steekproefgemiddelden (x̄)?

Er zijn twee belangrijke feiten als het aankomt op steekproefgemiddelden:

Steekproefgemiddelden zijn minder variabel dan individuele observaties.
Steekproefgemiddelden zijn normaler verdeeld dan individuele observaties.

Wat zijn het gemiddelde en de standaarddeviatie van (x̄)?

Het steekproefgemiddelde (x̄) is een schatting van het gemiddelde μ van de populatie, net zoals p̂ een schatting is van de populatieproportie p. De steekproefdistributie van x̄ wordt bepaald door (1) het design dat gebruikt wordt om data te verzamelen, (2) de steekproefgrootte n en (3) de populatiedistributie.

Het steekproefgemiddelde van een SRS van grootte n is: x̄ = 1/n (X₁ + X₂ + X₃ + … + X_n). Het n aantal metingen zijn waarden van n random variabelen X₁, X₂, …, X_n. Een enkele X_i is een meting van een enkel individu dat random uit de populatie getrokken is en deze meting heeft daarom de distributie van de populatie. Als de populatie in vergelijking tot de steekproef groot is, dan kunnen we X₁, X₂, …, X_n zien als onafhankelijke random variabelen die allemaal dezelfde distributie hebben. De conclusie is dus dat het gemiddelde van x̄ hetzelfde is als het gemiddelde van de populatie. Om deze reden is x̄ een foutloze schatter van de het onbekende populatiegemiddelde μ.
De standaarddeviatie van het steekproefgemiddelde is: x̄ = σ/√n. Zoals bij de steekproefproportie, vermindert ook de spreiding van de steekproefdistributie van een steekproefgemiddelde als de steekproefgrootte stijgt.

Kortom: het steekproefgemiddelde is hetzelfde als het populatiegemiddelde, omdat x̄ als een foutloze voorspeller van μ wordt gezien. De standaarddeviatie van de steekproef is de standaarddeviatie van de populatie gedeeld door de wortel van het aantal deelnemers.

Hoe nauwkeurig voorspelt x̄ het populatiegemiddelde μ?

Omdat de waarden van x̄ per steekproef variëren moeten we deze vraag beantwoorden aan de hand van de steekproefdistributie. We weten dat x̄ een foutloze voorspeller van μ is en daarom zullen de waarden van x̄ bij herhaalde steekproeven niet systematisch te hoog of te laag zijn in relatie tot μ. Veel steekproeven zullen een x̄ geven die dichtbij μ ligt als de steekproefdistributie rond de waarde van μ zal liggen. De precisie van de schatting van μ hangt af van de spreiding van de steekproefdistributie.

Wat is de centrale limiettheorie?

We hebben tot nu toe het middenpunt en de spreiding van de kansdistributie van x̄ besproken, maar de vorm van deze distributie is nog niet aan de orde geweest. De vorm van de distributie van x̄ hangt af van de vorm van de populatiedistributie. Als de populatiedistributie normaal verdeeld is, dan is de distributie van het steekproefgemiddelde dat ook.

Als een populatie een N(μ,σ) distributie heeft, dan heeft x̄ van n aantal observaties een N(μ.,σ/√n) distributie. In de praktijk zijn veel populaties echter niet normaal verdeeld. Toch is het bij grote steekproeven zo dat de distributie van x̄ dan toch bij benadering normaal verdeeld is. Het maakt in dat geval dus niet uit welke vorm de populatiedistributie heeft, als de populatie maar een duidelijke standaarddeviatie (σ) heeft. Dit feit wordt ook wel de centrale limiettheorie genoemd.

Kortom: als je een grote SRS van n uit welke populatie dan ook trekt (met gemiddelde μ en standaarddeviatie σ), dan zal de steekproefdistributie van het steekproefgemiddelde (x̄) bij benadering

normaalverdeeld zijn: x̄ = N(μ,σ/√n).

Wat zijn andere kenmerken van de centrale limiettheorie?

Er zijn drie andere feiten die te maken hebben met de centrale limiet theorie:

Ten eerste is de normaalbenadering voor steekproefproporties en tellingen een voorbeeld van de centrale limiettheorie. Dit is waar, omdat een steekproefproportie als een steekproefgemiddelde gezien kan worden.
Daarnaast heeft een lineaire combinatie van normaal verdeelde random variabelen ook een normaal verdeelde distributie. Dus: als X en Y onafhankelijke normaal verdeelde random variabelen zijn en a en b vaste getallen zijn, dan is aX+bY ook normaal verdeeld.
Tot slot is het zo dat algemene versies van de centrale limiettheorie stellen dat de distributie van een optelling of een gemiddelde van veel kleine random hoeveelheden bijna normaal verdeeld is. Dit is zelfs waar wanneer de hoeveelheden niet onafhankelijk van elkaar zijn. Ze mogen echter niet te sterk met elkaar correleren.

Hoe ziet een steekproefdistributie eruit voor tellingen en proporties?

Wat zijn tellingen?

Een random variabele X is een telling (count) als we tellen hoe vaak een bepaalde uitkomst voorkomt. Je kunt bijvoorbeeld tellen hoe vaak mensen ‘ja’ antwoorden op de vraag of prostitutie legaal moet zijn.

Als het aantal observaties n is, dan is de steekproefproportie: p̂ = X/n. X staat voor de telling, bijvoorbeeld het aantal mensen dat achter de legalisering van prostitutie staat.

Wat is een binomiale distributie?

Bij een binomiale distributie hoort een aantal kenmerken:

Er zijn n aantal observaties.
Deze n observaties zijn allemaal onafhankelijk.
Elke observatie valt in één van twee categorieën. Deze categorieën noemen we voor het gemak ‘succes’ en ‘falen’.
De kans op een succes (we noemen dit ‘p’) is voor elke observatie hetzelfde.

Voorbeeld:

Het n aantal keer werpen met een munt. Elke keer heb je 0.5 kans op kop of munt. De uitkomsten zijn onafhankelijk van elkaar: als je een keer munt hebt gegooid vergroot dat niet de kans dat je de volgende keer ook munt zult gooien. Als we kop ‘succes’ noemen, dan is p de kans op kop en deze kans blijft hetzelfde als we de volgende keer weer een munt werpen.

De distributie van X (de telling van het aantal successen in een binomiale setting) wordt helemaal bepaald door het aantal observaties (n) en de kans op succes (p).
De mogelijke waarden van X zijn hele cijfers tussen 0 en n.
We korten de binomiale distributie af met B(n,p).
De binomiale distributie is van belang wanneer we conclusies over de populatie willen trekken over de proportie ‘successen’. Het kiezen van een SRS uit een populatie is echter niet echt een binomiale situatie.
Een populatie bevat proportie p van successen. Als de populatie veel groter dan de steekproef is, dan heeft telling X (aantal successen in een SRS van grootte n) bijna de binomiale distributie B(n,p).
Deze benadering van de binomiale distributie wordt groter als de populatie steeds groter wordt in relatie tot de steekproef. De vuistregel is dat we de binomiale steekproefdistributie gebruiken voor tellingen wanneer de populatie minstens 20 keer zo groot is als de steekproef.

Hoe bereken je binomiale kansen?

Vaak kunnen binomiale kansen berekend worden door middel van software. Het is ook mogelijk om tabel C achterin het boek te raadplegen. Om deze tabel te gebruiken moet de kans op individuele uitkomsten voor de binomiale random variabele X geweten worden.

Wat zijn het binomiale gemiddelde en de standaarddeviatie?

Wat zijn het gemiddelde (μ_x) en de standaarddeviatie (σ_x) van binomiale kansen? Het gemiddelde kunnen we raden. Als Piet 75% van de keren succes heeft, dan is het gemiddelde bij 12 gebeurtenissen 75% van 12, dus 9. Dat is μ_x wanneer X dus B(12,0.75) is.

Dit betekent dat we np kunnen berekenen om het gemiddelde te vinden. We noemen een succes vaak p of 1 en geen succes is een 0 (of 1-p). Kortom: μ_x=np.
De standaarddeviatie (σ_x) berekenen we als volgt. Eerst berekenen we de np(1-p). Vervolgens trekken we hier de wortel uit.

Wat zijn steekproefproporties?

Hoeveel procent van de volwassenen is voor abortus? Bij steekproefdistributies willen we vaak schatten wat de proportie p van ‘successen’ in een populatie is. Onze schatter van de steekproefproportie van successen is:

p̂= X/n. Het is hierbij van belang om te weten dat p̂ niet hetzelfde is als telling X. De telling X neemt een heel getal aan tussen de 0 en n, maar een proportie is altijd een getal tussen de 0 en 1. In een binomiale situatie heeft telling X een binomiale distributie. p̂ heeft juist geen binomiale distributie. We kunnen echter wel kansberekeningen voor p̂ uitvoeren door deze op te schrijven in de vorm van telling X. Vervolgens kunnen we gebruik maken van binomiale berekeningen. De eerste stap is het vinden van het gemiddelde en de standaarddeviatie van een steekproefproportie.
Laat p de steekproefproportie van successen in een SRS van grootte n zijn. Deze SRS is getrokken uit een grote populatie met een populatieproportie p van successen. Het gemiddelde van p̂ is p. De standaarddeviatie van p̂ = √p(1-p) / n. Deze formule voor de standaarddeviatie gebruiken we als de populatie 20 keer zo groot is als de steekproef.

Het feit dat het gemiddelde van p = p̂, zegt dus dat de steekproefproportie een foutloze schatter (unbiased estimator) is van de populatieproportie p. Wanneer een steekproef uit een nieuwe populatie wordt getrokken (met een andere waarde voor de populatieproportie p), dan verandert de steekproefdistributie van p̂ richting de nieuwe waarde van p. De spreiding van p̂ wordt minder als de steekproefgrootte stijgt. De variantie of standaarddeviatie worden dan dus kleiner Dit betekent dat de steekproefproportie van een grote steekproef dicht zal liggen bij de populatiepropotie p.

Wat is de normaalbenadering voor tellingen en proporties?

De steekproefdistributie van een steekproefproportie p̂ is bijna normaal verdeeld. Nu weten we dat de distributie van p̂ een binomiale telling is van steekproefgrootte n. In de praktijk is het zo dat de steekproefproportie p̂, maar ook telling X, bijna normaal verdeeld zijn in grote steekproeven.

Trek een SRS van grootte n uit een grote populatie met populatieproportie p van successen. Als X dan de telling van het aantal successen in de steekproef is, dan geldt: p̂ = X / n. Als n groot is, dan zijn de steekproefdistributies van zowel p̂ als X bijna normaalverdeeld:
X is bijna N(np, √np(1-p)
p̂ is bijna N(p, √p(1-p) / n
De vuistregel is dat we deze benaderingen alleen gebruiken voor waarden van p waarbij geldt: np ≥ 10 en n(1-p) is ook ≥ 10. De accuraatheid van deze normaalbenaderingen wordt beter naarmate de steekproefgrootte n stijgt. De benaderingen zijn het beste voor een vaste n wanneer p gelijk is aan 0.5. De benaderingen zijn het minst accuraat wanneer p zich rond de 0 of de 1 bevindt.

Wat is de continuïteitscorrectie?

Als we een binomiale kansberekening willen maken voor bijvoorbeeld X ≥ 10, dan moet er rekening mee gehouden worden dat het in de praktijk gaat om alle waarden tussen de 9.5 en 10.5. De kans die bij X ≥ 10 hoort, is eigenlijk hetzelfde als de kans die bij X ≥ 10.5 hoort. Er wordt voor de kansberekening daarom uitgegaan van 10.5 in plaats van 10. Dit wordt de continuïteitscorrectie voor de normaalbenadering genoemd.

Wat is het binomiale coëfficiënt?

Om het aantal manieren waarop k aantal successen bij n aantal observaties geschikt kunnen worden uit te rekenen, wordt de binomiale coëfficiënt gebruikt:

De formule voor binomiale coëfficiënten gebruikt de factor notatie (factoral notation). De factor n! voor elk positief getal n is:

n! = nx(n-1)x(n-2)x…x3x2x1. Ook geldt van 0! = 1.
De notatie n boven k heeft niets te maken van n/k.
Als X de binomiale distributie B(n,p) met n observaties en kans p van succes voor elke observatie heeft, dan zijn de mogelijke waarden van X 0,1,2,3…n.

Wat zijn Poissonverdelingen?

Een telling X heeft een binomiale verdeling wanneer deze geproduceerd wordt in een binomiale setting. Als één of meerdere facetten van deze setting niet kloppen, zal de telling X een andere verdeling hebben. We komen vaak tellingen tegen die open zijn, dat wil zeggen dat ze niet gebaseerd zijn op een vast aantal n observaties. In deze situaties kan de Poissonverdeling gebruikt worden. Deze telling representeert het aantal gebeurtenissen (noem deze ‘successen’) die voorkomen in een vastgestelde meetunit, bijvoorbeeld binnen een bepaalde tijd, regio of ruimte. Deze verdeling kan gebruikt worden onder de volgende condities:

Het aantal successen dat voorkomt in twee niet overlappende meetunits is onafhankelijk
De kans dat een succes voorkomt in een meetunit is hetzelfde voor alle units van gelijke grootte en is proportioneel aan de grootte van de unit.
De kans dat meer dan één gebeurtenis voorkomt in een meetunit is te verwaarlozen voor hele kleine units. Ofwel: de gebeurtenissen komen één voor één voor.
Voor de Poissonverdelingen is μ van het aantal successen per meetunit de enige belangrijke kwantiteit. De standaarddeviatie van de verdeling is √μ.
Wanneer het gemiddelde van de Poissonverdeling groot is, kan het moeilijk zijn om Poissonkansen te berekenen met een rekenmachine of software. Gelukkig is het zo dat wanneer μ groot is, de kansen benaderd kunnen worden door de normaalverdeling met gemiddelde μ en standaarddeviatie √μ te gebruiken.

Wat zijn statistische gevolgtrekkingen? - Chapter 6

Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata. In dit deel zullen in dit verband vooral betrouwbaarheidsintervallen en significantietesten aan de orde komen. Ook gaat het in dit deel alleen over het trekken van statistische gevolgtrekkingen over de populatie als de standaarddeviatie (σ) van de populatie bekend is.

Wat zijn betrouwbaarheidsintervallen?

Bij het berekenen van betrouwbaarheidsintervallen proberen we met een bepaalde zekerheid (bijvoorbeeld met een zekerheid van 95%) te stellen dat een populatiewaarde zich tussen twee grenswaarden bevindt. Bij significantietesten is het doel uitzoeken of een bepaalde uitkomst hoogstwaarschijnlijk het gevolg van toeval of van een echt effect is. Als we een therapiemethode voor depressie onderzoeken willen we bijvoorbeeld weten of deze therapie echt effect heeft gehad of dat de vooruitgang bij de deelnemers zo klein is dat er geen echt effect waarneembaar is. Omdat statistische gevolgtrekkingen op steekproevendistributies gebaseerd zijn, wordt vaak gebruik gemaakt van een kansdistributie. We doen bij statistische gevolgtrekkingen alsof de verzamelde data afkomstig is van een random steekproef of een gerandomiseerd experiment.

Hoe kun je schatten met betrouwbaarheid?

We weten inmiddels dat x̄ een goede schatter is van μ, maar hoe precies is de schatting? Je kunt bij de eerste steekproef bijvoorbeeld een gemiddelde van 100 vinden, maar hoogstwaarschijnlijk is dit bij de tweede steekproef niet precies hetzelfde. Om te weten hoe precies onze schatting is, hebben we ook een schatting van de spreiding nodig. Als er weinig spreiding is, dan weten we dat gemiddelden van verschillende steekproeven waarschijnlijk erg dicht bij elkaar liggen. Stel: we hebben een populatie met een standaarddeviatie van 4.5. In dat geval:

Zegt de 68-95-99.7 regel dat er ongeveer een kans van 0.95 is dat x̄ negen punten (twee standaarddeviaties) van het populatiegemiddelde afligt.
Gebruiken we het steekproefgemiddelde om het populatiegemiddelde te berekenen en niet andersom. Daarom zeggen we ook wel dat er 0.95 kans is dat het populatiegemiddelde negen punten rond x̄ varieert.
Betekent dit dat 95% van alle steekproeven de echte μ zullen bevatten in het interval van x̄-9 tot x̄+9. Stel je voor dat onze eigen steekproef een gemiddelde (x̄) van 461 geeft. We zeggen dan dat we er 95% zeker (confident) van zijn dat het onbekende populatiegemiddelde (μ) tussen 461- 9 = 452 en 461+9 = 470 ligt. Er is echter ook nog 5% kans dat het interval met de grenswaarden 452 en 470 de ware μ niet bevat.

Wat zijn betrouwbaarheidsintervallen?

Het interval 452 - 470 in het bovenstaande voorbeeld wordt het 95% betrouwbaarheidsinterval voor μ genoemd. De meeste betrouwbaarheidsintervallen hebben de vorm van schatting ± foutenmarge. De schatting (x̄ in ons geval) gebruiken we om een onbekende parameter te schatten. De foutenmarge (9 in ons voorbeeld) laat zien hoe zeker we ervan zijn dat onze schatting van de parameter klopt op basis van de grenswaarden. Betrouwbaarheidsintervallen gaan gepaard met twee belangrijke feiten:

Betrouwbaarheidsintervallen hebben de vorm van (a,b) waarbij a en b getallen zijn die door middel van de data berekend worden.
Een betrouwbaarheidsinterval gaat samen met een betrouwbaarheidsniveau (bijvoorbeeld 90 of 95). Het betrouwbaarheidsniveau geeft aan wat de kans is dat het interval de ware parameter zal bevatten. Als we een betrouwbaarheidsinterval van 90% gebruiken, zeggen we dus eigenlijk dat we er 90% zeker van zijn dat de ware parameter zich zal bevinden tussen de door ons uitgerekende grenswaarden. In de praktijk wordt het meest gebruik gemaakt van 95% als betrouwbaarheidsniveau; 90% en 99% komen minder vaak voor. Een betrouwbaarheidsinterval korten we af met de letter C (van confidence interval).

Wat is het betrouwbaarheidsinterval voor een populatiegemiddelde?

Een betrouwbaarheidsniveau gaat samen met een z-waarde. Een bijbehorende z-waarde kan altijd gevonden worden met tabel D achterin het boek. Een 95% betrouwbaarheidsinterval gaat bijvoorbeeld samen met een z van 1.96. Er is een kans van 95% dat x̄ tussen μ-z*(σ/√n) en μ+z*(σ/√n) ligt. Dit is precies hetzelfde als zeggen dat het onbekende populatiegemiddelde μ tussen x̄-z*(σ/√n) en x̄+z*(σ/√n) ligt. De schatter van de onbekende μ is x̄ en de foutenmarge m is: z*(σ/√n). Een korte samenvatting van deze informatie volgt hieronder.

Als een SRS van grootte n uit een populatie met een onbekende μ en bekende σ wordt geselecteerd, dan is de foutenmarge dus: m= z*(σ/√n).
In de bovenstaande formule staat z* voor de waarde van de normaalverdeelde curve met gebied C (dus bijvoorbeeld 95%) tussen de grenswaarden –z* en z*. Het niveau C betrouwbaarheidsinterval voor μ is x̄±m. Dit interval is een precieze schatter wanneer de populatie normaalverdeeld is en is een bijna precieze schatter in andere gevallen, maar n moet dan wel groot zijn.

Wat zijn kenmerken van betrouwbaarheidsintervallen?

Een hoge betrouwbaarheid is altijd gewenst, maar een klein foutenmarge ook. Een hoge betrouwbaarheid (confidence) zegt dat onze methode bijna altijd juiste antwoorden geeft. Een klein foutenmarge zegt dat we de parameter behoorlijk zeker kunnen schatten. Als een onderzoeker besluit dat de foutenmarge te groot is, dan kan de onderzoeker drie dingen doen:

Een kleiner betrouwbaarheidsniveau (C) gebruiken. Z* zal kleiner worden wanneer we een kleiner betrouwbaarheidsniveau gebruiken. Daarom zal een kleinere z* leiden tot een kleinere foutenmarge (maar alleen als niets met n en σ gebeurd is).
De steekproefgrootte n laten toenemen. De foutenmarge wordt dan kleiner voor welk betrouwbaarheidsniveau dan ook.
De standaarddeviatie (σ) verkleinen. Dit kan niet altijd, omdat we populatiegegevens niet makkelijk kunnen veranderen.

Hoe kun je een steekproefgrootte kiezen?

Een onderzoeker kan ook van tevoren vaststellen wat de foutenmarge mag zijn. Op basis van dat gegeven kan de onderzoeker dan de steekproefgrootte n bepalen. Dit kan met de volgende formule:

n=(z*σ/m)². Uit deze formule volgt dat de steekproef de foutenmarge bepaalt. De grootte van de populatie heeft geen invloed op de steekproefgrootte die we nodig hebben.

Waar moet je op letten bij de formule voor betrouwbaarheidsintervallen?

Met de gegeven formule voor betrouwbaarheidsintervallen, x̄±z*σ/√n, gaan een aantal waarschuwingen gepaard.

De data moeten het resultaat zijn van het trekken van een SRS uit de populatie. Het beste is om een gerandomiseerde SRS te trekken, maar het is voor de betrouwbaarheid van de onderzoeksresultaten ook toereikend als we kunnen aannemen dat de data het resultaat is van onafhankelijke observaties uit de populatie.
De formule is niet te gebruiken wanneer de steekproef niet op basis van een SRS getrokken is.
Data moet goed verzameld worden, zodat er geen sprake is van bias of onbekende steekproefgrootte. Als dat wel het geval is, dan geeft de bovenstaande formule geen betrouwbare resultaten, simpelweg omdat de data zelf ook niet betrouwbaar is.
Omdat x̄ niet robuust is, hebben uitbijters een groot effect op de betrouwbaarheidsinterval.
Als de steekproefgrootte klein is en de populatie niet normaal verdeeld is, dan zal het ware betrouwbaarheidsniveau anders zijn dan de waarde C die gebruikt is om het interval te berekenen. Wanneer n ≥ 15 is, dan zal het betrouwbaarheidsniveau niet erg beïnvloed worden door het feit dat de populatie niet normaal verdeeld is. Een grote steekproefgrootte is dus gewenst als de populatie niet normaal verdeeld is.
De formule gaat er vanuit dat de standaarddeviatie van de populatie (σ) bekend is. In de praktijk is dit echter bijna nooit het geval. In het volgende deel zal aan de orde komen hoe betrouwbaarheidsintervallen berekend moeten worden als de standaarddeviatie van de populatie onbekend is. Als de steekproef groot is, dan zal de standaarddeviatie van de steekproef (s) dichtbij de onbekende σ liggen. Het interval x̄ ± z*s /√n dan een benadering van het betrouwbaarheidsinterval van μ.

Hoe toets je significantie?

Waarom toets je significantie?

Een significantietoets voeren we uit om geobserveerde data te vergelijken met een vooraf opgestelde hypothese waarvan we de juistheid willen toetsen. Een hypothese is een statement over populatiegegevens (parameters). De uitkomsten van een significantietoets worden weergegeven in de vorm van kansen. We kunnen op basis van de uitkomsten van een significantietoets berekenen hoe groot de kans is dat de gevonden resultaten het gevolg zijn van toeval.

Wat zijn hypothesen?

De eerste stap bij het toetsen van significantie is het bedenken van een stelling waar we bewijs tegen hopen te vinden.

De hypothese die bij een significantietoets getoetst wordt, wordt de nulhypothese (H₀) genoemd. De significantietoets gaat over hoe sterk het bewijs tegen de nulhypothese is. In de meeste gevallen is de nulhypothese een statement in termen van ‘geen effect’ of ‘geen verschil’. Een (nul)hypothese wordt altijd in parameters genoteerd.
Daarnaast wordt er een alternatieve hypothese (H_a) geformuleerd. Deze stelt dat er wel een verschil of verandering is. We willen bewijs vinden dat de alternatieve hypothese steunt. Vaak beginnen onderzoeken met het formuleren van deze alternatieve hypothese. Vervolgens formuleren ze de hypothese waarvan ze hopen dat deze niet klopt (de nulhypothese).
De alternatieve hypothese H_a kan eenzijdig of tweezijdig zijn. Een alternatieve hypothese is tweezijdig wanneer een onderzoeker geen vermoeden heeft over de richting van een effect. Het is verkeerd om eerst naar de data te kijken en daarna een alternatieve hypothese te formuleren die bij de data past. Als je geen idee hebt van de richting van een mogelijk effect, dan is het goed om tweezijdig te toetsen. Als je als onderzoeker wel een richting vermoedt (bijvoorbeeld dat een therapievorm depressie vermindert) dan is het wel geoorloofd om eenzijdig te toetsen.

Wat zijn teststatistieken?

Een significantietoets is gebaseerd op een statistiek die een parameter schat. Deze parameter is in de nulhypothese weergegeven. Wanneer de nulhypothese waar is, verwachten we dat deze schatting een waarde aanneemt die dicht bij de parameter uit de nulhypothese ligt. Schattingen van de parameter die ver van de nulhypothese liggen, geven juist bewijs tegen de nulhypothese. Om uit te zoeken hoe ver de schatting van de echte parameter verwijderd is, is het van belang om de schatting te standaardiseren. In de meeste gevallen heeft de teststatistiek de volgende vorm:

Z = (schatting – waarde uit de hypothese) / standaarddeviatie van de schatting.
Een teststatistiek meet in hoeverre de nulhypothese en de verzamelde data overeenkomstig zijn. Dit gegeven gebruiken we voor de significantietoets. Een teststatistiek zien we als een random variabele.

Wat zijn P-waarden?

Een significantietoets laat zien wat de kans is dat een bepaald resultaat (of een extremer resultaat) gevonden wordt. ‘Extreem’ is in dit geval ‘ver van wat we zouden verwachten als de nulhypothese waar zou zijn’.

De p-waarde is de kans dat een teststatistiek een extreme(re) waarde aanneemt dan uit de gevonden data blijkt, als de nulhypothese waar zou zijn. Hoe kleiner de p-waarde, hoe sterker het bewijs tegen de nulhypothese. De p-waarde wordt berekend aan de hand van de steekproevendistributie van de teststatistiek.

Wat is statistische significantie?

We kunnen de berekende p-waarde vergelijken met een vaste waarde waarvan we besloten hebben dat deze beslissend is. Deze waarde geeft van tevoren aan hoeveel bewijs tegen de nulhypothese nodig is om deze te kunnen verwerpen.

Hoe bepaal je het significantieniveau?

De beslissende waarde van p wordt het significantieniveau genoemd. Deze korten we af met α. Als we α=0.05 gebruiken, dan willen we dat data zo’n bewijs tegen de nulhypothese levert dat er maar 5% kans is dat de gevonden resultaten het gevolg zijn van toeval en niet van een echt effect. Bij een alfa (α) van 0.01 willen we nog sterker bewijs om de nulhypothese te verwerpen dan bij een alfa van 0.05. Als een resultaat statistisch significant blijkt te zijn, dan zie je in wetenschappelijke literatuur bijvoorbeeld P<0.01 of P<0.05 staan. (P is de p-waarde).

Wat is de relatie tussen p-waarden en statistische significantie?

We hebben meer aan p-waarden dan aan het feit of iets statistisch significant is gebleken, omdat we resultaten zelf significant kunnen maken door grotere p-waarden als beslissend te bestempelen. Een resultaat van p = 0.03 is bijvoorbeeld significant op α=0.05 niveau, maar niet op α=0.01 niveau.

Als de p-waarde even klein of kleiner dan α is, dan zeggen we dat de data statistisch significant op het niveau van α is. Als er een tweezijdige significantietoets uitgevoerd wordt, moet de gevonden p-waarde maal twee gedaan worden om te kijken of deze kleiner dan α is. Bij eenzijdige toetsen hoeft dit niet.

Hoe voer je een significantietoets uit?

Het uitvoeren van een significantietoets gaat door middel van vier stappen.

Formuleren van de nulhypothese en de alternatieve hypothese.
Berekenen van de waarde van de teststatistiek.
P-waarden vinden die bij de geobserveerde data horen.
Trekken van een conclusie door een significantieniveau α vast te stellen.

Deze bepaalt hoeveel bewijs er tegen de nulhypothese nodig is om deze te verwerpen. Als de p- waarde kleiner of gelijk is aan α, dan moet geconcludeerd worden dat de alternatieve hypothese klopt. Als de p-waarde groter dan α is, dan moet geconcludeerd worden dat de gevonden data niet genoeg bewijs levert om de nulhypothese te verwerpen.

Hoe toets je het populatiegemiddelde?

Voor een toets van het populatiegemiddelde μ is de nulhypothese: het ware populatiegemiddelde is gelijk aan μ0. Dus:

H₀ : μ = μ₀. In dit verband heeft μ₀ een specifieke waarde die we willen onderzoeken. De significantietoets is gebaseerd op een schatter van de parameter, dus op het steekproefgemiddelde (x̄). Onze teststatistiek meet het verschil tussen de steekproefschatting en de parameter uit de nulhypothese in termen van standaarddeviaties van de teststatistiek:
Z = (schatting - waarde uit de hypothese) / standaarddeviatie van de schatting.
De standaarddeviatie van x̄ is σ/√n. Daarom is de teststatistiek: z = (x̄- μ0)/ (σ/√n). In dit geval is de standaarddeviatie van de populatie dus bekend.

Waar moet je op letten bij testen?

Een significantietoets uitvoeren is vaak gemakkelijk en tegenwoordig worden hiervoor vaak computerprogramma’s gebruikt. Het gebruik van een significantietoets is echter niet altijd even gemakkelijk.

Het is in wetenschappelijke literatuur vaak normaal om de gevonden p-waarde te noteren en erbij te zetten of de resultaten significant zijn gebleken. Er is echter geen scherpe lijn tussen significant en niet-significant te trekken. Of data als significant of niet-significant beoordeeld worden, hangt samen met de α die van tevoren gekozen is.
Als de nulhypothese wordt verworpen, betekent dit dat er sprake is van een effect en dat de onderzoeksresultaten hoogstwaarschijnlijk niet het gevolg zijn van toeval. Dit zegt echter helemaal niets over hoe groot het effect is. Er kan dus sprake zijn van een zeer klein effect, maar ook van een groot effect. Als er grote steekproeven worden getrokken, dan zijn kleine afwijkingen van de nulhypothese al snel significant.
In de praktijk worden betrouwbaarheidsintervallen te weinig gebruikt, terwijl significantietoetsen juist te vaak worden uitgevoerd.
Het hoeft niet per se zo te zijn dat niet-significante resultaten betekenisloos zijn. Soms zijn resultaten net niet significant. Dit zegt ook weer iets.
Als je een onderzoek wilt uitvoeren is het van belang om een toetsmethode te gebruiken waarvan je zeker weet dat deze een effect kan vaststellen als deze ook daadwerkelijk aanwezig is in de data.
Onderzoekers moeten oppassen dat ze objectief blijven, want vaak willen ze een effect vinden. Dit omdat ze bijvoorbeeld willen bewijzen dat hun therapiemethode voor depressie effectief is.

Wat is statistische power?

Als we een α van 5% bij een significantietoets gebruiken, zijn er we er 95% zeker van dat als de nulhypothese in werkelijkheid verkeerd is, dat we dat dan ook echt zullen vinden. De kans dat een significantietoets met een vaste α de nulhypothese zal afwijzen als de alternatieve hypothese in werkelijkheid juist is, noemen we de power van de toets.

Hoe bereken je de power?

Het berekenen van de power van een test gaat in drie stappen:

Formuleren van de nulhypothese en de alternatieve hypothese.
Vinden van de waarden van x̄ die leiden tot het verwerpen van de nulhypothese.
Kans berekenen dat de waarden van x̄ gevonden zullen worden als de alternatieve hypothese waar is.

Hoe kun je de power verhogen?

Stel je voor dat je als onderzoeker ontdekt dat de power van je toets te klein is. Wat kun je dan doen?

Het is mogelijk om α te verhogen.
Het is ook mogelijk om een alternatieve hypothese te formuleren die verder van de waarde van de nulhypothese ligt. Waarden van μ in de alternatieve hypothese die dichtbij de waarden van de nulhypothese liggen zijn moeilijker te bewijzen dan waarden die verder van de nulhypothese liggen.
Daarnaast is het aan te raden om de steekproefgrootte toe te laten nemen. Meer data zorgt ervoor dat er meer informatie over x̄ beschikbaar is. Dit zorgt er weer voor dat er een grotere kans is dat we onderscheid kunnen maken tussen waarden van μ.
Tot slot kan σ verlaagd worden. Dit heeft hetzelfde effect als een stijging in de steekproefgrootte. De σ kan op twee manieren verlaagd worden: (1) door het metingsproces te verbeteren en (2) door je als onderzoeker te beperken tot een subpopulatie.

Welke type fouten zijn er?

Zelfs significantietoetsen geven niet honderd procent de garantie dat de juiste conclusie over hypothesen worden getrokken. Er kunnen twee soorten fouten gemaakt worden:

Een type-I fout: Afwijzen van de nulhypothese en het aannemen van de alternatieve hypothese. Dit terwijl in werkelijkheid de nulhypothese juist is.
Een type-II fout: Aannemen van de nulhypothese en afwijzen van de alternatieve hypothese. Dit terwijl de alternatieve hypothese in werkelijkheid juist is.

Het is niet mogelijk om beide fouten tegelijkertijd te maken. Het significantieniveau α van een significantietoets is de kans op een type-I fout. Bij een α van 5% is er dus 5% kans dat we de nulhypothese onterecht verwerpen. De power van een significantietoets met een vast significantieniveau α om de alternatieve hypothese te detecteren is 1 - de kans op een type-II fout. In de praktijk worden type-I fouten erger gevonden, omdat er dan wordt gedacht dat er een effect is terwijl dat in werkelijkheid helemaal niet het geval is.

Wat zijn statistische gevolgtrekkingen voor distributies? - Chapter 7

In het vorige deel is bij de significantietoets uitgegaan van een bekende σ. In de praktijk kennen we de standaarddeviatie van de populatie vaak niet. De standaarddeviatie van de steekproef (s) wordt dan gebruikt om σ te schatten.

Wat zijn statistische gevolgtrekkingen voor het gemiddelde van een populatie?

Wat gebruik je om de standaarddeviatie van de populatie te schatten?

Wat is de t-distributie?

We gebruiken de t-distributie (in plaats van de z-distributie) wanneer we de standaarddeviatie van de populatie niet kennen.

Wanneer de standaarddeviatie van een statistiek uit de data wordt geschat, dan wordt het resultaat de (geschatte) standaardfout van de statistiek genoemd. De standaardfout van het steekproefgemiddelde is: SE_{M = s/}√n.
Het gestandaardiseerde steekproefgemiddelde wordt ook wel weergegeven met de één-steekproef-z-toets: z = (x̄-μ)/(σ/√n). Deze toets is de normaalverdeeld: N(0,1). Wanneer we (σ/√n) vervangen door (s/√n), dan is er echter geen sprake meer van een normaalverdeling. Er is nu een t-distributie ontstaan.
Als er een SRS van grootte n uit een normaalverdeelde populatie N(μ,σ) wordt getrokken, dan is de één-steekproef-t-toets: t = (x̄-μ)/(s/√n). Dit is een t-distributie met n-1 vrijheidsgraden (k).
Bij elke vrijheidsgraad hoort een andere t-distributie. De dichtheidscurves van de t-distributies lijken qua vorm op die van de bekende normaal verdeelde curve. De piek is echter lager en de staarten staan wat hoger. Er is dus meer spreiding aanwezig. Dit komt omdat de standaarddeviatie van de populatie niet gebruikt wordt in de formule. De standaarddeviatie van de steekproef zorgt voor meer spreiding. Tabel D geeft kritische t*-waarden voor de t-distributies. Bij het gebruiken van de tabel moet gekeken worden naar de bijbehorende vrijheidsgraden.

Hoe bereken je detrouwbaarheidsintervallen voor t-distributies?

Als je een SRS van grootte n uit een populatie met een onbekend gemiddelde (μ) trekt, dan is het betrouwbaarheidsinterval (C) voor μ: x̄ ± t*(s/√n). In dit verband is t* de waarde voor de t(n-1) dichtheidscurve met gebied C tussen –t* en t*. In deze formule staat t*(s/√n) voor de foutenmarge.

Hoe voer je de t-toets uit?

Het toetsen van significantie met een t-toets lijkt erg op het toetsen van significantie met de z-toets. De t-waarde wordt verkregen door:

t = (x̄- μ₀)/ (s/√n). De bijbehorende p-waarde kan opgezocht worden in tabel D achterin het boek.
We kunnen er, net zoals bij de z-toets, voor kiezen om eenzijdig of tweezijdig te toetsen. Als er geen vermoeden over de richting van het effect bestaat, dan is het altijd beter om een tweezijdige toets uit te voeren.

Hoe gebruik je de t-distributie bij gematchte paren?

Bij een gematchte paren onderzoek vormen deelnemers paren. Vervolgens wordt er naar de onderzoekresultaten binnen elk paar gekeken. De onderzoeker kan bijvoorbeeld twee vormen van therapie uitproberen op de verschillende leden van een paar, om te kijken of er verschillen in uitkomsten optreden. We willen elk lid van een paar dus met het andere lid vergelijken. Er wordt voor elk paar (of elk individu) een verschilscore berekend. Deze scores worden gebruikt als data. Tot slot kunnen met deze informatie t-betrouwbaarheidsintervallen en t-significantietoetsen uitgevoerd worden. Een dergelijk onderzoek wordt vaak ook gedaan als randomisatie niet mogelijk is.

Wanneer gebruik je een equivalentietest?

Als er uit een onderzoek geen statistische significantie naar voren komt, betekent dit niet per se dat de nulhypothese waar is. In dat geval kun je gebruik maken van een equivalentietest. Een equivalentietest gebruikt een betrouwbaarheidsinterval (van bijvoorbeeld 90%) om te bewijzen dat het gemiddelde verschil rond 0 is en dat de resultaten acceptabel zijn.

Ga ervan uit dat n de populatie is en μ het gemiddelde. Als het significatieniveau α is en μ binnen een marge van μ₀ equivalent moet zijn, en het interval μ₀ ± δ is, dan gaat een equivalentietest als volgt:

Bereken het betrouwbaarheidsinterval waarbij C = 1 – 2 α.
Vergelijk dit interval met de marge van equivalentie.
Alleen als het betrouwbaarheidsinterval geheel binnen het vooraf bepaalde interval ligt, dan is de conclusie dat μ equivalent is aan μ₀.

Ook met behulp van statistische software kun je equivalentietests uitvoeren.

Wat is robuustheid?

De uitkomsten van de één-steekproef-t-toets zijn helemaal juist wanneer de populatie normaal verdeeld is. In werkelijkheid is geen enkele populatie precies normaal verdeeld. De bruikbaarheid van de t-distributie hangt in de praktijk daarom vooral af van hoe niet-normaal verdeeld een populatie is. Een distributie die niet erg door een niet-normaal verdeelde populatie wordt beïnvloed, wordt robuust genoemd.

Een statistische procedure is robuust wanneer de benodigde kansberekeningen niet worden beïnvloed als niet aan de voorwaarden voor die kansberekeningen wordt voldaan. De voorwaarde voor de t-distributie is dus dat de populatie normaal verdeeld is, wat vaak niet het geval blijkt te zijn. Toch is de t-distributie robuust.

Wat is de robuustheid van de t-distributie?

De t-distributie is behoorlijk robuust tegen niet-normaliteit van de populatie, behalve als er uitbijters zijn of als er een sterke afwijking naar links of rechts aanwezig is. Grote steekproeven verbeteren de accuraatheid van de p-waarden wanneer de populatie niet normaal verdeeld is. Dit is waar om de volgende twee redenen:

Allereerst is de steekproevendistributie van een steekproefgemiddelde x̄ van een grote steekproef bijna normaal verdeeld. Normaliteit van individuele observaties is niet erg belangrijk wanneer de steekproef groot genoeg is.
Als de steekproefgrootte n groter wordt, dan zal de steekproefstandaarddeviatie s een betere schatter zijn van σ, of de populatie nou wel of niet normaal verdeeld is. Het is slim om de t-distributie pas te gebruiken als de steekproef 15 of meer deelnemers heeft. Als er sprake is van een hele kleine steekproef, dan is de aanname dat de data van een SRS afkomstig belangrijker dan de aanname dat de populatiedistributie normaalverdeeld is.

Bij welke steekproefgrootte kun je de t-distributie gebruiken?

Als de steekproef minder dan 15 deelnemers bevat, dan kan de t-distributie alleen gebruikt worden wanneer de data bijna normaal verdeeld is. Als de data niet normaal verdeeld is en er uitbijters aanwezig zijn, dan dient de t-distributie niet gebruikt te worden.
Als de steekproef minstens 15 deelnemers heeft, kan dan de t-distributie gebruikt worden, behalve als er sprake is van uitbijters of een sterke afwijking naar links of rechts.
De t-distributie kan zelfs gebruikt worden voor distributies met een sterke afwijking naar links of rechts als de steekproef 40 of meer deelnemers bevat.

Wat zijn resampling en bootstrapping?

Wat kun je doen als de populatie niet normaal verdeeld is en er enkel een kleine steekproef genomen kan worden? Om toch de steekproefdistributie van te benaderen, kan gebruik worden gemaakt van een bootstrap. Hierbij doe je alsof de beschikbare populatie de gehele populatie is, en worden er veel kleine steekproeven uit genomen. Elke steekproef heet hierbij een resample. Vervolgens bereken je voor elke steekproef de gemiddelde . De hieruit resulterende distributie behandel je alsof het de steekproefdistributie is, door statistische gevolgtrekking erop toe te passen, kun je ondanks het gebrek aan beschikbare gegevens toch een idee krijgen van hoe een steekproefdistributie eruit zou komen zien.

Wanneer kun je twee gemiddelden vergelijken?

Het doel van statistische gevolgtrekkingen is vaak het vergelijken van responsen in twee groepen. Elke groep wordt als een aparte steekproef uit een populatie gezien. De responsen van de groepen zijn onafhankelijk van elkaar. Bij twee aparte steekproeven is er geen sprake van gematchte paren en statistische procedures om twee steekproeven te vergelijken verschillen dan ook van statistische procedures om gematchte paren te vergelijken. We bestuderen twee onafhankelijke steekproeven en dus ook twee afzonderlijke populaties. Dezelfde (afhankelijke) variabele wordt gemeten voor beide steekproeven.

We kunnen de variabele x₁ noemen voor de eerste populatie en x₂ voor de tweede populatie. Dit omdat de variabele verschillende distributies in de twee populaties kan hebben.
Het gemiddelde van de eerste populatie noemen we µ₁ en het gemiddelde van de tweede populatie noemen we µ₂.
De standaarddeviatie van de eerste populatie is σ₁ en voor de tweede populatie is dat σ₂.

Wat is de z-toets voor twee steekproeven?

De nulhypothese die we willen onderzoeken is of het gemiddelde van beide populaties hetzelfde is, dus: H₀: µ₁ = µ₂. Dit kunnen we uitzoeken door middel van twee steekproeven met gemiddelden x̄₁ en x̄₂. Deze steekproeven zijn van grootte n₁ en n₂. De bijbehorende steekproefstandaarddeviaties zijn s₁ en s₂. We schatten het verschil tussen de populatiegemiddelden dus door middel van het verschil tussen de steekproefgemiddelden. Grote steekproeven zijn nodig om kleine verschillen vast te stellen. De z-toets voor twee steekproeven wordt als volgt gevonden:

Vind eerst: (x̄₁ en x̄₂)- (µ₁ - µ₂).
Trek daarna de wortel uit (σ²₁/ n₁+σ²₂/ n₂).
Deel de eerste uitkomst door de tweede uitkomst.

De z-toets voor twee steekproeven heeft de N(0,1)-steekproevendistributie. De z-toets voor twee steekproeven wordt echter zelden gebruikt, aangezien de standaarddeviaties van de populaties zelden geweten worden. In de praktijk wordt daarom veel vaker de t-toets voor twee steekproeven gebruikt.

Hoe voer je de t-toets uit voor twee steekproeven?

De t-toets voor twee steekproeven wordt als volgt gevonden:

Bereken eerst (x̄₁ en x̄₂)
Trek daarna de wortel uit (s²₁/ n₁+s²₂/ n₂).
Deel de eerste uitkomst door de tweede uitkomst.

Deze toets heeft echter geen t-distributie. Een t-distributie vervangt de N(0,1)-distributie alleen wanneer een enkele standaarddeviatie (σ) in een z-toets wordt vervangen door een steekproefstandaarddeviatie (s). Bij de t-toets worden echter beide standaarddeviaties (σ₁ en σ₂) vervangen door s₁ en s₂. Toch kunnen we de t-distributie voor twee steekproeven benaderen door een benadering met de vrijheidsgraden (k) te maken. We gebruiken deze benadering om waarden voor t* te vinden voor betrouwbaarheidsintervallen en om p-waarden te vinden voor significantietoetsen. Hoe maken we deze benadering? Dit kan op twee manieren. Hieronder zullen die manieren beschreven worden.

Gebruik een waarde van k die met de data berekend is. Vaak is dit geen heel getal. Vaak maken computerprogramma’s gebruik van deze manier. De berekende vrijheidsgraden zijn in dit geval minstens even groot als de kleinste van n₁-1 en n₂ -1. Het is echter ook zo dat de berekende vrijheidsgraden nooit groter zijn dan n₁+n₂ -2.
Bereken n₁-1 en n₂-1 en kies de kleinste uitkomst. Deze manier is het gemakkelijkst wanneer handmatig te werk wordt gegaan.

Eerst moet de t-toets voor twee steekproeven dus berekend worden. Vervolgens moeten de vrijheidsgraden per steekproef gevonden worden. De kleinste moet gekozen worden om gebruik te maken van tabel D achterin het boek.

Hoe bereken je het t-betrouwbaarheidsinterval voor twee steekproeven?

Stel: we trekken een SRS van grootte n1 uit een normaalverdeelde populatie met een onbekende µ₁ en we trekken ook een onafhankelijke SRS van grootte n₂ uit een andere normaalverdeelde populatie met een onbekende µ₂. In dat geval wordt het betrouwbaarheidsinterval als volgt berekend:

Bereken eerst het verschil x̄₁- x̄₂.
Bereken daarna t* als de wortel uit (s²₁/ n₁+s²₂/ n₂).
De gehele formule is: x̄₁- x̄₂ ± t* , waarbij t* de wortel is van (s²₁/ n₁+s²₂/ n₂).

Wat de standaarddeviaties van de populaties zijn is dus niet van belang voor deze formule.

Wat is robuustheid van berekeningen op basis van twee steekproeven?

De t-toets op basis van twee steekproeven is robuuster dan de t-toets die op een enkele steekproef is gebaseerd. Wanneer beide steekproeven van dezelfde grootte zijn en de bijbehorende populaties dezelfde vorm hebben, dan zijn de waarden uit de t-tabel behoorlijk accuraat, als de steekproeven maar minimaal uit 5 deelnemers bestaan. Het is daarom aan te raden om steekproeven van gelijke grootte te kiezen als dat mogelijk is. De t-toets voor twee steekproeven zijn het meest robuust tegen niet-normaliteit in dit geval. Wanneer de twee populatiedistributies verschillende vormen hebben, zijn er grotere steekproeven nodig.

Wat is van belang bij kleine steekproeven?

De power van significantietoetsen is vaak klein wanneer gebruik gemaakt wordt van kleine steekproeven. De foutenmarge dat bij de betrouwbaarheidsintervallen hoort is juist erg groot. Ondanks deze moeilijkheden kunnen we toch belangrijke conclusies trekken op basis van kleine steekproeven. De steekproefgrootte heeft invloed op de p-waarde van een toets. Een effect dat niet significant is op een specifiek significantieniveau, kan dat wel worden als een grotere steekproef uit de populatie getrokken wordt.

Hoe bereken je de vrijheidsgraad?

De vrijheidsgraad (degree of freedom) geeft informatie over hoeveel verschil achter de komma toelaatbaar is. Er bestaan formules om de vrijheidsgraad (df) zelf te berekenen, maar dit kan makkelijker (en betrouwbaarder) worden gedaan met behulp van statistische software. De meeste software heeft een functie of knop waarmee je de degrees of freedom kunt laten berekenen.

We zeggen dan dat we de t-toets poolen. Het resultaat is:

s²_p = (n₁-1)s²₁+(n₂-1)s²₂/ n₁+n₂-2. De uitkomst wordt ook wel de gepoolde schatter van σ² genoemd. Als we hier de wortel uittrekken, dan hebben we de gepoolde standaarddeviatie gevonden. Deze kunnen we weer gebruiken om een betrouwbaarheidsinterval te berekenen:

x¯1−x¯2±t∗sps21n1+s22n2−−−−−−−−√

Om de nulhypothese te toetsen (die beweert dat de gemiddelden van beide populaties hetzelfde is), kan de gepoolde standaarddeviatie ook gebruikt worden:

x¯1−x¯2/sp1n1+1n2−−−−−−−−√

Het nadeel van t-toetsen die op twee steekproeven gebaseerd zijn, is dat ze uitgaan van de aanname dat de twee onbekende populatiestandaarddeviaties gelijk aan elkaar zijn. Deze aanname is moeilijk te verifiëren. Het poolen van t-toetsen is daarom risicovol.

Waar moet je verder nog op letten bij gevolgtrekkingen?

Hoe moet je de steekproefgrootte kiezen?

Bij het ontwerpen van een onderzoek kun je gebruik maken van software bij ondersteuning in het kiezen van de steekproefgrootte.

Het kiezen van een geschikte steekproefgrootte voor betrouwbaarheidsintervallen vergroot de betrouwbaarheid en minimaliseert de kans op fouten. Om de steekproefgrootte te bepalen, is het volgende noodzakelijk:

Het betrouwbaarheidsniveau C
De maximale marge voor toelaatbare fouten m
De kritieke waarde t* waarbij C slechts n – 1 vrijheidsgraden heeft
De geschatte waarde van de standaarddeviatie van de populatie s*

De formule wordt dan: m ≤ t* s* /√n

Soortgelijke onderzoeken of pilot studies kunnen dienen om de standaarddeviatie te schatten (s*). Om de foutenmarge zo klein mogelijk te maken, is het beter om een standaarddeviatie een klein beetje groter in te schatten dan wat je verwacht.

De hoeveelheid data die beschikbaar komt, wordt vaak met het voortschrijden van het onderzoek minder dan vooraf ingepland, bijvoorbeeld omdat participanten afhaken. Bij het bepalen van de steekproefgrootte is het handig om hier alvast rekening mee te houden.

Hoe bereken je de power van de t-toets?

De power van een toets meet het vermogen van de toets om afwijkingen van de nulhypothese vast te stellen. De precieze berekening van de power van de t-toets is wat complexer, omdat er rekening gehouden moet worden met het feit dat de standaarddeviatie van de steekproef gebruikt moet worden om de standaarddeviatie van de populatie te schatten. Vaak wordt de precieze power niet berekend, maar wordt er genoegen genomen met een benadering van de power. Deze berekening lijkt erg op die van de z-toets:

Bepaal een standaarddeviatie, significantieniveau, de een- of tweezijdigheid van de toets en een alternatieve hypothese. Het is altijd beter om een waarde van de standaarddeviatie te gebruiken die iets groter is dan wat we zouden verwachten.
Noteer bij welke gebeurtenis de nulhypothese afgewezen zal worden (in termen van x̄).
Vind de kans op deze gebeurtenis als de alternatieve hypothese waar zou zijn.

De power van de t-toets berekenen voor twee steekproeven volgt dezelfde principes als bij een enkele steekproef. De niet-centrale t distributie (noncentral t-distribution) sluit hierbij aan. Hiervoor is het nodig om de niet-centrale parameter (noncentrality parameter) te bepalen. Software berekent de exacte power van de t-toets, in plaats van een benadering.

Welke statistische methoden gebruik je bij populaties die niet normaal verdeeld zijn?

Wat te doen als een populatie niet normaal verdeeld is en als de steekproef klein is? Er zijn in dat geval drie alternatieven:

Soms geeft een niet-normaal verdeelde distributie een goede beschrijving van de data. Er zijn veel niet-normaal verdeelde modellen voor data en er zijn ook statistische procedures beschikbaar voor deze modellen.
Het is ook mogelijk om te proberen de afwijkende data te transformeren in normaal verdeelde data. Er zal dan geen sprake zijn van een perfect normaal verdeelde distributie, maar de distributie zal wel zo normaal verdeeld mogelijk zijn. Deze transformatie kan gemaakt worden met het logaritme. Daarmee wordt de rechterstaart van een distributie aangepakt.
Tot slot kan een distributievrije methode gebruikt worden. Zo een methode heeft niet als aanname dat de populatie normaal verdeeld moet zijn. Distributievrije procedures worden ook wel non-parametrische procedures genoemd.

Wat is de tekentest?

Een voorbeeld van de makkelijkste en meest gebruikte non-parametrische procedure is de tekentest (the sign test). Negeer bij een tekentest de paren met een verschil van nul: het aantal gebeurtenissen n is de telling van de overige paren. De teststatistiek is de telling X van paren met een positief verschil. P-waarden voor X zijn gebaseerd op de binomiale B(n,1/2) distributie. De tekentest toetst in feite de hypothese dat de mediaan van de verschillen nul is. Als p de kans is dat een verschil positief is, dan is p 0.5 als de mediaan 0 is. De nulhypothese is dat de populatiemediaan 0 is en de alternatieve hypothese is dat de populatiemediaan groter dan 0 is. De tekentest maakt geen gebruik van echte verschillen, er wordt alleen gekeken of scores gestegen zijn. Omdat er niet naar inhoudelijke verschillen wordt gekeken, is de tekentest veel minder sterk dan de t-toets.

Wat zijn statistische gevolgtrekkingen voor proporties? - Chapter 8

We willen vaak weten hoe het met proporties in de populatie zit. Hoeveel procent van de Nederlanders is bijvoorbeeld 18 jaar of ouder? Hoeveel procent van de Nederlandse studenten is tegen de legalisering van drugs?

De steekproefproportie (p̂) wordt berekend door een telling (X) te delen door het aantal deelnemers (n).
De steekproefproportie wordt gebruikt om de populatieproportie te schatten. Als de populatie minstens 20 keer zo groot is als de steekproef, dan heeft telling X ongeveer een binomiale distributie B(n,p). Als de steekproefgrootte n erg klein is, moeten we significantietoetsen en betrouwbaarheidsintervallen voor p baseren op de binomiale distributie. Als de steekproef groot is, dan is zowel telling X als de steekproefproportie normaalverdeeld.

Wat zijn statistische gevolgtrekkingen voor een enkele proportie?

Hoe bereken je de steekproefproportie?

De steekproefproportie (p̂) wordt berekend door een telling (X) te delen door het aantal deelnemers (n).
De steekproefproportie wordt gebruikt om de populatieproportie te schatten. Als de populatie minstens 20 keer zo groot is als de steekproef, dan heeft telling X ongeveer een binomiale distributie B(n,p). Als de steekproefgrootte n erg klein is, moeten we significantietoetsen en betrouwbaarheidsintervallen voor p baseren op de binomiale distributie. Als de steekproef groot is, dan is zowel telling X als de steekproefproportie normaalverdeeld.

Wat is het betrouwbaarheidsinterval voor een grote steekproef?

De onbekende populatieproportie p wordt dus geschat aan de hand van de steekproefproportie p̂=X/n. In deze formule staat X voor het aantal successen.

Als de steekproefgrootte groot genoeg is, dan is p̂ bijna normaalverdeeld met een gemiddelde van p en een standaarddeviatie van √( p(1-p)/n ). Dit betekent dat in 95% van de gevallen de p binnen twee √( p(1-p)/n ) ligt.
De standaardfout van is de wortel uit p̂(1-p̂)/n.
De foutenmarge voor betrouwbaarheidsinterval C is m = z * SE_p̂. In deze formule is z* de waarde voor de standaard normaalverdeelde curve met gebied C tussen –z* en z*.
Een benaderd betrouwbaarheidsinterval voor p is p̂±m. Dit interval moet gebruikt worden voor 90%, 95% of 99% intervallen en wanneer het aantal successen en niet-successen allebei minstens 15 zijn. Voor een voorbeeld zie bladzijde 470.

Wat is het plus vier betrouwbaarheidsinterval voor een enkele proportie?

Uit onderzoek blijkt dat betrouwbaarheidsintervallen die op steekproeven gebaseerd zijn die minder dan 15 deelnemers hebben, vaak niet accuraat zijn. Wanneer dit het geval is, kan een simpele aanpassing aan het betrouwbaarheidsinterval effectief zijn.

De plus vier regel om een populatieproportie te schatten is: p-golf= X+2/n+4. Dit wordt ook wel de plus vier schatting genoemd. Het betrouwbaarheidsinterval is gebaseerd op de z-toets die verkregen wordt door de plus vier schatting te standaardiseren. De distributie van de plus vier schatting is bijna normaalverdeeld met gemiddelde p en standaarddeviatie √(p(1-p) / (n + 4)). Om een betrouwbaarheidsinterval te krijgen schatten we p met p-golf.
Om de standaardfout van p-golf te vinden, moet eerst p-golf(1-p-golf)/n+4 berekend worden. Vervolgens moet de wortel uit deze uitkomst getrokken worden.
De foutenmarge voor betrouwbaarheidsinterval C is: m = z * SE_p-golf, waarbij z* de waarde voor de standaard normaalverdeelde dichtheidscurve is met gebied C tussen –z* en z*.
Het benaderde betrouwbaarheidsinterval C van p is p-golf ± m. Dit interval dient gebruikt te worden voor 90%, 95% of 99% intervallen als de steekproef minstens uit 10 deelnemers bestaat.

Hoe voer je de significantietoets voor een enkele proportie uit?

Stel: je trekt een SRS van grootte n uit een grote populatie met een onbekende proportie p van successen. Om de nulhypothese te toetsen dat de proportie uit de nulhypothese klopt, maken we gebruik van de volgende berekening:
Eerst berekenen we p̂ - p₀.
Vervolgens berekenen we p₀(1- p₀)/n. Uit deze uitkomst trekken we de wortel.
Tot slot delen we de eerste berekening door de tweede berekening. De uitkomst is een z-toets.

Als de populatie niet minstens 20 keer zo groot als de steekproef is, dan dient deze procedure niet gebruikt te worden. Als een steekproef groot is, dan heeft de bijbehorende significantietoets een hoge power. Dit zorgt ervoor dat zelfs een klein effect vastgesteld kan worden. Als een steekproef erg klein is, dan kunnen belangrijke verschillen over het hoofd gezien worden.

Waarom gebruik je niet vaak significantietoetsen voor een enkele proportie?

Een betrouwbaarheidsinterval geeft altijd meer informatie dan de uitkomst van een significantietoets. We gebruiken in de praktijk zelden significantietoetsen voor een enkele proportie, omdat het in de echte wereld zelden voorkomt dat er een precieze p₀ bestaat die we willen toetsen. Uit data van vroegere grote steekproeven kan soms de waarde van p₀ afgeleid worden.

Hoe kies je de steekproefgrootte?

Als we aan de hand van een vaststaande foutenmarge een bijbehorende steekproefgrootte moeten kiezen, gebruiken we de volgende formule: N = (z*/m)² p*(1-p*).

De foutenmarge hangt af van z*,p̂ en n. Omdat we de waarde van p̂ niet kennen totdat we de data verzameld hebben, moeten we raden wat deze waarde is om de waarde in onze berekeningen te kunnen gebruiken. Deze geraden waarde noemen we p*. De waarde kan op twee manieren gevonden worden:

Gebruik een steekproefschatting die voortvloeit uit eerdere, soortgelijke onderzoeken.
Gebruik p* = 0.5. Omdat de foutenmarge het grootst is als p̂ 0.5 is, geeft deze keuze een steekproefgrootte die iets groter is dan wat we daadwerkelijk nodig hebben.

Als we p* gekozen hebben en een foutenmarge hebben vastgesteld, kunnen we de benodigde steekproefgrootte berekenen met de volgende formule: N = 1/4(z*/m)²

In deze formule is z* de kritische waarde voor betrouwbaarheid C en p* is de geraden waarde voor de proportie van successen in de toekomstige steekproef. De foutenmarge zal kleiner of gelijk aan m zijn als p* 0.5 gekozen wordt. De waarde van de verkregen n is niet erg gevoelig voor de keuze van p*, als deze maar dichtbij de 0.5 ligt. Als de waarde van p kleiner dan 0.3 of groter dan 0.7 is, dan kan het gebruik van p*=0.5 leiden tot het gebruik van een steekproefgrootte die veel groter uitvalt dan gewenst is.

Hoe kun je twee proporties vergelijken?

In de praktijk willen we vaak twee proporties (die gepaard gaan met verschillende groepen) vergelijken. De twee groepen die we vergelijken noemen we ‘populatie 1’ en ‘populatie 2’. De twee populatieproporties noemen we p₁ en p₂. De data bestaan uit twee afzonderlijke random geselecteerde steekproeven met grootte n1 voor de eerste populatie en grootte n2 voor de tweede populatie. De proportie successen in elke steekproef schat de corresponderende populatieproportie.

De steekproefproportie voor de eerste steekproef is p̂₁ = X₁/n₁.
De steekproefproportie van de tweede steekproef is p̂₂ = X₂/n₂.
Om de twee populaties te vergelijken, gebruiken we het verschil tussen de twee steekproefproporties: D=p̂₁ - p̂₂. D staat voor ‘difference’.

Als de twee steekproeven groot zijn, dan is de steekproevendistributie van D normaalverdeeld. Proporties worden door middel van z-toetsen met elkaar vergeleken. De eerste stap is het vaststellen van het gemiddelde en de standaarddeviatie van D:

µ_D = p₁- p₂.
σ²_D= p₁(1-p₁)/ n₁+ p₂(1-p₂)/ n₂.
De standaarddeviatie kan gevonden worden door de wortel uit de variantie van D te trekken.

Hoe bereken je het plus vier betrouwbaarheidsinterval voor D?

Een kleine aanpassing van steekproefproporties kan de accuraatheid van betrouwbaarheidsintervallen sterk verbeteren. De plus vier schattingen van twee populatieproporties zijn:

p₁-golf= X₁ +1/ n₁ +2 en p₂-golf= X₂ +1/ n₂ +2.
Het geschatte verschil tussen de populaties is: D-golf = p₁-golf-p₂-golf.
De standaarddeviatie van D-golf wordt gevonden door eerst p₁(1- p₁)/(n₁+2)+ p₂(1- p₂)/(n₂+2) uit te rekenen. Vervolgens moet de wortel uit de uitkomst getrokken worden.
De standaardfout van D-golf wordt gevonden door eerst p₁ golf(1-p₁ golf)/(n₁+2)+ p₂ golf(1-p₂ golf)/(n₂+2) uit te rekenen. Daarna moet de wortel uit deze uitkomst getrokken worden.
De foutenmarge is: m=z*SE_D-golf. In deze formule is z* de waarde van de normaalverdeelde curve met gebied C tussen –z* en z*.
Een benaderd betrouwbaarheidsinterval C voor p₁- p₂= D - golf ± m. Deze formule dient gebruikt te worden voor betrouwbaarheidsintervallen van 90%, 95% en 99% en als beide steekproeven minimaal uit 5 observaties bestaan.

Hoe bereken je betrouwbaarheidsintervallen voor D bij grote steekproeven?

Om een betrouwbaarheidsinterval voor p₁-p₂ te berekenen, gebruiken we niet de standaarddeviatie van de populatie (want deze is onbekend), maar de standaarddeviatie van de steekproeven. Dit resulteert in de standaardfout.

De standaardfout van D (SE_D) wordt gevonden door eerst p̂₁(1- p̂₁ )/n1+p̂₂(1- p̂₂ )/n₂ uit te rekenen. Uit deze uitkomst moet vervolgens de wortel getrokken worden.
De foutenmarge voor het betrouwbaarheidsinterval is: m = z * SE_D. In deze formule is z* de waarde van de normaalverdeelde curve met gebied C tussen –z* en z*. Een benaderd betrouwbaarheidsinterval C voor p1-p2= D±m. Deze formule dient gebruikt te worden voor betrouwbaarheidsintervallen van 90%, 95% en 99% en als het aantal successen en niet-successen in elke steekproef minstens 10 is.

Hoe voer je een significantietoets voor D uit?

We geven de voorkeur aan het berekenen van betrouwbaarheidsintervallen voor D, maar in sommige gevallen worden ook significantietoetsen voor D uitgevoerd. De nulhypothese is dan dat de twee populatieproporties hetzelfde zijn. We standaardiseren D = p̂₁ - p̂₂ als volgt:

σ_D= p₁(1-p₁)/ n₁+ p₂(1-p₂)/ n₂. Vervolgens moet de wortel uit de deze uitkomst getrokken worden. Als de steekproeven groot zijn, dan zal het gestandaardiseerde verschil ongeveer een gemiddelde van 0 en een standaarddeviatie van 1 hebben: N(0,1).
We schatten de waarde van p door middel van de algemene proportie van successen in de twee steekproeven: p̂ = X₁+X₂/n₁+n₁. De schatter van p wordt de gepoolde schatter genoemd, omdat deze de informatie van beide steekproeven combineert. Om deze gepoolde schatter te vinden moet allereerst SE_DP =p̂₁(1- p̂₁)(1/n₁+1/n₂) berekend worden. Vervolgens moet de wortel uit het resultaat getrokken worden.
Bij een significantietoets voor het toetsen van proporties, geldt: H₀:p₁=p₂.
De z-toets wordt gevonden aan de hand van de formule z = p̂₁ -p̂₂ / SE_DP. Vervolgens moet deze z-toets opgezocht worden in de z-tabel om een p-waarde te vinden en deze te gebruiken om de nulhypothese te behouden of af te wijzen.
Het relatieve risico (RR) is een ratio van beide steekproefproporties. Als onze steekproefproporties p̂₁ en p̂₂ zijn, dan wordt RR gevonden door de steekproefproporties door elkaar te delen: RR=p̂₁/ p̂₂.

Wat zijn gevolgtrekkingen voor categorische data? - Chapter 9

In dit hoofdstuk zal uitgelegd worden hoe twee of meer populaties vergeleken moeten worden wanneer de responsvariabele twee of meer categorieën heeft. Ook zal uitgelegd worden hoe onderzocht kan worden of twee categorische variabelen onafhankelijk zijn. Eerst zal worden uitgelegd hoe wat de basisgedachten zijn achter gevolgtrekkingen bij tweewegtabellen, vervolgens zal worden uitgelegd wat goodness of fit inhoudt.

Wat zijn gevolgtrekkingen uit tweewegtabellen?

Wat is samenhang?

Het is mogelijk om de samenhang tussen twee categorische variabelen uit te zoeken. Denk in dit verband maar eens aan geslacht (man/vrouw) en het hebben van een rijbewijs (ja/nee). De variabelen kunnen in een tweewegtabel gezet worden met twee rijen en twee kolommen. De kolommen staan voor onafhankelijke steekproeven uit verschillende populaties. Er zijn c aantal distributies voor de rijvariabele, één voor elke populatie.

De nulhypothese stelt dat er geen samenhang tussen twee categorische variabelen bestaat. Deze hypothese zegt dus eigenlijk dat de c-distributies van elke rijvariabele hetzelfde zijn.

De alternatieve hypothese stelt dat er sprake is van samenhang tussen de twee variabelen. In de alternatieve hypothese wordt echter geen richting aangegeven. Deze hypothese zegt dus dat de distributies niet allemaal gelijk zijn.

Hoe kun je de data grafisch weergeven?

Naast een tweewegtabel kan ook een staafdiagram of mozaïekplot worden gebruikt om de variabelen weer te geven. Een staafdiagram heeft per variabele twee balkjes, waarvan een staaf weergeeft welk percentage wel aan de variabele voldoet, en waarvan de andere staaf weergeeft welk percentage niet aan de variabele voldoet. Een mozaïekplot bestaat uit vier rechthoeken, waarbij ook per variabele wordt weergegeven welk percentage van de populatie wel en niet aan de variabele voldoet.

Wat is de chi-kwadraat toets?

Om de nulhypothese over de rxc (rij x kolom) informatie te toetsen, vergelijken we de geobserveerde celtellingen met de verwachte celtellingen. Omdat het om een tweewegtabel gaat, zijn er in totaal vier cellen.

De verwachte celtelling: (rijtotaal x kolomtotaal) / n.

Om de nulhypothese te toetsen moet een chi-kwadraattoets berekend worden, dit gebeurt als volgt:

Eerst moet het verschil tussen elke geobserveerde telling en de bijbehorende verwachte telling berekend worden. Alle verschillen moeten gekwadrateerd worden, zodat alle uitkomsten positief zijn.
Vervolgens moet elk gekwadrateerde verschil door de bijbehorende verwachte telling gedeeld worden. Dit is een methode om de verschillen te standaardiseren.
Tot slot moeten alle resultaten opgeteld worden. Het resultaat is de chi-kwadraat toets (X²). De bijbehorende formule is: X² = Σ (geobserveerde telling - verwachte telling)² / verwachte telling.

Wat is de chi-kwadraatdistributie?

Als de verwachte tellingen en de geobserveerde tellingen erg verschillend zijn, zal er een grote chi-kwadraat toets gevonden worden. Grote waarden van X² geven bewijs tegen de nulhypothese. Om een p-waarde te vinden gaan we aan de gang met de chi-kwadraatdistributie. Zoals de t-distributies zijn vrijheidsgraden ook belangrijk voor chi-kwadraatdistributies. Er kunnen alleen maar positieve chi-kwadraat toetsen verkregen worden op basis van onderzoeksdata. De chi-kwadraatdistributie heeft een afwijking naar rechts.

Als de nulhypothese waar is, dan heeft X² een distributie met (r-1)(c-1) vrijheidsgraden. De p-waarde kan gevonden worden door de berekende chi-kwadraattoets op te zoeken in de chi-tabel en te kijken tussen welke p-waarden deze ligt.

Wat bereken je bij de chi-kwadraattoets?

De chi-kwadraattoets kan dus in het kort als volgt uitgevoerd worden:

Bekijk eerst de rij- en kolompercentages.
Bereken vervolgens de verwachte tellingen en gebruik deze om de chi-kwadraattoets te berekenen.
Gebruik de kritische waarden uit de chi-tabel om een p-waarde vast te stellen.
Trek tot slot een conclusie over de samenhang tussen de rij- en kolomvariabelen.

Wat is het verschil tussen de z-toets en de chi-kwadraattoets?

Een z-toets uitvoeren op basis van dezelfde onderzoeksdata geeft dezelfde resultaten als een chi-kwadraat toets. Het voordeel van een z-toets is echter dat we zowel eenzijdig als tweezijdig kunnen toetsen, terwijl we met de chi-kwadraat toets alleen tweezijdig kunnen toetsen. Het voordeel van de chi-kwadraat toets is dat er meer dan twee populaties met elkaar vergeleken kunnen worden.

Welke modellen voor tweewegtabellen zijn er?

De chi-kwadraattoets kan in twee situaties uitgevoerd worden: (1) als meerdere populaties vergeleken moeten worden en (2) als onafhankelijkheid getoetst moet worden.

In de eerste situatie kun je bijvoorbeeld de wijnverkoop in drie omgevingen testen. Je kunt dan een tabel maken met twee categorische variabelen (wijn en muziek) met drie mogelijkheden per variabele: Frans, Italiaans en Anders. In dit geval ben je op zoek naar de samenhang tussen soorten wijn en het soort muziek dat in een restaurant wordt gedraaid. De nulhypothese is dan dat er geen samenhang is tussen soort wijn en soort muziek. De proporties zijn volgens deze hypothese dus hetzelfde in alle populaties.
In de tweede situatie worden de scores op twee variabelen van één populatie onderzocht. Een voorbeeld is dat studenten van een universiteit (man/vrouw) wordt gevraagd naar hun mening over abortus (voor/tegen). In dat geval wordt er dus een random steekproef getrokken en worden per individu de waarden voor de twee variabelen genoteerd. De nulhypothese zegt in dit geval dat de rij- en kolomvariabelen onafhankelijk zijn. Sekse en mening over abortus zouden dus niet samenhangen.

Bij het onafhankelijkheidsmodel is er dus sprake van een enkele steekproef. De kolomtotalen en rijtotalen zijn random variabelen. De totale steekproefgrootte n wordt door de onderzoeker gekozen, de kolom- en rijsommen zijn pas bekend nadat de data zijn verzameld.

Voor het 'vergelijken van populaties model' daarentegen, is er een steekproef voor elk van twee of meer populaties. De kolomsommen zijn de steekproefgroottes die geselecteerd zijn tijdens het ontwerpen van het onderzoek.

De nulhypothese in beide modellen stelt dat er geen relatie is tussen de kolomvariabele en de rijvariabele. Gelukkig is de test voor de hypothese van ‘geen relatie’ hetzelfde voor beide modellen: de Chi-kwadraattoets. Er zijn ook statistische modellen die gerelateerd zijn aan de Chi-kwadraattoets, die het mogelijk maken om drieweg- of meerwegtabellen te analyseren.

Wat is goodness of fit?

Data voor n aantal observaties van een categorische variabele met k aantal mogelijke uitkomsten worden genoteerd als n₁, n₂, n₃ … n_k observaties in k aantal cellen. De bijbehorende nulhypothese gaat over de kansen p₁, p₂, p₃ … p_k voor alle mogelijke uitkomsten. Voor elke cel moet het totale aantal observaties (n) vermenigvuldigd worden met de kans die gebruikt wordt om de verwachte tellingen te berekenen:

Verwachte telling = np_i.
De chi-kwadraat toets meet hoeveel de geobserveerde celtellingen verschillen van de verwachte celtellingen. De formule voor deze toets is:
X² =Σ(geobserveerde telling-verwachte telling)² /verwachte telling.
De bijbehorende vrijheidsgraden zijn k-1 en de p-waarden kunnen teruggevonden worden in de chi-tabel.

Met deze chi-kwadraat goodness of fit test kun je meten hoeveel de verkregen resultaten verschillen van de verwachte resultaten.

Wat is regressie? - Chapter 10

In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele. We gaan hierbij uit van de regressielijn ŷ= b₀+ b₁x. In dit vervolg proberen we echter uit te zoeken in hoeverre een berekende regressielijn een schatting is van de ware regressielijn die bij de populatie hoort. De regressielijn die bij de populatie hoort noteren we als β₀+ β₁x. In deze formule staat β₀ voor het intercept en β₁ voor de regressiecoëfficiënt. Deze waarden worden geschat aan de hand van b₀ en b₁.

Wat is simpele lineaire regressie?

Simpele lineaire regressie wordt gebruikt om de relatie tussen een responsvariabele (y) en een verklarende variabele (x) te onderzoeken. We verwachten dat verschillende waarden van x samen zullen gaan met verschillende waarden van y. Stel: we willen de verandering in bloeddruk vastleggen voor twee experimentele groepen. De ene groep krijgt een echt medicijn en de andere groep krijgt een placebo. De behandeling (placebo of echt medicijn) kunnen we dan zien als een verklarende variabele en bloeddruk is dan de responsvariabele.

Wat zijn populaties?

De gemiddelde verandering in bloeddruk kan verschillend zijn in de twee populaties. Deze gemiddelden noemen we µ₁ en µ₂.
Individuele veranderingen in bloeddruk variëren binnen elke populatie volgens de normaalverdeling. Dit betekent dat de meeste mensen binnen een groep ongeveer dezelfde bloeddruk hebben, terwijl een beperkt aantal mensen extreem afwijkt van de rest. Er wordt vanuit gegaan dat de standaarddeviaties van de populaties gelijk zijn.

Wat zijn subpopulaties?

Bij lineaire regressie kan de verklarende variabele (x) veel verschillende waarden aannemen. Je kunt bijvoorbeeld verschillende hoeveelheden van calcium geven aan verschillende groepen deelnemers. Deze waarden van x kunnen we zien als subpopulaties:

Elke waarde van x gaat samen met één subpopulatie. Elke subpopulatie bestaat uit alle individuen in de populatie die dezelfde waarde van x hebben. Als we dus een experiment uitvoeren waarbij we de effecten van vijf verschillende hoeveelheden calcium op bloeddruk willen onderzoeken, dan bestuderen we vijf subpopulaties.

Het statistische model voor simpele lineaire regressie gaat er vanuit dat voor elke waarde van x de geobserveerde waarden van y normaal verdeeld zijn met een gemiddelde dat van x afhangt. We gebruiken het symbool µ_y om deze gemiddelden aan te geven. De gemiddelden µ_y kunnen veranderen als x volgens een vast patroon verandert. Bij simpele lineaire regressie gaan we er vanuit dat alle gemiddelden op een lijn liggen die gebaseerd is op x-waarden.

Kort samengevat is er bij simpele lineaire regressie sprake van:

Verandering van de gemiddelden van y wanneer x verandert. Alle gemiddelden liggen op een lijn. Daarom geldt: µ_y= β₀+ β₁x. Dit is de regressielijn van de populatie.
Individuele waarden van y (op basis van dezelfde x) variëren volgens de normaalverdeling. Deze normaalverdelingen hebben allemaal dezelfde standaarddeviatie.

Wat zijn residuen?

De regressielijn die we vinden is nooit perfect als het gaat om het voorspellen van y-waarden op basis van x-waarden. Daarom geldt:

Data = fit+residu.
Het fit-gedeelte bestaat uit de subpopulatie-gemiddelden die gevonden worden door middel van µ_y= β₀+ β₁x.
Het residu-gedeelte staat voor de afwijkingen van de data vanaf de lijn die staat voor de populatiegemiddelden. We gaan ervan uit dat deze afwijkingen normaalverdeeld zijn en standaarddeviatie σ hebben. We gebruiken de Griekse letter ε als we het over het residu-gedeelte hebben. De ε-waarden kunnen gezien worden als ‘ruis’: het deel van de data dat niet verklaard kan worden met de regressielijn. Hierdoor zullen punten in een puntenwolk nooit helemaal op een rechte lijn liggen.

Wat is het model voor simpele lineaire regressie?

Het model voor simpele lineaire regressie gaat gepaard met de volgende feiten:

Gegeven n aantal observaties van x en y, geldt: (x₁,y₁), (x₂,y₂),…, (x_n,y_n).
De geobserveerde respons (y_i) gaat samen met verklaarde en onverklaarde elementen: y_i = β₀ + β₁x_i + ε_i. In deze formule is β₀+ β₁x_i de gemiddelde respons wanneer x=x_i. De afwijkingen (ε_i) zijn onafhankelijk en normaalverdeeld. Ze hebben een gemiddelde van 0 en standaarddeviatie σ. De parameters van het model zijn dus: β₀, β₁ en σ.

Hoe schat je regressieparameters?

Zoals eerder gezegd willen we de regressielijn die we op basis van een steekproef gevonden hebben, gebruiken om een regressielijn te maken voor de populatie. De regressielijn voor een steekproef is: ŷ = b₀+ b₁x. In deel B was al uitgelegd hoe b₀ en b₁ gevonden kunnen worden:

b₁= r(s_y/ s_x). In deze formule staat r voor de correlatie tussen y en x. De rest van de formule maakt gebruik van de standaarddeviaties van y en x.
b₀= : ȳ - b₁x̄ .
Het residu is: e_i =(geobserveerde y-waarde) – (voorspelde y-waarde). Dit is hetzelfde als: y_i - ŷ_i. Dit is weer hetzelfde als: y_i -b₀- b₁x_i. De residuen (e_i) corresponderen met de residuen ε_i. De e_i tellen op tot 0 en de ε_i komen uit een populatie met een gemiddelde van 0.

Dan moet nog de laatste parameter (σ) berekend worden. Deze parameter meet in hoeverre y-waarden van de populatie-regressielijn afwijken. Om deze parameter te berekenen, maken we daarom gebruik van residuen.

Eerst berekenen we de variantie van de regressielijn die bij de populatie hoort (σ²). Dit doen we door de variantie van de steekproef te gebruiken: s²= (Σe²_i)/ n-2. Dit is hetzelfde als: Σ(y_i - ŷ_i)²/n- 2.
Vervolgens trekken we de wortel uit de variantie (s²) om σ te vinden.

Hoe bereken je de betrouwbaarheidsintervallen?

Betrouwbaarheidsintervallen kunnen in het algemeen gevonden worden middels de formule: schatting ± t*SE_schatting. Voor β₀ en β₁ kunnen afzonderlijk betrouwbaarheidsintervallen berekend worden:

Het betrouwbaarheidsinterval voor het intercept β₀ is: b₀± t*SEb₀.
Het betrouwbaarheidsinterval voor de regressiecoëfficiënt β₁ is: b₁± t*SEb₁.
In deze formules is t* de waarde voor t(n-2) met gebied C tussen –t* en t*.

Hoe voer je de significantietoetsen uit?

De nulhypothese stelt dat de regressiecoëfficiënt in de populatie 0 is (β₁ =0). Om deze hypothese te toetsen maken we gebruik van een toetsstatistiek:

t = b₁/SE_b1. De vrijheidsgraden zijn n-2. De nulhypothese kan zowel eenzijdig als tweezijdig getoetst worden.
Als er tweezijdig getoetst wordt, moet de p-waarde uit de t-tabel eerst vermenigvuldigd worden om een conclusie te trekken over de nulhypothese. Als blijkt dat de alternatieve hypothese aangenomen moet worden, dan betekent dit dat er een relatie bestaat tussen x en y in de populatie. Let op: een hele kleine p-waarde zegt bij deze significantietoets niet dat we een sterke relatie hebben gevonden tussen x en y. Er mag dan alleen geconcludeerd worden dat er sprake is van een relatie, maar de grootte van de relatie is niet duidelijk.

Wat zijn betrouwbaarheidsintervallen voor de gemiddelde respons?

Voor elke waarde van x (ook wel x* genoemd) is de gemiddelde y-waarde in de subpopulatie:

µ_y= b₀+ b₁x*.
Het bijbehorende betrouwbaarheidsinterval voor de gemiddelde respons is: µ_y± t*SE_u. In deze formule is t* de waarde voor t(n-2) met gebied C tussen –t* en t*.

Wat zijn voorspellingsintervallen?

Soms willen we een waarde van een y voorspellen die ver buiten de y-waarden in de data ligt. In dat geval maken we gebruik van een voorspellingsinterval. Eerst moet een steekproef van n aantal observaties getrokken worden. Vervolgens moet het 95% betrouwbaarheidsinterval berekend worden voor een specifieke x-waarde (x*).

Het voorspellingsinterval voor een toekomstige observatie van y uit de subpopulatie van x* is: ŷ ± t*SE_ŷ In deze formule staat t* voor de waarde van t(n-2) met gebied C tussen –t* en t*.

Wat is nog meer van belang bij simpele lineaire regressie?

Wat is analyse van variantie (ANOVA) voor regressie?

Door middel van analyse van variantie (ANOVA) kunnen we uitzoeken in hoeverre data verklaard kan worden door het deel dat past bij de regressielijn (fit) en het deel dat daarvan afwijkt (residuen). De totale variatie in y wordt uitgedrukt door de afwijkingen y_i – ȳ. Als deze afwijkingen allemaal 0 zouden zijn, dan zouden alle observaties gelijk zijn en zou er geen variatie in y zijn. Er zijn twee redenen waarom y_i niet gelijk is aan het gemiddelde van y:

De waarden van y_i gaan samen met verschillende waarden van x en zijn daarom verschillend.
Individuele observaties zullen van het gemiddelde verschillen, omdat er variatie is binnen de subpopulatie die bij een specifieke x-waarde hoort.

Wat zijn de onderdelen van het ANOVA-model?

Zoals eerder gezegd maken we bij lineaire regressie gebruik van het model data= fit + residuen. Als we hier in termen van variantie naar gaan kijken, dan wordt dit:

SST = SSM + SSE. Hierbij staat SST voor de totale variantie, SSM voor de variantie die door het model wordt verklaard en SSE voor de variantie die niet door het model wordt verklaard (error). SS staat voor´sum of squares´.
SST wordt berekend met de formule: Σ(y_i-ȳ)²
SSM wordt berekend met de formule: Σ(ŷ_i-ȳ)²
SSE wordt berekend met de formule: Σ(y_i- ŷ_i)²

Wat zijn de vrijheidsgraden en MS (mean square) bij ANOVA?

Daarnaast is het ook mogelijk om voor elke bron van variantie de bijbehorende vrijheidsgraden uit te rekenen. Er wordt uitgegaan van een soortgelijke formule: DFT = DFM + DFE. In deze formule staat DF voor vrijheidsgraden (degrees of freedom). De vrijheidsgraden die bij het totaal, het model en de error horen, worden als volgt berekend:

DFT = n-1.
DFM = 1
DFE = n-2.

We vinden de MS voor elke bron van variantie door de SS te delen door de bijbehorende vrijheidsgraden (DF). Als de MS voor het totaal gevonden moet worden, dan wordt dat dus gedaan door SST/ DFT te berekenen. De proportie verklaarde variantie (r²) kan als volgt gevonden worden:

SSM/SST. Het resultaat laat ons zien hoeveel van de variantie in y wordt verklaard door het model.

Wat is de F-toets?

De nulhypothese dat de regressiecoëfficiënt (β₁) van de populatie 0 is, kunnen we aan de hand van de F-toets toetsen. De nulhypothese zegt dus eigenlijk dat x en y in de populatie geen lineaire samenhang vertonen. De F-toets vinden we als volgt:

F= MSM/MSE.

Als de nulhypothese waar is, dan heeft deze F-toets een distributie van 1 vrijheidsgraad in de noemer en n-2 vrijheidsgraden in de teller: F(1,n-2). Deze vrijheidsgraden horen bij MSM en MSE. Net zoals er veel t-toetsen bestaan, zijn er ook veel F-toetsen. Als de regressiecoëfficiënt niet 0 is (β₁ ≠ 0 ), dan is MSM relatief groot ten opzichte van MSE. Dit betekent dat grote waarden van F bewijs tegen de nulhypothese geven. We toetsen in dit verband altijd tweezijdig.

Hoe ziet de ANOVA-tabel eruit?

De informatie die tot nu toe gegeven is, wordt kort in de onderstaande ANOVA-tabel samengevat:

*Bron (source)*	Vrijheidsgraden (df)	SS (Sum of squares)	MS (Mean Square)	F
Model	1	SS_model	SSM / df_M	MS_M / MS_E
Error	n - 2	SS_error	SSE / df_E
Totaal	n - 1	SS_totaal	SST / df_T

Hoe kun je de populatiecorrelatie binnen de populatietoetsen berekenen?

We kunnen ook toetsen of er een correlatie tussen twee variabelen in de populatie bestaat. We gebruiken de Griekse letter ρ om de populatiecorrelatie weer te geven. Als x en y beide normaalverdeeld zijn, dan is ρ=0 hetzelfde als zeggen dat x en y in de populatie onafhankelijk zijn. Dit betekent dat er geen enkele relatie tussen x en y in de populatie bestaat. De alternatieve hypothese kan zowel eenzijdig als tweezijdig geformuleerd worden. Om de hypothese ρ = 0 te toetsen, maken we gebruik van de volgende stappen om de t-toets te berekenen:

Eerst vermenigvuldigen we de correlatie (r) met de wortel uit n - 2. In deze formule staat n voor de grootte van de steekproef.
Vervolgens delen we dit getal door de wortel uit 1- r².

De gevonden t-toets is hetzelfde als de t-toets die we zouden vinden als we de hypothese β₁=0 hadden getoetst. Dit betekent dat als er geen correlatie in de populatie bestaat, dat de regressiecoëfficiënt 0 is.

Wat is meervoudige regressie? - Chapter 11

In veel gevallen wordt variabele y beïnvloed door meerdere verklarende variabelen. Stel bijvoorbeeld dat je cijfers op een rekentoets wilt voorspellen. In dat geval kun je kijken naar verschillende verklarende variabelen: IQ, motivatie en werkhouding.

Wat is multipele regressie?

Het simpele lineaire regressiemodel gaat ervan uit dat het gemiddelde van responsvariabele y afhangt van x. De bijbehorende formule is: µ_y= β₀+ β₁x. Als we echter gebruik maken van meerdere predictoren, dan gebruiken we een andere formule:

µ_y= β₀+ β₁x₁ + β₂x₂+ … + βpxp.

Bij simpele lineaire regressie is er maar één voorspeller, waardoor de observaties samengevat kunnen worden als (x_i, y_i). Als er meerdere voorspellers zijn, dan maken we gebruik van de notatie x_ij. In dit verband staat j voor de j-ste variabele en i voor het i-ste geval (case).

Hoe bepaal je de regressielijn voor meerdere voorspellers?

We combineren de regressielijn voor de populatie en de aannames over variantie om een meervoudig lineair regressiemodel te maken. De subpopulatie-gemiddelden gaan over het fit-gedeelte van het model. Het residu-gedeelte gaat over de variantie die niet verklaard kan worden aan de hand van het model. We gebruiken ook hier het symbool ε als we het hebben over in hoeverre een individuele observatie afwijkt van het subpopulatie-gemiddelde. Deze afwijkingen zijn normaal verdeeld met een gemiddelde van 0 en een onbekende standaarddeviatie die niet afhangt van de waarden van x. Dit zijn aannames die we kunnen verifiëren door de residuen te bestuderen.

Het statistische model voor multipele lineaire regressie is: y_i= β₀+ β₁x_i1 + β₂x_i2+ … + β_px_ip + ε_i.
De gemiddelde respons µy is een lineaire functie van alle verklarende variabelen: µ_y = β₀+ β₁x₁ + β₂x₂+ … + β_px_p.
De afwijkingen (ε_i) zijn normaalverdeeld met een gemiddelde van 0 en standaarddeviatie σ. We kunnen dit samenvatten als N(0,σ). De parameters van het model zijn β₀+ β₁, β₂, …, β_p en σ.

Hoe schat je parameters bij multipele regressie?

Zoals bij simpele lineaire regressie maken we bij het schatten van parameters (β) gebruik van steekproefwaarden (b). De details zijn echter wat ingewikkelder.

b₀, b₁, b₂,…, b_p worden gebruikt om β₀, β₁, β₂,… β_p te schatten.
Voor de i-ste observatie is de voorspelde y (ŷ_i): b₀+ b₁x_i1 + b₂x_i2 + …+ b_px_ip.
Het i-ste residu (e_i) is het verschil tussen de geobserveerde en de voorspelde respons= y_i- ŷ_i. Dit is hetzelfde als: y_i-b₀ - b₁x_i1 - b₂x_i2 - …- b_px_ip.
Vervolgens moet de volgende formule gebruikt worden: Σ(y_i-b₀ - b₁x_i1 - b₂x_i2 - …- b_px_ip)². Dit betekent dat alle residuen gekwadrateerd moeten worden om niet op 0 uit te komen.
De parameter σ² wordt geschat aan de hand van s². We vinden s² als volgt: Σe²_i /n-p-1. In deze formule staat n voor de steekproefgrootte en p voor het aantal predictoren. Om de standaarddeviatie (σ) te vinden trekken we de wortel uit s².

Hoe bereken je betrouwbaarheidsintervallen voor multipele regressie?

We kunnen betrouwbaarheidsintervallen berekenen en significantietoetsen uitvoeren voor de regressiecoëfficiënten van alle predictoren (β_j).

Het betrouwbaarheidsinterval voor β_j is b_j± t*SE_bj. In deze formule is SE_bj de standaardfout van b_j en t* is de waarde van t(n-p-1).
Om de hypothese β_j=0 te toetsen berekenen we een t-toets:
t = b_j/ SE_bj. De alternatieve hypothese kan zowel eenzijdig als tweezijdig zijn.

Wat is de ANOVA-tabel voor multipele regressie?

Omdat er sprake is van meerdere predictoren bij multipele regressie, worden de vrijheidsgraden voor SS_M en SSE op een andere manier berekend:

*Bron (source)*	Vrijheidsgraden (df)	SS (Sum of squares)	MS (Mean Square)	F
Model	p (aantal predictoren)	Σ(ŷ_i- ȳ)²	SS_M / df_M	MS_M / MS_E
Error	n - p - 1	Σ(ŷ_i- ȳ_i)²	SS_E / df_E
Totaal	n - 1	Σ(ŷ_i- y - ȳ)²	SS_T / df_T

Hoe voer je significantietoetsen uit voor regressiecoëfficiënten bij multipele regressie?

Bij multipele regressie kunnen we de nulhypothese toetsen die stelt dat alle regressiecoëfficiënten 0 zijn: β₁= β₂=…= β_p= 0. De nulhypothese zegt dus eigenlijk dat geen van de x-variabelen een voorspeller is van de y-variabele.
De alternatieve hypothese stelt dat tenminste één van de regressiecoëfficiënten (β_j) niet 0 is. Deze hypothese zegt eigenlijk dat minstens één van de x-variabelen een voorspeller is van de y-variabele.
De F-toets wordt als volgt gevonden: MS_M/MSE. Als de nulhypothese waar is, dan heeft F de F(p, n-p-1) distributie.
Tot slot kunnen we berekenen hoeveel variantie in y wordt verklaard door alle verklarende variabelen tezamen: R² = SS_M/SS_T.

Wat is eenweg ANOVA? - Chapter 12

Eenweg ANOVA verwijst naar een techniek die wordt gebruikt als er maar één manier is om de populaties te classificeren. Een voorbeeld is onderzoeken of overlevingskansen verschillen voor drie verschillende longkankerbehandelingen.

Wat zijn de eigenschappen van een eenweg analyse van variantie?

Wat is het verschil tussen eenweg en tweeweg ANOVA?

Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake zijn van variabiliteit. Omdat dit normaal is, richten we ons voor het vergelijken van populaties of behandelingen op gemiddelden. We gebruiken ANOVA (analyse van variantie) om verschillende gemiddelden met elkaar te vergelijken. Er bestaan twee ANOVA-technieken:

Eenweg ANOVA: deze techniek wordt gebruikt als er maar één manier is om de populaties te classificeren. Een voorbeeld is onderzoeken of overlevingskansen verschillen voor drie verschillende longkankerbehandelingen.
Tweeweg ANOVA: in dit geval is er meer dan één manier om populaties te classificeren. Je kunt bijvoorbeeld vergelijken in hoeverre drie temperaturen (0, 20 en 30 graden) gecombineerd met drie hoeveelheden van licht (geen, gemiddeld en fel licht) invloed hebben op het onthouden van woordjes die een onderzoeker opleest. In het volgende hoofdstuk zal dieper ingegaan worden op tweeweg ANOVA.

Welke data gebruik je voor eenweg ANOVA?

Met eenweg ANOVA vergelijken we dus verschillende populatiegemiddelden. We trekken daarvoor een random steekproef (SRS) uit elke populatie en we gebruiken deze data om de nulhypothese te toetsen. We kunnen eenweg ANOVA ook gebruiken bij gerandomiseerde experimenten. De nulhypothese stelt dat alle populatiegemiddelden hetzelfde zijn. In ons voorbeeld stelt de nulhypothese dus dat alle drie de longkankerbehandelingen gepaard gaan met dezelfde overlevingskans.

Hoe vergelijk je gemiddelden?

We gebruiken de term ‘groepen’ als we het hebben over de verschillende populaties waarvan we willen onderzoeken of ze hetzelfde gemiddelde hebben. Om uitspraken over het gemiddelde van de populaties te doen, maken we gebruik van steekproefgemiddelden. Als blijkt dat er een verschil in gemiddelden bestaat, dan vragen we ons af of dat door toeval of door een echt effect komt. Door middel van ANOVA kunnen we uitzoeken of geobserveerde verschillen tussen steekproefgemiddelden statistisch significant zijn. We kunnen hier uitspraken over doen door te kijken naar de (1) steekproefgroottes, (2) de spreiding binnen de groepen en (3) de steekproefgemiddelden.

Wat is de twee-steekproeven t-toets?

De twee-steekproeven t-toets (In het Engels: two-sample t-test) vergelijkt de gemiddelden van twee populaties. De aanname is hierbij dat beide populaties dezelfde (maar een onbekende) standaarddeviatie hebben en dat de steekproefgroottes gelijk zijn. Hoe vinden we deze t-toets?

Trek eerst het gemiddelde van y van het gemiddelde van x af.
Vermenigvuldig de gepoolde standaarddeviatie (s_p) met de wortel uit 1/n+1/n.
Deel tot slot de uitkomst uit de eerste stap door de uitkomst van de tweede stap.

Als we de gevonden t-toets (t²) kwadrateren geeft dit precies hetzelfde resultaat als de ANOVA F-toets voor twee populaties. Een formule om t² direct uit te rekenen is:

t² = n/2(x̄ - ȳ)²/s²_p.

De teller in de bovenstaande formule meet de spreiding tussen de groepen. De teller kan groot zijn door een groot verschil tussen de steekproefgemiddelden of omdat de steekproeven groot zijn. De noemer meet de spreiding binnen de groepen. Als deze erg klein is, dan zorgt dit voor een grote t²-waarde. Dit maakt de kans op een significant resultaat groter.

Welke hypothesen gebruik je bij eenweg ANOVA?

Eenweg ANOVA gaat uit van de nulhypothese die stelt dat alle populatiegemiddelden gelijk zijn. De alternatieve hypothese stelt dat niet alle populatiegemiddelden gelijk zijn. De alternatieve hypothese klopt dus al als één populatiegemiddelde afwijkt van de rest. De alternatieve hypothese wordt echter ook aangenomen als alle populatiegemiddelden van elkaar verschillen.

Als we de nulhypothese hebben afgewezen, moeten we daarom nog uitzoeken waar de verschillen tussen populatiegemiddelden precies liggen. Dit kunnen we doen aan de hand van contrasten. Als we drie populaties (1,2,3) onderzoeken, kunnen we contrasten maken waarin we stellen dat ze allemaal verschillend zijn of dat populatie 1 van populatie 2 en populatie 3 verschilt. We kunnen ook een contrast maken waarin we stellen dat populatie 2 van populatie 1 en populatie 3 verschilt. Zo zijn er verschillende contrasten mogelijk. De contrasten moeten geformuleerd worden voordat het onderzoek uitgevoerd wordt.
Als we geen vermoeden hebben over de specifieke relatie tussen de populatiegemiddelden, dan kunnen we gebruik maken van multipele vergelijkingen (multiple-comparisons). We onderzoeken in dat geval welke paren van populatiegemiddelden significant van elkaar verschillen.

Wat is het eenweg ANOVA-model?

Ook dit model gaat uit van een situatie waarbij een deel van de data bij het model past en een deel onverklaard blijft (data= fit+residuen).

Het eenweg ANOVA-model is: x_ij = μ_i + ε_ij. In deze formule staat i voor 1,..., I. Bij eenweg ANOVA staat I voor het aantal populaties. Daarnaast staat j voor 1,..., ni. In dit verband staat ni voor de steekproef van de i-ste populatie. Tot slot staat x_ij voor de j-ste observatie van de i-ste populatie. De I populatiegemiddelden zijn het fit-gedeelde van het model en worden uitgedrukt in μi. De overige spreiding (ε_ij) staat gelijk aan het residu-gedeelte. Dit zijn de afwijkingen van de populatiegemiddelden.
ε_ij komen uit een normaalverdeelde distributie met een onbekende standaarddeviatie en een gemiddelde van 0: N(0,σ).
De (onbekende) parameters van het model zijn de populatiegemiddelden (μ₁, μ₂,…, μ_I) en de standaarddeviatie (σ) waarvan aangenomen wordt dat deze voor alle populaties gelijk is. Er wordt dus vanuit gegaan dat steekproefgroottes verschillend kunnen zijn, terwijl alle populaties dezelfde standaarddeviatie hebben.

Hoe schat je de populatieparameters?

ANOVA is niet erg gevoelig voor ongelijke standaarddeviaties tussen de groepen. Als de grootste standaarddeviatie minder dan twee keer de kleinste standaarddeviatie is, dan zal gebruik van ANOVA leiden tot (bijna) correcte resultaten. Wanneer we aannemen dat de populatiestandaarddeviaties gelijk zijn, dan is elke steekproefstandaarddeviatie een schatter van σ. We voegen deze steekproefstandaarddeviaties samen om tot een gepoolde schatter van σ te komen:

De gepoolde steekproefvariantie is: s²_p = (n₁ -1) s²₁ + (n₂ -1) s²₂ +… +(n_I -1) s²_I / (n₁ -1) + (n₂ -1) +… + (n_I -1).
Vervolgens moet de wortel uit de uitkomst getrokken worden om tot de gepoolde standaarddeviatie (s_p) te komen. Dit is een schatter van σ. Als de steekproefgroottes gelijk zijn, dan is s²_p het gemiddelde van de steekproefvarianties van alle groepen. Let op: s_p is niet het gemiddelde van de steekproefstandaarddeviaties.

Wat is binnen-groepen variantie en wat is tussen-groepen variantie?

De verschillende populatiegemiddelden worden vergeleken en getoetst aan de hand van de F-toets. Hierbij wordt gekeken naar de spreiding binnen en tussen de groepen. We willen dat de tussen-groepenvariantie groot is en dat de binnen-groepenvariantie klein is. Dat maakt de kans op het vinden van significante resultaten groter.

De nulhypothese is dat alle groepsgemiddelden gelijk zijn: μ₁ = μ₂ = …= μ_I. I staat zoals eerder gezegd voor het aantal populaties. De alternatieve hypothese zegt dat niet alle gemiddelden (μ_i) gelijk aan elkaar zijn. We maakten tot nu toe vooral gebruik van het model data= fit+ residuen. Nu kunnen we dat vertalen naar: totaal = tussen-groepen + binnen-groepen.

Hoe bepaal je SS, DF en MS voor eenweg ANOVA?

SS (sums of squares) laat zien hoeveel spreiding er in de data aanwezig is. De verschillende SS-elementen worden berekend door de gekwadrateerde afwijkingen op te tellen. Bij eenweg ANOVA zijn er drie bronnen van spreiding: (1) groepen, (2) error en (3) totaal. We zeggen daarom ook wel:

SST = SSG + SSE. De totale spreiding wordt dus opgedeeld in tussen- en binnen-groepenvariantie. De bijbehorende vrijheidsgraden kunnen ook opgedeeld worden in (1) groepen, (2) error en (3) totaal. We zeggen daarom dat DFT bestaat uit DFG en DFE. Om MS (mean square) uit te rekenen, moet een specifieke SS gedeeld worden door de bijbehorende vrijheidsgraden. We kunnen de MS voor de error (MSE) vinden door de gepoolde standaarddeviatie (s_p) te kwadrateren (s²_p). Dus: s²_p = MSE = SSE / DFE. Om de gepoolde standaarddeviatie te vinden moet de wortel uit MSE getrokken worden.

Wat is de F-toets voor eenweg ANOVA?

Als de nulhypothese waar is, zijn er geen verschillen tussen de populatiegemiddelden. MSG/MSE is ongeveer 1 als de nulhypothese waar is. De waarde wordt groter dan 1 als de alternatieve hypothese klopt. We maken voor het toetsen van de nulhypothese gebruik van:

Het aantal vrijheidsgraden uit de teller. Voor eenweg ANOVA zijn de vrijheidsgraden uit de teller I-1. Het aantal vrijheidsgraden uit de noemer: N-I.
Samengevat geeft dit: F(I-1, N-I). De F-toets voor ANOVA is behoorlijk robuust als het gaat om non-normaliteit en ongelijke varianties binnen de groepen.

Hoe ziet de ANOVA-tabel voor eenweg ANOVA eruit?

Bron (source)	Vrijheidsgraden (df)	SS (Sum of Squares)	MS (Mean Square)	F
Groepen	I - 1	Σ_groepen n_i(x̄_i - x̄)²	SS_G/ dfG	MS_G / MS_E
Error	N - I	Σ_groepen (n_i -1)s_i²	SS_E / df_E
Total	N - 1	Σ_obs(x_ij – x̄)²

waarbij I = aantal groepen en N = steekproefgrootte.

Tot slot kan bij eenweg ANOVA de coëfficiënt van bepaling (coefficient of determination) uitgerekend worden: R²= SS_G/SS_T.

Hoe vergelijk je gemiddelden?

Hoe bekijk je verschillen tussen groepsgemiddelden?

De ANOVA F-toets geeft ons alleen antwoord op de vraag of de gevonden verschillen tussen groepsgemiddelden significant zijn. Een kleine p-waarde zegt ons dat de groepsgemiddelden niet allemaal hetzelfde zijn. We weten dan echter nog niet welke groepsgemiddelden van elkaar verschillen. Wanneer de nulhypothese bij eenweg ANOVA afgewezen is, moeten er aanvullende analyses uitgevoerd worden om te kijken waar de verschillen precies liggen. Middels contrasten kunnen we de groepen met elkaar vergelijken. We kunnen dan bijvoorbeeld de eerste twee populaties vergelijken met de derde populatie.

We kunnen er ook voor kiezen om de eerste populatie te vergelijken met de tweede en de derde populatie. We kunnen dus verschillende alternatieve hypothesen formuleren in de vorm van contrasten.

Om een contrast over de populatie te toetsen, maken we gebruik van een steekproefcontrast. We kijken dan naar steekproefgemiddelden in plaats van populatiegemiddelden.

Wat zijn contrasten?

Een contrast is een combinatie van populatiegemiddelden in de vorm van Ψ= Σ a_iμ_i. De coëfficiënten van a_i tellen op tot 0.
Het corresponderende steekproefcontrast is: c = Σ a_ix̄_i.
De standaardfout van c is: SE_c = s_p √ Σa_i²/ n_i.
We toetsen de nulhypothese Ψ = 0. We gebruiken hiervoor de t-toets: t = c/SE_c. Ook maken we gebruik van de vrijheidsgraden voor de error (DFE) die gepaard gaan met s_p. De alternatieve hypothese kan zowel eenzijdig als tweezijdig zijn.
Het betrouwbaarheidsinterval voor Ψ is c ± t*SE_c.

Hoe voer je multipele vergelijkingen uit?

Multipele vergelijkingen (multiple comparisons) worden uitgevoerd nadat de nulhypothese voor eenweg ANOVA verworpen is. Aan de hand van deze vergelijkingen worden steeds paren van populaties met elkaar vergeleken.

Om multipele vergelijkingen te toetsen, berekenen we t-toetsen:
t_ij = x̄_i_i – x̄_i_j. / (sp √ 1/ n_i + 1/ n_j). Als de uitkomst van t_ij groter of gelijk aan t** is, dan mogen we concluderen dat de populatiegemiddelden uit één paar verschillend zijn. Als dat niet het geval is, dan zijn de populatiegemiddelden gelijk aan elkaar. De waarde van t** hangt af van de statistische meettechniek die we gebruiken.

Hoe bepaal je t**?

We kunnen, om t** te bepalen, bijvoorbeeld kiezen voor de ‘least-significant differences method’ (LSD) waarbij gebruik gemaakt wordt van een alfa van 5%. Dit kan gevaarlijk zijn; vooral als er veel populaties onderzocht worden. Dit komt doordat de kans op een type-I-fout dan toeneemt. In dat geval wordt de nulhypothese verworpen, terwijl deze in werkelijkheid wel klopt. Als onderzoeker neem je dan aan dat er een effect bestaat, terwijl dit niet het geval is. Om t** te bepalen, kunnen we ook kiezen voor de Bonferroni methode. Met deze methode neemt de kans op een type-I-fout niet toe per vergelijking. De kans blijft altijd 5%.

Wat is tweeweg ANOVA? - Chapter 13

Bij eenweg ANOVA delen we populaties in volgens één categorische variabele (ook wel factor genoemd). Bij tweeweg ANOVA maken we gebruik van twee factoren; elke factor heeft meerdere niveaus. Wanneer we geïnteresseerd zijn in de effecten van twee factoren, is het gebruik van tweeweg ANOVA veel handiger dan het gebruik van eenweg ANOVA. Een voorbeeld is dat een onderzoeker wil weten in hoeverre temperatuur en licht invloed hebben op de snelheid van leren.

De onderzoeker kan dan drie condities voor licht creëren: (1) geen licht, (2) normaal licht en (3) fel licht.
Voor temperatuur kan hij drie soorten temperaturen gebruiken: (1) 0, (2) 10 en (3) 40 graden.
Licht en temperatuur zijn de factoren binnen dit design. Deze condities van de twee factoren moeten vervolgens gecombineerd worden.
In totaal zijn er dan negen condities. Dit worden ook wel cellen genoemd.

Wat zijn de eigenschappen van het tweeweg ANOVA model?

Bij eenweg ANOVA delen we populaties in volgens één categorische variabele (ook wel factor genoemd). Bij tweeweg ANOVA maken we gebruik van twee factoren; elke factor heeft meerdere niveaus

Wat zijn hoofdeffecten en interactie effecten?

Als de onderzoeker het experiment met de negen cellen uitvoert, is hij geïnteresseerd in meerdere onderwerpen:

De verschillen in gemiddelden tussen de lichtniveaus. Hierbij gaat het over het hoofdeffect van licht.
De verschillen in gemiddelden tussen de temperatuurniveaus. Hierbij gaat het om het hoofdeffect van temperatuur.
Verschillen in gemiddelden die ontstaan door een unieke combinatie van een specifieke temperatuur en een specifiek lichtniveau. Een voorbeeld is dat leren bovengemiddeld snel gaat wanneer mensen onder normaal licht en in een ruimte met 10 graden moeten leren. In dit geval is er sprake van een interactie effect.

Wat zijn voordelen van tweeweg ANOVA?

Tweeweg ANOVA verdient de voorkeur boven eenweg ANOVA, omdat:

Het efficiënter is om twee factoren tegelijkertijd te bestuderen dan ze afzonderlijk te onderzoeken.
De residuele spreiding in het model verminderd kan worden door een tweede factor toe te voegen die invloed heeft op de responsvariabele.
We middels tweeweg ANOVA uitspraken kunnen doen over interactie effecten tussen factoren.

Wat is het tweeweg ANOVA-model?

De twee factoren bij tweeweg ANOVA noemen we A en B. Factor A zal I aantal niveaus hebben en factor B zal J aantal niveaus hebben. We noemen tweeweg ANOVA daarom ook wel IxJ ANOVA. Bij een tweeweg design wordt elk niveau van factor A gecombineerd met elk niveau van factor B. De steekproefgrootte voor niveau i van factor A en voor niveau j voor factor B is n_ij. Het totale aantal observaties is:

N = Σn_ij

We hebben onafhankelijke random steekproeven (SRS’en) van grootte n_ij voor elke combinatie van factorniveaus. We gaan er vanuit dat de populaties normaal verdeeld zijn. De populatiegemiddelden (μ_i) kunnen verschillend zijn, maar alle populaties hebben dezelfde standaarddeviatie (σ). De onbekende parameters zijn σ en μ_i. Bij eenweg ANOVA staat x_ijk voor de k-ste observatie uit de populatie met factor A op niveau i en factor B op niveau j. Het statische model is daarom: x_ijk = μ_i+ ε_ijk. In dit model staat μ_i voor het fit-gedeelte en ε_ijk voor het residu-gedeelte.

Hoe bepaal je SSM en DFM bij tweeweg ANOVA?

Bij tweeweg ANOVA kan SS_M opgedeeld worden in SS_A (hoofdeffect voor A), SS_B (hoofdeffect voor B) en SS_AB (interactie effect voor A en B). Hetzelfde geldt voor de vrijheidsgraden: DF_M= DF_A+DF_B+DF_AB. Als we een interactie effect vinden, betekent dat niet dat de hoofdeffecten onbelangrijk zijn. Het is ook mogelijk om tweeweg ANOVA uit te voeren wanneer dezelfde deelnemers aan alle condities worden blootgesteld. In dit geval wordt ook wel van een repeated-measures design gesproken.

Wat is de ANOVA-tabel voor tweeweg ANOVA?

Omdat er bij tweeweg ANOVA sprake is van twee factoren, zit de ANOVA-tabel anders in elkaar:

Bron	Vrijheidsgraden	SS	MS	F
A	I - 1	SS_A	SS_A / df_A	MS_A / MS_E
B	J - I	SS_B	SS_B / df_B	MS_B / MS_E
AB	(I - 1)(J - 1)	SS_AB	SS_AB / df_AB	MS_AB / MS_E
Error	N- IJ	SS_E	SS_E / df_E
Totaal	N - 1	SS_T

Welke hypothesen gebruik je voor tweeweg ANOVA toetsen met significantietests?

Bij tweeweg ANOVA worden drie hypothesen getoetst aan de hand van F-toetsen. De nulhypothesen stellen dat er geen hoofdeffecten voor A en B bestaan. Een derde nulhypothese stelt dat er geen interactie effect tussen A en B bestaat.

Om het hoofdeffect van A te toetsen: F_A = MS_A/MS_E.
Om het hoofdeffect van B te toetsen: F_B = MS_B/MS_E.
Om het interactie effect tussen A en B te toetsen: F_AB = MS_AB/MS_E.

Wat is logistische regressie? - Chapter 14

Hieronder worden enkelvoudige en multipele regressiemethoden besproken die gebruikt worden wanneer de responsvariabele maar twee mogelijke waarden (1, bijvoorbeeld succes en 0, mislukking) kan aannemen. Het gemiddelde is de proportie van enen (p = P(succes)). Wat er nieuw is, is dat we nu data hebben voor een onafhankelijke variabele x. Er wordt bestudeerd hoe p van x afhangt.

Wat is het logistische regressiemodel?

Logistische regressie werkt meer met kansverhoudingen (odds) dan met proporties. Een kansverhouding is de verhouding van de proporties van de twee mogelijke uitkomsten p̂ en 1- p̂. p̂ staat voor populatiekansverhoudingen.

\[ odds = \frac{\hat{p}}{1 - \hat{p}} \]

Bij enkelvoudige lineaire regressie wordt het gemiddelde m van de responsvariabele y beschreven als een lineaire functie van de onafhankelijke variabele: µ = ß₀ + ß₁X . Bij logistische regressie zijn we geïnteresseerd in het gemiddelde van de responsvariabele p = ß₀ + ß₁X .

Dit is echter geen goed model. Zolang ß₁ ≠ 0, zouden extreme waarden van x waarden opleveren die niet tussen 0 en 1 zijn. De oplossing hiervoor is het transformeren van p naar een kansverhouding. Vervolgens wordt het logaritme genomen van de kansverhouding. De term logaritmische kansverhouding (log odds) wordt hiervoor gebruikt.

\[ log (\frac{p}{1 - p}) = \beta_{0} + \beta_{1}X \]

Dit is het Logistische Regressiemodel.

Logistische regressie met een indicator is een speciaal geval. Een indicator is een geslachtsvariabele; 0 = vrouw, 1 = man. Voor mannen is het model:

\[ log (\frac{p_{mannen}}{1 - p_{mannen}}) = \beta_{0} + \beta_{1}X \]

En voor vrouwen:

\[ log (\frac{p_{vrouwen}}{1 - p_{vrouwen}}) = \beta_{0} \]

ß₁ ontbreekt in het model voor vrouwen, want x = 0 hier. De helling in het logistische regressiemodel is het verschil tussen de log (odds) voor mannen en de log (odds) voor vrouwen. Het is lastig om te denken in de log (odds) schaal, daarom wordt er een transformatie gebruikt die het interpreteren van de resultaten eenvoudiger maakt:

\[ X = \frac{odss_{mannen}}{odds_{vrouwen}} \]

De logistische regressie wordt hierin getransformeerd tot een odds-verhouding en maakt het logaritme ongedaan. Dit is ook uit te drukken als:

\[ odds_{mannen} = X * odds_{vrouwen} \]

Welke methoden zijn er voor logistische regressie?

De methoden voor logistische regressie lijken sterk op de methoden voor enkelvoudige lineaire regressie. Er worden schattingen gemaakt van de modelparameters en van standaardfouten. Ook betrouwbaarheidsintervallen worden op dezelfde manier gevormd. Alleen worden standaardnormale z- waarden meer gebruikt dan kritische waarden van de t-verdelingen. De verhouding van de geschatte standaardfouten is de basis voor hypothesetoetsen.

Hoe bepaal je betrouwbaarheidsintervallen voor logistische regressieparameters?

Het betrouwbaarheidsinterval voor de helling ß₁ is:

\[ b_{1} \pm z * SE_{b1} \]

Het betrouwbaarheidsinterval voor de odds-verhouding e^β1is:

\[ e^{b_{1} - z * SE_{b1}} , ... e^{b_{1} + z * SE_{b1}} \]

z* is de waarde voor de standaardnormale dichtheidscurve met een gebied tussen - z* en + z* . Om de nulhypothese H₀ : ß₁ = 0 te toetsen moet men de toetsstatistic uitrekenen.

\[ X^{2} = (\frac{b_{1}}{SE_{b1}})^{2} \]

De p-waarde voor een toets van de nulhypothese tegen de alternatieve hypothese is: P (x² ≥ X²).

Vaak wordt een 95%-betrouwbaarheidsinterval gehanteerd en een significantieniveau van 0.05. Het betrouwbaarheidsinterval geeft het resultaat van het toetsen van de nulhypothese, die stelt dat de odds- verhouding 1 is. Wanneer 1 niet in het betrouwbaarheidsinterval voorkomt, wordt H₀ verworpen. De odds voor de twee groepen zijn dan verschillend.

Wanneer gebruik je multipele logistische regressie?

Multipele logistische regressie wordt toegepast wanneer er sprake is van meer dan één onafhankelijke variabele. Andere onafhankelijke variabelen kunnen aanvullende informatie bevatten, waardoor een betere voorspelling gedaan kan worden. De statistische concepten zijn hetzelfde als bij enkelvoudige lineaire regressie, maar de berekeningen zijn complexer.

De nulhypothese is hier: H₀ : ß₁ = ß₂ = ß₃ = … = ß_i

Wat zijn nonparametrische toetsen? - Chapter 15

Non-parametrische toetsen gebruiken we wanneer we alleen categorische variabelen (nominaal of ordinaal meetniveau) hebben of wanneer de numerieke variabelen (interval of ratio meetniveau) niet voldoen aan de eisen. In het laatste geval groeperen we de numerieke variabele meestal in een beperkt aantal categorieën. Voorbeelden van non-parametrische toetsen zijn: Wilcoxon rangsomtoets, Wilcoxon rangtekentoets en de Kruskal-Wallistoets.

Wanneer gebruik je non-parametrische toetsen?

Bij het trekken van conclusies uit experimenten maken we vaak gebruik van toetsen die de aanname doen dat er een normaalverdeling is in de populatie(s). Deze toetsen zijn redelijk robuust: schending van de aanname van normaliteit levert geen grote problemen op, vooral niet wanneer de steekproeven erg groot zijn. Wanneer de populatieverdeling echter duidelijk niet normaal verdeeld is en de steekproeven klein zijn, moeten er andere methoden gebruikt worden:

Als duidelijke niet-normaliteit het gevolg is van uitbijters, dan moeten deze uitbijters verwijderd worden als ze niet tot de populatie behoren. Als ze wel tot de populatie behoren, kunnen er andere statistische methoden gebruikt worden die geen aanname van normaliteit doen.
Soms kunnen data worden getransformeerd, zodat de verdeling van de data meer normaal wordt. Een voorbeeld hiervan is het gebruik van logaritmen.
Soms kunnen data beter worden beschreven door middel van een andere standaardverdeling. De parameters van zo’n verdeling kunnen beschreven worden met behulp van speciale methoden.
Bootstrapmethoden en permutatietoetsen zijn methoden die geen normaliteit vereisen.
Ook andere non-parametrische methoden vereisen geen normaliteit. Deze methoden maken, in tegenstelling tot bootstrapmethoden en permutatietoetsen, geen gebruik van werkelijke waarden. Voorbeelden hiervan zijn rangtoetsen, die hieronder zullen worden besproken.

Rangtoetsen vereisen dat de populaties een continue verdeling hebben. Elke verdeling moet dus kunnen worden beschreven met een dichtheidscurve. De vorm van de curve maakt bij rangtoetsen niet uit. Toetsen die de aanname van normaliteit doen, maken gebruik van populatiegemiddelden of steekproefgemiddelden. Rangtoetsen maken gebruik van medianen.

Wat is de Wilcoxon rangsomtoets?

De Wilcoxon rangsomtoets wordt gebruikt wanneer er in een experiment twee onafhankelijke steekproeven met elkaar worden vergeleken en de aanname van normaliteit geschonden is. De methode is als volgt:

Rangschik alle waarnemingen van laag naar hoog.
Nummer deze waarnemingen. De laagste waarneming krijgt rangnummer 1.
Kies een van de steekproeven uit als eerste steekproef en tel de rangnummers bij elkaar op. Deze rangsom wordt W genoemd en is de Wilcoxon rangsomstatistiek. Hieronder staat een voorbeeld. De vetgedrukte waarden komen uit steekproef 1, de niet-vetgedrukte waarden komen uit steekproef 2. In dit geval wordt W dus 1 + 2 + 4 + 5 = 12.

Score op de test	5.4	5.8	6.1	6.7	6.9	7.5	8.1	8.4
Rangnummer	1	2	3	4	5	6	7	8

Bij sommige experimenten worden categorische variabelen omgezet in numerieke variabelen. Dit is onder andere het geval bij stellingen. Het volledig oneens zijn met de stelling is bijvoorbeeld 1 punt, het volledig eens zijn met de stelling is 5 punten.

De t-toets behandelt deze variabelen als betekenisvolle getallen, terwijl dit in werkelijkheid niet het geval is. Onderzoekers gebruiken in zo’n geval vaak liever de rangsomtoets, omdat deze gebruik maakt van rangnummers in plaats van werkelijke waarden. Een ander voordeel is het feit dat uitbijters geen invloed hebben.

Om de Wilcoxon rangsomtoets uit te voeren, moeten naast de waarde van W ook nog het gemiddelde en de standaarddeviatie van W berekend worden. Het gemiddelde van W wordt berekend door:

\[ \mu_{W} = \frac{n_{1}(N+1)}{2} \]

N is het totaal aantal observaties en n1 is de steekproefgrootte van de eerste steekproef. De standaarddeviatie van W wordt berekend door:

\[ \sigma_{W} = \sqrt{ \frac{n_{1}n_{2}(N+1)}{12} } \]

De aanname die hierbij wordt gedaan, is dat de twee populaties dezelfde continue verdeling hebben. Wanneer de waarde van W ver afligt van zijn gemiddelde (µW), dan zijn de verdelingen van de populaties niet identiek. Waarden van de ene populatieverdeling zijn dan systematisch hoger dan waarden van de andere populatieverdeling. Om te toetsen of het effect significant is, oftewel om de p-waarde te kunnen vergelijken met alpha α, kan gebruik gemaakt worden van speciale tabellen of van software. Een goede benadering is echter ook het gebruik van z-scores:

\[ z = \frac{W - \mu_{W}}{\sigma_{W}} = \frac{W - n_{1}(N+1)/2}{\sqrt{n_{1}n_{2}(N+1)/12}} \]

Voor een meer accurate z-score wordt vaak eerst nog een continuïteitscorrectie toegepast. In werkelijkheid is er namelijk in de steekproeven geen sprake van een continue verdeling, maar van discrete waarden (weergegeven als staafjes). Een score van 15 bijvoorbeeld bezet het interval van 14.5 tot 15.5 in de verdeling. De continuïteitscorrectie werkt als volgt:

Als W groter is dan µW, dan halen we 0.5 af van W. Vervolgens vullen we de gecorrigeerde W in de z-formule in.
Als W kleiner is dan µW, dan tellen we 0.5 op bij W. Vervolgens vullen we de gecorrigeerde W in de z-formule in.
Wanneer we tweezijdig in plaats van eenzijdig willen toetsen, vermenigvuldigen we de gevonden p-waarde met 2. De continuïteitscorrectie hebben we dan van tevoren al uitgevoerd.

Welke hypothesen van de rangsomtoets gebruik je?

Omdat we bij de rangsomtoets medianen vergelijken in plaats van gemiddelden, worden de hypothesen als volgt:

H₀: mediaan₁ = mediaan₂
H_a: mediaan₁ ≠ mediaan₂ (tweezijdig) of bijvoorbeeld mediaan₁ > mediaan₂ (eenzijdig).

Dit geldt echter alleen als de populatieverdelingen dezelfde vorm hebben. In praktijk is dit vaak niet het geval. Daarom worden de hypothesen vaak geformuleerd in woorden:

H₀: De twee verdelingen zijn gelijk.
H_a: De waarden van de ene verdeling zijn systematisch hoger.

Hoe ga je om met gelijke waarden bij de rangsomtoets?

Het kan zijn dat meerdere proefpersonen dezelfde score hebben behaald tijdens een experiment. Bij het toekennen van rangnummers wordt dan het gemiddelde genomen van de rangen die deze waarden bezetten. Hieronder staat een voorbeeld ter verduidelijking. In dit voorbeeld bezet score 6.1 zowel rangnummer 3 als rangnummer 4. Het gemiddelde van deze rangnummers wordt dan (3 + 4) / 2 = 3.5.

Score op de test	5.4	5.8	6.1	6.1	6.5	7.5	8.1	8.4
Rangnummer	1	2	3.5	3.5	5	6	7	8

Bij gelijke waarden verandert de exacte verdeling van de Wilcoxon rangsom W. De standaarddeviatie van W (σW) moet worden aangepast. Statistische software is vereist wanneer je data gelijke waarden bevatten, omdat statistische software automatisch de nodige aanpassingen doet.

Wat zijn de verschillen tussen rangsomtoets, t-toets en permutatietoets?

De Wilcoxon rangsomtoets vervangt als het ware de t-toets voor twee onafhankelijke steekproeven wanneer er geen sprake is van een normaalverdeling in de populaties. Wanneer de steekproeven klein zijn en er geen sprake is van normaliteit, is de Wilcoxon rangsomtoets namelijk betrouwbaarder dan de t-toets. De t-toets gaat samen met een betrouwbaarheidsinterval. De rangsommethode daarentegen legt de nadruk echt op de toets, niet op het betrouwbaarheidsinterval. Een ander verschil is het feit dat het trekken van conclusies bij de rangsomtoets beperkt blijft tot simpele settings. Met de t-toets kunnen resultaten van meer complexe experimentele designs onderzocht worden.

Een rangsomtoets en permutatietoets zijn beide non-parametrische toetsen, maar ze verschillen op bepaalde aspecten. Het berekenen van de steekproevenverdeling onder de nulhypothese is hetzelfde voor beide toetsen, maar gaat gemakkelijker bij de rangsomtoets. Software geeft daarom alleen p-waarden voor rangsomtoetsen (en andere rangtoetsen) en niet voor permutatietoetsen. Een voordeel van permutatietoetsen ten opzichte van rangsomtoetsen is flexibiliteit. Permutatietoetsen bieden een brede keuze aan statistieken die gebruikt kunnen worden om twee steekproeven met elkaar te vergelijken. Ook zijn ze bijvoorbeeld te gebruiken bij multipele regressie.

Wat is de Wilcoxon rangtekentoets?

De Wilcoxon rangtekentoets wordt gebruikt wanneer er sprake is van afhankelijke steekproeven en de aanname van normaliteit geschonden is. De methode is als volgt:

Omdat het gaat om afhankelijke steekproeven zijn de waarnemingen gerangschikt in paren. Bepaal voor elk paar wat het absolute verschil is tussen de twee metingen (bijvoorbeeld tussen de voor- en nameting). Het gaat om absolute verschillen, dus het verschil is altijd positief. Rangschik deze absolute verschillen van laag naar hoog. Wanneer het verschil nul is, verwijder je deze uit de rangorde.
Ken rangnummers toe aan de verschillen. Het kleinste verschil krijgt rangnummer 1.
Maak in de rangorde duidelijk welke verschillen er oorspronkelijk positief waren en welke negatief.
Tel de rangnummers van de oorspronkelijk positieve verschillen bij elkaar op. Deze rangsom wordt W+ genoemd en is de Wilcoxon rangtekenstatistiek

Het gemiddelde van W+ is:

\[ \mu_{W+} = \frac{n(n+1)}{4} \]

Hierbij gaan we ervan uit dat de verdeling van responsen niet te wijten is aan een verschillende behandeling binnen paren. In de formule staat n voor het aantal paren. Bij herhaalde metingen vormt elke proefpersoon als het ware een paar met zichzelf, dus in dat geval is n gelijk aan het aantal proefpersonen.

De standaarddeviatie van W+ is:

\[\sigma_{W+} = \sqrt{ \frac{n(n+1)(2n+1)}{24} } \]

Als de waarde van W+ ver afligt van zijn gemiddelde (µW+), dan zijn er systematische verschillen binnen paren. De verdeling van de rangtekenstatistiek wanneer de nulhypothese waar is, is bij benadering normaal in het geval van een grote steekproef. We kunnen daarom z-scores gebruiken om de p-waarde te bepalen. Dit werkt hetzelfde als bij de Wilcoxon rangsomtoets, alleen gebruiken we nu W+ , µW+ en σW+. Voor een meer accurate benadering van de z-score moet er weer eerst een continuïteitscorrectie worden toegepast. Ook dit gaat volgens dezelfde procedure als bij de Wilcoxon rangsomtoets.

Hoe ga je om met gelijke waarden bij de rangtekentoets?

Bij de Wilcoxon rangtekentoets kan er sprake zijn van gelijke waarden binnen paren en van gelijke waarden tussen paren. Een knoop binnen een paar houdt in dat er twee keer hetzelfde gemeten wordt: het verschil is nul. Nul is niet negatief of positief, dus daarom worden alle nul-waarden uit de rangorde verwijderd. Waarnemingen waarbij het verschil nul is, zijn echter in het voordeel van de nulhypothese. Wanneer er veel gelijke waarden binnen paren zijn, zullen de resultaten dus vertekend raken en eerder richting de alternatieve hypothese wijzen. Hierdoor verandert ook de verdeling en zo ook de standaarddeviatie van W+ (σ_W+). Statistische software doet hiervoor de juiste aanpassingen. Als er gelijke waarden zijn tussen paren, dan houdt dit in dat twee of meer paren uitkomen op hetzelfde absolute verschil. De oplossing is dan om het gemiddelde te nemen van de rangen die ze bezetten, evenals bij de Wilcoxon rangsomtoets.

Wat is de Kruskal-Wallistoets?

Wanneer we meer dan twee gemiddelden met elkaar willen vergelijken, maken we gebruik van enkelvoudige variantieanalyse (ANOVA). De aanname hierbij is dat de populatieverdelingen bij benadering normaal zijn en een gelijke verdeling hebben, oftewel gelijke standaarddeviaties. Als niet aan deze eisen voldaan wordt, kan de Kruskal-Wallistoets gebruikt worden. Deze toets vervangt dan de F-toets voor ANOVA. De aanname dat de steekproeven onafhankelijk en random getrokken zijn blijft hierbij hetzelfde. Verder wordt de aanname gedaan dat er in elke populatie een continue verdeling van responsen is. Hypothesen worden geformuleerd in woorden:

H₀: De verdelingen van alle groepen zijn gelijk.
H_a: De waarden van de sommige verdelingen zijn systematisch hoger.

De Kruskal-Wallisstatistiek duiden we aan met H en is eigenlijk hetzelfde als SSG (de kwadratensom tussen groepen). H wordt op de volgende manier berekend:

\[ H = \frac{12}{N(N + 1)} \sum \frac{R_{i}^{2}}{n_{i}} - 3(N + 1) \]

In deze formule staat n_i voor de steekproefgrootte van de i^de steekproef. N staat voor het totaal aantal observaties. Alle N observaties moeten worden gerangschikt, zodat de waarden van R_i kunnen worden bepaald. R_i is namelijk de rangsom voor de i’de steekproef. Het aantal populaties geven we aan met I. H heeft bij benadering een chikwadraatverdeling met I – 1 vrijheidsgraden. Aan de hand van de chikwadraatverdeling kunnen p-waarden worden bepaald. Als H groot is, dan wordt de nulhypothese verworpen.

Access:

Public

Join WorldSupporter!

Join with a free account for more service, or become a member for full access and support of WordSupporter

Check more of this topic?

Statistics and Data analysis Methods

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Search other summaries?

Associate with your Field of Study

Search Summaries or Notes

Start using Summaries

Add a Summary

This content is also used in:

Study guide with Introduction to the Practice of Statistics by Moore, McCabe & Craig - 2023/2024

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams
Using and finding summaries, study notes en practice exams on JoHo WorldSupporter
Quicklinks to fields of study (main tags and taxonomy terms)

Online access to all summaries, study notes en practice exams

Check out: Register with JoHo WorldSupporter: starting page (EN)
Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)

Using and finding summaries, study notes en practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

Starting Pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
Use the menu above every page to go to one of the main starting pages
Tags & Taxonomy: gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
Follow authors or (study) organizations: by following individual users, authors and your study organizations you are likely to discover more relevant study materials.
Search tool : 'quick & dirty'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject. The search tool is also available at the bottom of most pages

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Check out: Why and how to add a WorldSupporter contributions
JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form