![Image](https://www.worldsupporter.org/sites/default/files/styles/medium/public/bundle/wereldbol_summaries_joho_single_boek_1_150x190px_0.png?itok=PgQm9J5z)
Je vertrek voorbereiden of je verzekering afsluiten bij studie, stage of onderzoek in het buitenland
Study or work abroad? check your insurance options with The JoHo Foundation
In dit hoofdstuk staan distributies centraal. Een distributie beschrijft de verdeling van een variabele. Het vertelt ons welke waarden van een variabele bij individuen voorkomen en hoe vaak deze waarden voorkomen. Distributies kunnen numeriek worden beschreven met bijvoorbeeld een gemiddelde of een mediaan. Ook worden in dit hoofdstuk diverse manieren beschreven waarop je distributies grafisch kunt weergeven, bijvoorbeeld via een histogram of een boxplot.
Statistiek is de wetenschap van kennis opdoen op basis van data. Data zijn numerieke (of kwalitatieve) beschrijvingen en gegevens van objecten om te bestuderen. Dit eerste deel gaat in op het omgaan met data. Eerst wordt ingegaan op de verschillende soorten data die we kunnen verzamelen en hoe datasets georganiseerd zijn. Daarna wordt aandacht besteed aan het verwerken van data door naar grafieken te kijken. Grafieken zijn nuttig omdat ze een visueel beeld geven, waarmee patronen in data kunnen worden ontdekt. De volgende stap in het proces van leren van data is het berekenen van numerieke samenvattingen. Hiermee kunnen patronen in de distributie van data worden beschreven. Tot slot maken we de overstap van data samenvattingen naar statistische modellen. Hier wordt uitgelegd wat dichtheidscurves zijn en wordt de normaalverdeling geïntroduceerd. Deze verdelingen spelen een cruciale rol in methoden om conclusies te trekken uit verschillende datasets.
Statistische analyse start met een dataset. Een dataset is een geordende 'bak' met data.
Bij elke dataset hoort bepaalde achtergrondinformatie die helpt bij het interpreteren van de data. Denk hierbij aan de volgende punten:
Voor het verwerken van de data kan een spreadsheet worden gebruikt. Dit kan bijvoorbeeld in Excel. Het is belangrijk om bij de variabele-namen spaties te vermijden, omdat deze in sommige statistische software niet toegestaan zijn. In plaats van een spatie kan een underscore ( _ ) gebruikt worden.
Wanneer we een variabele geschikt willen maken om mee te rekenen, kunnen we de variabele transformeren. Zo kunnen de letter beoordelingen uit het Amerikaanse schoolsysteem omgezet worden in cijfers (A=4, B=3, etc.). Dit kan alleen wanneer het verschil tussen A en B even groot is als bijvoorbeeld het verschil tussen C en D.
Een onderdeel van het goed worden in statistiek is weten welke variabelen belangrijk zijn en hoe deze het beste gemeten kunnen worden. Voor verschillende soorten variabelen kunnen verschillende instrumenten nodig zijn om metingen te verrichten. Bijvoorbeeld een ademtest voor het meten van longcapaciteit, en een enquête om persoonlijkheid te testen. Vaak is voor details van bepaalde metingen kennis nodig van het specifieke studieveld. Zorg er in ieder geval voor dat elke variabele echt meet wat jij wilt dat hij meet. Een slechte keuze van variabelen kan leiden tot misleidende conclusies.
Verkennende data-analyse (exploratory data analysis) houdt in dat de belangrijkste kenmerken van een dataset worden beschreven. De volgende twee strategieën kunnen in dit verband gebruikt worden:
De waarden van een categorische variabele zijn labels voor de categorieën, zoals ‘vrouw’ en ‘man’. De distributie van een categorische variabele laat zien hoeveel van de onderzochte mensen een bepaalde waarde heeft gescoord (count). Dit kan ook door middel van percentages vermeld worden.
Een distributie kan grafisch weergegeven worden door een:
Staafdiagrammen zijn makkelijker te interpreteren en zijn ook flexibeler dan cirkeldiagrammen. Ze kunnen allebei gebruikt worden wanneer je wilt dat mensen in één oogopslag kunnen zien hoe het zit met frequenties van waarden van een variabele.
Stam-en-bladdiagram
Een stam-en-bladdiagram (stemplot) geeft snel een beeld van de vorm van een distributie, terwijl elke waarde in de oorspronkelijke vorm worden toegevoegd. Zo een diagram is het handigst als er sprake is van niet al te veel observaties (die allemaal groter dan nul zijn). Om een stam-en-bladdiagram te maken, dienen de volgende stappen uitgevoerd te worden:
Rug-aan-rugdiagram
Een rug-aan-rugdiagram (back-to-back stemplot) is een variant van de stam-en-bladdiagram. Met zo een diagram kunnen twee gerelateerde distributies vergeleken worden. Zo een diagram maakt gebruik van gemeenschappelijke stammen. Je kunt bijvoorbeeld het gewicht van mannen en vrouwen in een rug-aan-rugdiagram verwerken. De stammen van de gewichten staan dan in het midden en er worden twee lijnen (zowel links als rechts) vanaf de stammen getrokken. Aan de rechterkant kun je dan bijvoorbeeld de bladen van de vrouwen noteren, terwijl je aan de linkerkant de bladen van de mannen opschrijft.
Stam-en-bladdiagrammen en rug-aan-rugdiagrammen zijn niet handig wanneer er een grote dataset gebruikt wordt. Het duurt dan erg lang om elke waarde in het diagram te verwerken en dit ziet er bovendien onoverzichtelijk uit. Dit kan echter opgelost worden door het aantal stammen in een diagram te verdubbelen. Dit kan gedaan worden door:
Bij een histogram worden de waarden van een variabele opgedeeld in groepen. Daarom worden alleen de frequenties of percentages beschreven die bij de groepen horen. Je mag zelf weten hoeveel groepen je maakt, maar de groepen moeten wel van gelijke grootte zijn. Wel is het belangrijk om te weten dat de manier waarop een histogram eruit ziet kan veranderen wanneer de klassen veranderd worden. Het duurt (in vergelijking tot stam-en-bladdiagrammen) langer om histogrammen handmatig te maken. Ook komen de oorspronkelijke datawaarden niet letterlijk voor in een histogram. Dit is juist wel het geval bij stam-en-bladdiagrammen. Om een histogram te maken moeten drie stappen uitgevoerd worden:
Histogrammen en staafdiagrammen lijken op elkaar, maar zijn niet hetzelfde. Bij een staafdiagram staan de staven niet precies tegen elkaar aan, terwijl dit wel het geval is bij een histogram. Bij een histogram gaat het om de tellingen of percentages van verschillende waarden van een variabele. Een staafdiagram vergelijkt de grootte van verschillende items. De horizontale as van een staafdiagram hoeft geen meetschaal te hebben, maar kan bestaan uit labels. Als men wil weten hoeveel studenten er biologie, psychologie of geneeskunde studeren, dan zijn dit categorische variabelen die je op de X-as kunt zetten. In dit geval dient een staafdiagram gemaakt te worden. Als het gaat om een numerieke variabele (bijvoorbeeld IQ, lengte of gewicht), dan dient een histogram gebruikt te worden.
Staafdiagrammen zijn dus handig voor categorische variabelen, terwijl histogrammen van belang zijn voor kwantitatieve variabelen.
Nadat een dataset in een grafiek of diagram verwerkt is, moeten de belangrijkste kenmerken van de distributie onderzocht worden. Het is in dit verband van belang om te kijken naar de volgende zaken:
Het vaststellen van uitbijters gaat niet volgens specifieke regels. Het gaat er juist om dat je zelf een mening vormt over welke scores als afwijkend bestempeld moeten worden. Zoek in ieder geval altijd naar waarden die duidelijk anders zijn dan de meeste waarden; het hoeft dus niet alleen te gaan om extreme observaties binnen een distributie. Daarnaast is het belangrijk om uitbijters te proberen te verklaren. Een uitbijter kan bijvoorbeeld het gevolg zijn van ongewone omstandigheden.
Wanneer data door de tijd heen verzameld wordt, is het een goed idee om de observaties grafisch op volgorde te verwerken. Het gebruik van histogrammen en stam-en-bladdiagrammen kunnen in dit verband misleidend zijn, omdat er sprake kan zijn van systematische veranderingen door de tijd heen.
Een numerieke beschrijving van een distributie begint met een meting van het middelpunt. De meest bekende metingen van het middelpunt zijn het gemiddelde (the mean) en de mediaan (the median). Het gemiddelde gaat ook echt om het vinden van de gemiddelde waarde, terwijl de mediaan gaat over het vinden van de middelste waarde.
Om het gemiddelde (mean) te vinden moeten alle scores opgeteld worden en worden gedeeld door het aantal scores. Als n aantal mensen de scores x1, x2, x3, xn hebben, dan is hun gemiddelde:
Gemiddelde = ( x1+ x2 + x3 + … +xn ) / n.
Een andere notatie is: = 1/n Σ xi. In deze formule staat Σ als Griekse letter voor ‘alles bij elkaar optellen’.
Het nadeel van het gemiddelde is dat deze maat erg gevoelig is voor de invloed van een aantal extreme observaties. Deze extreme scores kunnen uitbijters zijn, maar dat hoeft niet. Omdat het gemiddelde wordt beïnvloed door extreme scores, zeggen we dat het gemiddelde geen robuuste maat (resistant measure) van het middelpunt is. Dat het gemiddelde geen robuuste maat is, blijkt ook uit het feit dat je alleen al één score uit de distributie kunt aanpassen om het gemiddelde te laten veranderen.
De mediaan M is het letterlijke midden van een distributie. De helft van de observaties valt onder de mediaan, terwijl de andere helft zich boven de mediaan bevindt. De mediaan van een distributie kan als volgt gevonden worden:
Als een distributie helemaal symmetrisch is, dan zijn de mediaan en het gemiddelde hetzelfde. In een distributie die afwijkt naar links of rechts, bevindt het gemiddelde zich meer in de staart dan de mediaan. Dit omdat het gemiddelde veel meer door extreme scores wordt beïnvloed. De staart van een distributie bestaat uit extreme scores.
De meest simpele numerieke beschrijving van een distributie moet bestaan uit een maat voor het middelpunt (zoals het gemiddelde en de mediaan), maar ook uit een meting van de spreiding binnen een distributie. We kunnen de spreiding van een distributie beschrijven door verschillende percentielen uit te rekenen. De mediaan deelt de distributie precies in tweeën en daarom zeggen we ook wel dat de mediaan het vijftigste percentiel is. Er is echter nog een kwartiel in de bovenste helft van de data. Er is ook een lager kwartiel in de lagere helft van de data. De kwartielen zorgen ervoor dat de data in vieren gedeeld kan worden; elk kwartiel gaat over een kwart van de data. Kwartielen kunnen als volgt berekend worden:
Het pste percentiel van een distributie is de waarde waaraan p procent van de scores gelijk is of waar p procent van de scores onder liggen.
Om een beschrijving van het middelpunt en de spreiding van een distributie te maken, is het handig om (1)de laagste score, (2) Q1 , (3) M (de mediaan), (4) Q3 en (5) de hoogste score te berekenen. Deze waarden worden bij elkaar ook wel de vijf-getallen-samenvatting genoemd. Deze vijf waarden zijn zichtbaar in een boxplot.
De bekijken van de grootste en de kleinste waarde zegt in principe weinig over de spreiding binnen de data. De afstand tussen de eerste en het derde kwartiel is een meer robuuste maat voor spreiding. Deze afstand wordt de interkwartiele range (interquartile range, IQR) genoemd en wordt als volgt berekend:
Kwartielen en de IQR worden niet beïnvloed door veranderingen in de staart van een distributie. Ze zijn dus behoorlijk robuust. Wel moet gezegd worden dat geen enkele numerieke waarde van spreiding (zoals de IQR) erg handig is om de spreiding van distributies met een afwijking (naar links of rechts) te beschrijven. De twee kanten van een afwijkende distributie hebben namelijk verschillende spreidingen en dus kan één spreidingswaarde niet toereikend zijn. Een afwijking naar links of rechts kan opgemerkt worden door te bekijken hoe ver het eerste kwartiel en de laagste score afliggen van de mediaan (linker staart) en door te kijken naar hoe ver het derde kwartiel van de hoogste score ligt (rechter staart).
Veel vaker dan de vijf-getallen-samenvatting wordt de standaarddeviatie (samen met een maat voor het middelpunt) gebruikt om een beeld van een distributie te krijgen. De standaarddeviatie meet de spreiding door te kijken naar hoe ver observaties van het gemiddelde af liggen.
De afwijkingen van het gemiddelde (xi-) laten zien in welke mate scores van het gemiddelde verschillen. Sommige van deze afwijkingen zullen positief zijn, terwijl andere afwijkingen negatief zullen zijn. De som van afwijkingen van de scores zal daarom altijd nul zijn. Om deze reden worden de afwijkingen van het gemiddelde gekwadrateerd; zo komt de berekening namelijk niet uit op nul. De variantie en de standaarddeviatie zullen groot zijn als scores erg verspreid liggen vanaf het gemiddelde.
De variantie en de standaarddeviatie zullen klein zijn wanneer de scores dichtbij het gemiddelde liggen.
Dezelfde variabele kan vaak gemeten worden door middel van verschillende meeteenheden. Temperatuur kan bijvoorbeeld zowel in Fahrenheit als in Celsius gemeten worden. Gelukkig is het gemakkelijk om meeteenheden om te zetten. Dit omdat een verandering in meeteenheid een lineaire transformatie van de metingen is. Zo een transformatie verandert de vorm van een distributie niet. Als temperatuurmetingen in Fahrenheit zorgen voor een distributie met aan afwijking naar rechts, dan zal dat zo blijven als de waarden omgezet zijn naar Celsius. De spreiding en het middelpunt zullen echter wel veranderen na zo een verandering. Een lineaire transformatie verandert de oorspronkelijke variabele x in een nieuwe variabele (xnew) op basis van de volgende formule:
Het handmatig maken van histogrammen is onhandig. Tegenwoordig gebruiken wetenschappers dan ook vaak computerprogramma’s om histogrammen te maken. Het voordeel van computerprogramma’s is dat je hiermee ook een passende curve kan maken op basis van een histogram. Dit worden dichtheidscurves (density curves) genoemd. Door zo'n curve ‘vloeit’ een histogram als het ware. Gebieden onder de curve staan voor proporties van scores.
De modus van een distributie beschrijft het piekpunt van de curve. Het gaat dus om de plaats waar de curve het hoogst is. Omdat gebieden onder de curve voor proporties staan, is de mediaan het punt dat precies in het midden ligt.
De kwartielen kunnen geschat worden door de curve in ongeveer vier gelijke stukken te verdelen. De IQR is dan de afstand tussen het eerste en het derde kwartiel. Er zijn rekenkundige manieren om de gebieden onder een curve te berekenen. Door deze rekenkundige manieren kunnen we de mediaan en de kwartielen precies berekenen.
Het gemiddelde van een dichtheidscurve is het punt waarop de curve zou balanceren als deze van vast materiaal gemaakt zou zijn. Bij een symmetrische curve liggen de mediaan en het gemiddelde op hetzelfde punt. Bij een afwijkende distributie is dat niet het geval. Bij een curve met een afwijking naar rechts ligt de mediaan iets meer richting de piek van de curve dan het gemiddelde. Het gemiddelde bevindt zich dus meer naar de staart toe. Bij een afwijkende distributie is het lastig om het balanspunt met het blote oog te bepalen. Er zijn rekenkundige manieren om het gemiddelde en de standaarddeviatie van een dichtheidscurve te berekenen. Kortom:
Het gemiddelde van een dichtheidscurve geven we aan met de letter µ. De standaarddeviatie wordt genoteerd aan de hand van het symbool σ. Deze waarden worden benaderd met het steekproefgemiddelde () en de standaarddeviatie (s) die bij deze scores hoort. Normaalverdelingen zijn symmetrisch en unimodaal: ze hebben dus maar één piek. Het veranderen van µ (terwijl de standaarddeviatie onveranderd blijft) zorgt ervoor dat de plaats van de curve op de horizontale as opschuift, terwijl de spreiding hetzelfde blijft. Een curve met een grotere standaarddeviatie is breder en lager. De standaarddeviatie σ is de spreidingsmaat die bij een normaalverdeling hoort. Samen met µ bepaalt σ de vorm van een normaalverdeling.
Waarom zijn normaalverdelingen belangrijk in de statistiek?
Er zijn veel soorten normaalverdelingen, maar ze hebben een aantal gemeenschappelijke kenmerken. Hieronder worden de belangrijkste kenmerken uiteengezet.
De bovenste kenmerken staan samen bekend als de 68-95-99.7 regel. De normaalverdeling met gemiddelde µ en standaarddeviatie σ wordt genoteerd als N(µ,σ). Bij het onderzoek naar de lengte van Nederlandse vrouwen is het bijvoorbeeld mogelijk dat N(1.70,10) wordt gevonden.
Als iemand zestig punten op een test heeft gescoord, weet je niet of dit een hoge of lage score is in vergelijking tot alle andere scores. Het is daarom belangrijk om de waarde te standaardiseren.
Het op precieze wijze berekenen van de proporties onder de normaalverdeling kan door middel van z-tabellen of software.
Wanneer een distributie door middel van een dichtheidscurve wordt beschreven, dan is de cumulatieve proportie het gebied onder de curve dat aan de linkerkant van een bepaalde waarde ligt. Hiermee wordt rekening gehouden worden als je bijvoorbeeld juist alleen de proportie wilt hebben dat zich aan de rechterkant van de waarde bevindt. In dat geval moet je 1- de proportie aan de linkerkant berekenen. De z-tabel kan gebruikt worden om proporties onder de curve te achterhalen. Om dit te doen moeten scores wel eerst gestandaardiseerd worden. Een voorbeeld is dat je wilt weten hoeveel studenten minimaal een score van 820 hadden op een bepaalde test. Het gemiddelde blijkt 1026 te zijn en de standaarddeviatie is 209.
Stam-en-bladdiagrammen en histogrammen word vaak gebruikt om te kijken of een distributie normaal verdeeld is. De normaal kwantiel plot (normal quantile plot) is echter de beste grafische manier om normaliteit te ontdekken. Het is niet praktisch om zo een plot zelf te maken. In de meeste gevallen wordt dan ook software gebruikt. Hieronder wordt een algemeen beeld geschetst van hoe zo een plot handmatig gemaakt kan worden.
In het gebruik van statistiek komen we vaak relaties tussen variabelen tegen. De focus van dit hoofdstuk ligt op het leren hoe deze relaties op grafische en numerieke wijze beschreven kunnen worden. Er wordt gekeken naar grafische beschrijvingen, zoals de scatterplot. Deze geeft de relatie weer tussen twee kwantitatieve variabelen. Daarna kijken we naar numerieke samenvattingen voor deze relaties en grafische en numerieke methoden voor het beschrijven van de relatie tussen twee categorische variabelen. Tot slot wordt nog aandacht besteed aan het onderscheid tussen associatie en causale verbanden.
We gebruiken de term associatie om de relatie tussen twee variabelen te beschrijven. Een voorbeeld is de relatie tussen gewicht en lengte.
Twee variabelen zijn geassocieerd wanneer een waarde op de eerste variabele iets zegt over de waarde op de andere variabele.
Bij het bekijken van de relatie tussen twee variabelen is het doel van de onderzoeker van belang. Probeert de onderzoeker de relatie alleen maar bloot te leggen of hoopt hij of zij te ontdekken dat één van de variabelen variantie in de andere variabele verklaart? In het laatste geval is het handig om onderscheid te maken tussen verklarende (explanatory variables) en responsvariabelen.
Een beschrijving van de belangrijkste eigenschappen van een dataset die gebruikt wordt om de relatie tussen twee variabelen moet in ieder geval de volgende punten bevatten:
Veel onderzoekers zijn geïnteresseerd in hoe verklarende variabelen veranderingen in de responsvariabelen veroorzaken. Veel relaties tussen verklarende variabelen en responsvariabelen gaan echter niet over een directe vorm van causaliteit. Een motivatietest voor een sollicitant voorspelt misschien wel in welke mate deze persoon gemotiveerd zou zijn als hij of zij aangenomen wordt, maar een motivatietest veroorzaakt niet de motivatie om goed te presteren.
Vaak worden verklarende variabelen ook wel onafhankelijke (independent) variabelen genoemd. Responsvariabelen worden ook wel afhankelijke (dependent) variabelen genoemd. Wanneer dit gebeurt, beschrijven deze termen wiskundige ideeën, het zijn geen statistische termen. De principes die het werk onderbouwen blijven hetzelfde:
Grafisch wordt de relatie tussen twee kwantitatieve variabelen vaak in een puntgrafiek (scatterplot) verwerkt. De twee variabelen moeten wel bij dezelfde individuen gemeten worden.
Om een eerste indruk van een puntgrafiek te krijgen, is het handig om:
Het is mogelijk dat er clusters in de puntgrafiek waar te nemen zijn. Dit betekent dat de data verschillende soorten individuen beschrijven.
De relatie tussen twee variabelen kan positief of negatief zijn.
Wanneer er verschillende clusters in een puntgrafiek waar te nemen zijn, is het vaak handig om het patroon van elk cluster te beschrijven. De sterkte van een relatie wordt bepaald door te kijken naar de mate waarin punten in de grafiek bij elkaar in de buurt liggen. Veel spreiding gaat dus samen met een zwakke samenhang. In puntgrafieken zijn vaak lineaire relaties te ontdekken; de punten liggen dan ongeveer op een rechte lijn.
Soms liggen de punten niet op een rechte lijn, maar is er sprake van een curve (een gebogen lijn). Om te zorgen dat er een rechte lijn wordt weergegeven in plaats van een curve, kun je de data: transformeren.
De meest gebruikte transformatie is de log transformatie. Hiervoor is het noodzakelijk dat er alleen positieve waarden zijn. Een logaritme is een wiskundige functie, het is de exponent waarmee een constante waarde moet worden verheven om een bepaald getal als resultaat te krijgen. Op de meeste statistische software en uitgebreide rekenmachines zit een knop waarmee je makkelijk een logaritme kunt toepassen.
Als je een categorische variabele aan de puntgrafiek wilt toevoegen, dan is het handig om verschillende kleuren of symbolen voor elke categorie te gebruiken.
Om een duidelijke relatie in de punten te ontdekken, is het mogelijk om de grafiek als het ware vloeiend te maken (smoothing). Dit kan door middel van software gedaan worden. Er wordt dan een lijn door de punten getrokken. Deze lijn past het beste bij de gevonden x- en y-waarden. Hoe meer vloeiend (smooth) je de lijn maakt, hoe meer de lijn slechts één boog wordt, in plaats van meerdere boogjes.
Puntgrafieken laten het verband zien tussen twee kwantitatieve variabelen. In sommige gevallen is het echter noodzakelijk om het verband te bestuderen tussen een categorische variabele en een kwantitatieve variabele. Dan is het nodig om voor elke categorie apart een vergelijking te maken van de verdelingen.
Kort samengevat kan dus gezegd worden dat een puntgrafiek de vorm, richting en de sterkte van een relatie tussen twee kwantitatieve variabelen beschrijft. Het kan soms misleidend zijn om met het blote oog uitspraken te doen over de sterkte van een relatie. Door het veranderen van de getallen op de assen kan het namelijk lijken alsof er een zeer sterke samenhang is, terwijl dat niet zo hoeft te zijn. Het omgekeerde is overigens ook mogelijk. Om deze reden gebruiken we de correlatiemaat.
Je berekent de correlatie (r) als volgt:
\[ r = \frac{cov(x,y)}{s(x)s(y)} = \frac{ \sum{ ((x_{i} - \bar{x})(y_{i} - \bar{y})) / (N - 1) } }{s(x)s(y)} \]
In bovenstaande berekening betekenen de symbolen het volgende:
Eerst wordt van elke individuele score dus het gemiddelde van de variabele afgetrokken. Daarna wordt dit getal door de bijbehorende standaarddeviatie gedeeld. In feite worden alle scores op X en Y dus gestandaardiseerd.
Als uit een puntgrafiek blijkt dat er sprake is van een lineaire relatie, dan willen we een zo goed mogelijk passende regressielijn ontwerpen die deze relatie beschrijft.
Natuurlijk is er geen enkele rechte lijn die precies door alle punten van de puntgrafiek gaat. Een lijn passend maken (fitting a line) betekent dat we op zoek gaan naar een lijn die het beste in de buurt komt van alle punten. Stel dat Y een responsvariabele op de verticale as is en dat X een verklarende variabele op de horizontale as is. Een rechte lijn die Y aan X verbindt heeft dan de vorm van:
Extrapoleren (extrapolation) is het gebruik van een regressielijn om voorspellingen te doen die ver buiten de onderzochte waarden liggen. Je kunt bijvoorbeeld een puntgrafiek maken op basis van de lengte- en gewichtscores van een groep mensen. De langste persoon kan bijvoorbeeld 1.80 zijn. Als je wilt extrapoleren probeer je te voorspellen hoeveel iemand van bijvoorbeeld 1.95 weegt. Vaak leidt extrapolatie echter tot onbetrouwbare voorspellingen.
We willen dus een lijn vinden waarmee we waarden van Y zo goed mogelijk kunnen voorspellen op basis van waarden van X. De lijn moet zo goed mogelijk bij de punten liggen, maar wel in een verticale richting. Onze voorspellingen (Ŷ) zijn echter nooit perfect, er is altijd een mate van error.
De regressiecoëfficiënt (slope) en intercept van de minste-kwadraten-regressielijn zijn erg afhankelijk van het soort meeteenheden dat is gebruikt. Als niet bekend is welke meeteenheid is gebruikt, valt er aan de hand van de omvang van de slope en intercept niks te concluderen.
Bekijk bij het gebruik van software welke informatie je nodig hebt, en welke informatie niet. Zodra je de statistische methode begrijpt, kun je output uit vrijwel elke software aflezen.
Minste-kwadraten-regressie is de meest gebruikte methode om een regressielijn op data toe te passen. Deze methode heeft de volgende condities:
Het kwadraat van de correlatie, r², zegt ons hoeveel van de variantie in Y wordt verklaard door de regressielijn die hoort bij Y. Als een correlatie -1 of 1 is, dan is de proportie verklaarde variantie precies 1. Dit komt doordat dan alle variantie in Y perfect wordt verklaard door de bijbehorende regressielijn
Ook kan r² gezien worden als de variantie van de voorspelde scores (Ŷ) gedeeld door de variantie van de geobserveerde waarden (Y).
Zelfs met een zo goed mogelijk passende regressielijn, liggen nooit alle punten precies op de lijn. Sommige punten worden dus niet goed voorspeld aan de hand van de regressielijn. De punten die afwijken van de regressielijn worden residuen genoemd.
De relatie tussen twee variabelen kan vaak het beste begrepen worden door ook naar de invloed van andere variabelen te kijken. Op de loer liggende variabelen kunnen een correlatie of een regressie misleidend maken.
Een verborgen variabele (lurking variable) is een variabele die niet in het onderzoek als een verklarende variabele of responsvariabele opgenomen is, maar toch de interpretatie van de relatie tussen deze variabelen kan beïnvloeden.
Een (sterke) relatie tussen een verklarende variabele (X) en een responsvariabele (Y) is geen bewijs voor het feit dat X veranderingen in Y veroorzaakt. Correlatie zegt dus niets over causaliteit. Daarnaast is het zo dat een correlatie die op de gemiddelde scores van individuen gebaseerd is vaak veel hoger is dan een correlatie die gebaseerd is op gewone scores. Ook kan er in sommige gevallen sprake zijn van het restricted-range probleem: de data bevat dan geen informatie over alle mogelijke scores op de verklarende variabele en de responsvariabele. In dat geval zullen de correlatie (r) en de proportie verklaarde variantie (r²) lager uitvallen dan als alle mogelijke scores bij de data betrokken zouden worden.
Onderzoekers maken vaak gebruik van meerdere verklarende variabelen. Een hoge score op een rekentoets (Y) kan bijvoorbeeld samenhangen met aanleg, maar ook met motivatie en opvoeding. Als een onderzoeker meerdere verklarende variabelen gebruikt, dan doet hij of zij aan multipele regressie. Er kan een correlatie tussen alle verklarende variabelen samen en de responsvariabele berekend worden. Deze correlatie wordt een multipele correlatiecoëfficiënt genoemd.
Explanatory data analysis (EDA) is een term voor het analyseren en interpreteren van data met (punt)grafieken en regressie etc. Dit kan ook worden gebruikt voor enorme hoeveelheden data en hele grote databases. In dat geval heet het data mining. Hoe een database wordt gestructureerd en hoe data erin wordt opgeslagen, heet data warehousing. Het is bij data mining belangrijk om efficiënte algoritmes te gebruiken, de data helder te structureren en meer geautomatiseerde analysemethoden te gebruiken.
Puntgrafieken zijn handig als er sprake is van kwantitatieve data. Bij categorische data dienen tweewegtabellen (two-way tables) gebruikt te worden. Voorbeelden van categorische variabelen zijn sekse en beroep. Een tweewegtabel laat zien hoe vaak verschillende combinaties van twee categorische data voorkomen.
Hoeveel mannen en hoeveel vrouwen zijn bijvoorbeeld psycholoog van beroep? En hoeveel mannen en vrouwen zijn dokter? Sekse wordt in het algemeen als rijvariabele in zo een tabel gebruikt, terwijl de andere variabele vaak de kolomvariabele is. Elke combinatie van de twee variabelen vormt een cel. In ons voorbeeld worden twee beroepen en twee geslachten onderzocht. Hier horen dus vier cellen bij. Om de relatie tussen twee categorische variabelen te beschrijven, berekenen we verschillende percentages, bijvoorbeeld het percentage mannen dat dokter is of het percentage vrouwen dat psycholoog is. Bij elkaar opgeteld komen de proporties precies op 1 uit. De verzameling van deze proporties maakt deel uit van de verzamelde distributie (joint distribution) van de twee categorische variabelen.
Naast een verzamelde distributie is het ook mogelijk om marginale distributies weer te geven. Je kunt dan van beide variabelen afzonderlijk een proportie distributie maken. Je kunt dus een distributie maken van sekse (met de proportie mannen en vrouwen die onderzocht zijn) en een distributie maken voor beroep (met de bijbehorende proportie voor dokter en psycholoog).
Een conditionele distributie geeft echter meer informatie dan afzonderlijke marginale distributies. Je kijkt dan bijvoorbeeld naar de proportie doktoren, gegeven dat iemand een man is.
Staafdiagrammen (bar graphs) helpen ons om de relatie tussen twee categorische variabelen te ontdekken. Geen enkele grafische weergave (zoals de puntgrafiek) laat de vorm van de relatie tussen categorische variabelen zien en geen enkele numerieke waarde (zoals de correlatie) is een uiting van de sterkte van de relatie tussen dit soort variabelen.
Tweewegtabellen zijn een compacte manier om veel informatie te tonen, de eerste stap om ze te maken is bepalen welke percentages je wilt tonen.
Een mozaïekplot (mosaic plot) toont een verdeling ingedeeld in meestal vier rechthoeken. Het lijkt qua vormgeving op een staafdiagram, alleen is elke staaf in twee stukken verdeeld, het gedeelte van een populatie dat wel en niet aan een bepaalde variabele voldoet. Een mozaïekplot kan worden gebruikt om zowel marginale als conditionele distributies op een overzichtelijke manier weer te geven.
Zoals bij kwantitatieve variabelen, kunnen op de loer liggende variabelen ook invloed hebben op de relatie tussen categorische variabelen.
Een verband of vergelijking die opgaat voor alle onderzochte groepen kan van richting veranderen wanneer de data wordt gecombineerd tot een enkele groep. Deze verandering van richting wordt het paradox van Simpson genoemd. Dit paradox laat in extreme vorm zien dat relaties misleidend kunnen zijn wanneer er op de loer liggende variabelen aanwezig zijn.
Er kunnen ook driewegtabellen ontworpen worden. Hiervoor is het nodig om uitkomsten samen te stellen voor drie variabelen. Dit proces heet aggregatie (aggregation).
Correlatie zegt alleen iets over de mate waarin twee variabelen samenhangen. Met een (sterke) correlatie kan daarom niets gezegd wordt over causaliteit. Als we zien dat veel faalangst samengaat met lagere schoolcijfers, kunnen we dus (nog) niet concluderen dat faalangst de oorzaak van de lage cijfers is.
Als variabele X variabele Y veroorzaakt, is er sprake van causaliteit (X>Y). Causaliteit kan door middel van experimenten ontdekt worden. In dat geval worden waarden van variabele X gevarieerd om het effect op Y te onderzoeken. Andere factoren worden constant gehouden. Dit om de invloed van op de loer liggende variabelen zo klein mogelijk te houden.
Het is ook mogelijk dat X en Y lijken samen te hangen omdat ze allebei worden beïnvloed door een andere variabele, namelijk variabele Z. Dit wordt ook wel algemene respons (common response) genoemd. Variabele Z is in dit geval dus een op de loer liggende variabele. De waargenomen correlatie tussen X en Y is dus misleidend.
Tot slot kan er sprake zijn van confounding. Twee variabelen zijn ‘confounded’ wanneer hun effecten op een responsvariabele niet van elkaar kunnen worden onderscheiden. Deze ‘confounded’ variabelen kunnen zowel verklarende als op de loer liggende variabelen zijn. De waargenomen correlatie tussen X en Y is dus misleidend als er sprake is van confounding.
Soms is het niet mogelijk om causaliteit te ontdekken door middel van experimenten. Je kunt mensen bijvoorbeeld niet laten roken om te kijken of ze kanker krijgen. Zo een onderzoek zou onethisch zijn. Uit onderzoek blijkt dat rookgedrag vaak wel samengaat met kanker, maar hieruit mag nog niet geconcludeerd worden dat roken kanker veroorzaakt. Dit omdat er geen sprake is geweest van een experiment. Hoe moet causaliteit ontdekt worden als er geen experimenten gedaan kunnen worden?
De onderstaande factoren zijn van belang:
Wanneer we bezig zijn met verkennende data-analyse (exploratory data analysis), is de grafische weergave van distributies belangrijk. Alleen maar deze vorm van data-analyse uitvoeren is echter vaak onvoldoende. Dit omdat opvallende patronen in de data veel verschillende oorzaken kunnen hebben. De validiteit van de conclusies die we uit een data-analyse trekken hangen niet alleen af van de beste methoden van analyse, maar ook van de kwaliteit van de data. Daarom wordt hier begonnen met het behandelen van de bronnen van data. De belangrijkste bronnen zijn experimenten en steekproef-surveys. Deze worden daarom ook behandeld. Statistische technieken voor het produceren van data zijn de basis voor statistische gevolgtrekkingen, die antwoord geven op specifieke vragen. Ook ethische vragen met betrekking tot het ontwerp van studies en de analyse van data worden in dit hoofdstuk behandeld.
Vaak komt het voor dat mensen op basis van hun eigen ervaringen conclusies trekken. Ze hebben dan niet door dat hun ervaringen niet altijd representatief zijn. We zeggen dat mensen in dit soort gevallen uitgaan van anekdotes. Anekdotisch bewijs (anecdotal evidence) is gebaseerd op onze eigen selectie van informatie. Deze selectie is vaak gebaseerd op zaken die op één of andere manier onze aandacht trekken. Deze informatie is dus niet per se representatief.
Soms maken we gebruik van beschikbare data (available data), welke in het verleden voor een bepaald doel verzameld is. We gebruiken deze data dan om een nieuwe vraag te beantwoorden. Beschikbare data kan bijvoorbeeld in de bibliotheek of op het internet gevonden worden. Soms moet er toch data gemaakt worden op specifieke vragen. We gebruiken daarbij experimenten en steekproeven.
Vaak zijn onderzoekers geïnteresseerd in hoe de populatie naar bepaalde zaken kijkt. Hoe denken Amerikanen bijvoorbeeld over abortus? En hoeveel geven studenten uit aan studieboeken? Om dit soort vragen te beantwoorden, worden mensen ondervraagd (sample surveys). Het idee is dat een steekproef representatief is voor een grotere populatie. Sampling houdt in dat we een onderdeel van een groep bestuderen om uitspraken over de hele groep te doen.
Onderzoekers geven de voorkeur aan steekproeven boven een census. Bij een census wordt elk individu uit de gehele populatie onderzocht. Dit is niet efficiënt en bovendien blijkt dat een goed uitgevoerde steekproefprocedure preciezere resultaten geeft dan een census. Dit omdat onderzoekers minder scherp worden als ze ontzettend veel mensen moeten onderzoeken. Ze kunnen dan sneller fouten maken.
Het bestuderen van steekproeven is een vorm van een observationeel onderzoek (observational study). Dit omdat individuen geobserveerd worden en variabelen gemeten worden. De reacties worden niet beïnvloed. Dit in tegenstelling tot een experiment, waarbij opzettelijk een interventie uitgevoerd wordt, om te kijken hoe mensen hierop reageren. Als onderzoeker veroorzaak je dan dus zelf veranderingen in responsen van mensen. Experimenten krijgen vaak de voorkeur boven observationele onderzoeken, omdat we bij experimenten meer controle hebben over de variabelen.
Hoe breder en vindingrijker je omgaat met het zoeken van bronnen voor data, hoe meer er te vinden valt. Bij elke bron is het belangrijk om na te gaan wat de betrouwbaarheid en waarde van het materiaal is en of en hoe het te analyseren valt. Elke bron heeft voor- en nadelen. Bronnen kunnen bijvoorbeeld het volgende zijn:
In veel experimenten in het laboratorium wordt er maar één interventie in een experiment uitgevoerd. Deze interventie wordt dan toegepast op alle experimentele eenheden. Een dergelijke opzet wordt als volgt samengevat:
Wanneer experimenten echter met levende organismen worden gedaan, zijn wat complexere designs handiger. Dit om echt vast te stellen dat de geobserveerde responsen het gevolg zijn van de behandeling en niet van bijvoorbeeld een op de loer liggende variabele.
Soms wordt er in experimenten gebruik gemaakt van een placebo-effect. Mensen denken dan dat een bepaalde behandeling effect heeft gehad, terwijl het effect in werkelijkheid niet toe te schrijven is aan de behandeling. Je kunt mensen bijvoorbeeld een neppilletje geven en zeggen dat deze hun depressie zal verminderen. Het komt regelmatig voor dat mensen na afloop echt het gevoel hebben dat ze minder depressief zijn geworden.
Een controlegroep kan ingezet worden om te kijken of een interventie echt leidt tot specifieke resultaten. De controlegroep krijgt dan geen interventie, terwijl andere groepen dat wel krijgen. Als blijkt dat de groepen die wel een interventie (interventiegroep) gehad hebben anders scoren op de responsvariabele dan de controlegroep, dan komt dit hoogstwaarschijnlijk door de interventie zelf en niet door andere variabelen.
Een onderzoek is partijdig (‘biased’) wanneer deze systematisch bepaalde resultaten geeft die niet het gevolg zijn van echte effecten.
Het design van een experiment beschrijft de responsvariabele(n), de factoren (verklarende variabelen) en hoe het experiment opgezet is. Vergelijkingen tussen groepen maken (en verschillen ontdekken) is voor een onderzoeker het allerbelangrijkst. Een tweede aspect van een experiment gaat over hoe deelnemers worden toegewezen aan condities. Dit kan door subjects met verschillende sekse, leeftijd, gezondheid, etc. met elkaar te matchen. Echter is dit niet geheel adequaat omdat de onderzoeker dit niet van iedereen kan onderzoeken vooraf en er zelfs andere variabelen zijn waar hij vooraf niet aan gedacht had. Daarom wordt er vaak gebruikt gemaakt van het random toewijzen, zodat onderzoeksresultaten echt het gevolg zijn van de interventie en niet van andere factoren tussen groepen, die voor de interventie al aanwezig waren. Randomisatie is vaak het gevolg van toeval. De onderzoeker beoordeelt dan zelf niet in welke groepen mensen terecht moeten komen. Hij of zij kan bijvoorbeeld door middel van tossen mensen toewijzen aan verschillende condities. Randomisatie is het gebruik van toeval om experimentele eenheden in groepen in te delen.
Het randomiseren van vergelijkende experimenten heeft de volgende gevolgen:
Het zou kunnen zijn dat de verschillen in de responsvariabele toch oorzaak zijn van de verschillende proefpersonen in de groepen. Gebruik daarom genoeg proefpersonen om kansvariatie te verminderen.
De belangrijkste principes van experimentele designs zijn:
We hopen dat de verschillen op de responsvariabele per groep verschillen en dat deze zo groot zijn dat ze niet het gevolg kunnen zijn van toevalsverschijnselen. We kunnen met statistische formules achterhalen of de resultaten het gevolg van toeval zijn of hoogstwaarschijnlijk het gevolg van echte effecten zijn. Een gevonden effect dat zo groot is dat deze hoogstwaarschijnlijk niet het gevolg is van toeval, noemen we statistisch significant.
Je kunt software gebruiken om te randomiseren, maar handmatig kan ook gerandomiseerd worden. Er moet dan een tabel met random cijfers gebruikt worden. Een tabel van random cijfers is een lijst van de cijfers 0,1,2,3,4,5,6,7,8,9. Deze getallen:
Een experimenteel design is helemaal gerandomiseerd (completely randomized design) wanneer alle experimentele eenheden random aan alle condities worden toegewezen. Met zo een design kunnen heel wat behandelingen met elkaar vergeleken worden.
Een onderzoek is dubbel-blind (double-blind) wanneer zowel de subjecten zelf als de onderzoekers niet weten welke behandelingen de proefpersonen gekregen hebben. Zo een design zorgt ervoor dat verwachtingen van onderzoekers geen invloed hebben op hun interpretaties van de gevonden resultaten, en dat de onderzoeker iedere proefpersoon op dezelfde manier onderzoekt. Een nadeel van experimenten is het gebrek aan realisme (lack of realism). In dat geval zijn de proefpersonen, de behandelingen of de setting van een experiment geen goede representaties van de condities die de onderzoekers willen onderzoeken. Veel onderzoekers willen hun conclusies generaliseren naar een setting die anders is dan de setting waarin het experiment gedaan is. Het is belangrijk om te onthouden dat statistische analyse van een experiment ons niet kan vertellen hoe goed de resultaten naar andere settings te generaliseren zijn.
Een vrijwillige responssteekproef (voluntary response sample) bestaat uit mensen die zelf kiezen om mee te doen aan een onderzoek. Dit soort steekproeven zijn partijdig (‘biased’), omdat mensen met sterke meningen (vooral negatieve meningen) vaker reageren.
Voorbeeld: Een onderzoeker wil uitzoeken of de bevolking denkt dat er te veel immigranten in Nederland worden toegelaten. Mensen die er helemaal van overtuigd zijn dat er te veel immigranten in Nederland worden toegelaten, reageren veel sneller op zo een onderzoek, dan mensen die daar een neutrale mening over hebben. Om deze reden zijn de verkregen onderzoeksresultaten vaak misleidend. Bij een dergelijke steekproef is randomisatie niet aan de orde.
Om juiste conclusies te trekken, is het van belang om bij het selecteren van steekproeven randomisatietechnieken toe te passen.
Een kanssteekproef (probability sample) is een steekproef die aan de hand van toeval wordt geselecteerd. We moeten weten welke steekproeven mogelijk zijn en welke kans met elke steekproef gepaard gaat. Een kanssteekproef kan simple random zijn, of gestratificeerd.
Een simpele random steekproef (SRS) is een steekproef waar individuen zo zijn gekozen dat elke set van n aantal individuen evenveel kans heeft gehad om voor de steekproef geselecteerd te worden. We selecteren een SRS door alle individuen uit de populatie een label te geven en software (of een tabel met random cijfers) te gebruiken om een steekproef van de gewenste grootte te selecteren. Bij een SRS heeft elk individu evenveel kans om gekozen worden, maar elke set van individuen heeft ook evenveel kans om gekozen te worden.
Een gestratificeerde (stratified) random steekproef wordt vaak gebruikt als er sprake is van een onderzoek naar een grote populatie. Een SRS is dan vaak niet toereikend genoeg. Om een gestratificeerde random steekproef te trekken moet de populatie eerst in groepen van soortgelijke individuen verdeeld worden. Deze groepen noemen we strata. Vervolgens wordt afzonderlijk per stratum een SRS getrokken. Tot slot worden al deze SRS’s gecombineerd tot een volledige steekproef.
Tot slot bestaat er nog het multistage sampling ontwerp. Bij dit ontwerp wordt de steekproef in fasen geselecteerd. Dit design wordt bijvoorbeeld vaak gebruikt bij nationale onderzoeken over huishoudens en werkloosheid. In zo een geval moet je als onderzoeker informatie verzamelen over de werkloosheid in het hele land, maar het is ook belangrijk om per provincie te weten hoe het met de werkloosheid zit. Daarom wordt een land als het ware opgedeeld in gebieden (bijvoorbeeld in termen van provincies) voor een multistage sampling ontwerp. Vervolgens worden er blokken gevormd in elke provincie. Deze blokken zijn voorbeelden van stratificatie (zoals bij een gestratificeerde random steekproef). De blokken kunnen gevormd worden op basis van etniciteit of (een) andere variabele(n). Tot slot wordt er een gestratificeerde steekproef van de blokken in elke provincie getrokken.
Vaak weten we niet precies hoe groot de populatie is waar we een uitspraak over willen doen. Omdat er zelden een lijst beschikbaar is van de hele populatie, is er bij veel steekproeven sprake van onvoldoende dekking.
Onvoldoende dekking (undercoverage): hiervan is sprake als sommige groepen uit de populatie systematisch niet betrokken worden bij een steekproef. Een voorbeeld is dat iemand een onderzoek uitvoert door mensen te bellen. In Amerika heeft 6% van de mensen echter geen telefoon. Zo een onderzoek kan dan ook tot misleidende resultaten leiden.
Een andere bron van misleidende informatie is nonrespons. Er is sprake van nonrespons wanneer een individu, die voor een steekproef geselecteerd is, niet meewerkt aan het onderzoek of als er met hem of haar geen contact opgenomen kan worden.
Vervolgens kan er bij steekproeven ook sprake zijn van responsbias: deelnemers reageren dan bijvoorbeeld niet eerlijk over zaken als drugsgebruik of stelen. Dit omdat niemand ongewenst gedrag wil toegeven.
Tot slot kan de bepaalde verwoording van vragen invloed hebben op de respons in de steekproef. Verwarrende vragen kunnen bijvoorbeeld voor veel bias zorgen.
Onderzoekers kunnen voor ethische dilemma’s komen te staan wanneer ze data proberen te verzamelen. Dit komt vooral vaak voor bij experimenten, omdat deze altijd samengaan met een interventie. Zo kunnen bijvoorbeeld nieuwe medicijnen op een groep mensen uitgeprobeerd worden. De vraag is natuurlijk of dit ethisch gezien acceptabel is. Er is een aantal grondbeginselen waar een onderzoeker zich aan moet houden, of hij of zij nou een sample survey of een experiment uitvoert.
Grondbeginselen van ethiek bij onderzoek:
De organisatie die het onderzoek laat uitvoeren moet een beoordelingscommissie (institutional review board) hebben, die alle geplande onderzoeken van tevoren moet bekijken en goed moet keuren. Dit wordt gedaan om deelnemers te beschermen tegen gevaren.
Alle deelnemers die mee willen doen aan een onderzoek moeten hun goedkeuring voor deelname geven. Dit moet gedaan worden nadat de deelnemers volledig over het onderzoek geïnformeerd zijn en voordat het onderzoek van start gaat.
Individuele data moet vertrouwelijk blijven. Alleen statistische informatie over groepen of individuen mag openbaar gemaakt worden.
Het doel van de beoordelingscommissie is het beschermen van de rechten en de (mentale) gezondheid van deelnemers. De beoordelingscommissie beoordeelt verder dus niet of een onderzoek genoeg waardevolle informatie zal opleveren. De commissie bekijkt het onderzoeksplan en kan vragen om aanpassingen. Ook bekijkt de commissie het goedkeuringsformulier die de deelnemers van de onderzoeker zullen krijgen.
Staan echt alle relevante feiten en mogelijke risico’s op het formulier?
Subjecten moeten van tevoren geïnformeerd worden over hoe het onderzoek gedaan zal worden en of het onderzoek risico’s en gevaren met zich meebrengt. Op basis van deze informatie dienen deelnemers vervolgens hun goedkeuring (consent) op papier te bevestigen.
Vertrouwelijkheid staat niet gelijk aan anonimiteit. Bij vertrouwelijkheid maakt de onderzoeker de namen van de deelnemers niet openbaar, maar heeft hij of zij de namen zelf wel genoteerd voordat het onderzoek van start ging. Van anonimiteit is echter sprake wanneer de onderzoeker zelf ook niet weet wie er precies hebben meegedaan aan het onderzoek. Dit komt in de praktijk maar zelden voor.
Klinische onderzoeken (clinical trials) bestuderen de effectiviteit van medische behandelingen op patiënten. Dit is ethisch gezien een complex onderwerp, omdat medische behandelingen soms meer kwaad verrichten dan goed. Vanwege de belangen van de patiënten, moet goed worden nagedacht over of placebo's of andere middelen worden gebruikt om de resultaten te controleren. De data moet bij alle groepen op dezelfde manier worden gekregen, om uit te kunnen gaan van de betrouwbaarheid van de resultaten.
Mogelijke problemen bij gedragsexperimenten en sociale experimenten zijn:
Als je een munt opgooit (of zelfs als je een SRS trekt) kunnen de resultaten van tevoren voorspeld worden, omdat de uitkomsten zullen variëren wanneer je herhaaldelijk een munt opgooit of herhaaldelijk een steekproef trekt. Kansen beschrijven alleen wat er op lange termijn gebeurt. Veel mensen verwachten dat kansuitkomsten op korte termijn al regelmatig zijn, terwijl dat niet zo is. Als je een munt opgooit, dan is het zo dat er na pas na heel vaak gooien een patroon van 50% kans op munt en 50% kans op kop ontstaat. Op korte termijn is dit vaak nog niet het geval.
Als je een munt opgooit (of zelfs als je een SRS trekt) kunnen de resultaten van tevoren voorspeld worden, omdat de uitkomsten zullen variëren wanneer je herhaaldelijk een munt opgooit of herhaaldelijk een steekproef trekt.
Kansen beschrijven alleen wat er op lange termijn gebeurt. Veel mensen verwachten dat kansuitkomsten op korte termijn al regelmatig zijn, terwijl dat niet zo is. Als je een munt opgooit, dan is het zo dat er na pas na heel vaak gooien een patroon van 50% kans op munt en 50% kans op kop ontstaat. Op korte termijn is dit vaak nog niet het geval.
We noemen een fenomeen random als individuele uitkomsten onzeker zijn, maar er toch een duidelijk uitkomstenpatroon op lange termijn waar te nemen is. Er moet dan wel sprake zijn van vele herhalingen. Denk in dit verband maar aan het opgooien van een munt.
De kans (probability) op een uitkomst van een random fenomeen is de proportie van het aantal keren dat de uitkomst voor zal komen na vele herhalingen. Bij een munt is de bijbehorende proportie voor munt dus 0.5 en voor kop geldt dezelfde proportie. Echte munten hebben echter kleine imperfecties waardoor de kans op kop niet precies 0.5 is. We noemen een munt eerlijk (fair) wanneer de kans op kop precies 0.5 is en de kans op munt ook 0.5.
Met het idee van 'random' (willekeurig) kun je zelf experimenteren, door bijvoorbeeld meerdere malen een munt op te gooien. Je moet dan wel zeer vaak de munt opgooien om een patroon in kansen te ontdekken.
Uitkomsten zijn random als herhalingen van dezelfde handeling onafhankelijk (independent) van elkaar zijn. Dit betekent dat de uitkomst van de eerste keer een munt opgooien geen invloed heeft op de uitkomst van de volgende keer. De kansen beïnvloeden elkaar dus niet.
Het idee van kansberekeningen is empirisch. Simulaties beginnen met een gegeven kans en imiteren daarmee random gebeurtenissen. We kunnen een kans uit het dagelijks leven echter alleen schatten door vele herhalingen van dezelfde handeling te observeren.
Toch zijn simulaties erg handig, omdat het niet handig is om een munt in de praktijk honderden keren op te gooien.
Een kansmodel (probability model) is de beschrijving van een random fenomeen in rekenkundige termen. Een dergelijk model bevat altijd:
Een lijst met alle mogelijke uitkomsten (bij een munt is dat dus de kop of munt).
De kans op elke uitkomst (kop en munt hebben beide een kans van 0.5).
Een steekproefruimte (sample space) (S) van een random fenomeen is de set van alle mogelijke uitkomsten. Bij een munt zijn dit dus kop en munt: S =(kop, munt). S is dus een opsomming van alle mogelijke uitkomsten van een random fenomeen. Een gebeurtenis (event) is een uitkomst (of een set van uitkomsten) van een random fenomeen. Een gebeurtenis is dus een kleiner onderdeel van de steekproefruimte. De kans op twee keer kop bij vier keer een munt werpen is een voorbeeld van een gebeurtenis. Dit wordt als volgt weergegeven:
A = (KKMM, KMKM, KMMK, MKKM, MKMK, MMKK)
Elke kans bevindt zich tussen de 0 en de 1. Als de kans op een gebeurtenis 0 is, betekent dit dat deze gebeurtenis nooit voorkomt. Is de kans op een gebeurtenis 1, dan komt deze juist in alle gevallen voor. Een gebeurtenis met kans 0,5 komt voor de helft van de keren voor.
Alle mogelijke uitkomsten bij elkaar hebben een kans van 1. De optelling van alle mogelijkheden is dus altijd 1. Als er een kans van 0.5 op munt gooien is en een kans van 0.5 op kop gooien is, dan is dit samen 1.
Als twee gebeurtenissen geen gemeenschappelijke uitkomsten hebben, dan is de kans dat de ene of de andere voorkomt de optelling van de kansen op beide uitkomsten. Als de ene gebeurtenis samengaat met een kans van 0.40 en de ander met een kans van 0.25, en de twee kunnen nooit samen voorkomen, dan komt één van de twee dus voor in 65% van de gevallen.
De kans dat een gebeurtenis niet voorkomt, is 1 min maal de kans dat de gebeurtenis wel voorkomt. Als er een kans van 0.4 is dat we munt gooien, dan is er 0.6 kans dat we geen munt gooien.
De bovenstaande feiten zijn gebruikt om een aantal kansregels te formuleren. Deze regels worden hieronder beschreven.
Regel 1: De kans P(A) die bij een gebeurtenis hoort, is 0 ≤ P(A) ≤1. Dit betekent dus dat de kans zich tussen de 0 en 1 bevindt.
Regel 2: Als S de steekproefruimte in een kansmodel is, dan geldt: P(S)=1.
Regel 3: Twee gebeurtenissen A en B zijn disjunct als ze geen gemeenschappelijke uitkomsten zijn en dus nooit samen voor kunnen komen. Als A en B disjunct zijn, geldt: P(A of B)=P(A)+P(B). Dit wordt ook wel de optelregel voor disjuncte gebeurtenissen genoemd.
Regel 4: Het complement van gebeurtenis A is de gebeurtenis waar A niet voorkomt. Het complement vinden we door de kans op gebeurtenis A af te trekken van 1. Dit noemen we ook wel de complementregel.
Om complementen en disjuncte gebeurtenissen beter te begrijpen kan het tekenen van een Venndiagram handig zijn. A en B zijn disjunct wanneer de gebieden elkaar niet overlappen. A en B zijn complementair wanneer gebieden A en B elkaar niet overlappen en er ook geen overige gebieden aanwezig zijn.
De individuele uitkomsten van een random fenomeen zijn altijd disjunct. De optelregel voor disjuncte gebeurtenissen geeft aan hoe we kansen moeten toewijzen aan individuele uitkomsten. Deze uitkomsten kunnen vervolgens opgeteld worden om de kans op gebeurtenissen te beschrijven. Dit idee werkt goed als er een eindig (dus beperkt) aantal uitkomsten is.
Wijs eerst een kans toe aan elke individuele uitkomst. Deze kansen moeten tussen de 0 en 1 zijn.
De kans op een gebeurtenis is de optelling van de kansen voor de uitkomsten die deel uitmaken van de gebeurtenis.
Soms nemen we aan dat er een gelijke kans is op uitkomsten, omdat er een soort balans aanwezig is in een fenomeen. We nemen bijvoorbeeld aan dat er een kans van 0.5 is op het gooien van munt en een kans van 0.5 is op het gooien van kop. Je kunt bijvoorbeeld de kans uitzoeken dat een cijferreeks met een 1,2,3,4,5,6,7,8 of 9 begint. Er is een gelijke kans om al deze cijfers als eerste waar te nemen in een cijferreeks. Met al deze cijfers gaat dus een kans van 1/9 samen. Deze kansen tellen allemaal op tot 1, zoals de kansregel beweert. De kans op het waarnemen van een 6 of hoger als eerste cijfer is 4/9. Omdat de uitkomsten disjunct zijn, mogen de kansen op een 6,7,8 of 9 dus opgeteld worden.
Bij een random fenomeen met k aantal mogelijke uitkomsten (met dezelfde kans), is de kans op een specifieke uitkomst 1/k. De kans op gebeurtenis A is dan: P(A)= telling van de uitkomsten in A/ telling van de uitkomsten in S. Dit is hetzelfde als: telling van uitkomsten in A/k.
In de praktijk gaan veel uitkomsten niet samen met dezelfde kansen. De regel die gebruikt wordt voor een eindig aantal uitkomsten is daarom belangrijker.
De derde kansregel stelt dat als de één of de ander van twee gebeurtenissen, A en B, afzonderlijk van elkaar voorkomen, dat ze dan disjunct genoemd kunnen worden. De vierde kansregel beschrijft dat de kans dat beide gebeurtenissen, A en B, samen voor kunnen komen. Stel dat je een munt twee keer werpt. Je wilt graag weten hoe vaak je munt hebt gegooid. De bijbehorende kansen zijn dus: P(A) de eerste worp geeft munt en P(B) de tweede worp geeft munt. De gebeurtenissen A en B zijn in dit geval niet disjunct, je kunt ze niet optellen. De kans op twee keer munt is niet 0.5 + 0.5 = 1. Ze komen samen voor als beide worpen munt opleveren. Wij willen de kans berekenen dat beide gebeurtenissen (A en B) beide munt opleveren. De twee gebeurtenissen zijn niet disjunct, maar wel onafhankelijk. De kans dat twee keer munt geworpen zal worden is 0.5x0.5=0.25. Dit is dan ook meteen de laatste kansregel:
Regel 5: Twee gebeurtenissen A en B zijn onafhankelijk als het voorkomen van de ene gebeurtenis geen invloed heeft op het voorkomen van de andere gebeurtenis. Als A en B onafhankelijk zijn, dan geldt: P(A en B)= P(A)P(B). Dit noemen we ook wel de vermenigvuldigingsregel voor onafhankelijke gebeurtenissen. Deze regel geldt alleen voor onafhankelijke gebeurtenissen en kan dus niet voor disjuncte gebeurtenissen gebruikt worden. Disjuncte gebeurtenissen kunnen nooit onafhankelijk zijn. Het is belangrijk om disjuncte gebeurtenissen niet te verwarren met onafhankelijke gebeurtenissen. Als A en B onafhankelijk zijn, dan zijn de complementen van A en B ook onafhankelijk.
Steekproefruimten hoeven niet uit cijfers te bestaan. Als je vier keer een munt werpt dan kunnen we de uitkomsten ook in letters beschrijven, bijvoorbeeld: MMKK. Als we het aantal koppen tellen, dan is dat in dit voorbeeld dus X=2. Wanneer een munt viermaal geworpen wordt, dan is er een kans dat er 0,1,2,3 en 4 keer kop wordt gegooid. Als je dan het aantal koppen wilt tellen, dan neemt X dus een andere waarde aan. We noemen X een random variabele.
Een random variabele heeft een numerieke waarde die bij een random fenomeen hoort.
Random variabelen korten we vaak af met hoofdletters, zoals X en Y. Als een random variabele X een random fenomeen beschrijft, dan is de steekproefruimte van S een lijst van de mogelijke uitkomsten van de random variabele.
Er zijn twee manieren om kansen toe te wijzen aan gebeurtenissen: discrete random variabelen en continuerende random variabelen.
Een discrete random variabele X heeft een eindig aantal mogelijke waarden. De kansdistributie van X is een lijst van de waarden en de kansen. Bij de eerste waarde van X hoort een kans, bij de tweede waarde van X hoort een kans enz. De waarden van X noemen we x1, x2, x3… xk. De bijbehorende kansen zijn p1, p2, p3… pk. De kansen moeten aan twee voorwaarden doen:
(1) Elke kans moet tussen de 0 en 1 zijn.
(2) Alle kansen samen (p1+ p2 + p3 +…+ pk) moeten optellen tot 1. De kans op een gebeurtenis kan gevonden worden door de benodigde kansen die bij bepaalde X-waarden horen op te tellen.
Wanneer we een tabel van random cijfers tussen de 0 en 9 gebruiken, dan is het resultaat een discrete random variabele. Er is dan evenveel kans om random 1 van de 10 cijfers te trekken. Het is echter ook denkbaar dat we geïnteresseerd zijn in het trekken van een getal tussen de 0 en 1. Je kunt bijvoorbeeld geïnteresseerd zijn in de vraag hoe groot de kans is dat we iets tussen de 0.3 en 0.7 trekken. Er is oneindig aantal mogelijkheden tussen 0 en 1 en daarom kunnen we niet zomaar een aantal kansen optellen, zoals we dat wel kunnen doen bij discrete random variabelen. We wijzen de kansen bij een continuerende random variabele aan gebeurtenissen toe middels gebieden onder een dichtheidscurve.
Een continue random variabele X kan alle waarden in een interval van getallen aannemen.
De kansdistributie van X wordt beschreven met een dichtheidscurve. De kans op een gebeurtenis is het gebied onder de dichtheidscurve en boven de waarden van X die samengaan met de gebeurtenis.
Alle continue kansdistributies wijzen een kans van 0 toe aan elke individuele uitkomst. De dichtheidscurve die het meest voor continuerende random variabelen worden gebruikt is de Normaalverdeling. Normaalverdelingen worden ook wel kansdistributies genoemd. Als X de N(μ,σ)-distributie heeft, dan is de gestandaardiseerde variabele: z= (x-μ)/σ. Deze gestandaardiseerde variabele heeft een gemiddelde van 0 en een standaard deviatie van 1: N(0,1).
Het gemiddelde van variabele X is een gemiddelde van alle mogelijk waarden van X. Het is echter niet zo dat er een even grote kans moet zijn dat elke uitkomst voorkomt. Het gemiddelde van een kansdistributie beschrijft welke waarde voor een variabele X gevonden zou worden op lange termijn.
Het gemiddelde van een kansdistributie wordt aangeduid met μ. Om onszelf eraan te herinneren dat we praten over het gemiddelde van X (en bijvoorbeeld niet het gemiddelde van een populatie) gebruiken we de notatie μx. Soms wordt het gemiddelde in dit verband ook wel de verwachte waarde van X genoemd. Deze term kan misleidend zijn, aangezien een waarde van X niet per se dichtbij het gemiddelde hoeft te liggen.
Het gemiddelde van een discrete variabele wordt gevonden door alle waarden van X te vermenigvuldigen met alle bijbehorende kansen en deze allemaal op te tellen. Het gemiddelde van een continuerende random variabele wordt gevonden door te kijken naar de bijbehorende dichtheidscurve. Het gemiddelde is het punt waarop de curve balanceert als de curve van vast materiaal gemaakt zou zijn. Het gemiddelde ligt precies in het midden van symmetrische dichtheidscurven, zoals bij normaalverdelingen. De precieze berekening van het gemiddelde van een curve met een afwijking naar links of rechts wordt met ingewikkelde rekenkundige formules uitgevoerd. Ook bij een curve met een afwijking naar links of rechts is het gemiddelde het balanspunt van de curve. Deze is alleen lastiger te ontdekken dan bij een symmetrische curve het geval is.
De wet van grote getallen stelt dat als het aantal observaties stijgt, de waarde van μ benaderd zal worden. Het moet dan wel gaan om onafhankelijke observaties die random uit de populatie getrokken worden. De benaderde waarde zal in de buurt van μ blijven liggen. Deze wet geldt voor elke populatie. De wet van grote getallen stelt dus dat grote steekproeven waarden met zich meebrengen die erg lijken op populatiewaarden.
Stel: we willen weten hoe lang Nederlandse vrouwen tussen de 15 en 25 gemiddeld (μ) zijn. Deze μ is de μx van de random variabele X, die verkregen wordt door een jonge vrouw random te kiezen en haar lengte te meten. Om μ te schatten kiezen we een SRS van jonge vrouwen en gebruiken we het steekproefgemiddelde als schattingsmethode: μ is een parameter en is een statistiek. Statistieken die door middel van steekproeven verkregen worden zijn random variabelen, omdat hun waarden variëren als er opnieuw een steekproef wordt getrokken. De steekproevendistributies van statistieken zijn eigenlijk de kansdistributies van deze random variabelen. Natuurlijk is nooit helemaal gelijk aan μ en verschillende steekproeven geven vaak verschillende statistieken. Waarom is dan toch een goede schatter van het populatiegemiddelde? Het antwoord is dat een foutloze schatter is en dat we de spreiding van kunnen beïnvloeden aan de hand van de grootte van de steekproef. Als we steeds meer mensen onderzoeken, dan is het te garanderen dat zich dichtbij het populatiegemiddelde zal gaan bevinden.
Hoe groot moet een steekproef dan zijn?
Er is geen eenduidig antwoord voor deze vraag. Hoeveel observaties gedaan moeten worden hangt namelijk af van de spreiding van de random uitkomsten. Hoe meer spreiding er in de uitkomsten waarneembaar is, hoe meer observaties nodig zijn om te garanderen dat dichtbij μ zal liggen.
De wet van grote getallen beschrijft wat er op lange termijn gebeurt. Als je vier keer een munt werpt, dan kan het zo zijn dat er vier keer munt uitkomt, terwijl we weten dat er een kans van 0.5 bestaat om munt te gooien. Deze kans van 0.5 uit zich echter nog niet op korte termijn. Dat patroon wordt pas zichtbaar na honderden keren werpen. Vaak verwachten we op korte termijn ook een regelmatig patroon te ontdekken, terwijl dat in werkelijkheid niet gebeurt. Deze verwachting wordt ook wel de wet van kleine getallen genoemd.
Er gelden twee regels voor gemiddelden van random variabelen:
Regel 1: als X een random variabele is en a en b vastgestelde getallen zijn, dan geldt: μa+bX= a+bμx.
Regel 2: als X en Y random variabelen zijn, dan geldt: μx+y= μx+μy.
De variantie is het gemiddelde van de gekwadrateerde afwijkingen (X- μx)² van de variabele tot het gemiddelde (μx). De variantie van een discrete random variabele is handmatig uit te rekenen, terwijl dat voor een continuerende random variabele alleen met lastige rekenkundige formules lukt. De variantie van een discrete random variabele wordt hieronder beschreven.
Voorbeeld:
Je hebt verschillende waarden voor X (X1, X2, X3… Xk) met verschillende bijbehorende kansen (P1+ P2 + P3 +…+ Pk). Het gemiddelde wordt gevonden door elke waarde van X te vermenigvuldigen met elke bijbehorende proportie. Vervolgens moeten alle uitkomsten bij elkaar opgeteld worden. De variantie van X is: σx²= (x1-μx)²p1 +(x2-μx)²p2 + (x3-μx)²p3 + …+ (xk-μx)²pk. De standaard deviatie σx wordt gevonden door de wortel uit de variantie te trekken.
Er gelden drie regels voor varianties en standaarddeviaties van random variabelen.
Regel 1: als X een random variabele is en a en b vastgestelde cijfers zijn, dan geldt: σ2a+bX = b2σ2.
Regel 2: als X en Y onafhankelijke random variabelen zijn, dan geldt: σ²X+Y= σx²+ σy². Ook geldt: σ²X-Y = σ²x+ σ²y. Dit wordt ook wel de optelregel voor varianties van onafhankelijke random variabelen genoemd.
Regel 3: als X en Y een correlatie ρ hebben, dan geldt: σ²X+Y= σx²+ σy²+ 2ρσXσy. Ook geldt: σ²X-Y= σX²+ σY²- 2ρσ ×σy. Dit is de algemene optelregel voor varianties van random variabelen. Om de standaard deviatie te vinden moet de wortel uit de variantie getrokken worden.
Als er twee gebeurtenissen disjunct zijn, dan is de kans op de ene of de andere P (A of B) een optelling van de afzonderlijke kansen: P (A) + P (B). Wat gebeurt er als er meer dan twee gebeurtenissen zijn of als de gebeurtenissen niet disjunct zijn? In dit soort gevallen zijn algemene optelregels van toepassing.
Een unie van een verzameling van gebeurtenissen is de gebeurtenis dat minstens één van de alle gebeurtenissen voorkomt.
Als gebeurtenissen A, B en C disjunct zijn en dus geen uitkomsten met elkaar gemeen hebben, dan geldt: P(één of meer van A, B,C) = P (A) + P (B) + P (C). Deze regel is ook toepasbaar in situaties waarbij sprake is van nog veel meer gebeurtenissen.
De kans op gebeurtenis A of B kan ook anders gevonden worden: P(A of B) = P (A) + P (B) -P(A en B). Als A en B disjunct zijn, dan is de kans op P(A en B) nul. Dit deel van de formule valt in dat geval weg. We houden dan de oorspronkelijke regel voor disjuncte gebeurtenissen over. Deze regel is eerder besproken.
Van een conditionele kans wordt gesproken als we kijken naar de kans op een bepaalde gebeurtenis, gegeven het feit dat een andere gebeurtenis is voorgekomen. Je kunt bijvoorbeeld de vraag stellen hoeveel studenten Psychologie studeren gegeven dat ze man zijn. Een conditionele kans noteren we als P(A|B).
Dit is te vertalen naar de kans op gebeurtenis A, gegeven dat gebeurtenis B voorkomt.
De kans dat gebeurtenissen A en B samen voorkomen wordt uitgerekend met de formule: P(A en B)= P
Voorbeeld
29% van de internetgebruikers downloadt muziek, en 67% van de downloaders maakt het niet uit of de muziek een copyright heeft. Dus het percentage van internetgebruikers die muziek downloadt (gebeurtenis A) en het niet uitmaakt of er copyright op zit (gebeurtenis B) is 67% van 29% oftewel:
Of in statistische termen:
Wanneer de kans op gebeurtenis A groter dan 0 is, dan wordt de conditionele kans van B, gegeven A, gevonden met de formule: P (B | A)= P(A en B)/ P(A)
Voorbeeld
We hebben de tabel:
Leeftijd | Studie |
Voltijd | |
15 - 19 | 0.21 |
20 - 24 | 0.32 |
25 - 35 | 0.10 |
30 of meer | 0.05 |
We willen de kans weten dat een student tussen de 15 en 19 jaar is, gegeven het een voltijd student is. De kans dat een student tussen de 15 en 19 jaar is en voltijd student is 0.21. Dus P ( A en B) = 0.21
Dus de kans dat een student tussen de 15 en 19 jaar is gegeven het een voltijd student te zijn is 31% Als gebeurtenissen A en B onafhankelijk zijn, dan geldt: P(B | A)= P (B).
De intersectie van een verzameling gebeurtenissen is de gebeurtenis waarbij alle gebeurtenissen uit de verzameling voorkomen. De intersectie voor gebeurtenis A, B en C is daarom:
P (A en B en C) = P (A) P (B | A) P (C | A en B). Van belang zijn dus de kans op A, de kans op B gegeven A en de kans op C gegeven A en B.
Voorbeeld
5% van de sporters op de middelbare school blijft op hetzelfde niveau sporten op de universiteit. Van deze is 1,7% van de topsport. 40% van de sporters die doorgaan in universiteit en daarna topsport gaat doen heeft een carrière in sport van meer dan 3 jaar.
Variabelen:
Berekening:
De kans dat A, B, en C voorkomen is:
Dus maar 3 uit ieder 10,000 middelbare school sporten gaan verder op hetzelfde niveau op de universiteit en krijgen een sportcarrière van minimaal 3 jaar.
Stel dat er A1, A2,.., Ak disjuncte gebeurtenissen zijn die allemaal een kans van boven de 0 hebben en samen optellen tot 1. Stel dat C een andere gebeurtenis is waarvan de kans niet 0 of 1 is. In dat geval kan de regel van Bayes toegepast worden:
\[ P(A_{i}|C) = \frac{ P(C|A_{1}) P(A_{1}) }{ P(C|A_{1}) P(A_{1}) + P(C|A_{2}) P(A_{2}) ... P(C|A_{k}) P(A_{k}) } \]
Twee gebeurtenissen A en B met positieve kansen zijn onafhankelijk als: P (B | A) = P (B)
Statistische gevolgtrekking (statistical inference) wordt gebruikt om conclusies over een populatie of proces te trekken op basis van data. Deze data wordt samengevat door middel van toetsen, zoals gemiddelden, proporties en hellingscoëfficiënten van regressielijnen. Er zijn verschillende stappen en mogelijkheden om vanuit data die verkregen is in een steekproef, met behulp van kansberekening een gevolgtrekking te maken, om voorspellingen voor de toekomst te doen.
Als we door middel van een steekproef een conclusie over een bijbehorende populatie willen trekken, dan hebben we het over statistische gevolgtrekkingen (statistical inference).
Sampling variabiliteit houdt in dat de waarde van een statistiek per steekproef zal variëren. Random steekproeven verwijderen vertekening (bias) door een steekproef te trekken op basis van toevalsverschijnselen. Zo een steekproef kan echter wel misleidende resultaten geven, omdat er met elke steekproef andere waarden gepaard gaan. Het blijkt echter zo te zijn dat het trekken van vele random steekproeven (van dezelfde grootte en uit dezelfde populatie) een voorspelbare spreiding per steekproef met zich meebrengt. Statistische gevolgtrekkingen zijn gebaseerd op het idee dat de betrouwbaarheid van steekproeven afhangt van het herhalen van steekproefprocedures. We vragen ons dus af wat er zou gebeuren als we allemaal verschillende steekproeven (van dezelfde grootte) trekken uit een populatie. Om deze vraag te beantwoorden kan het volgende gedaan worden:
Het is in de praktijk te duur om heel veel steekproeven uit dezelfde populatie te trekken. We kunnen dit proces echter wel imiteren door random cijfers te gebruiken. Het gebruik van random cijfers uit een tabel of door middel van computersoftware om kansverschijnselen te imiteren, wordt simulatie genoemd.
De steekproefdistributie (sampling distribution) van een statistiek is de distributie van alle waarden die de statistiek aanneemt in alle mogelijke steekproeven van dezelfde grootte en uit dezelfde populatie. Als deze distributie door middel van een histogram bekeken wordt, dan blijkt het volgende:
Bias kan verminderd worden door steekproeven op random wijze te selecteren. Als we met een lijst van de gehele populatie beginnen, dan zorgt het trekken van een SRS voor zo min mogelijk bias. De waarden van een statistiek die middels een SRS zijn berekend, onder- en overschatten de waarde van de populatieparameter niet op systematische wijze. Grote random steekproeven geven bijna altijd een schatting van een parameter die dicht bij de echte waarde ligt.
De spreiding van een statistiek kan verminderd worden door een grote steekproef te gebruiken. Je kunt de spreiding zo klein maken als je wilt, door een steekproef te selecteren die groot genoeg is. De grootte van de steekproef zegt dus iets over de mate waarin de steekproef representatief is voor de populatieparameter. Resultaten van een steekproef worden vaak gepresenteerd samen met de beschrijving van een zogenaamd foutenmarge. Deze marge beschrijft hoe groot de kans is dat de gevonden statistieken niet representatief zijn voor de populatie.
De spreiding van een statistiek hangt niet af van de grootte van de populatie, zolang de populatie maar minstens 100 keer zo groot is als de steekproef. Het is belangrijk om te onthouden dat een steekproefdistributie alleen laat zien hoe een statistiek varieert door randomisatie. Een steekproefdistributie zegt niets over bias, welke veroorzaakt zou kunnen zijn door onvoldoende dekking of non-respons.
Wanneer data het gevolg is van een random wijze van steekproeven trekken, dan is een toets een random variabele die met kansberekeningen begrepen kan worden.
Tellingen en proporties zijn discrete random variabelen en beschrijven categorische data. De toetsen om kwantitatieve variabelen mee te beschrijven zijn echter continuerend van aard. Voorbeelden zijn het steekproefgemiddelde, percentielen en de standaarddeviatie.
Steekproefgemiddelden worden vaak gebruikt om een algemeen beeld te geven van een steekproef.
Er zijn twee belangrijke feiten als het aankomt op steekproefgemiddelden:
Het steekproefgemiddelde (x̄) is een schatting van het gemiddelde μ van de populatie, net zoals p̂ een schatting is van de populatieproportie p. De steekproefdistributie van x̄ wordt bepaald door (1) het design dat gebruikt wordt om data te verzamelen, (2) de steekproefgrootte n en (3) de populatiedistributie.
Kortom: het steekproefgemiddelde is hetzelfde als het populatiegemiddelde, omdat x̄ als een foutloze voorspeller van μ wordt gezien. De standaarddeviatie van de steekproef is de standaarddeviatie van de populatie gedeeld door de wortel van het aantal deelnemers.
Omdat de waarden van x̄ per steekproef variëren moeten we deze vraag beantwoorden aan de hand van de steekproefdistributie. We weten dat x̄ een foutloze voorspeller van μ is en daarom zullen de waarden van x̄ bij herhaalde steekproeven niet systematisch te hoog of te laag zijn in relatie tot μ. Veel steekproeven zullen een x̄ geven die dichtbij μ ligt als de steekproefdistributie rond de waarde van μ zal liggen. De precisie van de schatting van μ hangt af van de spreiding van de steekproefdistributie.
We hebben tot nu toe het middenpunt en de spreiding van de kansdistributie van x̄ besproken, maar de vorm van deze distributie is nog niet aan de orde geweest. De vorm van de distributie van x̄ hangt af van de vorm van de populatiedistributie. Als de populatiedistributie normaal verdeeld is, dan is de distributie van het steekproefgemiddelde dat ook.
Kortom: als je een grote SRS van n uit welke populatie dan ook trekt (met gemiddelde μ en standaarddeviatie σ), dan zal de steekproefdistributie van het steekproefgemiddelde (x̄) bij benadering
normaalverdeeld zijn: x̄ = N(μ,σ/√n).
Er zijn drie andere feiten die te maken hebben met de centrale limiet theorie:
Een random variabele X is een telling (count) als we tellen hoe vaak een bepaalde uitkomst voorkomt. Je kunt bijvoorbeeld tellen hoe vaak mensen ‘ja’ antwoorden op de vraag of prostitutie legaal moet zijn.
Bij een binomiale distributie hoort een aantal kenmerken:
Voorbeeld:
Het n aantal keer werpen met een munt. Elke keer heb je 0.5 kans op kop of munt. De uitkomsten zijn onafhankelijk van elkaar: als je een keer munt hebt gegooid vergroot dat niet de kans dat je de volgende keer ook munt zult gooien. Als we kop ‘succes’ noemen, dan is p de kans op kop en deze kans blijft hetzelfde als we de volgende keer weer een munt werpen.
Vaak kunnen binomiale kansen berekend worden door middel van software. Het is ook mogelijk om tabel C achterin het boek te raadplegen. Om deze tabel te gebruiken moet de kans op individuele uitkomsten voor de binomiale random variabele X geweten worden.
Wat zijn het gemiddelde (μx) en de standaarddeviatie (σx) van binomiale kansen? Het gemiddelde kunnen we raden. Als Piet 75% van de keren succes heeft, dan is het gemiddelde bij 12 gebeurtenissen 75% van 12, dus 9. Dat is μx wanneer X dus B(12,0.75) is.
Hoeveel procent van de volwassenen is voor abortus? Bij steekproefdistributies willen we vaak schatten wat de proportie p van ‘successen’ in een populatie is. Onze schatter van de steekproefproportie van successen is:
Het feit dat het gemiddelde van p = p̂, zegt dus dat de steekproefproportie een foutloze schatter (unbiased estimator) is van de populatieproportie p. Wanneer een steekproef uit een nieuwe populatie wordt getrokken (met een andere waarde voor de populatieproportie p), dan verandert de steekproefdistributie van p̂ richting de nieuwe waarde van p. De spreiding van p̂ wordt minder als de steekproefgrootte stijgt. De variantie of standaarddeviatie worden dan dus kleiner Dit betekent dat de steekproefproportie van een grote steekproef dicht zal liggen bij de populatiepropotie p.
De steekproefdistributie van een steekproefproportie p̂ is bijna normaal verdeeld. Nu weten we dat de distributie van p̂ een binomiale telling is van steekproefgrootte n. In de praktijk is het zo dat de steekproefproportie p̂, maar ook telling X, bijna normaal verdeeld zijn in grote steekproeven.
Als we een binomiale kansberekening willen maken voor bijvoorbeeld X ≥ 10, dan moet er rekening mee gehouden worden dat het in de praktijk gaat om alle waarden tussen de 9.5 en 10.5. De kans die bij X ≥ 10 hoort, is eigenlijk hetzelfde als de kans die bij X ≥ 10.5 hoort. Er wordt voor de kansberekening daarom uitgegaan van 10.5 in plaats van 10. Dit wordt de continuïteitscorrectie voor de normaalbenadering genoemd.
Om het aantal manieren waarop k aantal successen bij n aantal observaties geschikt kunnen worden uit te rekenen, wordt de binomiale coëfficiënt gebruikt:
De formule voor binomiale coëfficiënten gebruikt de factor notatie (factoral notation). De factor n! voor elk positief getal n is:
Een telling X heeft een binomiale verdeling wanneer deze geproduceerd wordt in een binomiale setting. Als één of meerdere facetten van deze setting niet kloppen, zal de telling X een andere verdeling hebben. We komen vaak tellingen tegen die open zijn, dat wil zeggen dat ze niet gebaseerd zijn op een vast aantal n observaties. In deze situaties kan de Poissonverdeling gebruikt worden. Deze telling representeert het aantal gebeurtenissen (noem deze ‘successen’) die voorkomen in een vastgestelde meetunit, bijvoorbeeld binnen een bepaalde tijd, regio of ruimte. Deze verdeling kan gebruikt worden onder de volgende condities:
Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata. In dit deel zullen in dit verband vooral betrouwbaarheidsintervallen en significantietesten aan de orde komen. Ook gaat het in dit deel alleen over het trekken van statistische gevolgtrekkingen over de populatie als de standaarddeviatie (σ) van de populatie bekend is.
Bij het berekenen van betrouwbaarheidsintervallen proberen we met een bepaalde zekerheid (bijvoorbeeld met een zekerheid van 95%) te stellen dat een populatiewaarde zich tussen twee grenswaarden bevindt. Bij significantietesten is het doel uitzoeken of een bepaalde uitkomst hoogstwaarschijnlijk het gevolg van toeval of van een echt effect is. Als we een therapiemethode voor depressie onderzoeken willen we bijvoorbeeld weten of deze therapie echt effect heeft gehad of dat de vooruitgang bij de deelnemers zo klein is dat er geen echt effect waarneembaar is. Omdat statistische gevolgtrekkingen op steekproevendistributies gebaseerd zijn, wordt vaak gebruik gemaakt van een kansdistributie. We doen bij statistische gevolgtrekkingen alsof de verzamelde data afkomstig is van een random steekproef of een gerandomiseerd experiment.
We weten inmiddels dat x̄ een goede schatter is van μ, maar hoe precies is de schatting? Je kunt bij de eerste steekproef bijvoorbeeld een gemiddelde van 100 vinden, maar hoogstwaarschijnlijk is dit bij de tweede steekproef niet precies hetzelfde. Om te weten hoe precies onze schatting is, hebben we ook een schatting van de spreiding nodig. Als er weinig spreiding is, dan weten we dat gemiddelden van verschillende steekproeven waarschijnlijk erg dicht bij elkaar liggen. Stel: we hebben een populatie met een standaarddeviatie van 4.5. In dat geval:
Het interval 452 - 470 in het bovenstaande voorbeeld wordt het 95% betrouwbaarheidsinterval voor μ genoemd. De meeste betrouwbaarheidsintervallen hebben de vorm van schatting ± foutenmarge. De schatting (x̄ in ons geval) gebruiken we om een onbekende parameter te schatten. De foutenmarge (9 in ons voorbeeld) laat zien hoe zeker we ervan zijn dat onze schatting van de parameter klopt op basis van de grenswaarden. Betrouwbaarheidsintervallen gaan gepaard met twee belangrijke feiten:
Een betrouwbaarheidsniveau gaat samen met een z-waarde. Een bijbehorende z-waarde kan altijd gevonden worden met tabel D achterin het boek. Een 95% betrouwbaarheidsinterval gaat bijvoorbeeld samen met een z van 1.96. Er is een kans van 95% dat x̄ tussen μ-z*(σ/√n) en μ+z*(σ/√n) ligt. Dit is precies hetzelfde als zeggen dat het onbekende populatiegemiddelde μ tussen x̄-z*(σ/√n) en x̄+z*(σ/√n) ligt. De schatter van de onbekende μ is x̄ en de foutenmarge m is: z*(σ/√n). Een korte samenvatting van deze informatie volgt hieronder.
Een hoge betrouwbaarheid is altijd gewenst, maar een klein foutenmarge ook. Een hoge betrouwbaarheid (confidence) zegt dat onze methode bijna altijd juiste antwoorden geeft. Een klein foutenmarge zegt dat we de parameter behoorlijk zeker kunnen schatten. Als een onderzoeker besluit dat de foutenmarge te groot is, dan kan de onderzoeker drie dingen doen:
Een onderzoeker kan ook van tevoren vaststellen wat de foutenmarge mag zijn. Op basis van dat gegeven kan de onderzoeker dan de steekproefgrootte n bepalen. Dit kan met de volgende formule:
Met de gegeven formule voor betrouwbaarheidsintervallen, x̄±z*σ/√n, gaan een aantal waarschuwingen gepaard.
Een significantietoets voeren we uit om geobserveerde data te vergelijken met een vooraf opgestelde hypothese waarvan we de juistheid willen toetsen. Een hypothese is een statement over populatiegegevens (parameters). De uitkomsten van een significantietoets worden weergegeven in de vorm van kansen. We kunnen op basis van de uitkomsten van een significantietoets berekenen hoe groot de kans is dat de gevonden resultaten het gevolg zijn van toeval.
De eerste stap bij het toetsen van significantie is het bedenken van een stelling waar we bewijs tegen hopen te vinden.
Een significantietoets is gebaseerd op een statistiek die een parameter schat. Deze parameter is in de nulhypothese weergegeven. Wanneer de nulhypothese waar is, verwachten we dat deze schatting een waarde aanneemt die dicht bij de parameter uit de nulhypothese ligt. Schattingen van de parameter die ver van de nulhypothese liggen, geven juist bewijs tegen de nulhypothese. Om uit te zoeken hoe ver de schatting van de echte parameter verwijderd is, is het van belang om de schatting te standaardiseren. In de meeste gevallen heeft de teststatistiek de volgende vorm:
Een significantietoets laat zien wat de kans is dat een bepaald resultaat (of een extremer resultaat) gevonden wordt. ‘Extreem’ is in dit geval ‘ver van wat we zouden verwachten als de nulhypothese waar zou zijn’.
We kunnen de berekende p-waarde vergelijken met een vaste waarde waarvan we besloten hebben dat deze beslissend is. Deze waarde geeft van tevoren aan hoeveel bewijs tegen de nulhypothese nodig is om deze te kunnen verwerpen.
De beslissende waarde van p wordt het significantieniveau genoemd. Deze korten we af met α. Als we α=0.05 gebruiken, dan willen we dat data zo’n bewijs tegen de nulhypothese levert dat er maar 5% kans is dat de gevonden resultaten het gevolg zijn van toeval en niet van een echt effect. Bij een alfa (α) van 0.01 willen we nog sterker bewijs om de nulhypothese te verwerpen dan bij een alfa van 0.05. Als een resultaat statistisch significant blijkt te zijn, dan zie je in wetenschappelijke literatuur bijvoorbeeld P<0.01 of P<0.05 staan. (P is de p-waarde).
We hebben meer aan p-waarden dan aan het feit of iets statistisch significant is gebleken, omdat we resultaten zelf significant kunnen maken door grotere p-waarden als beslissend te bestempelen. Een resultaat van p = 0.03 is bijvoorbeeld significant op α=0.05 niveau, maar niet op α=0.01 niveau.
Als de p-waarde even klein of kleiner dan α is, dan zeggen we dat de data statistisch significant op het niveau van α is. Als er een tweezijdige significantietoets uitgevoerd wordt, moet de gevonden p-waarde maal twee gedaan worden om te kijken of deze kleiner dan α is. Bij eenzijdige toetsen hoeft dit niet.
Het uitvoeren van een significantietoets gaat door middel van vier stappen.
Deze bepaalt hoeveel bewijs er tegen de nulhypothese nodig is om deze te verwerpen. Als de p- waarde kleiner of gelijk is aan α, dan moet geconcludeerd worden dat de alternatieve hypothese klopt. Als de p-waarde groter dan α is, dan moet geconcludeerd worden dat de gevonden data niet genoeg bewijs levert om de nulhypothese te verwerpen.
Voor een toets van het populatiegemiddelde μ is de nulhypothese: het ware populatiegemiddelde is gelijk aan μ0. Dus:
Een significantietoets uitvoeren is vaak gemakkelijk en tegenwoordig worden hiervoor vaak computerprogramma’s gebruikt. Het gebruik van een significantietoets is echter niet altijd even gemakkelijk.
Als we een α van 5% bij een significantietoets gebruiken, zijn er we er 95% zeker van dat als de nulhypothese in werkelijkheid verkeerd is, dat we dat dan ook echt zullen vinden. De kans dat een significantietoets met een vaste α de nulhypothese zal afwijzen als de alternatieve hypothese in werkelijkheid juist is, noemen we de power van de toets.
Het berekenen van de power van een test gaat in drie stappen:
Stel je voor dat je als onderzoeker ontdekt dat de power van je toets te klein is. Wat kun je dan doen?
Zelfs significantietoetsen geven niet honderd procent de garantie dat de juiste conclusie over hypothesen worden getrokken. Er kunnen twee soorten fouten gemaakt worden:
Het is niet mogelijk om beide fouten tegelijkertijd te maken. Het significantieniveau α van een significantietoets is de kans op een type-I fout. Bij een α van 5% is er dus 5% kans dat we de nulhypothese onterecht verwerpen. De power van een significantietoets met een vast significantieniveau α om de alternatieve hypothese te detecteren is 1 - de kans op een type-II fout. In de praktijk worden type-I fouten erger gevonden, omdat er dan wordt gedacht dat er een effect is terwijl dat in werkelijkheid helemaal niet het geval is.
In het vorige deel is bij de significantietoets uitgegaan van een bekende σ. In de praktijk kennen we de standaarddeviatie van de populatie vaak niet. De standaarddeviatie van de steekproef (s) wordt dan gebruikt om σ te schatten.
In het vorige deel is bij de significantietoets uitgegaan van een bekende σ. In de praktijk kennen we de standaarddeviatie van de populatie vaak niet. De standaarddeviatie van de steekproef (s) wordt dan gebruikt om σ te schatten.
We gebruiken de t-distributie (in plaats van de z-distributie) wanneer we de standaarddeviatie van de populatie niet kennen.
Als je een SRS van grootte n uit een populatie met een onbekend gemiddelde (μ) trekt, dan is het betrouwbaarheidsinterval (C) voor μ: x̄ ± t*(s/√n). In dit verband is t* de waarde voor de t(n-1) dichtheidscurve met gebied C tussen –t* en t*. In deze formule staat t*(s/√n) voor de foutenmarge.
Het toetsen van significantie met een t-toets lijkt erg op het toetsen van significantie met de z-toets. De t-waarde wordt verkregen door:
Bij een gematchte paren onderzoek vormen deelnemers paren. Vervolgens wordt er naar de onderzoekresultaten binnen elk paar gekeken. De onderzoeker kan bijvoorbeeld twee vormen van therapie uitproberen op de verschillende leden van een paar, om te kijken of er verschillen in uitkomsten optreden. We willen elk lid van een paar dus met het andere lid vergelijken. Er wordt voor elk paar (of elk individu) een verschilscore berekend. Deze scores worden gebruikt als data. Tot slot kunnen met deze informatie t-betrouwbaarheidsintervallen en t-significantietoetsen uitgevoerd worden. Een dergelijk onderzoek wordt vaak ook gedaan als randomisatie niet mogelijk is.
Als er uit een onderzoek geen statistische significantie naar voren komt, betekent dit niet per se dat de nulhypothese waar is. In dat geval kun je gebruik maken van een equivalentietest. Een equivalentietest gebruikt een betrouwbaarheidsinterval (van bijvoorbeeld 90%) om te bewijzen dat het gemiddelde verschil rond 0 is en dat de resultaten acceptabel zijn.
Ga ervan uit dat n de populatie is en μ het gemiddelde. Als het significatieniveau α is en μ binnen een marge van μ0 equivalent moet zijn, en het interval μ0 ± δ is, dan gaat een equivalentietest als volgt:
Ook met behulp van statistische software kun je equivalentietests uitvoeren.
De uitkomsten van de één-steekproef-t-toets zijn helemaal juist wanneer de populatie normaal verdeeld is. In werkelijkheid is geen enkele populatie precies normaal verdeeld. De bruikbaarheid van de t-distributie hangt in de praktijk daarom vooral af van hoe niet-normaal verdeeld een populatie is. Een distributie die niet erg door een niet-normaal verdeelde populatie wordt beïnvloed, wordt robuust genoemd.
Een statistische procedure is robuust wanneer de benodigde kansberekeningen niet worden beïnvloed als niet aan de voorwaarden voor die kansberekeningen wordt voldaan. De voorwaarde voor de t-distributie is dus dat de populatie normaal verdeeld is, wat vaak niet het geval blijkt te zijn. Toch is de t-distributie robuust.
De t-distributie is behoorlijk robuust tegen niet-normaliteit van de populatie, behalve als er uitbijters zijn of als er een sterke afwijking naar links of rechts aanwezig is. Grote steekproeven verbeteren de accuraatheid van de p-waarden wanneer de populatie niet normaal verdeeld is. Dit is waar om de volgende twee redenen:
Wat kun je doen als de populatie niet normaal verdeeld is en er enkel een kleine steekproef genomen kan worden? Om toch de steekproefdistributie van te benaderen, kan gebruik worden gemaakt van een bootstrap. Hierbij doe je alsof de beschikbare populatie de gehele populatie is, en worden er veel kleine steekproeven uit genomen. Elke steekproef heet hierbij een resample. Vervolgens bereken je voor elke steekproef de gemiddelde . De hieruit resulterende distributie behandel je alsof het de steekproefdistributie is, door statistische gevolgtrekking erop toe te passen, kun je ondanks het gebrek aan beschikbare gegevens toch een idee krijgen van hoe een steekproefdistributie eruit zou komen zien.
Het doel van statistische gevolgtrekkingen is vaak het vergelijken van responsen in twee groepen. Elke groep wordt als een aparte steekproef uit een populatie gezien. De responsen van de groepen zijn onafhankelijk van elkaar. Bij twee aparte steekproeven is er geen sprake van gematchte paren en statistische procedures om twee steekproeven te vergelijken verschillen dan ook van statistische procedures om gematchte paren te vergelijken. We bestuderen twee onafhankelijke steekproeven en dus ook twee afzonderlijke populaties. Dezelfde (afhankelijke) variabele wordt gemeten voor beide steekproeven.
De nulhypothese die we willen onderzoeken is of het gemiddelde van beide populaties hetzelfde is, dus: H0: µ1 = µ2. Dit kunnen we uitzoeken door middel van twee steekproeven met gemiddelden x̄1 en x̄2. Deze steekproeven zijn van grootte n1 en n2. De bijbehorende steekproefstandaarddeviaties zijn s1 en s2. We schatten het verschil tussen de populatiegemiddelden dus door middel van het verschil tussen de steekproefgemiddelden. Grote steekproeven zijn nodig om kleine verschillen vast te stellen. De z-toets voor twee steekproeven wordt als volgt gevonden:
De z-toets voor twee steekproeven heeft de N(0,1)-steekproevendistributie. De z-toets voor twee steekproeven wordt echter zelden gebruikt, aangezien de standaarddeviaties van de populaties zelden geweten worden. In de praktijk wordt daarom veel vaker de t-toets voor twee steekproeven gebruikt.
De t-toets voor twee steekproeven wordt als volgt gevonden:
Deze toets heeft echter geen t-distributie. Een t-distributie vervangt de N(0,1)-distributie alleen wanneer een enkele standaarddeviatie (σ) in een z-toets wordt vervangen door een steekproefstandaarddeviatie (s). Bij de t-toets worden echter beide standaarddeviaties (σ1 en σ2) vervangen door s1 en s2. Toch kunnen we de t-distributie voor twee steekproeven benaderen door een benadering met de vrijheidsgraden (k) te maken. We gebruiken deze benadering om waarden voor t* te vinden voor betrouwbaarheidsintervallen en om p-waarden te vinden voor significantietoetsen. Hoe maken we deze benadering? Dit kan op twee manieren. Hieronder zullen die manieren beschreven worden.
Eerst moet de t-toets voor twee steekproeven dus berekend worden. Vervolgens moeten de vrijheidsgraden per steekproef gevonden worden. De kleinste moet gekozen worden om gebruik te maken van tabel D achterin het boek.
Stel: we trekken een SRS van grootte n1 uit een normaalverdeelde populatie met een onbekende µ1 en we trekken ook een onafhankelijke SRS van grootte n2 uit een andere normaalverdeelde populatie met een onbekende µ2. In dat geval wordt het betrouwbaarheidsinterval als volgt berekend:
Wat de standaarddeviaties van de populaties zijn is dus niet van belang voor deze formule.
De t-toets op basis van twee steekproeven is robuuster dan de t-toets die op een enkele steekproef is gebaseerd. Wanneer beide steekproeven van dezelfde grootte zijn en de bijbehorende populaties dezelfde vorm hebben, dan zijn de waarden uit de t-tabel behoorlijk accuraat, als de steekproeven maar minimaal uit 5 deelnemers bestaan. Het is daarom aan te raden om steekproeven van gelijke grootte te kiezen als dat mogelijk is. De t-toets voor twee steekproeven zijn het meest robuust tegen niet-normaliteit in dit geval. Wanneer de twee populatiedistributies verschillende vormen hebben, zijn er grotere steekproeven nodig.
De power van significantietoetsen is vaak klein wanneer gebruik gemaakt wordt van kleine steekproeven. De foutenmarge dat bij de betrouwbaarheidsintervallen hoort is juist erg groot. Ondanks deze moeilijkheden kunnen we toch belangrijke conclusies trekken op basis van kleine steekproeven. De steekproefgrootte heeft invloed op de p-waarde van een toets. Een effect dat niet significant is op een specifiek significantieniveau, kan dat wel worden als een grotere steekproef uit de populatie getrokken wordt.
De vrijheidsgraad (degree of freedom) geeft informatie over hoeveel verschil achter de komma toelaatbaar is. Er bestaan formules om de vrijheidsgraad (df) zelf te berekenen, maar dit kan makkelijker (en betrouwbaarder) worden gedaan met behulp van statistische software. De meeste software heeft een functie of knop waarmee je de degrees of freedom kunt laten berekenen.
We zeggen dan dat we de t-toets poolen. Het resultaat is:
x¯1−x¯2±t∗sps21n1+s22n2−−−−−−−−√
x¯1−x¯2/sp1n1+1n2−−−−−−−−√
Het nadeel van t-toetsen die op twee steekproeven gebaseerd zijn, is dat ze uitgaan van de aanname dat de twee onbekende populatiestandaarddeviaties gelijk aan elkaar zijn. Deze aanname is moeilijk te verifiëren. Het poolen van t-toetsen is daarom risicovol.
Bij het ontwerpen van een onderzoek kun je gebruik maken van software bij ondersteuning in het kiezen van de steekproefgrootte.
Het kiezen van een geschikte steekproefgrootte voor betrouwbaarheidsintervallen vergroot de betrouwbaarheid en minimaliseert de kans op fouten. Om de steekproefgrootte te bepalen, is het volgende noodzakelijk:
De formule wordt dan: m ≤ t* s* /√n
Soortgelijke onderzoeken of pilot studies kunnen dienen om de standaarddeviatie te schatten (s*). Om de foutenmarge zo klein mogelijk te maken, is het beter om een standaarddeviatie een klein beetje groter in te schatten dan wat je verwacht.
De hoeveelheid data die beschikbaar komt, wordt vaak met het voortschrijden van het onderzoek minder dan vooraf ingepland, bijvoorbeeld omdat participanten afhaken. Bij het bepalen van de steekproefgrootte is het handig om hier alvast rekening mee te houden.
De power van een toets meet het vermogen van de toets om afwijkingen van de nulhypothese vast te stellen. De precieze berekening van de power van de t-toets is wat complexer, omdat er rekening gehouden moet worden met het feit dat de standaarddeviatie van de steekproef gebruikt moet worden om de standaarddeviatie van de populatie te schatten. Vaak wordt de precieze power niet berekend, maar wordt er genoegen genomen met een benadering van de power. Deze berekening lijkt erg op die van de z-toets:
De power van de t-toets berekenen voor twee steekproeven volgt dezelfde principes als bij een enkele steekproef. De niet-centrale t distributie (noncentral t-distribution) sluit hierbij aan. Hiervoor is het nodig om de niet-centrale parameter (noncentrality parameter) te bepalen. Software berekent de exacte power van de t-toets, in plaats van een benadering.
Wat te doen als een populatie niet normaal verdeeld is en als de steekproef klein is? Er zijn in dat geval drie alternatieven:
Een voorbeeld van de makkelijkste en meest gebruikte non-parametrische procedure is de tekentest (the sign test). Negeer bij een tekentest de paren met een verschil van nul: het aantal gebeurtenissen n is de telling van de overige paren. De teststatistiek is de telling X van paren met een positief verschil. P-waarden voor X zijn gebaseerd op de binomiale B(n,1/2) distributie. De tekentest toetst in feite de hypothese dat de mediaan van de verschillen nul is. Als p de kans is dat een verschil positief is, dan is p 0.5 als de mediaan 0 is. De nulhypothese is dat de populatiemediaan 0 is en de alternatieve hypothese is dat de populatiemediaan groter dan 0 is. De tekentest maakt geen gebruik van echte verschillen, er wordt alleen gekeken of scores gestegen zijn. Omdat er niet naar inhoudelijke verschillen wordt gekeken, is de tekentest veel minder sterk dan de t-toets.
We willen vaak weten hoe het met proporties in de populatie zit. Hoeveel procent van de Nederlanders is bijvoorbeeld 18 jaar of ouder? Hoeveel procent van de Nederlandse studenten is tegen de legalisering van drugs?
De steekproefproportie (p̂) wordt berekend door een telling (X) te delen door het aantal deelnemers (n).
De steekproefproportie wordt gebruikt om de populatieproportie te schatten. Als de populatie minstens 20 keer zo groot is als de steekproef, dan heeft telling X ongeveer een binomiale distributie B(n,p). Als de steekproefgrootte n erg klein is, moeten we significantietoetsen en betrouwbaarheidsintervallen voor p baseren op de binomiale distributie. Als de steekproef groot is, dan is zowel telling X als de steekproefproportie normaalverdeeld.
We willen vaak weten hoe het met proporties in de populatie zit. Hoeveel procent van de Nederlanders is bijvoorbeeld 18 jaar of ouder? Hoeveel procent van de Nederlandse studenten is tegen de legalisering van drugs?
De steekproefproportie (p̂) wordt berekend door een telling (X) te delen door het aantal deelnemers (n).
De steekproefproportie wordt gebruikt om de populatieproportie te schatten. Als de populatie minstens 20 keer zo groot is als de steekproef, dan heeft telling X ongeveer een binomiale distributie B(n,p). Als de steekproefgrootte n erg klein is, moeten we significantietoetsen en betrouwbaarheidsintervallen voor p baseren op de binomiale distributie. Als de steekproef groot is, dan is zowel telling X als de steekproefproportie normaalverdeeld.
De onbekende populatieproportie p wordt dus geschat aan de hand van de steekproefproportie p̂=X/n. In deze formule staat X voor het aantal successen.
Als de steekproefgrootte groot genoeg is, dan is p̂ bijna normaalverdeeld met een gemiddelde van p en een standaarddeviatie van √( p(1-p)/n ). Dit betekent dat in 95% van de gevallen de p binnen twee √( p(1-p)/n ) ligt.
De standaardfout van is de wortel uit p̂(1-p̂)/n.
De foutenmarge voor betrouwbaarheidsinterval C is m = z * SEp̂. In deze formule is z* de waarde voor de standaard normaalverdeelde curve met gebied C tussen –z* en z*.
Een benaderd betrouwbaarheidsinterval voor p is p̂±m. Dit interval moet gebruikt worden voor 90%, 95% of 99% intervallen en wanneer het aantal successen en niet-successen allebei minstens 15 zijn. Voor een voorbeeld zie bladzijde 470.
Uit onderzoek blijkt dat betrouwbaarheidsintervallen die op steekproeven gebaseerd zijn die minder dan 15 deelnemers hebben, vaak niet accuraat zijn. Wanneer dit het geval is, kan een simpele aanpassing aan het betrouwbaarheidsinterval effectief zijn.
De plus vier regel om een populatieproportie te schatten is: p-golf= X+2/n+4. Dit wordt ook wel de plus vier schatting genoemd. Het betrouwbaarheidsinterval is gebaseerd op de z-toets die verkregen wordt door de plus vier schatting te standaardiseren. De distributie van de plus vier schatting is bijna normaalverdeeld met gemiddelde p en standaarddeviatie √(p(1-p) / (n + 4)). Om een betrouwbaarheidsinterval te krijgen schatten we p met p-golf.
Om de standaardfout van p-golf te vinden, moet eerst p-golf(1-p-golf)/n+4 berekend worden. Vervolgens moet de wortel uit deze uitkomst getrokken worden.
De foutenmarge voor betrouwbaarheidsinterval C is: m = z * SEp-golf, waarbij z* de waarde voor de standaard normaalverdeelde dichtheidscurve is met gebied C tussen –z* en z*.
Het benaderde betrouwbaarheidsinterval C van p is p-golf ± m. Dit interval dient gebruikt te worden voor 90%, 95% of 99% intervallen als de steekproef minstens uit 10 deelnemers bestaat.
Stel: je trekt een SRS van grootte n uit een grote populatie met een onbekende proportie p van successen. Om de nulhypothese te toetsen dat de proportie uit de nulhypothese klopt, maken we gebruik van de volgende berekening:
Eerst berekenen we p̂ - p0.
Vervolgens berekenen we p0(1- p0)/n. Uit deze uitkomst trekken we de wortel.
Tot slot delen we de eerste berekening door de tweede berekening. De uitkomst is een z-toets.
Als de populatie niet minstens 20 keer zo groot als de steekproef is, dan dient deze procedure niet gebruikt te worden. Als een steekproef groot is, dan heeft de bijbehorende significantietoets een hoge power. Dit zorgt ervoor dat zelfs een klein effect vastgesteld kan worden. Als een steekproef erg klein is, dan kunnen belangrijke verschillen over het hoofd gezien worden.
Een betrouwbaarheidsinterval geeft altijd meer informatie dan de uitkomst van een significantietoets. We gebruiken in de praktijk zelden significantietoetsen voor een enkele proportie, omdat het in de echte wereld zelden voorkomt dat er een precieze p0 bestaat die we willen toetsen. Uit data van vroegere grote steekproeven kan soms de waarde van p0 afgeleid worden.
Als we aan de hand van een vaststaande foutenmarge een bijbehorende steekproefgrootte moeten kiezen, gebruiken we de volgende formule: N = (z*/m)² p*(1-p*).
De foutenmarge hangt af van z*,p̂ en n. Omdat we de waarde van p̂ niet kennen totdat we de data verzameld hebben, moeten we raden wat deze waarde is om de waarde in onze berekeningen te kunnen gebruiken. Deze geraden waarde noemen we p*. De waarde kan op twee manieren gevonden worden:
Gebruik een steekproefschatting die voortvloeit uit eerdere, soortgelijke onderzoeken.
Gebruik p* = 0.5. Omdat de foutenmarge het grootst is als p̂ 0.5 is, geeft deze keuze een steekproefgrootte die iets groter is dan wat we daadwerkelijk nodig hebben.
Als we p* gekozen hebben en een foutenmarge hebben vastgesteld, kunnen we de benodigde steekproefgrootte berekenen met de volgende formule: N = 1/4(z*/m)²
In deze formule is z* de kritische waarde voor betrouwbaarheid C en p* is de geraden waarde voor de proportie van successen in de toekomstige steekproef. De foutenmarge zal kleiner of gelijk aan m zijn als p* 0.5 gekozen wordt. De waarde van de verkregen n is niet erg gevoelig voor de keuze van p*, als deze maar dichtbij de 0.5 ligt. Als de waarde van p kleiner dan 0.3 of groter dan 0.7 is, dan kan het gebruik van p*=0.5 leiden tot het gebruik van een steekproefgrootte die veel groter uitvalt dan gewenst is.
In de praktijk willen we vaak twee proporties (die gepaard gaan met verschillende groepen) vergelijken. De twee groepen die we vergelijken noemen we ‘populatie 1’ en ‘populatie 2’. De twee populatieproporties noemen we p1 en p2. De data bestaan uit twee afzonderlijke random geselecteerde steekproeven met grootte n1 voor de eerste populatie en grootte n2 voor de tweede populatie. De proportie successen in elke steekproef schat de corresponderende populatieproportie.
De steekproefproportie voor de eerste steekproef is p̂1 = X1/n1.
De steekproefproportie van de tweede steekproef is p̂2 = X2/n2.
Om de twee populaties te vergelijken, gebruiken we het verschil tussen de twee steekproefproporties: D=p̂1 - p̂2. D staat voor ‘difference’.
Als de twee steekproeven groot zijn, dan is de steekproevendistributie van D normaalverdeeld. Proporties worden door middel van z-toetsen met elkaar vergeleken. De eerste stap is het vaststellen van het gemiddelde en de standaarddeviatie van D:
µD = p1- p2.
σ²D= p1(1-p1)/ n1+ p2(1-p2)/ n2.
De standaarddeviatie kan gevonden worden door de wortel uit de variantie van D te trekken.
Een kleine aanpassing van steekproefproporties kan de accuraatheid van betrouwbaarheidsintervallen sterk verbeteren. De plus vier schattingen van twee populatieproporties zijn:
p1-golf= X1 +1/ n1 +2 en p2-golf= X2 +1/ n2 +2.
Het geschatte verschil tussen de populaties is: D-golf = p1-golf-p2-golf.
De standaarddeviatie van D-golf wordt gevonden door eerst p1(1- p1)/(n1+2)+ p2(1- p2)/(n2+2) uit te rekenen. Vervolgens moet de wortel uit de uitkomst getrokken worden.
De standaardfout van D-golf wordt gevonden door eerst p1 golf(1-p1 golf)/(n1+2)+ p2 golf(1-p2 golf)/(n2+2) uit te rekenen. Daarna moet de wortel uit deze uitkomst getrokken worden.
De foutenmarge is: m=z*SED-golf. In deze formule is z* de waarde van de normaalverdeelde curve met gebied C tussen –z* en z*.
Een benaderd betrouwbaarheidsinterval C voor p1 - p2= D - golf ± m. Deze formule dient gebruikt te worden voor betrouwbaarheidsintervallen van 90%, 95% en 99% en als beide steekproeven minimaal uit 5 observaties bestaan.
Om een betrouwbaarheidsinterval voor p1-p2 te berekenen, gebruiken we niet de standaarddeviatie van de populatie (want deze is onbekend), maar de standaarddeviatie van de steekproeven. Dit resulteert in de standaardfout.
De standaardfout van D (SED) wordt gevonden door eerst p̂1(1- p̂1 )/n1+p̂2(1- p̂2 )/n2 uit te rekenen. Uit deze uitkomst moet vervolgens de wortel getrokken worden.
De foutenmarge voor het betrouwbaarheidsinterval is: m = z * SED. In deze formule is z* de waarde van de normaalverdeelde curve met gebied C tussen –z* en z*. Een benaderd betrouwbaarheidsinterval C voor p1-p2= D±m. Deze formule dient gebruikt te worden voor betrouwbaarheidsintervallen van 90%, 95% en 99% en als het aantal successen en niet-successen in elke steekproef minstens 10 is.
We geven de voorkeur aan het berekenen van betrouwbaarheidsintervallen voor D, maar in sommige gevallen worden ook significantietoetsen voor D uitgevoerd. De nulhypothese is dan dat de twee populatieproporties hetzelfde zijn. We standaardiseren D = p̂1 - p̂2 als volgt:
σD= p1(1-p1)/ n1+ p2(1-p2)/ n2. Vervolgens moet de wortel uit de deze uitkomst getrokken worden. Als de steekproeven groot zijn, dan zal het gestandaardiseerde verschil ongeveer een gemiddelde van 0 en een standaarddeviatie van 1 hebben: N(0,1).
We schatten de waarde van p door middel van de algemene proportie van successen in de twee steekproeven: p̂ = X1+X2/n1+n1. De schatter van p wordt de gepoolde schatter genoemd, omdat deze de informatie van beide steekproeven combineert. Om deze gepoolde schatter te vinden moet allereerst SEDP =p̂1(1- p̂1)(1/n1+1/n2) berekend worden. Vervolgens moet de wortel uit het resultaat getrokken worden.
Bij een significantietoets voor het toetsen van proporties, geldt: H0:p1=p2.
De z-toets wordt gevonden aan de hand van de formule z = p̂1 -p̂2 / SEDP. Vervolgens moet deze z-toets opgezocht worden in de z-tabel om een p-waarde te vinden en deze te gebruiken om de nulhypothese te behouden of af te wijzen.
Het relatieve risico (RR) is een ratio van beide steekproefproporties. Als onze steekproefproporties p̂1 en p̂2 zijn, dan wordt RR gevonden door de steekproefproporties door elkaar te delen: RR=p̂1/ p̂2.
In dit hoofdstuk zal uitgelegd worden hoe twee of meer populaties vergeleken moeten worden wanneer de responsvariabele twee of meer categorieën heeft. Ook zal uitgelegd worden hoe onderzocht kan worden of twee categorische variabelen onafhankelijk zijn. Eerst zal worden uitgelegd hoe wat de basisgedachten zijn achter gevolgtrekkingen bij tweewegtabellen, vervolgens zal worden uitgelegd wat goodness of fit inhoudt.
Het is mogelijk om de samenhang tussen twee categorische variabelen uit te zoeken. Denk in dit verband maar eens aan geslacht (man/vrouw) en het hebben van een rijbewijs (ja/nee). De variabelen kunnen in een tweewegtabel gezet worden met twee rijen en twee kolommen. De kolommen staan voor onafhankelijke steekproeven uit verschillende populaties. Er zijn c aantal distributies voor de rijvariabele, één voor elke populatie.
De nulhypothese stelt dat er geen samenhang tussen twee categorische variabelen bestaat. Deze hypothese zegt dus eigenlijk dat de c-distributies van elke rijvariabele hetzelfde zijn.
De alternatieve hypothese stelt dat er sprake is van samenhang tussen de twee variabelen. In de alternatieve hypothese wordt echter geen richting aangegeven. Deze hypothese zegt dus dat de distributies niet allemaal gelijk zijn.
Naast een tweewegtabel kan ook een staafdiagram of mozaïekplot worden gebruikt om de variabelen weer te geven. Een staafdiagram heeft per variabele twee balkjes, waarvan een staaf weergeeft welk percentage wel aan de variabele voldoet, en waarvan de andere staaf weergeeft welk percentage niet aan de variabele voldoet. Een mozaïekplot bestaat uit vier rechthoeken, waarbij ook per variabele wordt weergegeven welk percentage van de populatie wel en niet aan de variabele voldoet.
Om de nulhypothese over de rxc (rij x kolom) informatie te toetsen, vergelijken we de geobserveerde celtellingen met de verwachte celtellingen. Omdat het om een tweewegtabel gaat, zijn er in totaal vier cellen.
Om de nulhypothese te toetsen moet een chi-kwadraattoets berekend worden, dit gebeurt als volgt:
Als de verwachte tellingen en de geobserveerde tellingen erg verschillend zijn, zal er een grote chi-kwadraat toets gevonden worden. Grote waarden van X2 geven bewijs tegen de nulhypothese. Om een p-waarde te vinden gaan we aan de gang met de chi-kwadraatdistributie. Zoals de t-distributies zijn vrijheidsgraden ook belangrijk voor chi-kwadraatdistributies. Er kunnen alleen maar positieve chi-kwadraat toetsen verkregen worden op basis van onderzoeksdata. De chi-kwadraatdistributie heeft een afwijking naar rechts.
Als de nulhypothese waar is, dan heeft X2 een distributie met (r-1)(c-1) vrijheidsgraden. De p-waarde kan gevonden worden door de berekende chi-kwadraattoets op te zoeken in de chi-tabel en te kijken tussen welke p-waarden deze ligt.
De chi-kwadraattoets kan dus in het kort als volgt uitgevoerd worden:
Een z-toets uitvoeren op basis van dezelfde onderzoeksdata geeft dezelfde resultaten als een chi-kwadraat toets. Het voordeel van een z-toets is echter dat we zowel eenzijdig als tweezijdig kunnen toetsen, terwijl we met de chi-kwadraat toets alleen tweezijdig kunnen toetsen. Het voordeel van de chi-kwadraat toets is dat er meer dan twee populaties met elkaar vergeleken kunnen worden.
De chi-kwadraattoets kan in twee situaties uitgevoerd worden: (1) als meerdere populaties vergeleken moeten worden en (2) als onafhankelijkheid getoetst moet worden.
Bij het onafhankelijkheidsmodel is er dus sprake van een enkele steekproef. De kolomtotalen en rijtotalen zijn random variabelen. De totale steekproefgrootte n wordt door de onderzoeker gekozen, de kolom- en rijsommen zijn pas bekend nadat de data zijn verzameld.
Voor het 'vergelijken van populaties model' daarentegen, is er een steekproef voor elk van twee of meer populaties. De kolomsommen zijn de steekproefgroottes die geselecteerd zijn tijdens het ontwerpen van het onderzoek.
De nulhypothese in beide modellen stelt dat er geen relatie is tussen de kolomvariabele en de rijvariabele. Gelukkig is de test voor de hypothese van ‘geen relatie’ hetzelfde voor beide modellen: de Chi-kwadraattoets. Er zijn ook statistische modellen die gerelateerd zijn aan de Chi-kwadraattoets, die het mogelijk maken om drieweg- of meerwegtabellen te analyseren.
Data voor n aantal observaties van een categorische variabele met k aantal mogelijke uitkomsten worden genoteerd als n1, n2, n3 … nk observaties in k aantal cellen. De bijbehorende nulhypothese gaat over de kansen p1, p2, p3 … pk voor alle mogelijke uitkomsten. Voor elke cel moet het totale aantal observaties (n) vermenigvuldigd worden met de kans die gebruikt wordt om de verwachte tellingen te berekenen:
Met deze chi-kwadraat goodness of fit test kun je meten hoeveel de verkregen resultaten verschillen van de verwachte resultaten.
In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele. We gaan hierbij uit van de regressielijn ŷ= b0+ b1x. In dit vervolg proberen we echter uit te zoeken in hoeverre een berekende regressielijn een schatting is van de ware regressielijn die bij de populatie hoort. De regressielijn die bij de populatie hoort noteren we als β0+ β1x. In deze formule staat β0 voor het intercept en β1 voor de regressiecoëfficiënt. Deze waarden worden geschat aan de hand van b0 en b1.
Simpele lineaire regressie wordt gebruikt om de relatie tussen een responsvariabele (y) en een verklarende variabele (x) te onderzoeken. We verwachten dat verschillende waarden van x samen zullen gaan met verschillende waarden van y. Stel: we willen de verandering in bloeddruk vastleggen voor twee experimentele groepen. De ene groep krijgt een echt medicijn en de andere groep krijgt een placebo. De behandeling (placebo of echt medicijn) kunnen we dan zien als een verklarende variabele en bloeddruk is dan de responsvariabele.
De gemiddelde verandering in bloeddruk kan verschillend zijn in de twee populaties. Deze gemiddelden noemen we µ1 en µ2.
Individuele veranderingen in bloeddruk variëren binnen elke populatie volgens de normaalverdeling. Dit betekent dat de meeste mensen binnen een groep ongeveer dezelfde bloeddruk hebben, terwijl een beperkt aantal mensen extreem afwijkt van de rest. Er wordt vanuit gegaan dat de standaarddeviaties van de populaties gelijk zijn.
Bij lineaire regressie kan de verklarende variabele (x) veel verschillende waarden aannemen. Je kunt bijvoorbeeld verschillende hoeveelheden van calcium geven aan verschillende groepen deelnemers. Deze waarden van x kunnen we zien als subpopulaties:
Het statistische model voor simpele lineaire regressie gaat er vanuit dat voor elke waarde van x de geobserveerde waarden van y normaal verdeeld zijn met een gemiddelde dat van x afhangt. We gebruiken het symbool µy om deze gemiddelden aan te geven. De gemiddelden µy kunnen veranderen als x volgens een vast patroon verandert. Bij simpele lineaire regressie gaan we er vanuit dat alle gemiddelden op een lijn liggen die gebaseerd is op x-waarden.
Kort samengevat is er bij simpele lineaire regressie sprake van:
Verandering van de gemiddelden van y wanneer x verandert. Alle gemiddelden liggen op een lijn. Daarom geldt: µy= β0+ β1x. Dit is de regressielijn van de populatie.
Individuele waarden van y (op basis van dezelfde x) variëren volgens de normaalverdeling. Deze normaalverdelingen hebben allemaal dezelfde standaarddeviatie.
De regressielijn die we vinden is nooit perfect als het gaat om het voorspellen van y-waarden op basis van x-waarden. Daarom geldt:
Data = fit+residu.
Het fit-gedeelte bestaat uit de subpopulatie-gemiddelden die gevonden worden door middel van µy= β0+ β1x.
Het residu-gedeelte staat voor de afwijkingen van de data vanaf de lijn die staat voor de populatiegemiddelden. We gaan ervan uit dat deze afwijkingen normaalverdeeld zijn en standaarddeviatie σ hebben. We gebruiken de Griekse letter ε als we het over het residu-gedeelte hebben. De ε-waarden kunnen gezien worden als ‘ruis’: het deel van de data dat niet verklaard kan worden met de regressielijn. Hierdoor zullen punten in een puntenwolk nooit helemaal op een rechte lijn liggen.
Het model voor simpele lineaire regressie gaat gepaard met de volgende feiten:
Gegeven n aantal observaties van x en y, geldt: (x1,y1), (x2,y2),…, (xn,yn).
De geobserveerde respons (yi) gaat samen met verklaarde en onverklaarde elementen: yi = β0 + β1xi + εi. In deze formule is β0+ β1xi de gemiddelde respons wanneer x=xi. De afwijkingen (εi) zijn onafhankelijk en normaalverdeeld. Ze hebben een gemiddelde van 0 en standaarddeviatie σ. De parameters van het model zijn dus: β0, β1 en σ.
Zoals eerder gezegd willen we de regressielijn die we op basis van een steekproef gevonden hebben, gebruiken om een regressielijn te maken voor de populatie. De regressielijn voor een steekproef is: ŷ = b0+ b1x. In deel B was al uitgelegd hoe b0 en b1 gevonden kunnen worden:
b1= r(sy/ sx). In deze formule staat r voor de correlatie tussen y en x. De rest van de formule maakt gebruik van de standaarddeviaties van y en x.
b0= : ȳ - b1x̄ .
Het residu is: ei =(geobserveerde y-waarde) – (voorspelde y-waarde). Dit is hetzelfde als: yi - ŷi. Dit is weer hetzelfde als: yi -b0- b1xi. De residuen (ei) corresponderen met de residuen εi. De ei tellen op tot 0 en de εi komen uit een populatie met een gemiddelde van 0.
Dan moet nog de laatste parameter (σ) berekend worden. Deze parameter meet in hoeverre y-waarden van de populatie-regressielijn afwijken. Om deze parameter te berekenen, maken we daarom gebruik van residuen.
Eerst berekenen we de variantie van de regressielijn die bij de populatie hoort (σ²). Dit doen we door de variantie van de steekproef te gebruiken: s²= (Σe²i)/ n-2. Dit is hetzelfde als: Σ(yi - ŷi)²/n- 2.
Vervolgens trekken we de wortel uit de variantie (s²) om σ te vinden.
Betrouwbaarheidsintervallen kunnen in het algemeen gevonden worden middels de formule: schatting ± t*SEschatting. Voor β0 en β1 kunnen afzonderlijk betrouwbaarheidsintervallen berekend worden:
Het betrouwbaarheidsinterval voor het intercept β0 is: b0± t*SEb0.
Het betrouwbaarheidsinterval voor de regressiecoëfficiënt β1 is: b1± t*SEb1.
In deze formules is t* de waarde voor t(n-2) met gebied C tussen –t* en t*.
De nulhypothese stelt dat de regressiecoëfficiënt in de populatie 0 is (β1 =0). Om deze hypothese te toetsen maken we gebruik van een toetsstatistiek:
t = b1/SEb1. De vrijheidsgraden zijn n-2. De nulhypothese kan zowel eenzijdig als tweezijdig getoetst worden.
Als er tweezijdig getoetst wordt, moet de p-waarde uit de t-tabel eerst vermenigvuldigd worden om een conclusie te trekken over de nulhypothese. Als blijkt dat de alternatieve hypothese aangenomen moet worden, dan betekent dit dat er een relatie bestaat tussen x en y in de populatie. Let op: een hele kleine p-waarde zegt bij deze significantietoets niet dat we een sterke relatie hebben gevonden tussen x en y. Er mag dan alleen geconcludeerd worden dat er sprake is van een relatie, maar de grootte van de relatie is niet duidelijk.
Voor elke waarde van x (ook wel x* genoemd) is de gemiddelde y-waarde in de subpopulatie:
µy= b0+ b1x*.
Het bijbehorende betrouwbaarheidsinterval voor de gemiddelde respons is: µy± t*SEu. In deze formule is t* de waarde voor t(n-2) met gebied C tussen –t* en t*.
Soms willen we een waarde van een y voorspellen die ver buiten de y-waarden in de data ligt. In dat geval maken we gebruik van een voorspellingsinterval. Eerst moet een steekproef van n aantal observaties getrokken worden. Vervolgens moet het 95% betrouwbaarheidsinterval berekend worden voor een specifieke x-waarde (x*).
Het voorspellingsinterval voor een toekomstige observatie van y uit de subpopulatie van x* is: ŷ ± t*SEŷ In deze formule staat t* voor de waarde van t(n-2) met gebied C tussen –t* en t*.
Door middel van analyse van variantie (ANOVA) kunnen we uitzoeken in hoeverre data verklaard kan worden door het deel dat past bij de regressielijn (fit) en het deel dat daarvan afwijkt (residuen). De totale variatie in y wordt uitgedrukt door de afwijkingen yi – ȳ. Als deze afwijkingen allemaal 0 zouden zijn, dan zouden alle observaties gelijk zijn en zou er geen variatie in y zijn. Er zijn twee redenen waarom yi niet gelijk is aan het gemiddelde van y:
De waarden van yi gaan samen met verschillende waarden van x en zijn daarom verschillend.
Individuele observaties zullen van het gemiddelde verschillen, omdat er variatie is binnen de subpopulatie die bij een specifieke x-waarde hoort.
Zoals eerder gezegd maken we bij lineaire regressie gebruik van het model data= fit + residuen. Als we hier in termen van variantie naar gaan kijken, dan wordt dit:
SST = SSM + SSE. Hierbij staat SST voor de totale variantie, SSM voor de variantie die door het model wordt verklaard en SSE voor de variantie die niet door het model wordt verklaard (error). SS staat voor´sum of squares´.
SST wordt berekend met de formule: Σ(yi-ȳ)²
SSM wordt berekend met de formule: Σ(ŷi-ȳ)²
SSE wordt berekend met de formule: Σ(yi- ŷi)²
Daarnaast is het ook mogelijk om voor elke bron van variantie de bijbehorende vrijheidsgraden uit te rekenen. Er wordt uitgegaan van een soortgelijke formule: DFT = DFM + DFE. In deze formule staat DF voor vrijheidsgraden (degrees of freedom). De vrijheidsgraden die bij het totaal, het model en de error horen, worden als volgt berekend:
DFT = n-1.
DFM = 1
DFE = n-2.
We vinden de MS voor elke bron van variantie door de SS te delen door de bijbehorende vrijheidsgraden (DF). Als de MS voor het totaal gevonden moet worden, dan wordt dat dus gedaan door SST/ DFT te berekenen. De proportie verklaarde variantie (r²) kan als volgt gevonden worden:
De nulhypothese dat de regressiecoëfficiënt (β1) van de populatie 0 is, kunnen we aan de hand van de F-toets toetsen. De nulhypothese zegt dus eigenlijk dat x en y in de populatie geen lineaire samenhang vertonen. De F-toets vinden we als volgt:
Als de nulhypothese waar is, dan heeft deze F-toets een distributie van 1 vrijheidsgraad in de noemer en n-2 vrijheidsgraden in de teller: F(1,n-2). Deze vrijheidsgraden horen bij MSM en MSE. Net zoals er veel t-toetsen bestaan, zijn er ook veel F-toetsen. Als de regressiecoëfficiënt niet 0 is (β1 ≠ 0 ), dan is MSM relatief groot ten opzichte van MSE. Dit betekent dat grote waarden van F bewijs tegen de nulhypothese geven. We toetsen in dit verband altijd tweezijdig.
De informatie die tot nu toe gegeven is, wordt kort in de onderstaande ANOVA-tabel samengevat:
Bron (source) | Vrijheidsgraden (df) | SS (Sum of squares) | MS (Mean Square) | F |
Model | 1 | SSmodel | SSM / dfM | MSM / MSE |
Error | n - 2 | SSerror | SSE / dfE | |
Totaal | n - 1 | SStotaal | SST / dfT |
We kunnen ook toetsen of er een correlatie tussen twee variabelen in de populatie bestaat. We gebruiken de Griekse letter ρ om de populatiecorrelatie weer te geven. Als x en y beide normaalverdeeld zijn, dan is ρ=0 hetzelfde als zeggen dat x en y in de populatie onafhankelijk zijn. Dit betekent dat er geen enkele relatie tussen x en y in de populatie bestaat. De alternatieve hypothese kan zowel eenzijdig als tweezijdig geformuleerd worden. Om de hypothese ρ = 0 te toetsen, maken we gebruik van de volgende stappen om de t-toets te berekenen:
Eerst vermenigvuldigen we de correlatie (r) met de wortel uit n - 2. In deze formule staat n voor de grootte van de steekproef.
Vervolgens delen we dit getal door de wortel uit 1- r².
De gevonden t-toets is hetzelfde als de t-toets die we zouden vinden als we de hypothese β1=0 hadden getoetst. Dit betekent dat als er geen correlatie in de populatie bestaat, dat de regressiecoëfficiënt 0 is.
In veel gevallen wordt variabele y beïnvloed door meerdere verklarende variabelen. Stel bijvoorbeeld dat je cijfers op een rekentoets wilt voorspellen. In dat geval kun je kijken naar verschillende verklarende variabelen: IQ, motivatie en werkhouding.
Het simpele lineaire regressiemodel gaat ervan uit dat het gemiddelde van responsvariabele y afhangt van x. De bijbehorende formule is: µy= β0+ β1x. Als we echter gebruik maken van meerdere predictoren, dan gebruiken we een andere formule:
Bij simpele lineaire regressie is er maar één voorspeller, waardoor de observaties samengevat kunnen worden als (xi, yi). Als er meerdere voorspellers zijn, dan maken we gebruik van de notatie xij. In dit verband staat j voor de j-ste variabele en i voor het i-ste geval (case).
We combineren de regressielijn voor de populatie en de aannames over variantie om een meervoudig lineair regressiemodel te maken. De subpopulatie-gemiddelden gaan over het fit-gedeelte van het model. Het residu-gedeelte gaat over de variantie die niet verklaard kan worden aan de hand van het model. We gebruiken ook hier het symbool ε als we het hebben over in hoeverre een individuele observatie afwijkt van het subpopulatie-gemiddelde. Deze afwijkingen zijn normaal verdeeld met een gemiddelde van 0 en een onbekende standaarddeviatie die niet afhangt van de waarden van x. Dit zijn aannames die we kunnen verifiëren door de residuen te bestuderen.
Het statistische model voor multipele lineaire regressie is: yi= β0+ β1xi1 + β2xi2+ … + βpxip + εi.
De gemiddelde respons µy is een lineaire functie van alle verklarende variabelen: µy = β0+ β1x1 + β2x2+ … + βpxp.
De afwijkingen (εi) zijn normaalverdeeld met een gemiddelde van 0 en standaarddeviatie σ. We kunnen dit samenvatten als N(0,σ). De parameters van het model zijn β0+ β1, β2, …, βp en σ.
Zoals bij simpele lineaire regressie maken we bij het schatten van parameters (β) gebruik van steekproefwaarden (b). De details zijn echter wat ingewikkelder.
b0, b1, b2,…, bp worden gebruikt om β0, β1, β2,… βp te schatten.
Voor de i-ste observatie is de voorspelde y (ŷi): b0+ b1xi1 + b2xi2 + …+ bpxip.
Het i-ste residu (ei) is het verschil tussen de geobserveerde en de voorspelde respons= yi- ŷi. Dit is hetzelfde als: yi-b0 - b1xi1 - b2xi2 - …- bpxip.
Vervolgens moet de volgende formule gebruikt worden: Σ(yi-b0 - b1xi1 - b2xi2 - …- bpxip)². Dit betekent dat alle residuen gekwadrateerd moeten worden om niet op 0 uit te komen.
De parameter σ² wordt geschat aan de hand van s². We vinden s² als volgt: Σe²i /n-p-1. In deze formule staat n voor de steekproefgrootte en p voor het aantal predictoren. Om de standaarddeviatie (σ) te vinden trekken we de wortel uit s².
We kunnen betrouwbaarheidsintervallen berekenen en significantietoetsen uitvoeren voor de regressiecoëfficiënten van alle predictoren (βj).
Het betrouwbaarheidsinterval voor βj is bj± t*SEbj. In deze formule is SEbj de standaardfout van bj en t* is de waarde van t(n-p-1).
Om de hypothese βj=0 te toetsen berekenen we een t-toets:
t = bj/ SEbj. De alternatieve hypothese kan zowel eenzijdig als tweezijdig zijn.
Omdat er sprake is van meerdere predictoren bij multipele regressie, worden de vrijheidsgraden voor SSM en SSE op een andere manier berekend:
Bron (source) | Vrijheidsgraden (df) | SS (Sum of squares) | MS (Mean Square) | F |
Model | p (aantal predictoren) | Σ(ŷi - ȳ)² | SSM / dfM | MSM / MSE |
Error | n - p - 1 | Σ(ŷi - ȳi)² | SSE / dfE | |
Totaal | n - 1 | Σ(ŷi - y - ȳ)² | SST / dfT |
Bij multipele regressie kunnen we de nulhypothese toetsen die stelt dat alle regressiecoëfficiënten 0 zijn: β1= β2=…= βp= 0. De nulhypothese zegt dus eigenlijk dat geen van de x-variabelen een voorspeller is van de y-variabele.
De alternatieve hypothese stelt dat tenminste één van de regressiecoëfficiënten (βj) niet 0 is. Deze hypothese zegt eigenlijk dat minstens één van de x-variabelen een voorspeller is van de y-variabele.
De F-toets wordt als volgt gevonden: MSM/MSE. Als de nulhypothese waar is, dan heeft F de F(p, n-p-1) distributie.
Tot slot kunnen we berekenen hoeveel variantie in y wordt verklaard door alle verklarende variabelen tezamen: R² = SSM/SST.
Eenweg ANOVA verwijst naar een techniek die wordt gebruikt als er maar één manier is om de populaties te classificeren. Een voorbeeld is onderzoeken of overlevingskansen verschillen voor drie verschillende longkankerbehandelingen.
Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake zijn van variabiliteit. Omdat dit normaal is, richten we ons voor het vergelijken van populaties of behandelingen op gemiddelden. We gebruiken ANOVA (analyse van variantie) om verschillende gemiddelden met elkaar te vergelijken. Er bestaan twee ANOVA-technieken:
Eenweg ANOVA: deze techniek wordt gebruikt als er maar één manier is om de populaties te classificeren. Een voorbeeld is onderzoeken of overlevingskansen verschillen voor drie verschillende longkankerbehandelingen.
Tweeweg ANOVA: in dit geval is er meer dan één manier om populaties te classificeren. Je kunt bijvoorbeeld vergelijken in hoeverre drie temperaturen (0, 20 en 30 graden) gecombineerd met drie hoeveelheden van licht (geen, gemiddeld en fel licht) invloed hebben op het onthouden van woordjes die een onderzoeker opleest. In het volgende hoofdstuk zal dieper ingegaan worden op tweeweg ANOVA.
Met eenweg ANOVA vergelijken we dus verschillende populatiegemiddelden. We trekken daarvoor een random steekproef (SRS) uit elke populatie en we gebruiken deze data om de nulhypothese te toetsen. We kunnen eenweg ANOVA ook gebruiken bij gerandomiseerde experimenten. De nulhypothese stelt dat alle populatiegemiddelden hetzelfde zijn. In ons voorbeeld stelt de nulhypothese dus dat alle drie de longkankerbehandelingen gepaard gaan met dezelfde overlevingskans.
We gebruiken de term ‘groepen’ als we het hebben over de verschillende populaties waarvan we willen onderzoeken of ze hetzelfde gemiddelde hebben. Om uitspraken over het gemiddelde van de populaties te doen, maken we gebruik van steekproefgemiddelden. Als blijkt dat er een verschil in gemiddelden bestaat, dan vragen we ons af of dat door toeval of door een echt effect komt. Door middel van ANOVA kunnen we uitzoeken of geobserveerde verschillen tussen steekproefgemiddelden statistisch significant zijn. We kunnen hier uitspraken over doen door te kijken naar de (1) steekproefgroottes, (2) de spreiding binnen de groepen en (3) de steekproefgemiddelden.
De twee-steekproeven t-toets (In het Engels: two-sample t-test) vergelijkt de gemiddelden van twee populaties. De aanname is hierbij dat beide populaties dezelfde (maar een onbekende) standaarddeviatie hebben en dat de steekproefgroottes gelijk zijn. Hoe vinden we deze t-toets?
Trek eerst het gemiddelde van y van het gemiddelde van x af.
Vermenigvuldig de gepoolde standaarddeviatie (sp) met de wortel uit 1/n+1/n.
Deel tot slot de uitkomst uit de eerste stap door de uitkomst van de tweede stap.
Als we de gevonden t-toets (t²) kwadrateren geeft dit precies hetzelfde resultaat als de ANOVA F-toets voor twee populaties. Een formule om t² direct uit te rekenen is:
De teller in de bovenstaande formule meet de spreiding tussen de groepen. De teller kan groot zijn door een groot verschil tussen de steekproefgemiddelden of omdat de steekproeven groot zijn. De noemer meet de spreiding binnen de groepen. Als deze erg klein is, dan zorgt dit voor een grote t²-waarde. Dit maakt de kans op een significant resultaat groter.
Eenweg ANOVA gaat uit van de nulhypothese die stelt dat alle populatiegemiddelden gelijk zijn. De alternatieve hypothese stelt dat niet alle populatiegemiddelden gelijk zijn. De alternatieve hypothese klopt dus al als één populatiegemiddelde afwijkt van de rest. De alternatieve hypothese wordt echter ook aangenomen als alle populatiegemiddelden van elkaar verschillen.
Als we de nulhypothese hebben afgewezen, moeten we daarom nog uitzoeken waar de verschillen tussen populatiegemiddelden precies liggen. Dit kunnen we doen aan de hand van contrasten. Als we drie populaties (1,2,3) onderzoeken, kunnen we contrasten maken waarin we stellen dat ze allemaal verschillend zijn of dat populatie 1 van populatie 2 en populatie 3 verschilt. We kunnen ook een contrast maken waarin we stellen dat populatie 2 van populatie 1 en populatie 3 verschilt. Zo zijn er verschillende contrasten mogelijk. De contrasten moeten geformuleerd worden voordat het onderzoek uitgevoerd wordt.
Als we geen vermoeden hebben over de specifieke relatie tussen de populatiegemiddelden, dan kunnen we gebruik maken van multipele vergelijkingen (multiple-comparisons). We onderzoeken in dat geval welke paren van populatiegemiddelden significant van elkaar verschillen.
Ook dit model gaat uit van een situatie waarbij een deel van de data bij het model past en een deel onverklaard blijft (data= fit+residuen).
Het eenweg ANOVA-model is: xij = μi + εij. In deze formule staat i voor 1,..., I. Bij eenweg ANOVA staat I voor het aantal populaties. Daarnaast staat j voor 1,..., ni. In dit verband staat ni voor de steekproef van de i-ste populatie. Tot slot staat xij voor de j-ste observatie van de i-ste populatie. De I populatiegemiddelden zijn het fit-gedeelde van het model en worden uitgedrukt in μi. De overige spreiding (εij) staat gelijk aan het residu-gedeelte. Dit zijn de afwijkingen van de populatiegemiddelden.
εij komen uit een normaalverdeelde distributie met een onbekende standaarddeviatie en een gemiddelde van 0: N(0,σ).
De (onbekende) parameters van het model zijn de populatiegemiddelden (μ1, μ2,…, μI) en de standaarddeviatie (σ) waarvan aangenomen wordt dat deze voor alle populaties gelijk is. Er wordt dus vanuit gegaan dat steekproefgroottes verschillend kunnen zijn, terwijl alle populaties dezelfde standaarddeviatie hebben.
ANOVA is niet erg gevoelig voor ongelijke standaarddeviaties tussen de groepen. Als de grootste standaarddeviatie minder dan twee keer de kleinste standaarddeviatie is, dan zal gebruik van ANOVA leiden tot (bijna) correcte resultaten. Wanneer we aannemen dat de populatiestandaarddeviaties gelijk zijn, dan is elke steekproefstandaarddeviatie een schatter van σ. We voegen deze steekproefstandaarddeviaties samen om tot een gepoolde schatter van σ te komen:
De gepoolde steekproefvariantie is: s²p = (n1 -1) s²1 + (n2 -1) s²2 +… +(nI -1) s²I / (n1 -1) + (n2 -1) +… + (nI -1).
Vervolgens moet de wortel uit de uitkomst getrokken worden om tot de gepoolde standaarddeviatie (sp) te komen. Dit is een schatter van σ. Als de steekproefgroottes gelijk zijn, dan is s²p het gemiddelde van de steekproefvarianties van alle groepen. Let op: sp is niet het gemiddelde van de steekproefstandaarddeviaties.
De verschillende populatiegemiddelden worden vergeleken en getoetst aan de hand van de F-toets. Hierbij wordt gekeken naar de spreiding binnen en tussen de groepen. We willen dat de tussen-groepenvariantie groot is en dat de binnen-groepenvariantie klein is. Dat maakt de kans op het vinden van significante resultaten groter.
De nulhypothese is dat alle groepsgemiddelden gelijk zijn: μ1 = μ2 = …= μI. I staat zoals eerder gezegd voor het aantal populaties. De alternatieve hypothese zegt dat niet alle gemiddelden (μi) gelijk aan elkaar zijn. We maakten tot nu toe vooral gebruik van het model data= fit+ residuen. Nu kunnen we dat vertalen naar: totaal = tussen-groepen + binnen-groepen.
SS (sums of squares) laat zien hoeveel spreiding er in de data aanwezig is. De verschillende SS-elementen worden berekend door de gekwadrateerde afwijkingen op te tellen. Bij eenweg ANOVA zijn er drie bronnen van spreiding: (1) groepen, (2) error en (3) totaal. We zeggen daarom ook wel:
Als de nulhypothese waar is, zijn er geen verschillen tussen de populatiegemiddelden. MSG/MSE is ongeveer 1 als de nulhypothese waar is. De waarde wordt groter dan 1 als de alternatieve hypothese klopt. We maken voor het toetsen van de nulhypothese gebruik van:
Het aantal vrijheidsgraden uit de teller. Voor eenweg ANOVA zijn de vrijheidsgraden uit de teller I-1. Het aantal vrijheidsgraden uit de noemer: N-I.
Samengevat geeft dit: F(I-1, N-I). De F-toets voor ANOVA is behoorlijk robuust als het gaat om non-normaliteit en ongelijke varianties binnen de groepen.
Bron (source) | Vrijheidsgraden (df) | SS (Sum of Squares) | MS (Mean Square) | F |
Groepen | I - 1 | Σgroepen ni(x̄i - x̄)² | SSG / dfG | MSG / MSE |
Error | N - I | Σgroepen (ni -1)si² | SSE / dfE | |
Total | N - 1 | Σobs(xij – x̄)² |
waarbij I = aantal groepen en N = steekproefgrootte.
Tot slot kan bij eenweg ANOVA de coëfficiënt van bepaling (coefficient of determination) uitgerekend worden: R²= SSG/SST.
De ANOVA F-toets geeft ons alleen antwoord op de vraag of de gevonden verschillen tussen groepsgemiddelden significant zijn. Een kleine p-waarde zegt ons dat de groepsgemiddelden niet allemaal hetzelfde zijn. We weten dan echter nog niet welke groepsgemiddelden van elkaar verschillen. Wanneer de nulhypothese bij eenweg ANOVA afgewezen is, moeten er aanvullende analyses uitgevoerd worden om te kijken waar de verschillen precies liggen. Middels contrasten kunnen we de groepen met elkaar vergelijken. We kunnen dan bijvoorbeeld de eerste twee populaties vergelijken met de derde populatie.
We kunnen er ook voor kiezen om de eerste populatie te vergelijken met de tweede en de derde populatie. We kunnen dus verschillende alternatieve hypothesen formuleren in de vorm van contrasten.
Om een contrast over de populatie te toetsen, maken we gebruik van een steekproefcontrast. We kijken dan naar steekproefgemiddelden in plaats van populatiegemiddelden.
Een contrast is een combinatie van populatiegemiddelden in de vorm van Ψ= Σ aiμi. De coëfficiënten van ai tellen op tot 0.
Het corresponderende steekproefcontrast is: c = Σ aix̄i.
De standaardfout van c is: SEc = sp √ Σai²/ ni.
We toetsen de nulhypothese Ψ = 0. We gebruiken hiervoor de t-toets: t = c/SEc. Ook maken we gebruik van de vrijheidsgraden voor de error (DFE) die gepaard gaan met sp. De alternatieve hypothese kan zowel eenzijdig als tweezijdig zijn.
Het betrouwbaarheidsinterval voor Ψ is c ± t*SEc.
Multipele vergelijkingen (multiple comparisons) worden uitgevoerd nadat de nulhypothese voor eenweg ANOVA verworpen is. Aan de hand van deze vergelijkingen worden steeds paren van populaties met elkaar vergeleken.
Om multipele vergelijkingen te toetsen, berekenen we t-toetsen:
tij = x̄ii – x̄ij. / (sp √ 1/ ni + 1/ nj). Als de uitkomst van tij groter of gelijk aan t** is, dan mogen we concluderen dat de populatiegemiddelden uit één paar verschillend zijn. Als dat niet het geval is, dan zijn de populatiegemiddelden gelijk aan elkaar. De waarde van t** hangt af van de statistische meettechniek die we gebruiken.
We kunnen, om t** te bepalen, bijvoorbeeld kiezen voor de ‘least-significant differences method’ (LSD) waarbij gebruik gemaakt wordt van een alfa van 5%. Dit kan gevaarlijk zijn; vooral als er veel populaties onderzocht worden. Dit komt doordat de kans op een type-I-fout dan toeneemt. In dat geval wordt de nulhypothese verworpen, terwijl deze in werkelijkheid wel klopt. Als onderzoeker neem je dan aan dat er een effect bestaat, terwijl dit niet het geval is. Om t** te bepalen, kunnen we ook kiezen voor de Bonferroni methode. Met deze methode neemt de kans op een type-I-fout niet toe per vergelijking. De kans blijft altijd 5%.
Bij eenweg ANOVA delen we populaties in volgens één categorische variabele (ook wel factor genoemd). Bij tweeweg ANOVA maken we gebruik van twee factoren; elke factor heeft meerdere niveaus. Wanneer we geïnteresseerd zijn in de effecten van twee factoren, is het gebruik van tweeweg ANOVA veel handiger dan het gebruik van eenweg ANOVA. Een voorbeeld is dat een onderzoeker wil weten in hoeverre temperatuur en licht invloed hebben op de snelheid van leren.
De onderzoeker kan dan drie condities voor licht creëren: (1) geen licht, (2) normaal licht en (3) fel licht.
Voor temperatuur kan hij drie soorten temperaturen gebruiken: (1) 0, (2) 10 en (3) 40 graden.
Licht en temperatuur zijn de factoren binnen dit design. Deze condities van de twee factoren moeten vervolgens gecombineerd worden.
In totaal zijn er dan negen condities. Dit worden ook wel cellen genoemd.
Bij eenweg ANOVA delen we populaties in volgens één categorische variabele (ook wel factor genoemd). Bij tweeweg ANOVA maken we gebruik van twee factoren; elke factor heeft meerdere niveaus
Als de onderzoeker het experiment met de negen cellen uitvoert, is hij geïnteresseerd in meerdere onderwerpen:
De verschillen in gemiddelden tussen de lichtniveaus. Hierbij gaat het over het hoofdeffect van licht.
De verschillen in gemiddelden tussen de temperatuurniveaus. Hierbij gaat het om het hoofdeffect van temperatuur.
Verschillen in gemiddelden die ontstaan door een unieke combinatie van een specifieke temperatuur en een specifiek lichtniveau. Een voorbeeld is dat leren bovengemiddeld snel gaat wanneer mensen onder normaal licht en in een ruimte met 10 graden moeten leren. In dit geval is er sprake van een interactie effect.
Tweeweg ANOVA verdient de voorkeur boven eenweg ANOVA, omdat:
Het efficiënter is om twee factoren tegelijkertijd te bestuderen dan ze afzonderlijk te onderzoeken.
De residuele spreiding in het model verminderd kan worden door een tweede factor toe te voegen die invloed heeft op de responsvariabele.
We middels tweeweg ANOVA uitspraken kunnen doen over interactie effecten tussen factoren.
De twee factoren bij tweeweg ANOVA noemen we A en B. Factor A zal I aantal niveaus hebben en factor B zal J aantal niveaus hebben. We noemen tweeweg ANOVA daarom ook wel IxJ ANOVA. Bij een tweeweg design wordt elk niveau van factor A gecombineerd met elk niveau van factor B. De steekproefgrootte voor niveau i van factor A en voor niveau j voor factor B is nij. Het totale aantal observaties is:
We hebben onafhankelijke random steekproeven (SRS’en) van grootte nij voor elke combinatie van factorniveaus. We gaan er vanuit dat de populaties normaal verdeeld zijn. De populatiegemiddelden (μi) kunnen verschillend zijn, maar alle populaties hebben dezelfde standaarddeviatie (σ). De onbekende parameters zijn σ en μi. Bij eenweg ANOVA staat xijk voor de k-ste observatie uit de populatie met factor A op niveau i en factor B op niveau j. Het statische model is daarom: xijk = μi+ εijk. In dit model staat μi voor het fit-gedeelte en εijk voor het residu-gedeelte.
Bij tweeweg ANOVA kan SSM opgedeeld worden in SSA (hoofdeffect voor A), SSB (hoofdeffect voor B) en SSAB (interactie effect voor A en B). Hetzelfde geldt voor de vrijheidsgraden: DFM = DFA+DFB+DFAB. Als we een interactie effect vinden, betekent dat niet dat de hoofdeffecten onbelangrijk zijn. Het is ook mogelijk om tweeweg ANOVA uit te voeren wanneer dezelfde deelnemers aan alle condities worden blootgesteld. In dit geval wordt ook wel van een repeated-measures design gesproken.
Omdat er bij tweeweg ANOVA sprake is van twee factoren, zit de ANOVA-tabel anders in elkaar:
Bron | Vrijheidsgraden | SS | MS | F |
A | I - 1 | SSA | SSA / dfA | MSA / MSE |
B | J - I | SSB | SSB / dfB | MSB / MSE |
AB | (I - 1)(J - 1) | SSAB | SSAB / dfAB | MSAB / MSE |
Error | N- IJ | SSE | SSE / dfE | |
Totaal | N - 1 | SST |
Bij tweeweg ANOVA worden drie hypothesen getoetst aan de hand van F-toetsen. De nulhypothesen stellen dat er geen hoofdeffecten voor A en B bestaan. Een derde nulhypothese stelt dat er geen interactie effect tussen A en B bestaat.
Om het hoofdeffect van A te toetsen: FA = MSA/MSE.
Om het hoofdeffect van B te toetsen: FB = MSB/MSE.
Om het interactie effect tussen A en B te toetsen: FAB = MSAB/MSE.
Hieronder worden enkelvoudige en multipele regressiemethoden besproken die gebruikt worden wanneer de responsvariabele maar twee mogelijke waarden (1, bijvoorbeeld succes en 0, mislukking) kan aannemen. Het gemiddelde is de proportie van enen (p = P(succes)). Wat er nieuw is, is dat we nu data hebben voor een onafhankelijke variabele x. Er wordt bestudeerd hoe p van x afhangt.
Logistische regressie werkt meer met kansverhoudingen (odds) dan met proporties. Een kansverhouding is de verhouding van de proporties van de twee mogelijke uitkomsten p̂ en 1- p̂. p̂ staat voor populatiekansverhoudingen.
\[ odds = \frac{\hat{p}}{1 - \hat{p}} \]
Bij enkelvoudige lineaire regressie wordt het gemiddelde m van de responsvariabele y beschreven als een lineaire functie van de onafhankelijke variabele: µ = ß0 + ß1X . Bij logistische regressie zijn we geïnteresseerd in het gemiddelde van de responsvariabele p = ß0 + ß1X .
Dit is echter geen goed model. Zolang ß1 ≠ 0, zouden extreme waarden van x waarden opleveren die niet tussen 0 en 1 zijn. De oplossing hiervoor is het transformeren van p naar een kansverhouding. Vervolgens wordt het logaritme genomen van de kansverhouding. De term logaritmische kansverhouding (log odds) wordt hiervoor gebruikt.
\[ log (\frac{p}{1 - p}) = \beta_{0} + \beta_{1}X \]
Dit is het Logistische Regressiemodel.
Logistische regressie met een indicator is een speciaal geval. Een indicator is een geslachtsvariabele; 0 = vrouw, 1 = man. Voor mannen is het model:
\[ log (\frac{p_{mannen}}{1 - p_{mannen}}) = \beta_{0} + \beta_{1}X \]
En voor vrouwen:
\[ log (\frac{p_{vrouwen}}{1 - p_{vrouwen}}) = \beta_{0} \]
ß1 ontbreekt in het model voor vrouwen, want x = 0 hier. De helling in het logistische regressiemodel is het verschil tussen de log (odds) voor mannen en de log (odds) voor vrouwen. Het is lastig om te denken in de log (odds) schaal, daarom wordt er een transformatie gebruikt die het interpreteren van de resultaten eenvoudiger maakt:
\[ X = \frac{odss_{mannen}}{odds_{vrouwen}} \]
De logistische regressie wordt hierin getransformeerd tot een odds-verhouding en maakt het logaritme ongedaan. Dit is ook uit te drukken als:
\[ odds_{mannen} = X * odds_{vrouwen} \]
De methoden voor logistische regressie lijken sterk op de methoden voor enkelvoudige lineaire regressie. Er worden schattingen gemaakt van de modelparameters en van standaardfouten. Ook betrouwbaarheidsintervallen worden op dezelfde manier gevormd. Alleen worden standaardnormale z- waarden meer gebruikt dan kritische waarden van de t-verdelingen. De verhouding van de geschatte standaardfouten is de basis voor hypothesetoetsen.
Het betrouwbaarheidsinterval voor de helling ß1 is:
\[ b_{1} \pm z * SE_{b1} \]
Het betrouwbaarheidsinterval voor de odds-verhouding eβ1 is:
\[ e^{b_{1} - z * SE_{b1}} , ... e^{b_{1} + z * SE_{b1}} \]
z* is de waarde voor de standaardnormale dichtheidscurve met een gebied tussen - z* en + z* . Om de nulhypothese H0 : ß1 = 0 te toetsen moet men de toetsstatistic uitrekenen.
\[ X^{2} = (\frac{b_{1}}{SE_{b1}})^{2} \]
De p-waarde voor een toets van de nulhypothese tegen de alternatieve hypothese is: P (x2 ≥ X2).
Vaak wordt een 95%-betrouwbaarheidsinterval gehanteerd en een significantieniveau van 0.05. Het betrouwbaarheidsinterval geeft het resultaat van het toetsen van de nulhypothese, die stelt dat de odds- verhouding 1 is. Wanneer 1 niet in het betrouwbaarheidsinterval voorkomt, wordt H0 verworpen. De odds voor de twee groepen zijn dan verschillend.
Multipele logistische regressie wordt toegepast wanneer er sprake is van meer dan één onafhankelijke variabele. Andere onafhankelijke variabelen kunnen aanvullende informatie bevatten, waardoor een betere voorspelling gedaan kan worden. De statistische concepten zijn hetzelfde als bij enkelvoudige lineaire regressie, maar de berekeningen zijn complexer.
De nulhypothese is hier: H0 : ß1 = ß2 = ß3 = … = ßi
Non-parametrische toetsen gebruiken we wanneer we alleen categorische variabelen (nominaal of ordinaal meetniveau) hebben of wanneer de numerieke variabelen (interval of ratio meetniveau) niet voldoen aan de eisen. In het laatste geval groeperen we de numerieke variabele meestal in een beperkt aantal categorieën. Voorbeelden van non-parametrische toetsen zijn: Wilcoxon rangsomtoets, Wilcoxon rangtekentoets en de Kruskal-Wallistoets.
Bij het trekken van conclusies uit experimenten maken we vaak gebruik van toetsen die de aanname doen dat er een normaalverdeling is in de populatie(s). Deze toetsen zijn redelijk robuust: schending van de aanname van normaliteit levert geen grote problemen op, vooral niet wanneer de steekproeven erg groot zijn. Wanneer de populatieverdeling echter duidelijk niet normaal verdeeld is en de steekproeven klein zijn, moeten er andere methoden gebruikt worden:
Als duidelijke niet-normaliteit het gevolg is van uitbijters, dan moeten deze uitbijters verwijderd worden als ze niet tot de populatie behoren. Als ze wel tot de populatie behoren, kunnen er andere statistische methoden gebruikt worden die geen aanname van normaliteit doen.
Soms kunnen data worden getransformeerd, zodat de verdeling van de data meer normaal wordt. Een voorbeeld hiervan is het gebruik van logaritmen.
Soms kunnen data beter worden beschreven door middel van een andere standaardverdeling. De parameters van zo’n verdeling kunnen beschreven worden met behulp van speciale methoden.
Bootstrapmethoden en permutatietoetsen zijn methoden die geen normaliteit vereisen.
Ook andere non-parametrische methoden vereisen geen normaliteit. Deze methoden maken, in tegenstelling tot bootstrapmethoden en permutatietoetsen, geen gebruik van werkelijke waarden. Voorbeelden hiervan zijn rangtoetsen, die hieronder zullen worden besproken.
Rangtoetsen vereisen dat de populaties een continue verdeling hebben. Elke verdeling moet dus kunnen worden beschreven met een dichtheidscurve. De vorm van de curve maakt bij rangtoetsen niet uit. Toetsen die de aanname van normaliteit doen, maken gebruik van populatiegemiddelden of steekproefgemiddelden. Rangtoetsen maken gebruik van medianen.
De Wilcoxon rangsomtoets wordt gebruikt wanneer er in een experiment twee onafhankelijke steekproeven met elkaar worden vergeleken en de aanname van normaliteit geschonden is. De methode is als volgt:
Rangschik alle waarnemingen van laag naar hoog.
Nummer deze waarnemingen. De laagste waarneming krijgt rangnummer 1.
Kies een van de steekproeven uit als eerste steekproef en tel de rangnummers bij elkaar op. Deze rangsom wordt W genoemd en is de Wilcoxon rangsomstatistiek. Hieronder staat een voorbeeld. De vetgedrukte waarden komen uit steekproef 1, de niet-vetgedrukte waarden komen uit steekproef 2. In dit geval wordt W dus 1 + 2 + 4 + 5 = 12.
Score op de test | 5.4 | 5.8 | 6.1 | 6.7 | 6.9 | 7.5 | 8.1 | 8.4 |
Rangnummer | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
Bij sommige experimenten worden categorische variabelen omgezet in numerieke variabelen. Dit is onder andere het geval bij stellingen. Het volledig oneens zijn met de stelling is bijvoorbeeld 1 punt, het volledig eens zijn met de stelling is 5 punten.
De t-toets behandelt deze variabelen als betekenisvolle getallen, terwijl dit in werkelijkheid niet het geval is. Onderzoekers gebruiken in zo’n geval vaak liever de rangsomtoets, omdat deze gebruik maakt van rangnummers in plaats van werkelijke waarden. Een ander voordeel is het feit dat uitbijters geen invloed hebben.
Om de Wilcoxon rangsomtoets uit te voeren, moeten naast de waarde van W ook nog het gemiddelde en de standaarddeviatie van W berekend worden. Het gemiddelde van W wordt berekend door:
\[ \mu_{W} = \frac{n_{1}(N+1)}{2} \]
N is het totaal aantal observaties en n1 is de steekproefgrootte van de eerste steekproef. De standaarddeviatie van W wordt berekend door:
\[ \sigma_{W} = \sqrt{ \frac{n_{1}n_{2}(N+1)}{12} } \]
De aanname die hierbij wordt gedaan, is dat de twee populaties dezelfde continue verdeling hebben. Wanneer de waarde van W ver afligt van zijn gemiddelde (µW), dan zijn de verdelingen van de populaties niet identiek. Waarden van de ene populatieverdeling zijn dan systematisch hoger dan waarden van de andere populatieverdeling. Om te toetsen of het effect significant is, oftewel om de p-waarde te kunnen vergelijken met alpha α, kan gebruik gemaakt worden van speciale tabellen of van software. Een goede benadering is echter ook het gebruik van z-scores:
\[ z = \frac{W - \mu_{W}}{\sigma_{W}} = \frac{W - n_{1}(N+1)/2}{\sqrt{n_{1}n_{2}(N+1)/12}} \]
Voor een meer accurate z-score wordt vaak eerst nog een continuïteitscorrectie toegepast. In werkelijkheid is er namelijk in de steekproeven geen sprake van een continue verdeling, maar van discrete waarden (weergegeven als staafjes). Een score van 15 bijvoorbeeld bezet het interval van 14.5 tot 15.5 in de verdeling. De continuïteitscorrectie werkt als volgt:
Omdat we bij de rangsomtoets medianen vergelijken in plaats van gemiddelden, worden de hypothesen als volgt:
H0: mediaan1 = mediaan2
Ha: mediaan1 ≠ mediaan2 (tweezijdig) of bijvoorbeeld mediaan1 > mediaan2 (eenzijdig).
Dit geldt echter alleen als de populatieverdelingen dezelfde vorm hebben. In praktijk is dit vaak niet het geval. Daarom worden de hypothesen vaak geformuleerd in woorden:
Het kan zijn dat meerdere proefpersonen dezelfde score hebben behaald tijdens een experiment. Bij het toekennen van rangnummers wordt dan het gemiddelde genomen van de rangen die deze waarden bezetten. Hieronder staat een voorbeeld ter verduidelijking. In dit voorbeeld bezet score 6.1 zowel rangnummer 3 als rangnummer 4. Het gemiddelde van deze rangnummers wordt dan (3 + 4) / 2 = 3.5.
Score op de test | 5.4 | 5.8 | 6.1 | 6.1 | 6.5 | 7.5 | 8.1 | 8.4 |
Rangnummer | 1 | 2 | 3.5 | 3.5 | 5 | 6 | 7 | 8 |
Bij gelijke waarden verandert de exacte verdeling van de Wilcoxon rangsom W. De standaarddeviatie van W (σW) moet worden aangepast. Statistische software is vereist wanneer je data gelijke waarden bevatten, omdat statistische software automatisch de nodige aanpassingen doet.
De Wilcoxon rangsomtoets vervangt als het ware de t-toets voor twee onafhankelijke steekproeven wanneer er geen sprake is van een normaalverdeling in de populaties. Wanneer de steekproeven klein zijn en er geen sprake is van normaliteit, is de Wilcoxon rangsomtoets namelijk betrouwbaarder dan de t-toets. De t-toets gaat samen met een betrouwbaarheidsinterval. De rangsommethode daarentegen legt de nadruk echt op de toets, niet op het betrouwbaarheidsinterval. Een ander verschil is het feit dat het trekken van conclusies bij de rangsomtoets beperkt blijft tot simpele settings. Met de t-toets kunnen resultaten van meer complexe experimentele designs onderzocht worden.
Een rangsomtoets en permutatietoets zijn beide non-parametrische toetsen, maar ze verschillen op bepaalde aspecten. Het berekenen van de steekproevenverdeling onder de nulhypothese is hetzelfde voor beide toetsen, maar gaat gemakkelijker bij de rangsomtoets. Software geeft daarom alleen p-waarden voor rangsomtoetsen (en andere rangtoetsen) en niet voor permutatietoetsen. Een voordeel van permutatietoetsen ten opzichte van rangsomtoetsen is flexibiliteit. Permutatietoetsen bieden een brede keuze aan statistieken die gebruikt kunnen worden om twee steekproeven met elkaar te vergelijken. Ook zijn ze bijvoorbeeld te gebruiken bij multipele regressie.
De Wilcoxon rangtekentoets wordt gebruikt wanneer er sprake is van afhankelijke steekproeven en de aanname van normaliteit geschonden is. De methode is als volgt:
Omdat het gaat om afhankelijke steekproeven zijn de waarnemingen gerangschikt in paren. Bepaal voor elk paar wat het absolute verschil is tussen de twee metingen (bijvoorbeeld tussen de voor- en nameting). Het gaat om absolute verschillen, dus het verschil is altijd positief. Rangschik deze absolute verschillen van laag naar hoog. Wanneer het verschil nul is, verwijder je deze uit de rangorde.
Ken rangnummers toe aan de verschillen. Het kleinste verschil krijgt rangnummer 1.
Maak in de rangorde duidelijk welke verschillen er oorspronkelijk positief waren en welke negatief.
Tel de rangnummers van de oorspronkelijk positieve verschillen bij elkaar op. Deze rangsom wordt W+ genoemd en is de Wilcoxon rangtekenstatistiek
Het gemiddelde van W+ is:
\[ \mu_{W+} = \frac{n(n+1)}{4} \]
Hierbij gaan we ervan uit dat de verdeling van responsen niet te wijten is aan een verschillende behandeling binnen paren. In de formule staat n voor het aantal paren. Bij herhaalde metingen vormt elke proefpersoon als het ware een paar met zichzelf, dus in dat geval is n gelijk aan het aantal proefpersonen.
De standaarddeviatie van W+ is:
\[\sigma_{W+} = \sqrt{ \frac{n(n+1)(2n+1)}{24} } \]
Als de waarde van W+ ver afligt van zijn gemiddelde (µW+), dan zijn er systematische verschillen binnen paren. De verdeling van de rangtekenstatistiek wanneer de nulhypothese waar is, is bij benadering normaal in het geval van een grote steekproef. We kunnen daarom z-scores gebruiken om de p-waarde te bepalen. Dit werkt hetzelfde als bij de Wilcoxon rangsomtoets, alleen gebruiken we nu W+ , µW+ en σW+. Voor een meer accurate benadering van de z-score moet er weer eerst een continuïteitscorrectie worden toegepast. Ook dit gaat volgens dezelfde procedure als bij de Wilcoxon rangsomtoets.
Bij de Wilcoxon rangtekentoets kan er sprake zijn van gelijke waarden binnen paren en van gelijke waarden tussen paren. Een knoop binnen een paar houdt in dat er twee keer hetzelfde gemeten wordt: het verschil is nul. Nul is niet negatief of positief, dus daarom worden alle nul-waarden uit de rangorde verwijderd. Waarnemingen waarbij het verschil nul is, zijn echter in het voordeel van de nulhypothese. Wanneer er veel gelijke waarden binnen paren zijn, zullen de resultaten dus vertekend raken en eerder richting de alternatieve hypothese wijzen. Hierdoor verandert ook de verdeling en zo ook de standaarddeviatie van W+ (σW+). Statistische software doet hiervoor de juiste aanpassingen. Als er gelijke waarden zijn tussen paren, dan houdt dit in dat twee of meer paren uitkomen op hetzelfde absolute verschil. De oplossing is dan om het gemiddelde te nemen van de rangen die ze bezetten, evenals bij de Wilcoxon rangsomtoets.
Wanneer we meer dan twee gemiddelden met elkaar willen vergelijken, maken we gebruik van enkelvoudige variantieanalyse (ANOVA). De aanname hierbij is dat de populatieverdelingen bij benadering normaal zijn en een gelijke verdeling hebben, oftewel gelijke standaarddeviaties. Als niet aan deze eisen voldaan wordt, kan de Kruskal-Wallistoets gebruikt worden. Deze toets vervangt dan de F-toets voor ANOVA. De aanname dat de steekproeven onafhankelijk en random getrokken zijn blijft hierbij hetzelfde. Verder wordt de aanname gedaan dat er in elke populatie een continue verdeling van responsen is. Hypothesen worden geformuleerd in woorden:
H0: De verdelingen van alle groepen zijn gelijk.
Ha: De waarden van de sommige verdelingen zijn systematisch hoger.
De Kruskal-Wallisstatistiek duiden we aan met H en is eigenlijk hetzelfde als SSG (de kwadratensom tussen groepen). H wordt op de volgende manier berekend:
\[ H = \frac{12}{N(N + 1)} \sum \frac{R_{i}^{2}}{n_{i}} - 3(N + 1) \]
In deze formule staat ni voor de steekproefgrootte van de ide steekproef. N staat voor het totaal aantal observaties. Alle N observaties moeten worden gerangschikt, zodat de waarden van Ri kunnen worden bepaald. Ri is namelijk de rangsom voor de i’de steekproef. Het aantal populaties geven we aan met I. H heeft bij benadering een chikwadraatverdeling met I – 1 vrijheidsgraden. Aan de hand van de chikwadraatverdeling kunnen p-waarden worden bepaald. Als H groot is, dan wordt de nulhypothese verworpen.
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
Field of study
Je vertrek voorbereiden of je verzekering afsluiten bij studie, stage of onderzoek in het buitenland
Study or work abroad? check your insurance options with The JoHo Foundation
Add new contribution