Wat is statistische inferentie?

Inferentiële statistiek
Het toetsen van hypothesen
Type-I en type-II-fouten
De z-toets
Effectgrootte
De t-test
De t-test voor onafhankelijke steekproeven
Aannames voor de t-toets met twee onafhankelijke metingen
Gepaarde t-test
Overzicht formules t-test
Betrouwbaarheidsintervallen
Power

Inferentiële statistiek

Er is een manier om uit te zoeken of een verschil in groepsgemiddelden het gevolg is van errorvariantie of van systematische variantie. Hier kunnen we namelijk achter komen door middel van een inferentiële statistiek, dit is statistiek aan de hand van gevolgtrekkingen. Deze methode gaat er vanuit dat de onafhankelijke variabele effect heeft gehad, wanneer het verschil tussen de gemiddelden van de condities groter is dan dat we zouden verwachten op basis van alleen toeval. We vergelijken daarom de groepsgemiddelden die we gevonden hebben met de groepsgemiddelden die we verwachtten te vinden als er alleen sprake zou zijn van errorvariantie. Deze methode geeft helaas geen zekerheid. We kunnen alleen de kans vaststellen dat de verschillen in groepsgemiddelden het gevolg zijn van errorvariantie.

Het toetsen van hypothesen

Wetenschappers proberen hun onderzoekshypotheses te toetsen door de verschillende groepsgemiddelden te analyseren. Eerst formuleren ze een nulhypothese. Deze hypothese stelt dat de onafhankelijke variabele geen effect heeft gehad op de afhankelijke variabele. De experimentele hypothese staat hier vaak tegenover. Deze stelt dat de onafhankelijke variabele wel effect heeft op de afhankelijke variabele. De experimentele hypothese kan geen richting (‘nondirectional’) of wel een richting (‘directional’) aangeven. Een directionele experimentele hypothese (met een richting) wordt eenzijdig genoemd. Hierbij geeft de onderzoeker namelijk al aan of hij verwacht of de onafhankelijk variabele zorgt voor een stijging of daling in de afhankelijke variabele. Wanneer een onderzoeker geen vermoeden heeft over de richting van een effect, dan voert hij of zij een tweezijdige toets uit. Hierbij geeft de onderzoeker geen richting aan. Dit is dus een niet-directionele hypothese. Op basis van statistische analyses kan de nulhypothese verworpen (‘rejecting the null hypotheses’) of behouden (‘failing to reject the null hypothesis’) worden.

Het verwerpen van de nulhypothese betekent dat de onafhankelijke variabele effect heeft gehad. Door de nulhypothese te verwerpen, geef je aan dat er wel verschil is tussen de gemiddelden. De onafhankelijke variabele heeft dan dus effect gehad, en er is sprake van systematische variantie. Bij het verwerpen van de nulhypothese is het verschil in de groepsgemiddelden groter dan wat we zouden verwachten op basis van alleen de errorvariantie. Als de nulhypothese behouden wordt, dan betekent dit dat de onafhankelijke variabele geen effect heeft gehad op de afhankelijke variabele. In dit geval zijn verschillen in groepsgemiddelden niet het resultaat van de onafhankelijke variabele, maar van errorvariantie. De groepsgemiddelden verschillen dan niet meer dan dat we op basis van de errorvariantie zouden verwachten.

Type-I en type-II-fouten

Wanneer de onderzoeksdata statistisch geanalyseerd wordt, zijn er vier mogelijkheden denkbaar.

Correct besluit: de nulhypothese is onjuist, en de onderzoeker verwerpt hem.
Correct besluit: de nulhypothese is juist, en de onderzoeker behoudt hem.
Type-I-fout: de nulhypothese is juist, maar de onderzoeker verwerpt hem. De onderzoeker denkt dus ten onrechte dat de onafhankelijke variabele effect heeft gehad. De kans om een type I fout te maken wordt het alfaniveau genoemd. In de meeste gevallen gebruiken onderzoekers een alfaniveau van 5%. Dit betekent dat ze de nulhypothese verwerpen wanneer er 5% kans is dat de gevonden verschillen tussen de groepsgemiddelden het gevolg zijn van errorvariantie. Op deze manier is er maar 5% kans dat ze het bij het verkeerde eind hebben. Soms hanteren wetenschappers een strenger alfaniveau, namelijk een alfa van 1%. Ze hebben dan maar 1% kans om een type I fout te maken.
Het verschil tussen de groepsgemiddelden wordt als statistisch significant bestempeld wanneer we de nulhypothese verwerpen met een lage kans op een type-I-fout. Een statistisch significant resultaat is een resultaat waarvan we weten dat er maar een kleine kans is (vaak kleiner of gelijk aan 5%) dat deze het gevolg is van errorvariantie.
Type-II-fout: de nulhypothese is onjuist, maar de onderzoeker behoudt deze toch. De onderzoeker stelt dus dat de onafhankelijke variabele geen effect heeft gehad, terwijl dat in werkelijkheid wel zo was. De kans op een type-II-fout wordt bèta genoemd. Het onbetrouwbaar meten van de afhankelijke variabele verhoogt de bèta. Effecten die in werkelijkheid wel bestaan, worden met een onbetrouwbare meting namelijk niet opgemerkt. Dit leidt tot een grotere kans op een type-II-fout, dus een grotere bèta. Ook kunnen fouten in het verzamelen en coderen van responsen, extreem heterogene steekproeven en slechte experimentele controle leiden tot een grotere bèta. Om de kans op een type-II-fout te verkleinen, proberen wetenschappers experimenten te ontwerpen die veel power hebben.

De z-toets

Over het algemeen weten we de waarde van σ niet, en moeten we die schatten met de steekproef standaarddeviatie (s). als de standaarddeviatie van de populatie echter wel bekend is, kan gebruik worden gemaakt van de z-toets.

Stap 1: het formuleren van een hypothese

Allereerst wordt de hypothese opgesteld. Er zijn altijd twee hypothesen: de nulhypothese en de alternatieve hypothese. De nulhypothese houdt in dat een behandeling geen effect heeft. Deze hypothese stelt dus eigenlijk dat er geen verschil of verandering is ten opzichte van de onbehandelde populatie. De nulhypothese geven we aan met het symbool H₀. De H staat voor hypothese en de nul staat voor het nuleffect. Dan is er nog de alternatieve hypothese (H₁). Deze stelt dat er wel een verschil of verandering is. In de context van een experiment stelt de alternatieve hypothese dat de onafhankelijke variabele (bijvoorbeeld een behandelingsmethode voor depressie) een effect heeft op de afhankelijke variabele (mate van depressie). De H₁ kan één richting of twee richtingen opgaan. Als de nulhypothese bijvoorbeeld is dat de gemiddelde depressiescore 30 is in de populatie depressieve mensen, kan de alternatieve hypothese zijn dat het gemiddelde niet gelijk is aan 30 (µ ≠ 30). In sommige gevallen wordt de richting van het verschil ook gespecificeerd. Als verwacht wordt dat de behandelde populatie een hoger gemiddelde heeft geldt H₁ : μ1 < μ2 en als verwacht wordt dat de behandelde populatie een lager gemiddelde heeft, geldt H1: μ1 > μ2. Het is bijvoorbeeld mogelijk om in H₁ te stellen dat het gemiddelde lager is dan 30 (µ<30) of groter dan 30 (µ>30). De laatste mogelijkheid is in dit voorbeeld eigenlijk overbodig, omdat het bijna ondenkbaar is dat een behandelingsmethode de mate van depressiviteit laat stijgen. Hypothesen gaan altijd over populaties, al worden steekproeven gebruikt om hypothesen te testen.

Stap 2: criteria voor een besluit

Om een gegrond besluit te nemen over de (on)juistheid van de nulhypothese, moeten we bepaalde criteria gebruiken. We gebruiken het significantieniveau of het alfaniveau (α) als criterium. Het alfaniveau is een grens in de normaalverdeling die onderscheid maakt tussen scores met een grote kans en scores met een kleine kans van voorkomen in de steekproef als de hypothese juist is. Een alfa van 5% (α=0.05) zegt dat er maar 5% kans is dat een resultaat door toeval wordt gevonden. Het alfaniveau is een kanswaarde die gebruikt wordt om erg onwaarschijnlijke steekproefresultaten vast te stellen als de nulhypothese waar zou zijn. Het gebied dat afgebakend wordt door het significantieniveau in de staart van de verdeling is het kritieke gebied. Het kritieke gebied bestaat uit extreme steekproefwaarden die heel onwaarschijnlijk zijn als de nulhypothese waar zou zijn. Wanneer de waarden in het kritieke gebied vallen, verschillen ze significant van het verwachte gemiddelde en wordt de nulhypothese verworpen. Bij een alfa van 5% bevindt de 5% van de scores zich in de staarten van de normale distributie; voor z=-1.96 en na z=+1.96. Deze waarde zijn de grenzen voor de kritische regio bij α=0.05.

Stap 3: data verzamelen en rekenen

Data worden altijd verzameld nadat hypothesen geformuleerd zijn. Zo kunnen de data getoetst worden aan de hypothesen; de onderzoeker kan op objectieve wijze de data evalueren. Nadat de ruwe data verzameld is, worden er steekproefwaarden (statistieken) uitgerekend. De onderzoeker berekent bijvoorbeeld het steekproefgemiddelde. Zo kan hij het steekproefgemiddelde vergelijken met de nulhypothese. Om dit te doen berekent hij een z-score die beschrijft waar het steekproefgemiddelde zich bevindt in relatie tot het gemiddelde van de nulhypothese. De z-score voor het steekproefgemiddelde is: z=(M- µ)/ σ_M. Deze formule stelt dat de z-score berekend wordt door het populatiegemiddelde uit de nulhypothese (µ) af te trekken van het steekproefgemiddelde (M). Dit getal wordt vervolgens gedeeld door de standaardfout tussen M en µ. De z-score bij het hypothese testen is een voorbeeld van een teststatistiek.

Stap 4: een besluit nemen

De onderzoeker gebruikt de berekende z-score uit de vorige stap om een besluit te nemen over de nulhypothese. De eerste mogelijkheid is dat de onderzoeker de nulhypothese verwerpt. Hiervan is sprake wanneer de steekproefdata in de kritische regio valt. Dit betekent dat er een significant verschil is tussen de steekproef en de nulhypothese. De steekproefwaarden bevinden zich namelijk in de staart van de normaalverdeling. In het voorbeeld met de depressiebehandeling, betekent dit dat de onderzoeker heeft aangetoond dat de behandeling wel degelijk effect heeft. Het is ook mogelijk dat de data ervoor zorgt dat de nulhypothese niet afgewezen kan worden. Dit betekent dat een behandeling geeft effect heeft gehad. Dit gebeurt wanneer de steekproefdata niet in de kritische regio vallen.

Effectgrootte

Sommige onderzoekers hebben kritiek op het proces van hypothesen testen. De grootste kritiek gaat over de interpretatie van een significant resultaat. Er wordt bij het testen van een hypothese namelijk vooral aandacht besteed aan de data en niet aan de hypothesen zelf. Als de nulhypothese wordt afgewezen, maken we een statement over de steekproefdata en niet over de nulhypothese. Op basis van steekproefdata wordt de nulhypothese dus afgewezen of behouden. Of de nulhypothese werkelijk (on)waar is, weten we niet. Een ander kritiekpunt is dat een significant effect niet meteen zegt dat een behandeling een groot effect heeft. Iets is significant of niet, maar dit zegt niets over de grootte van het effect dat gevonden is. Een significant effect is dus niet hetzelfde als een groot effect. Om meer inzicht te krijgen in de grootte van een significant effect, heeft Cohen (1988) de zogenaamde effectgrootte voorgesteld. Zijn maat voor effectgrootte noemen we Cohen’s d. Deze maat kan berekend worden door eerst het verschil tussen het steekproefgemiddelde en het oorspronkelijke populatiegemiddelde te vinden (M- µ). Vervolgens wordt deze uitkomst gedeeld door de standaarddeviatie van de populatie. De uitkomst van Cohen’s d is 0.2 bij een klein effect, 0.5 bij een gemiddeld effect en 0.8 bij een groot effect.

De t-test

Over het algemeen weten we de waarde van σ niet, en moeten we die schatten met de steekproef standaarddeviatie (s). Wanneer we σ vervangen door s, kunnen we echter niet meer gebruikmaken van de z formule, maar gebruiken we de t test. De t test gebruikt s² als schatting van σ². De t-verdeling maakt gebruik van n-1 vrijheidsgraden. Hoe groter de waarde van df voor een steekproef, hoe beter s (standaarddeviatie van een steekproef) σ (standaarddeviatie van een populatie) representeert De t-statistiek rekenen we uit door middel van de volgende formule: t=(M- µ)/ s_{M. sM staat voor de standaardfout. Deze wordt als volgt berekend:}s_M=s/√n. Dit wordt gebruikt als schatting van de echte standaardfout . Een handig schema om te gebruiken wanneer je een hypothese toets met de t-toets is het onderstaande schema:

	(14) rechtszijdig	(15) linkszijdig	(16) tweezijdig
1. Formuleren nul- en alternatieve hypothese	H₀: $\mu$ ≤ 123 H₁: $\mu$ > 123	H₀: $\mu$ ≥ 126 H₁: $\mu$ < 126	H₀: $\mu$ = 122 H₁: $\mu$ ≠ 122
2. Keuze van de toetsgrootheid	$T=\frac{\bar{X}-\mu_o}{S/\sqrt{n}}$	$T=\frac{\bar{X}-\mu_o}{S/\sqrt{n}}$	$T=\frac{\bar{X}-\mu_o}{S/\sqrt{n}}$
3. Bepalen verdeling toetsgrootheid	$T~t(n-1)$	$T~t(n-1)$	$T~t(n-1)$
4. Intuïtief verwerpingsgebied	$\bar{X}^{>>123}_{t>>0}$	……………	$\bar{X}^{<<222}_{t<<0}$ $\bar{X}^{>>222}_{t>>0}$
5. Vaststellen significantieniveau	$\alpha$ = 0.05	$\alpha$ = 0.05	$\alpha$ = 0.05
6. Opzoeken kritieke waarden	t_{99, 0.05}= 1.660	-t_{99, 0.05}= -1.660	……………
7. Vergelijk geobserveerde waarde toetsgrootheid met de kritieke waarde	$t=\frac{125-123}{10/\sqrt{100}}$ = 2 > 1.660, dus verwerp H0: het gemiddelde IQ op de EUR is niet kleiner of gelijk aan 123, uitgaande van $\alpha$ = 0.05.	$t=\frac{125-123}{10/\sqrt{100}}$ = -1 > -1.660, dus handhaaf H0: het gemiddelde IQ op de EUR is groter of gelijk aan 126, uitgaande van $\alpha$ = 0.05.	$t=\frac{125-123}{10/\sqrt{100}}$ = 3 > 1.985, dus verwerp H0: het gemiddelde IQ op de EUR is niet gelijk aan 122, uitgaande van $\alpha$ = 0.05.

Aannames voor de one-sample t-toets

Er zijn twee aannames voor het uitvoeren van een t-toets.

Allereerst moeten de scores uit de steekproef bestaan uit onafhankelijke observaties. Dit betekent dat de ene score geen invloed mag hebben op de andere score. De kans op een bepaalde uitkomst bij een score wordt dus niet beïnvloed door een andere score.
Daarnaast moet de populatie, waar een steekproef uit getrokken wordt, normaal verdeeld zijn. In de praktijk heeft het schenden van deze aanname echter weinig invloed op de t-statistiek, vooral als de steekproef groot is. Met hele kleine steekproeven is het echter wel belangrijk dat de populatie normaal verdeeld is. Als je er dus niet zeker van bent dat de verdeling van een populatie normaal is, kun je het beste een grote steekproef selecteren.

Effectgrootte van de t-test

De grootte van het effect kan berekend worden door Cohen’s d. In dat geval moet het verschil tussen het steekproef- en populatiegemiddelde gedeeld worden door de standaarddeviatie van de populatie. In de meeste gevallen is de standaarddeviatie van de populatie echter niet bekend om de effectgrootte mee te berekenen. Daarom is de geschatte d bedacht. In dat geval wordt het verschil tussen het gemiddelde van een steekproef en de populatie gedeeld door de standaarddeviatie van de steekproef.

Proportie verklaarde variantie (r²)

Een andere manier om effectgrootte te bepalen is door te kijken hoeveel van de spreiding tussen de scores wordt verklaard door een effect. Een effect kan er namelijk voor zorgen dat scores stijgen (of dalen). De proportie verklaarde variantie kan gevonden worden door de t-statistiek te kwadrateren en te delen door hetzelfde getal plus de vrijheidsgraden. In formulevorm is dat dus: r² = t²/ t²+df. De vrijheidsgraden worden gevonden door het aantal scores te verminderen met één. Een proportie verklaarde van 0.01 staat voor een klein effect. Een waarde van 0.09 staat voor een gemiddeld effect. Een grote proportie verklaarde variantie wordt gekenmerkt door een r² van 0.25. De r² wordt in onderzoeksliteratuur vaak vermeld in de vorm van procenten.

De t-test voor onafhankelijke steekproeven

De t test wordt het meest gebruikt bij testen van verschillen tussen twee onafhankelijke groepen. Bijvoorbeeld wanneer we prestaties vergelijken tussen een controle groep en een experimentele groep (die een bepaalde behandeling heeft ondergaan). We willen weten of het verschil groot genoeg is om er vanuit te gaan dat de twee steekproeven uit verschillende populaties komen.

Wanneer we gemiddelden van twee verschillende populaties vergelijken, testen we een nulhypothese in de vorm van H₀ : μ₁ – μ₂ = 0. Hierbij hoort een steekproefverdeling van alle mogelijke verschilscores tussen de populatiegemiddelden. In het geval van twee normaal verdeelde populaties, is de verdeling van verschilscores ook een normaal verdeling. De variantie van deze verdeling kun je vinden door de variantie som wet: de variantie van een som of verschil van twee onafhankelijke variabelen is gelijk aan de som van hun varianties.

σ²_X1-x2= σ²_X1+ σ²_X2 = σ²₁/n₁ + σ²₂/n_2.

De formule voor de t-statistiek is als volgt:

$$T_s=\frac{\bar{Y}_1-\bar{Y}_2-(\mu_1-\mu_2)}{\sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}}$$

µ₁-µ₂staat gelijk aan nul en valt dus weg in de formule.

Aannames voor de t-toets met twee onafhankelijke metingen

De observaties in elke steekproef moeten onafhankelijk zijn.
De populaties waar de steekproeven uit genomen zijn, moeten normaal verdeeld zijn. Als je als onderzoeker vermoedt dat de populaties niet normaal verdeeld zijn, is het een goed idee om grote steekproeven te gebruiken.
De twee populaties moeten gelijke varianties hebben. Dit noemen we de homogeniteit van varianties. Het poolen van steekproefvarianties is namelijk alleen zinvol als beide populaties dezelfde variantie hebben. Deze aanname is erg belangrijk, omdat een juiste interpretatie van onderzoeksresultaten ervan afhangt. Dit kan je checken met levene’s test in spss.

Gepoolde variantie

De bovenstaande formule is alleen te gebruiken als beide steekproeven van dezelfde grootte zijn (n₁₌ n₂). In zo’n geval ligt de variantie van de twee steekproeven precies in het midden van de twee aparte varianties. In situaties waarin de twee steekproeven niet van dezelfde grootte zijn, is deze formule niet toereikend genoeg. Dit wordt veroorzaakt doordat de twee steekproeven even zwaar meewegen in de formule, terwijl een kleinere steekproef minder mee zou moeten wegen dat een grotere. Er ontstaat een bias naar de kleinere steekproef. Om hiervoor te corrigeren wordt een formule gebruikt die de varianties combineert, de gepoolde variantie. Deze wordt gevonden door het gewogen gemiddelde te nemen van de twee varianties. De kwadratensommen van beide steekproeven worden gedeeld door het aantal vrijheidsgraden. Het aantal vrijheidsgraden van een kleinere steekproef is lager, waardoor deze minder mee zal wegen. Eerder is gezegd dat de variantie van een steekproef (s²) gevonden kan worden door SS te delen door df. Om de gepoolde variantie uit te rekenen (s²_p) wordt een andere formule gebruikt: (SS₁ + SS₂)/ df₁ + df₂. De geschatte standaard error van M₁ - M₂ wordt gevonden door de wortel (√ ) te trekken uit de uitkomst van (s²_p/ n₁+ s²_p/ n₂). Een andere formule voor de gepoolde variantie is als volgt: s²_p = ((n₁ - 1)s²₁ + (n₂ - 1)s²₂) / (n₁ + n₂ - 2). De nieuwe t-formule wordt dan:

$$(\bar{X}_1-\bar{X}_2)/\sqrt{s^2_p(\frac{1}{n_1}+\frac{1}{n_2})}$$

Effectgrootte

Zoals eerder gezegd wordt Cohen’s d berekend door het verschil tussen twee gemiddelden te nemen en dit te delen door de standaarddeviatie van de populatie. Bij twee onafhankelijke steekproeven wordt het verschil tussen de twee steekproeven (M₁ - M₂) gebruikt om het verschil in gemiddelden te schatten. De gepoolde standaarddeviatie (√s²_p) wordt gebruikt om de standaarddeviatie van de populatie te schatten. De formule om Cohen’s d te schatten wordt dus: geschatte d = (M₁ - M₂)/ √s²_p.

Gepaarde t-test

Een gepaarde t-toets (‘paired t-test’) wordt gebruikt wanneer er sprake is van een gematcht ontwerp of van herhaalde metingen. Bij de gepaarde t-toets wordt er rekening mee gehouden dat de deelnemers in de twee condities op elkaar lijken.. In dit geval is er sprake van twee verschillende steekproeven, maar elk individu uit de ene steekproef wordt gematcht met een individu uit de andere steekproef. Individuen worden gematcht op basis van variabelen die belangrijk worden gevonden voor het desbetreffende onderzoek. Dit leidt tot een test met meer power: als de onafhankelijke variabele daadwerkelijk effect heeft, dan blijkt dit ook uit de test. Hoe minder errorvariantie er namelijk is, hoe groter de power van het experiment. De hoge power zorgt ervoor dat de gepoolde standaarddeviatie (s_p) kleiner wordt. Het kleiner worden van de gepoolde standaarddeviatie leidt weer tot een grotere t-waarde.

De t-statistiek voor gerelateerde samples is qua structuur hetzelfde als de andere t-statistieken. Het enige grote verschil is dat de t-statistiek bij gerelateerde steekproeven gebaseerd is op verschilscores in plaats van ruwe scores (X-waarden). Omdat deelnemers voor en na een behandeling onderzocht worden, heeft elke deelnemer een verschilscore. De verschilscore wordt als volgt gevonden:

D (van difference) = X₂- X₁.

In deze formule staat X₂voor de tweede keer dat een steekproef onderzocht wordt (dus na de behandeling). Als er een negatief getal uit de formule komt, betekent dit dat de mate van een verschijnsel afgenomen is na de behandeling. Een onderzoeker probeert aan de hand van verschilscores uit te vinden of er een verschil is tussen twee condities in de populatie. Hij wil weten wat er zou gebeuren wanneer elk individu in de populatie twee keer gemeten zou worden (voor en na een behandeling). De onderzoeker wil weten wat het gemiddelde van verschilscores (µ_D) in de populatie is.

De nulhypothese is dat het gemiddelde van de verschilscores nul is (µ_D=0). Volgens deze hypothese is het wel mogelijk dat sommige individuen in de populatie positieve verschilscores hebben. Ook is het volgens deze formule mogelijk dat andere individuen negatieve verschilscores hebben. Het gaat er echter om dat de nulhypothese stelt dat het gemiddelde van alle verschilscores nul is. De alternatieve hypothese H₁ stelt dat het gemiddelde van de verschilscores geen nul is (µ_D≠ 0). De t-statistiek voor verschilscores wordt als volgt berekend:

$$T_s=\frac{\bar{X}_1-\bar{X}_2-(\mu_D)}{S_D/\sqrt{n}}$$

Aannames voor de paired-samples t-test

De scores binnen elke conditie moeten onafhankelijk zijn om een t-toets voor gerelateerde steekproeven te kunnen doen.
Daarnaast moeten de verschilscores (D) normaal verdeeld zijn. Niet voldoen aan de deze voorwaarde is in principe niet erg, zolang de steekproef groot is. Bij een kleine sample moet wel aan deze voorwaarde voldaan worden. Onder een grote steekproef wordt een steekproef verstaan van meer dan dertig deelnemers.

Wanneer aan één of meer van de assumpties voor de t-toets voor herhaalde metingen niet wordt voldaan, kan er een alternatieve test gebruikt worden. Dit is de Wilcoxon-test, waarbij gebruik gemaakt wordt van rangscores alvorens de verschilscores te vergelijken.

Effectgrootte

De twee meest gebruikte metingen van effectgrootte zijn Cohen’s d en r² (proportie verklaarde variantie). Omdat Cohen’s d uitgaat van onder andere populatiewaarden (d = μ_D / σ_D) , is het handiger om d te schatten. De geschatte d kan berekend worden door het gemiddelde van de verschilscores te delen door de standaarddeviatie (d = M_D/s). Een waarde van boven de 0.8 wordt gezien als een groot effect. De proportie verklaarde variantie kan berekend worden middels de volgende formule: r² = t²/ t²+df.

Overzicht formules t-test

T-toets	Formule
T-toets bij gelijke varianties (onafhankelijke steekproeven)	$T_p=\frac{\bar{Y}_1-\bar{Y}_2-(\mu_1-\mu_2)}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$	$S^2_p=\frac{(n_1-1)S^2_1+(n_2-1)S^2_2}{n_1+n_2-2}$ $S_p=\sqrt{S^2_p}$
T-toets bij ongelijke varianties (onafhankelijke steekproeven)	$T_s=\frac{\bar{Y}_1-\bar{Y}_2-(\mu_1-\mu_2)}{\sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}}$	df wordt in opgave gegeven
Paired sample T-test (afhankelijke steekproeven)	$T_s=\frac{\bar{X}_1-\bar{X}_2-(\mu_D)}{S_D/\sqrt{n}}~t(n-1)$	$S^2_D=S^2_1-S^2_2-2r_{1,2}S_1S_2$ $S_D=\sqrt{S^2_D}$

T-toets

Formule

T-toets bij gelijke varianties

(onafhankelijke steekproeven)

$T_p=\frac{\bar{Y}_1-\bar{Y}_2-(\mu_1-\mu_2)}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$

$S^2_p=\frac{(n_1-1)S^2_1+(n_2-1)S^2_2}{n_1+n_2-2}$

$S_p=\sqrt{S^2_p}$

T-toets bij ongelijke varianties

(onafhankelijke steekproeven)

$T_s=\frac{\bar{Y}_1-\bar{Y}_2-(\mu_1-\mu_2)}{\sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}}$

df wordt in opgave gegeven

Paired sample T-test

(afhankelijke steekproeven)

$T_s=\frac{\bar{X}_1-\bar{X}_2-(\mu_D)}{S_D/\sqrt{n}}~t(n-1)$

$S^2_D=S^2_1-S^2_2-2r_{1,2}S_1S_2$

$S_D=\sqrt{S^2_D}$

Betrouwbaarheidsintervallen

Betrouwbaarheidsintervallen kunnen helpen in het beschrijven van resultaten uit het hypothesetesten. Wanneer we een specifieke schatting hebben van een parameter, noemen we dat een puntschatting. Er zijn daarnaast ook intervalschattingen, die de grenzen aangeven waarbinnen waarschijnlijk het ware populatiegemiddelde (μ) ligt. Dit zijn de betrouwbaarheidsgrenzen, die het betrouwbaarheidsinterval maken. We willen weten hoe hoog en hoe laag de μ-waarde kan zijn, waarbij we H₀ nog niet verwerpen. Dit geeft dan de grenzen aan waarbinnen we de nulhypothese behouden.

z-toets betrouwbaarheidsinterval: $\bar{X}\pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}}$
one sample t-test betruwbaarheidsinterval: $\bar{X}\pm t_{n-1,\alpha/2} \frac{S}{\sqrt{n}}$
t-test voor onafhankelijke steekproeven met gelijke varianties: $\bar{Y}_1-\bar{Y}_2 \pm t_{n-2,\alpha/2} S_p \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$
t-test voor onafhankelijke steekproeven met ongelijke varianties: $\bar{Y}_1-\bar{Y}_2 \pm t_{df,\alpha/2} \sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}$
T-test voor gepaarde steekproeven: $\mu_D=M_D \pm t \times s_MD$

Power

Naast het meten van de effectgrootte is het ook mogelijk om de power van een statistische test te meten. Power verwijst naar de mate waarin een onderzoek in staat is de effecten van de onderzochte variabelen te detecteren. Een onderzoek met veel power ontdekt welke effecten aanwezig zijn, terwijl een onderzoek met weinig power deze effecten niet opmerkt. De power wordt door veel zaken beïnvloed. Één van deze zaken is het aantal proefpersonen. In het algemeen geldt dat hoe meer proefpersonen er zijn, hoe groter de power is. Sterke effecten zijn makkelijker op te merken dan zwakke. Een onderzoek met een lage power herkent dan ook vaak wel de sterkte effecten, maar de zwakke niet. De power neemt toe naarmate er meer proefpersonen zijn. Om zwakke effecten te herkennen is er een grote power nodig. Bij het herkennen van zwakke effecten is het dan ook nuttig om veel proefpersonen te hebben. Power bereken je door 1-, dus 1 – de kans op een type II fout. Onderzoekers willen vaak minimaal een power van .80.De power van een test wordt beïnvloed door drie belangrijke factoren:

Allereerst speelt de grootte van een steekproef (n) een rol. Hoe groter een steekproef is, hoe groter de kans is om de nulhypothese af te wijzen als deze ook echt fout is. Dit betekent dat de power van een test groter wordt als de grootte van de steekproef stijgt.
Daarnaast wordt de power van een test verlaagd als het alfaniveau verkleind wordt. Als de alfa bijvoorbeeld verlaagd wordt van 5% naar 1% is de kans kleiner dat een effect (dat er in werkelijkheid wel is) gevonden wordt.
Ten derde stijgt de power van een test wanneer van een tweezijdige toets een eenzijdige toets wordt gemaakt.

Access:

Public

Click & Go to more related summaries or chapters:

Samenvattingen per onderwerp bij Inleiding Statistiek

Wat is statistiek?