Wat is statistische inferentie?

Inferentiële statistiek

Er is een manier om uit te zoeken of een verschil in groepsgemiddelden het gevolg is van errorvariantie of van systematische variantie. Hier kunnen we namelijk achter komen door middel van een inferentiële statistiek, dit is statistiek aan de hand van gevolgtrekkingen. Deze methode gaat er vanuit dat de onafhankelijke variabele effect heeft gehad, wanneer het verschil tussen de gemiddelden van de condities groter is dan dat we zouden verwachten op basis van alleen toeval. We vergelijken daarom de groepsgemiddelden die we gevonden hebben met de groepsgemiddelden die we verwachtten te vinden als er alleen sprake zou zijn van errorvariantie. Deze methode geeft helaas geen zekerheid. We kunnen alleen de kans vaststellen dat de verschillen in groepsgemiddelden het gevolg zijn van errorvariantie.

Het toetsen van hypothesen

Wetenschappers proberen hun onderzoekshypotheses te toetsen door de verschillende groepsgemiddelden te analyseren. Eerst formuleren ze een nulhypothese. Deze hypothese stelt dat de onafhankelijke variabele geen effect heeft gehad op de afhankelijke variabele. De experimentele hypothese staat hier vaak tegenover. Deze stelt dat de onafhankelijke variabele wel effect heeft op de afhankelijke variabele. De experimentele hypothese kan geen richting (‘nondirectional’) of wel een richting (‘directional’) aangeven. Een directionele experimentele hypothese (met een richting) wordt eenzijdig genoemd. Hierbij geeft de onderzoeker namelijk al aan of hij verwacht of de onafhankelijk variabele zorgt voor een stijging of daling in de afhankelijke variabele. Wanneer een onderzoeker geen vermoeden heeft over de richting van een effect, dan voert hij of zij een tweezijdige toets uit. Hierbij geeft de onderzoeker geen richting aan. Dit is dus een niet-directionele hypothese. Op basis van statistische analyses kan de nulhypothese verworpen (‘rejecting the null hypotheses’) of behouden (‘failing to reject the null hypothesis’) worden.

Het verwerpen van de nulhypothese betekent dat de onafhankelijke variabele effect heeft gehad. Door de nulhypothese te verwerpen, geef je aan dat er wel verschil is tussen de gemiddelden. De onafhankelijke variabele heeft dan dus effect gehad, en er is sprake van systematische variantie. Bij het verwerpen van de nulhypothese is het verschil in de groepsgemiddelden groter dan wat we zouden verwachten op basis van alleen de errorvariantie. Als de nulhypothese behouden wordt, dan betekent dit dat de onafhankelijke variabele geen effect heeft gehad op de afhankelijke variabele. In dit geval zijn verschillen in groepsgemiddelden niet het resultaat van de onafhankelijke variabele, maar van errorvariantie. De groepsgemiddelden verschillen dan niet meer dan dat we op basis van de errorvariantie zouden verwachten.

Type-I en type-II-fouten

Wanneer de onderzoeksdata statistisch geanalyseerd wordt, zijn er vier mogelijkheden denkbaar.

  1. Correct besluit: de nulhypothese is onjuist, en de onderzoeker verwerpt hem.
  2. Correct besluit: de nulhypothese is juist, en de onderzoeker behoudt hem.
  3. Type-I-fout: de nulhypothese is juist, maar de onderzoeker verwerpt hem. De onderzoeker denkt dus ten onrechte dat de onafhankelijke variabele effect heeft gehad. De kans om een type I fout te maken wordt het alfaniveau genoemd. In de meeste gevallen gebruiken onderzoekers een alfaniveau van 5%. Dit betekent dat ze de nulhypothese verwerpen wanneer er 5% kans is dat de gevonden verschillen tussen de groepsgemiddelden het gevolg zijn van errorvariantie. Op deze manier is er maar 5% kans dat ze het bij het verkeerde eind hebben. Soms hanteren wetenschappers een strenger alfaniveau, namelijk een alfa van 1%. Ze hebben dan maar 1% kans om een type I fout te maken.
    Het verschil tussen de groepsgemiddelden wordt als statistisch significant bestempeld wanneer we de nulhypothese verwerpen met een lage kans op een type-I-fout. Een statistisch significant resultaat is een resultaat waarvan we weten dat er maar een kleine kans is (vaak kleiner of gelijk aan 5%) dat deze het gevolg is van errorvariantie.
  4. Type-II-fout: de nulhypothese is onjuist, maar de onderzoeker behoudt deze toch. De onderzoeker stelt dus dat de onafhankelijke variabele geen effect heeft gehad, terwijl dat in werkelijkheid wel zo was. De kans op een type-II-fout wordt bèta genoemd. Het onbetrouwbaar meten van de afhankelijke variabele verhoogt de bèta. Effecten die in werkelijkheid wel bestaan, worden met een onbetrouwbare meting namelijk niet opgemerkt. Dit leidt tot een grotere kans op een type-II-fout, dus een grotere bèta. Ook kunnen fouten in het verzamelen en coderen van responsen, extreem heterogene steekproeven en slechte experimentele controle leiden tot een grotere bèta. Om de kans op een type-II-fout te verkleinen, proberen wetenschappers experimenten te ontwerpen die veel power hebben.

De z-toets

Over het algemeen weten we de waarde van σ niet, en moeten we die schatten met de steekproef standaarddeviatie (s). als de standaarddeviatie van de populatie echter wel bekend is, kan gebruik worden gemaakt van de z-toets.

Stap 1: het formuleren van een hypothese

Allereerst wordt de hypothese opgesteld. Er zijn altijd twee hypothesen: de nulhypothese en de alternatieve hypothese. De nulhypothese houdt in dat een behandeling geen effect heeft. Deze hypothese stelt dus eigenlijk dat er geen verschil of verandering is ten opzichte van de onbehandelde populatie. De nulhypothese geven we aan met het symbool H0. De H staat voor hypothese en de nul staat voor het nuleffect. Dan is er nog de alternatieve hypothese (H1). Deze stelt dat er wel een verschil of verandering is. In de context van een experiment stelt de alternatieve hypothese dat de onafhankelijke variabele (bijvoorbeeld een behandelingsmethode voor depressie) een effect heeft op de afhankelijke variabele (mate van depressie). De H1 kan één richting of twee richtingen opgaan. Als de nulhypothese bijvoorbeeld is dat de gemiddelde depressiescore 30 is in de populatie depressieve mensen, kan de alternatieve hypothese zijn dat het gemiddelde niet gelijk is aan 30 (µ ≠ 30). In sommige gevallen wordt de richting van het verschil ook gespecificeerd. Als verwacht wordt dat de behandelde populatie een hoger gemiddelde heeft geldt H1 : μ1 < μ2 en als verwacht wordt dat de behandelde populatie een lager gemiddelde heeft, geldt H1: μ1 > μ2. Het is bijvoorbeeld mogelijk om in H1 te stellen dat het gemiddelde lager is dan 30 (µ<30) of groter dan 30 (µ>30). De laatste mogelijkheid is in dit voorbeeld eigenlijk overbodig, omdat het bijna ondenkbaar is dat een behandelingsmethode de mate van depressiviteit laat stijgen. Hypothesen gaan altijd over populaties, al worden steekproeven gebruikt om hypothesen te testen.

Stap 2: criteria voor een besluit

Om een gegrond besluit te nemen over de (on)juistheid van de nulhypothese, moeten we bepaalde criteria gebruiken. We gebruiken het significantieniveau of het alfaniveau (α) als criterium. Het alfaniveau is een grens in de normaalverdeling die onderscheid maakt tussen scores met een grote kans en scores met een kleine kans van voorkomen in de steekproef als de hypothese juist is. Een alfa van 5% (α=0.05) zegt dat er maar 5% kans is dat een resultaat door toeval wordt gevonden. Het alfaniveau is een kanswaarde die gebruikt wordt om erg onwaarschijnlijke steekproefresultaten vast te stellen als de nulhypothese waar zou zijn. Het gebied dat afgebakend wordt door het significantieniveau in de staart van de verdeling is het kritieke gebied. Het kritieke gebied bestaat uit extreme steekproefwaarden die heel onwaarschijnlijk zijn als de nulhypothese waar zou zijn. Wanneer de waarden in het kritieke gebied vallen, verschillen ze significant van het verwachte gemiddelde en wordt de nulhypothese verworpen. Bij een alfa van 5% bevindt de 5% van de scores zich in de staarten van de normale distributie; voor z=-1.96 en na z=+1.96. Deze waarde zijn de grenzen voor de kritische regio bij α=0.05.

Stap 3: data verzamelen en rekenen

Data worden altijd verzameld nadat hypothesen geformuleerd zijn. Zo kunnen de data getoetst worden aan de hypothesen; de onderzoeker kan op objectieve wijze de data evalueren. Nadat de ruwe data verzameld is, worden er steekproefwaarden (statistieken) uitgerekend. De onderzoeker berekent bijvoorbeeld het steekproefgemiddelde. Zo kan hij het steekproefgemiddelde vergelijken met de nulhypothese. Om dit te doen berekent hij een z-score die beschrijft waar het steekproefgemiddelde zich bevindt in relatie tot het gemiddelde van de nulhypothese. De z-score voor het steekproefgemiddelde is: z=(M- µ)/ σM. Deze formule stelt dat de z-score berekend wordt door het populatiegemiddelde uit de nulhypothese (µ) af te trekken van het steekproefgemiddelde (M). Dit getal wordt vervolgens gedeeld door de standaardfout tussen M en µ. De z-score bij het hypothese testen is een voorbeeld van een teststatistiek.

Stap 4: een besluit nemen

De onderzoeker gebruikt de berekende z-score uit de vorige stap om een besluit te nemen over de nulhypothese. De eerste mogelijkheid is dat de onderzoeker de nulhypothese verwerpt. Hiervan is sprake wanneer de steekproefdata in de kritische regio valt. Dit betekent dat er een significant verschil is tussen de steekproef en de nulhypothese. De steekproefwaarden bevinden zich namelijk in de staart van de normaalverdeling. In het voorbeeld met de depressiebehandeling, betekent dit dat de onderzoeker heeft aangetoond dat de behandeling wel degelijk effect heeft. Het is ook mogelijk dat de data ervoor zorgt dat de nulhypothese niet afgewezen kan worden. Dit betekent dat een behandeling geeft effect heeft gehad. Dit gebeurt wanneer de steekproefdata niet in de kritische regio vallen.

Effectgrootte

Sommige onderzoekers hebben kritiek op het proces van hypothesen testen. De grootste kritiek gaat over de interpretatie van een significant resultaat. Er wordt bij het testen van een hypothese namelijk vooral aandacht besteed aan de data en niet aan de hypothesen zelf. Als de nulhypothese wordt afgewezen, maken we een statement over de steekproefdata en niet over de nulhypothese. Op basis van steekproefdata wordt de nulhypothese dus afgewezen of behouden. Of de nulhypothese werkelijk (on)waar is, weten we niet. Een ander kritiekpunt is dat een significant effect niet meteen zegt dat een behandeling een groot effect heeft. Iets is significant of niet, maar dit zegt niets over de grootte van het effect dat gevonden is. Een significant effect is dus niet hetzelfde als een groot effect. Om meer inzicht te krijgen in de grootte van een significant effect, heeft Cohen (1988) de zogenaamde effectgrootte voorgesteld. Zijn maat voor effectgrootte noemen we Cohen’s d. Deze maat kan berekend worden door eerst het verschil tussen het steekproefgemiddelde en het oorspronkelijke populatiegemiddelde te vinden (M- µ). Vervolgens wordt deze uitkomst gedeeld door de standaarddeviatie van de populatie. De uitkomst van Cohen’s d is 0.2 bij een klein effect, 0.5 bij een gemiddeld effect en 0.8 bij een groot effect.

De t-test

Over het algemeen weten we de waarde van σ niet, en moeten we die schatten met de steekproef standaarddeviatie (s). Wanneer we σ vervangen door s, kunnen we echter niet meer gebruikmaken van de z formule, maar gebruiken we de t test. De t test gebruikt s² als schatting van σ². De t-verdeling maakt gebruik van n-1 vrijheidsgraden. Hoe groter de waarde van df voor een steekproef, hoe beter s (standaarddeviatie van een steekproef) σ (standaarddeviatie van een populatie) representeert De t-statistiek rekenen we uit door middel van de volgende formule: t=(M- µ)/ sM. sM staat voor de standaardfout. Deze wordt als volgt berekend: sM =s/√n. Dit wordt gebruikt als schatting van de echte standaardfout . Een handig schema om te gebruiken wanneer je een hypothese toets met de t-toets is het onderstaande schema:

 

 

(14) rechtszijdig

(15) linkszijdig

(16) tweezijdig

1. Formuleren nul- en alternatieve hypothese

H0: $\mu$ ≤ 123

H1: $\mu$ > 123

H0: $\mu$ ≥ 126

H1: $\mu$ < 126

H0: $\mu$ = 122

H1: $\mu$ ≠ 122

2. Keuze van de toetsgrootheid

$T=\frac{\bar{X}-\mu_o}{S/\sqrt{n}}$

$T=\frac{\bar{X}-\mu_o}{S/\sqrt{n}}$

$T=\frac{\bar{X}-\mu_o}{S/\sqrt{n}}$

3. Bepalen verdeling toetsgrootheid

$T~t(n-1)$

$T~t(n-1)$

$T~t(n-1)$

4. Intuïtief verwerpingsgebied

$\bar{X}^{>>123}_{t>>0}$

……………

$\bar{X}^{<<222}_{t<<0}$

$\bar{X}^{>>222}_{t>>0}$

5. Vaststellen significantieniveau

$\alpha$ = 0.05

$\alpha$ = 0.05

$\alpha$ = 0.05

 

6. Opzoeken kritieke waarden

t99, 0.05= 1.660

-t99, 0.05= -1.660

……………

7. Vergelijk geobserveerde waarde toetsgrootheid met de kritieke waarde

$t=\frac{125-123}{10/\sqrt{100}}$ = 2 > 1.660, dus verwerp H0: het gemiddelde IQ op de EUR is niet kleiner of gelijk aan 123, uitgaande van

$\alpha$ = 0.05.

$t=\frac{125-123}{10/\sqrt{100}}$ = -1 > -1.660, dus handhaaf H0: het gemiddelde IQ op de EUR is groter of gelijk aan 126, uitgaande van

$\alpha$ = 0.05.

$t=\frac{125-123}{10/\sqrt{100}}$ = 3 > 1.985, dus verwerp H0: het gemiddelde IQ op de EUR is niet gelijk aan 122, uitgaande van $\alpha$ = 0.05.

 

 

Aannames voor de one-sample t-toets

Er zijn twee aannames voor het uitvoeren van een t-toets.

  1. Allereerst moeten de scores uit de steekproef bestaan uit onafhankelijke observaties. Dit betekent dat de ene score geen invloed mag hebben op de andere score. De kans op een bepaalde uitkomst bij een score wordt dus niet beïnvloed door een andere score.
  2. Daarnaast moet de populatie, waar een steekproef uit getrokken wordt, normaal verdeeld zijn. In de praktijk heeft het schenden van deze aanname echter weinig invloed op de t-statistiek, vooral als de steekproef groot is. Met hele kleine steekproeven is het echter wel belangrijk dat de populatie normaal verdeeld is. Als je er dus niet zeker van bent dat de verdeling van een populatie normaal is, kun je het beste een grote steekproef selecteren.

Effectgrootte van de t-test

De grootte van het effect kan berekend worden door Cohen’s d. In dat geval moet het verschil tussen het steekproef- en populatiegemiddelde gedeeld worden door de standaarddeviatie van de populatie. In de meeste gevallen is de standaarddeviatie van de populatie echter niet bekend om de effectgrootte mee te berekenen. Daarom is de geschatte d bedacht. In dat geval wordt het verschil tussen het gemiddelde van een steekproef en de populatie gedeeld door de standaarddeviatie van de steekproef.

Proportie verklaarde variantie (r²)

Een andere manier om effectgrootte te bepalen is door te kijken hoeveel van de spreiding tussen de scores wordt verklaard door een effect. Een effect kan er namelijk voor zorgen dat scores stijgen (of dalen). De proportie verklaarde variantie kan gevonden worden door de t-statistiek te kwadrateren en te delen door hetzelfde getal plus de vrijheidsgraden. In formulevorm is dat dus: r² = t²/ t²+df. De vrijheidsgraden worden gevonden door het aantal scores te verminderen met één. Een proportie verklaarde van 0.01 staat voor een klein effect. Een waarde van 0.09 staat voor een gemiddeld effect. Een grote proportie verklaarde variantie wordt gekenmerkt door een r² van 0.25. De r² wordt in onderzoeksliteratuur vaak vermeld in de vorm van procenten.

De t-test voor onafhankelijke steekproeven

De t test wordt het meest gebruikt bij testen van verschillen tussen twee onafhankelijke groepen. Bijvoorbeeld wanneer we prestaties vergelijken tussen een controle groep en een experimentele groep (die een bepaalde behandeling heeft ondergaan). We willen weten of het verschil groot genoeg is om er vanuit te gaan dat de twee steekproeven uit verschillende populaties komen.

Wanneer we gemiddelden van twee verschillende populaties vergelijken, testen we een nulhypothese in de vorm van H0 : μ1μ2 = 0. Hierbij hoort een steekproefverdeling van alle mogelijke verschilscores tussen de populatiegemiddelden. In het geval van twee normaal verdeelde populaties, is de verdeling van verschilscores ook een normaal verdeling. De variantie van deze verdeling kun je vinden door de variantie som wet: de variantie van een som of verschil van twee onafhankelijke variabelen is gelijk aan de som van hun varianties.

σ²X1-x2 = σ²X1 + σ²X2 = σ²1/n1 + σ²2/n2.

De formule voor de t-statistiek is als volgt:

$$T_s=\frac{\bar{Y}_1-\bar{Y}_2-(\mu_1-\mu_2)}{\sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}}$$

µ1 2 staat gelijk aan nul en valt dus weg in de formule.

Aannames voor de t-toets met twee onafhankelijke metingen

  1. De observaties in elke steekproef moeten onafhankelijk zijn.
  2. De populaties waar de steekproeven uit genomen zijn, moeten normaal verdeeld zijn. Als je als onderzoeker vermoedt dat de populaties niet normaal verdeeld zijn, is het een goed idee om grote steekproeven te gebruiken.
  3. De twee populaties moeten gelijke varianties hebben. Dit noemen we de homogeniteit van varianties. Het poolen van steekproefvarianties is namelijk alleen zinvol als beide populaties dezelfde variantie hebben. Deze aanname is erg belangrijk, omdat een juiste interpretatie van onderzoeksresultaten ervan afhangt. Dit kan je checken met levene’s test in spss.

Gepoolde variantie

De bovenstaande formule is alleen te gebruiken als beide steekproeven van dezelfde grootte zijn (n1= n2). In zo’n geval ligt de variantie van de twee steekproeven precies in het midden van de twee aparte varianties. In situaties waarin de twee steekproeven niet van dezelfde grootte zijn, is deze formule niet toereikend genoeg. Dit wordt veroorzaakt doordat de twee steekproeven even zwaar meewegen in de formule, terwijl een kleinere steekproef minder mee zou moeten wegen dat een grotere. Er ontstaat een bias naar de kleinere steekproef. Om hiervoor te corrigeren wordt een formule gebruikt die de varianties combineert, de gepoolde variantie. Deze wordt gevonden door het gewogen gemiddelde te nemen van de twee varianties. De kwadratensommen van beide steekproeven worden gedeeld door het aantal vrijheidsgraden. Het aantal vrijheidsgraden van een kleinere steekproef is lager, waardoor deze minder mee zal wegen. Eerder is gezegd dat de variantie van een steekproef (s²) gevonden kan worden door SS te delen door df. Om de gepoolde variantie uit te rekenen (s²p) wordt een andere formule gebruikt: (SS1 + SS2)/ df1 + df2. De geschatte standaard error van M1 - M2 wordt gevonden door de wortel (√ ) te trekken uit de uitkomst van (s²p/ n1 + s²p/ n2). Een andere formule voor de gepoolde variantie is als volgt: p = ((n1 - 1)s21 + (n2 - 1)s22) / (n1 + n2 - 2). De nieuwe t-formule wordt dan:

$$(\bar{X}_1-\bar{X}_2)/\sqrt{s^2_p(\frac{1}{n_1}+\frac{1}{n_2})}$$

Effectgrootte

Zoals eerder gezegd wordt Cohen’s d berekend door het verschil tussen twee gemiddelden te nemen en dit te delen door de standaarddeviatie van de populatie. Bij twee onafhankelijke steekproeven wordt het verschil tussen de twee steekproeven (M1 - M2) gebruikt om het verschil in gemiddelden te schatten. De gepoolde standaarddeviatie (√s²p) wordt gebruikt om de standaarddeviatie van de populatie te schatten. De formule om Cohen’s d te schatten wordt dus: geschatte d = (M1 - M2)/ √s²p.

Gepaarde t-test

Een gepaarde t-toets (‘paired t-test’) wordt gebruikt wanneer er sprake is van een gematcht ontwerp of van herhaalde metingen. Bij de gepaarde t-toets wordt er rekening mee gehouden dat de deelnemers in de twee condities op elkaar lijken.. In dit geval is er sprake van twee verschillende steekproeven, maar elk individu uit de ene steekproef wordt gematcht met een individu uit de andere steekproef. Individuen worden gematcht op basis van variabelen die belangrijk worden gevonden voor het desbetreffende onderzoek. Dit leidt tot een test met meer power: als de onafhankelijke variabele daadwerkelijk effect heeft, dan blijkt dit ook uit de test. Hoe minder errorvariantie er namelijk is, hoe groter de power van het experiment. De hoge power zorgt ervoor dat de gepoolde standaarddeviatie (sp) kleiner wordt. Het kleiner worden van de gepoolde standaarddeviatie leidt weer tot een grotere t-waarde.

De t-statistiek voor gerelateerde samples is qua structuur hetzelfde als de andere t-statistieken. Het enige grote verschil is dat de t-statistiek bij gerelateerde steekproeven gebaseerd is op verschilscores in plaats van ruwe scores (X-waarden). Omdat deelnemers voor en na een behandeling onderzocht worden, heeft elke deelnemer een verschilscore. De verschilscore wordt als volgt gevonden:

D (van difference) = X2- X1.

In deze formule staat X2 voor de tweede keer dat een steekproef onderzocht wordt (dus na de behandeling). Als er een negatief getal uit de formule komt, betekent dit dat de mate van een verschijnsel afgenomen is na de behandeling. Een onderzoeker probeert aan de hand van verschilscores uit te vinden of er een verschil is tussen twee condities in de populatie. Hij wil weten wat er zou gebeuren wanneer elk individu in de populatie twee keer gemeten zou worden (voor en na een behandeling). De onderzoeker wil weten wat het gemiddelde van verschilscores (µD) in de populatie is.

De nulhypothese is dat het gemiddelde van de verschilscores nul is (µD=0). Volgens deze hypothese is het wel mogelijk dat sommige individuen in de populatie positieve verschilscores hebben. Ook is het volgens deze formule mogelijk dat andere individuen negatieve verschilscores hebben. Het gaat er echter om dat de nulhypothese stelt dat het gemiddelde van alle verschilscores nul is. De alternatieve hypothese H1 stelt dat het gemiddelde van de verschilscores geen nul is (µD ≠ 0). De t-statistiek voor verschilscores wordt als volgt berekend:

$$T_s=\frac{\bar{X}_1-\bar{X}_2-(\mu_D)}{S_D/\sqrt{n}}$$

Aannames voor de paired-samples t-test

  1. De scores binnen elke conditie moeten onafhankelijk zijn om een t-toets voor gerelateerde steekproeven te kunnen doen.
  2. Daarnaast moeten de verschilscores (D) normaal verdeeld zijn. Niet voldoen aan de deze voorwaarde is in principe niet erg, zolang de steekproef groot is. Bij een kleine sample moet wel aan deze voorwaarde voldaan worden. Onder een grote steekproef wordt een steekproef verstaan van meer dan dertig deelnemers.

Wanneer aan één of meer van de assumpties voor de t-toets voor herhaalde metingen niet wordt voldaan, kan er een alternatieve test gebruikt worden. Dit is de Wilcoxon-test, waarbij gebruik gemaakt wordt van rangscores alvorens de verschilscores te vergelijken.

Effectgrootte

De twee meest gebruikte metingen van effectgrootte zijn Cohen’s d en r² (proportie verklaarde variantie). Omdat Cohen’s d uitgaat van onder andere populatiewaarden (d = μD / σD) , is het handiger om d te schatten. De geschatte d kan berekend worden door het gemiddelde van de verschilscores te delen door de standaarddeviatie (d = MD/s). Een waarde van boven de 0.8 wordt gezien als een groot effect. De proportie verklaarde variantie kan berekend worden middels de volgende formule: r² = t²/ t²+df.

Overzicht formules t-test

T-toets

Formule

T-toets bij gelijke varianties

(onafhankelijke steekproeven)

 

$T_p=\frac{\bar{Y}_1-\bar{Y}_2-(\mu_1-\mu_2)}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$

$S^2_p=\frac{(n_1-1)S^2_1+(n_2-1)S^2_2}{n_1+n_2-2}$

$S_p=\sqrt{S^2_p}$

T-toets bij ongelijke varianties

(onafhankelijke steekproeven)

 

$T_s=\frac{\bar{Y}_1-\bar{Y}_2-(\mu_1-\mu_2)}{\sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}}$

df wordt in opgave gegeven

Paired sample T-test

(afhankelijke steekproeven)

 

$T_s=\frac{\bar{X}_1-\bar{X}_2-(\mu_D)}{S_D/\sqrt{n}}~t(n-1)$

$S^2_D=S^2_1-S^2_2-2r_{1,2}S_1S_2$

$S_D=\sqrt{S^2_D}$

Betrouwbaarheidsintervallen

Betrouwbaarheidsintervallen kunnen helpen in het beschrijven van resultaten uit het hypothesetesten. Wanneer we een specifieke schatting hebben van een parameter, noemen we dat een puntschatting. Er zijn daarnaast ook intervalschattingen, die de grenzen aangeven waarbinnen waarschijnlijk het ware populatiegemiddelde (μ) ligt. Dit zijn de betrouwbaarheidsgrenzen, die het betrouwbaarheidsinterval maken. We willen weten hoe hoog en hoe laag de μ-waarde kan zijn, waarbij we H0 nog niet verwerpen. Dit geeft dan de grenzen aan waarbinnen we de nulhypothese behouden.

  • z-toets betrouwbaarheidsinterval: $\bar{X}\pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}}$
  • one sample t-test betruwbaarheidsinterval: $\bar{X}\pm t_{n-1,\alpha/2} \frac{S}{\sqrt{n}}$
  • t-test voor onafhankelijke steekproeven met gelijke varianties: $\bar{Y}_1-\bar{Y}_2 \pm t_{n-2,\alpha/2} S_p \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$
  • t-test voor onafhankelijke steekproeven met ongelijke varianties: $\bar{Y}_1-\bar{Y}_2 \pm t_{df,\alpha/2} \sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}$
  • T-test voor gepaarde steekproeven: $\mu_D=M_D \pm t \times s_MD$

Power

Naast het meten van de effectgrootte is het ook mogelijk om de power van een statistische test te meten. Power verwijst naar de mate waarin een onderzoek in staat is de effecten van de onderzochte variabelen te detecteren. Een onderzoek met veel power ontdekt welke effecten aanwezig zijn, terwijl een onderzoek met weinig power deze effecten niet opmerkt. De power wordt door veel zaken beïnvloed. Één van deze zaken is het aantal proefpersonen. In het algemeen geldt dat hoe meer proefpersonen er zijn, hoe groter de power is. Sterke effecten zijn makkelijker op te merken dan zwakke. Een onderzoek met een lage power herkent dan ook vaak wel de sterkte effecten, maar de zwakke niet. De power neemt toe naarmate er meer proefpersonen zijn. Om zwakke effecten te herkennen is er een grote power nodig. Bij het herkennen van zwakke effecten is het dan ook nuttig om veel proefpersonen te hebben. Power bereken je door 1-, dus 1 – de kans op een type II fout. Onderzoekers willen vaak minimaal een power van .80.De power van een test wordt beïnvloed door drie belangrijke factoren:

  1. Allereerst speelt de grootte van een steekproef (n) een rol. Hoe groter een steekproef is, hoe groter de kans is om de nulhypothese af te wijzen als deze ook echt fout is. Dit betekent dat de power van een test groter wordt als de grootte van de steekproef stijgt.
  2. Daarnaast wordt de power van een test verlaagd als het alfaniveau verkleind wordt. Als de alfa bijvoorbeeld verlaagd wordt van 5% naar 1% is de kans kleiner dat een effect (dat er in werkelijkheid wel is) gevonden wordt.
  3. Ten derde stijgt de power van een test wanneer van een tweezijdige toets een eenzijdige toets wordt gemaakt.

Image

Access: 
Public

Image

Join WorldSupporter!
Search a summary

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Check the related and most recent topics and summaries:
Activities abroad, study fields and working areas:

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Follow the author: Social Science Supporter
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
995