Collegeaantekeningen Toetsende Statistiek 2015-2016

Deze collegeaantekeningen zijn gebaseerd op het vak Toetsende Statistiek van het jaar 2015-2016, universiteit Leiden.

College 1 Steekproevenverdeling en Hypothesetoetsing

Toetsende statistiek houdt zich bezig met het testen van hypotheses. Hypothesetoetsing is nodig om te kijken of een algemene theorie (deprivatietheoie) nog geldig is voor de populatie waarover de theorie gaat.

Om dit te testen stellen we eerst een onderzoeksvraag op aan de hand van de algemene theorie. Omdat het vrijwel onmogelijk is om de gehele populatie te onderzoeken, worden er steekproeven gedaan om hypotheses te toetsen. Deze steekproeven leveren ons vervolgens verschillende steekpoefgegevens op, waaronder totaalscores en gemiddelden.

Als de steekproefgegevens duidelijk verschillen van de algemene theorie is het wellicht nodig om de theorie aan te passen. In dat geval verwerpen we onze algemene theorie ofwel onze nulhypothese.

Stappenplan voor hypothesetoetsing

De volgende stappen worden doorlopen om een hypothese te toetsen:

  1. Hypothese: het vormen/afleiden van een toetsbare hypothese aan de hand van een algemene theorie/deprivatietheorie.

  2. Steekproevenverdeling: het vaststellen van de steekproevenverdeling

  3. Toetsstatistiek: uitrekenen van de toetsstatistiek die aansluit bij de steekproevenverdeling.

  4. Verwerpingsgebied bepalen: wanneer wordt de hypothese verworpen?

  5. Statistische conclusie: het trekken van een statistische conclusie op basis van de verzamelde gegevens

  6. Inhoudelijke conclusie: het verwoorden van de statistische gegevens/conclusie

Hypothese

Een hypothese is een uitspraak over parameters in een populatie. We maken onderscheid tussen de nulhypothese en de alternatieve hypothese:

  • Nul-hypothese (H0): er bestaat in de populatie geen verschil of relatie, of bij een experiment: de ingreep heeft geen effect op scores in de populatie. H0 is het startpunt van het stappenplan.

  • Alternatieve hypothese (Ha): er bestaat wél een verschil, verandering of relatie in de populatie. Bij een experiment heeft de ingreep wél effect op de scores in de populatie.

De alternatieve hypothese (Ha) kan éénzijdig of tweezijdig zijn ten opzichte van de nulhypothese (H0).

Bij éénzijdige toetsing wordt verwacht dat het gemiddelde van Ha groter of kleiner is dan dat van H0.

Als we verwachten dat het gemiddelde van Ha méér is dan H0, is er sprake van een rechtszijdige alternatieve hypothese, dus als H0: µ = 9, dan Ha: µ > 9.

Als we verwachten dat het gemiddelde van Ha juist minder is dan H0, dan doen we een linkszijdige alternatieve hypothese: H0: µ = 9 en Ha: < 9.

Wanneer we een verschil tussen Ha en H0 verwachten maar eigenlijk geen idee hebben of Ha groter of kleiner is dan H0, kiezen we ervoor om tweezijdig te toetsen. Dus stel: H0: µ = 9, dan Ha: µ ≠ 9.

Steekproevenverdeling

Een steekproevenverdeling is een verdeling van een statistiek, verkregen uit alle mogelijke steekproeven van een bepaalde grootte (n) uit een populatie. Anders gezegd: de steekproevenverdeling bestaat uit de gemiddelden uit meerdere steekproeven. We gebruiken de steekproevenverdeling om toevalsfluctuaties/sampling error als oorzaak van verschillen uit te sluiten.

Als de gemiddelden uit alle steekproeven normaal verdeeld zijn, dan zijn de gestandaardiseerde gemiddelden ook standaard normaal verdeeld. Zij volgen dan de standaard normale verdeling N(0, 1) ofwel de z-verdeling.

Toetsstatistiek

Een toetsstatistiek is een getal dat berekend wordt uit steekproefgegevens en dat gebruikt wordt voor het vergelijken van een steekproefstatistiek en een populatieparameter. Een voorbeeld van een steekproefstatistiek is het gemiddelde van een steekproef (µ). Een voorbeeld van een populatiepatarmater is het gemiddelde van een populatie (x̅). Een voorbeeld van een toetsstatistiek is het gestandaardiseerde gemiddelde z, dat het gestandaardiseerde gemiddelde van een steekproef is → z = (x̅ - µ) / σ.

Het gestandaardiseerde steekproefgemiddelde is een z-score, die kan worden afgezet tegen de standaardnormaalverdeling van de H0 populatie (de z-verdeling). Als H0 waar is, dan ligt z dicht bij nul en als H0 niet waar is, dan ligt z ver van nul.

Verwerpingsgebied of verwerpingsgrens

Hoe onwaarschijnlijk moet de waarde van onze steekproefstatistiek zijn om te mogen concluderen dat deze statistiek niet bij de H0 verdeling hoort? Het significatie-niveau of alpha (α) is een kans die gebruikt wordt om het concept onwaarschijnlijkheid aan te duiden in een hypothese toets. Het verwerpingsgbied bevat, gegeven dat de nul-hypothese waar is, alle extreme, onwaarschijnlijke, steekproefstatistieken.

Over het algemeen wordt een verwerpingsgbied (α) van 5% of 0.05 aangehouden. Dit verwerpingsgbied is een oppervlakte van de normaalverdeling. Als het gemiddelde z van een steekproefverdeling binnen dit verwerpingsgbied van de normaalverdeling van de populatie van H0 valt, wordt aangenomen dat deze steekproef niet binnen deze populatie valt en een eigen populatie heeft, waarvan het gemiddelde afwijkt van die van H0.

Er zijn twee methoden om het gemiddelde z te vergelijken met α:

  • Methode 1: verwerpingsgbied: z → p ⇔ α. Bepaal het gebied p dat hoort bij de toetsstatistiek z. Als p < α, dan verwerpen we H0. De p is de probability (percentage in de z-tabel) dat rechts van z ligt bij een rechtszijdige Ha. Bij een linkszijdige Ha is het gebied dat links van z ligt de probability, want bij een linkszijdige Ha ligt het verwerpingsgbied aan de linkerkant van de verdeling.

  • Methode 2: verwerpingsgrens: α → zα ⇔ z. Bepaal de grenswaarde zα die hoort bij het verwerpingsgbied α. Als z > zα, dan verwerpen we H0. Deze methode is minder nuttig, want hierbij gebruik je het verschil tussen de waarden zα en z, dit geeft minder informatie dan een oppervlakte p (hierover meer in een volgend college).

Let op of er éénzijdig- of tweezijdig getoetst wordt. Bij tweezijdig toetsen, toets je α namelijk aan twee kanten, dus het verwerpingsgbied wordt links en rechts in de verdeling: α / 2. Bij tweezijdig toetsen verklein je dus het verwerpingsgebied, waardoor je minder snel een hypothese zult verwerpen dan bij een éénzijdige hypothesetoetsing. Om verwarring te voorkomen is het aan te raden om altijd een tekening bij je toetsing te gebruiken, teken dus je normaalverdeling uit en zet de gegevens (z, α, p) erbij.

Type I en type II fout

Het kan voorkomen dat een hypothese onjuist verworpen of behouden wordt:

Een type I fout ontstaat wanneer een onderzoeker de nul-hypothese verwerpt, terwijl de nul-hypothese waar is. Het verwerpingsgbied is onderdeel van de normaalverdeling van een populatie H0 en is meestal 5% of 0.05. Stel dat het gestandaardiseerde steekproefgemiddelde (z) binnen dit verwerpingsgbied valt, je concludeert dan dus dat Ha waar is en H0 niet waar en verwerpt H0. De kans dat H0 onjuist is verworpen is dan (100 x α)% en wordt de type I fout genoemd (kans = α).

Een type II fout ontstaat wanneer een onderzoeker de nul-hypothese niet verwerpt, terwijl de nul-hypothese niet waar is. Als het gestandaardiseerde steekproefgemiddelde (z) niet binnen het verwerpingsgebied valt dan wordt H0 niet verworpen. Er is echter een kans dat het deel van de normaalverdeling van H0 dat niét binnen het verwerpingsgbied valt, ook een deel is van de normaalverdeling van Ha. De kans dat Ha waar is (H0 is dus niet waar) maar we verwerpen H0 toch niet, is dan (100 x β)% en wordt de type II fout genoemd (kans = β).

De oplossing voor een type II fout wordt de Power genoemd en is het tegengestelde van de type II fout, namelijk 1 - β. De power van een toets is de kans op het verwerpen van de nul-hypothese wanneer de nul-hypothese feitelijk niet waar is, en de alternatieve hypothese wel. We vinden over het algemeen een power van 80% of meer acceptabel.

Statistische conclusie en inhoudelijke conclusie

Wanneer er een statistisch significant verschil wordt gevonden, dus z → p < α, of α: z > zα, dan verwerpen we H0. Het al dan niet verwerpen van H0 is uiteindelijk je statistische conclusie. Deze conclusie wordt vervolgens vertaald naar een inhoudelijke conclusie, waarin je formuleert wat de uitkomsten van de getoetste hypotheses zijn.

College 2 Basisconcepten van Waarschijnlijkheid

Toegestane waarden voor kansen

Elke kans ligt tussen 0 en 1. Nul betekent dat er geen kans is dat de gebeurtenis plaats vindt en 1 betekent dat het zeker is dat deze gebeurtenis plaats vindt. De complementregel is de kans dat een gebeurtenis niet plaats vindt. Als een gebeurtenis 40% kans heeft om plaats te vinden is het complement hiervan 1 – 0.4 = 0.6 = 60%. De som van alle mogelijke kansen bij elkaar is 1. Bijvoorbeeld het complement 0.6 + de kans dat de gebeurtenis wel plaats vindt 0.4 = 1.c. De kans van een gebeurtenis wordt aangegeven met een P van probability. Als de P (van gebeurtenis A) hoger is dan de P (van gebeurtenis B) is A waarschijnlijker dan

B. Als P (A) = P (B) dan zijn gebeurtenissen A en B even waarschijnlijk.

Somregel

Bij disjuncte (wederzijds uitsluitende) gebeurtenissen wordt de somregel toegepast om de kans op een gebeurtenis of een andere gebeurtenis te berekenen. De 2 kansen worden bij elkaar opgeteld. Dit wordt aangegeven met: P(A of B) = P(A) + P(B). Op sheet 9 staat hier een voorbeeld van. De twee kansen van 0.009 zijn disjunct omdat het feit dat iemand drager is van MCADD (1x wel gemuteerd, 1x niet gemuteerd) de mogelijkheid tot niet-drager (geen 1x niet gemuteerd of geen 1x wel gemuteerd, of allebei niet) en de mogelijkheid tot het hebben van de ziekte (2x wel gemuteerd) uitsluit; je kunt namelijk niet tegelijkertijd drager en niet-drager of drager en hebber van de ziekte zijn, Hierdoor kun je de twee kansen bij elkaar optellen

Productregel

Bij onafhankelijke kansen pas je de productregel toe. De productregel wordt als volgt genoteerd: P (A en B) = P (A) x P (B). Je berekent met de productregel de kans dat twee onafhankelijke gebeurtenissen gelijktijdig plaatsvinden. Op sheet 13 kun je hier een voorbeeld van zien.

Somregel bij afhankelijke gebeurtenissen

Bij afhankelijke gebeurtenissen voldoet de standaard-somregel niet:

Stel, gebeurtenis blauw en geel zijn afhankelijk van elkaar. Al zou je de standaard-somregel toepassen dan zou je het overlappende gedeelte (groen) 2 keer berekenen, want bij P (geel) neem je het groene stukje mee, maar ook bij P (blauw). Om dit te compenseren moet je van de productregel het groene stukje aftrekken. Dit doe je met behulp van de volgende formule: P(A of B) = P(A) + P(B) − P(A en B). Hierbij is P(A en B) het groene stukje.

Kansregels bij afhankelijke gebeurtenissen

Er zijn drie kansregels die je moet kennen om een uitspraak te kunnen doen over de afhankelijkheid van gebeurtenissen.

  • Marginale kans: De marginale kans beschouwt de kans van één enkele variabele (los van andere variabelen). Op sheet 19 kun je een voorbeeld zien van een marginale kans.

  • Gezamenlijke kans: De gezamenlijke kans beschouwt de kans op een combinatie van gebeurtenissen. Op sheet 20 kun je hier een voorbeeld van zien.

  • Conditionele kans: De conditionele kans is de kans op een gebeurtenis gegeven dat een andere gebeurtenis heeft plaatsgevonden. In formulevorm is de conditionele kans:

  • P(B|A) = P (A en B) / P(A) B|A wilt zeggen de kans op B gegeven dat A heeft plaatsgevonden. Op sheet 21 kun je hier een voorbeeld van zien.

Er zijn twee manieren om een uitspraak te doen over de afhankelijkheid van gebeurtenissen. Als de conditionele kansen van een gebeurtenis ongeveer gelijk is aan de marginale kans van een gebeurtenis zijn de gebeurtenissen onafhankelijk. In formulevorm: P(B|A) = P(B). Hierbij is P (B) de marginale kans en P (B|A) de conditionele kans.

Als de conditionele kansen ongeveer gelijk zijn over alle condities zijn de gebeurtenissen onafhankelijk. Een voorbeeldsom is te vinden voor beide manieren op sheet 23.

Random variabelen

Een random variabele is een variabele verkregen uit een steekproef. Er zijn twee soorten random variabelen te onderscheiden:

  • Discreet: variabelen met een eindig aantal mogelijke waarden

  • Continue: variabelen met een oneindig (hoeft niet letterlijk oneindig, maar ongelooflijk veel) aantal mogelijke waarden, bijvoorbeeld temperatuur.

In het vervolg gaat het om discrete variabelen.

Proporties

In een situatie met verschillende mogelijke uitkomsten is de kans op een bepaalde uitkomst gedefinieerd als een fractie of proportie van alle mogelijke uitkomsten. De formule voor een proportie is proportie = aantal / totaal = f(xi)/n = f(7)/n = 40/400 = 0.108. Na heel veel herhalingen van een steekproef kunnen proporties worden gezien als kansen.

Verwachte waarde

Bij een verdeling met kansen kun je de verwachte waarde berekenen door middel van de formule: xipi. Hierbij is pi de kans op waarde xi en xi de x-waarde. Je vermenigvuldigd dus elke waarde met zijn kans en telt deze allemaal bij elkaar op. De verwachte waarde van een random variabele is het geïdealiseerde gemiddelde: op de lange termijn (grote steekproeven) is x gelijk aan μX. Dit noemt men de wet van grote getallen. Hoe groter een steekproef hoe groter de kans dat het steekproefgemiddelde het populatiegemiddelde benadert.

Variantie

Bij een verdeling met kansen kun je ook de variantie berekenen. De volgende formule hoort daarbij: σ²X i (xi − μX) ² pi en is eigenlijk hetzelfde als de normale formule van de variantie alleen nu voeg je de kansen op een variabele aan de formule toe.

Transformaties

Vermenigvuldigen van b

Soms wil je bepaalde variabelen veranderen van meeteenheid. Een voorbeeld is dat je i.p.v. gewicht in grammen het nu in grains wilt weten. Een grain is 15.43236 keer zo groot als een gram. In plaats van elke variabele apart handmatig circa 15 keer zo groot te maken kun je hier handig een formule voor opzetten. De formule voor een transformatie door middel van vermenigvuldiging is Y = bX, hierbij is b het getal waarmee x vermenigvuldigd wordt. De verdeling wordt hierdoor breder en schuift op. De verwachte waarde en de variantie worden dus groter. De formule voor de nieuwe verwachte waarde is: μY = bμX. De formule voor de nieuwe variantie is: σ2Y = b2σ2X.

Optellen van a

Stel je voor dat je van variabele lengte x bij iedereen 50cm op wilt tellen. Als je dit doet verandert de range en dus ook de variantie van de verdeling niet, maar de verwachte waarde wel (sheet 41). De formule voor zo’n situatie is y = a + X (hierbij is a de 50 cm die bij elke variabele X wordt opgeteld). De formule voor de nieuwe verwachte waarde is μY = a + μX.

Lineaire transformatie

Een lineaire transformatie is een combinatie van optellen en vermenigvuldigen. Een goed praktisch voorbeeld van het gebruik van een lineaire transformatie is het omrekenen van graden naar Fahrenheit, waarbij je eerst de graden vermenigvuldigd met 1.8 en daarna daar 32 bij optelt. De formule van een lineaire transformatie is y = a + bx. De formule voor de nieuwe verwachte waarde is: μY = a + bμX. De formule voor de nieuwe variantie is: σ2Y = b2σ2X.

Som van random variabelen

Stel je hebt een vragenlijst met meerdere variabelen (vragen) en je wilt de somscore van deze variabelen berekenen. Wat gebeurt er met de verwachte waarde en de variantie?

De formule voor de verwachte waarde van twee variabelen als deze bij elkaar worden opgeteld is: μX+Y = μX + μY. Je telt de twee verwachte waardes gewoon op en dat is de verwachte waarde van de som van de variabelen. De formule voor de som van de variantie van variabelen is σ2X+Y = σ2X + σ2Y + 2ρXYσXσY. Als de variabelen gecorreleerd zijn is het gedeelte +2ρXYσXσY van de formule van toepassing, zo niet dan voldoet het optellen van de varianties van de twee variabelen. De somscore van twee gecorreleerde variabelen hebben geen effect op de verwachte waarde (het maakt niet uit of je twee gecorreleerde of niet-correlerende variabelen bij elkaar optelt, het antwoord is hetzelfde).

Dit is anders voor de variantie; een positieve correlatie tussen twee variabelen zorgt voor een grote variantie. Een negatieve correlatie tussen twee variabelen zorgt voor een lage variantie (0)

College 3 Categorische Data en Chi-Kwadraat

Overeenstemming

Stel, een toets wordt beoordeeld door twee verschillende docenten die beide de toets met ‘onvoldoende’, ‘voldoende’ en ‘goed’ kunnen beoordelen. Door hiervan een tabel te maken (sheet 3) kun je de proportie geobserveerde overeenstemming (Po) berekenen. Po wordt berekend door het diagonaal van de tabel bij elkaar op te tellen en te delen door het totaal.

Toeval

Stel nu dat de beoordeling van docent 1 totaal onafhankelijk is van de beoordeling van docent 2, wat is dan de kans dat zij een toets hetzelfde beoordelen? Op sheet 7 kun je zien dat je de proportie overeenstemming (Pe) kunt vinden door de (marginale) kans voor overeenstemming door toeval alleen kunt berekenen met de productregel voor onafhankelijkheid. Het getal dat berekend wordt is de proportie overeenstemming door alleen toeval. De proportie overeenstemming door toeval voor alle beoordelingen samen wordt berekend door het optellen van de overeenstemming door toeval van alle verschillende beoordelingen (onvoldoende, voldoende en goed).

Correctie voor toeval

Nu Po en Pe zijn berekend, kan de proportie overeenstemming gecorrigeerd door toeval worden berekend door: Po - Pe. De maximale overeenstemming kan ook worden berekend en is: 1 - Pe.

Maat van overeenstemming - KAPPA

De voor kans gecorrigeerde proportie overeenstemming als een proportie van de kansgecorrigeerde maximale overeenstemming wordt KAPPA (K) genoemd en wordt berekend door: (∑Po - ∑Pe) / (1 - ∑Pe). Een KAPPA van 1 betekend een perfecte/maximale overeenstemming.

Het probleem met KAPPA is dat er geen steekproevenverdeling is om te toetsen of hij significant afwijkt van 0. Daarom zijn er vuistregels (sheet 9) voor het beoordelen van KAPPA.

Onafhankelijkheid

Stel dat er onderzoek wordt gedaan naar de relatie tussen geslacht en het geloof in astrologie: zijn geslacht en geloof afhankelijk van elkaar? Hiervoor gebruiken we een Chi-kwadraat toets voor onafhankelijkheid:

  • De gegevens zijn afkomstig uit één populatie

  • Er zijn 2 variabelen (nominaal of ordinaal)

De nulhypothese zegt: er is geen relatie, de variabelen zijn onafhankelijk. Deze toets beoordeelt of de geobserveerde frequenties (uit de steekproefgegevens) overeenkomen met de verwachte frequenties onder onafhankelijkheid (de nulhypothese).

De formule van de Chi-kwadraat is: X² = ∑(Fo – Fe) ² / Fe. 

Fo betekent hier ‘geobserveerde frequentie’. Fe is ‘verwachte frequentie’. Voor het vaststellen van Fe is meestal een formule nodig.

De formule voor Fe onder onafhankelijkheid is: Fe(A en B) = (fA x fB) / n. In een tabel (sheet 15) is dit: (rij totaal x kolom totaal) / totaal aantal.

Je kunt nu een tabel maken van de verwachte frequenties (Fe) en die vergelijken met de tabel van de geobserveerde frequenties (Fo). De getallen uit de tabellen kunnen in de formule voor X² worden ingevoerd om de X² statistiek uit te rekenen.

De chi-kwadraat verdeling

Ook de Chi-kwadraat heeft een verdeling. Deze verdeling is altijd positief en scheef naar rechts. De piek ligt in de buurt van het aantal vrijheidsgraden en bij een groot aantal vrijheidsgraden is hij normaler verdeeld. De parameters van de Chi-kwadraat verdeling zijn vrijheidsgraden. Vrijheidsgraden kun je berekenen je met de formule: (r -1) x (c – 1). Hiervoor gebruik je een r x c tabel. De r staat voor rijen en de c voor kolommen. Een vrijheidsgraad geeft aan hoeveel cellen er gegeven de marginalen vrij kunnen worden ingevuld. Bij een toenemend aantal vrijheidsgraden wordt de verdeling bovendien platter en wijder.

Stappenplan x²-toets voor onafhankelijkheid

Stel de volgende steekproefgegevens: r = 3, c = 2, x² = 8.388

  1. H0: fo = fe en Ha: fo ≠ fe

  2. Steekproevenverdeling: x² verdeeld met df = (r-1)(c-1) = 2

  3. Toetsstatistiek: x2 = 8.388

  4. df = 2, α = 0.05 → x².05(2) = 5.99 (opzoeken in chi² tabel)

  5. Statistische conclusie: x² = 8.388 > 5.99 = x².05(2) en H0 wordt verworpen

  6. Inhoudelijke conclusie: geslacht en geloof zijn afhankelijk van elkaar.

Tabel: p-waarde

Tussen welke waardes ligt de kans op x²? Deze vraag wordt beantwoord met behulp van de p-tabel:

  • Aantal vrijheidsgraden (bijv. 2) is de rij waarin je kijkt

  • Kijk in de tabel tussen welke kans-waardes je x² ligt

  • Conclusie: als p < .05, dan H0 verwerpen

Let op: de X² verdeling is geen symmetrische verdeling, hij is one-tailed maar altijd two sided. De x² kwadraat heet maar één staart in de verdeling: we weten de relatie (afhankelijk of onafhankelijk) maar niet de richting (meer of minder dan).

Homogeniteit

Stel dat er onderzoek wordt gedaan naar de relatie tussen linedansen bij katten en de soort beloning (voedsel of affectie). Hiervoor gebruiken we een chi-kwadraat toets voor homogeniteit, om te bepalen of twee (of meer) populaties gelijk verdeeld zijn op één variabele:

  • De gegevens zijn afkomstig uit twee of meer populaties

  • Het meetniveau van de variabele is categorisch (nominaal of ordinaal)

De nulhypothese zegt: we verwachten gelijke proporties of gelijke verdelingen en de X² toetst of er verschil is tussen de geobserveerde frequenties en de verwachte frequenties. De X² heeft weer hetzelfde aantal vrijheidsgraden: (r-1)(c-1).

X² toetsstatistiek is hetzelfde: X² = ∑(Fo – Fe) ² / Fe. 

Verwachte celfrequenties bij homogeniteit (H0)

Onder H0, bij gelijke verdelingen, geldt dat:

  1. De conditionele kansen gelijk zijn voor alle condities

  2. De conditionele kansen gelijk zijn aan de marginale kansen

Als we verwachten dat de conditionele kansen = marginale kansen, dan Pe(A|B) = P(A), dus Pe (dansen|voedsel) = P(dansen). Dan is fe (kan dansen en voedsel) = (totaal dansen x totaal voedsel) / totaal n. (sheet 36) → fe (A en B) = (f(A) x f(B)) / totaal n. Het is wederom handig om een tabel van de verwachte frequenties te maken tegenover de geobserveerde frequenties. Vul vervolgens de formule in voor X²: ∑(Fo – Fe) ² / Fe.

Het stappenplan voor de X²-toets voor homogeniteit is hetzelfde als de X²-toets voor onafhankelijkheid. Er is wederom een uitspraak over de hypothese (verwerpen of niet) maar geen richting van afhankelijkheid.

Let op de verschillen tussen de X²-toets voor onafhankelijkheid versus de X²-toets voor homogeniteit: aantal populaties, aantal gemeten variabelen, H0-hypothese, onderscheid/geen onderscheid tussen variabelen en vaststaan van omvang steekproef/marginalen van variabelen (sheet 43). Het onderzoeksontwerp bepaalt welke toets moet worden gebruikt.

Goodness-of-fit

Stel dat er onderzoek wordt gedaan naar de vraag of ouderen proberen hun verjaardag te overleven. Hiervoor gebruiken we de chi-kwadraat toets voor goodness-of-fit, om te zien of de verdeling van één variabele (maand van overlijden) overeenkomt met een theoretische verdeling (uniforme verdeling):

  • De gegevens zijn afkomstig uit één populatie

  • Het meetniveau van de variabele is categorisch (nominaal of ordinaal)

De nulhypothese zegt: we verwachten dat de geobserveerde verdeling gelijk is aan de theoretische verdeling en de X²-toets beoordeelt het verschil tussen geobserveerde (fo) en theoretische frequenties (fe). Het aantal vrijheidsgraden (df) voor X² wordt berekend door: n categorieën - 1.

De verwachte frequentie Fe voor X² in het voorbeeld (sheet 49) bereken je door: overlijdens / aantal maanden (12). Nu kunnen de verschillen weer ingevuld worden in de X² formule: ∑(Fo – Fe) ² / Fe. 

Ook het stappenplan voor de X²-toets voor Goodness-of-Fit is hetzelfde als de voor de andere X²-toetsen.

College 4 Hypothesetoetsen voor Gemiddelden, deel 1

Steekproevenverdeling

Centrale limietstelling

Voor een random steekproef van grootte n uit een willekeurige populatie met gemiddelde µ en standaarddeviatie σ geldt, dat de steekproevenverdeling van het gemiddelde x̄ bij benadering normaal verdeeld is met gemiddelde µx̄ = µ en standaarddeviatie σx̄ = σ / √N.

Een random steekproef is een subset van personen uit een grotere populatie waarin elke persoon random en onafhankelijk wordt getrokken en elke persoon heeft een gelijke kans om gekozen te worden.

Naarmate de steekproef grootte n groter wordt, zal het steekproefgemiddelde dichter bij het populatiegemiddelde komen te liggen, dit is de Wet van Grote Getallen.

Een steekproevenverdeling is een statistiek, verkregen uit alle mogelijke steekproeven die zijn gedaan in een populatie en is bij benadering normaal verdeeld:

De afleiding voor µx

De populatieverdeling wordt beschreven in termen van paramterers, zoals de µ en de σ. De populatieverdeling is ook de kansverdeling voor één individu uit de populatie, dus de verwachte waarde van 1 observatie (populatie) is µ. De som van deze gemiddelden is nµ en is de verwachte waarde van de som van de populaties. De verwachte waarde van de som van ñ populaties: (1/n) x nµ = µ.

De afleiding voor σx̄

De populatieverdeling is de kansverdeling van 1 individu uit de populatie, dus de variantie van 1 observatie is σ². De variantie van de som van n observaties is nσ². De variantie van het gemiddelde van n observaties is (1/n)² x nσ² = σ²/n. De standaarddeviatie van de steekproefgemiddelden is vervolgens σ/√n.

Schending van aannamen

Wanneer zijn steekproefgemiddelden uit een populatie normaal verdeeld en wanneer niet?

  1. Als de populatie normaal verdeelde waarden heeft, dan is het steekproefgemiddelde ook normaal verdeeld.

  2. Als de populatie niet normaal of scheef verdeeld is, is het steekproefgemiddelde bij benadering normaal verdeeld als n groot genoeg is (>50).

  3. Als de observaties niet uit dezelfde populatie komen, is x nog steeds bij benadering normaal verdeeld voor een grote n (>100)

  4. Zelfs als observaties afhankelijk zijn -nu schenden we één van de aannamen- is het bij benadering normaal verdeeld bij een hele grote n (>1000).

One-sample Z-toets

Stel dat er onderzocht wordt of deeltijdstudenten minder fouten in hun tentamen maken dan voltijdstudenten. Om dit te onderzoeken wordt het stappenplan voor toetsing gebruikt:

  1. Hypothese. H0: µ = 11.49 en Ha: µ < 11.49

  2. Centrale limietstelling. µ = 11.49 en de spreiding σ = 4.92, de steekproevenverdeling van gemiddelden voor n = 5 is normaal verdeeld.

Tussenresultaat: mx is ook 11.49 en de standaarddeviatie σx̄ is (σ/√n) 2.20. Dit is een kansverdeling van gemiddelden uit steekproeven van n=5, gegeven dat H0 waar is. Onthoud dat de steekproevenverdeling waar is onder H0, als H0 correct is, dus dat er geen verschil is.

  1. Toetsstatistiek. De getrokken steekproef ziet er als volgt uit: steekproefgegevens 5, 6, 6, 10 en 11 met gemiddelde x = 7.6. Is dit gemiddelde voldoende minder dan µ om H0 te kunnen verwerpen?

Standaardiseren: standaardiseren van x en opzoeken in de z-tabel wat de kans is dat we de z-waarde van x vinden in de standaard normaalverdeling.

Z-Statistiek of gestandaardiseerde verschil (z): (schatting - hypothese) / standaarddeviatie van schatting, dus: (x-µ) / (s/√n) = -1.74. De z-waarde kan nu in de normaalverdeling worden geplaatst om het te vergelijken met µ.

  1. Verwerpingsgebied: Wat is de kans (p) op z < -1.74? Als p < verwerpingsgebied, dan wordt H0 verworpen.

Of verwerpingsgrens: neem α (0.05) en zoek z-waarde hiervan (zα = -1.6) Als z < -1.6, dan wordt H0 verworpen.

  1. Statistische conclusie: H0 verwerpen als p kleiner is dan α, of H0 verwerpen als z verder van nul afligt dan zα wordt H0 verworpen.

  2. Inhoudelijke conclusie

Van z- naar t-verdeling

Toetsen van gemiddelde

In de praktijk is σ vaak onbekend en moet deze geschat worden aan de hand van een steekproef. De steekproef heeft een standaarddeviatie (s) en als deze gedeeld wordt door de wortel van de populatie (n) krijgen we de standaardfout voor het gemiddelde: SEx = s / √n. Bij kleine steekproeven is het lastig om σ te schatten, waardoor te waarde van t ((x-µ / (s/√n)) vaak groter is dan de waarde van z. Naarmate n groter wordt, wordt s een meer betrouwbare schatting van σ. Bij een kleine n gebruiken we echter de t-verdeling.

T-verdeling

De t-verdeling is eigenlijk een hele familie van verdelingen en elk onderdeel ervan wordt aangeduid met zijn vrijheidsgraden (df). Bij de t-verdeling hoort ook de t-tabel (sheet 44) waarin de getallen staan die horen bij het aantal vrijheidsgraden. De t-toets wordt vaker gebruikt dan de z-toets, bijvoorbeeld de one-sample t-toets.

One-sample t-toets

Als we hetzelfde onderzoek nemen van de deeltijdstudenten, zien we dat de kleine steekproef (n=5, x=7.6 en s=2.702) leidt tot onderschatting van sigma. Nu moet dus de t-toets worden gebruikt om goed te kunnen toetsen.

Tussenresultaten voor t-toets: df = n-1 = 4. SEx = s/√n = 1.208. Hieruit volgt het stappenplan:

  1. Hypothese. H0: µ = 11.49 en Ha: µ < 11.49

  2. Steekproevenverdeling. t verdeeld met df=4

  3. Toetsstatistiek. t = (x-µ)/SE = -3.219

  4. Verwerpingsgebied. Opzoeken in t-tabel: a=.05 en df=4 → t.05(4) = -2.132

  5. Statistische conclusie. t < a, dus H0 wordt verworpen

  6. Inhoudelijke conclusie.

Voorwaarden T-toets

Als de verdeling van een getrokken steekproef er normaal uitziet, kan worden aangenomen dat de populatie ook normaal is. Als de populatie er niet normaal uitziet, is de t-test alsnog wel robuust tegen schending van aanname. Het is voor een t-toets dus niet zo erg om een steekproef te trekken van een niet-normale populatie. De t-toets is gevoeliger voor scheve verdelingen (skewness) dan voor dunne of dikke staarten (kurtosis).

College 5 Hypothesetoetsen voor Gemiddelden Deel 2

One Sample t-Toets

Wanneer er een uitspraak wordt gedaan over een reeds bestaande theorie (nulhypothese) wordt de one sample t-toets gebruikt: het toetsen van één gemiddelde met de t-toets:

Stel de volgende steekproefgegevens (zie steekproef, sheet 2): n=25 en x=126 (s=12)

Tussenresultaten: df=24, SE=2.4

  1. Hypothese. H0: µ=120 en H1: µ>120

  2. Steekproevenverdeling. t verdeeld met df=24

  3. Toetsstatistiek. t= (126-120)/2.4 = 2.5

  4. Verwerpingsgebied. a=0.05 en t.05(24) = 1.711

  5. Statistische conclusie: t=2.5 > 1.711 = t.05(24) en H0 wordt verworpen

  6. Inhoudelijke conclusie: De wachttijd (126) is langer

Paired Sample t-Toets

Naast een one sample t-toets is er ook een two sample t-toets. In de cursus Toetsende Statistiek worden er twee onderscheiden: de paired sample t-toets (voor twee afhankelijke observaties) en de independent sample t-toets (voor twee onafhankelijke observaties). Er zijn twee soorten paired sample-toetsen:

  1. Twee observaties van 1 persoon op 2 verschillende momenten. Deze observaties zijn afhankelijk omdat ze van dezelfde persoon afkomstig zijn. Er kan dus vanuit worden gegaan dat het gedrag van de persoon op de twee momenten wordt beïnvloed door een aantal dezelfde variabelen (bijvoorbeeld persoonlijkheid).

  1. Matching. Eén observatie van twee personen op 1 moment als er sprake is van matching van onderzoeksgroepen. Je wilt bijvoorbeeld het verschil in rekenvaardigheid tussen jongens en meisjes onderzoeken. Naast het geslacht kunnen echter ook andere factoren een rol spelen, zoals doubleren (blijven zitten) en de sociaaleconomische status van de ouders. Je hebt dan zowel meisjes mét doubleren als zonder doubleren nodig om te testen of ‘doubleren’ een extra factor is bij het verschil in rekenvaardigheid tussen de geslachten.

Het verschil tussen de twee afhankelijke metingen wordt getoetst met behulp van de verschilscore (di = xi1-xi2). Op deze verschilscore (d) wordt een one-sample t-toets uitgevoerd: t = (d̅ - Δ) / (sd/√n) → d̅ / (SEd̅). De Δ valt weg omdat deze volgens de nulhypothese (µ1 = µ2) toch al 0 is.

De standaardfout van d̅ heeft twee doelen:

  1. Het zorgt voor standaardisatie en maakt zo van een absoluut, een relatief verschil (z-score).

  2. Het helpt om de verwachting te vergelijken met de (populatie) spreiding.

De t-toets voor afhankelijke steekproeven

Stel, je wilt het angst-verschil in een foto vs een echte spin testen. Je toetst dan de gemiddelden van de twee afhankelijke steekproeven, bijvoorbeeld met de volgende steekproefgegevens: n=12, d̅=7 en s=9.807.

Tussenresultaten: df=11, SE=2.831:

  1. Hypothese. H0: µ=o en Ha: µ>0 (meer angst bij echte spin)

  2. Steekproevenverdeling. t-verdeeld met df=11

  3. Toetsstatistiek. t = d̅/SE = 2.473

  4. Verwerpingsgebied. a=0.05 en t.05(11) = 1.796

  5. Statistische conclusie. t>1.796, dus H0 verwerpen.

  6. Inhoudelijke conclusie.

Een paired sample t-toets is in feite het uitvoeren van een one sample t-toets, maar dan op de verschilscores en deze horen normaal verdeeld te zijn!

Independent samples t-toets

Het toetsen van twee gemiddelden uit twee onafhankelijke steekproeven wordt gedaan met de independent samples t-toets. Stel dat je weer het angstverschil wilt meten, maar nu geef je proefpersonen alleen de foto óf een echte spin, in plaats van beide en krijgt de volgende steekproefgegevens: n1=12, x̅1=47, s1=11.029 en n2=12, x̅=40, s2=9.293.

  1. Hypothese. H0: µ=µ2 en Ha: µ1>µ2.

  2. Steekproevenverdeling. t verdeeld met df = 12+12-2 = 22.

  3. Toetsstatistiek. t = d̅/SE = 1.681.

  4. Verwerpingsgebied. a=0.05 en t.05(22) = 1.717

  5. Statistische conclusie. t<1.717, dus H0 niet verwerpen.

  6. Inhoudelijke conclusie.

De toetsstatistiek

Wat nu opvalt is dat deze t-toets dezelfde steekproefgegevens gebruikte als de gepaarde t-toets, maar dat H0 nu niet verworpen wordt.

De t-toets voor twee onafhankelijke steekproeven is: t = ((x̅1-x̅2)-(µ1-µ2))/SE. Hier wordt dus het verschil van de steekproefgemiddelden vergeleken met het verschil in de hypotheses. Omdat de nulhypothese stelt dat er geen verschil is, wordt µ1-µ2 (=nul) weggelaten. De standaardfout (SE) is echter een verhaal apart:

Standaardfout

De algemene regel voor het afleiden van de standaarddeviatie is: σ²x+y = σ²x+σ²y + (2·ρxy·σx·σy). Als twee steekproeven echter onafhankelijk zijn, is de correlatie 0 en valt het laatste stukje dus weg. De variantie van het verschil tussen twee onafhankelijke variabelen is dus: σ²x-y = σx² + σy².

Nu kan de standaardfout worden afgeleid, namelijk SE²x-y = SE²x - SE²y → (σ²x/nx) + (σ²y/ny).

Nu is er weer het probleem dat we bij veel steekproeven de σ helemaal niet weten. Deze gaan we schatten met behulp van de standaarddeviatie in de steekproef s: SEx̅-y̅ = √((s²x/nx)+(s²y/ny)). Dit is de afleiding van de standaardfout.

Probleem

Standaardfouten zijn ingewikkeld omdat er een combinatie gemaakt wordt van de spreiding in twee groepen. Elke groep heeft een andere standaarddeviatie en deze voegen we samen om tot één standaardfout te komen. Als de twee varianties/spreiding van de groepen gelijk zijn is dit geen probleem, deze vormen namelijk een exacte t-verdeling.

Echter, als de varianties niet hetzelfde zijn hebben we geen exacte t-verdeling. De oplossing hiervoor is de Welch-Satterthwaite test: de steekproevenverdeling volgt wel een t-verdeling, maar met een afwijkend aantal vrijheidsgraden. De precieze berekening hiervoor is niet relevant voor de cursus, maar wel de simpele handberekening: df = kleinste waarde tussen (n1-1) en (n2-1).

Keuze

De varianties zijn eigenlijk altijd verschillend, dus hoe ongelijk moeten ze zijn om voor de Welch-test te kiezen?

  • Vuistregel: als er meer dan een factor 2 verschil is tussen beide (bv. 4 en 9, of 1 en 4)

  • In SPSS: Levene’s test for equality of variances. Deze toetst het verschil in varianties (p-waarde).

Op het moment dat twee varianties bijna aan elkaar gelijk zijn, zijn er twee schattingen van de standaarddeviatie in de populatie. De beste schatting is dan het combineren van de twee varianties ofwel een pooled variance estimator: s²p = ((n1-1)·s²1 + (n2-1)·s²2) / (n1-1 + n2-1) → s²p = (SS1+SS2) / (df1+df2).

De standaardfout van de steekproevenverdeling van x̅1-x̅2 is dan: SEx̅1-x̅2 = √((s²p/n1)+(S²p/n2)). Het aantal vrijheidsgraden: df = n1+n2 - 2.

Zie sheet 30 voor een samenvatting over de standaardfouten voor de independent samples t-toets.

Between- versus within-subject designs

De twee verschillende t-toetsen (afhankelijk en onafhankelijk) hebben hun eigen karakteristieken:

Een gepaarde (afhankelijke) sample heeft meer power en daar vindt je dus eerder een significant resultaat. Bovendien zijn er minder proefpersonen nodig omdat je twee keer meet. Het nadeel hiervan is dat je de proefpersonen langer vast moet houden voor je onderzoek.

Bij onafhankelijke samples heb je geen order effects (counterbalancing) en geen carry-over effects (tussentijd) om rekening mee te hoeven houden.

College 6 Betrouwbaarheidsintervallen, Effectmaten en Power

P-waarden

Interpretatie

De goede interpretatie van de p-waarde luidt: de p-waarde vertelt wat de kans is op ‘deze’ data of extremer (>), gegeven de nulhypothese.

P-waarden worden vaak niet goed geïnterpreteerd, terwijl het voor ons toch een belangrijke waarde om uit te rekenen omdat het een bewijs is van sterkte of significantie. Het probleem is alleen dat p-waarden niet stabiel zijn bij herhaling. Toch is herhaling van onderzoek heel erg belangrijk, omdat slechts één significante p-waarde in een onderzoek een vertekend beeld kan geven. Bij toetsende statistiek is het daarom nodig om bij hypothesetoetsing, naast de steekproefgegevens en de p-waarde, ook een betrouwbaarheidsinterval en een effectmaat vermelden.

Betrouwbaarheidsinterval (conferentie interval: CI)

Het betrouwbaarheidsinterval bestaat uit een puntschatting en een foutenmarge. Een betrouwbaarheidsinterval wordt altijd beschreven in procenten. Een betrouwbaarheidsinterval van 99% tussen, laten we zeggen, een score van 100 en 200, geeft aan dat in 99% van de keren dat je een steekproef trekt, een gemiddelde zal krijgen dat tussen de 100 en 200 ligt. Vaak zijn deze twee grenzen niet aangegeven in scores of een andere eenheid, maar in z-scores.

Het berekenen van een betrouwbaarheidsinterval gaat met behulp van de formules:

(x̅ - Ta/2(df) * SEx̅) en (x̅ + Ta/2(df) * SEx̅). SE = s/√n.

De regels voor deze formules zijn hetzelfde als de regels voor de t-toetsen.

De interpretatie van de betrouwbaarheidsinterval (95%) luidt: bij herhaling van het experiment, zal µ voor 95% in het interval liggen (sheet 19).

Betrouwbaarheid (99% CI) versus nauwkeurigheid (50% CI)

Een betrouwbaarheidsinterval zegt iets over de nauwkeurigheid van een schatting. Je kunt het betrouwbaarheidsinterval manipuleren:

  • Als de foutenmarge (spreiding) kleiner is, wordt het interval kleiner. Hiervoor moet de standaardfout (SE) kleiner worden, dankzij nauwkeurig meten.

  • Als de steekproef groter wordt, wordt de standaardfout kleiner en de T-waarde voor het interval wordt kleiner (wet van de grote getallen).

  • Door de dekkingsgraad omlaag bij te stellen.

Toepassingen

Steekproefgrootte: Aan de hand van de formule (Marge = Za/2 * σ√n) kun je de benodigde sample size (n) berekenen: n = ((Za/2 * σ) / m)².

Toets: Met het betrouwbaarheidsinterval kunnen we toetsen: bij een z- of een t-waarde dat valt in het gebied buiten het betrouwbaarheidsinterval, verwerpen de H0 hypothese. Voor een betrouwbaarheidsinterval geldt: als de testwaarde buiten het interval valt, is de testwaarde zo significant verschillend dat de nulhypothese verworpen wordt (bij tweezijdig toetsen).

Effectmaten

Een effectmaat is een maat voor praktische significantie, het is een statistiek die je vermeldt naast de statistische significantie. Er zijn verschillende effectmaten, in twee categorieën: absolute effectgrootte en relatieve effectgrootte. Bij relatieve effectgrootte heb je vaak geen idee wat de absolute waarde ervan is, daarom kan de effectmaat ook uitgedrukt worden in standaarddeviaties. Bij toetsende statistiek worden bijna alleen relatieve effectmaten gebruikt.

Verschillende effectmaten

  • X²-toetsen: phi-coëfficiënt ofwel Cramer’s V

  • t-toetsen: Cohen’s D (d-familie) en Eta squared (r-familie)

Cohen’s D geeft het verschil tussen groepen weer in standaarddeviaties: (µ1-µ2) / σ.

Vuistregels: .20 = small, .50 = medium, .80 = large effect.

Eta squared geeft de proportie verklaarde variantie weer: η² = t²/(t²+df).

Vuistregels: .01 = small, .06 = medium, .14 = large effect.

Power

Het is belangrijk om je steekproefgrootte goed te bepalen. De manier om dit te doen is dankzij een power-analyse. De power van een toets (1-β) is de kans op het verwerpen van de nulhypothese als deze inderdaad niet waar is, en de alternatieve hypothese wel. Een power moet dus zo groot mogelijk zijn, ten minste 80%.

Er zijn een aantal factoren die de power beïnvloeden:

  • (De centra van) de verdelingen kunnen verplaatst worden (d).

Cohen’s d (µ0-µa / σ) is het verschil tussen de gemiddeldes. Hoe groter dit verschil, hoe kleiner β wordt en hoe groter dus de power wordt. De goede effectgrootte d kan worden bepaald op basis van eerdere informatie, een inschatting van het kleinste relevante verschil en Cohen zelf raad een medium effect van d=50 aan. Bij een te kleine d krijg je een grote steekproef met een te klein effect, bij een te grote d heb je misschien wel een kleinere steekproef maar zonder een significant resultaat.

  • Ge grenswaarden (α) kunnen worden verplaatst.

Door het vergroten van alfa verschuiven we de grenzen in de H0 en Ha verdeling. Door een grotere α wordt β kleiner. α Heeft alleen wel zijn beperkingen, je kan hem niet te veel vergroten omdat je dan een grotere type 1-fout (α) krijgt.

  • De verdelingen kunnen smaller of breder worden gemaakt (n).

Door het verkleinen van de spreiding worden de verdelingen smaller, waardoor ze minder overlappen en de power toeneemt. De power wordt hierbij vergroot door het verkleinen van de standaardfout -door een grotere steekproefgrootte- en het verkleinen van de standaarddeviatie door beter te meten of een homogenere groep mensen te nemen voor je steekproef. Het nadeel van zo’n homogene groep is wel dat je resultaten minder kunt generaliseren naar de hele bevolking.

Powerplot

Een powerplot bevat de effectmaten (relatieve verschillen), de power en de sample size. Aan zo’n plot kun je zien wat je moet doen om de power te vergroten. Een voorbeeld van een powerplot is te zien op sheet 58.

College 7 Resampling en Niet-Parametrische Methoden

Als er niet aan de voorwaarden voor de t-toets wordt voldaan kan er een niet-parametrische toets worden gedaan, wanneer:

  • De scores zijn wel numeriek (interval/ratio) maar n is niet groot en de scores zijn niet normaal verdeeld.

Oplossing: transformeren van de scores.

Een lineaire transformatie is: Y = a + bX. Dit kan in dit geval niet omdat de scores niet normaal verdeeld zijn, dus moeten we een niet-lineaire transformatie toepassen voor het corrigeren van ‘scheef naar rechts’. Als een verdeling ‘scheef naar links’ is, moeten we de scores omklappen: Y = max(X) - X + min(X). Een goede manier om gegevens de transformeren is door middel van de ‘log’: Y = log(X).

  • Het meetniveau van de scores is ordinaal.

Oplossing: Wilcoxon’s rank sum toets en Wilcoxon’s signed rank toets.

Rank sum toets (independent-samples t-toets)

De rank sum toets bepaalt of één van de twee verdelingen systematisch grotere (of kleinere) waarden heeft dan de andere verdeling.

Als er geen informatie is over de scores (interval/ratio-verdeling) kunnen de scores worden vervangen door rangnummers. De rangnummers kunnen we gebruiken om te zien of er een verschil is tussen twee groepen en we kunnen hiermee een toets doen. De verwachte waarde onder H0 is dan de helft van de som van alle rangnummers. Volg het stappenplan:

  1. Maak een tabel van de scores en geef elke score een rangnummer

  2. Bepaal de som van de rangnummers van groep 1 (W)

  3. Vergelijk dit met de verwachte waarde µW onder H0

Toetsstatistiek W

De verwachte waarde van W voor groep 1 is: µW = n1*(n1+n2+1) / 2.

De standaarddeviatie (spreiding) van W is: σW = √((n1*n2*(n1+n2+1)/12).

Nu hebben we W, µW en σW en hiermee kunnen we een Z-toets doen met de bijbehorende normaalverdeling om de significantie te kunnen toetsen.

Aanname

Onder de aanname dat twee verdelingen dezelfde vorm hebben, kunnen we een significant resultaat interpreteren als een verschil in medianen:

H0: md1 = md2

Ha: md1 ≠ md2 / md1 < md2 / md1 > md2.

Het stappenplan voor het toetsen is hetzelfde als van de voorgaande toetsen, maar nu moet alleen ‘W’ nog uitgerekend worden en tussenresultaten: µW en σW.

Effectmaat

De effectmaat voor een rank sum toets is de geschatte correlatie: r = z/√n en n = n1+n2. Vuistregels Cohen: 0.1=small, 0.3=medium, 0.5=large effect.

Signed rank toets (paired-samples t-toets)

De signed rank toets bepaalt of één van de twee verdelingen systematisch grotere (of kleinere) waarden heeft dan de andere verdeling. Ook hierbij wordt aangenomen dat twee verdelingen dezelfde vorm hebben om een significant resultaat te kunnen interpreteren (als een verschil in medianen).

Aanpak

Zet de waarden weer in een tabel en:

  1. Bepaal de verschillen (bijv. voor- en nameting)

  2. Bepaal de rangnummers van de absolute verschillen.

  3. Geef elk rangnummer het teken van het verschil.

  4. Bepaal de som van de positieve rangnummers, T+

  5. Vergelijk de som T+ met de verwachte waarde µT+ onder H0

Bij het vergelijken van T+ en µT+ let je op de gestelde hypothese.

Toetsstatistiek T+

De verwachte waarde van T+: µT+ = n*(n+1) / 4.

De standaarddeviatie van T+: σT+ = √(n*(n+1)*(2n+1)) / 24.

Nu hebben we wederom de µ en σ, dus kunnen we weer de Z-toets gebruiken om het te toetsen. Het stappenplan voor het toetsen is dus weer hetzelfde als die voor de z-toets, maar nu moet alleen ‘T+’ nog uitgerekend worden en tussenresultaten: µT+ en σT+.

Effectmaat

De effectmaat voor een rank sum toets is de geschatte correlatie: r = z/√n en hierbij: n = 2*aantal cases. Vuistregels Cohen: 0.1=small, 0.3=medium, 0.5=large effect.

Permutaties

Groepen met proefpersonen kunnen gehusseld worden en op heel veel manieren opnieuw worden ingedeeld. Dit kan heel makkelijk met de computer worden gedaan, je krijgt dan de kans te zien dat een bepaalde groepssamenstelling (steekproefverdeling) x keer voorkomt na x keer husselen. Deze kans kun je dan één-of tweezijdig toetsen om een significant verschil te toetsen. Dit is rekenen met de som van het aantal oplossingen.

We kunnen ook bij iedere permutatie een t-waarde uitrekenen. Een permutatietoets bestaat uit de volgende stappen, we trekken een steekproef S en berekenen toetsstatistiek T:

  1. We herverdelen steekproef S random over de condities (zonder terugleggen)

  2. We herberekenen toetsstatistiek t* op basis van S*

  3. We herhalen voorgaande stappen een groot aantal keer (R keer).

De steekproevenverdeling wordt gevormd door de verdeling van t*.

Grenswaarde

De p-waarde is de proportie waarvoor geldt dat t* ≥ t (tweezijdige toets). We tellen dus hoe vaak een indeling in de staart (≥t) van een steekproevenverdeling voorkomt. Tel het aantal keer dat t* ≥ t, en bepaal de kans: P = (Q+1) / (R+1). De +1 is hierbij de oorspronkelijke steekproefindeling en voor R kiezen we vaak een rond getal (bv 1000) min 1 (999). Op de computer zou hieruit een staafdiagram komen, waarbij je de Q’s kunt optellen (de staven buiten de t-waarde) en kunt invoeren in je formule.

Bootstrap

Een andere resampling methode is de bootstrap. Stel, we trekken een steekproef (S) uit de populatie (P) met de bijbehorende parameter theta (θ). We vergelijken θ met de steekproevenverdeling van t (onder H0). De steekproevenverdeling van t vinden we door middel van bootstrappen.

De bootstrap aanpak geeft een steekproevenverdeling door te hertrekken uit de bestaande steekproef met terugleggen: (t-θ) = (t*-t).

Procedure

  1. We trekken een steekproef van grootte N uit de steekproef S met terugleggen.

  2. We noemen de nieuwe steekproef: bootstrap sample S*

  3. We herhalen de voorgaande stappen een groot aantal keer

Bootstrappen houdt eigenlijk in: iets doen zonder dat er van buitenaf hulp is, dus werken met hetgeen dat je al hebt: samples maken uit een sample.

Resultaten

De bootstrap verdeling kan gebruikt worden voor:

  1. Een schatting van de centrale tendendie (bias)

  2. Een schatting van de spreiding (standaardfout)

  3. Het bepalen van een betrouwbaarheidsinterval

  4. Het toetsen van een hypothese

Image

Access: 
Public

Image

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Check the related and most recent topics and summaries:
Institutions, jobs and organizations:

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Follow the author: Psychology Supporter
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
2873 2