Collegeaantekeningen Toetsende Statistiek 2015-2016
- 2744 reads
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Deze samenvatting is gebaseerd op het studiejaar 2013-2014.
Toetsende statistiek houdt zich bezig met het testen van hypotheses. Een hypothese doet een uitspraak over de parameters (bijv. gemiddelde en mediaan) van een populatie. Er zijn twee verschillende soorten hypotheses die één of tweezijdig kunnen zijn: de nulhypothese en de alternatieve hypothese. de nulhypothese (H0) stelt dat er in de populatie geen verandering, geen verschil of geen relatie bestaat. Bij een experiment voorspelt H0 dat de ingreep geen effect heeft op de scores in de populatie. De alternatieve hypothese (Ha) stelt dat er een verandering, een verschil, een relatie bestaat in de populatie. Bij een experiment voorspelt Ha dat de ingreep wel een effect heeft op de scores in de populatie. Een Ha kan éénzijdig of tweezijdig zijn ten op zichte van de H0.
Eénzijdig wilt zeggen dat de Ha groter of kleiner is dan H0; er wordt voordat het daadwerkelijke experiment uitgevoerd wordt een hypothese opgesteld of er verwacht wordt dat een treatment in een experiment een hogere score of een lagere score veroorzaakt. Een rechtszijdige Ha stelt dat als H0 :μ=9.0 dan is Ha : μ > 9.0. Een linkszijdige Ha stelt als H0 :μ=9.0 dan is Ha : μ < 9.0.
Een tweezijdige hypothese houdt in dat er voorafgaand aan een experiment geen uitspraak wordt gedaan over de richting van het verschil tussen Ha en H0, alleen dat er een verschil verwacht wordt. Dus als H0 :μ=9.0 dan Ha : μ ̸= 9.0. De voor en –nadelen van éénzijdige en tweezijdige hypothesen zullen zo meteen worden toegelicht bij het stukje over verdelingen.
Stel dat H0 niet verworpen wordt; de Ha is dus niet waar en er is geen verschil tussen de twee populaties. Wat kunnen we dan zeggen? Er zijn drie verschillende benaderingen voor H0 te onderscheiden:
Neyman-Pearson standpunt: “We accepteren of handhaven H0”
Fisher standpunt: “We kunnen H0 niet verwerpen: een onbeslist resultaat”
Jones-Tukey standpunt: de nulhypothese is sowieso niet waar , maar er is nog onvoldoende bewijs voor enige alternatieve hypothese.
Over het algemeen wordt de Neyman-Pearson benadering gebruikt in de meeste onderzoeken. Het Jones-Tukey standpunt is nog vrij nieuw, maar wordt in de statistische wereld erg serieus genomen.
Stappenplan hypothese toetsing
De volgende stappen worden doorlopen om een hypothese te toetsen:
1. hypothese afleiden van de hypothese
2. steekproevenverdeling vaststellen van de steekproevenverdeling
3. toetsstatistiek uitrekenen van de toetsstatistiek
4. verwerpingsgebied bepalen van het verwerpingsgebied of -grens
5. statistische conclusie trekken van de statistische conclusie
6. inhoudelijke conclusie neerzetten van de inhoudelijke conclusie
Dit stappenplan is in principe alles wat je bij het vak Toetsende Statistiek gaat doen/leren.
De statistiek en de parameter
De statistiek en de parameter zijn twee namen voor waarden die je uitrekent op basis van data. Parameters worden altijd weergegeven in symbolen. Als je parameters gebruikt gebruik je dus de symbolen μ (gemiddelde), σ (standaarddeviatie) en σ2 (variantie). Statistieken worden weergegeven in letters. Hierbij worden dus de x-streep (het gemiddelde, de x met een horizontaal streepje erboven) en de s, de standaarddeviatie, gebruikt.
Populatieverdeling
De populatieverdeling is ontstaan door één observatie. De populatieverdeling is de verdeling van alle mogelijke waarden voor alle observaties uit de populatie. Een populatieverdeling bevat meestal informatie over een samenstelling van een populatie, eigenschappen van een populatie, etc. Een voorbeeld van de informatie die in een populatieverdeling kan staan, is die van de samenstelling van een populatie gebaseerd op geslacht (bv. 50% is man, 50% is vrouw). Bovendien wordt de hele populatie gemeten voor een populatieverdeling. De populatieverdeling kan ook als kansverdeling te gebruiken. Bij de populatieverdeling worden parameters gebruikt.
Steekproefverdeling
Vaak is het moeilijk om een hele populatie te onderzoeken. Vooral bij een grote populatie is dit het geval. Een oplossing hiervoor is het doen van een steekproef. Bij een steekproef wordt een deel van de hele populatie onderzocht. Hier komt de wet van de grote getallen weer bij kijken, hoe groter n, hoe minder x-streep waarschijnlijk afwijkt van μ.
Bij de steekproefverdeling worden statistieken gebruikt.
Sampling error
Sampling error is de toevalsfluctuatie tussen een steekproefstatistiek en zijn corresponderende populatie parameter.
Steekproevenverdeling
Bij een steekproevenverdeling worden meerdere steekproeven gecombineerd in een verdeling. Deze combinatie wordt gemaakt om meer zekerheid te creëren. Een veel voorkomende vorm van deze verdeling is de verdeling van het gemiddelde. Hierbij worden alle gemiddeldes van de steekproeven weergegeven in de verdeling. Hetzelfde kan worden gedaan met de standaardafwijking, hoewel zo’n verdeling minder duidelijk is. Een steekproevenverdeling van bijvoorbeeld het gemiddelde is bij benadering normaal verdeelt met μx-streep = μ en σx-streep = σ/√n. Bij de steekproevenverdeling worden parameters gebruikt.
Als gemiddelden normaal verdeeld zijn , dan zijn gestandaardiseerde gemiddelden standaard normaal verdeeld en volgen zij de standaard normale verdeling N(0, 1), de z-verdeling.
Een toetsstatistiek is een getal dat berekend wordt uit steekproefgegevens en dat gebruikt wordt voor het vergelijken van een steekproefstatistiek en een populatieparameter. Een voorbeeld van een steekproefstatistiek is het gemiddelde van een steekproef. Een voorbeeld van een populatieparameter is het gemiddelde van een populatie. Een voorbeeld van een toetsstatistiek is het gestandaardiseerde gemiddelde z, dat het gestandaardiseerde gemiddelde van een steekproef is.
Het gestandaardiseerde steekproefgemiddelde is een z-score die kan worden afgezet tegen de standaard normaalverdeling (van de H0 populatie), de z-verdeling. Als H0 waar is, dan ligt z dicht bij nul en als H0 niet waar is, dan ligt z ver van nul.
Het significantie-niveau of alpha is een kans die gebruikt wordt om het concept
onwaarschijnlijk aan te duiden in een hypothese toets. Het verwerpingsgebied bevat, gegeven dat de nul-hypothese waar is, alle extreme, onwaarschijnlijke, steekproefstatistieken. Over het algemeen wordt bij een verwerpingsgebied van 5% aangenomen, aangeduid met α. Dit verwerpingsgebied is een oppervlakte van de normaalverdeling. Als het gemiddelde z van een steekproefverdeling binnen dit verwerpingsgebied van de normaalverdeling van de populatie van H0 valt, wordt aangenomen dat deze steekproef niet binnen deze populatie valt en een eigen populatie heeft, waarvan het gemiddelde afwijkt van die van H0.
Er is een verschil tussen statistische significantie en praktische significantie. Iets is statistisch significant als p < 0.5, maar soms heeft dit in de praktijk totaal geen waarde. Stel dat er een significant verschil is tussen lange en korte mensen in IQ, maar dat je voor 1 punt in IQ 30 centimeter moet groeien. Deze statistische significantie heeft in de praktijk geen enkele waarde.
Hierboven een plaatje van een normaalverdeling met daarin de verwerpingsgrens α roodgekleurd.
Er zijn twee manieren om aan te duiden of een toetsstatistiek binnen dit verwerpingsgebied valt (hierbij wordt de nulhypothese dus verworpen):
Methode 1: verwerpingsgebied: z → p ⇔ α: bepaal het gebied p dat hoort bij de toetsstatistiek z als p < α, dan verwerpen we H0. De p is de probability (het percentage in de z-tabel) dat rechts naast z ligt, althans bij een rechtszijdige Ha. Bij een linkszijdige Ha is het gebied dat links naast z ligt de p, want bij een linkszijdige Ha ligt het verwerpingsgebied aan de linkerkant van de verdeling.
Methode 2: verwerpingsgrens: α → zα ⇔ z: bepaal de grenswaarde zα die hoort bij het verwerpingsgebied α als z > zα, dan verwerpen we H0. Deze methode is minder nuttig, want hierbij gebruik je het verschil tussen de waarden zα en z, dit geeft minder informatie dan een oppervlakte p (meer hierover in college 4).
Voordelen en nadelen één en tweezijdig toetsen
Een voordeel van tweezijdig toetsen is dat je geen keuze hoeft te maken over de richting van Ha. Je bent hierbij altijd ingedekt, wanneer het gemiddelde van de steekproef nu links of rechts van Ha nou links of rechts van H0 ligt. Een nadeel is dat het verwerpingsgebied van 5% bij een tweezijdige toetsing over twee kanten moet worden verdeeld. Hierdoor bestaat een kans dat een steekproef gemiddelde die bij een eenzijdige toetsing wel in het verwerpingsgebied zou liggen, dat bij een tweezijdige toetsing niet doet.
Type 1 en 2 fout
Een type 1 fout is als H0 verworpen wordt, terwijl H0 eigenlijk waar is. Zoals je op sheet 43 kunt zien is het verwerpingsgebied onderdeel van de normaalverdeling van de populatie van H0. Dit gebied is 5% van de verdeling. Stel dat het gestandaardiseerde steekproefgemiddelde z binnen dit verwerpingsgebied valt en je dus stelt dat Ha waar is en H0 niet waar, heb je 5% kans dat deze verwerping onjuist is. Als je H0 verwerpt, terwijl H0 eigenlijk waar is maak je een type 1 fout. De type 1 fout wordt aangeduid met α.
Een type 2 fout is als H0 niet verworpen wordt, terwijl H0 eigenlijk niet waar is. Zoals je op sheet 44 kunt zien, wordt als het gestandaardiseerde steekproefgemiddelde z niet binnen het verwerpingsgebied valt de H0 niet verworpen, maar er is een kans dat het deel van de normaalverdeling van H0 dat niet binnen het verwerpingsgebied valt ook een deel is van de normaalverdeling van Ha. Er is dus een kans dat je H0 niet verwerpt, hoewel Ha eigenlijk waar is; deze kans wordt aangeduid met β.
Toegestane waarden voor kansen
Elke kans ligt tussen 0 en 1. 0 betekent dat er geen kans is dat de gebeurtenis plaats vindt en 1 betekent dat het zeker is dat deze gebeurtenis plaats vindt. De complementregel is de kans dat een gebeurtenis niet plaats vindt. Als een gebeurtenis 40% kans heeft om plaats te vinden is het complement hiervan 1 – 0.4 = 0.6 = 60%. De som van alle mogelijke kansen bij elkaar is 1. Bijvoorbeeld het complement 0.6 + de kans dat de gebeurtenis wel plaats vindt 0.4 = 1.c. De kans van een gebeurtenis wordt aangegeven met een P van probability. Als de P (van gebeurtenis A) hoger is dan de P (van gebeurtenis B) is A waarschijnlijker dan
B. Als P (A) = P (B) dan zijn gebeurtenissen A en B even waarschijnlijk.
Somregel
Bij disjuncte (wederzijds uitsluitende) gebeurtenissen wordt de somregel toegepast om de kans op een gebeurtenis of een andere gebeurtenis te berekenen. De 2 kansen worden bij elkaar opgeteld. Dit wordt aangegeven met: P(A of B) = P(A) + P(B). Op sheet 9 staat hier een voorbeeld van. De twee kansen van 0.009 zijn disjunct omdat het feit dat iemand drager is van MCADD (1x wel gemuteerd, 1x niet gemuteerd) de mogelijkheid tot niet-drager (geen 1x niet gemuteerd of geen 1x wel gemuteerd, of allebei niet) en de mogelijkheid tot het hebben van de ziekte (2x wel gemuteerd) uitsluit; je kunt namelijk niet tegelijkertijd drager en niet-drager of drager en hebber van de ziekte zijn, Hierdoor kun je de twee kansen bij elkaar optellen.
Productregel
Bij onafhankelijke kansen pas je de productregel toe. De productregel wordt als volgt genoteerd: P (A en B) = P (A) x P (B). Je berekent met de productregel de kans dat twee onafhankelijke gebeurtenissen gelijktijdig plaatsvinden. Op sheet 13 kun je hier een voorbeeld van zien.
Somregel bij afhankelijke gebeurtenissen
Bij afhankelijke gebeurtenissen voldoet de standaard-somregel niet. De logica van het berekenen van de somregel bij afhankelijke gebeurtenissen valt het beste toe te lichten met behulp van een plaatje.
Stel gebeurtenis blauw en geel zijn afhankelijk van elkaar. Al zou je de standaard-somregel toepassen dan zou je het overlappende gedeelte (groen) 2 keer berekenen, want bij P (geel) neem je het groene stukje mee, maar ook bij P (blauw). Om dit te compenseren moet je van de productregel het groene stukje aftrekken. Dit doe je met behulp van de volgende formule: P(A of B) = P(A) + P(B) − P(A en B). Hierbij is P(A en B) het groene stukje.
Kansregels bij afhankelijke gebeurtenissen
Er zijn drie kansregels die je moet kennen om een uitspraak te kunnen doen over de afhankelijkheid van gebeurtenissen.
Marginale kans: De marginale kans beschouwt de kans van één enkele variabele (los van andere variabelen). Op sheet 19 kun je een voorbeeld zien van een marginale kans.
Gezamenlijke kans: De gezamenlijke kans beschouwt de kans op een combinatie van gebeurtenissen. Op sheet 20 kun je hier een voorbeeld van zien.
Conditionele kans: De conditionele kans is de kans op een gebeurtenis gegeven dat een andere gebeurtenis heeft plaatsgevonden. In formulevorm is de conditionele kans:
P(B|A) = P (A en B) / P(A) B|A wilt zeggen de kans op B gegeven dat A heeft plaatsgevonden. Op sheet 21 kun je hier een voorbeeld van zien.
Er zijn twee manieren om een uitspraak te doen over de afhankelijkheid van gebeurtenissen. Als de conditionele kansen van een gebeurtenis ongeveer gelijk is aan de marginale kans van een gebeurtenis zijn de gebeurtenissen onafhankelijk. In formulevorm: P(B|A) = P(B). Hierbij is P (B) de marginale kans en P (B|A) de conditionele kans.
Als de conditionele kansen ongeveer gelijk zijn over alle condities zijn de gebeurtenissen onafhankelijk. Een voorbeeldsom is te vinden voor beide manieren op sheet 23.
Random variabelen
Een random variabele is een variabele verkregen uit een steekproef. Er zijn twee soorten random variabelen te onderscheiden:
Discreet: variabelen met een eindig aantal mogelijke waarden
Continue: variabelen met een oneindig (hoeft niet letterlijk oneindig, maar ongelooflijk veel) aantal mogelijke waarden, bijvoorbeeld temperatuur.
In het vervolg gaat het om discrete variabelen.
Proporties
In een situatie met verschillende mogelijke uitkomsten is de kans op een bepaalde uitkomst gedefinieerd als een fractie of proportie van alle mogelijke uitkomsten. De formule voor een proportie is proportie = aantal / totaal = f(xi)/n = f(7)/n = 40/400 = 0.108. Na heel veel herhalingen van een steekproef kunnen proporties worden gezien als kansen.
Verwachte waarde
Bij een verdeling met kansen (zie de tabel op sheet 32) kun je de verwachte waarde berekenen door middel van de formule: xipi. Hierbij is pi de kans op waarde xi en xi de x-waarde. Je vermenigvuldigd dus elke waarde met zijn kans en telt deze allemaal bij elkaar op. De verwachte waarde van een random variabele is het geïdealiseerde gemiddelde: op de lange termijn (grote steekproeven) is x gelijk aan μX. Dit noemt men de wet van grote getallen. Op sheet 35 kun je deze wet in beeld zien. Hoe groter een steekproef hoe groter de kans dat het steekproefgemiddelde het populatiegemiddelde benadert.
Variantie
Bij een verdeling met kansen (zie tabel op sheet 37) kun je ook de variantie berekenen. De volgende formule hoort daarbij: σ²X i (xi − μX) ² pi en is eigenlijk hetzelfde als de normale formule van de variantie alleen nu voeg je de kansen op een variabele aan de formule toe.
Vermenigvuldigen van b
Soms wil je bepaalde variabelen veranderen van meeteenheid. Een voorbeeld is dat je i,p,v. gewicht in grammen het nu in grains wilt weten. Een grain is 15.43236 keer zo groot als een gram. In plaats van elke variabele apart handmatig circa 15 keer zo groot te maken kun je hier handig een formule voor opzetten. De formule voor een transformatie door middel van vermenigvuldiging is Y = bX, hierbij is b het getal waarmee x vermenigvuldigd wordt. Je ziet in de figuur op sheet 40 dat de verdeling breder wordt en opschuift. De verwachte waarde en de variantie worden dus groter. De formule voor de nieuwe verwachte waarde is: μY = bμX. De formule voor de nieuwe variantie is: σ2Y = b2σ2X.
Optellen van a
Stel je voor dat je van variabele lengte x bij iedereen 50cm op wilt tellen. Als je dit doet verandert de range en dus ook de variantie van de verdeling niet, maar de verwachte waarde wel (sheet 41). De formule voor zo’n situatie is y = a + X (hierbij is a de 50 cm die bij elke variabele X wordt opgeteld). De formule voor de nieuwe verwachte waarde is μY = a + μX.
Lineaire transformatie
Een lineaire transformatie is een combinatie van optellen en vermenigvuldigen. Een goed praktisch voorbeeld van het gebruik van een lineaire transformatie is het omrekenen van graden naar Fahrenheit, waarbij je eerst de graden vermenigvuldigd met 1.8 en daarna daar 32 bij optelt. De formule van een lineaire transformatie is y = a + bx. De formule voor de nieuwe verwachte waarde is: μY = a + bμX. De formule voor de nieuwe variantie is: σ2Y = b2σ2X.
Som van random variabelen
Stel je hebt een vragenlijst met meerdere variabelen (vragen) en je wilt de somscore van deze variabelen berekenen. Wat gebeurt er met de verwachte waarde en de variantie? De formule voor de verwachte waarde van twee variabelen als deze bij elkaar worden opgeteld is μX+Y = μX + μY. Je telt de twee verwachte waardes gewoon op en dat is de verwachte waarde van de som van de variabelen. De formule voor de som van de variantie van variabelen is σ2X+Y = σ2X + σ2Y + 2ρXYσXσY. Als de variabelen gecorreleerd zijn is het gedeelte +2ρXYσXσY van de formule van toepassing, zo niet dan voldoet het optellen van de varianties van de twee variabelen. Je kunt voorbeelden van somscores en de invloed op de verwachte waarde en de variantie zien op sheet 44. Je kunt op deze sheet zien dat de somscore van twee gecorreleerde variabelen geen effect heeft op de verwachte waarde (het maakt niet uit of je twee gecorreleerde of niet-correlerende variabelen bij elkaar optelt, het antwoord is hetzelfde). Anders is dit voor de variantie; een positieve correlatie tussen twee variabelen zorgt voor een grote variantie. Een negatieve correlatie tussen twee variabelen zorgt voor een lage variantie (0).
KAPPA
KAPPA is de kans-gecorrigeerde proportie overeenstemming al seen proportie van de kans-gecorrigeerde maximale overeenstemming. De formule voor KAPPA is (∑Po - ∑ Pe) / 1 - ∑ Pe. Hierbij is Po de proportie geobserveerde overeenstemming en Pe de proportie overeenstemming puur door kans. Op sheet 1 zie je dat je Po kunt krijgen door het diagonaal van de tabel bij elkaar op te tellen en te delen door de totale n. Op sheet 2 zie je dat je Pe kunt vinden door de (marginale) kans voor overeenstemming door toeval alleen kunt berekenen met de productregel voor onafhankelijkheid. Op basis van deze gegevens kun je de formule invullen. Een totale overeenstemming is 1 en geen overeenstemming is 0. Kappa wordt zelden op significantie getoetst, omdat als KAPPA dichtbij 0 komt is de overeenstemming zo laag dat de waarde niet zinnig is. Op sheet 11 staan enkele vuistregels voor waarden voor KAPPA.
Categorische verdeling
In een categorische verdeling wordt een nominale variabele beschreven. Zo’n verdeling beschrijft de verschillende categorieën en de frequenties die daarbij horen. Een voorbeeld. Er wordt gemeten in welke maanden de verjaardagen van de Nederlandse bevolking vallen. Een categorie kan dan zijn: ‘augustus’. Bij zo’n categorie horen dan de frequenties.
Frequentieverdelingen vergelijken
Frequentieverdelingen kunnen vergeleken worden. Het kan bijvoorbeeld zo zijn dat je verwacht dat er in augustus significant meer mensen jarig zijn dan in andere maanden. Dit kun je toetsen door het vergelijken van frequentieverdelingen. We doen dit met de toetsstatistiek ‘Pearson’s Chi-kwadraat (X²)’.
Pearson’s Chi-kwadraat (X²)
Met de Chi-kwadraat kunnen verschillen in en tussen frequentieverdelingen van categorische variabelen worden getoetst. De formule van de Chi-kwadraat is: X2 = ∑(Fo – Fe) ² / Fe.
Fe betekent hier ‘geobserveerde frequentie’. Fo is ‘verwachte frequentie’. Voor het vaststellen van Fo is meestal een formule nodig. Deze formule is: Fo = (rij totaal x kolom totaal) / totaal aantal. Deze formule wordt gebruikt bij het testen van onafhankelijkheid van variabelen. De geobserveerde frequentie wordt dus vergeleken met de verwachte frequentie. Er kan tussen de verwachte frequentie en de geobserveerde frequentie twee een significant verschil bestaan; in dat geval wordt Ho verworpen en Ha aangenomen.
Verdeling van de Chi-kwadraat (X2)
Ook de Chi-kwadraat heft een verdeling. De verdeling van de Chi-kwadraat is scheef naar rechts. Echter, naarmate het aantal vrijheidsgraden groter wordt, is de verdeling steeds normaler verdeeld. De parameters van de Chi-kwadraat verdeling zijn vrijheidsgraden. Vrijheidsgraden kun je berekenen je met de formule (r -1) x (c – 1). Hiervoor gebruik je een r x c tabel. De r staat voor rijen en de c voor kolommen. Een vrijheidsgraad geeft aan hoeveel cellen er gegeven de marginalen vrij kunnen worden ingevuld. Bij een toenemend aantal vrijheidsgraden wordt de verdeling bovendien platter en wijder. X2 is altijd positief en de piek van de verdeling ligt in de buurt van het aantal vrijheidsgraden.
Aannames bij de Chi-kwadraat toets
De aannames die je doet voordat je een Chi-kwadraat toets uitvoert, zijn de volgende: Een individu moet maar in één categorie kunnen vallen. Het kan dus niet zo zijn, dat hij een beetje tot de ene categorie en een beetje tot de andere behoort; Het meetniveau van de variabelen is categorisch (nominaal of ordinaal). De waarnemingen zijn onafhankelijk van elkaar; De minimale waarde voor de verwachte frequentie wordt niet naar overschreden (naar beneden).
Hypothesen
Ook bij het toetsen met behulp van de Chi-kwadraat worden er hypothesen gebruikt. Hoe deze hypothesen eruit zien, hangt af van de toets die we uitvoeren. Zo kunnen we met de Chi-kwadraat drie soorten toetsen uitvoeren: ‘goodness of fit’, ‘independence testing’ en ‘population comparison’.
Goodness of fit
Er wordt bij ‘goodness of fit’ gekeken naar één variabele en één steekproef populatie. Per categorie wordt er gekeken naar het verschil tussen de geobserveerde en de verwachte frequentie. Bij deze vorm van toetsen worden ook specifieke hypothesen gebruikt. De nulhypothese bij goodness of fit is: ‘de variabele heeft een bepaalde kansverdeling’. De alternatieve hypothese is: ‘de verdeling is niet gelijk aan een bepaalde kansverdeling’. De alternatieve hypothese klinkt redelijk vaag. Kijk dus uit met de conclusies die je trekt uit het eventueel verwerpen van Ho; vaak heb je nog niet veel gezegd met het verwerpen van Ho.
De formule voor het aantal vrijheidsgraden bij deze vorm van toetsing is: Df = aantal categorieën – 1. Let op! Er hoeft bij de Chi-kwadraat toets niet gelet te worden op het onderscheid tussen een- en tweezijdig toetsen.
Na het uitrekenen van de X2 kun je met behulp van het aantal vrijheidsgraden en de alfa als p-waarde de zogenaamde kritische waarde van X2 vinden. Deze kritische waarden kun je vinden in Tabel F. Als de kritische waarde voor de desbetreffende situatie groter is dan de X2, kan Ho verworpen worden.
Independence testing (de X2 –toets voor onafhankelijkheid)
Er wordt bij ‘independence testing’ gekeken naar meerdere twee variabelen in één steekproef populatie. Doel van deze toetsing is het kijken of er samenhang bestaat tussen de variabelen. Voordat er getoetst kan worden met behulp van de Chi-kwadraat moet er een kruistabel worden gemaakt. Het onderscheid tussen kolommen en rijen is belangrijk. De cellen die van links naar rechts lopen, zijn rijen. De cellen die van boven naar beneden lopen, zijn kolommen. In de rijen worden de variabelen gezet, in de kolommen de steekproef.
De nulhypothese bij independence testing is: ‘de variabelen zijn onafhankelijk van elkaar’. De alternatieve hypothese is dan: ‘de variabelen zijn afhankelijk van elkaar’. Een andere manier om de nulhypothese en de alternatieve hypothese weer te geven is: Ho = P(A&B) = P(A)*P(B) en Ha: P(A&B) ≠ P(A)*P(B).
De berekening van het aantal vrijheidsgraden gaat anders dan bij goodness of fit. De formule voor het vaststellen van het aantal vrijheidsgraden is: Df = (aantal rijen – 1) x (aantal kolommen – 1).
Het proces van berekening van X2 is hetzelfde als bij de vorige vorm van toetsing, goodness of fit.
Population comparison (X2 –toets voor homogeniteit)
Bij ‘population comparison’ wordt er gekeken naar één variabele en meerdere steekproeven populaties. Deze manier van toetsen verschilt alleen in de hypothesen van ‘indepence testing’; in alle andere opzichten kunnen ze als hetzelfde worden behandeld.
Ook bij ‘population comparison’ moet er eerst een kruistabel gemaakt worden.
Centrale limiet stelling
Als de populatie normaalverdeeld is, moet de steekproevenverdeling ook normaalverdeeld zijn. Dat is zo, omdat er wordt verwacht dat de steekproevenverdeling hetzelfde gemiddelde heeft als de populatieverdeling. Als de populatie scheef verdeeld is, moet de steekproevenverdeling ook scheef verdeeld zijn. Echter, naarmate de steekproevenverdeling groter wordt, wordt deze minder scheef.
Bootstrappen
Bij het bootstrappen gaan we ervan uit dat de steekproef gelijk is aan de populatie. We gebruiken dan dus ook de steekproef alsof het de populatie is. Bij het bootstrappen worden er uit de steekproef met teruglegging verschillende steekproeven getrokken. Dit heet simuleren.
De t-toets
De t-toets kun je gebruiken bij één of meerdere samples. De t-toets wordt alleen gebruikt als de standaarddeviatie van de populatie niet bekend is. Op basis van de standaarddeviatie van de steekproef wordt dan alsnog de standaarddeviatie van de populatie berekend. Deze standaarddeviatie (van de steekproef) wordt ook wel de ‘Standard Error (SE)’ genoemd. Deze SE is alleen een benadering van de werkelijke standaarddeviatie. SE kan uitgerekend worden met de volgende formule: SE = s/ (√n).
De t-verdeling
De t-verdeling is net zoals de z-verdeling symmetrisch en dus normaal verdeeld. In de t-verdeling zie je echter wel dikkere staarten aan beide kanten. Net als bij een z-verdeling is de wet van de grote getallen van toepassing. Hier is het hoe groter n is, hoe betrouwbaar de schattig van σ aan de hand van s. In een t-verdeling zien we alleen positieve getallen.
Tabel D
In Tabel D kunnen we met behulp van het aantal vrijheidsgraden (df) en de p-waarde de t-waarde opzoeken. Meestal doen we dit in de praktijk andersom; we rekenen de t-waarde met de hand uit en zoeken daarbij de p- waarden op. Deze p-waarden geven ons namelijk meteen informatie over het al dan niet verwerpen van Ho. Het aantal vrijheidsgraden is gelijk aan (n – 1). Voor elk aantal vrijheidsgraden is er een aparte t-verdeling.
De t-waarde kunnen we als volgt berekenen: t = (x-streep - μ) / SE. Hierbij is x-streep het gemiddelde van de steekproef. μ is het gemiddelde van de populatie. Één- of tweezijdig toetsen Voordat de hypothesen worden getoetst, moet er worden bepaald of er één- of tweezijdig getoetst zal worden. Net zoals bij de vorige toetsen, moet er bij een tweezijdige toets ofwel de α gedeeld worden door 2, ofwel de p- waarde vermenigvuldigd worden met 2.
Gevoeligheid
Een t-toets is een gevoelige toets. Er moet dus uitgekeken worden met gebruik ervan. De t-toets is namelijk erg gevoelig voor uitbijters. Met name in een kleine steekproef hebben deze uitbijters veel invloed.
Soorten t-toetsen
De t-toets kan in verschillende situaties worden gebruikt. Zo kan de t-toets worden gebruikt bij situaties met één sample en situaties met twee samples. De twee samples kunnen op hun beurt ook weer ingedeeld worden in een test voor twee onafhankelijke samples en twee afhankelijke samples. In afhankelijke steekproeven worden bijvoorbeeld dezelfde mensen twee keer gemeten. Ook kunnen hierin paren worden gemaakt. Bij een afhankelijk steekproef met paren worden twee personen met dezelfde eigenschap of hetzelfde kenmerk bewust gekoppeld. In onafhankelijke samples worden twee verschillende populaties gemeten.
De tot nu toe besproken formules horen bij een one sample t-test. Als er twee steekproeven in het spel zijn, veranderen de meeste formules. Deze nieuwe formules zijn te vinden in de sheets van college 4.
z-toets of t-toets?
Als de standaardafwijking van de populatie niet bekend is, wordt er altijd gekozen voor een t-toets.
Het betrouwbaarheidsinterval als σ onbekend kan je berekenen met de formules: x-streep + t* x s / √n en x- streep – t* x s / √n.
Het betrouwbaarheidsinterval (conferentieinterval: CI)
Het betrouwbaarheidsinterval bestaat uit een puntschatting en een foutenmarge. Een betrouwbaarheidsinterval wordt altijd beschreven in procenten. Een betrouwbaarheidsinterval van 99% tussen, laten we zeggen, een score van 100 en 200, geeft aan dat in 99% van de keren dat je een steekproef trekt, een gemiddelde zal krijgen dat tussen de 100 en 200 ligt. Vaak zijn deze twee grenzen niet aangegeven in scores of een andere eenheid, maar in z-scores. Het berekenen van een betrouwbaarheidsinterval met behulp van de formules x-streep - z* x σ/√n en x-streep + z* x σ/√n. z* geeft hierin aan hoeveel procent van de mogelijke waarden je in je interval wilt hebben.
Z-scores in betrouwbaarheidsinterval
Zoals net gezegd, wordt een interval bijna altijd met z-scores aangegeven. De linkergrens van het interval wordt ook wel –z* genoemd en de rechtergrens van het interval z*.
Een te breed betrouwbaarheidsinterval
Bij een te breed betrouwbaarheidsinterval kun je verschillende dingen doen om deze smaller te krijgen. Voorbeelden hiervan zijn:
Naast een one sample t-toets is er ook een two sample t-toets. In de cursus Toetsende Statistiek worden er twee onderscheiden: de paired sample t-toets (voor twee afhankelijke observaties) en de independent sample t-toets (voor twee onafhankelijke observaties).
Paired sample t-toets
Er zijn twee soorten paired sample t-toetsen:
Independent sample t-toets
De independent sample t-toets is een toetsstatistiek voor twee onafhankelijke observaties. De formule is: t = (x-gemiddeld1 – xgemiddeld 2 - (m1 - m2)) / Standaardfout.
Standaardfout
De standaardfout bij een independent sample t-toets is een verhaal apart.
Standaardfout als s1 ongeveer gelijk is aan s2 (max verschil van 2)
Als s1 ongeveer gelijk is aan s2 dan gebruik je de gepoolde variantie bij een independent sample t-test. De formule van de gepoolde variantie is:
s2p = ((n1 – 1) s^2 (van groep 1) + (n2 – 1) s^2 (van groep 2)) / (n1-1) + (n2-1)
Vervolgens kun je de standaardfout berekenen door middel van de formule:
SE =Ö(s2p/n1)+(s2p/n2)
Het aantal vrijheidsgraden is hier n1 -1 + n2 -1 = n1+n2-2
Standaardfout als s1 niet ongeveer gelijk is aan s2 (groter verschil dan 2)
De formule voor SE als s1 niet ongeveer gelijk is aan s2 is:
SE = Ö(s1^2/n1)+ (s2^2/n2)
De t-verdeling hiervan is niet exact. Om dat te compenseren kun je de Welch-Satterthwaite-formule toepassen, maar hoe dat exact werkt hoef je niet te weten voor Toetsende Statistiek.
Betrouwbaarheids interval bij een twee sample t-toets
De betrouwbaarheidstoets voor een t-toets van twee samples is hetzelfde als besproken in college 4 (en de Joho-aantekeningen daarvan) alleen moet je goed opletten dat je de juiste manier toepast om je SE te berekenen (zie bovenstaande 2 onderwerpen),
Effectgrootte
Naast statistische conclusies en betrouwbaarheidsintervallen zijn er ook effectgroottes. Een effectgrootte is een maat die de sterkte van een resultaat aangeeft. Er worden twee vormen van effectgrootte besproken in deze cursus:
De formule voor Cohen’s D is Cohen’s D = (m1 - m2) / s. Een vuistregel voor de waarden van de effectgrootte is:
0.2-0.3 small
0.5 medium
0.8+ large
Als de arts bijvoorbeeld vermeld dat de bloedgroep van patienten die medicijn X hebben ingenomen een Cohen’s D waarde lieten zien van 0.8 ten opzichte van de controle groep zegt hij in feite dat het verschil tussen deze groepen 0.8 standaarddeviaties is. Dit kun je ook begrijpen zonder medische kennis.
Power
De power is de kans op het verwerpen van Ho, terwijl Ha waar is. Een power van 80% of hoger is het beste, want hoe hoger de power, hoe minder kans er is op een type 2 fout. Power kun je berekenen met 1 – β (type 2 fout).
Je kan de power vergroten door het verschil tussen µo en µa te vergroten. Dit kan via de effect size maat: Cohen’s d. deze wordt berekend door de formule: d = (µo - µa) / σ. Ook het verkleinen van de spreiding (σ/√n) kan helpen om de power te vergroten (dit kan door het verkleinen van σ d.m.v. een homogenere steekproef of door het vergroten van √n). Hierdoor worden de 2 verdelingen namelijk smaller en op sheet 10 kun je zien dat hierdoor β kleiner wordt. Het vergroten van α is ook een manier. Toepassingen van deze mogelijkheden op de power te vergroten staan afgebeeld in de sheets.
Noncentrality parameter
Als h0 niet klopt volgt t een noncentral t-verdeling.
Aan de hand van de tabel van d kun je de bijbehorende power berekenen.
Vanaf dit jaar hoef je niet meer te weten hoe je handmatig op allerlei manieren power kan berekenen. In plaats daarvan kun je g-power gebruiken. Op sheet 21 t/m 33 kun je plaatjes zien van dingen die je met g-power kunt doen. Verder kan je cohen’s D berekenen, grafische weergaven maken van verdelingen. Je kunt a berekenen en d. Dit wordt niet getentamineerd. Met g-power kan je post hoc en a priori power berekenen.
Niet-parametrische toetsen
Wanneer?
Er worden twee niet-parametrische toetsen besproken in de cursus Toetsende Statistiek: De Wilcoxon's rank sum toets (independent-samples-toets) en de Wilcoxon's signed rank toets (paired-samples t-toets).
De Wilcoxon's rank sum toets
De rank sum toets bepaalt of één van de twee verdelingen
systematisch grotere (of kleinere) waarden heeft dan de andere verdeling. Onder de nulhypothese zijn de twee verdelingen gelijk. Onder deze aanname kan een significant verschil tussen de twee geinterpreteerd kunnen worden als een verschil in medianen. De Wilcoxon’s rank sum toets gebruik je bij onafhankelijke data. Eerst bereken je W: dit doe je door alle waardes van klein naar grootte een ranknummer te geven, zoals op sheet 17 te zien is. Vervolgens tel je al deze ranknummers bij elkaar op om W te krijgen. De Wilcoxon’s rank sum toets doe je met behulp van de volgende formules:
Omdat je nu u en s weet kun je een z-toets doen: W - u/s.
Wilcoxon's signed rank toets
De Wilcoxon’s signed rank toets bepaalt ook of één van de twee verdelingen
systematisch grotere (of kleinere) waarden heeft dan de andere verdeling. Onder de nulhypothese zijn de verdelingen van beide groepen gelijk en de aanname is dat de verdelingen dezelfde vorm hebben. De toets bepaalt of de mediaan van de verschillen van de twee groepen significant afwijkt. Net als bij de ranked sum toets nummer je waarden van klein naar groot, alleen gebruik je nu de verschilscores van paren van de twee groepen. Deze paren zijn afhankelijk; de toets wordt dan ook gebruikt als er sprake is van afhankelijke variabelen. Vervolgens bepaal je W+ door alle rangnummers van de positieve verschilscores bij elkaar op te tellen. Op sheet 34 kun je hier een uitwerking van zien. De volgende formules worden gebruikt voor de wilcoxon’s signed rank toets:
Aangezien u en s weer bekend zijn kun je een z-toets toepassen:
W+ - u/s. Hierbij is de + geen functionele plus maar de naam van de statistiek wilcoxon’s signed rank toets.
Continuiteitscorrectie
Wanneer je een discrete verdeling wilt benaderen met behulp van een continue verdeling moet je een continuiteitscorrectie toepassen. Op sheet 25 kun je in het plaatje zien dat 3.5 eigenlijk ook nog bij de 3 hoort van de discrete verdeling, maar wanneer je de waarde 3 zou nemen voor je z-toets zou je deze 0.5 verwaarlozen. In dit geval moet je bij je x-waarde 0.5 optellen. Het omgekeerde kan ook het geval zijn als de de situatie precies omdraait aan de andere kant van de staart; dan moet je 0.5 van je x-waarde aftrekken.
Permutatie
Als je te maken hebt met een kleine steekproef, veel spreiding en niet normaal verdeelde data kun je gebruik maken van permutaties om te toetsen. Bij een permutatietoets herverdeel je de rangvolgorde van je data heel vaak (oneindig). Van elk van deze volgordes bereken je een steekproef. Vervolgens kun je een steekproevenverdeling maken van al die t-waardes en kun je kijken of de orignele t-waarde van je data daar significant zou zijn (in het verwerpingsgebied zou liggen).
Bootstrap
Een alternatief voor de permutatietoets is bootstrappen. Bij bootstrappen trek je oneindig een steekproef uit de steekproef die je al had en reken je van al deze steekproeven de t-waarde uit. Vervolgens maak je hier weer een steekproevenverdeling van, waarmee je de t-waarde van je originele steekproef op significantie kunt toetsen.
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
Field of study
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
3474 |
Add new contribution