- Hoorcollege 1: Introductie
- Hoorcollege 2: Kansverdeling
- Hoorcollege 3: Toetsen en hypothesen
- Hoorcollege 4: Betrouwbaarheidsintervallen
- Hoorcollege 5: Toetsen en gemiddelden
- Hoorcollege 6: Non-parametrische toetsen
- Hoorcollege 7: Eenwegs-variantieanalyse
- Tweewegs-variantieanalyse - IS HC 8
- Regressieanalyse - IS HC 9
- Gevorderde technieken voor excellentie- en honoursstudenten-IS HC 10
- Effectgrootte en onderscheidingsvermogen - IS HC 11
Hoorcollege 1: Introductie
Inferentiële of inductieve statistiek is met een toevalssteekproef een uitspraak doen over een populatie. Een toevalssteekproef kan meer of minder lijken op de populatie. Niet alle steekproeven zijn hetzelfde, want je weet niet waar de toeval in zit. Als je een andere steekproef neemt, vind je een ander gemiddelde. Bij elke mogelijke uitkomst kunnen we een verdeling maken van hoe groot de kans op een bepaald gemiddelde is. Die kansverdeling kunnen we alleen gebruiken als we van tevoren een beslissing nemen over de populatie. Hierbij moeten we van tevoren een nulhypothese formuleren. We kunnen bijvoorbeeld stellen dat een populatie een gemiddelde heeft van 4,1. We berekenen dan hoe groot de kans is dat we een steekproef trekken met dat gemiddelde. Van tevoren stellen we een significantiegrens van 5%. Als de kans op 4,1 als gemiddelde 3% blijkt te zijn, ligt die onder de grens van 5% en is significant. De kans dat we dit vinden als onze nulhypothese waar is, is te klein. We verwerpen dan de nulhypothese. Je trekt dus een steekproef, dan ga je volgens de regels de nulhypothese verwerpen of niet, en dan trek je een conclusie. Toch hoeft onze conclusie niet altijd waar te zijn. Soms trek je toevallig een steekproefgemiddelde die zo ver van het echte gemiddelde afligt, dat je verkeerde conclusies trekt, omdat de nulhypothese wel waar is.
De steekproevenverdeling is de kans op steekproefresultaten gegeven een nulhypothese over de populatie. Bij een significante toets is de kans op het steekproefresultaat te klein, dus verwerp je de nulhypothese. De betrouwbaarheidsinterval bestaat uit de geschatte grenzen waartussen de populatiewaarde met een bepaalde zekerheid ligt. De conclusie van een toets of schatting hoeft niet altijd waar te zijn. Inferentiële statistiek is niet alleen toetsen, maar ook schatten. Dankzij MCO/BS kunnen we een beschrijving maken van kenmerken van een steekproef: frequentieverdeling, centrum, spreiding, associatie. Deze getallen kloppen precies voor de steekproef. Maar wat als we een andere steekproef hadden getrokken? Je wilt nu wat zeggen over de populatie in plaats van de steekproef.
Stel wilt weten hoe veel gele snoepjes er gemiddeld in een bepaald soort zakje snoep zitten. Van enkele zakjes snoep tel je het aantal gele snoepjes dat erin zit. Dit vormt samen een steekproefverdeling: hoe vaak komen de aantallen voor als je heel veel steekproeven trekt? Het aantal gele snoepjes noem je de kansverdeling. Er komt een extra laag bovenop: een laag van steekproeven. Dit laat zien hoe vaak uitkomsten voortkomen en wat er gebeurt als je de steekproef heel vaak herhaalt. Je kunt dan de kans op een bepaald aantal gele snoepjes berekenen. We willen echter niet voorspellen hoe veel gele snoepjes er in de volgende steekproef zitten, maar iets zeggen over de hele populatie. Het aantal gele snoepjes dat het meeste voorkomt in de steekproeven, is waarschijnlijk ook het aantal dat de populatie als gemiddelde heeft. Dit geldt alleen als er gewerkt wordt met een toevalssteekproef en de schatting die we gebruiken zuiver is.
In de praktijk trekken we niet zoveel steekproeven. Vaak trekken we er maar één. We nemen een bekende verdeling: een theoretische kansverdeling, waarvan je kan aannemen dat het mooi past op de steekproefverdeling. In dit geval kun je een normale verdeling nemen. Elke oplossing schept zijn eigen probleem. Bij een normale verdeling zou eigenlijk elk gemiddelde van de normale verdeling het gemiddelde van de populatie moeten zijn. Je hebt wel de normale verdeling, maar je moet bij die kansberekening zelf zeggen waar het midden zit. Aan de vorm heb je namelijk niet zo veel. We gaan uitrekenen waar het midden van die kansverdeling is. We weten echter nog niets over de populatie, daar willen we juist wat over weten. Je begint met een hypothese scheppen, een denkbeeldige wereld. Zo kunnen we de nulhypothese stellen: in de populatie is 25% van de snoepjes geel. Als je een steekproef trekt met veel minder snoepjes dan je op basis van die hypothese verwacht, moet je berekenen wat de kans is dat dat zakje minder snoepjes heeft maar dat het gemiddelde percentage toch 25% is. Je berekent bijvoorbeeld hoe groot de kans is dat je een zakje snoepjes tegenkomt met maar 16% of minder gele snoepjes in je steekproef.
Bij de inferentiële statistiek gaat het om schatten en toetsen met kansrekening. Schatten is het kiezen van de meest waarschijnlijke (reeks) waarde(n) voor een parameter (=populatiewaarde), hoe waarschijnlijk of onwaarschijnlijk een nulhypothese dus is. Toetsen is nagaan hoe (on)waarschijnlijk een nulhypothese over een parameter is. Als een nulhypothese statistisch significant is, is de nulhypothese dus te onwaarschijnlijk moet verworpen worden. We doen aan kansrekening met een theoretische kansverdeling (bijv. normaalverdeling) die lijkt op de steekproevenverdeling. De steekproevenverdeling is de verdeling/kansen van alle mogelijke steekproefresultaten. Het steekproefresultaat is een kansvariabele die een kenmerk van de steekproef weergeeft (bijv. steekproefproportie).
Om te bepalen of een statistisch significant resultaat ook belangrijk (relevant) is, vraag je je ten eerste af hoe algemeen of specifiek de populatie is waarvoor de steekproef representatief is. Ten tweede vraag je je af hoe (on)zinnig de nulhypothese is. Ten derde is het belangrijk hoe groot het verschil tussen het steekproefresultaat en de nulhypothese (effectgrootte) is? Als je een hele grote steekproef hebt, moet je de nulhypothese soms verwerpen, ook al zit je maar 1% van de nulhypothese af, bijv. 24% in plaats van 25%. Bij grote steekproeven kunnen kleine verschillen al statistisch significant maken. Dit verschil tussen wat je vind en wat je verwacht noem je de effectgrootte.
De relevantie wordt vaak vergeten in onderzoek. Statistisch significant betekent niet dat een resultaat ook relevant is. Statistisch significant is de nulhypothese verwerpen. Relevant is wanneer het om een behoorlijke populatie gaat. Als het om een kleine populatie gaat, zijn de resultaten niet echt van belang. Wat is de nulhypothese en is die interessant? Stel je kiest de nulhypothese dat 0% van de snoepjes geel is en die hypothese wordt verworpen bij een steekproef. Dat is dan significant, maar niet relevant. Het is geen belangrijke bevinding.
Een aselecte steekproef is in principe representatief voor de populatie. Onderzoekseenheden zijn op basis van toeval getrokken, dus elke eenheid heeft dezelfde (of een bekende) kans om in de steekproef te komen. Ook is de kans dat een kenmerk in de steekproef voorkomt gelijk aan de mate waarin het kenmerk in de populatie voorkomt. Ten slotte is de verdeling van het kenmerk in de steekproef ongeveer gelijk aan de verdeling in de populatie.
Bij inferentiële statistiek gaan we altijd uit van een eenvoudige aselecte steekproef. Sommige andere aselecte steekproeven zijn echter ook te gebruiken, zoals gestratificeerd en clustersteekproeven. Met deze steekproeven zijn de inferentiële technieken dan echter gecompliceerder, dus dat gaat te ver voor deze cursus. Doe in de praktijk alsof elke aselecte steekproef eenvoudig aselect is. Je moet wel weten bij welke steekproeven inferentiële statistiek niet kan.
We gaan altijd uit van een steekproef met teruglegging. De kans op een uitkomst blijft gelijk bij elke trekking. Een steekproef met teruglegging maakt de kansrekening veel eenvoudiger. Maak bijvoorbeeld de vergelijking een dobbelsteen: wanneer je al 6 hebt gegooid, blijft de kans om 6 te gooien bij de volgende keer gooien hetzelfde. Eigenlijk trekt CW-onderzoek vrijwel altijd steekproeven zonder teruglegging. Toch mag je uitgaan van een steekproef met teruglegging, wanneer de populatie veel groter is dan de steekproef. Je hebt toch niet veel kans om weer hetzelfde persoon te trekken. We willen wel voorkomen dat we niet toevallig 100x hetzelfde persoon trekken. Er is echter geen vuistregel: moet de populatie 100 keer groter zijn dan de steekproef, of 1000 keer, of..? De kans dat we 2 keer hetzelfde persoon trekken is echter zo klein, dat we die kans kunnen verwaarlozen. Zonder terugleggen verandert elke keer dat we iemand trekken de kans op wat we erna trekken, dus dat is veel te moeilijk met berekenen. Bij een kleine populatie wordt de kans groter dat we iemand 2x trekken, dus doen we wel zonder terugleggen.
In het boek heeft ‘populatie’ twee betekenissen. De empirische populatie is de verzameling van alle onderzoekseenheden. De statistische populatie is een reeks scores (metingen) die bij elkaar horen in een analyse. Je kiest voor een bepaalde toets op basis van hoe veel statistische populaties er zijn. Een paar voorbeelden waarbij je verschillende toetsen gebruikt: gemiddelde mediagebruik van alle CW-studenten, gemiddelde mediagebruik gesplitst naar jongens en meisjes, gemiddelde mediagebruik bij dezelfde CW-studenten voor start studie en na 1 jaar studie.
Onafhankelijke steekproeven bestaan uit metingen voor verschillende groepen onderzoekseenheden. Je kunt uit iedere populatie afzonderlijke steekproeven trekken. Je moet jezelf de vraag stellen of je de steekproeven los van elkaar had kunnen trekken. Zo ja, dan heb je een onafhankelijke steekproef. Bij afhankelijke steekproeven beïnvloedt de ene steekproef hoe de andere steekproef getrokken wordt. Hier gaat het om twee momenten. Nu kun je de respondenten niet in verschillende groepen verdelen. Je kan de steekproef niet trekken zonder rekening te houden met de eerste steekproef: sterker nog, je hoeft in het tweede geval geen nieuwe steekproef te trekken. Of een steekproef onafhankelijk of afhankelijk is, is relevant.
Inferentiële Statistiek is abstract, want een statistische populatie is niet tastbaar, maar een verzameling getallen (waarnemingen). De keuze van de toets hangt af van het aantal statistische populaties en of de steekproeven on/afhankelijk zijn. On/afhankelijkheid hangt af van hoe de aselecte steekproef getrokken had kunnen worden, niet hoe die feitelijk getrokken is (in 1 of meer keren).
Hoorcollege 2: Kansverdeling
Als we wat willen zeggen met een steekproef over de populatie, dan moeten we zelf de kansverdeling kiezen en we moeten een nulhypothese formuleren met een verwachte waarde van de kansverdeling.
Een aselecte steekproef is in principe representatief voor de populatie. Representatief betekent dat elke variabele hetzelfde gedeeld is als de hele populatie. Het steekproefresultaat is in principe hetzelfde als de parameter. ‘In principe’ maar niet precies: een steekproef kan best wel op een populatie lijken, maar als we pech hebben, lijkt de steekproef totaal niet op de populatie. Elk kenmerk van een toevalssteekproef is een kansvariabele, omdat het bij een andere steekproef heel anders kan zijn. Elk steekproefresultaat is dus een kansvariabele (x) met een kansverdeling.
Als we iets over de populatie weten, kunnen we makkelijk iets over de kans en de kansverdeling zeggen. We zeggen bijvoorbeeld dat de proportie van gele snoepjes in een zakje snoepje 0,25 is. Dat is dus 25% van de populatie. Dus de kans op een geel snoepje pakken uit een zakje is 25%. De kansverdeling kan berekend worden: wat is de kans op ‘x’ gele snoepjes uit een zakje van 10? De kans op 0 gele snoepjes is hetzelfde als 10 keer een ander snoepje pakken. Dat is dus 10 keer een kans van 0,75. 0,75 doe je dan tot de macht 10: 0,75^10 = 0,056. Dit laatste bereken je met de rekenmachine. De kans op 1 geel snoepje (en 9 met een andere kleur), waarbij je het gele snoepje als eerste, tweede, derde etc. pakt, is 10 x 0,25^1 x 0,75^9. Je doet het x 10 omdat je het gele snoepje op 10 momenten kunt pakken. De kans op 10 gele snoepjes in een zak van 10 snoepjes is 0,25^10. De kansvariabele (x) is hier het aantal gele snoepjes in een zak van 10. De kans kun je in een grafiek uitdrukken in oppervlakte en hoogte.
Als we de kansverdeling zouden weten, kunnen we wat zeggen over de steekproef. De kans is de verwachting voor verdeling na heel veel steekproeven. De kansverdeling van steekproefresultaten is de steekproevenverdeling. Steekproevenverdeling is een verdeling van hoe groot of klein de kans is om een bepaalde steekproef te trekken. Van de kansverdeling ga je dus via een steekproevenverdeling naar de steekproef.
Als we de kansverdeling kennen, kunnen we over de populatie zeggen wat de verwachte waarde van X is. De verwachte waarde van X noemen we E(X). Dit is het gemiddelde van de kansverdeling. E komt van Expected. Het is het gemiddelde van veel steekproefresultaten. De verwachting zegt niet iets over wat je in één steekproef kunt vinden, maar wat je vindt als je heel veel steekproeven trekt. De proportie in de populatie is 0,25, dus 25% van de populatie (snoepjes) is geel. Uit de grafiek blijkt dat de verwachte waarde van X, dus E(X), ook 0,25 is. De verwachte waarde van X is bijna altijd gelijk aan de populatiewaarde (parameter). Als je de verwachte waarde van X weet, kun je meer over de populatie berekenen. Een voorwaarde hiervoor is dat het steekproefkenmerk een zuivere schatter van het populatiekenmerk moet zijn. Een schatter is zuiver wanneer hoe meer steekproeven je trekt, het gemiddelde van de steekproefresultaten dichter bij de populatiewaarde komt. De steekproefproportie is een zuivere schatter van de populatieproportie. De formule van de steekproefvariantie waarbij je deelt door N is geen zuivere schatter van de populatievariantie. De formule van de steekproefvariantie waarbij je deelt door N-1 is wel een zuivere schatter van de populatievariantie. Deze laatste gebruiken we ook in Inferentiële Statistiek. Je moet dus altijd de laatste formule met N-1 gebruiken, ook in SPSS.
Als we de populatie kennen, kunnen we iets over de kansverdeling zeggen. Als we de kansverdeling kennen, kunnen we iets over de populatie (via de verwachte waarde) en de steekproef (via de steekproefverdeling) zeggen. Met alleen de steekproef kunnen we niets. Hoe komen we dan aan die kansverdeling? Hiervoor zijn twee mogelijkheden: trek heel veel steekproeven of kies zelf een kansverdeling. Zelfs een kansverdeling kiezen door je door eerst een theoretische kansverdeling te kiezen die de vorm van de steekproevenverdeling benadert. We weten dat bepaalde kansverdelingen een bepaalde vorm hebben. We moeten dus weten welke vorm hoort bij welke steekproefkenmerken. Formuleer dan een vermoeden over de verwachte waarde, dus over het populatiekenmerk (parameter). Dit vermoeden is de nulhypothese. Die moet je vooraf formuleren.
De populatieparameter is een statistisch kenmerk van de populatie. De Griekse letter pi staat voor proportie, de Griekse letter mu voor gemiddelde. De steekproefgrootheid is een statistisch kenmerk van de steekproef. Hiervoor gebruiken we ‘gewone’ letters: de p voor proportie en de M voor gemiddelde.
Discrete kansvariabelen zijn een geheel getal. Hierbij heb je een beperkt aantal losstaande waarden. Zo zijn er in een zakje snoepjes alleen maar hele snoepjes, geen halve. Bij een continu verdeelde kansvariabele zijn er geen hele waarden. De kansvariabele kan alle waarden aannemen, zoals 0,86. Lengte en gewicht zijn hierbij voorbeelden. Hierbij spreek je over kansen op een interval.
De kans om een bepaalde waarde of minder te vinden, is de linker overschrijdingskans. De kans om een bepaalde waarde of meer te vinden, is de rechter overschrijdingskans.
Een tijd lang dachten wetenschappers dat elke steekproefverdeling dezelfde vorm had. Die noemden ze daarom de normale verdeling. Later bleek dat het niet helemaal klopte, maar de naam is hetzelfde gebleven. Het is een theoretische kansverdeling voor onder andere de steekproefverdeling. De normale verdeling is symmetrisch, met het gemiddelde bij de top. Het heeft een klokvorm.
Bij een continu kansverdeling is de kans gelijk aan het oppervlakte tussen de x-as en de kromme. We kijken altijd naar de oppervlakte voor de kans. We trekken ergens een grens, en meten hoe groot het oppervlakte links of rechts ervan is. Die oppervlakte geeft de kans weer dat je een zakje snoepje hebt met een x aantal gele snoepjes. Bij elke normale verdeling, als je twee standaardafwijkingen naar beneden gaan, is de kans 2.3% op die waarneming. Ongeveer 95% van de waarnemingen ligt dus maximaal binnen 2 standaardafwijkingen van het gemiddelde af. Stel het gemiddelde is 0,86 en de standaardafwijking 0,02. 0,86 – (2 x 0,02) = 0,82. M = mu – 2sigma. Dit is de linker overschrijdingskans. 0,86 + (2 x 0,02) = 0,90. M = mu + 2sigma. Dit is de rechter overschrijdingskans. De kans op een waarneming onder de 0,82 is 0,023. De kans op een waarneming boven de 0,90 is 0,023.
We gebruiken de standaardnormale verdeling nog vaker. Hiervoor moet je de z-score berekenen voor de grens. Dit doe je door de waarden te standaardiseren. Hiervoor trek je van de grens het gemiddelde af, en dit deel je door de standaardafwijking. De z-score geeft het aantal standaardafwijkingen dat je boven of onder het gemiddelde zit. Noteer kansen altijd met drie decimalen. Noteer andere resultaten altijd met twee decimalen. Zoek de kans op in de tabel. Dan kun je zien dat van de grens met z-score 2 de kans 0,023 is.
Kenmerken van een gestandaardiseerde variabele (z) is dat het gemiddelde 0 is en de standaardafwijking 1. Er is symmetrie: de linker overschrijdingskans (PL) en de rechter overschrijdingskans (PR) zijn -2 en 2 bij de grens. De linker overschrijdingskans van z = -2 is dezelfde als de rechter overschrijdingskans van z = 2, namelijk 0,023. De linker en rechter overschrijdingswaarde is dezelfde en allebei positief, want de tabel dekt alleen de rechterhelft van de grafiek.
Hoorcollege 3: Toetsen en hypothesen
We hebben altijd te maken met drie verdelingen: de populatie, die we niet kennen, de steekproef, die we wel kennen, en de steekproevenverdeling, die we benaderen met een kansverdeling. We creëren een denkbeeldige populatie: CW-studenten. We formuleren de hypothese dat CW-studenten gemiddeld 16 uur werken naast hun studie, met een standaardafwijking van 9,52. Je gaat er voor het gemak maar van uit dat ieder uur even vaak voorkomt in de populatie. Je doet nog geen uitspraken over de vorm van de grafiek. Stel je doet een steekproef met 16 waarnemingen. Die steekproef heeft een gemiddelde van M = 19,86. In je grafiek zet je nu één blokje bij 19,86. Om de steekproevenverdeling te krijgen, moet je heel veel steekproeven trekken. Dit laat je echter door de computer doen. De computer trekt een tweede steekproef met een wat hoger gemiddelde. Bij het trekken van heel veel steekproeven krijgt de steekproevenverdeling een bepaalde vorm: je hoopt op een klokvorm, zodat je gewoon de normaalverdeling kunt gebruiken. Hoe meer steekproeven je trekt, hoe meer die op een klokvorm gaat lijken. Ook al heeft een steekproef een hele rare verdeling (absoluut geen normaalverdeling), de steekproevenverdeling wordt toch een normaalverdeling.
Als je een steekproevenverdeling gaat maken van heel veel steekproeven, heeft het een klokvorm. Daarom kunnen we het benaderen met een kansverdeling. Als die oppervlakte onder de grafiek 1 is, is die steekproevenverdeling een kansverdeling. De steekproevenverdeling is de verdeling van alle mogelijke steekproevenresultaten.
Mu is het gemiddelde van alle steekproeven die je in een steekproevenverdeling hebt. Mu is gelijk aan de verwachte waarde van gemiddelde E(M), want M is een zuivere schatter van mu. De steekproevenverdeling heeft niet alleen een centrum, maar ook een verspreiding. We hebben het dan over een interval- of ratiovariabele. Van een numerieke variabele heb je ook een spreiding (hoe breed of puntig is die verdeling). Bij interval is de spreiding de variatie in steekproevengemiddelden. Hiervoor gebruiken we de standaardafwijking. De standaardafwijking is de gemiddelde afwijking van het gemiddelde. De standaardafwijking (sigma) van het steekproevengemiddelde noemen we de standaardfout van het steekproefgemiddelde. Hoe groter de standaardfout, hoe groter de kans dat wij een steekproef trekken die ver af ligt van het gemiddelde van de steekproevenverdeling. En aangezien die hetzelfde is als het gemiddelde van de populatie, hebben we een grotere kans dat de getrokken steekproef ook ver af ligt van het populatiegemiddelde. Als jij een steekproevenverdeling hebt met een hele kleine standaardfout, weet je dat als je een steekproef trekt, je een grote kans hebt dat je steekproef dicht bij het steekproefgemiddelde ligt. We willen dus graag kleine standaardfouten.
De standaardfout van het steekproefgemiddelde is SEm = sigma m = sigma / wortel N. (FORMULE). N is de omvang van de steekproef. Een grotere steekproef heeft een kleinere standaardfout en is nauwkeuriger. Als de teller groter wordt, wordt het resultaat ook groter. Als de noemer groter wordt, wordt de breuk kleiner. Voor deze formule moet je sigma weten: dit is problematisch, want we kennen het populatiegemiddelde niet.
D steekproevenverdeling van het gemiddelde is bij benadering normaal verdeeld wanneer de populatie normaal verdeeld is en de steekproef redelijk groot is, bijvoorbeeld N = groter dan 100 (centrale limietstelling). Om de standaardverdeling te kunnen gebruiken, moeten we een kansverdeling voor steekproefgemiddelden kiezen. Ga uit van een (standaard)normale verdeling. Leg het gemiddelde van de kansverdeling vast in de nulhypothese. We stellen een nulhypothese op van H0: mu = 16,0. Dus E(M) = mu = 16,0. Bereken de standaardfout. Dit kan als we de standaardafwijking weten van de steekproevenverdeling. We gaan ervan uit dat de standaardafwijking 9,52 is, dus de standaardfout 2,38. Nu hebben we de kansverdeling vastgelegd en kunnen we er mee werken. Nu gaan we de overschrijdingskans bepalen. Stel het steekproefgemiddelde is 21. Moet je die nulhypothese nu verwerpen? Dat ligt eraan hoe groot de kans is om 21 te trekken. Dat heet de overschrijdingskans. We moeten eerst het gemiddelde van 21 omzetten in een z-score, dus 21 standaardiseren. Dit bereken je op de volgende manier: het steekproefgemiddelde – het gemiddelde van de nulhypothese en dan delen door de standaardfout. De standaardfout was 2,38. Dan krijg je een z-score van 2,10. De rechteroverschrijdingskans is dan 0,0179, dus 0,018. Dat is nog geen 2% kans om een steekproef te trekken met een gemiddelde van 21 uur bij een populatiegemiddelde van 16 uur. Nu gaan we een conclusie trekken. Is de kans groot genoeg om te zeggen dat dit best had kunnen gebeuren? Wanneer is de overschrijdingskans klein genoeg om de nulhypothese te verwerpen? Hiervoor hebben we een regel nodig. Die kans noemen we het significantieniveau, ook wel de onbetrouwbaarheidsdrempel. Hiervoor gebruiken we de Griekse letter a: alfa. Dit is de maximale overschrijdingskans waarbij we de nulhypothese verwerpen. Meestal nemen we 5% als significantieniveau, maar soms ook 1%. Als de toets significant is, verwerpen we de nulhypothese. De overschrijdingskans is dan kleiner dan het significantieniveau. We leggen het significantieniveau van tevoren vast, voordat je de toets doet. Anders kun je de inkomsten beïnvloeden. We kiezen alfa niet veel lager dan 0,01, omdat de kans op een fout van het 1e soort dan al heel klein is. De fout van het 1e soort is dat we een juiste nulhypothese verwerpen. Maar bij een alfa van 0,01 is de kans op een fout van het 2e soort heel groot: dat we een foute nulhypothese niet verwerpen.
Dat we de nulhypothese verwerpen bij een overschrijdingskans van p is kleiner dan 0,05 is een afspraak, een conventie. De overschrijdingskans is een conditionele kans: hoe (on)waarschijnlijk is het steekproefresultaat wanneer H0 (de nulhypothese) waar zou zijn. Als H0 waar is, is de kans M bekend. Als H0 niet waar is, is de kans M onbekend. We weten dan niets over de kans van onze steekproef. De overschrijdingskans is dus niet de kans dat H0 onwaar is (die kans bestaat niet, dat is geen kansverdeling).
Soms houden we alleen eenzijdige toetsen bij een onderzoekshypothese: we houden er dan rekening mee dat het resultaat alleen hoger of alleen lager is dan de H0. Een toets kan dus ook rechtseenzijdig en linkseenzijdig zijn. Als je er van uit gaat dat het resultaat zowel hoger als lager kan zijn dan H0, ga je tweezijdig toetsen bij je onderzoekshypothese.
Bij een rechtseenzijdige toets kijken we alleen naar de rechterstraat. Nu gaan we kijken of het gemiddelde van 21 ergens in dat significante gebied ligt. Dit geef je aan in een statistische hypothese. De nulhypothese is wat je niet verwacht: het zal 16 uur of minder zijn. De alternatieve hypothese H1 is dat de populatiegemiddelde groter is dan 16. Je legt niet alleen vast waar het midden van je kansverdeling zit, maar ook of het tweezijdig is. De verwachting is ook dat het minder kan zijn. Als je dan een waarde van 21 trekt, zeg je dat de nulhypothese bij de linkseenzijdige toets klopt. Bij de rechtseenzijdige toets verwerp je de nulhypothese. Dan heb je eigenlijk verkeerd zitten beredeneren. Bij tweezijdig is de nulhypothese alleen een = teken. H0 is dan M = …, H1 is dat het geen 16 is, dus een
= teken met een schuine streep erdoorheen. Dan kijk je naar of het steekproefgemiddelde voldoende afwijkt van 16 om de H0 te verwerpen. In dit geval is dat zo.
Je legt in je hypothese vast of je toets eenzijdig of tweezijdig is. Dit doe je op basis van theorie en kennis van de wereld. Het advies is om tweezijdig te toetsen, tenzij je hele goede argumenten heb. Het gelijk teken (=) zit altijd in de nulhypothese. Je werkt altijd met populatieparameters, dus je moet Griekse letters gebruiken. H0 en H1 dekken samen alle mogelijke uitkomsten.
Naast statistische hypothese heb je vaak nog een andere hypothese: de onderzoekshypothese. Deze lees je vaak in artikelen van onderzoekers. De onderzoekshypothese (OH) is de verwachting van de onderzoeker op basis van theorie. Het boek zegt dat de nulhypothese altijd de onderzoekshypothese is, maar dat is iets te makkelijk. De onderzoekshypothese kan ook de alternatieve hypothese H1 zijn. Het hoeft niet altijd dezelfde hypothese te zijn, maar dit is vaak wel het geval. Als de onderzoeker een verschil verwacht, gebruikt hij de tekens (≠, <, >): OH = H1. Als de onderzoeker geen verschil verwacht, gebruikt hij het = teken: de OH = H0.
Elke toets heeft een toetsingsgrootheid: een omwerking van het steekproefresultaat tot een score in een kansverdeling. We nemen eigenlijk niet het kenmerk van de steekproef dat we berekend hebben om te toetsen. Van dit getal moeten we een nieuw getal maken: de toetsingsgrootheid. Dit getal noemen we de z. De toetsingsgrootheid is dus z, de standaardscore. Het steekproefgemiddelde (bijv. M = 21,0) moeten we omrekenen in een z-score (bijv. z = 2,10). We gebruiken dan als kansverdeling een standaardnormale verdeling.
Dus gebruik het volgende stappenplan. Specificeer de statistische hypothesen: H0 en H1. Hierin moet populatiegemiddelde mu komen te staan. Hier maak je ook de keuze voor een tweezijdige of eenzijdige toets. Kies de kansverdeling en de toets. Kies het significantieniveau (alfa): bijvoorbeeld 5%. Bereken de z-score voor de steekproef. Ga na of de overschrijdingskans (p) van de berekende z-waarde kleiner is dan het significantieniveau. Zo ja, dan moet je de nulhypothese verwerpen en de alternatieve hypothese accepteren, zo niet, de nulhypothese accepteren (niet verwerpen).
Is het significante verschil tussen M en mu relevant? Dit kun je berekenen door de effectgrootte te berekenen. De effectgrootte van het steekproefgemiddelde bereken je zo: d (effectgrootte) = M – mu gedeeld door sigma. Voorbeeld: M = 21, mu = 16, sigma = 9,52. D = 5 gedeeld door 9,52 = 0,53. De interpretatie hiervan is: rond 0,2 is klein, rond 0,5 is middelmatig en rond 0,8 is groot. De effectgrootte D kan groter zijn dan 1.
Er zijn een aantal voorwaarden voor een z-toets. Ten eerste moet de variabele minstens op interval meetniveau gemeten zijn. Ten tweede moet de variabele in de populatie normaal verdeeld zijn, want dan is de steekproevenverdeling ook normaal verdeeld. Dit kun je controleren met een histogram voor de steekproef. Ten slotte moeten we de standaardafwijking weten. Als N groter is dan 100, vervallen 2 en 3. Een steekproevenverdeling is dan altijd normaal verdeeld en de populatieschatting is ongeveer sigma.
Hoorcollege 4: Betrouwbaarheidsintervallen
Op het deeltentamen komen 25 meerkeuzevragen over hoofdstuk 1 t/m 6 van het boek en de syllabus over kansverdelingen op Blackboard.
Toetsen heeft een aantal basisprincipes. Specifieer de statistische hypothese. Kies de kansverdeling en de toets: een z-toets op één gemiddelde met de z-verdeling (standaardnormale verdeling) als kansverdeling. Kies het significantieniveau. Dit is vaak 0,05. Bereken de toetsingsgrootheid (bijv. z) voor de steekproef. Dan ga je de conclusie trekken: ga na of de overschrijdingskans van de berekende z-waarde kleiner is dan het significantieniveau. Zo ja, dan verwerp je de nulhypothese en accepteer je de alternatieve hypothese. Zo niet, dan accepteer je de nulhypothese.
De overschrijdingskans noemen we ook wel de p-waarde van de toets. De p komt van probability. We noemen de overschrijdingskans ook wel Sig. In het Engels noemen we de overschrijdingskans significance, dit is verwarrend! De p-waarde is de kans op gevonden resultaat of nog extremer (verder van de waarde volgens de nulhypothese) als de nulhypothese waar is. De p-waarde is kleiner of gelijk aan het significantieniveau.
Je kunt in een symmetrische kansverdeling een eenzijdige of tweezijdige toets doen. Bij eenzijdige toetsen is de p-waarde de rechter óf linker overschrijdingskans. Bij tweezijdige toetsen is de p-waarde tweemaal de linker óf rechter overschrijdingskans. Als je dan van één kant de kans weet, moet je hem verdubbelen. De kans aan de andere kant is namelijk hetzelfde.
De p-waarde moet je kunnen omrekenen tussen een- en tweezijdige toetsen. In een z-tabel staan alleen maar overschrijdingskansen voor een eenzijdige toets. Als je van een eenzijdige overschrijdingskans naar een tweezijdige overschrijdingskans wilt gaan, moet je die kans verdubbelen. Als je van een eenzijdige naar een tweezijdige toets wilt gaan, moet je de kans halveren. SPSS rapporteert meestal met een tweezijdige overschrijdingskans (p).
Er is ook een mogelijkheid om toetsen uit te voeren zonder naar de overschrijdingskans te kijken. Dit kan met de grenswaarde (kritieke waarde) van het significantieniveau. Er is een grens die precies de kans geeft dat iemand in het oppervlakte van 5% zit. Als de z-waarde kleiner is dan die kritieke waarde, ligt die bij een rechtszijdige toets aan de linkerkant. Als je weet wat die grenswaarde is, en je rekent de z-waarde uit, dan weet je niet precies hoe groot die overschrijdingskans is, maar je weet wel dat die groter is dan 5%. Dan weet je genoeg om de conclusie te trekken dat je de nulhypothese niet moet verwerpen. Stel dat de z-waarde hoger is en hoger uitkomt dan die grens, dan weet je dat de kans op die waarde of extremer kleiner moet zijn dan die 5%. Want hij zit in het gebied van de 5%. Je kunt dan dus ook een conclusie trekken: de overschrijdingskans is kleiner dan 5%, dus je moet de hypothese verwerpen. Je weet dan niet precies hoe groot de overschrijdingskans is, maar dat maakt ook niet uit. Het verwerpingsgebied is het kritieke gebied: het gebied buiten de grenswaarden (de kritieke waarden). Als onze toetsingsgrootheid van onze steekproef in dat gebied ligt, verwerpen we de nulhypothese. P is dan kleiner dan alfa. De beslissingsregel is: als we het steekproefresultaat in het verwerpingsgebied ligt, verwerpen we de nulhypothese. Zo niet, accepteren we de nulhypothese.
De kritieke waarden van z zijn vaste getallen. Voor eenzijdige en tweezijdige toetsen is er een tabel met de kritieke waarden voor verschillende significantieniveaus. De linker kritieke waarde is –(rechter kritieke waarde).
Je moet de kritieke waarde bij de toets en het significantieniveau kiezen. Dan moet je het verwerpingsgebied opstellen. Vervolgens ga je na of de toetsingsgrootheid van de steekproef in het verwerpingsgebied valt. Je toetst op een vooraf gekozen significantieniveau. Het maakt niet uit of de overschrijdingskans weinig of veel lager is dan het significantieniveau. In de praktijk, als we met SPSS werken, moeten we de overschrijdingskans toch rapporteren. Als we die niet weten, moeten we van het significantieniveau het laagste niveau rapporteren waarop het resultaat significant is.
Bij het handmatig toetsen met kritieke waarden zijn er dezelfde basisprincipes, maar met wat aanpassingen. Specificeer de statistische hypothesen. Kies de kansverdeling en de toets. Kies het significantieniveau. Zoek nu echter de bijbehorende kritieke waarde op in de significantietabel en bepaal het verwerpingsgebied. Bereken de toetsingsgrootheid voor de steekproef. Ga na of de berekende toetsingsgrootheid in het verwerpingsgebied valt: zo ja, nulhypothese verwerpen, anders nulhypothese accepteren.
Een nulhypothese kun je vaststellen op basis van theorie of op basis van praktische informatie of eerder onderzoek. Een betrouwbaarheidsinterval is het ‘gebied’ van de nulhypothesen die niet verworpen zouden worden met de huidige steekproef bij een bepaalde alfa. Bij een 95%-betrouwbaarheidsinterval worden nulhypothesen niet verworpen bij alfa = 0,05. Bij een 90%-betrouwbaarheidsinterval zouden nulhypothesen niet verworpen worden bij alfa = 0,01. Over het algemeen geldt: 1-alfa keer 100%-betrouwbaarheidsinterval. Hou er rekening mee dat dit alleen kan bij tweezijdige toetsen. In het betrouwbaarheidsinterval liggen alle populatiewaarden waarbij dit steekproefresultaat voldoende kans heeft om voor te komen.
Om het betrouwbaarheidsinterval te bepalen, moet je de kritieke waarde van de toetsingsgrootheid weten. Je moet de minimale en maximale waarden weten waarbij de nulhypothese niet verworpen wordt. Dit zijn de grenzen waar het verschil tussen het steekproefresultaat en de parameter te groot wordt. De toetsingsgrootheid is een z-waarde. De z-waarde is het verschil tussen het steekproefgemiddelde en het populatiegemiddelde in standaardfouten. De kritieke waarde geeft het aantal standaardfouten. Die standaardfouten moeten we weer omzetten in de oorspronkelijke meeteenheid. Dit doe je zo: het steekproefgemiddelde plus/min de kritieke waarde maal standaardfout geeft de grens van het betrouwbaarheidsinterval. Het gemiddelde ligt altijd in het midden van het betrouwbaarheidsinterval en de grenzen ervan liggen altijd even ver van het gemiddelde af.
We proberen op basis van een steekproef een schatting te maken van het populatiegemiddelde. We hebben hierbij dus niet van tevoren een hypothese, zoals bij toetsen. We hebben twee soorten schatting. Bij een puntschatting kiezen we 1 getal voor mu. Het steekproefgemiddelde is de beste puntschatting, want dit is een zuivere schatter. Een schatting is vrijwel zeker niet precies goed. Bij een intervalschatting bepaal je de grenzen waartussen mu met 95% zekerheid ligt. Het 95%-betrouwbaarheidsinterval bevat de grenzen waartussen het gemiddelde met 95% zekerheid ligt. Je mag niet zeggen dat er 95% kans is hierop, want de kansrekening gaat ervan uit dat de nulhypothese waar is. Het ligt wel of het ligt niet binnen de grenzen.
Bij het rapporteren van toetsresultaten, geef je ten eerste de toetsingsgrootheid en de berekende waarde. Ten tweede vermeld je de overschrijdingskans voor dit toetsresultaat. Dit doe je ook wanneer het resultaat niet significant is. Als die kans afgerond kleiner is dan 0,001, rapporteer je als p < 0,001. Wanneer je de overschrijdingskans niet weet, vermeld je het laagste passende significantieniveau (p < 0,05, p < 0,01, p < 0,001 of n.s. (niet significant)). Wanneer de toets eenzijdig is, vermeld je dit. We gaan er namelijk altijd vanuit dat de toets tweezijdig is. Als je het betrouwbaarheidsinterval weet, vermeld je dit ook. Dit mag je afkorten als CI voor Confidence Interval. Als je het interval niet weet, hoef je het niet te vermelden. Tenslotte rapporteer je de effectgrootte bij een significant resultaat. Voorbeeld: “Studenten werken gemiddeld (M = 20,00, SD = 8,00) significant en redelijk veel meer dan 16 uur per week, z = 1,96, p = 0,050, 95% CI [16,00, 24,00], d= 0,50.” Wanneer je de statistieken in een tabel presenteert, hoefje ze niet in de zin te vermelden. “Studenten werken gemiddeld significant en redelijk veel meer dan 16 uur per week.”
Soms wil je toetsen op één proportie. Stel je hebt een onderzoekshypothese over het deel van een populatie met een bepaald kenmerk. Bijv. “Stemt minder dan 20 procent van de Nederlanders op de PvdA?” Je gaat dan statistische hypothesen opstellen. De statistische maat is de proportie in de populatie (π = Griekse p). H0: π ≥ 0,20 en H1: π < 0,20. We moeten dan weten wat de kansverdeling en toets is die daarbij hoort. Dat is in dit geval een z-toets met de z-verdeling als kansverdeling. Dit mag niet altijd, de steekproef moet groot genoeg zijn. De regel hiervoor is dat de omvang van de steekproef keer het kleinste van de proportie van de porportie groter moet zijn dan 5. N keer π0 > 5 én N keer (1 – π0) > 5.
De toetsingsgrootheid voor de steekproef: Zp = p – mu gedeeld door sigma van p. Deze formule moet je dan verder omzetten (zie Powerpoint). Sigma p is de standaardafwijking van de steekproevenverdeling van de steekproefpoportie (standaardfout).
Hoorcollege 5: Toetsen en gemiddelden
Omdat we sigma niet goed kunnen schatten als N kleiner is dan 100, gebruiken we een t-verdeling in plaats van de z-verdeling. Voor elk aantal vrijheidsgraden is er een t-verdeling. We gebruiken de t-verdeling voor een toets op 1 gemiddelde, een toets op twee gemiddelden bij afhankelijke steekproeven, een toets op het verschil tussen twee gemiddelden (onafhankelijke steekproeven) en een toets op de correlatiecoëfficiënt.
Je moet een onderzoeksvraag kunnen vertalen in een aantal statistische grootheden. Zodra je dat gedaan hebt, kun je met het schema van alle toetsen kijken welke toets je moet gebruiken. Daarna moet je een nulhypothese van de toets en de toetsingsgrootheid bepalen.
Met het gemiddelde kun je veel vragen beantwoorden. Stel je wilt de hypothese ‘Jongeren in Amsterdam drinken minder alcohol dan het Nederlands gemiddelde.’ Je toets op één gemiddelde en je neemt dus één steekproef uit één populatie. Als je het letterlijk neemt, stel je dat álle Amsterdamse jongeren minder drinken dan het Nederlands gemiddelde. Als je dan één jongere vindt die minder drinkt, is je hypothese al niet waar. Je bedoelt waarschijnlijk dat de Amsterdamse jongeren gemiddeld minder drinken dan het Nederlands gemiddelde.
‘De vrouwelijke commissarissen zijn gemiddeld zeven jaar jonger dan de mannen.’ Hierbij toets je op twee gemiddelden en neem je dus twee onafhankelijke steekproeven. We moeten mannen en vrouwen namelijk zien als twee aparte steekproeven. Je had deze steekproeven in principe apart kunnen trekken: een steekproef van een lijst met mannelijke en van een lijst van vrouwelijke commissarissen.
‘In 1988 zat een Kamerlid gemiddeld 7,7 jaar in de Kamer, nu is dat nog maar 4,5 jaar.’ Hierbij heb je weer twee gemiddelden en dus twee onafhankelijke steekproeven, een van in 1988 en een van nu.
Bij een t-verdeling als kansverdeling kun je de volgende onderzoeksvraag hebben: ‘Zijn de Nederlanders voor of tegen nieuwe bezuinigingen van de regering?’ De mening wordt gemeten op een schaal van 100% voor tot 100% tegen. We doen een aselecte steekproef met N = 49, M = 12, SD = 24,5. Uit de onderzoeksvraag haal je de statistische vraag: ‘Is het gemiddelde oordeel positief of negatief?’ Als we een z-toets zouden willen doen op 1 gemiddelde, is de nulhypothese mu = 0 (het gemiddelde is 0). De voorwaarden op een z-toets op een gemiddelde is dat de sigma bekend is en de populatie normaal verdeeld, óf dat de steekproef groter is dan 100. Hier voldoet deze steekproef niet aan. Sigma van de populatie is vrijwel altijd onbekend. Je schat dan de sigma met de standaardafwijking in de steekproef. Dit mag, want het is een zuivere schatter. We komen hierbij wel bij een probleem: hoe kleiner N, des te meer is de standaardafwijking van de steekproef kleiner dan die van de populatie. We hebben dan dus een onderschatting van sigma en dus van SE = standaardafwijking van het gemiddelde van de steekproef = sigma gedeeld door wortel van N. Een te lage SE zorgt dus voor een te hoge Z, dus zijn er te veel significante resultaten.
De oplossing hiervoor is een kansverdeling te doen voor elke steekproefomvang. De t-verdeling heeft een symmetrische klokvorm. Hoe kleiner die steekproef is, hoe platter de t-verdeling is. Dit betekent dat de staarten dikker worden, en de 2.5% oppervlakte onder staart verder naar buiten liggen. De kritieke waarden (Tkrit) liggen dan meer naar buiten, dus heb je minder (snel) significante resultaten.
Bij grote steekproeven (N is groter of gelijk aan 100, sigma is onbekend), kan de z-toets met de standaardnormale verdeling gebruik worden. Maar de t-verdeling is dan vrijwel gelijk aan de z-verdeling zodat het geen verschil uitmaakt. Hoe groter de steekproef wordt, hoe kleiner het verschil tussen de kritieke waarden van de t-verdeling en de z-verdeling wordt. SPSS gebruikt bij een toets op het gemiddelde altijd de t-toets, ook al zou de z-toets gebruikt mogen worden. We maken de afspraak dat we altijd de t-verdelingen in een toets op gemiddelden gebruiken, behalve als we standaardafwijking van de populatie kennen.
Vrijheidsgraden zijn het aantal scores dat in de steekproef kan variëren wanneer het steekproefresultaat bekend is. Voor elk aantal vrijheidsgraden hebben we een aparte t-toets. Stel je hebt een steekproefgemiddelde van 4: de scores zijn 2, 4, 6, 7 en x. Je weet dus 4 van de 5 scores. De somscore = 5 (scores) keer (het gemiddelde) 4 = 20. Je weet dat 2 + 4 + 6 + 7 = 19, dus 19 + x = 20. X = 1. Die laatste score ligt al vast en heeft geen vrijheid meer om te variëren. Het aantal vrijheidsgraden bij een toets op één gemiddelde: df = N – 1 (omvang steekproef min 1). Bij andere toetsen kan het aantal vrijheidsgraden anders zijn.
De t-toets is een toetsingsgrootheid die scores aan kansen verbindt, net als z in de standaardnormale verdeling.
T = M – gemiddelde wat je verwacht voor de standaardafwijking / SE. Het enige verschil is dat als je standaardfout gaat bekijken moet je s/wortel N doen, dus je gebruikt de standaardafwijking van de steekproef. Als we een steekproef getrokken hebben, kunnen we een t-score bereken en kunnen we kijken of hij in het verwerpingsgebied valt. Ook een t-verdeling is een symmetrische verdeling. Om de t-verdeling te gebruiken, kies je eerst je statistische hypothese. Dan kies je de kansverdeling en de toets: de t-verdeling en t-toets voor het gemiddelde. Kies het significantieniveau. Zoek handmatig de kritieke waarde op en bepaal het verwerpingsgebied. Bereken de toetsingsgrootheid t voor de steekproef. Ga na of p < a. Ga handmatig na of de berekende t-waarde in het verwerpingsgebied valt. Zo ja, dan moet je H0 verwerpen en H1 accepteren. Zo niet, dan moet je H0 accepteren. Als we een niet significant niveau hebben moeten we ook kijken naar de effectgrootte.
De voorwaarde voor een t-toets zijn dat N groter is dan 30, of dat er een normale verdeling is in de populatie. Meestal kennen we de populatie niet, dan maken we van de steekproef een histogram en tekenen we er een normaalverdeling in. Zo kunnen we zien of de steekproef normaal verdeeld is. Als hij niet normaal verdeeld is, kunnen we niet aannemen dat de populatie normaal verdeeld is. Rapporteren doe je zoals bij de z-toets op 1 gemiddelde, met het aantal vrijheidsgraden tussen haakjes direct achter t.
We kunnen ook een toets doen voor twee gemiddelden bij afhankelijke steekproeven. Voorbeeld: 60 respondenten gaven hun mening vorig jaar over de bezuinigingen en nu weer. H0 is dat het gemiddelde van vorig jaar hetzelfde is als het gemiddelde van nu. H1 is dat het gemiddelde van vorig jaar niet hetzelfde is als het gemiddelde van nu. Deze toets kan ook eenzijdig, maar we doen hem nu tweezijdig. Bij afhankelijke steekproeven zijn de twee metingen bij dezelfde respondenten uitgevoerd. Er is een verschilvariabele V per respondent: V = score van vorig jaar – score van nu. De H0 is dan V niets veranderd is, dus het gemiddelde van V = 0. Dit is een toets op één gemiddelde! De voorwaarden voor de toets zijn hetzelfde als bij een onafhankelijke steekproef. Beide statistische populaties moeten normaal verdeeld zijn of de steekproef moet groter zijn dan 30. De steekproeven zijn afhankelijk (de waarnemingen zijn gepaard). De variabele heeft minstens interval meetniveau. De betrouwbaarheidsinterval, effectgrootte en interpretatie is hetzelfde als bij de t-toets op één gemiddelde.
Stel we hebben twee gemiddelden bij onafhankelijke steekproeven: scoort de ene groep gemiddeld hoger of lager dan de andere? We hadden deze groepen apart kunnen trekken. De nulhypothese kan zijn H0 = gemiddelde1 = gemiddelde2 of H0 = gemiddelde1 – gemiddelde2 = 0. De toetsingsgrootheid volgt dezelfde principes, alleen gaat het over het verschil tussen twee gemiddelden. Het gaat om de standaardfout van het verschil tussen twee steekproefgemiddelden. Daar zit wel een probleem in. De effectgrootte d = het verschil tussen de twee steekproefgemiddelden gedeeld door de wortel uit de s^2 (p). S^2 is de variatie. Als je de wortel uit de variantie trekt krijg je een standaardafwijking. P staat voor pooled, de gepoolde variantie.
Bij de standaardfout zit een probleem. Dit heeft te maken met de variantie in de populatie. We hebben twee versies van deze toets in twee verschillende situaties. De vraag is, zijn de varianties in de populaties hetzelfde of niet. Als de populaties dezelfde varianties hebben, gebruiken we een andere formule dan als ze verschillende varianties hebben.
Bij versie 1 hebben de twee populaties gelijke varianties: df = n1 + n2 – 2, SE met gepoolde variantie. Bij versie 2 hebben ze ongelijke varianties: vrijheidsgraden met decimalen, SE met losse varianties. De versie kies je door wel of niet aan te nemen dat de varianties van de populaties hetzelfde zijn. Maar we kennen de populaties niet, hoe weten we dit nu? Hiervoor doen we een F-toets. Onze nulhypothese is dat we variantie in de eerste populatie hetzelfde is als de variantie van in de tweede populatie. We doen een toets om te weten welke variant van de t-toets we moeten gebruiken. Als de toets significant is, verwerp je de nulhypothese, dus ga je uit van ongelijke varianties in de populatie. Als de toets niet significant is, ga je uit van gelijke varianties.
Voorlopig kunnen we alleen kijken hoe het eruit ziet in SPSS. We zien dat die standaardafwijking niet hetzelfde is. In de steekpoef zijn de varianties dus niet hetzelfde. We kunnen niet altijd zeggen dat wat in een steekproef geldt, in een populatie ook geldt. Dit verschil hoeft in de populatie dus niet zo te zijn, Bij equality of variances staat eigenlijk de nulhypothese van de toets. Als Sig. kleiner is dan 0,05, verwerpen we de toets. Omdat de toets significant is, verwerpen we de hypothese dat de varianties gelijk zijn. We kijken dus naar equal variances not assumed. We krijgen een t-waarde, de vrijheidsgraden, de overschrijdingskans, het verschil, de standaardfout en het betrouwbaarheidsinterval. Je kijkt dus eerst naar Sig. in de tabel, en dan weet je of je de bovenste of onderste regel van de tabel moet interpreteren.
Aan een toets voor het verschil tussen twee gemiddelden zijn weer dezelfde voorwaarden als bij een t-toets op één gemiddelde.
De t-toets voor de correlatiecoëfficiënt: hangt de mening over bezuinigingen samen met de leeftijd? De t-verdeling benadert de steekproevenverdeling van de correlatiecoëfficiënt (r) onder de nulhypothese dat de correlatie in de populatie 0 is. H0: Rho = 0 of H0: Rho is kleiner of gelijk aan 0 of H0: Rho is groter of gelijk aan 0. De H1 is dan: Rho is niet gelijk aan 0 of H1: Rho is groter dan 0 of H1: Rho is kleiner dan 0. Rho is een Griekse letter: de correlatie in de populatie. Op de correlatiecoëfficiënt kun je alleen een t-toets uitvoeren als de nulhypothese is dat de correlatie in de populatie 0 is. Als je verwacht dat de correlatie 0,3 is, kun je dit niet toetsen met een t-toets. De toetsingsgrootheid is Tr = r keer wortel van N – 2, gedeeld door de wortel van 1 – r^2. Je hoeft dus alleen de r en de N te weten. Het aantal vrijheidsgraden bereken je door df = N – 2. De voorwaarden voor deze toets zijn divers, maar onbelangrijk.
Voorbeeld: In de steekproef (N = 49) is de correlatie tussen het oordeel over de bezuinigingen en politiek cynisme r = -0,60. De t-toets geeft dan -5,142. De interpretatie hiervan is: Het oordeel over de bezuinigingen hangt significant, sterk negatief samen met het politiek cynisme van Nederlanders (r = -0,60), t (47) = -5,14, p < 0,001. Een betrouwbaarheidsinterval kunnen we niet uitrekenen, want we hebben geen standaardfout. De correlatie die je hier uitrekent, geeft de effectgrootte al aan. Die geeft aan hoe zwak, matig of sterk de correlatie is.
Hoorcollege 6: Non-parametrische toetsen
Non-parametrische toetsen zijn toetsen met variabelen op maximaal ordinaal niveau. Ze hebben minder aannamen, maar een lager onderscheidingsvermogen. We hoeven niet een aanname te maken over de standaardafwijking en ons geen zorgen te maken over de vorm van de verdeling. Bij toetsen op proportie heb je alleen maar een nominaal meetniveau nodig, dus de toets op een proportie noem je automatisch non-parametrisch. De voordelen van een non-parametrische toets is dat hij gebruikt mag worden met nominale en ordinale variabelen en dat er minder aannamen en controles zijn. Deze toets kun je niet altijd gebruiken, omdat bij variabelen met een hoger meetniveau de extra informatie dan niet gebruikt wordt. Daarom wordt H0 minder snel verworpen wanneer H0 niet waar is, door het lagere onderscheidingsvermogen. Het onderscheidingsvermogen is de kans om een onware nulhypothese te verwerpen. Hoe hoger het meetniveau, hoe hoger het onderscheidingsniveau. In SPSS is de toets altijd tweezijdig als je op 50% toetst en niet als je op iets anders toets (als je op een proportie toetst).
In de frequentietabel kun je het aantal keren zien dat categorieën van één variabele voorkomen in de steekproef. In de populatie komen alle categorieën even vaak voor. Bij een toets op meer dan twee proporties, moeten we dus voor drie proporties een getal verzinnen in onze nulhypothese. Er zijn twee opties. De eerste is dat alle proporties aan elkaar gelijk zijn. We zeggen dan voor het aantal categorieën dat de proportie in de populatie van de eerste categorie gelijk is aan de proportie van de tweede categorie en aan de proportie van de derde categorie. We kunnen ook andere proporties gebruiken, als de populatie waaruit de steekproef is getrokken, dezelfde frequentieverdeling heeft als een bekende populatie. Dan kunnen we dezelfde proporties als in de populatie gebruiken. Onze hypothetische populatie laten we dan lijken op de populatie die we echt kennen. Als we een zuivere schatter hebben gekozen, is onze hypothetische populatie dan representatief voor de echte populatie.
De toetsingsgrootheid die we gebruiken is de (geobserveerde) Chi kwadraat. Dit is het verschil tussen de verwachte (fe) en de geobserveerde frequenties (fo) voor alle categorieën. Dit is dus hoeveel de frequentie van wat we observeren afwijkt van onze nulhypothese. De geobserveerde frequentie is de frequenties die in de steekproef geteld zijn. In de formule voor Chi kwadraat zit een kwadraat, dus het resultaat is altijd positief. Een te lage en te hoge waargenomen frequenties voor een categorie leiden tot dezelfde positieve waarde van Chi kwadraat. Een Chi kwadraat dicht bij nul geeft aan dat de verwachte waarde en de geobserveerde waarde erg hetzelfde zijn. We kijken niet naar het linkerdeel van de frequentieverdeling, want daar is bijna geen verschil tussen de verwachte waarde en de geobserveerde waarde en zul je de nulhypothese nooit verwerpen. We kijken alleen naar de rechteroverschrijdingskans.
Een eenzijdige Chi kwadraattoets doe je alleen bij een toets op twee categorieën, dus een toets op één proportie. Net als bij de t-verdeling hebben we een verschillend aantal vrijheidsgraden. Bij de frequentieverdeling is het aantal vrijheidsgraden: het aantal categorieën min 1. De grootte van de steekproef doet er dus niet toe. Het aantal vrijheidsgraden kan variëren wanneer je het toetsresultaat kent. Als we vijf van de 6 frequenties kennen, weten we de 6e, want we weten N. Met het aantal vrijheidsgraden kun je de kritieke waarde opzoeken. Als de X^2 (Chi kwadraat) berekend is, kun je zien of die in het kritieke gebied valt of niet.
Er zijn een aantal voorwaarden voor benadering van een steekproevenverdeling door een Chi kwadraat kansverdeling. Minstens 80% van de verwachte waarden moet minstens 5 zijn. Geen enkele verwachte waarde mag kleiner zijn dan 1. Indien niet voldaan wordt aan de voorwaarden, mag je de Chi kwadraattoets niet uitvoeren, of je moet de categorieën met te lage verwachte frequenties samenvoegen.
De nulhypothese is dat de twee variabelen statistisch onafhankelijk zijn in de populatie; er is geen verband tussen de twee variabelen. Volgens de nulhypothese is de relatieve frequentieverdeling in elk van de populaties gelijk. De populaties staan in de kolommen in een kruistabel. De percentages binnen elke kolom zijn dan gelijk aan de rijpercentages. De rijpercentages zijn de verwachte kolompercentages volgens H0. Hier staat wat we verwachten volgens de nulhypothese. We kunnen dan met de steekproef de verwachte waarde berekenen voor als de nulhypothese waar zou zijn. Het aantal vrijheidsgraden bereken je door df = (k – 1) x (r – 1). K is het aantal kolommen in de kruistabel, r het aantal rijen in de kruistabel. De kritieke waarden zoek je op in de significantietabel.
Waar zitten nou de significante verschillen in de kruistabel? Dit berekenen we met het gestandaardiseerd celresidu: zres = fo – fe gedeeld door de wortel van fe. Dus de verwachte frequentie min de geobserveerde frequentie, gedeeld door de wortel van de verwachte frequentie. Dit kun je voor elke cel doen. Hierna kun je weer doen alsof je met een z-waarde werkt. De gestandaardiseerde celresiduen zijn bij benadering standaardnormaal verdeeld.
De voorwaarden zijn dat de fe altijd groter dan 5 moet zijn in 80% van de cellen, en nooit kleiner dan 1. Ook moet minstens een van beide variabelen meer dan twee categorieën hebben. Het alternatief is een Fisher-exact-toets. Bij een 2x2 kruistabel gebruik je altijd de Fisher-exact-toets. SPSS levert deze toets bij een 2x2 kruistabel. Je krijgt alleen een overschrijdingskans. Het toetst dezelfde nulhypothese als een Chi kwadraattoets.
De toets op de rangcorrelatie (Spearman) gebruiken we om een verband te toetsen tussen twee ordinale variabelen, of het verband tussen twee interval/ratio variabelen die duidelijk niet normaal verdeeld zijn of duidelijk geen lineair verband hebben. Dit kun je bekijken met een spreidingsdiagram. De toets op de rangcorrelatie mag alleen als de nulhypothese nul is, of nul en groter dan nul, of nul en kleiner dan nul. De nul moet erin staan. De Rho met een kleine s geeft aan dat het een rangcorrelatie van Spearman is. De toetsingsgrootheid: voor kleinere steekproeven dan 30 hebben we geen toetsingsgrootheid, maar wel een kritieke waarde uit de tabel van de rangcorrelatiecoëfficiënt. Dan kunnen we dus kijken of de rangcorrelatiecoëfficiënt groter dan de kritieke waarde is. Hebben we meer dan 30 waarnemingen, dan kunnen we de t-waarde berekenen. Rs is de rangcorrelatie in je steekproef. Als je de t-waarde berekent hebt, kun je de kritieke waarde opzoeken en nagaan of de berekende t-waarde in het verwerpingsgebied ligt. In de formule staat geen Rho. Rho is de waarde die we in de nulhypothese vastleggen. We gebruiken in de nulhypothese Rho = 0, omdat de Rho niet in de formule voorkomt en de toetsingsgrootheid geen rekening houdt met wat de waarde van Rho is.
De voorwaarden zijn dat er minstens op ordinaal niveau gemeten wordt.
In SPSS krijg je de waarde van de correlatiecoëfficiënt, hoe zwak/sterk het verband is. Sig is de tweezijdige overschrijdingskans.
Hoorcollege 7: Eenwegs-variantieanalyse
Bij een toets op varianties gebruiken we de rechterstaart van de (asymmetrische) F-verdeling. We kunnen een F-toets doen op gelijke populatievarianties. Bij een eenwegs-variantieanalyse vergelijken we gemiddelden van meer dan twee groepen. De tussengroepsvariantie is de variantie van de groepsgemiddelden. De binnengroepsvariantie is de variantie van scores binnen de groepen. De nulhypothese is altijd dat de tussengroepsvariantie gelijk is aan de binnengroepsvariantie. De alternatieve hypothese is dat de tussengroepsvariantie groter is dan de binnengroepsvariantie.
De variantie is de spreidingsmaat voor interval/ratio (numerieke) variabelen. De variabele geeft aan hoe goed het gemiddelde een verdeling karakteriseert. Het is de gemiddelde gekwadrateerde afwijking ten opzichte van het (rekenkundig) gemiddelde. De populatieschatting bereken je door de kwadratensom (X-M in het kwadraat) gedeeld door het aantal vrijheidsgraden (N-1).
Een onderzoeksvraag over variantie kan zijn: Is de spreiding in scores binnen de ene groep anders dan in de andere groep? Een onderzoekshypothese zou kunnen zijn: de opinies in de pers over de vrijheid van meningsuiting variëren in 2010 meer dan in 2000. De statistische hypotheses zijn dan. De nulhypothese kan zijn dat de spreiding in de scores van de variabele hetzelfde is in de ene groep als in de andere (tweezijdig) of dat de spreiding in de ene groep kleiner of gelijk is aan de spreiding in de andere groep (eenzijdig). De alternatieve hypothese is dan dat de spreiding in de ene groep niet hetzelfde is als de spreiding in de andere groep (tweezijdig) of dat de spreiding in de ene groep groter is als die in de andere groep. We maken de afspraak dat groep 1 staat voor de groep die in de steekproef de grootste variantie heeft.
De toetsingsgrootheid die hierbij hoort is e F-toets. F = variantie groep 1 gedeeld door variantie groep 2, waarbij de variantie van groep 1 groter is dan die van groep 2. Het aantal vrijheidsgraden van groep 1 bereken je door N1 – 1 en die van groep 2 door N2 – 1. De F-kansverdeling is in alle gevallen asymmetrisch. De F-waarde kan niet kleiner zijn dan 0, want je deelt de ene variantie door de andere varianties. Varianties zijn altijd positief, dus de F-waarde ook. Er zijn twee aantallen vrijheidsgraden, voor elke groep een aantal. Het aantal vrijheidsgraden van groep 1 komt in de teller en die van groep 2 in de noemer. De F-verdeling heeft verschillende vormen bij verschillende vrijheidsgraden. Met een hoger aantal vrijheidsgraden begint de verdeling de vorm te krijgen van een Chi-kwadraatsverdeling.
Je kunt eenzijdig en tweezijdig toetsen. De grootste variantie staat in de teller, dus de F-waarde is dan groter dan 1. Je kijkt daarom alleen naar de rechterstaart van de verdeling, zowel bij de eenzijdige als bij de tweezijdige toets.
De F-toets op gelijke varianties heeft een aantal voorwaarden. De variabelen moet minstens interval meetniveau hebben. Ook moeten beide populaties normaal verdeeld zijn OF de grootte van de steekproeven moet van beide groepen meer dan 100 zijn. Er is een alternatief bij niet-normale populaties: de Levene’s toets (in SPSS). De toets wordt het meest gebruikt als ‘ingangstoets , bij de T-toets op twee gemiddelden (onafhankelijke steekproeven).
Bij de F-toets hou je de volgende stappen aan. Eerst ga je de hypothesen opstellen. Vervolgens kies je de kansverdeling: de F-verdeling bij toets op varianties. Dan ga je het significantieniveau (α) kiezen. Vervolgens zoek je handmatig de kritieke waarde op in de significantietabel (let op de twee vrijheidsgraden). Dan ga je de F-waarde (SPSS: overschrijdingskans p) uitrekenen. Dan beoordeel je de uitkomst: is p < α (of is de berekende F-waarde groter dan de kritieke waarde)? Zo ja, dan moet je de nulhypothese verwerpen en de alternatieve hypothese accepteren. Zo niet, dan moet je de nulhypothese accepteren.
Er zijn een aantal uitgangspunten van de variantieanalyse. Hoe kunnen we de gemiddelden van drie of meer groepen tegelijk vergelijken? Bijvoorbeeld de (gemiddelde) meningen van lezers van verschillende kranten. De nulhypothesen is dan dat alle groepsgemiddelden in de populatie gelijk zijn. De alternatieve hypothese is dat tenminste twee groepsgemiddelden verschillend zijn in de populatie. Hoe geef je in één getal (toetsingsgrootheid) aan dat groepsgemiddelden gelijk zijn? Bij een t-toets was dat makkelijk: M1 = M2, dan M1 – M2 = 0. Zeggen dat twee gemiddelden hetzelfde zijn, is hetzelfde als zeggen dat het ene gemiddelde min het andere gemiddelde 0 is. Hoe kun je nou bij een variantieanalyse zien dat alle groepsgemiddelden in de populatie gelijk zijn? Aftrekken werkt dan niet. De oplossing hiervoor is om de spreiding van de groepsgemiddelden te gebruiken, hun afwijkingen van het totaalgemiddelden. De tussengroepsvariantie is de spreiding van alle groepsgemiddelden rond het totaalgemiddelde. Als de groepsgemiddelden gelijk zijn, zijn ze allemaal gelijk aan het totale gemiddelde, dus is de tussengroepsvariantie 0. De tussengroepsvariantie geven we aan met de b van between. Het gaat hier over het verschil tussen groepsgemiddelden en het totale gemiddelde.
De variantieanalyse doen we om een hypothese over populatiegemiddelden te toetsen. We kijken naar de variantie van de groepsgemiddelden. Je nulhypothese klopt wanneer de tussengroepsvariantie in de steekproef 0 is. Dit criterium is echter te streng: er kunnen toevallige verschillen tussen de steekproefgemiddelden zijn.
Binnen elke populatie (groep) zijn er verschillen in scores op de variabele: de binnengroepsvariantie. De binnengroepsvariantie geven we aan met de w van within. Het steekproefgemiddelde kan dus afwijken van het populatiegemiddelde, dit geven we aan met de tussengroepsvariantie.
De spreiding van de steekproevenverdeling is de standaardfout. De standaardfout is de standaardafwijking van de steekproef gedeeld door de wortel van de populatiegrootte. Hoe groter de standaardfout, hoe groter de verschillen die je mag verwachten in de steekproeven die je trekt uit de populatie, dus een grotere spreiding in de steekproefgemiddelden. De kans op een steekproefgemiddelde dat ver af ligt van het populatiegemiddelde is dan groter. Een grotere spreiding in het steekproefgemiddelde betekent een grotere toevallige tussengroepsvariantie in de steekproef. De toevallige verschillen hangen dus samen met de variantie in scores van elke groep.
Als de nulhypothese is dat alle populatiegemiddelden hetzelfde zijn, zijn er alleen toevallige verschillen tussen de steekproefgemiddelden. Dan is de tussengroepsvariantie gelijk aan de binnengroepsvariantie. De nieuwe nulhypothese zou dan kunnen zijn: variantie between is gelijk aan variantie within. Als de nulhypothese niet waar is, dan zijn er toevallige plus echte verschillen tussen de steekproefgemiddelden. De nieuwe alternatieve hypothese is: variantie between is groter dan variantie within. Dit is een eenzijdige hypothese.
We kunnen de varianties toetsen met de F-verdeling voor variantieratio. De nulhypothese is hier: variantie between gedeeld door variantie within = 1. De alternatieve hypothese is: variantie between gedeeld door variantie within is groter dan 1. Hoe meer F boven ligt, des te kleiner de kans is om deze verschillen in de steekproef te vinden wanneer de nulhypothese waar zou zijn, en des te eerder verwerpen we de nulhypothese dat er geen verschillende groepsgemiddelden in de populatie zijn.
De tussen- en binnengroepsvarianties kunnen we schatten. Splits de totale kwadratensom (teller s2). Splits het aantal vrijheidsgraden (noemer s^2). Deel de kwadratensom door het aantal vrijheidsgraden: Mean Squares. MSb schat σb^2 (tussengroepsvariantie) en MSw schat σ^22 (binnengroepsvariantie). De toetsingsgrootheid is dus F = MSb / MSw.
Je doet altijd een rechtseenzijdige toets bij de variantieanalyse. F kan alleen significant groter zijn dan 1. σb^2 gedeeld door σw^2 is in principe niet kleiner dan 1, want σb^2 is groter dan σw^2. σb^2 gedeeld door σw^2 = 1 is de nulhypothese die getoetst wordt. Hoewel deze nulhypothese op hetzelfde neerkomt als mu1 = mu2 = mu3 mag je niet concluderen dat je tweezijdig toetst.
Er zijn weer een aantal voorwaarden. De afhankelijke variabele moet minstens interval meetniveau moet hebben. De groepen moeten onafhankelijke steekproeven zijn. De groepen moeten ongeveer even groot zijn OF ze hebben gelijke varianties voor de afhankelijke variabele in de populatie (homogeniteit van varianties). De vuistregel voor ‘ongeveer even groot’ is dat de grootste groep maximaal 10% groter is dan de kleinste groep. Je kunt in SPSS Levene's Test of Equality of Error Variances gebruiken met als nulhypothese: alle populatievarianties zijn gelijk. Als we twee groepen vergelijken op één gemiddelde, kunnen we ook de t-toets gebruiken. Als je meer dan twee groepen hebt, gebruik je de variantieanalyse.
Tweewegs-variantieanalyse - IS HC 8
Post-hoctoetsen zijn t-toetsen met de Bonferroni correctie om te bepalen welke groepsgemiddelden significant van elkaar verschillen na een varantieanalyse. De Bonferroni corrigeert voor kanskapitalisatie.
De tweewegs-variantieanalyse houdt rekening met meer dan één onafhankelijke variabele. Er zijn dan twee categorische onafhankelijke variabelen met ieder een hoofdeffect en samen een interactie-effect. Met het interactie-effect bedoelen we verschillen in het verschil. De effectgrootte van de variantieanalyse drukken we uit in eta kwadraat.
Bij een eenwegs-variantieanalyse gebruikten we een t-toets of variantieanalyse: dit lag aan of we twee versus drie of meer groepsgemiddelden vergelijken. De afhankelijke variabele moet op interval/ratio niveau gemeten zijn. De onafhankelijke variabele moet een groepsindeling hebben, en behandelen we als een nominale variabele. Bij twee groepen heeft een variabele dichotomie en doen we een t-toets. Bij een nominale variabele met meer dan twee categorieën doen we een variantieanalyse.
Bij de eenwegs-variantieanalyse wordt de totale variantie gesplitst in de tussengroepskwadratensom (SSb) en de binnengroepskwadratensom (SSw). Bij de tussengroepsvariantie kunnen we zien hoe de gemiddelden van de groepen van elkaar variëren. Bij de binnengroepsvariantie kunnen we zien hoe groot de spreiding is in het groepen zelf rond het groepsgemiddelde.
Bij een eenwegs-variantieanalyse hoort een samenvattende tabel met de splitsing van kwadratensommen en vrijheidsgraden. Stel we zien in de tabel dat er een significant resultaat is en de nulhypothese verworpen moet worden. In de tabel kunnen we echter niet zien welke gemiddelden nou precies significant van elkaar verschillen. Hiervoor gebruiken we post-hoctoetsing: we doen een t-toets voor elk paar van gemiddelden. Het probleem is dat als je bijvoorbeeld drie kranten hebt, je drie toetsen kunt uitvoeren. Hoe meer toetsen we uitvoeren, hoe groter de kans dat we een keer een significant verschil vinden, zelfs als de populatiegemiddelden die we toetsen gelijk zijn. Je gebruikt voor elke toets namelijk weer een significantieniveau van 5%. Hoe meer toetsen je uitvoert, hoe lager je de kritieke waarde van t moet maken. Je moet de kritieke waarde van t dus aanpassen aan het aantal vergelijkingen. Bij de Bonferroni correctie deel je het significantieniveau door het aantal vergelijkingen dat je maakt. Als je bijvoorbeeld 4 groepen hebt en dus 6 vergelijkingen doet, toets je op 5% gedeeld door 6 = 0,05 / 6 = 0,008.
Bij de rapportage van de post-hoc (Bonferroni) toets vermeld je tussen welke groepsgemiddelden er significante verschillen gevonden zijn en daarbij zowel het gemiddelde verschil als de overschrijdingskans.
Bij 2 of meer onafhankelijke categorische variabelen, doen we een meerwegs-variantieanalyse. Dit doen we bijvoorbeeld als we het effect van geslacht en de gelezen krant op de opinie over de vrijheid van meningsuiting willen onderzoeken. Het hoofdeffect is het effect van één onafhankelijke variabele. Dit noemen we een factor. De term hoofdeffect suggereert dat het perse gaat om een causaal verband, maar dit is niet het geval. Het gaat alleen om een statistisch verband tussen beide variabelen. Toch zijn we geneigd over een hoofdeffect te praten, omdat een variantieanalyse vaak bij een experiment gebruikt wordt. Bij een echt experiment mogen we wel causale conclusies trekken. Buiten een experiment moeten we er rekening mee houden dat een statistisch verband niet wijst op een causaal verband. Er zijn bij twee onafhankelijke variabelen dus twee factoren en dus twee hoofdeffecten. In het voorbeeld is dit sekse (factor A met twee niveaus) en krant (factor B met drie niveaus). De nulhypothese is dat alle gemiddelden gelijk zijn en de analyse is hetzelfde als bij de eenwegs-variantie.
In de tabel wordt de binnengroepsvariantie aangegeven met error: dit zijn verschillen die we niet kunnen voorspellen omdat het verschillen zijn tussen de mensen binnen groepen. De corrected total is de som van krant sekse en error. Deze is dus relevant. Corrected model en intercept is niet relevant.
De effecten van de ene factor zijn niet altijd hetzelfde voor alle groepen binnen de andere factor. Voorbeeld: Is het verschil tussen mannen en vrouwen onder Telegraaf-lezers groter dan onder Trouw-lezers? Het interactie-effect kun je bekijken door specificatie in tabelsplitsing. Je kunt dan drie variabelen tegelijk bekijken. Als je in de tabel kijkt, zie je dat de gemiddelden van mannen en vrouwen verschillen bij de kranten. Je kijkt of de verschillen tussen mannen en vrouwen even groot zijn bij alle kranten. Als dit zo is, is er een verschil tussen mannen en vrouwen, maar geen interactie-effect. Als de verschillen tussen mannen en vrouwen van elkaar afwijken bij de verschillende kranten, is er wel een interactie-effect. Als je dit weergeeft in een grafiek, zijn er bij parallelle lijnen geen interactie-effect. Als er duidelijk niet-parallelle lijnen zijn, is er wel een interactie-effect. Er zijn dan ongelijke verhoudingen tussen de groepen.
De betekenis van het interactie-effect is dat het verschil tussen twee groepen afhangt van de conditie of omstandigheid waarin zij opereren. Er is niet per se een algemeen verschil tussen groepen op één factor, maar er is wel een verschil onder bepaalde omstandigheden: de score op een andere factor. Moderatie houdt in dat het effect bepaald wordt door een andere variabele. Een soort boodschap heeft bijvoorbeeld alleen/meer effect bij ontvankelijke mensen.
Als we steekproeven hebben, willen we kunnen zien of er interactie-effecten zijn. Dit kun je zien in de tabel. In de tabel staan 2 x 3 = 6 groepsgemiddelden. We kijken of de gemiddelde mening per subgroep op beide factoren tegelijk is. De nulhypothese is dat alle populatiegemiddelden hetzelfde zijn. Het aantal vrijheidsgraden is (I – 1) x (J – 1) I is het aantal niveaus van factor A en J is het aantal niveaus van factor B. We gebruiken weer een F-toets.
In de tabel zien we een extra regel toegevoegd: krant * sekse: zo wordt aangegeven dat het hier gaat om het interactie-effect. Erachter zien we de kwadratensom met het aantal vrijheidsgraden, de F-waarde en de overschrijdingskans.
Een significant verschil hoeft niet altijd relevant te zijn. Bij hele grote steekproeven kan een verschil al snel significant zijn. Daarom berekenen we de effectgrootte. Bij de tweewegs-variantieanalyse gebruiken we eta^2 (η2) om de effectgrootte uit te drukken. η2 is de proportie verklaarde variantie. Het is de kwadratensom van het effect gedeeld door de totale kwadratensom. We gebruiken niet de partiële η2 zoals in het boek, want als je die uiteindelijk allemaal bij elkaar optelt, kun je op een getal boven de 1 uitkomen en dit kun je niet interpreteren. Je kunt de η2 bij de variantieanalyse berekenen door de variantie te delen door corrected total. Je kunt dit berekenen met de hand, maar in SPSS ook via Means opvragen.
De vuistregel van de interpretatie van de sterkte van het verband is dat 0,01 een klein/zwak effect is, dit is 1% verklaarde variantie (vgl. r = 0,10). 0,09 is een middelmatig effect, dit is 9% verklaarde variantie (vgl. r = 0,30). 0,25 is een groot effect, dit is 25% verklaarde variantie (vgl. r = 0,50)
De stappen van de variantieanalyse gaat als volgt. Eerst doe je een F-toets op de effecten van de categorische variabelen: is er een effect? Als er een significant resultaat is, betekent dit dat er een verschil is tussen de groepsgemiddelden in de populatie. Als er een significant, bepaal je hoe groot het effect (η2) is. Dit doe je via (Analyze>Compare Means>Means). Als er een significant effect is en er meer dan 2 groepen zijn, bekijk je waar de verschillen zitten (meervoudige vergelijkingen met Bonferroni correctie).
Er zijn dezelfde voorwaarden als bij een eenwegs-variantieanalyse. De afhankelijke variabele moet minstens interval niveau hebben. De groepen kunnen beschouwd worden als
onafhankelijke steekproeven. De groepen hebben gelijke varianties voor de afhankelijke variabele in de populatie of de groepen zijn ongeveer even groot (de grootste groep is maximaal 10% groter dan de kleinste groep). Dit geldt ook voor de subgroepen bij een
interactie-effect.
Bij rapportage vermeld je het soort variantieanalyse, eenwegs of tweewegs. Je moet voor elk effect dat je toetst, het toetsresultaat geven: F (df1, df2), p en η2 (indien significant). Interpreteer bij elk significant effect de gemiddelde scores van de groepen (met de standaardafwijking), de sterkte van het effect en de eenheden en variabelen in het onderzoek. Bij de post-hoctoets vermeld je de significante verschillen tussen de groepsgemiddelden (Mverschil en p). De getallen kunnen in de samenvattende tabel. Bij het interactie-effect kun je ook een post-hoctoets doen, maar dit kan alleen als je die zelf in SPSS doet en dit is te omslachtig om binnen deze cursus te leren.
Regressieanalyse - IS HC 9
Een enkelvoudige regressieanalyse doen we om een asymmetrisch verband tussen twee interval/ratio variabelen te bekijken. We hebben een onafhankelijke (predictor, X) versus een afhankelijke (criterium, Y) variabele. Dit moet een lineair verband zijn, wat je kunt controleren met een spreidingsdiagram. a is de constante, ook wel de intercept. Het is de Y bij X = 0. b is de ongestandaardiseerde regressiecoëfficient, ook wel het regressiegewicht of de richtingscoëfficiënt. e is het residu, ook wel de error. Het is Ydakje – Y. R2 is de proportie verklaarde variantie
We werken met een toevalssteekproef en op basis daarvan willen we wat zeggen over de populatie. Een andere steekpoef levert een andere regressielijn op: zowel a als b kan dus veranderen. Er is een steekproevenverdeling voor a en b. In een enkelvoudige regressielijn hangen zowel a en b af van de steekproef die je hebt getrokken. Als je heel veel steekproeven trekt, krijg je een steekproevenverdeling van de mogelijke waardes van a en b. Als we een steekproevenverdeling hebben, kunnen we wat zeggen over de kans dat we een bepaalde waarde vinden als we een bepaalde nulhypothese hebben. We kunnen bij schatten zeggen: de regressiecoëfficient die we in onze steekproef vinden is een zuivere schatter van de regressiecoëfficient in de populatie. Bèta (SPSS) is de gestandaardiseerde b. Voor onze puntschatting kunnen we gebruiken wat we in onze steekproef gevonden hebben. We kunnen straks een uitspraak doen over de betrouwbaarheidsinterval: de richtingscoëfficiënt ligt met 95% zekerheid tussen … en …. Dat kan alleen als we de standaardfout weten. De standaardfout (Sb) is de standaardafwijking van de regressiecoëfficient in de steekproevenverdeling.
Het aantal vrijheidsgraden is N – k – 1. K is het aantal onafhankelijke variabelen. De nulhypothese is dat Bèta = 0. Dit kan ook eenzijdig, bijvoorbeeld Bèta is kleiner of gelijk aan 0. De toetsingsgrootheid is t = (b – Bèta) / standaardafwijking). b is de regressiecoëfficient die we in de steekproef vinden. Bèta is de regressiecoëfficient in de populatie. df = N – k -1. K = 1 in een enkelvoudige regressieanalyse. De overschrijdingskans (in SPSS) van deze t-waarde is de kans dat je deze t-waarde of een meer extreme vindt wanneer de nulhypothese juist zou zijn.
In de tabel staat a achter (Constant). b staat eronder. Sb staat achter b. Bèta komt in de kolom erna. De kolom daarna is de t-waarde als Bèta = 0. De kolom erna is de overschrijdingskans als Bèta = 0. In de laatste twee kolommen staat het 95% betrouwbaarheidsinterval.
Waarom toetsen we de regressiecoëfficient? β = 0 betekent dat een verandering in de onafhankelijke variabele (X) geen verandering geeft in de voorspelde waarde van Y. Als we H0: β = 0 verwerpen, betekent dit dat de onafhankelijke variabele de afhankelijke variabele wel voorspelt (heeft een effect). We toetsen de constante (intercept) wanneer we inhoudelijke redenen hebben om te verwachten dat de constante 0 (of een ander getal) is in de populatie.
Bij een regressieanalyse hebben we variabelen nodig die minstens op interval/ratio niveau zijn gemeten. Maar nominale onafhankelijke variabelen zijn als 0/1 variabelen toegestaan in een regressieanalyse: ze worden zo dichotome variabelen. Een voorbeeld hiervan is sekse met man (0) versus vrouw (1). Een dichotomie heeft nominaal meetniveau. bsekse interpreteer je als het gemiddelde verschil tussen vrouw en man op Y. De regressievergelijking is Y = a + bsekse x sekse. Voor mannen is de regressievergelijking dus Y = a + bsekse x 0 = a. Voor vrouwen is de vergelijking Y = a + bsekse x 1 = a + bsekse. Het verschil tussen mannen en vrouwen is dus alleen de waarde b.
Stel we hebben opleidingsniveau als onafhankelijke variabele met de waarden laag, midden en hoog, dus meer dan twee categorieën. Hiervan maken we dan meer dan één dichotomie. Dit noemen we een dummy variabele. Van een variabele met drie categorieën maak je twee dummy variabelen. Dus bij vier categorieën maak je drie dummy variabelen. Stel je maakt voor middenopleiding de waarden 1 = ja en 0 = anders. Bij hoge opleiding kun je hetzelfde doen: 1 = ja, 0 = anders. De middengroep scoort op midden 1 en op de rest 0. Dus de voorspelling is Ydakje = a + bmidden, want bij midden scoort de groep a + bmidden x 1 en op de dummy variabele ‘hoog’ zie je dat de groep midden bhoog x 0 scoort. Je vergelijkt middenopleiding met lage opleiding. Een uitkomst interpreteer je dus als wat de middengroep meer of minder scoort dan de groep met lage opleiding.
In SPSS zie je in de eerste kolom weer de richtingscoëfficiënt (a) bij (Constant). Die moet je nu kunnen interpreteren.
Bij de meervoudige regressieanalyse bekijken we partiele effecten van onafhankelijke variabelen op de afhankelijke variabele. Partieel betekent gecontroleerd voor effecten van de andere onafhankelijke variabelen. De andere onafhankelijke variabelen worden dus constant gehouden. Effecten van predictoren vergelijken we op sterkte: Bij dummy variabelen kun je beter kijken naar de ongestandaardiseerde regressiecoëfficiënten (b). Deze geeft namelijk het gemiddelde verschil tussen twee groepen. Bij interval/ratio variabelen moet je de regressiecoëfficient standaardiseren (Bèta in SPSS, B in boek) met de formule Bèta = b x (s / sy). Zo kun je de toe/afname in standaardafwijkingen vergelijken: hoeveel groter wordt de standaardafwijking als de X-variabele groter wordt? Standaardiseren is een manier om dingen vergelijkbaar te maken. Dat geld ook voor de gestandaardiseerde regressiecoëfficient.
Bij een meervoudige regressieanalyse hebben we een toets op de multipele correlatiecoëfficiënt. We hebben aan de ene kant dus Y en aan de andere kant het aantal onafhankelijke variabelen. In de populatie zijn alle losse onafhankelijke variabelen nutteloos, want ze voorspellen allemaal niets. De Ry1 is de wortel ut R^2 (proportie voorspelde variantie), dus er is geen verschil tussen positief of negatief. Je hebt dus altijd een eenzijdige alternatieve hypothese. Als Ry1 = 0, dan R^2 = 0 dus het regressiemodel voorspelt 0% van de variantie van Y in de populatie. Dus ook H0 = Bèta1 = Bèta2 … = Bètak = 0.
Wat is onze toetsingsgrootheid? Het percentage verklaarde variantie is de regressiecoëfficient. Het is wat je kunt verklaren met je regressiemodel gedeeld door de totale spreiding. R2 = (SSregressie) / (SSY) met SSregressie = Σ(Y – Y)2. Bij de variantiesplitsing moet je de totale kwadratensom (SSY) splitsen in ‘verklaarde’ kwadratensom (SSregressie) en de ‘onverklaarde’ kwadratensom (van de residuen) (SSresidu). Dan doe je een F-toets op het regressiemodel: de verklaarde variantie / onverklaarde variantie met df1 = k en df2 = N – k –1.
Als F significant is, voorspelt minstens één van de onafhankelijke variabelen Y in de populatie. Als F significant is, ga je de toetsen op b bekijken. Welke onafhankelijke variabelen hebben een significant effect? Het kan gebeuren dat geen enkele b significant is.
De effecten veranderen bij het toevoegen of weghalen van predictoren omdat de effecten partieel zijn. De samenhang tussen predictoren kun je met (nieuwe) regressieanalyses bepalen. In een causaal model geven we b* gewichten aan bij de pijlen, dit zijn de directe effecten. Er kunnen ook indirecte effecten zijn, dit noemen we mediatie. Dit zijn producten van directe effecten.
Er zijn weer een aantal voorwaarden. De variabelen moeten minstens op interval meetniveau gemeten zijn, maar de onafhankelijke variabele mag ook een dichotomie zijn. Het verband tussen de variabelen moet lineair (rechtlijnig) zijn. Dit kun je controleren door de vorm van de puntenwolk in spreidingsdiagrammen te bekijken. De residuen moeten normaal verdeeld zijn en homoscedastisch. Dit kun je controleren door de histogram van de (gestandaardiseerde) residuen te bekijken. Deze moet op het oog een normale verdeling zijn. Ook kun je de spreidingsdiagram van voorspelde scores tegenover residuen bekijken: de punten moeten gelijkmatig boven/onder de nullijn liggen.
Bij rapportage vermeld je de eenheden en variabelen. Erna vermeld je het resultaat van de toets op het regressiemodel: F, df, p. Als er een significant model is, vermeld je de effectgrootte (R2). Bespreek de (on)gestandaardiseerde regressiecoëfficiënten (met het 95%-betrouwbaarheidsinterval). Rapporteer hierbij de t, df en p. Vermeld het wanneer de residuen duidelijk niet normaal verdeeld zijn en/of duidelijk niet homoscedastisch zijn.
Gevorderde technieken voor excellentie- en honoursstudenten-IS HC 10
Bij alle toetsen die we tot nu toe hebben geleerd, gelden voorwaarden. Aan die voorwaarden moet voldaan worden voordat je zo’n toets kunt gebruiken. Nu wordt in de praktijk meestal wel aan die voorwaarden voldaan, maar soms ook niet. In dat geval kunnen we andere toetsen gebruiken. We hebben twee toetsen die we altijd kunnen gebruiken, waarbij we de computer een steekproevenverdeling kunnen laten trekken. Bij bootstrapping laten we de computer op basis van de steekproef een hele hoop nieuwe steekproeven trekken. Ook hebben we hiervoor de permutatietoets.
Wanneer we een toevalssteekproef trekken uit de populatie, weten we dat die steekproef binnen de marches van de toeval representatief zal zijn voor de populatie. We weten ook dat de kans miniem is dat die precies hetzelfde is als de populatie. Als we meerdere steekproeven trekken, krijgen we steeds verschillende. De kernvraag is: hoeveel verschillen die steekproeven onderling. Wat zal de spreiding zijn in de maat waarin we geïnteresseerd zijn, bijvoorbeeld de mediaan? In een steekproef kunnen we de mediaan berekenen, maar we weten dat in een andere steekproef de mediaan waarschijnlijk anders zou zijn. Dat maakt niet uit, zolang we maar weten hoe groot het verschil is. Lijkt de mediaan heel erg op die we al hebben, dan weten we dat we waarschijnlijk ook al dicht bij de mediaan van de populatie zitten.
Om dit te kunnen berekenen hebben we een steekproefverdeling nodig. Hiervan kunnen we een frequentieverdeling maken en daarvan het gemiddelde en de standaardafwijking berekenen. Zo komen we uiteindelijk aan de standaardfout, waarmee we kunnen zien hoe groot de spreiding is van de steekproevenverdeling, met hoe veel variatie we rekenen moeten houden wanneer we meer dan één steekproef zouden trekken.
De steekproevenverdeling zouden we krijgen met heel veel steekproeven uit de populatie. Vaak lijkt de steekproevenverdeling op een bekende kansverdeling. Dan benaderen we de steekproevenverdeling met de kansverdeling en hoeven we maar één steekproef te trekken.
De theoretische kansverdeling past alleen maar acceptabel op de steekproefverdeling als er aan de voorwaarden voldaan wordt. Als we gaan toetsen op de mediaan, moet de steekproefverdeling normaal verdeeld zijn. Als de populatie niet normaal verdeeld is, is de steekproefverdeling ook niet normaal verdeeld. We mogen bij de mediaan dus geen gebruik maken van een bekende verdeling als deze niet normaal verdeeld is.
We laten dan de computer heel veel steekproeven trekken en daarvan laten we ook allemaal de mediaan berekenen. Hierbij zijn we een empirische steekproevenverdeling aan het simuleren. Dit kunnen we doen op grond van de getrokken steekproef (bootstrappen) of op grond van kansrekening en de getrokken steekproef (permutatietoetsen).
Bij bootstrappen gaan we heel veel steekproeven trekken, want dan kunnen we een steekproefverdeling maken. Deze steekproeven gaan we niet trekken uit de populatie, want dit kost veel te veel tijd, maar uit de steekproef zelf. Dit noemen we bootstrapsteekproeven. Dit zijn steekproeven die even groot zijn als de oorspronkelijke steekproef, getrokken met teruglegging. De steekproeven moeten even groot zijn, omdat standaardfouten sterk afhankelijk zijn van de steekproef, dus als we een steekproevenverdeling willen opstellen, moet dat wel met steekproeven zijn die dezelfde omvang hebben als onze oorspronkelijke steekproef. Als je elke respondent maar één keer in de steekproef zou kunnen trekken, zou je steeds precies dezelfde steekproef krijgen. Daarom trekken we een steekproef met teruglegging. Zo kan één respondent meerdere keren getrokken worden in een steekproef. Kan dit zomaar? Ja, want de kansrekening gaat er sowieso van uit dat we met teruglegging trekken. Als je met teruglegging doet, kun je een hoop verschillende steekproeven trekken.
De bootstrapverdeling is de verdeling van steekproefresultaten van bootstrapsteekproeven. Deze verdeling heeft vrijwel dezelfde vorm en spreiding (standaardfout) als de echte steekproevenverdeling, mits de steekproef niet te klein en redelijk representatief is. We kunnen de bootstrapverdeling dus gebruiken als steekproevenverdeling.
Nu lijkt de bootstrapverdeling wat betreft de vorm en de spreiding op de echte steekproevenverdeling, maar lijkt qua gemiddelde niet op de echte steekproevenverdeling. Het gemiddelde van de steekproevenverdeling, is de waarde in de populatie. De verwachte waarde van de steekproevenverdeling is de waarde in de populatie als het gemiddelde een zuivere schatter is van het gemiddelde. Onze oorspronkelijke steekproef fungeert als populatie, dus zou het gemiddelde van de bootstrapverdeling ongeveer hetzelfde moeten zijn als die van de oorspronkelijke steekproef. Het is dus niet een parameter volgens H0 zoals bij toetsen met een theoretische kansverdeling. Dit verschil noemen we bias, en bias is niet erg zolang het verschil klein is. We werken nu met het betrouwbaarheidsinterval. Die geeft je in principe alle nulhypothesen die je zou accepteren met de steekproef die je getrokken hebt. Dus via het betrouwbaarheidsinterval kun je toch iets zeggen over de oorspronkelijke nulhypothese die je had. Als onze nulhypothese binnen de betrouwbaarheidsinterval ligt, verwerpen we hem niet, en anders wel. Hoe komen we aan het betrouwbaarheidsinterval? De bootstrapverdeling dient gewoon als frequentieverdeling, dus berekenen we de linker- en rechtergrens die aan beide kanten de 2.5% grenzen. Dit berekenen we met de volgende formules. (1 – α)% betrouwbaarheidsinterval: De grenzen berekenen je door het significantieniveau per kant keer het aantal bootstrapresultaten te doen. Als je 1000 bootstrapresultaten hebt, en je significantieniveau is 5% dus 2.5% aan beide kanten, doe je 0.25 keer 1000 = 25. Aan de linkerkant stel je dan na de laagste 25 resultaten de linkergrens en aan de rechterkant vóór de hoogste 25 resultaten de rechtergrens. Dan heb je het betrouwbaarheidsinterval. De bootstrapverdeling hoeft hiervoor niet symmetrisch te zijn!.
Een alternatief voor als we geen bekende verdeling kunnen gebruiken: Als onze verdeling niet voldoet aan de voorwaarden voor een theoretische kansverdeling, is onze standaardfout waarschijnlijk niet oké. We kunnen dus ook alleen die standaardfout vervangen. Deze kunnen we vervangen door de standaardfout van de bootstrap te gebruiken in de ‘gewone’
toets. SPSS doet dit niet. We kunnen dan het betrouwbaarheidsinterval gebruiken: elke H0 met een waarde voor het steekproefresultaat buiten het 95%-betrouwbaarheidsinterval zou verworpen worden (α = 5%, tweezijdig). Als bijvoorbeeld het 95%CI van de mediaan [1,5, 9] is, zou H0: populatiemediaan = 1 verworpen worden. Dit alternatief is een optie en wordt soms ook gedaan, maar het is eigenlijk geen goede optie. Je gaat er dan namelijk nog steeds van uit dat de vorm van die verdeling dezelfde verdeling heeft als de normale verdeling of een t-verdeling, terwijl je juist van die theoretische kansverdeling omdat je reden had om aan te nemen dat je verdeling juist niet op die theoretische kansverdeling lijkt.
Bootstrappen kun je doen voor elk statistisch kenmerk van een of meer steekproeven (bijv. het gemiddelde verschil). Je kunt het betrouwbaarheidsinterval en de standaardfout bereken zonder voorwaarden aan de populatieverdeling. De voorwaarden voor bootstrappen zijn dat de steekproef (redelijk) representatief moet zijn voor de populatie en dat de steekproef niet te klein moet zijn. De vuistregel is n ≥ 20 voor ‘eenvoudige’ steekproefkenmerken. Je moet veel bootstrapsteekproeven trekken: het advies is 5.000.
Bij permutatietoetsen ga je toetsen zonder dat je een steekproevenverdeling (en standaardfout) gebruikt. Je kunt ze ook uitvoeren wanneer je iets anders hebt dan een toevalssteekproef. Je bent namelijk niet perse geïnteresseerd in het generaliseren naar de populatie. Het kan ook zijn dat je gewoon wilt weten hoe toevallig de verschillen zijn die je in de steekproef vindt, los van of je iets over de populatie wilt zeggen. Je doet dan alleen een uitspraak over je steekproef. Je wilt bijvoorbeeld het verschil toetsen tussen mediawijsheid van jongens (n = 22) en van meisjes (n = 27). Je weet uit andere onderzoeken dat mediawijsheid niet normaal verdeeld is. H0: μjongens = μmeisjes. Als de nulhypothese waar is, maakt het eigenlijk voor de (gemiddelde) score op mediawijsheid niet uit of je een jongen of meisje bent. Als H0 waar is, kunnen we jongens en meisjes (scores op variabele
geslacht) in onze steekproef gaan verwisselen. Elke keer als we ze verwisseld hebben, kunnen we het gemiddelde van de jongens en meisjes berekenen. Dit zou dan het gemiddelde (maar ook het verschil in gemiddelde) zijn, als de nulhypothese waar is. In feite stel je een kansverdeling op door alsmaar jongens en meisjes te verwisselen. We houden elke keer even grote steekproeven, maar de scores zijn dan anders. Verwisselen heet op zijn wiskundigs ‘permuteren’. Voor elke permutatie berekenen we het steekproefresultaat (MM-MJ). Dit zijn de steekproefresultaten die we mogen verwachten onder H0. Nu hebben we een kansverdeling (onder H0). De kansvariabele is MM – MJ. De kans op elke waarde is het relatief aantal permutaties waarin de waarde voorkomt. Het aantal permutaties wanneer we een steekproef van n waarnemingen hebben, is n! = n · (n – 1) · … · 1. De eerste waarneming kun je op n manieren trekken. We trekken zonder teruglegging, dus de tweede waarneming op kun je op n – 1 manieren trekken, et cetera. Het aantal permutaties neemt snel toe met het aantal waarnemingen, dus de computer kan hier best een tijdje mee bezig zijn. Je kunt dan ook een randomisatietoets doen. Bij een permutatietoets worden alle permutaties berekend. Bij een randomisatietoets wordt willekeurig een groot aantal
permutaties berekend, dit duurt minder lang dan alle permutaties berekenen.
Permutatietoetsen hebben een aantal bijzonderheden. De kansverdeling volgt ‘direct’ uit de nulhypothese. De toets is bruikbaar voor een aselecte en selecte steekproef, en voor
populatiegegevens: je generaliseert niet naar een populatie. Daarom is er geen betrouwbaarheidsinterval. Je beantwoordt de vraag: Hoe toevallig is de verdeling van
jongens en meisjes over de scores (of omgekeerd)?
Je moet de nulhypothese kunnen omzetten in permutaties. Verschillen tussen groepen kun je dus toetsen met de permutatietoets. Bij afhankelijke variabelen kun je ook een permutatietoets uitvoeren, bijvoorbeeld bij voor- en meting. Je nulhypothese is dan dat er niets veranderd. Je zou de voor- en nametingen dus weer kunnen verwisselen. Je berekent de verschillen in de steekproeven en zet die in een kansverdeling. Associaties kun je ook met de permutatietoetsen doen, bijvoorbeeld correlatie. Je kunt dan de scores op een van de variabelen van respondenten onderling verwisselen, want volgens je nulhypothese is er geen verband. Er zijn geen eisen aan de steekproevenverdeling of populatieverdeling, maar de steekproef mag niet te klein zijn.
Nu gaan we multivariate technieken behandelen. De variantieanalyse en de regressieanalyse hebben we al behandeld. Bij een variantieanalyse moet de onafhankelijke variabele nominaal (groepsindeling) zijn en de afhankelijke variabele interval/ratio. Bij een regressieanalyse moeten de onafhankelijke en afhankelijke variabelen op interval/ratio gemeten zijn.
De variantieanalyse en de regressieanalyse bevatten een aantal beperkingen. De eerste beperking is dat de afhankelijke variabele minstens interval meetniveau moet zijn. Als we een nominale variabele als afhankelijke variabele willen kunnen voorspelen, kan dit met een logistische regressieanalyse: de afhankelijke variabele wordt dan een dichotomie. Je wilt bijvoorbeeld voorspellen of iemand een product wel/niet koopt. Als je wilt voorspellen bij welke groep iemand hoort, doe je een discriminantanalyse: hierbij heb je een nominale variabele met meer dan twee groepen als afhankelijke variabele. Je wilt bijvoorbeeld voorspellen of een tiener niet, verontrustend of pathologisch gameverslaafd is. Je kunt ook de survivalanalyse berekenen: de kans op een gebeurtenis bij een persoon wanneer die
gebeurtenis nog niet heeft plaatsgevonden (dichotomie met tijdsduur).
De tweede beperking is dat we maar één afhankelijke variabele kunnen hebben. Bij een multivariate variantieanalyse (MANOVA) kunnen we het effect op meerdere afhankelijke intervalvariabelen voorspellen zoals bij een variantieanalyse. We kunnen ook de canonische correlatie berekenen: dit is een variant van de meervoudige correlatiecoëfficiënt met meer dan één criterium. Een voorbeeld: Leidt confronterende media-inhoud tot opwinding in combinatie met afschuw? Je wilt dan niet alleen weten of er opwinding opkomt en of iemand afschuw voelt, maar ook of deze twee op elkaar inwerken.
De derde beperking is dat we alleen kunnen werken met waargenomen (manifeste) variabelen. Je kunt bijvoorbeeld niet werken met de latente variabele ‘mate gameverslaafd’. Veel karaktereigenschappen of attitudes zijn latent en kun je niet waarnemen. Je hebt hiervoor indicatoren nodig die je wel kunt waarnemen. We kunnen dan een PCA/factoranalyse doen: hiermee kunnen we latente schalenmeten op grond van een aantal (manifeste) items. We kunnen dan schaalvariabelen berekenen en in een regressieanalyse
gebruiken. Bij een clusteranalyse (beschrijvend) ga je respondenten op grond van diverse variabelen verdelen in groepen, met de hoop dat die groepen iets betekenen.
De vierde beperking is dat we alleen directe effecten kunnen onderzoeken. Een indirect effecten is bijvoorbeeld: sensatie-zoeken leidt tot exposure aan confronterende media-inhoud en dit leidt tot opwinding. Een padanalyse toetst een causaal model met
indirecte effecten. Structurele modellen doen hetzelfde, maar kunnen ook effecten van en op latente variabelen (factoranalyse) berekenen. Je kunt dus zelfs effecten tussen latente variabelen direct schatten.
De vijfde beperking is dat de waarnemingen onafhankelijk moeten zijn. Er mogen geen herhaalde metingen zijn in onze variantieanalyse of regressieanalyse. We kunnen een speciale variantieanalyse doen waarbij we wel met herhaalde metingen kunnen werken. Je kunt dan bijvoorbeeld de effecten onderzoeken bij een experiment met voor- en nameting in combinatie met experimentele behandeling per groep. Een multiniveau-analyse kun je doen wanneer respondenten niet onafhankelijk van elkaar getrokken zijn. Dit is het geval als je bijvoorbeeld leerlingen uit dezelfde klas of school wilt vergelijken met leerlingen uit een andere klas of school.
Effectgrootte en onderscheidingsvermogen - IS HC 11
De omvang van de steekproef kies je op grond van het gekozen significantieniveau, de effectgrootte en het gekozen onderscheidingsvermogen van de toets. Het gekozen significantieniveau is meestal 5%. Wanneer het gemiddelde in de populatie maar weinig afwijkt van het gemiddelde in mijn steekproef, is je nulhypothese eigenlijk fout, maar vind je het niet zo erg. Je moet bepalen bij welke gekozen (gestandaardiseerde) effectgrootte je H0 wilt verwerpen. Het gekozen onderscheidingsvermogen moet minstens 80% zijn. Hoe groot moet de kans zijn om een foute H0 te verwerpen?
Elke toets heeft een aantal voorwaarden voor de omvang van de steekproef. De voorwaarden van de t-toets zijn dat er minimaal 30 cases per groep moeten zijn. Deze zijn misschien niet normaal verdeeld. Bij een variantieanalyse moeten de groepen van gelijke omvang zijn. Bij een chikwadraattoets moet de verwachte waarde groter of gelijk zijn dan 5 per categorie (toets op één variabele), of per combinatie van waarden op twee variabelen (toets op kruistabel). Bijvoorbeeld een 6x3 kruistabel vereist minstens 6 x 3 x 5 = 90 waarnemingen. Bij een regressie heb je minimaal 15 cases nodig per onafhankelijke variabele.
Stel je doet een t-toets op één gemiddelde met als nulhypothese dat het populatiegemiddelde 16 is. Je wilt significant resultaat als het μecht 22 is. De ongestandaardiseerde effectgrootte is 22 – 16 = 6. De steekproefgrootte (N) speelt een rol bij de significantie van een toets. Voor het aantal vrijheidsgraden geldt: df = N – 1. Als N groter wordt, dan wordt het df ook groter. Daardoor wordt de kritieke waarde lager, dus heb je eerder een significant resultaat. Kritieke waarden veranderen nog weinig als de steekproefgrootte al niet heel klein is.
N speelt ook een rol bij de toetsingsgrootheid. Als N groter is, wordt SE kleiner. Daardoor wordt de kritieke waarde lager, dus heb je eerder een significant resultaat. Bij een grotere steekproef heb je eerder een significant toets
Het resultaat van de t-toets hangt ook af van de teller: M – het populatiegemiddelde. Bij een groter verschil tussen μecht (dus M) en μ0 volgens de nulhypothese, is de teller van de t dus groter. De t wordt dan hoger en vaker significant. Er is dan een kleinere steekproef nodig om H0 te verwerpen. De ongestandaardiseerde effectgrootte is het μecht – μ0. Een criterium voor de omvang van de steekproef hangt af van de effectgrootte waarbij de nulhypothese verworpen moet worden. Je moet vooraf een keuze maken van minimum effectgrootte die je wilt aantonen.
Voorbeeld: H0 = µ = 16, de geschatte s is 12. Alfa is 5% en we gaan tweezijdig toetsen. Bij de minimale effectgrootte die significant moet zijn, is het verschil 6. Dus als het μecht 22 is, dan moet t significant zijn. Het populatiegemiddelde is de meest waarschijnlijke waarde voor het steekproefgemiddelde: M = 22. Dan is t = (22 – 16) / 12, x de wortel van N. Dat is 0,5 x de wortel van N.
Kies nu een aantal mogelijkheden voor N. Ergens tussen een steekproefomvang van 16 en 25 wordt dit verschil significant. Dit is de minimale steekproefomvang om een significant
resultaat te krijgen wanneer μecht ≥ μ0 + 6.
Complicatie: je moet de standaardafwijking weten. Dit kan je inschatten op grond van eerder onderzoek. Een alternatief is werken met de gestandaardiseerde effectgrootte: het verschil tussen de gemiddelden gedeeld door de standaardafwijking. Een vuistregel voor gemiddelden is dat 0,2 een klein effect is, 0,5 een middelmatig effect en 0,8 een sterk effect (Cohen’s d).
Als we werken met de gestandaardiseerde effectgrootte, kan s onbekend blijven. De ongestandaardiseerde effectgrootte is namelijk M – μ gedeeld door s in de formule voor t = M – μ gedeeld door s x de wortel van N. Dus houden we over: t = gestandaardiseerde effectgrootte x de wortel van N. De gestandaardiseerde effectgrootte verschilt per toets. Bij het bepalen van de omvang van de steekproef moeten we de principes begrijpen, we
rekenen er niet mee (par. 7.3 overslaan).
Het steekproefgemiddelde ligt meestal iets boven of onder het populatiegemiddelde. Wat is dan de kans dat we de nulhypothese H0: µ = 16 verwerpen wanneer µecht = 22? Als we de foute nulhypothese (µ = 16) verwerpen, trekken we de juiste conclusie. Als we de foute nulhypothese niet verwerpen, trekken we een foute conclusie = fout van de tweede soort. We weten echter niet dat we een foute conclusie trekken! Hoe groot is de kans dat we de foute nulhypothese (µ = 16) verwerpen? Dit is het onderscheidingsvermogen (power) van de toets. Het onderscheidingsvermogen is 1 – β. β = de kans op een fout van de tweede soort. Het is de kans dat je een foute nulhypothese niet verwerpt.
In een hypothetische wereld is de steekproevenverdeling onder H0: μ = 16. De onderzoeker beslist op grond van deze verdeling. H0 wordt verworpen als t in het verwerpingsgebied ligt. In de echte wereld is de steekproevenverdeling onder µecht = 22. Hierbij is er een echte kans op bepaalde steekproefgemiddelden, die dus verschilt van waar de onderzoeker van uit gaat. Wanneer H0 verworpen wordt, hebben we een juiste conclusie getrokken. De vuistregel is dat we streven naar een onderscheidingsvermogen van 80%, dus naar een maximale kans op een fout van het tweede soort van 20%.
Idealiter wordt de omvang van de steekproef gekozen op grond van het gekozen significantieniveau (meestal 5%), de gekozen (gestandaardiseerde) effectgrootte en het gekozen onderscheidingsvermogen van de toets (minstens 80%). Dit hoef je niet zelf uit te rekenen, maar je kunt gebruik maken van software.
Het onderscheidingsvermogen (power) van de toets is de kans dat we een foute nulhypothese verwerpen. Het onderscheidingsvermogen hangt af van de omvang van de steekproef: hoe groter de omvang, des te hoger het onderscheidingsvermogen. Ook hangt het af van de (soort) toets: een parametrische toets heeft een hoger onderscheidingsvermogen dan een non-parametrische toets. Bij een hoger onderscheidingsvermogen hebben we bij kleine verschillen al een grote kans op een significant resultaat. Dit betekent echter wel dat dit resultaat niet zo relevant hoeft te zijn.
Tips voor de practicumtoets: Ken de nulhypothese van elke toets. Ken de voorwaarden en weet hoe je ze kunt controleren. Weet hoe je de toets met SPSS moet uitvoeren en de output moet interpreteren. Voer extra (posthoc) toetsen uit om significante resultaten nader te interpreteren. Zorg dat de interpretatie volledig is: benoem de eenheden en variabelen, bespreek significantie en vermeld toetsresultaat, bespreek de sterkte en inhoud van significante resultaten.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Communicatiewetenschap, UVA jaar 2 & 3
- Artikelsamenvattingen van artikelen over marketing en communicatiewetenschap
- Hoorcollegeaantekeningen Persuasieve communicatie
- Hoorcollegeaantekeningen Inferentiële Statistiek
- Notes Political Communication and Journalism, Communication, UVA
- Hoorcollegeaantekeningen Political Communication and Journalism, Communicatiewetenschap, UVA
- Collegeaantekeningen Kwalitatief Onderzoek, Communicatiewetenschap, UVA
- Collegeaantekeningen Topic Health Communication, Communicatiewetenschap, UVA
Contributions: posts
Spotlight: topics
Communicatiewetenschap, UVA jaar 2 & 3
Deze bundel bevat aantekeningen bij de hoorcolleges bij vakken van de bachelor Communicatiewetenschap, jaar 2 & 3, aan de Universiteit van Amsterdam. Ook zijn de artikelen uit 2015 - 2016 voor Topic Content Marketing bijgevoegd (alleen te gebruiken door ingelogde
...Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the summaries home pages for your study or field of study
- Use the check and search pages for summaries and study aids by field of study, subject or faculty
- Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
- Check or follow authors or other WorldSupporters
- Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Main summaries home pages:
- Business organization and economics - Communication and marketing -International relations and international organizations - IT, logistics and technology - Law and administration - Leisure, sports and tourism - Medicine and healthcare - Pedagogy and educational science - Psychology and behavioral sciences - Society, culture and arts - Statistics and research
- Summaries: the best textbooks summarized per field of study
- Summaries: the best scientific articles summarized per field of study
- Summaries: the best definitions, descriptions and lists of terms per field of study
- Exams: home page for exams, exam tips and study tips
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
- Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
- Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
2656 | 1 |
Add new contribution