College-aantekeningen bij Onderzoekspracticum 2 aan de Universiteit Leiden - 2015/2016

College 1 - Experiment

In een experiment wordt gebruik gemaakt van experimentele units. Dit zijn de individuen waarop de onderzoeker het experiment uitvoert. Een experimentele unit kan bestaan uit één individu, maar bijvoorbeeld ook uit een gezin. Als de individuen mensen zijn, wordt er gesproken over proefpersonen of subjecten.

Experimentele eenheden worden blootgesteld aan experimentele condities. De experimentele conditie is een treatment/behandeling. In elk experiment is er sprake van een onafhankelijke variabele die wordt gemanipuleerd door de onderzoeker. Deze variabele wordt een factor genoemd en kan uit verschillende levels (niveaus) bestaan. Een onderzoeker kan bijvoorbeeld 0, 2 of 4 koppen koffie toedienen aan zijn proefpersonen om te kijken wat het effect is op reactievermogen. De factor heeft dan drie levels.

Het voordeel van een experiment ten opzichte van een observationele studie is dat er een oorzaak-gevolgrelatie kan worden vastgesteld. Je sluit alle andere mogelijke variabelen uit. Proefpersonen worden bij een experiment aselect worden toegewezen aan een experimentele groep of controlegroep.

Twee-factor experiment

In een twee-factor experiment wordt gebruik gemaakt van twee onafhankelijke variabelen. Een voordeel hiervan is dat de onderzoeker de invloed van meerdere onafhankelijke variabelen kan onderzoeken. Bovendien kan ook het interactie-effect onderzocht worden, oftewel de combinatie van de twee onafhankelijke variabelen samen.

Experimentele controle

Experimentele controle wil zeggen dat de onderzoeker zichzelf ervan verzekert dat een effect daadwerkelijk komt door de onafhankelijke variabele. Deze controle wordt bereikt door het gebruik van een experimenteel design, waarbij er sprake is van een experimentele groep en een controlegroep. De experimentele groep wordt blootgesteld aan de experimentele manipulatie, de controlegroep juist niet.

In een onderzoek kan er sprake zijn van een placebo-effect. Dit komt vaak ter sprake bij medicijnonderzoek. Het kan dan zijn dat een medicijn zonder werking tóch effect heeft op een patiënt. Enkel de suggestie van een werkzaam medicijn zorgt dan dat de patiënt al positief reageert. In onderzoek wordt voor dit effect gecontroleerd door de controlegroep een medicijn zonder werking toe te dienen. Bij een gebrek aan experimentele controle ontstaat er bias (een systematische vertekening van de resultaten).

Randomisatie

Om de invloed van achtergrondvariabelen uit te sluiten, moeten groepen op alle achtergrondvariabelen vergelijkbaar zijn. Dit wordt gedaan door randomisatie, ook wel aselecte toewijzing, wat inhoudt dat elke proefpersoon een even grote kans heeft om in een bepaalde experimentele conditie terecht te komen. Let op: randomisatie wil niet zeggen dat de steekproef ook random is!

Aandachtspunten

Om een goed experiment uit te voeren is het belangrijk dat alle groepen, op de experimentele manipulatie na, exact hetzelfde behandeld worden.

In medisch onderzoek is een dubbelblind procedure belangrijk. Dit betekent dat zowel de proefpersoon als de onderzoeker niet weten welke behandeling iemand krijgt. De dubbelblind procedure voorkomt dat resultaten vertekend raken door verwachtingen van de proefpersoon of de onderzoeker.

Waar ook rekening mee gehouden moet worden is dat er meerdere experimenten in verschillende omgevingen nodig zijn met dezelfde uitkomst om het bewijs voor een hypothese sterker te maken. Ook moet men rekening houden met het feit dat proefpersonen zich in een experimentele omgeving vaak anders gedragen dan in het echt. Dit wordt gebrek aan realisme genoemd.

Gematchte-parendesigns

Randomisatie in een experiment vergroot de ruis, doordat individuen sterk van elkaar kunnen verschillen. Een oplossing hiervoor is het gebruik van een gematchte-parendesign. Proefpersonen met vergelijkbare kenmerken worden in paren aan elkaar gekoppeld. Er ontstaan dan bijvoorbeeld paren van proefpersonen met hetzelfde geslacht, dezelfde lengte en hetzelfde gewicht. Voor elk individu in de controle conditie is er een persoon in de experimentele conditie, zij zijn een paar. Vervolgens worden de responsen van de proefpersonen per paar vergeleken. Dit is efficiënter dan bij ongematchte proefpersonen, omdat de gematchte proefpersonen op elkaar lijken.

Bij een speciaal geval van een gematchte-parendesign wordt een proefpersoon als het ware aan zichzelf gematcht. De proefpersoon krijgt zowel de experimentele behandeling(en) als de controlebehandeling en wordt bij elke behandeling geobserveerd.

Voordelen:

  • Effecten van een behandeling worden sneller ontdekt, oftewel de power is groter. Hoe groter de power hoe groter de kans is dat je een bepaalt effect vindt als dat effect ook bestaat.
  • Als een proefpersoon zowel de experimentele behandeling als de controlebehandeling krijgt, zijn er minder proefpersonen nodig.

Nadeel:

  • Een effect van een vorige behandeling kan nog invloed hebben op een latere meting. Dit wordt een volgorde-effect genoemd. De oplossing hiervoor is om bij elke proefpersoon de volgorde van de behandelingen te variëren (op basis van toeval).

Block designs

In een block design worden gematchte-pairdesigns gegeneraliseerd naar grotere groepen. Er wordt bijvoorbeeld van tevoren onderscheid gemaakt tussen jongens en meisjes. Vervolgens vindt binnen elke groep apart een aselecte toewijzing plaats aan de mogelijke behandelingen. Binnen de groep (jongens, meisjes) worden de uitkomsten dan vergeleken.

Statistische toetsen

Een populatie heeft een gemiddelde µ en een standaarddeviatie σ. Uit deze populatie trek je een steekproef n met gemiddelde x̄. Het gemiddelde van deze steekproef heeft een normaalverdeling met gemiddelde µ en standaarddeviatie σ/√n.

De steekproevenverdeling is de verdeling van de gemiddelden van alle mogelijke steekproeven uit een populatie. Als de populatie een normale verdeling heeft, dan vormen de gemiddelden van alle steekproeven ook een normale verdeling.

Als σ bekend is

Het steekproefgemiddelde x̄ wordt getransformeerd tot een z-score.

\[z=\frac{x̄-µ}{σ/\sqrt{n}}\]

De z-score heeft een standaardnormaalverdeling. Dat betekent dat µ = 0 en σ = 1. Bij deze z-score kan een bijbehorende p-waarde worden opgezocht (Tabel A uit het boek Introduction to the Practice of Statistics van Moore, McCabe en Craig).

Als σ niet bekend is

Als σ niet bekend is, wordt er een schatter gebruikt voor de standaarddeviatie van de steekproevenverdeling, namelijk s/√n. Dit wordt ook wel de Standard Error van x̄ genoemd (SE). Deze statistische maat heeft een t-verdeling met n-1 vrijheidsgraden.

\[t=\frac{x̄-µ}{s/\sqrt{n}}\]

De t-verdeling is voor elke steekproefgrootte weer anders. Bij deze t-score kan een bijbehorende p-waarde worden opgezocht (Tabel D uit het boek Introduction to the Practice of Statistics van Moore, McCabe en Craig)

Betrouwbaarheidsinterval t-toets voor een gemiddelde

De oppervlakte tussen –t* en t* noemen we C%. Een C%-betrouwbaarheidsinterval van µ wordt op de volgende manier berekend:

\[x̄±t*\frac{s}{\sqrt{n}}\]

Tweezijdig toetsen

Om te bepalen of een effect significant is, stel je de alpha α vast (vaak is dit 0.05). Wanneer geldt p < α, dan kan de nulhypothese (H0 ; ‘er is geen verschil’) verworpen worden. Er is dan dus een (significant) verschil tussen twee groepen. Vaak weet een onderzoeker niet in welke richting een effect plaats zal vinden. In dat geval wordt er tweezijdig getest. Hierbij wordt p vermenigvuldigd met 2. De alpha α blijft hetzelfde. Let op: ook als je tweezijdig toetst moet je in je conclusie nog wel de richting van het effect aangeven.

Stappenplan voor het vaststellen van een effect

  1. Stel een onderzoeksvraag op.
  2. Stel een nulhypothese H0 en alternatieve hypothese Ha op.
  3. Kies je toets: z-toets of t-toets
  4. Bereken de z-waarde of de t-waarde
  5. Zoek de bijbehorende p-waarde op in Tabel A (voor z-toets) of Tabel D (voor t-toets).
  6. Bepaal alpha α en bepaal of je p-waarde groter of kleiner is dan α.
  7. Trek je conclusie.

SPSS

In het computerprogramma SPSS gebruik je Analyze > Compare Means > One Sample T Test om de t-toets uit te voeren. Let op: SPSS toetst hierbij altijd tweezijdig!

College 2 - Steekproeven en t-toets

Afhankelijke en onafhankelijke steekproeven

In een experiment worden vaak twee groepen vergeleken. De steekproefgemiddelden van deze groepen kunnen met elkaar worden vergeleken aan de hand van statistisch toetsen. Steekproeven kunnen afhankelijk of onafhankelijk zijn.

De volgende kenmerken horen bij een afhankelijke steekproef:

  • Er zijn gematchte paren. Elke proefpersoon is gekoppeld aan een partner in de andere groep. Bijvoorbeeld broer en zus of mensen met dezelfde eigenschap(pen).
  • Ook een herhaalde meting valt onder een afhankelijke steekproef. De proefpersoon wordt aan zichzelf gematcht. Dit is bijvoorbeeld het geval bij een voor- en nameting.
  • De aantallen in beide groepen zijn altijd gelijk.
  • De onderzoeker verkrijgt N (aantal paren) stukjes onafhankelijke informatie.

De volgende kenmerken horen bij een onafhankelijke steekproef:

  • Er wordt gebruik gemaakt van twee aselecte steekproeven waartussen geen verband bestaat. Bijvoorbeeld een controlegroep en een experimentele groep.
  • De aantallen in de groepen kunnen ongelijk zijn.
  • De onderzoeker verkrijgt n1 + n2 (n is steekproefgrootte) stukjes onafhankelijke informatie.

Afhankelijke steekproeven: toetsen van verschil in gemiddelden

µd is het verschil tussen het gemiddelde van steekproef 1 en het gemiddelde van steekproef 2. Dit wordt ook wel het gemiddelde verschil genoemd en kun je noteren als µd = µ2 - µ1. De nulhypothese en de alternatieve hypothese noteren we als volgt:

H0: µd = 0 (want in dat geval geldt dat µ1 = µ2)

Ha: µd ≠ 0 (dit is alleen bij tweezijdig toetsen. Bij enkelzijdig toetsen geldt µd > 0 of µd < 0)

De t-toets voor afhankelijke steekproeven wordt ook wel de gepaarde t-toets genoemd:

\[t=\frac{đ-µ_d}{S_d/\sqrt{N}}\]

Hierin staat đ voor het gemiddelde verschil tussen de steekproeven. Voor µd kun je altijd 0 invullen, omdat we bij experimenten altijd uitgaan van de nulhypothese. Sd is de standaarddeviatie van het verschil en N is de steekproefgrootte. Let op: N is het aantal paren. De gevonden t-waarde kan worden opgezocht in Tabel D (Introduction to the Practice of Statistics van Moore, McCabe en Craig) bij het juiste aantal vrijheidsgraden N-1. Bij tweezijdig toetsen verdubbel je de bijbehorende p-waarde. Als p < α, dan kun je de nulhypothese verwerpen.

Het kan ook zijn dat je eenzijdig toetst, maar dat het gemiddelde verschil de andere kant uitvalt dan je had verwacht. Je vindt dan bijvoorbeeld geen gemiddeld verschil van -3, maar van 3. Dit wordt een contra-intuïtief resultaat genoemd. De oplossing: gebruik niet p, maar 1-p. In plaats van bijvoorbeeld 0,005 < p < 0,01, wordt je p-waarde dan 0,99 < 0 < 0,995.

Afhankelijke steekproeven: betrouwbaarheidsinterval t-toets

Het C%-betrouwbaarheidsinterval van µd kan als volgt worden bepaald:

\[đ±t*\frac{S_d}{\sqrt{N}}\]

Zoek in Tabel D (Introduction to the Practice of Statistics van Moore, McCabe en Craig) de t-waarde op bij het juiste betrouwbaarheidsinterval en het juiste aantal vrijheidsgraden (N-1).

De conclusie die bij een 95%-betrouwbaarheidsinterval hoort, luidt: in de populatie ligt het gemiddelde verschil tussen de …(getal) en …(getal) met 95% zekerheid.

Aannamen gepaarde t-toets

Een aanname van de t-toets is dat er een normaalverdeling van de populatie is. De robuustheid van de t-toets houdt in hoe goed de t-toets bestand is tegen schending van deze aanname. Er zijn een aantal vuistregels voor het gebruik van de t-toets:

  • N< 15: geen t-toets gebruiken bij uitbijters of duidelijke niet-normaliteit.
  • N: 15 – 39: geen t-toets gebruiken bij uitbijters of duidelijke scheefheid.
  • N ≥ 40: (bijna) altijd gebruik maken van de t-toets het maakt niet uit of het normaal verdeeld is of niet.

Of data normaal verdeeld zijn, kan worden bepaald door middel van een normaalkwantielplot, waarbij de verwachte waarden worden uitgezet tegen de geobserveerde waarden. De data worden als normaal beschouwd wanneer alle punten bij benadering op een rechte lijn liggen.

Overige aannamen zijn dat de proefpersonen gematcht zijn (zo niet dan gebruik je een andere toets) en dat ze aselect getrokken zijn. Aselect trekken is echter doorgaans niet haalbaar, waardoor resultaten vaak beperkt generaliseerbaar zijn.

Afhankelijke steekproeven: effectgrootte

Significante resultaten geven wel de waarschijnlijkheid, maar niet de grootte aan van een effect. Bovendien geldt: hoe groter de steekproef, hoe eerder een significant effect. Effectgroottes daarentegen zijn niet afhankelijk van de steekproefgrootte en geven juist wel aan hoe groot een effect is. De effectgrootte bij een gepaarde t-toets kun je berekenen door middel van een gestandaardiseerde maat, namelijk Cohen’s d:

\[d=\frac{|x̄_1-x̄_2|}{s_d/\sqrt{2(1-r)}}\]

In deze formule is r de correlatie tussen paren of herhaalde metingen. Cohen’s d geeft aan hoe groot het gemiddelde verschil tussen de groepen is in relatie tot de standaarddeviatie van het verschil. Er zijn enkele vuistregels voor de Cohen’s d effectgrootte:

  • Kleiner dan 0.2: het effect is verwaarloosbaar
  • 0.2 tot 0.4: er is een klein effect
  • 0.5 tot 0.7: er is een gemiddeld effect
  • 0.8 en groter: er is een groot effect

Let op: 0.77 valt bijvoorbeeld onder gemiddeld effect. Vanaf 0.8 is een groot effect. Of je tevreden bent met de een bepaalde effectgrootte is afhankelijk van de context.

Toetsingsschema gepaarde t-toets

  1. Formuleer je onderzoeksvraag.
  2. Ga de aannamen af en ga na of eraan is voldaan. Zo niet, ga dan na wat de gevolgen zijn.
  3. Stel je hypothesen op.
  4. Kies de juiste toets, in dit geval t-toets, en bepaal alpha α (vaak 0.05)
  5. Voer je berekening uit.
  6. Zoek de bijbehorende p-waarde op.
  7. Neem een beslissing: vergelijk p met α. Als p < α dan verwerp je de nulhypothese.
  8. Bereken de effectgrootte door middel van Cohen’s d.
  9. Trek je conclusie en beschrijf deze inhoudelijk. Geef de richting aan van het effect dat je gevonden hebt en plaats kanttekeningen als je (één van) de aannamen geschonden hebt (bv. :er is niet bekend in hoeverre de proefpersonen aselect zijn toegewezen).

Onafhankelijke steekproeven: toetsen van verschil in gemiddelden

Het verschil in gemiddelden tussen twee steekproeven kan berekend worden door de z-toets. De gemiddelden van steekproef 1 en steekproef 2 zijn dan en , en we gaan ervan uit dat de standaarddeviaties van de populaties (σ1 en σ2) ook bekend zijn. Wat we dan onderzoeken is of beide populatiegemiddelden van elkaar verschillen. De nulhypothese die hierbij hoort is H0: µ1 = µ2 of µ1 - µ2 = 0. De z-toets voor twee gemiddelden is:

\[z=\frac{(x̄_1-x̄_2)-(µ_1-µ_2)}{\sqrt{\frac{σ_1^2}{n_1}+\frac{σ_2^2}{n_2}}}\]

In de praktijk zijn de standaarddeviaties van de populaties echter vrijwel nooit bekend, maar de standaarddeviaties van de steekproeven (s1 en s2) wel. Daarom wordt vaak de t-toets gebruikt:

\[t=\frac{(x̄_1-x̄_2)-(µ_1-µ_2)}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}\]

In dit geval heeft t echter geen t-verdeling. Het exacte aantal vrijheidsgraden kun je namelijk niet bepalen. Wel kun je deze op twee manieren benaderen, met behulp van een t(k) verdeling, waarin k een benadering is van het aantal vrijheidsgraden:

  1. Neem de kleinste waarde van n1-1 en n2-1. Dit is veel minder nauwkeurig dan de tweede manier, maar deze methode mogen we gebruiken.
  2. Gebruik software, bijvoorbeeld SPSS, om het aantal vrijheidsgraden te benaderen. Deze software gebruikt hiervoor een uitgebreide formule.

Onafhankelijke steekproeven: betrouwbaarheidsinterval t-toets

Het C%-betrouwbaarheidsinterval van µ12 wordt op de volgende manier berekend:

\[(x̄_1-x̄_2)±t*\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}\]

Onafhankelijke steekproeven: effectgrootte

Bij onafhankelijke steekproeven, wordt Cohen’s d op de volgende manier berekend:

\[d=\frac{|x̄_1-x̄_2|}{s_p}\]

\[s_p=√\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}\]

Sp is in dit geval de samengestelde standaarddeviatie.

Toetsingsschema t-toets bij onafhankelijke steekproeven

Het toetsingsschema is hetzelfde als bij de gepaarde t-toets. Wel is er een verschil in aannamen. Evenals bij de gepaarde t-toets moet de afhankelijke variabele normaal verdeeld zijn en moeten de proefpersonen aselect getrokken worden, maar in dit geval moet dit onafhankelijk van elkaar gebeuren. Proefpersonen worden niet gematcht. 

College 3 - T-toets en ANOVA

Onafhankelijke steekproeven: samengestelde t-toets

In college 2 is de t-toets voor twee onafhankelijke steekproeven aan de orde gekomen. De bijbehorende t-verdeling is echter slechts een benadering van de werkelijke steekproevenverdeling, omdat het precieze aantal vrijheidsgraden niet bekend is. Om dit probleem op te lossen, kun je een andere t-toets gebruiken: de samengestelde t-toets. Deze toets heeft exact een t-verdeling, maar ook een extra aanname. De samengestelde t-toets is namelijk alleen te gebruiken wanneer de varianties van twee normaal verdeelde populaties gelijk zijn aan elkaar.

Bij gelijke populatievarianties is de som van de twee aparte varianties gelijk aan de variantie van het gemiddelde verschil (x̄1-x̄2). Dit kan als volgt worden weergegeven:

\[\frac{σ^2}{n_1}+\frac{σ^2}{n_2}=σ^2(\frac{1}{n_1}+\frac{1}{n_2})\]

Deze formule kan worden ingevuld in de z-toets voor twee gemiddelden. De resulterende z-toets wordt:

\[z=\frac{(x̄_1-x̄_2)-(µ_1-µ_2)}{σ\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\]

Voor de samengestelde t-toets wordt er gebruik gemaakt van een schatter voor de gezamenlijke populatievariantie σ2. Deze schatter wordt gegeven door de volgende formule:

\[s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}\]

Door σ in de z-toets te vervangen door sp ontstaat de samengestelde t-toets. Deze t-toets heeft een t-verdeling met n1+ n2 – 2 vrijheidsgraden. De samengestelde t-toets wordt dus:

\[t=\frac{(x̄_1-x̄_2)-(µ_1-µ_2)}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\]

Onafhankelijke steekproeven: betrouwbaarheidsinterval samengestelde t-toets

Als twee (onafhankelijke) populaties dezelfde variantie hebben, dan wordt het C%-betrouwbaarheidsinterval van µ12 op de volgende manier berekend:

\[(x̄_1-x̄_2)±t*s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\]

De conclusie die hierbij hoort, is: in de populatie ligt het gemiddelde verschil tussen … (ondergrens) en … (bovengrens) met …(C%) zekerheid.

Onafhankelijke steekproeven: effectgrootte samengestelde t-toets

Het berekenen van de effectgrootte door middel van Cohen’s d werkt bij de samengestelde t-toets op dezelfde manier als bij de niet-samengestelde t-toets voor onafhankelijke steekproeven (zie college 2).

\[d=\frac{|x̄_1-x̄_2|}{s_p}\]

Het is niet van belang om effecgrote te berekenen als iets niet significant is.

SPSS

In SPSS kan de samengestelde t-toets worden berekend door middel van Analyze > Compare Means > Independent Samples T-Test. De uitvoer geeft verschillende toetsen: één t-toets waarbij de varianties van de populaties niet gelijk zijn en één t-toets waarbij de varianties wel gelijk zijn.

Toetsingsschema samengestelde t-toets

1. Formuleer je onderzoeksvraag.

2. Ga de aannamen af en ga na of eraan is voldaan.

  • De afhankelijke variabele moet normaal verdeeld zijn. Bij schending zijn de resultaten nog wel betrouwbaar zolang de totale steekproef groot genoeg is (≥ 40).
  • Proefpersonen moeten aselect getrokken zijn. Als dit niet het geval is, dan zijn de resultaten beperkt generaliseerbaar.
  • Proefpersonen moeten onafhankelijk van elkaar zijn getrokken. Als dit niet het geval is, dan gebruik je de gepaarde t-toets (zie college 2).
  • Er moeten gelijke populatievarianties zijn. Als hier niet aan voldaan is, zijn de resultaten nog wel betrouwbaar bij (vrijwel) gelijke steekproefgroottes. Bij (sterk) ongelijke steekproefgroottes moet je de niet-samengestelde t-toets gebruiken.

3. Stel je hypothesen op.

4. Kies de juiste toets, in dit geval de samengestelde t-toets, en bepaal alpha α (vaak 0.05)

5. Voer je berekening uit.

6. Zoek de bijbehorende p-waarde op.

7. Neem een beslissing: vergelijk p met α. Als p < α, dan verwerp je de nulhypothese.

8. Bereken de effectgrootte door middel van Cohen’s d.

9. Trek je conclusie en beschrijf deze inhoudelijk. Geef de richting aan van het effect dat je gevonden hebt en plaats kanttekeningen als je (één van) de aannamen geschonden hebt.

Een nadeel van de samengestelde t-toets voor twee steekproeven is dat de toets alleen geldig is bij gelijke varianties.

Een nadeel van de niet-samengestelde t-toets is dat het slechts een benadering van de werkelijke steekproevenverdeling bij ongelijke varianties is.

Om te bepalen of populatievarianties gelijk zijn, kun je gebruik maken van een vuistregel. Als de grootste standaarddeviatie niet meer dan twee keer de kleinste standaarddeviatie is, dan kun je de varianties als gelijk beschouwen.

ANOVA (Analysis of variance)

Als je in een onderzoek gebruik maakt van meer dan twee steekproeven, kun je gebruik maken van variantieanalyse (ANOVA). In het geval van één onafhankelijke variabele spreek je van enkelvoudige variantieanalyse. Bij twee onafhankelijke variabelen heet het een tweewegvariantieanalyse. De F-toets wordt hierbij gebruikt om de t-toets te generaliseren naar meerdere gemiddelden.

Om de relatie tussen de t-toets en de F-toets duidelijk te maken zal nu eerst de F-toets worden besproken voor twee gemiddelden. Let op: deze formule gebruiken wij verder niet!
Er geldt: F = s12/s22

De F-toets kan enkel positieve waarden aannemen en is daarom niet symmetrisch, maar scheef naar rechts verdeeld. Door de formule voor de samengestelde t-toets te herleiden tot t2, kan er ook een andere formule voor F worden afgeleid. Bij ANOVA geldt dan dat t2 gelijk is aan F.

\[F=\frac{\frac{n}{2}(x̄_1-x̄_2)^2}{s_p^2}\]

De teller (boven) is een maat voor de spreiding tussen twee groepen. De noemer (onder) is een maat voor de spreiding tussen individuen. Wat de F-toets doet, is toetsen of de spreiding tussen twee groepen significant groter is dan de spreiding binnen deze groepen.

Hypothesen en aannamen ANOVA

Bij ANOVA is er sprake van drie of meerdere groepen. Dit betekent dat de nulhypothese en de alternatieve hypothese anders moeten worden weergeven dan bij twee groepen. Stel dat er een experiment wordt uitgevoerd met drie verschillende groepen. De nulhypothese en alternatieve hypothese geef je dan als volgt weer:

H0: µ1 = µ2 = µ3

Ha: niet alle µi’s zijn gelijk (je geeft geen richting van het effect aan).

Kiezen of je eenzijdig of tweezijdig toetst is bij de F-toets niet van toepassing. Bij het toetsen van twee gemiddelden zal de uitkomst van de F-toets namelijk gelijk zijn aan die van de tweezijdige samengestelde t-toets. In dat geval kan de F-toets dus als tweezijdig worden gezien, of als ‘veelzijdig’ bij meer dan twee gemiddelden. Bij het toetsen van spreiding kun je de F-toets echter als eenzijdig zien. De F-toets wordt namelijk gebruikt om te bepalen of de spreiding tussen groepen groter is dan de spreiding binnen groepen. Daarom gebruik je de F-toets bij variantieanalyse altijd eenzijdig en vermenigvuldig je p nooit met 2.

Bij ANOVA horen twee aannamen:

  • De populaties moeten normaal verdeeld zijn.
  • De populaties moeten dezelfde varianties hebben. Om te bepalen of hieraan voldaan is, gebruik je de eerder besproken vuistregel.

Statistische modellen voor steekproeven

Observaties in een onderzoek kunnen we aangeven met Xj. Hierbij staat j voor de j’de persoon in de steekproef. Als persoon 6 bijvoorbeeld een cijfer 7 heeft gescoord op een test, kunnen we dit weergeven als X6 = 7. Als alle proefpersonen uit de steekproef precies hetzelfde cijfer halen, dan geldt: Xj = µ. Dit is echter nooit het geval, want er zijn altijd individuele afwijkingen van het populatiegemiddelde. Dit noemen we de error (van persoon j) en dit wordt weergegeven met εj. Het statistische model dat hieruit volgt, is: Xj = μ + εj. Wanneer Xj een normaalverdeling heeft met gemiddelde μ en standaarddeviatie σ, dan heeft εj een normaalverdeling met gemiddelde 0 en standaarddeviatie σ.

Als er meerdere onderzoeksgroepen zijn, dan wordt het aantal groepen aangegeven met I en het totaal aantal personen met J. Een observatie van een persoon j in groep i wordt dan aangegeven met Xij. Als alle personen per groep hetzelfde cijfer hebben, geldt: Xij = μi. Dit is echter nooit het geval, omdat er altijd variantie is tussen personen. De error van een persoon j in groep i wordt weergegeven met εij. Hieruit volgt het volgende model: Xij = μi + εij. Dit wordt het enkelvoudig ANOVA-model genoemd. εij heeft een normaalverdeling met gemiddelde 0 en standaarddeviatie σ.

College 4 - Enkelvoudige ANOVA en F-toets

Het enkelvoudig ANOVA-model

Het enkelvoudig ANOVA (Analysis Of Variance) model kan worden weergegeven als Xij = μi + εij. Daarbij is Xij de score van een persoon j in groep i, μi is het populatiegemiddelde van groep i en εij is de error van een persoon j in groep i (zie ook college 3). Aangenomen wordt dat εij normaal verdeeld is met gemiddelde 0 en standaarddeviatie σ. μi en σ zijn in de praktijk echter onbekend. Om het ANOVA-model te kunnen toetsen, wordt er daarom een schatter gebruikt voor deze parameters. De schatter voor μi is het steekproefgemiddelde van de i’de groep:

\[x̄_i=\frac{1}{n_i}\sum_{j=1}^{n_i}x_{ij}\]

De schatter voor σ wordt gegeven door de samengestelde schatter van de standaarddeviatie:

\[s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2+...+(n_I-1)s_I^2}{(n_1-1)+(n_2-1)+...+(n_I-1)}\]

De wortel hiervan is de samengestelde standaarddeviatie. Hierbij geldt dat er I aantal groepen zijn met varianties s12, s22,…,sI2 en grootte n1, n2,…,nI. Deze steekproeven zijn simple random samples die onafhankelijk van elkaar getrokken zijn uit populaties. De samengestelde schatter sp mag alleen gebruikt worden als de standaarddeviaties van de populaties gelijk aan elkaar zijn. Om te bepalen of dit zo is kan een vuistregel gebruikt worden. Als de grootste standaarddeviatie minder dan twee keer de kleinste standaarddeviatie is, dan mag ANOVA gebruikt worden.

Toetsingsprocedure voor gelijkheid van meer dan twee populatiegemiddelden

In het algemeen kan een statistisch model worden weergegeven als DATA = FIT + RESIDUAL. Elk van deze drie termen kan worden gezien als bron van variatie. In SPSS kan enkelvoudige ANOVA worden uitgevoerd door Analyze > Compare Means > One-way ANOVA. De data bestaan uit één onafhankelijke variabele (de conditie, bijvoorbeeld conditie 1, 2 of 3) en scores op één afhankelijke variabele. De output in SPSS komt er als volgt uit te zien (getallen zijn fictief):
 

 

Sum of squares

df

Mean Square

F

Sig.

Between groups

Within groups

Total

400.000

480.700

880.700

3

24

27

200.000

14.360

 

10.792

.000

Er zijn twee bronnen van variatie:

  • Verschillen tussen groepen, bijvoorbeeld als gevolg van de experimentele manipulatie. Dit wordt ook wel de fit genoemd.
  • Verschillen binnen groepen, bijvoorbeeld als gevolg van verschil in vermoeidheid tussen proefpersonen. Dit wordt ook wel het residu of de error genoemd. De totale spreiding is de som van de spreiding tussen groepen en de spreiding binnen groepen.

De kwadratensom (sum of squares) is een maat voor spreiding.

  • SSG is de kwadratensom tussen de groepen.
  • SSE is de kwadratensom binnen de groepen
  • SST is de totale kwadratensom (SSG + SSE).

De formules voor het berekenen van SSG, SSE en SST staan hieronder. In deze formules x-gemiddeld is het gemiddelde van de proefpersonen uit alle steekproeven bij elkaar.

\[SSG=sum_{i}^{I}n_i(x̄_i-x̄)^2\]

\[SSE=sum_{i}^{I}(n_i-1)s_i^2\]

\[SST=sum_{i}^{I}(x_{ij}-x̄)^2\]

Bij elke kwadratensom hoort een bepaald aantal vrijheidsgraden (degrees of freedom). Daarbij is I het aantal groepen en N het totaal aantal proefpersonen.

  • DFG is het aantal vrijheidsgraden van de groepen (I – 1).
  • DFE is het aantal vrijheidsgraden van de error (NI).
  • DFT is het totaal aantal vrijheidsgraden (DFG + DFE of N-1).

De gemiddelde kwadratensom (mean square) is de kwadratensom gedeeld door het bijbehorend aantal vrijheidsgraden.

  • MSG is de gemiddelde kwadratensom van de groepen (SSG/DFG).
  • MSE is de gemiddelde kwadratensom van de error (SSE/DFE).
  • MSE is gelijk aan de samengestelde schatter van de variantie. De wortel uit MSE kan daarom gebruikt worden als schatter voor de gezamenlijke standaarddeviatie van de populatie.

De F-toets

Bij de F-toets voor gelijkheid van meer dan twee populatiegemiddelden geldt: F = MSG/MSE. De F-toets toetst of er tussen groepen een grotere spreiding is dan binnen groepen. F heeft onder de nulhypothese H0 een F-verdeling met DFG en DFE vrijheidsgraden. Als populatiegemiddelden gelijk zijn, dan zal F ongeveer een waarde van 1 hebben. Dit is het geval bij H0. Als F veel groter is dan 1 verwerp je H0. Let op: je toetst hierbij altijd eenzijdig. De waarde van F is terug te vinden in de tabel van SPSS. In het voorbeeld heeft F een waarde van 10.792. In de kolom daarnaast is te zien dat de kans dat je bij geen populatieverschillen in gemiddelden een F-waarde vindt van 10.792 of hoger, kleiner dan 5% is. De nulhypothese wordt in dat geval verworpen: er zijn wel populatieverschillen in gemiddelden.

De effectgrootte kan berekend worden door R2. R2 geeft aan hoeveel procent van de totale variantie verklaard kan worden door de onafhankelijke variabele. R2 = SSG / SST.

  • Vanaf 0.010 spreken we van een klein effect.
  • Vanaf 0.059 is er een gemiddeld effect.
  • Vanaf 0.138 is er sprake van een groot effect.

Toetsingsprocedure voor gelijkheid van twee varianties

De F-toets voor gelijkheid van twee varianties toetst of varianties van twee steekproeven gelijk zijn aan elkaar. Er moet namelijk sprake zijn gelijke varianties om de samengestelde t-toets te kunnen gebruiken. De hypothesen die horen bij de F-toets voor gelijkheid van varianties zijn:

  • H0: σ1 = σ2 (de populaties hebben gelijke standaarddeviaties)
  • Ha: σ1 ≠ σ2 (de populaties hebben geen gelijke standaarddeviaties)

Onder H0 heeft de statistische maat F = s12/s22 een F-verdeling met n1-1 en n2-1 vrijheidsgraden. s1 en s2 zijn de standaarddeviaties van de steekproeven, n1 en n2 zijn de steekproefgroottes. Omdat de F-verdeling niet symmetrisch is maar scheef naar rechts, is de linker kritieke grens niet gelijk aan de rechter kritieke grens. In Tabel E (Introduction to the Practice of Statistics van Moore, McCabe en Craig, 2011) staan alleen de rechter kritieke grenzen van de F-verdeling. Daarom bereken je F altijd door de grootste variantie te delen door de kleinste variantie. De teller moet groter zijn dan de noemer. De p-waarde vind je door de F-waarde op te zoeken in tabel E. Om dit te doen kijk je in de tabel horizontaal naar het aantal vrijheidsgraden dat hoort bij de standaarddeviatie uit de teller. Verticaal kijk je naar het aantal vrijheidsgraden dat hoort bij de standaarddeviatie uit de noemer. Let op: je toetst hierbij altijd tweezijdig, dus je moet de gevonden p-waarde nog vermenigvuldigen met twee.

Belangrijke punten

Het is belangrijk om er goed op te letten of je een- of tweezijdig toetst. Bij de F-toets bij ANOVA (voor gelijkheid van meer dan twee populatiegemiddelden) toets je altijd eenzijdig en vermenigvuldig je p nooit met 2. Onder de alternatieve hypothese is de spreiding tussen groepsgemiddelden namelijk altijd groter dan de spreiding binnen groepen. Bij de F-toets voor gelijkheid van twee varianties toets je juist altijd tweezijdig en vermenigvuldig je p standaard met twee. Onder de alternatieve hypothese kan namelijk de variantie van zowel de ene als de andere populatie groter zijn.

Als de rechter kritieke grens van de F-toets voor gelijkheid van varianties bijvoorbeeld 1.5 is, dan is de linker kritieke grens 1 / 1.5.

De F-toets voor gelijkheid van varianties kun je niet in SPSS uitrekenen, maar SPSS maakt wel gebruik van Levene’s test voor gelijkheid van varianties. Deze toetst hetzelfde als de F-toets.

De F-toets voor gelijkheid van varianties heeft een nadeel. De toets is namelijk extreem gevoelig voor schending van normaliteit en kan daarom alleen gebruikt worden als de data normaal verdeeld zijn. Wanneer er geen normaalverdeling is of als er niets bekend is wat betreft de verdeling van data, dan gebruik je de vuistregel. Als de grootste standaarddeviatie minder dan twee keer de kleinste standaarddeviatie is, dan mag de F-toets gebruikt worden.

Bij t-toetsen voor gemiddelden ben je vaak geïnteresseerd in de alternatieve hypothese: gemiddelden zijn dan ongelijk. Bij de F-toets voor gelijkheid van varianties ben je juist geïnteresseerd in de nulhypothese. Om de samengestelde t-toets te kunnen gebruiken, die exact een t-verdeling heeft, moeten de varianties namelijk gelijk zijn. Je wilt bij de F-toets dus juist géén significant effect vinden, zodat je de nulhypothese niet hoeft te verwerpen.

College 5 - LSD- en Bonferroni-methodes

Toetsingsschema enkelvoudige ANOVA (variantieanalyse)

1. Formuleer je onderzoeksvraag.

2. Ga de aannamen af en ga na of eraan is voldaan.

  • De afhankelijke variabele moet normaal verdeeld zijn. Of dit het geval is, kan worden bepaald met een normaalkwantielplot. Bij schending zijn de resultaten nog wel betrouwbaar zolang de totale steekproef groot genoeg is. In het boek Introduction to the Practice of Statistics van Moore, McCabe en Craig wordt echter niet aangegeven hoeveel proefpersonen de groepen bij enkelvoudige variantieanalyse in totaal moeten bevatten.
  • Proefpersonen moeten aselect getrokken zijn. Als dit niet het geval is, dan zijn de resultaten beperkt generaliseerbaar.
  • Proefpersonen moeten onafhankelijk van elkaar zijn getrokken. Als dit niet het geval is, dan gebruik je een ander soort variantieanalyse.
  • Er moeten gelijke populatievarianties zijn. Dit kan worden gecontroleerd met de vuistregel: er zijn gelijke varianties als de grootste standaarddeviatie minder dan twee keer de kleinste standaarddeviatie is. Als hier niet aan voldaan is, zijn de resultaten nog wel betrouwbaar bij (vrijwel) gelijke steekproefgroottes.

3. Stel je hypothesen op.

  • H0: µ1 = µ2 = µ3 = … = µi
  • Ha: niet alle µi’s zijn gelijk

4. Kies de juiste toets, in dit geval de F-toets, en bepaal alpha α (vaak 0.05)

5. Voer je berekening uit. F = MSG / MSE (zie college 4).

6. Zoek de bijbehorende p-waarde op in Tabel E (Introduction to the Practice of Statistics van Moore, McCabe en Craig).

7. Neem een beslissing: vergelijk p met α. Als p < α, dan verwerp je de nulhypothese.

8. Bereken de effectgrootte door middel van R2. R2 = SSG / SST (zie college 4).

9. Trek je conclusie en beschrijf deze inhoudelijk. Plaats kanttekeningen over de aannamen.

Met behulp van dit toetsingsschema kan worden bepaald of gemiddelden van elkaar verschillen, maar het wordt niet duidelijk welke gemiddelden dat zijn. Om te bepalen welke gemiddelden verschillen, gebruiken we multipele vergelijkingen. Op deze manier kunnen gemiddelden in paren vergeleken worden.

Multipele vergelijkingen

Als we een experiment uitvoeren met drie groepen, dan moeten er drie toetsen uitgevoerd worden om de gemiddelden paarsgewijs met elkaar te vergelijken: een toets voor groep 1 en 2, een toets voor groep 2 en 3 en een toets voor groep 1 en 3. Een toets voor een vergelijking tussen bijvoorbeeld groep 1 en 2 ziet er als volgt uit:

\[t_{12}=\frac{(x̄_1-x̄_2)}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\]

Let op: sp is hierin niet de samengestelde standaarddeviatie van groep 1 en 2, maar de samengestelde standaarddeviatie van groep 1, 2 en 3 (zie college 4 voor het berekenen van de samengestelde standaarddeviatie). Hierdoor wordt de standaarddeviatie van de populatie stabieler geschat en dit vergroot de power, de kans dat verschillen worden ontdekt. De algemene formule voor het uitvoeren van multipele vergelijkingen is:

\[t_{ij}=\frac{(x̄_i-x̄_j)}{s_p\sqrt{\frac{1}{n_i}+\frac{1}{n_j}}}\]

Hierin geven de letters i en j de groepen aan. We concluderen dat gemiddelden van elkaar verschillen als │tij│> t**. Als dit namelijk het geval is, dan is p < α en verwerpen we de nulhypothese. De waarde van t** is afhankelijk van de methode die we voor multipele vergelijkingen gebruiken. Er zijn twee methoden: de LSD-methode en de Bonferroni-methode.

LSD-methode

De LSD-methode (Least Significant Difference) is de standaardmethode.

  • De kritieke waarde t** is hierbij de waarde die hoort bij α/2 van een t(DFE)-verdeling. Dat je de alpha deelt door twee heeft te maken met het feit dat je tweezijdig toetst.
  • Het aantal vrijheidsgraden is DFE: het totaal aantal proefpersonen min het aantal groepen (N – I).
  • In tabel D (Introduction to the Practice of Statistics van Moore, McCabe en Craig) kan de bijbehorende waarde van t** worden gevonden.

Bijvoorbeeld: we hebben drie groepen met in elke groep tien proefpersonen en we toetsen bij een alpha van 0.05. Om de kritieke waarde te bepalen, delen we eerst alpha door twee. De juiste waarde wordt dan 0.025. Het aantal vrijheidsgraden is N – I, dus in dit geval 30 – 3 = 27. In tabel D zoeken we de t-waarde op bij df = 27 en p = 0.025. De waarde die we dan vinden is 2.052 en dit is de kritieke waarde t**.

Een nadeel van de LSD-methode is dat het de kans vergroot op significante effecten die enkel door toeval worden veroorzaakt. Dit wordt kanskapitalisatie genoemd. Als er drie groepen paarsgewijs met elkaar vergeleken worden, dan is de kans op een type-1 fout (onterecht de nulhypothese verwerpen) 5% bij een alpha van 0.05. De kans op minstens één type-1 fout is over de drie toetsen heen drie keer die 5%. Dit is drie keer zo groot als gewenst. Om dit te voorkomen, kan de Bonferroni-methode gebruikt worden.

Bonferroni-methode

De Bonferroni-methode zorgt ervoor dat de totale kans op een onterechte verwerping van de nulhypothese onder alle vergelijkingen gelijk blijft aan een alpha van 0.05.

  • Als je drie keer paarsgewijs toetst, zorg je ervoor dat je ook drie keer zo streng toetst.
  • Deel α door het aantal toetsen dat je uitvoert.
  • Verder werkt de procedure hetzelfde als bij de LSD-methode.

Bijvoorbeeld: we hebben weer drie groepen met in elke groep tien proefpersonen en we toetsen bij een alpha van 0.05. Om de kritieke waarde t** te vinden, delen we α/2 door het aantal toetsen dat we uitvoeren. Bij drie groepen kunnen we drie toetsen uitvoeren, dus we delen 0.025 door 3. 0.025/3= 0.0083, oftewel 0.83%. Deze waarde is echter niet in Tabel D te vinden. Wel kan SPSS de bijbehorende t-waarde uitrekenen. Bij een waarde van 0.0083 hoort een t**-waarde van 2.552.

Simultane betrouwbaarheidsintervallen

De betrouwbaarheidsintervallen van µi - µj (het verschil) tussen populatiegemiddelden hebben de volgende vorm:

\[(x̄_i-x̄_j)±t**s_p\sqrt{\frac{1}{n_i}+\frac{1}{n_j}}\]

De kritieke waarde t** hangt af van de methode die gebruikt is om deze waarde te bepalen. Sp is weer de samengestelde standaarddeviatie van alle groepen, niet alleen van de twee groepen waarvan het betrouwbaarheidsinterval wordt bepaald. Bij drie groepen en een 95%-betrouwbaarheidsinterval geven de drie intervallen van µ1 - µ2, µ2 - µ3 en µ1 - µ3 samen 95% zekerheid dat ze alle drie tegelijkertijd de waarden bevatten van µ1 - µ2, µ2 - µ3 en µ1 - µ3. Simultaan betekent gelijktijdig en daarom spreken we van simultane betrouwbaarheidsintervallen.    

SPSS

In SPSS kunnen de LSD-methode en de Bonferroni-methode worden uitgevoerd. Via Analyze > Compare Means > One-way ANOVA wordt de variantieanalyse uitgevoerd. In het One-Way ANOVA scherm kan worden gekozen voor de optie ‘post hoc’, waarbij vervolgens de opties ‘LSD’ en ‘Bonferroni’ kunnen worden aangevinkt. Bij de knop ‘options’ kan verder nog worden gekozen voor ‘means plot’. In de uitvoer wordt dan een grafiek weergegeven met daarin de gemiddelde waarden van alle groepen.

Als SPSS aangeeft dat er een p-waarde is van 0.000 (onder Sig. in de tabel), dan schrijven we dit op als p < 0.001. Als we dit zouden noteren als p = 0.000, dan zou dit namelijk suggereren dat de kans dat iets op toeval berust gelijk is aan nul en dit is niet het geval. Dat SPSS wel een waarde van 0.000 geeft, heeft te maken het afronden op drie decimalen.

Wat betreft de p-waarden in SPSS is er bij Bonferroni iets raars aan de hand. SPSS vermenigvuldigt de kansen namelijk met het aantal toetsen dat is uitgevoerd. Hierdoor zijn de p-waarden bij Bonferroni (onder Sig. in de tabel) anders dan de p-waarden bij LSD. Gebruik in SPSS altijd de p-waarden die bij LSD staan. Let op: de waarden van de betrouwbaarheidsintervallen zijn bij Bonferroni wel juist en kun je gebruiken.

Het kan wel eens voorkomen dat er volgens SPSS geen significant verschil is tussen de gemiddelden van groep 1 en 2 en ook niet tussen de gemiddelden van groep 2 en 3, maar wel tussen de gemiddelden van groep 1 en 3. Logisch gezien lijkt dit paradoxaal. Het kan echter zo zijn dat de steekproeven te klein waren, waardoor een effect te klein was om gedetecteerd te worden. Dat een effect te klein is om gevonden te worden, betekent niet dat het effect niet bestaat.

College 6 - Experimentele designs

Eenwegdesigns

Er zijn verschillende soorten experimentele designs. Een design waarbij er onderzoek gedaan wordt naar slechts één onafhankelijke variabele wordt een eenwegdesign genoemd. De meest simpele vorm hiervan is een experiment met twee groepen (two-group experimental design). Meestal gaat het dan om een experimentele groep en een controlegroep. Onafhankelijke variabele (de factor) heeft dan twee niveaus. Vaak bestaat de onafhankelijke variabele echter uit meer dan twee niveaus.

Er zijn verschillende manieren om proefpersonen toe te wijzen aan een groep.

  • Gerandomiseerd design: proefpersonen worden aselect, dus op basis van toeval, toegewezen aan de twee of meerdere condities.
  • Gematchte paren (matched-subjects) design: proefpersonen worden in blokken gematcht op basis van een relevante variabele.
  • Herhaalde metingen (repeated measures) design: per proefpersoon worden er meerdere metingen uitgevoerd. Elk proefpersoon wordt in elke conditie gemeten.

Welke metingen er gedaan worden, kan ook verschillen.

  • Posttest-only design: er wordt alleen een nameting gedaan, nadat de proefpersoon is blootgesteld aan de experimentele manipulatie.
  • Pretest-posttest design: er wordt eerst een voormeting gedaan, vervolgens wordt de proefpersoon blootgesteld aan de experimentele manipulatie en daarna wordt de nameting gedaan.

Een pretest-posttest design maakt het mogelijk om te bepalen of er tussen de groepen al een verschil was op de afhankelijke variabele voordat de manipulatie plaatsvond. Ook kan hiermee worden bepaald hoeveel effect de onafhankelijke variabele heeft gehad op het gedrag van de proefpersonen. Dit zijn de voordelen van een pretest-posttest design ten opzichte van een post-only design. Een nadeel is echter pre-test sensitisatie: het afnemen van de voormeting kan het gedrag van een proefpersoon al beïnvloeden. Dit kan leiden tot een andere score op de afhankelijke variabele. Een oplossing kan zijn om bij de ene helft van de proefpersonen geen voormeting te doen en bij de andere helft wel. Er kan dan namelijk worden gekeken of er verschillen tussen de ene en de andere helft zijn.

Factoriële designs

Een factorieel design is een design waarbij meerdere onafhankelijke variabelen (factoren) worden onderzocht. Dit design maakt bestudering van het effect van een combinatie van factoren mogelijk. Bij onderzoek naar drie onafhankelijke variabelen spreken we van een driewegdesign, bij onderzoek naar vier onafhankelijke variabelen spreken we van een vierwegdesign enzovoorts. De structuur van een design wordt zo weergegeven dat meteen duidelijk is hoeveel onafhankelijke variabelen bij het experiment betrokken zijn en hoeveel niveaus de variabelen hebben. Een 2 x 3 design is bijvoorbeeld een design met twee onafhankelijke variabelen. De ene onafhankelijke variabele heeft twee condities, de andere onafhankelijke variabele heeft drie condities. In totaal zijn er zes condities (2 x 3). 

Bij factoriële designs zijn er de volgende manieren om proefpersonen toe te wijzen aan een groep.

  • Gerandomiseerde groepen factorieel (randomized groups factorial) design: proefpersonen worden aselect aan één van de condities toegewezen.
  • Gematcht factorieel (matched factorial) design: proefpersonen worden gematcht in blokken. Dit gebeurt op basis van een variabele die samenhangt met de afhankelijke variabele. Als de afhankelijke variabele bijvoorbeeld reactiesnelheid is, dan kan er een blok gevormd worden met de meest snelle mensen, een blok met mensen die iets minder snel zijn, een blok met mensen die nog minder snel zijn enzovoorts. In elk blok moeten net zoveel mensen zitten als het aantal condities dat er is. Vervolgens wordt elk van de proefpersonen uit een blok aan een andere conditie toegewezen. Dit gebeurt aselect.
  • Herhaalde metingen factorieel (repeated measures factorial) design: elke proefpersoon wordt blootgesteld aan elke experimentele conditie. Dit kan echter alleen als je niet teveel condities hebt, want anders is de kans groot dat vermoeidheid en volgorde-effecten optreden.
  • Gemixt factorieel (mixed factorial) design: kenmerken van zowel het gerandomiseerde groepen factorieel design als het herhaalde metingen factorieel design worden met elkaar gecombineerd. Men wijst proefpersonen bijvoorbeeld eerst  aselect toe aan twee groepen en voert vervolgens bij alle proefpersonen herhaalde metingen uit. Gemixt factorieel design wordt ook wel between-within design of split- plot factorieel design genoemd.

Hoofd- en interactie-effecten

Een hoofdeffect is het effect van een onafhankelijke variabele op de afhankelijke variabele. In een experiment is het aantal hoofdeffecten gelijk aan het aantal onafhankelijke variabelen. Bij het onderzoeken van een bepaald hoofdeffect worden de overige onafhankelijke variabelen genegeerd. Er wordt enkel gekeken naar het algehele effect van een onafhankelijke variabele.

Er is sprake van een interactie-effect wanneer het effect van een onafhankelijke variabele niet op elk niveau van de andere onafhankelijke variabelen hetzelfde is. Het kan bijvoorbeeld zo zijn dat het effect van alcohol op concentratievermogen sterker is bij mensen die vermoeid zijn dan bij mensen die niet vermoeid zijn. Wanneer dit in een grafiek weergegeven wordt, dan blijkt dat de twee lijnen die horen bij de groepen (groep 1: vermoeid en groep 2: niet vermoeid) niet evenwijdig aan elkaar lopen. Hieraan is te zien dat er sprake is van een interactie-effect. Als de lijnen in de grafiek wel evenwijdig aan elkaar lopen, dan is er geen sprake van een interactie-effect.

Hogere-orde designs

Bij een driewegdesign wordt onderzoek gedaan naar drie onafhankelijke variabelen. De effecten die worden onderzocht zijn als volgt:

  • De drie hoofdeffecten van de onafhankelijke variabelen (variabelen A, B en C).
  • Drie paren van onafhankelijke variabelen, dus drie interactie-effecten (AB, AC en BC). Hierbij wordt de derde onafhankelijke variabele steeds buiten beschouwing gelaten.
  • Het interactie-effect van de drie onafhankelijke variabelen samen (ABC).

In een experiment maakt men vaak gebruik van niet meer dan twee onafhankelijke variabelen. Hier zijn twee redenen voor. Ten eerste betekent meer variabelen dat er ook meer condities zijn. Hoe meer condities er zijn, hoe meer proefpersonen een onderzoeker nodig heeft. Ten tweede zijn interacties van meer dan twee onafhankelijke variabelen moeilijk te interpreteren. Een drieweginteractie bijvoorbeeld kan niet worden weergegeven in één grafiek.

Experimenteel-correlationeel design

Proefpersoonvariabelen zijn variabelen die samenhangen met de proefpersoon zelf, zoals haarkleur en geslacht. Een onderzoeker kan deze variabelen niet manipuleren. Proefpersoonvariabelen kunnen worden gecombineerd met een experimenteel design. Onafhankelijke variabelen worden dan gemanipuleerd en bestaande proefpersoonvariabelen worden gemeten. Dit wordt ook wel een experimenteel-correlationeel design genoemd.

Er zijn verschillende redenen om een experimenteel-correlationeel design te gebruiken.

  1. Er kan onderzocht worden of een effect van de onafhankelijke variabele algemeen  geldig is, of dat het alleen geldt voor mensen met een bepaald kenmerk.
  2. Er kan bepaald worden hoe een persoonlijke eigenschap in verschillende condities samenhangt met gedrag.
  3. De groepen proefpersonen binnen de condities worden homogener. De proefpersonen binnen een bepaalde experimentele conditie hebben namelijk in elk geval één proefpersoonvariabele met elkaar gemeen. Meer homogeniteit zorgt ervoor dat de errorvariantie kleiner wordt.

Proefpersoonvariabelen bestaan niet altijd uit categorieën, zoals het geval is bij haarkleur en geslacht, maar kunnen ook continu zijn, zoals het geval is bij lengte, gewicht en leeftijd. Er zijn twee manieren om dan een indeling te maken van de groepen.

  • Mediaan-split procedure: de onderzoeker berekent de mediaan en vormt twee groepen. De ene groep bevat proefpersonen met waarden boven de mediaan, de andere groep bevat proefpersonen met waarden onder de mediaan.
  • Extreme groepen (extreme groups) procedure: de onderzoeker doet een voormeting bij een groep potentiële proefpersonen. Uit deze groep selecteert hij enkel de mensen met een extreem hoge of een extreem lage score. Als de onderzoeker bijvoorbeeld onderzoek wil doen naar de proefpersoonvariabele  ‘gewicht’, dan kan hij de tien meest zware mensen en de tien minst zware mensen selecteren voor zijn experiment.

Een nadeel van de mediaan-split en de extreme groepen procedure is dat zinvolle informatie verdwijnt. Doordat de proefpersonen zijn ingedeeld in twee groepen wordt er geen gebruik meer gemaakt van de precieze gegevens van elke proefpersoon. Een ander nadeel van beide procedures is dat ze kunnen leiden tot vertekende resultaten. Sommige effecten zullen niet worden ontdekt en het kan ook zijn dat er onterecht effecten worden gevonden. De oplossing hiervoor is multipele regressie.

Aandachtspunt

Het is belangrijk om voorzichtig te zijn met het trekken van conclusies met betrekking tot proefpersoonvariabelen. Bij het vinden van een effect van proefpersoonvariabelen kun je nooit spreken van een causaal effect, omdat de variabele niet gemanipuleerd is. Ook kun je niet stellen dat een proefpersoonvariabele het effect van een onafhankelijke variabele heeft beïnvloed. Het enige dat je kunt zeggen, is dat verschillende groepen mensen (bijvoorbeeld jongens en meisjes) anders reageren op de onafhankelijke variabele. Een proefpersoonvariabele is een modererende variabele (moderator variabele).

College 7 - Tweeweg ANOVA

Tweeweg variantieanalyse

Bij tweeweg variantieanalyse, ook wel tweeweg ANOVA, wordt onderzoek gedaan naar twee onafhankelijke variabelen. Een mogelijke combinatie van niveaus van de twee onafhankelijke variabelen wordt ook wel een cel genoemd. Bij tweeweg ANOVA is er sprake van zowel hoofd- als interactie-effecten. Er zijn enkele voordelen van tweeweg ANOVA ten opzichte van enkelvoudige ANOVA:

  • Twee onafhankelijke variabelen (factoren) hoeven niet apart te worden bestudeerd, maar kunnen tegelijkertijd worden onderzocht.
  • De tweede factor heeft mogelijk invloed op de afhankelijke variabele, evenals de eerste factor. Door deze tweede factor bij het experiment te betrekken wordt de errorvariantie in een model teruggebracht.
  • Tweeweg ANOVA maakt het mogelijk om interactie-effecten van de twee factoren te bestuderen.

Terminologie en statistisch model

De eerste factor wordt bij tweeweg ANOVA aangeduid met factor A. Het aantal niveaus van factor A wordt aangeduid met I. De tweede factor wordt aangeduid met factor B. Het aantal niveaus van factor B wordt aangeduid met J. De steekproefgrootte van een cel wordt aangeduid met nij. Het gaat hierbij dus om de steekproefgrootte voor niveau i van factor A en niveau j van factor B. Het totaal aantal observaties is de som van de steekproefgroottes van alle cellen samen, oftewel N =  nij.

Het tweeweg ANOVA-model wordt als volgt weergegeven: Xijk = μij + εijk

Xijk is de waarde van de afhankelijke variabele bij niveau i van factor A en niveau j van factor B bij een bepaald persoon k. De aanname die gedaan wordt, is dat we onafhankelijke, aselecte steekproeven hebben getrokken van grootte nij uit elk van de I × J populaties. Ook nemen we aan dat de populatiegemiddelden verschillend zijn, maar dat alle populaties dezelfde standaarddeviatie σ hebben. Deze standaarddeviatie σ is samen met μij een onbekende parameter. Verder wordt de aanname gedaan dat εijk (de error van persoon k bij niveau i van factor A en niveau j van factor B) normaal verdeeld is met gemiddelde 0 en standaarddeviatie σ.

De schatter voor μij is het steekproefgemiddelde van niveau i van factor A en niveau j van factor B. Deze schatter is dus specifiek voor elke combinatie van condities:

\[x̄_{ij}=\frac{1}{n_{ij}}\sum_{k=1}^{n_{ij}}x_{ijk}\]

De schatter voor σ2 is de samengestelde schatter van de standaarddeviatie. Dit is de totale schatter voor alle condities samen:

\[s_p^2=\frac{\sum(n_{ij}-1)s_{ij}^2}{\sum(n_{ij}-1)}\]

Hoofd- en interactie-effecten

Of er hoofdeffecten en/of interactie-effecten zijn opgetreden, bepalen we door middel van de F-toets. Om de F-toets te kunnen berekenen, moeten eerst de kwadratensommen (sum of squares), het aantal vrijheidsgraden (degrees of freedom) en de gemiddelde kwadratensommen (mean squares) worden bepaald (zie ook college 4).

De totale spreiding is de spreiding tussen groepen en de spreiding binnen groepen samen. De kwadratensom is een maat voor de spreiding. Bij tweeweg ANOVA geldt:

  • SSG is de kwadratensom tussen de groepen. SSG = SSA + SSB + SSAB
  • SSA is de kwadratensom van effect A.
  • SSB is de kwadratensom van effect B.
  • SSB is de kwadratensom van de interactie tussen A en B.
  • SSE is de kwadratensom binnen de groepen.
  • SST is de totale kwadratensom (SSA + SSB + SSAB + SSE)

Bij elke kwadratensom hoort een bepaald aantal vrijheidsgraden:

  • DFA is het aantal vrijheidsgraden van factor A (I – 1)
  • DFB is het aantal vrijheidsgraden van factor B (J – 1)
  • DFAB is het aantal vrijheidsgraden van de interactie: (I – 1)(J – 1)
  • DFE is het aantal vrijheidsgraden van de error (N – I*J)
  • DFT is het totaal aantal vrijheidsgraden (DFA + DFB + DFAB + DFE of N – 1)

De gemiddelde kwadratensom is de kwadratensom gedeeld door het bijbehorend aantal vrijheidsgraden:

  • MSA is de gemiddelde kwadratensom van factor A (SSA/DFA)
  • MSB is de gemiddelde kwadratensom van factor B (SSB/DFB)
  • MSAB is de gemiddelde kwadratensom van de interactie (SSAB/DFAB)
  • MSE is de gemiddelde kwadratensom van de error (SSE/DFE). De waarde hiervan is gelijk aan de waarde van de samengestelde schatter van de variantie, s p2.

Om te bepalen of er een hoofdeffect is van factor A gebruiken we de formule F A = MSA/MSE

Om te bepalen of er een hoofdeffect is van factor B gebruiken we de formule F B = MSB/ MSE

Om te bepalen of er een interactie-effect is, gebruiken we de formule F AB = MSAB/ MSE.

In de conclusie wordt voor elke factor apart besproken of er een hoofdeffect is. Ook wordt de richting van dit effect besproken. Daarnaast moet ook nog worden besproken of er een interactie-effect was. Zo ja, dan wordt voor elke conditie de richting van dit effect vastgesteld.

Berekenen van kwadratensommen

De resultaten van een experiment met twee onafhankelijke variabelen kunnen in een tabel worden weergegeven. Als we bijvoorbeeld onderzoek doen naar de invloed van vermoeidheid en het aantal uur leren op het tentamencijfer, dan zou de tabel er op de volgende manier uit kunnen zien. De getallen in de cellen zijn de behaalde tentamencijfers.

Factor B: aantal uren leren
Factor A: vermoeidheid
< 10 uur10 – 20 uur> 20 uurGemiddelde
Wel vermoeid6, 7, 5, 3, 46, 6, 7, 9, 57, 8, 8, 5, 66.1
Niet vermoeid5, 6, 6, 4, 78, 9, 5, 5, 67, 6, 7, 8, 96.5
Gemiddelde5.36.67.16.3
(totaal gem.)

Bij het berekenen van de kwadratensommen wordt gebruik gemaakt van de rij- en kolomgemiddelden. Dit worden ook wel marginale gemiddelden genoemd. In formules worden stippen gebruikt om aan te geven dat het om rij- en kolomgemiddelden gaat. Om de spreiding van factor A te berekenen, moet de spreiding van de rijgemiddelden ten opzichte van het totale gemiddelde berekend worden.

\[SSA=\sum_{i=1}^{I}n_i(x̄_i-x̄)^2\]

In bovenstaande formule staat ni steeds voor de steekproefgrootte van de i’de rij. Verder staat x̄i voor het rijgemiddelde van de i’de rij en x̄ voor het totale gemiddelde van alle proefpersonen samen.

Om de spreiding van factor B te berekenen, moet de spreiding van de kolomgemiddelden ten opzichte van het totale gemiddelde berekend worden. Voor deze formule geldt hetzelfde als voor de formule van SSA, behalve dat het in dit geval steeds gaat om kolomgemiddelden en steekproefgroottes van de j’de kolom.

\[SSB=\sum_{j=1}^{J}n_j(x̄_j-x̄)^2\]

Bij de kwadratensom van het interactie-effect tussen A en B zijn we geïnteresseerd in hoe celgemiddelden verschillen ten opzichte van het totale gemiddelde. Hierbij moet rekening worden gehouden met rij- en kolomeffecten om een zuiver interactie-effect te bepalen. Bij het berekenen van interactie-effecten worden de steekproefgroottes van elke cel daarom vermenigvuldigd met het kwadraat van x̄ij-x̄i-x̄j+x̄. Vervolgens worden de waarden van alle cellen bij elkaar opgeteld. De formule die hierbij hoort is als volgt:

\[SSAB=\sum_{i=1}^{I}\sum_{j=1}^{J}n_{ij}(x̄_{ij}-x̄_i-x̄_j+x̄)^2\]

Bij de kwadratensom van de error gaat het om de spreiding van individuen binnen groepen rondom hun groepsgemiddelde. Dit kan worden weergegeven als:

\[SSE=\sum_{i=1}^{I}\sum_{j=1}^{J}\sum_{k=1}^{n_{ij}}(x_{ijk}-x̄_{ij})^2\]

Deze formule is gelijk aan:

\[SSE=\sum_{i=1}^{I}\sum_{j=1}^{J}(n_{ij}-1)s_{ij}^2\]

, of simpelweg

\[SSE=\sum(n_{ij}-1)s_{ij}^2\]

SPSS bij tweeweg ANOVA

In SPSS kan tweeweg ANOVA worden uitgevoerd door middel van Analyze > General Linear Model > Univariate. In de uitvoer verschijnt een tabel met waarden voor zowel het effect van factor A en B apart als voor het interactie-effect. De waarden van de totale kwadratensom en het totaal aantal vrijheidsgraden zijn in de tabel te vinden bij het gecorrigeerde totaal (‘corrected total’), niet bij totaal (‘total’).

Wanneer er significante effecten zijn gevonden, kan er een post-hoc analyse worden uitgevoerd om te bepalen welke effecten dit precies zijn. Vaak volstaan we echter met kijken naar grafieken waarin de gegevens zijn verwerkt

College 8 - Quasi-experimentele designs

Experimenteel design

Een experimenteel design heeft de volgende kenmerken:

  • Er is een onafhankelijke variabele die wordt gemanipuleerd. Door verschillende niveaus van de onafhankelijke variabele ontstaan verschillende experimentele condities. De onderzoeker heeft dus invloed op de condities die er ontstaan.
  • Proefpersonen worden random (aselect) toegewezen aan één van de condities.
  • Een experimenteel design maakt het mogelijk om oorzaak-gevolgrelaties vast te stellen. 

Een vraagstelling uit de praktijk kan vaak echter niet worden onderzocht met een experiment. De kans is groot dat de onderzoeker geen mogelijkheid heeft tot het manipuleren van de onafhankelijke variabele en/of het aselect toewijzen van proefpersonen. In zo’n geval wordt geprobeerd om toch onderzoek te doen naar oorzaak en gevolg, door middel van een quasi-experimenteel design. Bij een quasi-experimenteel design wordt de onafhankelijke variabele dus niet gemanipuleerd door de onderzoeker en/of worden proefpersonen niet aselect toegewezen aan condities. Er zullen nu verschillende quasi-experimentele designs besproken worden.

One group pretest-posttest design : pre-experimental design

Bij een one group pretest-posttest design is er slechts één groep proefpersonen die onderzocht wordt. Bij deze proefpersonen wordt eerst een voormeting gedaan. Vervolgens worden alle proefpersonen blootgesteld aan de onafhankelijke variabele(n) en daarna volgt er bij elke proefpersoon een nameting. Het one group pretest-posttest design wordt ook wel een pre-experimenteel design genoemd, omdat het veel nadelen heeft. De volgende effecten kunnen optreden bij een one group pretest-posttest design.

  • Rijping: doordat leerlingen ouder worden kunnen er al natuurlijke veranderingen in hun gedrag plaatsvinden die niets te maken hebben met de onafhankelijke variabele.
  • Historie-effecten: gebeurtenissen van buitenaf die tegelijkertijd plaatsvinden met blootstelling aan de onafhankelijke variabele kunnen invloed hebben op de uitkomsten.
  • Regressie naar het gemiddelde: wanneer een proefpersoon op een eerste meting een extreme score haalde, dan zal zijn of haar score op de tweede meting minder extreem zijn. Dit komt simpelweg doordat de persoon niet veel extremer kan scoren. Meetfouten die gemaakt worden zullen dus eerder richting het gemiddelde gaan dan richting een nog extremere score.

Non-equivalent control group design

Bij een non-equivalent control group design wordt er gebruik gemaakt van non-equivalente groepen. Dat wil zeggen dat het gaat om bestaande groepen, bijvoorbeeld een groep mensen die drugs gebruikt en een groep mensen die geen drugs gebruikt. De onderzoeker kan de proefpersonen niet aselect toewijzen aan een conditie. Een non-equivalent control group design houdt in dat er één groep is die is blootgesteld aan de onafhankelijke variabele en dat er een controlegroep is die niet is blootgesteld aan de onafhankelijke variabele. Bij dit design worden geen voormetingen gedaan, alleen nametingen. Het nadeel hiervan is dat het onbekend is in hoeverre beide groepen van tevoren al vergelijkbaar zijn. Dit wordt ook wel selectiebias genoemd.

Non-equivalent groups pretest-posttest design

Bij een non-equivalent groups pretest-posttest design wordt er bij de experimentele groep eerst een voormeting gedaan, vervolgens worden de proefpersonen blootgesteld aan de onafhankelijke variabele en daarna wordt er een nameting gedaan. Ook bij de controlegroep wordt er zowel een voor- als nameting gedaan, maar deze proefpersonen worden niet blootgesteld aan de onafhankelijke variabele. Een effect dat kan optreden bij dit design is een lokaal historie-effect (ook wel selectie door historie interactie). Dit houdt in dat er bij één van de groepen een lokale gebeurtenis plaatsvindt die invloed heeft op de uitkomsten. Hierdoor kan het lijken alsof de ene groep verschilt van de andere groep als gevolg van de onafhankelijke variabele, terwijl dit verschil in werkelijkheid te wijten is aan een externe gebeurtenis.

Simple interrupted time series design

Tijdseries designs zijn designs waarin er gedurende het onderzoek meerdere metingen plaatsvinden. Bij een simple interrupted time series design vinden er eerst meerdere voormetingen plaats voordat de proefpersonen aan de onafhankelijke variabele worden blootgesteld. Daarna vinden er meerdere nametingen plaats. Door meerdere metingen uit te voeren kan bepaald worden of een effect daadwerkelijk is opgetreden als gevolg van de onafhankelijke variabele en niet alleen als gevolg van rijping. Een effect dat echter wel bij dit design kan optreden is eigentijdse (‘contemporary’) historie. Tegelijkertijd met blootstelling aan de onafhankelijke variabele kan er een invloedrijke gebeurtenis hebben plaatsgevonden die invloed had op de uitkomsten.

Interrupted time series with a reversal (met omkering)

Bij een interrupted time series design met omkering worden de proefpersonen na enkele voormetingen blootgesteld aan de onafhankelijke variabele. Daarna volgen weer enkele metingen en vervolgens wordt de onafhankelijke variabele verwijderd, waarna er nog enkele nametingen gedaan worden. Wanneer de resultaten van de metingen na verwijdering van de onafhankelijke variabele weer gelijk zijn aan de resultaten van de voormetingen, dan is dit bewijs voor een effect van de onafhankelijke variabele. De kans dat effecten zijn opgetreden door rijping of historie is dan minder waarschijnlijk.

Er zijn ook interrupted time series designs waarbij een onafhankelijke variabele eerst wordt geïntroduceerd, vervolgens wordt verwijderd en daarna nogmaals wordt geïntroduceerd en verwijderd. Tussendoor worden weer meerdere metingen gedaan. Dit design kan nog meer zekerheid geven over het feit dat een effect daadwerkelijk komt door de onafhankelijke variabele en niet door externe gebeurtenissen. Er zijn echter ook wat nadelen van dit design:

  • Onderzoekers zijn vaak niet in staat om de onafhankelijke variabele weg te halen, bijvoorbeeld als er onderzoek gedaan wordt naar het effect van een nieuwe wet. Een wet kan niet worden ingetrokken voor het onderzoek.
  • Effecten van de onafhankelijke variabele kunnen ook na verwijdering van de onafhankelijke variabele nog invloed hebben.
  • Het verwijderen van de onafhankelijke variabele kan voor ongewenste veranderingen zorgen. Een voorbeeld hiervan is onderzoek naar loonsverhoging. Als de loonsverhoging voor het onderzoek wordt ingetrokken dan kan dit boosheid opleveren bij de werknemers, met als gevolg dat werkprestaties verminderen.

Control group interrupted time series design

Het control group interrupted time series design heeft dezelfde opzet als een interrupted time series design, met als verschil dat er sprake is van een non-equivalente controlegroep. De experimentele groep krijgt dus enkele voormetingen, dan blootstelling aan de onafhankelijke variabele en dan enkele nametingen, terwijl er bij de controlegroep alleen voor- en nametingen gedaan worden. Met dit design kunnen bepaalde historie-effecten worden uitgesloten. Een voorwaarde voor het uitsluiten van historie-effecten is echter wel dat beide groepen te maken krijgen met dezelfde gebeurtenissen van buitenaf. Lokale historie-effecten blijven wel altijd mogelijk.

Comparative time series design

Een design waarin twee of meer aan elkaar gerelateerde variabelen (bijvoorbeeld roken en longkanker) met elkaar worden vergeleken door de tijd heen, is een comparative time series design. Als veranderingen in de ene variabele steeds samenhangen met veranderingen in de andere variabele, dan is dit indirect bewijs voor een oorzaak-gevolgrelatie. Vaak is het echter moeilijk vast te stellen welke variabele oorzaak is en welke gevolg. Ook kan het zo zijn dat er een derde variabele in het spel is die invloed heeft op beide variabelen.

Longitudinaal design

In een longitudinaal onderzoek worden proefpersonen gedurende langere tijd gevolgd en gemeten. Het longitudinaal design is geen quasi-experimenteel design, want er wordt niet geprobeerd om een oorzaak-gevolgrelatie vast te stellen. Bij een longitudinaal design vindt er geen interventie plaats. De quasi-onafhankelijke variabele is de tijd zelf. Met dit design kunnen aan leeftijd gerelateerde veranderingen in gedrag, gedachten en emotie worden onderzocht en dit wordt vooral gebruikt door ontwikkelingspsychologen en pedagogen. Een belangrijk aandachtspunt is echter dat niet alle veranderingen door leeftijd komen. Een voorbeeld hiervan is de motoriek van kinderen. Motoriek kan ook verbeteren doordat een kind op een sport gaat. De verandering in motoriek is dan niet alleen afhankelijk van de leeftijd. Bovendien zijn er enkele nadelen wat betreft het gebruikmaken van een longitudinaal design:

  • Vaak is het moeilijk om proefpersonen te vinden die voor een langere periode mee willen werken.
  • Het kan zijn dat proefpersonen wel mee willen doen, maar tijdens het onderzoek verhuizen of overlijden. Er is dan sprake van uitval van proefpersonen (attrition).
  • Het uitvoeren van een longitudinaal onderzoek kost veel tijd, geld en moeite.

Cross-sectioneel design

In een cross-sectioneel onderzoek worden verschillende leeftijdsgroepen op één tijdstip met elkaar vergeleken. Een nadeel hiervan is dat generatie-effecten kunnen optreden: mensen verschillen naast leeftijd ook qua omstandigheden waarin ze zijn opgegroeid, waardoor uitkomsten bij voorbaat al verschillend zijn. Bij een cross-sectioneel design kunnen veranderingen met de leeftijd van individuele proefpersonen niet worden onderzocht. Ook dit is een nadeel.

Programma-evaluatie

Voor het evalueren van programma’s, bijvoorbeeld een nieuwe onderwijsmethode, worden vaak quasi-experimentele designs gebruikt. Soms is het ook mogelijk om echte experimentele designs te gebruiken, maar met experimenten kunnen minder vraagstellingen worden onderzocht dan met quasi-experimenten. Vaak is het doel om oorzaak-gevolgrelaties vast te stellen. Er zijn enkele voorwaarden voor het vaststellen van oorzaak-gevolgrelaties:

  1. De onafhankelijke variabele gaat vooraf aan de afhankelijke variabele.
  2. Oorzaak en gevolg hangen met elkaar samen (co-variëren).
  3. Alternatieve verklaringen kunnen worden uitgesloten door middel van aselecte toewijzing en experimentele controle.

Quasi-experimentele designs voldoen alleen aan de eerste twee voorwaarden. Om de zekerheid van quasi-experimentele resultaten te vergroten kan het volgende gedaan worden:

  • Gebruik alle mogelijke designs om de hypothesen te testen.
  • Meet andere variabelen waarvan wordt verwacht dat die, naast de onafhankelijke variabele, samenhangen met veranderingen in de afhankelijke variabele.
  • Voer meerdere studies uit. Dit wordt kritisch multiplisme genoemd.

Bedreigingen interne validiteit bij quasi-experimenteel onderzoek

Interne validiteit betreft de mate waarin effecten daadwerkelijk aan blootstelling aan de onafhankelijke variabele kunnen worden toegeschreven. Bij designs waarin er slechts één groep wordt bestudeerd, pre-test en post-test, zijn historie-effecten, rijping, regressie naar het gemiddelde en pretest-sensitisatie bedreigingen voor de interne validiteit. Bij designs waarin twee groepen worden bestudeerd, pre-test en post-test, zijn selectiebias en lokale historie-effecten bedreigingen van de interne validiteit.  

College 9 - Wilcoxon en Kruskall-Wallis toetsen

Schending van normaliteit

Bij veel toetsen, zoals de t-toets, wordt de aanname gedaan dat er sprake is van een normaalverdeling in de populatie. Vaak is dit echter niet het geval. Er zijn verschillende methoden om te gebruiken wanneer de aanname van normaliteit geschonden wordt:

  • Uitbijters moeten verwijderd worden wanneer ze niet tot de populatie behoren. Wanneer uitbijters wel tot de populatie behoren, moeten statistische technieken gebruikt worden die geen aanname van normaliteit doen. Dit worden non-parametrische technieken genoemd.
  • Wanneer data scheef verdeeld zijn kunnen ze getransformeerd worden. Een voorbeeld hiervan is het gebruik van de logaritmen van de data.
  • Soms kunnen verdelingen beter worden beschreven door andere standaardverdelingen. Een voorbeeld hiervan is de Weibullverdeling.
  • Bootstrapmethoden en permutatietoetsen kunnen gebruikt worden, omdat deze geen normaliteit of een andere verdelingsvorm vereisen.
  • Ook andere non-parametrische methoden kunnen gebruikt worden. Het verschil met bootstrapmethoden en permutatietoetsen is dat deze andere methoden geen gebruik maken
  • van de werkelijke waarden van observaties.

Rangsomtoets van Wilcoxon

De rangsomtoets van Wilcoxon is de non-parametrische versie van de t-toets voor twee onafhankelijke steekproeven (zie college 2 en 3). De aannamen zijn hetzelfde als voor deze t-toets, met uitzondering van de aanname van normaliteit. De rangsomtoets maakt gebruik van rangtransformatie. Dit houdt in dat alle waarnemingen gerangschikt worden van laag naar hoog. Vervolgens wordt aan elke waarneming een rangnummer toegekend. De laagste waarneming krijgt nummer 1, de daaropvolgende laagste waarneming krijgt nummer 2 enzovoorts. Met deze nummers wordt de toets uitgevoerd.

Bij de rangsomtoets wordt ervan uitgegaan dat er twee onafhankelijke steekproeven (simple random samples) zijn getrokken van grootte n 1 en n 2. Het totaal aantal observaties is dus n 1 + n 2, oftewel N. De som van de rangnummers van de eerste steekproef is W, de Mann-Witney rangsom statistiek. Welke van de twee steekproeven je hiervoor gebruikt maakt niet uit; het gaat erom dat één groep als uitgangspunt wordt gekozen. Wanneer beide populaties een gelijke continue verdeling hebben, dan geldt het volgende voor het gemiddelde van W:

\[µ_W=\frac{n_1(N+1)}{2}\]

De standaarddeviatie van W is dan als volgt:

\[σ_W=\sqrt{\frac{n_1n_2(N+1)}{12}}\]

De steekproevenverdeling van W kan worden benaderd met behulp van een standaardnormaalverdeling:

\[z=\frac{W-µ_W}{σ_W}=\frac{W-n_1(N+1)/2}{\sqrt{n_1n_2(N+1)/12}}\]

Aan de hand van deze z-waarde kan de p-waarde worden vastgesteld (Tabel A; Introduction to the Practice of Statistics van Moore, McCabe en Craig). De p-waarde wordt vervolgens vergeleken met de vastgestelde alpha α en zo kan er worden bepaald of er een significant effect is. In SPSS kunnen de z-score en de p-waarde afwijken, omdat SPSS gebruikmaakt van de Mann-Witney benadering in plaats van de rangsombenadering.

Eventueel kan er een continuïteitscorrectie toegepast worden op de rangsomtoets. Een continuïteitscorrectie voer je uit omdat de verdeling van W discreet is en niet continu. In praktijk is niets continu gemeten, dus zou je eigenlijk altijd een continuïteitscorrectie moeten toepassen. In werkelijkheid wordt dit vaak echter alleen gedaan als er weinig schaalpunten zijn. De continuïteitscorrectie uitvoeren doe je door 0.5 van W af te halen of er juist 0.5 bij op te tellen. Als W bijvoorbeeld 16 is, dan geldt het volgende:

  • Als je wilt weten hoe groot de kans is op een W van 16 of hoger, oftewel P (W ≥ 16), dan haal je 0.5 van 16 af. Je bepaalt dan dus P (W ≥ 15.5). Dit gebruik je wanneer W groter is dan het gemiddelde van W (μW).
  • Als je wilt weten hoe groot de kans is op een W van 16 of lager, oftewel P (W ≤ 16), dan tel je 0.5 bij 16 op. Je bepaalt dan dus P (W ≤ 16.5). Dit gebruik je wanneer W kleiner is dan het gemiddelde van W (μW).
  • Bij beide manieren toets je dus eenzijdig, maar tweezijdig toetsen gaat heel gemakkelijk door éérst de continuïteitscorrectie toe te passen en vervolgens de p-waarde te vermenigvuldigen met 2.

Hypothesen bij de rangsomtoets van Wilcoxon

Omdat we bij de rangsomtoets geen gemiddelden toetsen maar gebruikmaken van rangnummers, toetsen we eigenlijk de gelijkheid van medianen. De nulhypothese en alternatieve hypothese moeten dan ook op de volgende manier geformuleerd worden:
H0: mediaan 1 = mediaan2
Ha : mediaan1 ≠ mediaan 2

De hypothesen mogen echter alleen op deze manier geformuleerd worden als beide verdelingen een identieke vorm hebben. Als dit niet het geval is moet er gebruik gemaakt worden van een volgende soort formulering:
H0: De twee verdelingen zijn gelijk.
Ha : Eén verdeling heeft waarden die systematisch hoger zijn.

De alternatieve hypothese is tweezijdig. Er wordt weliswaar een richting aangegeven, maar er wordt niet vermeld welke van de twee verdelingen systematisch hogere waarden heeft.

Knopen (ties)

Het kan zo zijn dat bepaalde waarden die je hebt gevonden meerdere keren voorkomen, bijvoorbeeld als drie proefpersonen hetzelfde cijfer hebben gehaald voor een toets. In zo’n geval spreken we van knopen of ties. Het is dan onduidelijk welk rangnummer deze waarden krijgen. De oplossing hiervoor is om deze waarden het gemiddelde rangnummer te geven van de rangen die ze bezetten. Als het cijfer 6 bijvoorbeeld drie keer voorkomt en rang 8, 9 en 10 bezet, dan krijgt elk cijfer 6 het rangnummer (8+9+10)/3 = 9. Omdat de exacte verdeling van de rangsom verandert bij knopen moet de standaarddeviatie van W aangepast worden. Statistische software doet hiervoor de nodige aanpassingen. Verder is het belangrijk dat er bij knopen nooit een continuïteitscorrectie gedaan wordt.

De Wilcoxon rangtekentoets

De rangtekentoets is de non-parametrische versie van de gepaarde t-toets, dus deze wordt gebruikt wanneer er geen normaliteit is en wanneer er tegelijkertijd sprake is van gematchte paren of herhaalde metingen (zie college 2 en 3). De rangtekentoets maakt gebruik van rangnummers van de absolute verschillen binnen de paren. Het absolute verschil wordt aangegeven met d. Een voorbeeld hiervan is het verschil tussen voor- en nameting. Bij de rangtekentoets wordt uitgegaan van W+, oftewel de som van alle rangnummers die bij een positief verschil horen. Het maakt hierbij niet uit of je de verschillen berekent van voormeting min nameting of andersom. Als de verdelingen van responsen of scores niet worden veroorzaakt door verschillen in behandeling binnen paren, dan heeft W+ het volgende gemiddelde:

\[µ_{W^+}=\frac{n(n+1)}{4}\]

In de formule is n het aantal paren. De standaarddeviatie van W+ is als volgt:

\[σ_{W^+}=\sqrt{\frac{n(n+1)(2n+1)}{24}}\]

De steekproevenverdeling van W+ kan worden benaderd met behulp van een standaardnormaalverdeling:

\[z=\frac{W^+-µ_{W^+}}{σ_{W^+}}\]

Voor de hypothesen geldt hetzelfde als voor de rangsomtoets van Wilcoxon: hypothesen worden niet in gemiddelden geformuleerd, maar in medianen of in woorden. Verder kun je evenals bij de rangsomtoets een continuïteitscorrectie toepassen, maar alleen als er geen knopen in je data zitten. Bij afhankelijke steekproeven kunnen er twee soorten knopen zijn:

  • Knopen tussen absolute verschillen. Twee proefpersonen komen bijvoorbeeld uit op hetzelfde verschil tussen de voor- en nameting. In dat geval wordt het gemiddelde genomen van de rangnummers.
  • Knopen binnen een paar. Een proefpersoon scoort bijvoorbeeld op de voor- en nameting even hoog. Het absolute verschil is dan nul. Paren waarbij dit het geval is moet je buiten beschouwing laten. Dit betekent echter wel dat de test vertekend raakt richting de alternatieve hypothese, waardoor de standaarddeviatie van W + aangepast moet worden. Statistische software doet hiervoor de nodige aanpassingen.

De Kruskall-Wallis toets

De Kruskall-Wallis toets is de non-parametrische versie voor variantieanalyse (ANOVA). Bij de Kruskall-Wallis toets worden alle data gerangschikt en op de rangnummers wordt vervolgens enkelvoudige variantieanalyse toegepast. De SSG, oftewel de kwadratensom tussen groepen, is de statistische maat van Kruskall-Wallis. Deze wordt H genoemd.

\[H=\frac{12}{N(N+1)}\sum\frac{R_i^2}{n_i}-3(N+1)\]

In deze formule staat ni voor de grootte van de i’de steekproef. Het totaal aantal observaties is N. R i is de som van de rangnummers van de i’de steekproef. Wanneer alle populaties, aangeduid met I, dezelfde continue verdeling hebben, dan heeft H bij benadering een chi-kwadraat verdeling. Deze verdeling heeft I – 1 vrijheidsgraden. De nulhypothese is dat alle populaties dezelfde verdeling hebben. Als de waarde van H groot is, dan wordt de nulhypothese verworpen. De gevonden waarde van H kan worden opgezocht in Tabel F (Introduction to the Practice of Statistics van Moore, McCabe en Craig) en vervolgens kan de bijbehorende p-waarde worden bepaald. Omdat het gaat om een chi-kwadraat verdeling, hoef je de p-waarde niet meer met 2 te vermenigvuldigen. De toets is automatisch tweezijdig. Ook voer je geen continuïteitscorrectie uit. Belangrijk om bij het gebruik van SPSS in de gaten te houden, is het feit dat SPSS niet de waarden geeft van R1, R2,…, Ri , maar van R1/n1, R2/n2,…, Ri/ni . Om de waarden van Ri te verkrijgen moeten de waarden die SPSS geeft dus nog worden vermenigvuldigd met de steekproefgrootte ni.

College 10 - Enkelvoudige lineaire regressie

Enkelvoudige lineaire regressie

Het doel van regressie is om een verband te vinden tussen een onafhankelijke variabele x en een afhankelijke variabele y. Enkelvoudige lineaire regressie heeft de volgende kenmerken:

  • De onafhankelijke variabele x en de afhankelijke variabele y zijn beide continu. Dit houdt in dat x en y alle mogelijke waarden van een continuüm kunnen aannemen.
  • Het verband tussen x en μ y wordt beschreven door een rechte lijn, de populatie-regressielijn: μy = β0 + β1x. Hierin is β0 de intercept, oftewel de waarde waar de regressielijn de y-as snijdt. β1 is de richtingscoëfficiënt en de waarde hiervan geeft aan met hoeveel eenheden y toeneemt als x toeneemt met één. We kijken dus naar hoezeer de vele gemiddelden van y (μy) veranderen als x verandert.
  • De geobserveerde waarden van y variëren rondom μ y. Deze variatie wordt weergegeven met de standaarddeviatie van de populatie (σ). De aanname bij regressieanalyse is dat deze standaarddeviatie voor alle waarden van x hetzelfde is.
  • In de praktijk moeten de waarden van β 0, β 1 en σ geschat worden uit de data, omdat de waarden ervan onbekend zijn.
  • Het enkelvoudige lineaire regressiemodel beschrijft het verband tussen de observaties yi en xi van een persoon i als volgt: yi = β0 + β1xi + εi.

De parameters van bovenstaand model zijn β0 , β1, en σ. Als x gelijk is aan xi , dan is β0 + β1xi het gemiddelde van y. Met εi wordt de error, oftewel de afwijking, van persoon i bedoeld. Er wordt verondersteld dat de afwijkingen normaal verdeeld en onafhankelijk zijn met een gemiddelde nul en standaarddeviatie σ. Het enkelvoudige lineaire regressiemodel komt overeen met het enkelvoudig ANOVA-model (DATA = FIT + RESIDU).

Schatten van regressieparameters

Het schatten van de regressielijn doe je volgens het kleinste-kwadratenprincipe. Hierbij zoek je naar de lijn waarvan de som van de gekwadrateerde afwijkingen tot die lijn minimaal is. De geschatte regressielijn heeft als formule: ŷ = b 0 + b 1x. Hierin staat ŷ dus voor de geschatte waarde van y. Voor de waarden b 0 en b 1 geldt:

\[b_0=ȳ-b_1x̄\]

en

\[b_1=r\frac{s_y}{s_x}\]

Hierin is r de correlatie tussen x en y. Als x toeneemt met waarde 1, dan neemt y gemiddeld toe met b1 eenheden. Het gaat hierbij om de gemiddelde toename, over individuen kun je niets zeggen omdat deze allemaal iets zullen afwijken van de regressielijn.

Het schatten van de residuen εi wordt gedaan met behulp van ei . De waarde van ei is gelijk aan de waarde van de geobserveerde respons min de waarde van de voorspelde respons, oftewel y i – ŷi . Dit kan weer verder worden uitgewerkt tot yi – b0 – b1xi.

De schatter voor σ2 is s2 en wordt ook wel de gemiddelde kwadratensom van de error (MSE) genoemd. De schatter voor σ is de wortel uit s2. Er geldt:

\[s^2=\frac{\sum_{i=1}^{n}e_i^2}{n-2}=\frac{\sum_{i=1}^{n}(y_i-ŷ_i)^2}{n-2}\]

Betrouwbaarheidsintervallen en significantietoets

Regressiecoëfficiënten hebben een betrouwbaarheidsinterval. Dit betrouwbaarheidsinterval is gebaseerd op de normale steekproevenverdeling van de schattingen van b0 en b1. Omdat σ onbekend is, wordt s gebruikt en gaan we uit van een t-verdeling met n –2 vrijheidsgraden.

Een C%-betrouwbaarheidsinterval voor de intercept β0 wordt berekend door:

\[b_0±t*SE_{b_0}\]

Hierin geldt: \[SE_{b_0}=s\sqrt{\frac{1}{n}+\frac{x̄^2}{\sum_{i=1}^{n}(x_i-x̄)^2}}\]

Een C%-betrouwbaarheidsinterval voor de coëfficiënt β1 wordt berekend door:

\[b_1±t*SE_{b_1}\]

Hierin geldt: \[SE_{b_1}=\frac{s}{\sqrt{\sum_{i=1}^{n}(x_i-x̄)^2}}\]

De nulhypothese dat β 1 = 0 houdt in dat y op geen enkele manier verband houdt met x. Voor het toetsen van deze nulhypothese wordt een t-verdeling gebruikt met n – 2 vrijheidsgraden. De alternatieve hypothese kan eenzijdig zijn (gevonden p-waarde niet vermenigvuldigen met 2), of tweezijdig (gevonden p-waarde wel vermenigvuldigen met 2). De t-waarde wordt berekend door:

\[t=\frac{b_1}{SE_{b_1}}\]

Betrouwbaarheidsintervallen voor de gemiddelde respons

Voor de gemiddelde respons μy kan er een C%-betrouwbaarheidsinterval worden berekend wanneer x een bepaalde waarde x* aanneemt. Je bepaalt dan tussen welke grenzen deze bepaalde x*-waarde varieert:

\[μ_y±t*SE_μ\] en

\[SE_μ=s\sqrt{\frac{1}{n}+\frac{(x*-x̄)^2}{\sum_{i=1}^{n}(x_i-x̄)^2}}\]

Het dakje op μy betekent dat het om een geschatte waarde gaat. Verder wordt ook bij dit betrouwbaarheidsinterval gebruik gemaakt van de t-verdeling met n – 2 vrijheidsgraden.

Voorspellingsintervallen voor toekomstige observaties

De voorspelde waarde van y voor een individu dat een bepaalde score x* heeft behaald, wordt als volgt in een formule weergegeven: ŷ = b0 + b1x*. Een bruikbare voorspelling bevat ook altijd een foutenmarge. Deze foutenmarge wordt ook wel het voorspellingsinterval genoemd en houdt het volgende in:

  • Je trekt een steekproef van n observaties (xi , yi ) en één extra observatie (x * , y).
  • Dit herhaal je vele keren en voor elke keer bereken je bijvoorbeeld het 95%-voorspellingsinterval.
  • De extra observatie valt in 95% van de gevallen binnen het voorspellingsinterval.

Het C%-voorspellingsinterval heeft weer een t-verdeling met n – 2 vrijheidsgraden en wordt berekend door:

\[ŷ±t*SE_ŷ\] en

\[SE_ŷ=s\sqrt{1+\frac{1}{n}+\frac{(x*-x̄)^2}{\sum_{i=1}^{n}(x_i-x̄)^2}}\]

Variantieanalyse bij enkelvoudige lineaire regressie

Variantieanalyse voor regressie is gebaseerd op het model van DATA = FIT + RESIDU. Er zijn twee bronnen van spreiding in y:

  1. Spreiding als gevolg van variatie in x.
  2. Individuele spreiding rondom de geschatte y-waarde (ŷi ), voor een vaste waarde van xi. Hieruit volgt dat  . Kwadrateren van deze factoren en sommeren over alle observaties leidt tot de volgende formule:

\[\sum_{i=1}^{n}(y_i-ȳ)^2=\sum_{i=1}^{n}(ŷ_i-ȳ)^2+\sum_{i=1}^{n}(y_i-ŷ_i)^2\]

Dit is gelijk aan SST = SSM + SSE

Bij elke kwadratensom hoort een bepaald aantal vrijheidsgraden:

  • DFM is het aantal onafhankelijke variabelen. Bij enkelvoudige regressie: DFM = 1.
  • DFE is gelijk aan N – 2
  • DFT is gelijk aan N – 1 (DFM + DFE).

Net als bij variantieanalyse kunnen nu gemiddelde kwadratensommen worden berekend:

  • MSM is de gemiddelde kwadratensom van het model (= SSM/DFM)
  • MSE is de gemiddelde kwadratensom van de error (= SSE/ DFE)

De formules die horen bij MSM en MSE worden dan:

\[MSM=\sum_{i=1}^{n}(ŷ_i-ȳ)^2/1=\sum_{i=1}^{n}(ŷ_i-ȳ)^2\]

en: \[MSE=s^2=\frac{\sum_{i=1}^{n}(y_i-ŷ)^2}{n-2}\]

De nulhypothese dat β 1 = 0 kan getoetst worden met de F-toets: F = MSM/MSE. F heeft een F-verdeling met in de teller 1 vrijheidsgraad en in de noemer n – 2 vrijheidsgraden. De alternatieve hypothese is tweezijdig: β1 ≠ 0. Bij enkelvoudige regressie geldt dat F = t². De t-toets heeft dan de voorkeur omdat je daarmee ook eenzijdig kunt toetsen.

Het percentage verklaarde variantie geeft weer welk percentage van de variantie in y kan worden verklaard door het effect van x. Dit wordt weergegeven met r 2. Bij enkelvoudige regressie is r 2 gelijk aan de gekwadrateerde correlatie tussen x en y. Verder geldt:

\[r^2=\frac{SSM}{SST}=\frac{\sum_{i=1}^{n}(ŷ_i-ȳ)^2}{\sum_{i=1}^{n}(y_i-ȳ_i)^2}\]

De correlatie van de populatie wordt weergegeven met ρ. Als ρ = 0, dan is er in de populatie geen verband tussen x en y. Om de nulhypothese ρ = 0 te toetsen (eenzijdig of tweezijdig), wordt een t-toets met n – 2 vrijheidsgraden gebruikt. De t-waarde wordt berekend door:

\[t=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}\]

en verder geldt bij enkelvoudige regressie: \[t=\frac{b_1}{SE_{b_1}}=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}\]

College 11 - Multipele regressie

Multipele regressie

Multipele regressie is de uitbreiding van enkelvoudige lineaire regressie (zie college 10) naar regressie met meerdere continue onafhankelijke variabelen. Bij enkelvoudige regressie wordt de afhankelijke variabele y voorspeld door slechts één onafhankelijke variabele x. Bij multipele regressie wordt de afhankelijke variabele y voorspeld door p onafhankelijke variabelen: x 1, x 2, …, x p . De populatieregressievergelijking is dan als volgt:

\[µ_y=β_0+β_1x_1+β_2x_2+...+β_px_p\]

Hieruit blijkt dat de gemiddelde respons (μ y) een lineaire functie is van de onafhankelijke variabelen. Het model doet de aanname dat de standaarddeviatie van de populatie (σ) gelijk is voor alle x-waarden. In een dataset (in bijvoorbeeld SPSS) worden de gegevens als volgt weergegeven: de waarden van x 1 staan onder elkaar in de eerste kolom, daarnaast staan alle waarden van x2 in een kolom en dit gaat zo verder tot en met xp . In de laatste kolom komen de waarden van de afhankelijke variabele y te staan.

Uit de populatieregressievergelijking wordt het volgende statistische model voor multipele lineaire regressie afgeleid:

\[y_i=β_0+β_1x_{i1}+β_2x_{i2}+...+β_px_{ip}+ε_i\]

In dit model staat i voor de i’de persoon. In totaal zijn er n aantal personen, dus i = 1, 2, …, n. De afwijkingen εi zijn onafhankelijk en normaal verdeeld met gemiddelde nul en standaarddeviatie σ. De modelparameters zijn β0, β1, β2 , …, βp en σ.

Schatten van multipele regressieparameters

β0, β1, β2 , …, βp worden geschat door de steekproefschattingen b0, b1, b2, …, bp . De voorspelde respons van persoon i wordt berekend door:

\[ŷ_i=b_0+b_1x_{i1}+b_2x_{i2}+...+b_px_{ip}\]

Het residu van persoon i is het verschil tussen zijn/haar geobserveerde respons en zijn/haar voorspelde respons. Dit residu geven we aan met e i . Dus: e i = geobserveerde respons – voorspelde respons =

\[y_i-ŷ_i=y_i-b_0-b_1x_{i1}-b_2x_{i2}-...-b_px_{ip}\]

Evenals bij enkelvoudige lineaire regressie wordt gebruik gemaakt van het kleinste-kwadratenprincipe. Hierbij kies je de waarden van de b’s zodanig dat de som van alle gekwadrateerde e i ’s minimaal is. Het berekenen van de b’s wordt verder niet behandeld, maar de waarde van onderstaande grootheid moet dus zo klein mogelijk zijn:

\[sum_{i=1}^{n}(y_i-b_0-b_1x_{i1}-b_2x_{i2}-...-b_px_{ip}0^2\]

De schatter voor σ 2 is net als bij enkelvoudige regressie het gemiddelde van de gekwadrateerde residuen:

\[s^2=\frac{\sum_{i=1}^{n}e_i^2}{n-p-1}=\frac{\sum_{i=1}^{n}(y_i-ŷ_i^2}{n-p-1}\]

De schatter van σ is de wortel uit s 2. Het aantal vrijheidsgraden van s 2 is de steekproefgrootte min het aantal predictoren (onafhankelijke variabelen) min 1, oftewel n – p – 1. Bij enkelvoudige regressie is het aantal vrijheidsgraden n – 2, omdat het aantal predictoren dan 1 is.

Een voorbeeld

Een docent wil het cijfer van studenten voor onderzoekspracticum 2 (OP2) voorspellen uit hun behaalde cijfers voor onderzoekspracticum 1 (OP1) en hun behaalde cijfers voor SPPS. In SPSS worden alle benodigde waarden hiervoor uitgerekend door middel van Analyze > Regression > Linear. In de uitvoer zijn de waarden van de intercept (b 0), het effect van het cijfer voor SPSS (b1) en het effect van het cijfer voor OP1 (b2) te vinden. Als voorbeeld nemen we de waarden b0 = 0.43, b1 = 0.39 en b2 = 0.52. De multipele regressievergelijking wordt dan: cijferOP2 = 0.43 + 0.39×cijferSPSS + 0.52×cijferOP1 + ei .

Deze vergelijking wordt als volgt geïnterpreteerd:

  • Intercept – Als er het cijfer nul is behaald voor zowel OP1 als SPSS, dan is het verwachte cijfer voor OP2 gelijk aan 0.43.
  • Cijfer SPSS – Als het cijfer voor SPSS met één punt toeneemt, dan neemt het cijfer voor OP2 gemiddeld met 0.39 punten toe. Hierbij wordt het cijfer van OP1 constant gehouden.
  • Cijfer OP1 – Als het cijfer voor OP1 met één punt toeneemt, dan neemt het cijfer voor OP2 gemiddeld met 0.52 punten toe. Hierbij wordt het cijfer van SPSS constant gehouden.

Bij de interpretatie met betrekking tot de onafhankelijke variabelen zijn dus drie aspecten belangrijk:

  • Er moet worden vermeld hoeveel de waarde van de afhankelijke variabele verandert als de onafhankelijke variabele met één punt toeneemt.
  • Het moet duidelijk zijn dat het om een gemiddelde verandering (toename of afname) gaat.
  • Er moet vermeld worden dat dit geldt onder constanthouding van alle overige onafhankelijke variabelen.

Betrouwbaarheidsinterval en significantietoets

Een coëfficiënt β j heeft een betrouwbaarheidsinterval. Dit C%-betrouwbaarheidsinterval wordt berekend door:

\[b_j±t*SE_{b_j}\]

SEbj is de standaard error van bj en t* is de waarde van een t-verdeling met n – p – 1 vrijheidsgraden waarvoor geldt dat de oppervlakte tussen –t* en t* C% is. De nulhypothese is β j = 0. Voor het toetsen van deze nulhypothese wordt ook weer een t-verdeling gebruikt met n – p – 1 vrijheidsgraden. De alternatieve hypothese kan eenzijdig zijn (gevonden p-waarde niet vermenigvuldigen met 2), of tweezijdig (gevonden p-waarde wel vermenigvuldigen met 2). De t-waarde wordt berekend door:

\[t=\frac{b_j}{SE_{b_j}}\]

Evenals bij enkelvoudige regressie bestaan er bij multipele regressie ook voorspellingsintervallen en een betrouwbaarheidsinterval voor de gemiddelde respons. Het idee daarbij is hetzelfde als bij enkelvoudige regressie, maar details worden hier niet verder besproken.

ANOVA voor multipele regressie

Bij enkelvoudige regressie toetst de F-toets hetzelfde als de tweezijdige t-toets, namelijk dat de richtingscoëfficiënt β 1 gelijk is aan nul (nulhypothese). Bij multipele regressie toetst de F-toets de hypothese dat alle regressiecoëfficiënten gelijk zijn aan nul.

Bij multipele regressie geldt net als bij enkelvoudige regressie dat SST = SSM + SSE (de totale kwadratensom = de kwadratensom van het model + de kwadratensom van de error).

\[SST=\sum_{i=1}^{n}(y_i-ȳ)^2\]

\[SSM=\sum_{i=1}^{n}(ŷ_i-ȳ)^2\]

\[SSE=\sum_{i=1}^{n}(y_i-ŷ_i)^2\]

Bij elke kwadratensom hoort een bepaald aantal vrijheidsgraden:

  • DFM is het aantal predictoren (onafhankelijke variabelen), oftewel DFM = p.
  • DFE is gelijk aan n – p – 1.
  • DFT is gelijk aan n – 1 (DFM + DFE).

De gemiddelde kwadratensommen worden berekend door:

  • MSM = SSM/DFM
  • MSE = SSE/ DFE

De F-waarde wordt gevonden door F = MSM/MSE. Deze waarde geeft aan of alle regressiecoëfficiënten gelijk zijn aan nul. De intercept wordt niet meegenomen in de toetsing. De hypothesen worden op de volgende manier opgeschreven:
H0: β 1 = β 2 = … = β p = 0
Ha : Tenminste één β j is ongelijk aan 0

Als je wilt weten welke β j ongelijk is aan 0, dan kijk je in de uitvoer van SPSS bij de significantieniveaus van de t-waarden uit de tabel voor coëfficiënten. Bij een significant effect mag je concluderen dat β j afwijkt van 0. Er is dan een effect van de onafhankelijke op de afhankelijke variabele.

Het percentage verklaarde variantie (R2) geeft aan welk percentage van de variantie verklaard wordt door het model en welk percentage verklaard wordt door de error. Bij enkelvoudige regressie geeft R 2 aan in hoeverre de geobserveerde waarden op de regressielijn liggen. Bij multipele regressie geeft R2 aan hoe goed de predictoren de waarden van y voorspellen. R2 = SSM/SST. Wanneer R2 gelijk is aan 1, dan worden de y-waarden perfect voorspeld door de predictoren en is er geen error.

In SPSS worden ook gestandaardiseerde gewichten (coëfficiënten) gegeven. Deze worden net als populatiegewichten weergegeven met β, maar de betekenis is anders. Een gestandaardiseerd gewicht is namelijk het regressiegewicht dat je zou krijgen wanneer je de regressie zou uitvoeren met gestandaardiseerde scores. De β’s die terug te zien zijn in artikelen zijn altijd gestandaardiseerde gewichten, nooit populatiewaarden. De interpretatie van gestandaardiseerde gewichten is als volgt: als een bepaalde onafhankelijke variabele met één standaarddeviatie toeneemt, dan neemt de waarde van de afhankelijke variabele met gemiddeld x standaarddeviaties toe, onder constanthouding van de overige onafhankelijke variabelen. Bijvoorbeeld: als het cijfer voor OP1 met één standaarddeviatie toeneemt, dan neemt het cijfer van OP2 met gemiddeld 0.53 standaarddeviaties toe, onder constanthouding van de rest.

College 12 - Artikelcollege

Algemene informatie over artikelen

Elke artikel heeft een bepaalde structuur. Bij wetenschappelijke artikelen bestaat de inhoud uit vier delen: inleiding, methode, resultaten en discussie.

In de inleiding komen de volgende onderdelen aan bod:

  • Er wordt een theoretisch kader geschetst aan de hand van relevante literatuur. In de tekst worden daarbij correcte literatuurverwijzingen gegeven.
  • Het onderzoeksdoel of de onderzoeksvragen worden vermeld. Daarbij wordt aan de hand van het theoretisch kader uitgelegd wat het belang is van het onderzoek.
  • De opzet van de rest van het artikel wordt besproken.

Bij het onderdeel ‘methoden’ komen de volgende onderdelen aan bod:

  • De steekproef wordt volledig besproken aan de hand van steekproefgrootte, representativiteit en methode van steekproeftrekking.
  • De procedure van het onderzoek, dus de opzet en dataverzameling, wordt uitgelegd.
  • Meetinstrumenten worden besproken.
  • Er wordt uitleg gegeven over analysemethoden.

Onder het kopje ‘resultaten’ worden de resultaten besproken die uit de analyses zijn gebleken. Hierbij kunnen enkele kritische vragen worden gesteld:

  • Geven de resultaten antwoord op de onderzoeksvraag?
  • Zijn de analyses juist uitgevoerd?
  • Zijn de resultaten helder en duidelijk geformuleerd?
  • Zijn er verrassende resultaten?
  • Wat zijn de significantieniveaus en effectgroottes en wat zijn de inhoudelijke conclusies die hieruit getrokken kunnen worden?

Bij het onderdeel ‘discussie’ komen de volgende onderdelen aan bod:

  • Er wordt een samenvatting gegeven van alle conclusies.
  • Er wordt een terugkoppeling gemaakt naar de literatuur.
  • Beperkingen van het onderzoek worden besproken en suggesties voor vervolgonderzoek worden gedaan.

Bespreking van ‘oorlogsspeelgoed en agressie bij kleuters’

Het onderzoek ‘oorlogsspeelgoed en agressie bij kleuters’ werd uitgevoerd door Hellendoorn en Harinck (1995)*. Dit artikel wordt nu besproken aan de hand van alle onderdelen die hierboven genoemd zijn.

Inleiding

De onderzoeksvraag luidt: Is er samenhang tussen spelen met oorlogsspeelgoed en agressie bij 4- tot 7-jarige kinderen? Later in de inleiding volgt er nog een specificatie: ook de relatie tussen ouderattitude, gezinsachtergrond en spelgedrag wordt onderzocht.

Er wordt een theoretisch kader gegeven en aan de hand daarvan wordt besproken wat de relevantie van het onderzoek is. Er is nog weinig onderzoek naar het onderwerp gedaan, in de literatuur zijn tegenstrijdige bevindingen gevonden en de effecten die er zijn gevonden, zijn klein. Verder worden er kanttekeningen geplaatst bij de definitie van ‘agressie’: niet in elk onderzoek wordt dezelfde definitie gehanteerd. Ook de mogelijke invloeden van eventuele derde variabelen, zoals persoonlijkheid en sociale situatie, worden besproken.

Enkele voorbeeldvragen en –antwoorden:

  • Om wat voor type onderzoek gaat het hier?

Antwoord: het gaat hier om een relationeel onderzoek. De relatie tussen verschillende factoren wordt onderzocht en hierbij wordt geen onafhankelijke variabele gemanipuleerd, dus we mogen niet spreken van een experiment.

  • Wat is de consequentie van dit type onderzoek?

Antwoord: omdat het geen experiment is, mag er geen causaal verband worden vastgesteld.

  • Houdt de onderzoeker volgens jou rekening met de consequentie?

Antwoord: nee, want in het artikel wordt er soms een conclusie getrokken waarin een oorzaak-gevolgrelatie wordt gesuggereerd.

Methode

Er is aan 168 kinderen gevraagd om mee te doen met het onderzoek. Van deze kinderen deden er uiteindelijk 57 mee. De kinderen waren afkomstig van drie middelgrote, niet-confessionele basisscholen in de Randstad met een gemiddelde populatie. De scholen en deelnemers waren geïnteresseerd in het onderwerp.

Enkele voorbeeldvragen en – antwoorden:

  • Om wat voor type steekproef gaat het?

Antwoord: uit het artikel blijkt dat de scholen meededen op basis van vrijwillige participatie. We spreken dan van een voluntary respons sample (een steekproef op basis van vrijwillige respons).

  • Wat zijn de consequenties van dit type steekproef?

Antwoord: de resultaten zullen beperkt generaliseerbaar zijn, omdat de steekproef niet representatief is voor de gehele populatie. Alleen personen die geïnteresseerd waren in het onderwerp werkten mee.

Voor het onderzoek zijn meerdere meetinstrumenten gebruikt. Ouders vulden vragenlijsten in en bij de leerkrachten werd een semigestructureerd interview afgenomen. Verder vulden zowel ouders als leerkrachten een vragenlijst in over agressie van het kind in het dagelijks leven. Kinderen werden geobserveerd in een spelsituatie. Daarbij werd gekeken naar het gebruikte spelmateriaal, de betrokkenheid in het spel, het fantasieniveau en agressie-gerelateerd gedrag. Ook werd er een interview gehouden met de kinderen.

De procedure bij de observatie van de kinderen was als volgt: er werd een spelsituatie gecreëerd in school. De kinderen mochten vrij spelen en konden daarbij kiezen uit dertig soorten speelgoed. Ongeveer de helft van het speelgoed was oorlogsspeelgoed, de andere helft was neutraal speelgoed. Kinderen speelden in groepjes van drie en bij elk groepje waren er twee observatoren die het gedrag van de kinderen scoorden.

Resultaten

Bij de ouders werden voor- en tegenstanders van oorlogsspeelgoed met elkaar vergeleken door middel van t-toetsen. Bij de kinderen werden verschillen tussen jongens en meisjes gemeten in percentages. Meningen van leerkrachten en directeuren werden beschrijvend weergegeven. Spelgedragingen van de kinderen werden zowel beschrijvend als met percentages en frequenties weergegeven. Om het verband tussen spelgedrag en andere variabelen te bepalen, werden correlaties berekend.

Enkele voorbeeldvragen en – antwoorden:

  • Voer een geschikte parametrische toets uit om erachter te komen of ouders van jongens significant verschillen van de ouders van meisjes wat betreft hun mening over een bepaalde stelling.

Antwoord: er zijn twee groepen die vergeleken worden, dus de t-toets wordt gebruikt. Of er gelijkheid van varianties is kan bepaald woorden door de F-toets of door de vuistregel voor gelijkheid van varianties. Als er gelijkheid van varianties is, wordt de samengestelde t-toets gebruikt. Ga na of er aan de voorwaarden voor de t-toets is voldaan, bereken de t-waarde en bepaal het aantal vrijheidsgraden en de p-waarde. Toets in dit geval tweezijdig en trek je conclusie. In de conclusie wordt altijd een richting van het effect aangegeven.

  • Voor meisjes en jongens zijn de gemiddelde rangen gegeven. Voer een niet-parametrische toets uit en evalueer het resultaat.

Antwoord: de juiste toets is de Wilcoxon rangsomtoets. Gegeven zijn de gemiddelde rangen. Om de rangsommen te berekenen moeten de gemiddelde rangen worden vermenigvuldigd met de steekproefgroottes. Vervolgens moeten µW en σW worden berekend, zodat de z-waarde berekend kan worden. Daarna kan de p-waarde worden bepaald en kan er een conclusie getrokken worden. De evaluatie bestaat uit een vergelijking tussen de parametrische toets en de Wilcoxon rangsomtoets. Doorgaans worden dan dezelfde resultaten gevonden.

Bovenstaande antwoorden zijn zeer beknopt, maar laten wel de procedure zien die gevolgd moet worden om de toetsen uit te voeren. Naast berekeningen kunnen er ook inhoudelijke vragen aan bod komen:

  • De onderzoekers voeren t-toetsen uit op de meningen van ouders. Vind je die aanpak geschikt? Waarom (niet)?

Antwoord: de mening van ouders wordt gemeten met een 5-puntsschaal (1 = helemaal niet mee eens, 5 = helemaal mee eens). ‘Mening’ is een categorische variabele. Het gebruik van de t-toets is daarom geen geschikte aanpak.

  • De onderzoekers berekenen correlaties tussen agressief gedrag en allerlei andere variabelen (bijvoorbeeld sekse en leeftijd). Is dit gerechtvaardigd?

Antwoord: nee, want niet alle variabelen zijn numeriek. Correlaties bereken je altijd tussen twee numerieke variabelen.

  • De onderzoekers voeren heel veel toetsen uit op dezelfde dataset. Welke consequenties heeft dit voor typ1- of type 2-fouten?

Antwoord: hoe meer toetsen er uitgevoerd worden, hoe groter de kans is dat er een significant effect wordt gevonden op basis van toeval. De kans op een type 1-fout neemt toe (de nulhypothese wordt onterecht verworpen).

Conclusie en discussie

Uit het onderzoek van Hellendoorn en Harinck (1995) bleek dat de (positieve) houding van ouders ten opzichte van oorlogsspeelgoed samenhing met de hoeveelheid oorlogsspeelgoed in huis en het geven van toestemming voor het onderzoek. De leerkrachten hadden vooral een negatieve houding ten opzichte van oorlogsspeelgoed. Bij kinderen was het oorlogsspeelgoed populair. De ‘agressie’ die de kinderen tijdens het spel toonden bestond vooral uit stoeien en fantasie-agressie. Echte agressie kwam nauwelijks voor. Agressie hing niet samen met agressie van het kind in het dagelijks leven. Wel was er een sekse-effect en had de sociale context een belangrijke invloed. Agressie-gerelateerd gedrag hing ook samen met de aard van het (oorlogs)speelgoed. In dit onderzoek werden de reacties van kinderen op het speelgoed op korte termijn bepaald. Effecten op de lange termijn zijn echter nog onduidelijk. Een andere beperking van het onderzoek is dat ouders mogelijk sociaal wenselijk geantwoord hebben op de vragen van de vragenlijst. Verder is de procedure niet blind uitgevoerd: de observatoren kenden het doel van het onderzoek.

De hoofdconclusie van het onderzoek luidt: oorlogsspeelgoed lokt geen agressie uit. Een voorbeeldvraag zou kunnen zijn:

  • Is de hoofdconclusie correct?

Antwoord: nee, want er wordt een causaal verband gesuggereerd terwijl het om een relationeel onderzoek ging.

* Referentie: Hellendoorn, J. & Harinck, F. J. H. (1995). Oorlogsspeelgoed en agressie bij kleuters. Kind en Adolescent, 16(4), 228 – 243. 

College 13 - Oefententamen

Door Gevers Deynoot-Schaub en Riksen-Walraven (2002)* is onderzoek gedaan naar de kwaliteit van opvang in Nederlandse kinderdagverblijven. Hierbij zijn resultaten uit 1995 en
2001 met elkaar vergeleken en is er gekeken naar de samenhang tussen kwaliteit van kinderopvang en andere variabelen. Er volgt nu een oefententamen (vragen en antwoorden op de vragen) met betrekking tot dit artikel.

Vragen

Vraag 1 (3 punten)

Is er in het artikel sprake van een experimenteel, een quasi-experimenteel, een correlationeel of een descriptief onderzoek? Geef beargumenteerd aan waarom wel/niet.

Vraag 2 (3 punten)

Geef voor elk van de volgende drie variabelen aan met welke parametrische toets de relatie met kwaliteit zou moeten worden onderzocht. We gaan ervan uit dat kwaliteit als numerieke variabele is gemeten. Geef ook steeds de nulhypothese.

  1. De relatie ‘kwaliteit van de opvang’ en ‘opleidingsniveau van de leidster’ (gemeten in drie categorieën: mbo-niveau, hbo-niveau en overig).
  2. De relatie ‘kwaliteit van de opvang’ en ‘groepsgrootte’ (het grootste aantal in de groep aanwezige kinderen tijdens de observatieperiode).
  3. De relatie ‘kwaliteit van de opvang’ en ‘leidster/kind ratio’ (het aantal leidsters gedeeld door het aantal kinderen).

Vraag 3 (2 punten)

Op pagina 111 staat dat er sprake van 17% non-respons bij de kinderdagverblijven. Noem twee mogelijke relevante gevolgen van de non-respons van dit onderzoek.

Vraag 4 (3 punten)

Op pagina 112 en 113 wordt beschreven hoe de kwaliteitsmetingen zijn gedaan. Noem drie manieren waarop de onderzoekers hebben geprobeerd om de betrouwbaarheid van de
metingen te verhogen.

Vraag 5 (13 punten)

Voer een geschikte toets uit om de vraag te beantwoorden of de gemiddelde kwaliteit van de kinderdagverblijven in Nederland in 1995 volgens het onderzoek van Van IJzendoorn et al. uit 1996 (M = 4.8, St.Dev. = 0.61) anders is dan de kwaliteit in hetzelfde jaar in Portugal volgens het onderzoek van Tietze et al. (M = 4.4, St.Dev. = 0.63). M is het symbool voor het steekproefgemiddelde. Gebruik de bijbehorende gegevens van Tabel 2 op pagina 115. Volg bij de toetsing op de gemiddelden het toetsingsschema. Controleer daarbij op de voorwaarden voor de toets, maar voer een parametrische toets uit, ook als niet aan de voorwaarden is voldaan.

Vraag 6 (10 punten)

De gegevens van Figuur 1 op pagina 119 zijn zodanig bewerkt dat we twee groepen kinderdagverblijven onderscheiden wat betreft bestaansduur: 10 jaar en jonger en ouder dan 10 jaar. Daarnaast is er een onderscheid tussen particuliere en gesubsidieerde kinderdagverblijven. Met deze twee kenmerken als factoren en kwaliteit als afhankelijke variabele is een tweeweg variantieanalyse uitgevoerd. Maak twee duidelijke en volledige interactieplaatjes.

Vraag 7 (6 punten)

In een andere analyse wordt onderzocht of er een verschil is in kwaliteit tussen de kinderdagverblijven tot 6/7 jaar oud (n = 19 en mean rank = 16.89), van 6/7 tot 15 jaar oud (n = 22 en mean rank = 32.57) en van 15 jaar en ouder (n = 10 en mean rank = 28.85). Er wordt echter getwijfeld aan de voorwaarden voor een parametrische toets. Daarom wordt besloten het verschil in kwaliteit te toetsen door middel van een non-parametrische toets. Voer de toets uit, maar geef alleen de nulhypothese en alternatieve hypothese, de berekeningen en de toetsingsuitslag.

Antwoordinidicatie

Vraag 1 (3 punten)

In het artikel is:

  • sprake van een relationeel onderzoek, want er wordt naar relaties gekeken tussen variabelen. Hierbij wordt niet getracht om proefpersonen aselect toe te wijzen of variabelen te manipuleren.
  • geen sprake van een experimenteel onderzoek, want er is geen manipulatie van een onafhankelijke variabele.
  • geen sprake van een quasi-experimenteel onderzoek, want het doel is niet om een causale relatie (oorzaak-gevolg) vast te stellen.
  • geen sprake van een descriptief onderzoek, want het doel is niet om een fenomeen alleen maar te beschrijven; er wordt bewust gezocht naar relaties. Het onderzoek bevat wel een beschrijvend aspect, maar dit betekent niet dat het hele onderzoek als descriptief geclassificeerd kan worden.

Vraag 2 (3 punten)

  1. Toets: eenweg ANOVA; Nulhypothese: μmbo = μhbo = μoverig
  2. Toets: correlatie; Nulhypothese: ρ = 0, oftewel de populatiecorrelatie tussen ‘kwaliteit van de opvang’ en ‘groepsgrootte’ is gelijk aan nul.
  3. Toets: correlatie; Nulhypothese: ρ = 0, oftewel de populatiecorrelatie tussen ‘kwaliteit van de opvang’ en ‘leidster/kind ratio’ is gelijk aan nul.

Vraag 3 (2 punten)

  1. De steekproef wordt door non-respons kleiner, dus de onderzoekers kunnen minder data verzamelen. Doordat de steekproef kleiner is, wordt het mogelijk moeilijker om significante effecten te vinden. De power wordt dus kleiner.
  2. Er kan sprake zijn van selectieve uitval. Dit houdt in dat alleen een groep met een bepaald kenmerk uitvalt, bijvoorbeeld alleen de kwalitatief slechte dagverblijven. Dit heeft invloed op de representativiteit van de steekproef, wat leidt tot systematische vertekening van de resultaten.

Vraag 4 (3 punten)

  1. De observatoren volgden een intensieve training.
  2. Er werd gebruik gemaakt van gestandaardiseerde meetinstrumenten.
  3. Er zijn meerdere schalen gebruikt om hetzelfde te meten.

Ook goede antwoorden zijn:

  • Er werd gebruik gemaakt van een homogene groep: alle kinderen waren 15 maanden oud.
  • Er werd vooraf een pilot studie gedaan (een klein onderzoek vooraf om vast te stellen of alles op de juiste manier werkt).

Vraag 5 (13 punten)

1. Onderzoeksvraag: Was de gemiddelde kwaliteit van de kinderdagverblijven in Nederland in 1995 gelijk aan de kwaliteit van de kinderdagverblijven in Portugal in 1995?

2. Aannamen:

  • De steekproeven zijn onafhankelijk van elkaar getrokken.
  • Er is niets bekend over normaliteit, maar in de vraag staat dat er een parametrische toets uitgevoerd moet worden.
  • De grootste standaarddeviatie is kleiner dan twee keer de kleinste standaarddeviatie. Dit betekent dat er gelijke populatievarianties zijn.

3. Hypothesen:

  • H0: μNederland = μPortugal
  • Ha: μNederland ≠ μPortugal

4. Toets: Er is sprake van één predictor (het land) met twee niveaus (Nederland of Portugal). Er zijn twee onafhankelijke groepen en de aanname van normaliteit wordt gedaan, want er moet een parametrische toets worden uitgevoerd. Varianties zijn gelijk, dus de toets die gebruikt wordt, is de samengestelde t-toets. Voor de alpha α wordt de waarde 0.05 gebruikt.

5. Berekening:

\[s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}=\frac{(43-1)0.61^2+(88-1)0.63^2}{43+88-2}=0.39\], dus \[s_p=\sqrt0.39=0.62\]

 

\[t=\frac{(x̄_1-x̄_2)-(µ_1-µ_2)}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}=\frac{(4.8-4.4)-0}{0.62\sqrt{\frac{1}{43}+\frac{1}{88}}}=0.347\]

6. P-waarde: de bijbehorende p-waarde moet worden opgezocht in Tabel D van Moore, McCabe en Craig bij (n1 – 1) + (n2 – 1) = (43 – 1) + (88 – 1) = 129 vrijheidsgraden. Hieruit volgt p < 0.0005. Tweezijdig toetsen, dus p vermenigvuldigen met 2, leidt tot: p < 0.001.

7. Beslissing: p < α, want 0.001 < 0.05, dus de nulhypothese wordt verworpen.

8. Effectgrootte: \[d=\frac{|x̄_1-x̄_2|}{s_p}=\frac{4.8-4.4}{0.62}=0.65\]

Er is sprake van een gemiddeld effect.

9. Conclusie: In 1995 was er een verschil in kwaliteit tussen Nederlandse en Portugese kinderdagverblijven. De kwaliteit van Nederlandse kinderdagverblijven was gemiddeld beter dan de kwaliteit van Portugese kinderdagverblijven.

Vraag 6 (10 punten)

In het eerste interactieplaatje komt op de x-as de bestaansduur te staan (<10 en >10). Op de y-as komen de scores te staan die de kwaliteit van de dagverblijven aangeven. Vervolgens wordt voor zowel ‘gesubsidieerd’ als ‘particulier’ de grafiek in het plaatje getekend.

In het tweede interactieplaatje komt op de x-as het soort dagverblijf te staan (gesubsidieerd en particulier). Op de y-as komen de scores te staan die de kwaliteit van de dagverblijven aangeven. Vervolgens wordt voor zowel ‘< 10 jaar’ als ‘> 10 jaar’ de grafiek in het plaatje getekend.

Bespreking van hoofd- en interactie-effecten (aflezen uit de uitvoer van de variantieanalyse):

  • Er is sprake van één hoofdeffect, want er is een significant effect gevonden voor ‘soort’ (Sig. 0.000). Het bestaan van het hoofdeffect betekent dat er een kwaliteitsverschil is tussen gesubsidieerde en particuliere opvang. Gesubsidieerde opvang is gemiddeld van betere kwaliteit dan particuliere opvang.
  • Er is geen sprake van een interactie-effect, want er is geen significant effect gevonden voor ‘soort * leeftijd’ (Sig. 0.534). Dit betekent inhoudelijk dat het verschil tussen kwaliteit van gesubsidieerde en particuliere kinderdagverblijven steeds hetzelfde is, ongeacht de bestaansduur.

Vraag 7 (6 punten)

Nulhypothese en alternatieve hypothese:

  • H0: De verdelingen van de kwaliteitsscores zijn gelijk voor de jonge, middeloude en oude dagverblijven. Er zijn geen systematische verschillen in kwaliteit.
  • Ha: De verdelingen van de kwaliteitsscores voor jonge, middeloude en oude dagverblijven zijn niet allemaal gelijk.

Berekeningen:

De toets die wordt gebruikt is de Kruskall-Wallis toets. De gemiddelde rangen zijn gegeven, dus om de rangsommen te verkrijgen moeten de gemiddelde rangen vermenigvuldigd worden met de steekproefgroottes.

  • Rangsom eerste steekproef: 16.89 * 19 = 320.91
  • Rangsom tweede steekproef: 32.57 * 22 = 716.54
  • Rangsom derde steekproef: 28.85 * 10 = 288.50

\[H=\frac{12}{N(N+1)}\sum\frac{R_i^2}{n_i}-3(N+1)=\frac{12}{51(51+1)}(\frac{320.91^2}{19}+\frac{716.54^2}{22}+\frac{288.50^2}{10})-3(51+1)=11.79\]

Toetsingsuitslag:

Het aantal vrijheidsgraden is I – 1 = 3 – 1 = 2 (I is het aantal populaties). Bij een H-waarde van 11.79 en bij df = 2 ligt de p-waarde tussen 0.005 en 0.0025. De toets is automatisch tweezijdig, dus deze waarden hoeven niet met twee vermenigvuldigd te worden. Bij een alpha van 0.05 geldt p < α, dus de nulhypothese wordt verworpen. De verdelingen van de kwaliteitsscores voor jonge, middeloude en oude dagverblijven zijn niet allemaal gelijk.

* Referentie: Gevers Deynoot-Schaub, M. & Riksen-Walraven, M. (2002). Kwaliteit onder druk: De kwaliteit van opvang in Nederlandse dagverblijven in 1995 en 2001. Pedagogiek, 2, 109-124.

Bron

Deze aantekeningen zijn gebaseerd op colleges uit 2015/2016

Image

Access: 
Public

Image

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Check the related and most recent topics and summaries:
Activities abroad, study fields and working areas:

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Follow the author: Social Science Supporter
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
940