Hoe werkt de analyse van variantie (ANOVA)?

Analyse van variantie (ANOVA) is een manier om hypothesen te testen. Door middel van ANOVA wordt er gekeken naar het verschil in gemiddelden tussen twee of meer groepen. ANOVA heeft een groot voordeel boven de traditionele t-test. T-testen kunnen namelijk alleen gedaan worden als er twee behandelingen vergeleken moeten worden. Met ANOVA kunnen er meer dan twee behandelingen met elkaar vergeleken worden. Bij ANOVA wordt een onafhankelijke variabele of een quasi-onafhankelijke variabele (bijvoorbeeld sekse) een factor genoemd. De individuele groepen of behandelingscondities die deel uitmaken van een factor worden niveaus (levels) van de factor genoemd.

Het voordeel van ANOVA boven t-toetsen is dat de kans op een type I-fout gelijk blijft bij het gebruik van meerdere hypothesen. Normaal gesproken is er voor iedere individuele vergelijking een risico op een type I-fout zo groot als het geselecteerde alfaniveau (meestal 5%). Bij meerdere condities zijn er verschillende hypothesetoetsen nodig om ze allemaal te vergelijken, en voor elke hypothesetoets is er de kans op een type I-fout. Deze stapelen op tot een groter risico voor het totale experiment dan het alfaniveau van een enkele hypothesetoets. Het voordeel van ANOVA is dat alle vergelijkingen die nodig zijn om de verschillende hypothesen van één experiment te toetsen, in één keer uitgevoerd worden. Hierdoor blijft de alfawaarde op de geselecteerde waarde (meestal 0.05).

One-way anova
ANOVA
De F-ratio
Belangrijke symbolen
Rekenen met ANOVA

One-way anova

De one-way anova is een variantieanalyse wanneer er slechts één onafhankelijke variabele onderzocht wordt. Dit is bijvoorbeeld het geval wanneer er een therapie tegen depressie wordt aangeboden waarbij drie verschillende condities, dus levels, aanwezig zijn. Het structurele model van de variantieanalyse is als volgt: X = μ + τ_j + ε_ij.τ_j staat voor het verschil tussen het groepsgemiddelde en het grote gemiddelde. ε_ij geeft het verschil tussen de individuele score en het groepsgemiddelde weer.

Assumpties ANOVA

Om te kunnen beginnen met de ANOVA, moet eerst aan drie assumpties worden voldaan:

Homogeniteit van varianties (homoscedasticiteit): elke groep die in het onderzoek wordt gebruikt moet dezelfde variantie hebben. Met levene’s test voor gelijke varianties kan je dit controleren. De F-test is robuust voor deze aanname als de grootste groep en de kleinste groep niet meer dan factor 1,5 van elkaar verschillen.
Normale verdeling van de error: De tweede aanname is dat bij elke conditie of steekproefgroep de scores normaal verdeeld zijn. Omdat afwijking van het gemiddelde ook wel error wordt genoemd, heet deze voorwaarde ook weleens ‘de normale verdeling van error’. De F-test is robuust voor niet-normaliteit als n groter dan of gelijk is aan 15 in elke groep.
Onafhankelijke scores: De derde aanname is dat de observaties of scores onafhankelijk zijn van elkaar. Dit wil zeggen dat als we één observatie weten, dat dit niets zegt over een andere observatie. Dit kan misgaan wanneer de proefpersonen niet random worden toegewezen aan een groep.

De ANOVA is over het algemeen een zeer robuuste test. Dit betekent dat de voorwaarden tot op zekere hoogte geschonden kunnen worden, zonder dat dit grote gevolgen heeft voor de test. Als de populaties redelijk symmetrisch verdeeld zijn, en als de grootste variantie niet meer dan vier keer zo groot is als de kleinste, is de ANOVA nog valide. Als de steekproefgroottes erg veel verschillen is de test minder robuust tegen heterogeniteit van varianties.

Hypothesen bij ANOVA

Stel je voor dat je drie condities onderzoekt, dan is de nulhypothese µ₁=µ₂= µ_3.Dit betekent dus dat het gemiddelde van alle condities hetzelfde is. De alternatieve hypothese is dat ten minste twee populatiegemiddelde van elkaar verschillen. De alternatieve hypothese kun je ook specifieker maken: µ₁≠µ₂ ≠ µ_3. Dit betekent dat alle gemiddelden van elkaar verschillen. Bij ANOVA wordt de t-statistiek een F-ratio genoemd; F= variantie tussen steekproefgemiddelden/ variantie verwacht op basis van toevalsverschijnselen (dus wanneer de behandeling geen effect heeft). De F-ratio wordt dus berekend middels gegevens over variantie en niet op basis van verschillen in steekproefgemiddelden. Een gevonden F-waarde is hetzelfde als het kwadraat van een gevonden t (F=t²). Als een onderzoeker bijvoorbeeld een t-test met twee onafhankelijke steekproeven uitvoert, kan daar een verschil van gemiddelden uitvloeien. Hij vindt bijvoorbeeld een t-waarde van 2.00. Als de onderzoeker gebruik had gemaakt van ANOVA, zou de F-waarde 4.00 zijn.

ANOVA

Stel je voor: je hebt drie steekproeven. De eerste stap is om de totale spreiding in de gehele dataset te bepalen. Dit kan gedaan worden door alle scores van de steekproeven te combineren. Vervolgens moet de totale spreiding opgedeeld worden in delen. De totale variabiliteit kan opgedeeld worden in (1) tussengroepsvariantie en (2) binnengroepsvariantie. Van tussengroepsvariantie is sprake als een groep duidelijk systematisch hoger of lager scoort dan de andere groep(en). Binnen-groepsvariantie houdt in dat er spreiding is binnen elke groep.
Het doel van ANOVA is uitvinden of verschillen tussen condities wel of geen toevalsverschijnselen zijn. Als er sprake is van een toevalsverschijnsel is er geen effect. In dat geval verschillen de scores alleen omdat elke sample bestaat uit verschillende individuen. Als er wel een effect is zijn de verschillen tussen de groepen groter dan wat er verwacht zou worden op basis van toeval.

De F-ratio

Nadat de totale variabiliteit is opgedeeld in twee onderdelen (tussen- en binnengroepsvariantie) moeten deze onderdelen met elkaar vergeleken worden. Dit wordt gedaan door middel van de F-ratio. Voor een ANOVA met onafhankelijke steekproeven wordt de F-ratio als volgt gevonden: variantie tussen condities/variantie binnen condities. Wanneer er geen effect is, zijn de verschillen tussen de behandelingen alleen het gevolg van toeval. In dat geval is de F-ratio 1, dan is er dus geen effect. Een grote F-ratio zegt dat verschillen tussen condities groter zijn dan verwacht zou worden door toeval alleen. Bij ANOVA wordt de teller van de F-ratio de error term genoemd. De error term geeft een beeld van de variantie als gevolg van toeval.

Belangrijke symbolen

De letter k geeft het aantal condities (het aantal niveaus van de factor) weer.
Het aantal scores in elke conditie wordt aangeduid met de letter n. Het totale aantal scores in het gehele onderzoek wordt aangeduid met hoofdletter N.
Het totaal (ΣX) voor elke conditie wordt aangeduid met de letter T.

Rekenen met ANOVA

Het is belangrijk dat je kunt rekenen met de ANOVA en dat je begrijpt hoe de logica erachter werkt. Eerst worden de formules toegelicht.

SSB = Sum of Squares Between

$SSW = \sum^a_{i=1}n_i(\bar{y}_i-\bar{y})^2$

Het aantal mensen van één groep maal het gekwadrateerde verschil tussen het groepsgemiddelde en het totaalgemiddelde. En dat optellen voor elke groep.

SSW = Sum of Squares Within

$SSW = \sum^a_{i=1}(n_i-1)S^2_i$

Het aantal mensen van een groep -1 maal de variantie van die groep, en dat tel je op voor elke groep.

$SSW = (n-1)S^2$

SST = Sum of Squares Total

Het totaal aantal mensen van het onderzoek -1 keer de totale variantie.

SSB + SSW = SST

Vrijheidsgraden bij ANOVA

Elke vrijheidsgraad is gerelateerd aan een specifieke SS-waarde.

Het aantal vrijheidsgraden voor het totaal (df_total) wordt gevonden door het aantal scores (van alle condities samen) bij elkaar op te delen en daar één van af te trekken (df_total=N-1).
Vervolgens moeten de vrijheidsgraden voor de binnengroepsvariantie gevonden worden (df_within). Deze kan als volgt gevonden worden: (df_within)=Σ(n-1) = Σdf_{in each treatment}. Daarnaast kan df_within ook verkregen worden door N-k.
Tot slot zijn er de vrijheidsgraden die horen bij de tussengroepsvariantie (df_between). Om deze te vinden moet van het aantal condities één afgetrokken worden; (df_between=k-1). Als de vrijheidsgraden van de tussengroepsvariantie en de vrijheidsgraden van de binnengroepsvariantie worden opgeteld kom je precies uit op de vrijheidsgraden voor het totaal.

Mean Squares

Vervolgens moet de variantie tussen en binnen de condities berekend worden om de F-ratio te vinden. Bij ANOVA wordt liever de term mean square (MS) gebruikt in plaats van variantie. De bijbehorende formule is hetzelfde als voor de variantie: MS = s²= SS/df.

Om de MS voor tussen de groepen te vinden wordt de volgende formule gebruikt: MS_between= s²_between= SS_between/df_between.
Voor de MS binnen de groepen is de formule: MS_within= SS_within/df_within.
Vervolgens wordt de F-ratio gevonden door deze waarden door elkaar te delen: F= MS_between/ MS_within.

De F-distributie

Zoals gezegd klopt de nulhypothese als de uitkomst van de F-ratio 1 is. Omdat F-ratio’s berekend worden door middel van twee varianties, zijn F- waarden altijd positief. Gevonden F- waarden kunnen opgezocht worden in de F- tabel. Deze is zo opgesteld dat eerst de vrijheidsgraden van de noemer en daarna de vrijheidsgraden van de teller opgezocht moeten worden in de tabel. Daarna moet in dat deel van de tabel de gevonden F-waarde opgezocht worden. Deze ligt tussen twee genoemde waarden uit de tabel. De kans op deze waarden staat ook in de tabel. Als er bijvoorbeeld één procent kans is op de gevonden F-waarde, kan de nulhypothese verworpen worden bij een alfa van 5%. Als er echter meer dan vijf procent kans is op het gevonden resultaat, dan moet de nulhypothese behouden worden.

Voorbeeld van hypothesetoets met ANOVA

Om een analyse van variantie uit te voeren, worden er vier stappen uitgevoerd.

Stel de nulhypothese en alternatieve hypothese op en stel een alfaniveau vast. Een voorbeeld van de hypotheses kan zijn:=
H₀: µ₁ = µ₂ = µ₃
H₁: ten minste één van de gemiddelden is anders
Een alfaniveau is bijvoorbeeld α = .05
Stel de vrijheidsgraden van de tussengroepsvariantie en binnengroepsvariantie vast om de kritische regio voor de F-ratio te vinden in de tabel.
De volgende berekeningen moeten worden uitgevoerd om de F-ratio te vinden:
Bereken de MS_between en MS_within.
Om de F-ratio te bereken, geldt F = MS_between/MS_within.
Tenslotte komen we tot een beslissing, waarbij we kijken of de gevonden F-ratio in de kritische regio valt. Net als bij de t-toets geldt dat de nulhypothese verworpen moet worden als de gevonden F-ratio in de kritische regio valt.

Belangrijk om te onthouden is dat de grootte van de steekproef de resultaten van ANOVA kan beïnvloeden. Hoe groter de steekproef, hoe groter de kans om bewijs te vinden om de nulhypothese te verwerpen. Zo’n probleem kan vermeden worden door middel van een alternatieve statistische analyse: de Kruskal-Wallistoets. Hierbij worden de data omgezet naar ordinaal niveau, en worden rangscores gebruikt. De Kruskal-Wallistoets kan tevens gebruikt worden als de aanname van normaliteit wordt geschonden. Deze toets werkt met medianen.

Effectgrootte

Net als bij de andere statistische testen hebben we aan alleen een significant resultaat niet genoeg. We moeten ook weten of de resultaten in praktische zin van belang zijn. In het geval van de F statistiek is de r- familie van effectgroottes geschikt. In het geval van de ANOVA representeert de effectgrootte hoeveel van de variatie in de afhankelijke variabele kan worden toegeschreven aan een behandeleffect. Twee van de meest voorkomende statistieken zijn η² en ω².

Eta-kwadraat η²

SS_behandeling is een maat voor hoeveel van de observatieverschillen door de verschillende behandelingen tot stand komen. SS_totaal is de maat voor de verschillen in de complete dataset. Deze twee SS’s gedeeld door elkaar geven een percentage van de variatie door de behandeling:

η² = SS_behandeling / SS_totaal

Wanneer de sum of squares niet bekend zijn, kan eta-kwadraat ook anders uitgerekend worden:

η² = 1 / (1+ (df_error / (F x df_behandeling)))

η² gaat er vanuit dat de regressielijn door de gemiddelden van elke groep gaat. Dit is echter niet zo, waardoor de metingen biased zullen zijn. η² is de effectgrootte met de meeste bias.

Omega-kwadraat ω²

De omega-kwadraat is een goede maat voor het effect bij gebalanceerde designs (met gelijke n’s). Deze statistiek heeft minder bias dan η².

ω² = (SS_behandeling - (k-1)MS_error)/(SS_totaal + MS_error)

Post-hoc testen

Zoals eerder gezegd is het grootste voordeel van ANOVA (in vergelijking tot t-toetsen) dat verschillen tussen meer dan twee condities onderzocht kunnen worden. Als de nulhypothese verworpen wordt middels de F-ratio, betekent dat dus dat er een significant verschil bestaat. Maar waar zit dat significante verschil dan? Met post-hoc testen kan nagegaan worden waar de significante verschillen zitten. Post-hoc testen worden altijd na ANOVA gedaan. De nulhypothese moet eerst verworpen worden en er moeten drie of meer condities zijn om een post-hoc test te doen.

Middels post-hoc testen worden steeds twee condities met elkaar vergeleken, er worden dus paren van vergelijkingen gemaakt. Bij drie condities kunnen bijvoorbeeld µ₁metµ₂, µ₂met µ₃ enµ₁met µ₃vergeleken worden. Bij deze verschillende paren van vergelijkingen horen ook verschillende hypothesetesten om uit te vinden welke condities nou significant van elkaar verschillen. Het nadeel is echter wel dat de kans op een type-I fout met zoveel testen toeneemt.

(On)geplande vergelijkingen

Statistici maken vaak onderscheid tussen geplande en ongeplande vergelijkingen.

Een geplande vergelijking ontstaat wanneer een onderzoeker vergelijkingen maakt die specifiek van belang zijn voor de hypothesen van het onderzoek. Hij kan zich beschermen tegen de oplopende kans van een type-I fout door alfa te delen door het aantal geplande vergelijkingen. Als de onderzoeker gebruik maakt van een alfa van 5%, moet hij deze in ons geval dus door twee delen (omdat hij twee geplande vergelijkingen maakt). Uiteindelijk moet hij dus gebruik maken van een alfa van 2,5%.
Van een ongeplande vergelijking is sprake wanneer een onderzoeker geen vermoeden heeft over een effect en allerlei post-hoc testen uitvoert in de hoop een significant effect te kunnen vinden. Ook in dit geval moet de kans op een type-I fout beperkt worden. Dit kan middels de Tukey’s HSD test.

Tukey’s HSD test

Tukey’s HSD test wordt vaak gebruikt in psychologisch onderzoek. Door deze test kan een minimaal verschil tussen condities vastgesteld worden dat nodig is om een significant effect te vinden. Deze waarde wordt de honestly significant difference (HSD) genoemd. Deze waarde wordt vervolgens gebruikt om twee condities met elkaar te vergelijken. Als het gemiddelde verschil tussen deze condities groter is dan de vastgestelde HSD, dan kan geconcludeerd worden dat er een significant verschil tussen de condities bestaat. Deze waarde kan als volgt gevonden worden: HSD = q * √MSwithin / n. De waarde van q kan gevonden worden in de bijbehorende tabel. Om q te vinden moet een onderzoeker het aantal condities kennen (k) en de vrijheidsgraden die horen bij MS_within. De kleine letter n staat voor het aantal scores in elke conditie. Bij deze test moeten het aantal scores per conditie gelijk zijn.

Het gebruik van a priori contrasten

Bij MPC, de multiple comparison procedure, worden groepsgemiddelden vergeleken. Een MCP wordt gebruikt als er op zijn minst drie groepen zijn. Een contrast is een gewogen combinatie van de gemiddelden. Neem bijvoorbeeld de volgende hypothese: Zorgt het drinken van alcohol voor een meer verstoorde subjectieve perceptie van fysieke aantrekkelijkheid? De drie groepen hierbij zijn: geen alcohol drinken, weinig alcohol drinken, en veel alcohol drinken. A priori contrasten stel je op voordat je je onderzoek uitvoert. Dit is dus naar aanleiding van de verwachtingen die je hebt. Je kunt verschillende hypotheses opstellen.Een contrast is een combinatie van populatiegemiddelden in de vorm van Ψ= Σ . De coëfficiënten van ai tellen op tot 0. De standaardfout van c is: SEc = Σ . We toetsen de nulhypothese Ψ=0. We gebruiken hiervoor de t-toets: t= c/SEc. Ook maken we gebruik van de vrijheidsgraden voor de error (DFE) die gepaard gaan met : DFE = N – I. De alternatieve hypothese kan zowel eenzijdig als tweezijdig zijn. Het betrouwbaarheidsinterval voor Ψ is c± t*SEc.

Een vraag die je kan stellen is: Scoort de geen-alcohol populatie hoger dan de alcohol populaties (zowel weinig als veel)? Je kunt hierbij de volgende hypotheses opstellen:

H0 : µ1 = 0.5(µ2 + µ3). HA : µ1 > 0.5(µ2 + µ3).

Van deze hypothese maak je als volgt een contrast:

H0 : µ1 = 0.5(µ2 + µ3)
H0 : µ1 − 0.5(µ2 + µ3) = 0
H0 : µ1 − 0.5µ2 − 0.5µ3 = 0
ψ = µ1 − 0.5µ2 − 0.5µ3.

Dit is dus je uiteindelijke contrast. Contrastcoëfficiënten (ai’s): 1, -0.5, -0.5. Deze tellen inderdaad bij elkaar op tot nul, zoals de bedoeling is.

Als er meerdere contrasten zijn, wordt vaak vereist dat deze orthogonaal aan elkaar zijn. Dit houdt in dat de producten van deze contrastcoëfficiënten nul zijn als je de cross-producten bij elkaar optelt.

Stel dat contrast 1 de volgende contrastcoëfficiënten heeft : 1 1 -2
Contrast 2 heeft deze contrastcoëfficienten : 1 -1 0

Deze contrasten zijn orthogonaal want (1)(1) + (1)(-1) + (-2)(0) = 0

Access:

Public

Click & Go to more related summaries or chapters:

Samenvattingen per onderwerp bij Inleiding Statistiek

Wat is statistiek?

Hoe kan data worden verzameld door gedragswetenschappers?

Wat betekenen betrouwbaarheid en validiteit?

Welke verdelingen bestaan er binnen de statistiek?

Hoe voer je een steekproef uit?