Wat is ANCOVA?

ANCOVA is een combinatie van regressieanalyse en ANOVA en kan gebruikt worden om een afhankelijke variabele van intervalniveau zo accuraat mogelijk te voorspellen aan de hand van een aantal onafhankelijke variabelen. Deze onafhankelijke variabelen worden factoren (nominaal niveau) en covariaten (intervalniveau) genoemd. De combinatie van deze verschillende soorten voorspellers maakt het mogelijk om een optimale voorspelling te doen in meer verschillende soorten situaties.

Het toevoegen van covariaten maakt het mogelijk om de effecten van factoren accurater en specifieker te testen door (1) vermindering van errorvariantie en (2) eliminatie van systematische bias (statistische controle).

Voorbeeld: Stel dat we willen onderzoeken of kleinere auto’s makkelijker te besturen zijn. We hebben drie verschillende autogroottes drie groepen bestuurders, met aanzienlijke verschillen in rijervaring tussen bestuurders. We kunnen individuen hier niet op matchen, dus nemen we aan dat de gemiddelde rijervaring tussen de groepen gelijk is. De afhankelijke variabele is het aantal stuurfouten en de covariaat is rijervaring. Wat we namelijk willen, is de prestaties van bestuurders onderzoeken onafhankelijk van hun rijervaring, maar puur wat we verwachten vanwege de grootte van de auto. We verminderen hiermee de error.

Het ANCOVA model
Pooled-within vs. totale regressie en correlatie
De F-toets in ANCOVA
Aangepaste groepsgemiddelden
Vermindering van errorvariantie
Assumpties
Limitaties van ANCOVA

Het ANCOVA model

Door het verdelen van de variantie in een binnengroeps- en tussengroepscomponent kunnen de f-toets en andere statistische data worden uitgerekend. Voor zowel ANOVA’s als ANCOVA’s proberen we Y-score zo optimaal mogelijk te berekenen voor alle individuen in de respectievelijke groepen. Bij ANOVA weten we alleen de groep waartoe een individu behoort, dus dient het groepsgemiddelde als schatting voor de score. Bij ANCOVA weten we daarnaast ook de individuele score op een covariaat, waardoor de voorspelling van Y preciezer kan worden. Het ANCOVA model wordt opgedeeld in een (1) ANOVA component en een (2) regressiecomponent.

Een ANOVA model heeft drie componenten:

Het grote gemiddelde: Ý.
De afwijking van de groep ten opzichte van het grote gemiddelde: α_j = Ý_j - Ý.
De error of afwijking van ieder individu ten opzichte van het groepsgemiddelde: e_ij = Y_ij - Y_j

Dit geeft het volgende model: Y_ij = Ý + α_j + e_ij. De variantie van Y wordt in een tussengroepscomponent (α_j) en een binnengroepscomponent (e_ij) opgedeeld. In het ANCOVA model wordt er een covariaat aan de formule toegevoegd:

Y_ij = Ý + α’_j + b_w(C_ij - Ć) + e’_ij.

Met deze formules proberen we de Y_ij score van elk individu i uit groep j zo goed mogelijk te voorspellen. Het verschil tussen ANOVA en ANCOVA is dat we bij ANOVA alleen weten tot welke groep het individu behoort, terwijl we bij ANCOVA ook de individuele score op de covariaat hebben. Daardoor is de voorspelling bij ANCOVA preciezer. De ANCOVA formule bestaat uit een variantieanalyse component (Ý + α’_j) en een regressie analyse component (b_w(C_ij - Ć)).

Pooled-within vs. totale regressie en correlatie

Het regressiegewicht van de covariaat wordt b_w genoemd, omdat het verwijst naar de voorspelling van Y door middel van C binnen elk van de groepen (het gepoolde binnengroepsregressiegewicht). De assumptie dat dit gewicht hetzelfde is voor alle groepen geldt alleen voor de populatie, niet voor de sample.

De F-toets in ANCOVA

De F-test in ANCOVA is gelijk aan die van ANOVA, alleen wordt er met aangepaste een ‘sum of squares’ en vrijheidsgraden gewerkt waarbij de overlap met de covariaat eruit gefilterd is. De totale aangepaste kwadratensom bestaat uit een tussengroepscomponent en een binnengroepscomponent: SS_T*= SS_b* + SS_W*. Met de volgende formule is de totale variantie van de afhankelijke variabele te berekenen: SS_T* = SS_T – r_YC²SS_T = (1- r_YC²)SS_T. r_YC²SS_T geeft aan hoeveel variantie de covariaat verklaart.

De binnengroepscomponent wordt als volgt uitgerekend: SS_W* = (1- r_YC(W)²r²_YC(W))SS_W. de tussengroepsvariantie kan dan makkelijk berekend worden: SS_B* = SS_T* - SS_W*. Voordat de F-waarde berekend kan worden, moeten we MS (mean squares) uitrekenen door de kwadratensom door de vrijheidsgraden te delen. MS_b* = SS_b* / k-1 en MS_W* = SS_W* / N-k-c.

Hierbij is k het aantal groepen, N de steekproefgrootte en c het aantal covariaten. Nu kan de F-waarde berekend worden: MS_b* / MS_W* met vrijheidsgraden df_b = k-1 en df_w = N - k - c.

Aangepaste groepsgemiddelden

Als de groepen verschillen op de covariaat wordt gewerkt met aangepaste gemiddeldes. Deze representeren de beste gok van het gemiddelde als de groepen niet verschillen op de covariaat. De covariantie-analyse bekijkt vervolgens of deze aangepaste gemiddelden significant van elkaar verschillen.

Het aangepaste groepsgemiddelde kan afgeleid worden uit de volgende formule: Ý_j = Ý + α’_j + b_w(C_i - Ć). Omdat Ý_j* = Ý + α’_j is het aangepaste groepsgemiddelde: Ý_j* = Ý_j - b_w(C_i - Ć). Als dit weergegeven wordt in een diagram, wordt het aangepaste groepsgemiddelde gevonden op de intersectie van de regressielijn van de groep met de lijn C = Ć.

Over het algemeen geldt dat groepen met een hoog gemiddelde op de covariaat na aanpassing een lager gemiddelde hebben op de afhankelijke variabelen. Groepen met een laag gemiddelde op de covariaat hebben echter een hoger gemiddelde op de afhankelijke variabele na aanpassing. Als de groep met de hoogste score de laagste score heeft op de covariaat worden de verschillen op de afhankelijke variabele dus groter, terwijl als deze groep ook de hoogste score heeft op de covariaat de verschillen kleiner worden, ze verdwijnen of het signaal wisselt. Het bovenstaande geldt alleen bij een positieve b_w. Als b_w negatief is geldt precies het omgekeerde.

Vermindering van errorvariantie

Zelfs als groepen niet verschillen op de covariaat, geldt nog steeds het tweede doel van ANCOVA (vermindering van errorvariantie). Het is echter niet goed om ANCOVA als een soort sprookjesoplossing te zien, omdat het toevoegen van één of meer covariaten kan leiden tot verminderde statistische power en moeilijkere interpretatie. Er zijn drie soorten situaties waarin interpretaties complex of irrelevant worden. In de eerste plaats kunnen de aangepaste groepsgemiddelden niet overeen komen met de onderzoeksdoelen. In de tweede plaats kan er een extrapolatie naar een werkelijkheid optreden die eigenlijk niet bestaat, of niets betekent. Tot slot kan een covariaat een deel van het effect elimineren.

Assumpties

Voor een ANCOVA gelden naast de algemene assumpties (normale verdeling, homogeniteit van varianties en onafhankelijke observaties) nog enkele speciale, aan regressie gerelateerde assumpties over de covariaat:

Geen error in de covariaat. Het effect van random error in de covariaat is een onderschatting van de relatie met andere variabelen. De meest belangrijke consequentie van error is een te kleine aanpassing in het berekenen van de aangepaste groepsgemiddelden, wat leidt tot incorrecte conclusies. Het is echter niet per definitie beter om nooit onbetrouwbare covariaten te gebruiken: soms is een incomplete aanpassing beter dan helemaal geen aanpassing.
Lineaire relatie met de afhankelijke variabele. Deze assumptie heeft betrekking op de gepoolde binnengroepscorrelatie tussen de covariaat en de afhankelijke variabele. De relatie tussen deze variabelen binnen elke groep kan het beste worden weergegeven met een rechte lijn, en niet met een curve. Schending van deze assumptie resulteert in een onderschatting van de relatie tussen de bovengenoemde variabelen, wat leidt tot een onjuiste aanpassing van groepsgemiddelden. Deze assumptie heeft betrekking op de populatie en kan geïnspecteerd worden met behulp van diagrammen, maar niet met een test voor non-lineariteit.
Parallelisme. Deze assumptie stelt dat het regressiegewicht b_w dezelfde waarde heeft in alle groepen. Deze assumptie kan grote gevolgen hebben voor de interpretatie van de resultaten. De assumptie van parallelisme houdt in dat er geen interactie bestaat tussen de covariaat en de behandeling. Het gebruik van een complexer ANCOVA model met afzonderlijke regressiegewichten en aanpassingen is geen geschikte oplossing, omdat het uitrekenen en de interpretatie dan moeilijker wordt.

Limitaties van ANCOVA

Het experimentele perspectief dat hier beschreven is, is niet de enige mogelijke benadering voor ANCOVA. Ook zijn er in dit hoofdstuk geen post-hoc procedures beschreven. Zoals eerder besproken is, moeten covariaten met mate worden gebruikt omdat ze een vrijheidsgraad kosten en moeilijk te interpreteren zijn. Ook zijn er beperkingen aan het bestuderen van al bestaande groepen.

Access:

Public

Check more: click and go to more related summaries or chapters

Samenvattingen per onderwerp bij Inleiding Statistiek

Wat is statistiek?

Hoe kan data worden verzameld door gedragswetenschappers?

Wat betekenen betrouwbaarheid en validiteit?

Welke verdelingen bestaan er binnen de statistiek?

Hoe voer je een steekproef uit?

Wat is statistische inferentie?

Wat zijn correlatie, regressie en lineaire regressie?