Wat is ANCOVA?

ANCOVA is een combinatie van regressieanalyse en ANOVA en kan gebruikt worden om een afhankelijke variabele van intervalniveau zo accuraat mogelijk te voorspellen aan de hand van een aantal onafhankelijke variabelen. Deze onafhankelijke variabelen worden factoren (nominaal niveau) en covariaten (intervalniveau) genoemd. De combinatie van deze verschillende soorten voorspellers maakt het mogelijk om een optimale voorspelling te doen in meer verschillende soorten situaties.

Het toevoegen van covariaten maakt het mogelijk om de effecten van factoren accurater en specifieker te testen door (1) vermindering van errorvariantie en (2) eliminatie van systematische bias (statistische controle).

Voorbeeld: Stel dat we willen onderzoeken of kleinere auto’s makkelijker te besturen zijn. We hebben drie verschillende autogroottes drie groepen bestuurders, met aanzienlijke verschillen in rijervaring tussen bestuurders. We kunnen individuen hier niet op matchen, dus nemen we aan dat de gemiddelde rijervaring tussen de groepen gelijk is. De afhankelijke variabele is het aantal stuurfouten en de covariaat is rijervaring. Wat we namelijk willen, is de prestaties van bestuurders onderzoeken onafhankelijk van hun rijervaring, maar puur wat we verwachten vanwege de grootte van de auto. We verminderen hiermee de error.

Het ANCOVA model

Door het verdelen van de variantie in een binnengroeps- en tussengroepscomponent kunnen de f-toets en andere statistische data worden uitgerekend. Voor zowel ANOVA’s als ANCOVA’s proberen we Y-score zo optimaal mogelijk te berekenen voor alle individuen in de respectievelijke groepen. Bij ANOVA weten we alleen de groep waartoe een individu behoort, dus dient het groepsgemiddelde als schatting voor de score. Bij ANCOVA weten we daarnaast ook de individuele score op een covariaat, waardoor de voorspelling van Y preciezer kan worden. Het ANCOVA model wordt opgedeeld in een (1) ANOVA component en een (2) regressiecomponent.

Een ANOVA model heeft drie componenten:

  • Het grote gemiddelde: Ý.
  • De afwijking van de groep ten opzichte van het grote gemiddelde: αj = Ýj - Ý.
  • De error of afwijking van ieder individu ten opzichte van het groepsgemiddelde: eij = Yij - Yj

Dit geeft het volgende model: Yij = Ý + αj + eij. De variantie van Y wordt in een tussengroepscomponent (αj) en een binnengroepscomponent (eij) opgedeeld. In het ANCOVA model wordt er een covariaat aan de formule toegevoegd:

Yij = Ý + α’j + bw (Cij - Ć) + e’ij.

Met deze formules proberen we de Yij score van elk individu i uit groep j zo goed mogelijk te voorspellen. Het verschil tussen ANOVA en ANCOVA is dat we bij ANOVA alleen weten tot welke groep het individu behoort, terwijl we bij ANCOVA ook de individuele score op de covariaat hebben. Daardoor is de voorspelling bij ANCOVA preciezer. De ANCOVA formule bestaat uit een variantieanalyse component (Ý + α’j) en een regressie analyse component (bw (Cij - Ć)).

Pooled-within vs. totale regressie en correlatie

Het regressiegewicht van de covariaat wordt bw genoemd, omdat het verwijst naar de voorspelling van Y door middel van C binnen elk van de groepen (het gepoolde binnengroepsregressiegewicht). De assumptie dat dit gewicht hetzelfde is voor alle groepen geldt alleen voor de populatie, niet voor de sample.

De F-toets in ANCOVA

De F-test in ANCOVA is gelijk aan die van ANOVA, alleen wordt er met aangepaste een ‘sum of squares’ en vrijheidsgraden gewerkt waarbij de overlap met de covariaat eruit gefilterd is. De totale aangepaste kwadratensom bestaat uit een tussengroepscomponent en een binnengroepscomponent: SST*= SSb* + SSW*. Met de volgende formule is de totale variantie van de afhankelijke variabele te berekenen: SST* = SST – rYC2SST = (1- rYC2)SST. rYC2SST geeft aan hoeveel variantie de covariaat verklaart.

De binnengroepscomponent wordt als volgt uitgerekend: SSW* = (1- rYC(W)2 YC(W))SSW. de tussengroepsvariantie kan dan makkelijk berekend worden: SSB* = SST* - SSW*. Voordat de F-waarde berekend kan worden, moeten we MS (mean squares) uitrekenen door de kwadratensom door de vrijheidsgraden te delen. MSb* = SSb* / k-1 en MSW* = SSW* / N-k-c.

Hierbij is k het aantal groepen, N de steekproefgrootte en c het aantal covariaten. Nu kan de F-waarde berekend worden: MSb* / MSW* met vrijheidsgraden dfb = k-1 en dfw = N - k - c.

Aangepaste groepsgemiddelden

Als de groepen verschillen op de covariaat wordt gewerkt met aangepaste gemiddeldes. Deze representeren de beste gok van het gemiddelde als de groepen niet verschillen op de covariaat. De covariantie-analyse bekijkt vervolgens of deze aangepaste gemiddelden significant van elkaar verschillen.

Het aangepaste groepsgemiddelde kan afgeleid worden uit de volgende formule: Ýj = Ý + α’j + bw (Ci - Ć). Omdat Ýj* = Ý + α’j is het aangepaste groepsgemiddelde: Ýj* = Ýj - bw (Ci - Ć). Als dit weergegeven wordt in een diagram, wordt het aangepaste groepsgemiddelde gevonden op de intersectie van de regressielijn van de groep met de lijn C = Ć.

Over het algemeen geldt dat groepen met een hoog gemiddelde op de covariaat na aanpassing een lager gemiddelde hebben op de afhankelijke variabelen. Groepen met een laag gemiddelde op de covariaat hebben echter een hoger gemiddelde op de afhankelijke variabele na aanpassing. Als de groep met de hoogste score de laagste score heeft op de covariaat worden de verschillen op de afhankelijke variabele dus groter, terwijl als deze groep ook de hoogste score heeft op de covariaat de verschillen kleiner worden, ze verdwijnen of het signaal wisselt. Het bovenstaande geldt alleen bij een positieve bw. Als bw negatief is geldt precies het omgekeerde.

Vermindering van errorvariantie

Zelfs als groepen niet verschillen op de covariaat, geldt nog steeds het tweede doel van ANCOVA (vermindering van errorvariantie). Het is echter niet goed om ANCOVA als een soort sprookjesoplossing te zien, omdat het toevoegen van één of meer covariaten kan leiden tot verminderde statistische power en moeilijkere interpretatie. Er zijn drie soorten situaties waarin interpretaties complex of irrelevant worden. In de eerste plaats kunnen de aangepaste groepsgemiddelden niet overeen komen met de onderzoeksdoelen. In de tweede plaats kan er een extrapolatie naar een werkelijkheid optreden die eigenlijk niet bestaat, of niets betekent. Tot slot kan een covariaat een deel van het effect elimineren.

Assumpties

Voor een ANCOVA gelden naast de algemene assumpties (normale verdeling, homogeniteit van varianties en onafhankelijke observaties) nog enkele speciale, aan regressie gerelateerde assumpties over de covariaat:

  1. Geen error in de covariaat. Het effect van random error in de covariaat is een onderschatting van de relatie met andere variabelen. De meest belangrijke consequentie van error is een te kleine aanpassing in het berekenen van de aangepaste groepsgemiddelden, wat leidt tot incorrecte conclusies. Het is echter niet per definitie beter om nooit onbetrouwbare covariaten te gebruiken: soms is een incomplete aanpassing beter dan helemaal geen aanpassing.
  2. Lineaire relatie met de afhankelijke variabele. Deze assumptie heeft betrekking op de gepoolde binnengroepscorrelatie tussen de covariaat en de afhankelijke variabele. De relatie tussen deze variabelen binnen elke groep kan het beste worden weergegeven met een rechte lijn, en niet met een curve. Schending van deze assumptie resulteert in een onderschatting van de relatie tussen de bovengenoemde variabelen, wat leidt tot een onjuiste aanpassing van groepsgemiddelden. Deze assumptie heeft betrekking op de populatie en kan geïnspecteerd worden met behulp van diagrammen, maar niet met een test voor non-lineariteit.
  3. Parallelisme. Deze assumptie stelt dat het regressiegewicht bw dezelfde waarde heeft in alle groepen. Deze assumptie kan grote gevolgen hebben voor de interpretatie van de resultaten. De assumptie van parallelisme houdt in dat er geen interactie bestaat tussen de covariaat en de behandeling. Het gebruik van een complexer ANCOVA model met afzonderlijke regressiegewichten en aanpassingen is geen geschikte oplossing, omdat het uitrekenen en de interpretatie dan moeilijker wordt.

Limitaties van ANCOVA

Het experimentele perspectief dat hier beschreven is, is niet de enige mogelijke benadering voor ANCOVA. Ook zijn er in dit hoofdstuk geen post-hoc procedures beschreven. Zoals eerder besproken is, moeten covariaten met mate worden gebruikt omdat ze een vrijheidsgraad kosten en moeilijk te interpreteren zijn. Ook zijn er beperkingen aan het bestuderen van al bestaande groepen.

Image

Access: 
Public

Image

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Image

Spotlight: topics

Check the related and most recent topics and summaries:
Activities abroad, study fields and working areas:

Image

Check how to use summaries on WorldSupporter.org
Submenu: Summaries & Activities
Follow the author: Social Science Supporter
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
Search a summary, study help or student organization