Wat zijn MANOVA (multivariate analysis of variance) en DA (discriminantanalyse)?

Soms willen onderzoekers de verschillen tussen condities van verschillende afhankelijke variabelen tegelijkertijd testen. T-toetsen en ANOVA-analyses kunnen alleen uitgevoerd worden als er sprake is van slechts één afhankelijke variabele. MANOVA (‘multivariate analysis of variance’) wordt gebruikt om de effecten van twee of meer condities op twee of meer afhankelijke variabelen te toetsen. MANOVA is redelijk overzichtelijk: we hebben een aantal afhankelijke intervalvariabelen (p) die we voorspellen uit één of meer nominale variabelen verdeeld over k groepen. Dit wordt multivariate variantie-analyse genoemd. We zijn bezig met de vergelijking van gemiddelden, maar we bekijken nu meerdere variabelen tegelijk in een onderlinge samenhang (= multivariaat). Als het gaat om één afhankelijke variabele gebruiken we een ANOVA, als het gaat om meerdere afhankelijke variabelen gebruiken we een MANOVA. Bij onafhankelijke variabelen maak je het onderscheid tussen 1 onafhankelijke variabelen en meerdere onafhankelijke variabelen in een-/ twee-/ drieweg- enzovoorts.

De werking van MANOVA
MANOVA gevolgd door een serie van ANOVA’s
Nadelen van DDA

De vraag is natuurlijk waarom we niet twee ANOVA’s uitvoeren voor beide afhankelijke variabelen afzonderlijk. Dit heeft twee redenen:

Soms hangen de gemeten afhankelijke variabelen met elkaar samen. Ze kunnen bijvoorbeeld onderdeel zijn van een algemeen construct. In zo’n geval kan een onderzoeker van mening zijn dat het beter is om de variabelen als een set te analyseren, in plaats van afzonderlijk.
Hoe meer testen er worden uitgevoerd, hoe groter de kans op een type-I-fout wordt. Om deze reden voeren we liever een ANOVA uit dan meerdere t-toetsen. Het is echter ook zo dat de kans op type-I-fouten groter wordt wanneer we t-testen of ANOVA’s uitvoeren op meerdere afhankelijke variabelen. Hoe meer afhankelijke variabelen we bestuderen, hoe groter de kans dat we significante verschillen vinden die het gevolg zijn van een type-I-fout in plaats het gevolg van de onafhankelijke variabele. Omdat MANOVA tegelijkertijd de verschillen tussen groepsgemiddelden over meerdere afhankelijke variabelen meet, blijft de alfa 5%. De kans op een type-I-fout neemt hierbij dan ook niet toe.

De werking van MANOVA

De nulhypothese van een manova is als volgt: het gemiddelde van groep 1 op variabele 1 is gelijk aan het gemiddelde van groep 2 op variabele 1 is gelijk aan het gemiddelde van groep k op variabele 1. Als de nulhypothese klopt, hebben alle groepen per variabele dus hetzelfde gemiddelde. In woorden is de nulhypothese: “er is geen enkele relatie tussen de set nominale variabelen en de set intervalvariabelen.” Voor elke afhankelijke variabele geldt dat de populatiegemiddelden gelijk zijn aan elkaar. k staat voor groep en p staat voor het aantal afhankelijke variabelen.

De nulhypothese kan worden getoetst met de multivariate toetsen Wilks, Pillai’s, Hotellings en Roys. Dit zijn allen zinvolle en goed verdedigbare manieren om de nulhypothese te toetsen. Welke de beste is, weten we niet. Ze geven echter niet altijd alle vier gelijke antwoorden. Als de multivariate toetsen niet significant zijn, handhaaf je de nulhypothese. Bij significante multivariate toetsen moet je de alternatieve hypothese aannemen en de nulhypothese verwerpen.

Tijdens de MANOVA voer je een multivariate versie van de F-toets uit. Wanneer je de alternatieve hypothese aanneemt weet je dat er op tenminste één afhankelijke variabele minstens één verschil is tussen groepsgemiddelden. Dit is nog niet heel veel informatie. Je moet dus verder zoeken. Dit kan op vier verschillende manieren, waaronder de Protected F benadering en de Descriptieve discriminant-analyse. Alleen deze twee worden besproken.

MANOVA gevolgd door een serie van ANOVA’s

Wanneer je een MANOVA gebruikt om jezelf te beschermen tegen type-1 fouten, gebruik je vaak na een significant resultaat meerdere univariate f-toetsen voor elke afhankelijke variabele afzonderlijk. Dit wordt ook wel de beschermde F-procedure genoemd. met een aangepast alfa niveau (d.m.v. Bonferroni correctie: α/p, p=aantal afhankelijke variabelen, waardoor het α niveau strenger wordt).

Er is echter ook kritiek op deze methode. De belangrijkste tegenargumenten zijn (1) onvoldoende bescherming tegen type-1 fouten en (2) er wordt geen rekening gehouden met de onderliggende correlaties tussen de afhankelijke variabelen. Om met deze beperkingen om te gaan is discriminantanalyse een geschiktere methode.

Assumpties protected-F benadering

Multivariate normaliteit van de errors: elk van de afhankelijke variabelen moet een normaal verdeling hebben voor de errors en is ook normaal verdeeld voor alle mogelijke combinaties van waarden voor de andere afhankelijke variabelen. Als geldt n > 20 per cel, hoef je je geen zorgen te maken wat betreft deze assumptie, want dan zijn de multivariate tests robuust.
Homogeniteit van de variantie-covariantiematrices: er moet sprake zijn van gelijke varianties én gelijke covarianties in alle groepen. Als de groepen ongeveer even groot zijn, heb je hier weinig last van (nmin / nmax < 1.5). Er bestaat ook een toets om deze assumptie te checken: de Box M toets. Deze is echter heel gevoelig en wordt zeer snel significant. Daarom toets je extra streng. Alleen als de p-waarde kleiner is dan .001 nemen we Box M serieus, want als dit het geval is, kunnen we het helaas niet gemakkelijk oplossen en hebben we dus een probleem. Het enige dat je hier kunt doen, is het nadrukkelijk in je verslag zetten. Je bent dus minder zeker over de uitkomst van de toets dan je zou willen, wat vooral van belang is bij waarden die net wel, of net niet significant zijn.
Onafhankelijke errors: de error van de ene persoon mag niets zeggen over de error van de andere persoon (onafhankelijk van tot welke groepen de personen behoren). Hier is geen standaard check voor, dus om de assumptie te checken moet je voornamelijk kijken naar de onderzoeksopzet.

Discriminantanalyse (DA)

Met Discriminantanalyse proberen we een set intervalvariabelen zo accuraat mogelijk te voorspellen op basis van verschillen tussen groepen. Bij DA kan de nadruk liggen op beschrijven van verschillen tussen groepen (DDA; vanuit het groepsperspectief) of op voorspellen van tot welke groep iemand behoort (PDA; vanuit individueel perspectief). PDA is het tegengestelde van MANOVA, terwijl DDA meer een uitbreiding is van MANOVA. Het enige verschil tussen MANOVA en DDA is dat de X en Y omgewisseld zijn. DDA is dus van belang in dit geval.

Discriminante functie variaten

Met behulp van discriminante functievariaten kunnen we een set van gecorreleerde afhankelijke variabelen in een nieuwe set omzetten. Hierbij worden de verschillen tussen groepen correct gerepresenteerd, maar de variabelen zijn niet langer gecorreleerd. Er worden lineaire combinaties gevormd van de afhankelijke variabelen, waarbij twee subscripts per gewicht worden gebruikt. Een discriminant functievariaat ziet er als volgt uit:

D_j = b_1jY₁ + b_2jY₂+ … + b_pjY_p.

Hierbij staat p voor het aantal afhankelijke variabelen, en j voor het variaat. De gewichten van de eerste discriminant functievariaat (D1) worden zo gekozen dat er een maximaal onderscheid kan bestaan tussen de k groepen. Bij de tweede en volgende discriminante functievariaten gebeurt dit ook, maar de functievariaten mogen niet met elkaar gecorreleerd zijn. Dit wil zeggen dat ze orthogonaal moeten zijn. Het maximum aantal discriminantfunctievariaten is of k groepen-1, of p. Hierbij moet je de kleinste kiezen. Na het opstellen van de discriminantfunctievariaten bepaal je de positie van groepen op de discriminantfunctievariaten. Voor elke groep op elke variaat vervang je hiervoor de Y’s voor in de formule van Dj door de groepsgemiddeldes.

Elke variaat heeft een eigenwaarde (λ_i): SS_b (i) / SS_W (i). De proportie verklaarde variantie van de variaat door de onderscheiding tussen de groepen heet de gekwadrateerde canonical correlatie en wordt door de volgende formule weergegeven: R_i² = SS_b (i) / SS_T (i) = $\frac{SS_b(i)}{SS_T(i)}$ λ_i / (1 + λ_i). De maximaal verklaarde variantie is gelijk aan het aantal afhankelijke variabelen p. Dus na het optellen van de gekwadrateerde correlaties van alle variaten kan je uit komen op een ∑_iR_i² van hoger dan 1. Door deze te delen door het aantal afhankelijke variabelen wordt de verklaarde variantie van de afhankelijke variabele berekend.

DA en PCA

PCA en DA verschillen in het optimalisatiecriterium dat gebruikt wordt om de gewichten te selecteren. Bij PCA probeert elke component zo veel mogelijk variantie van Y te verklaren, zonder rekening te houden met verschillen tussen groepsgemiddelden. Bij DA probeert elke discriminante functievariaat zo veel mogelijk verschillen tussen groepen te verklaren.

Het gebruiken van discriminante functievariaten heeft twee belangrijke voordelen vergeleken met het gebruik van de originele set van variabelen: (1) datareductie en (2) makkelijkere interpretatie. Als we gebruik maken van beide voordelen, kunnen we verschillen tussen groepen beschrijven (DDA). Ook kunnen we proberen de onderliggende dimensies te achterhalen, waartoe de groepsverschillen gereduceerd kunnen worden.

Nadelen van DDA

De belangrijkste nadelen van DDA zijn: (1) de resultaten zijn soms moeilijk te interpreteren en (2) de resultaten zijn meer descriptief dan confirmatief. Bovendien is DDA relatief gezien minder populair voor de interpretatie van MANOVA bij onderzoekers en journals (al is dit soms om de verkeerde redenen).

Access:

Public

Click & Go to more related summaries or chapters:

Samenvattingen per onderwerp bij Inleiding Statistiek

Wat is statistiek?

Hoe kan data worden verzameld door gedragswetenschappers?

Wat betekenen betrouwbaarheid en validiteit?

Welke verdelingen bestaan er binnen de statistiek?

Hoe voer je een steekproef uit?

Wat is statistische inferentie?

Wat zijn correlatie, regressie en lineaire regressie?

Wat is multipele regressie?