Principale componentenanalyse - de Heus, van der Leeden - Artikel
Deze samenvatting is gebaseerd op een herziene tekst en verkorte vertaling van hoofdstuk 10 uit het boek Toegepaste data-analyse. Technieken voor niet-experimenteel onderzoek in de sociale wetenschappen (van de Heus, van der Leeden, Gazendam, 1995).
Principale componentenanalyse (PCA) is een multivariate data-analyse techniek die wordt gebruikt om een groot aantal variabelen tegelijk te analyseren. De analyse houdt zich bezig met de structuur in de relaties tussen de variabelen. Het hoofddoel is datareductie. PCA wordt vaak verward met factor analyse (FA), dit onderscheid komt later nog aan de orde.
Het doel van PCA
Het doel is om een beeld te krijgen van de belangrijkste associaties tussen de items van bijvoorbeeld een vragenlijst. Zo worden subgroepen verkregen die sterk met elkaar correleren: componenten of factoren. PCA is ook belangrijk voor het vormen van schalen: corresponderende subgroepen kunnen worden gecombineerd tot schalen.
Wat doet PCA?
PCA is met name een instrument voor datareductie zonder dat er veel informatie van de variabelen verloren gaat. De informatie die gebruikt wordt bij PCA is de associatie tussen de geobserveerde variabelen, uitgedrukt in correlaties of varianties en covarianties. Vervolgens vindt er decompositie plaats in componenten van de belangrijkste associaties tussen de variabelen.
Geometrisch: bekijk afbeelding 1 op pagina II.6 van het werkboek. Hier is te zien hoe twee gecorreleerde variabelen X1 en X2 weergegeven worden door twee ongecorreleerde componenten F1 en F2. Elk punt bestaat uit twee observaties van dezelfde persoon op de variabelen X1 en X2. De punten kunnen worden gezien als coördinaten in een assenstelsel. Hier is dus een positieve correlatie. Elk punt kan ook weergegeven worden in relatie tot het coördinaten systeem gevormd door F1 en F2. In de praktijk is PCA alleen interessant met veel meer dan drie variabelen, dit kan niet meer geometrisch worden weergegeven.
Algebraïsch: algebraïsch wordt PCA weergegeven met vierkanten voor de geobserveerde variabelen, en de componenten met cirkels. Een belangrijke rol is weggelegd voor de gewichten aij, deze relateert variabele Xi aan component Fj. Als er vijf geobserveerde variabelen en twee componenten zijn zien de vergelijkingen van F1 en F2 er zo uit:
F1 = a11X1 + A21X2 + a31X3 +a41X4 + a51X5
F2 = a12X1 + a22X2 + a32X3 + a42X4 + a52X5
Deze vergelijkingen laten zien dat de componenten Fj berekend worden als lineaire combinaties van de geobserveerde variabelen Xi. De gewichten aij worden component ladingen genoemd. De i verwijst naar de geobserveerde variabele, de j naar het component. F1 is zo gelijk mogelijk aan alle X-variabelen. F2 moet niet gecorreleerd zijn aan F1, daarom verklaart F2 minder variantie dan F1. Componenten kunnen zelf ook worden beschouwd als variabelen, en worden gebruikt als variabelen in andere data-analyse technieken. Component scores kunnen dus worden gebruikt om individuele verschillen te onderzoeken.
Variantie uitgelegd
In PCA wordt de correlatie tussen de variabelen en componenten gemaximaliseerd. Dat er correlatie is tussen de variabelen en componenten betekent dat ze ook gemeenschappelijke varantie hebben, die dus ook gemaximaliseerd wordt. Dit geeft de mogelijkheid van voorspelling. Een component verklaart een bepaald deel van de variantie van de X-variabelen. Alle componenten samen verklaren een deel van de totale variantie. In PCA worden de geobserveerde variabelen meestal gestandaardiseerd (m= 0, sd=1).
Variantie uitgelegd door een component: eigenwaardes: de component ladingen aij zijn gelijk aan de Pearson correlaties tussen Xi en Fj. Een gekwadrateerde lading geeft dus de proportie variantie van Xi die wordt verklaard door Fj. De hoeveelheid variantie van alle geobserveerde variabelen samen die wordt verklaard door een component wordt eigenwaarde genoemd, wat gelijk is aan de som van de gekwadrateerde factor ladingen van alle X-variabelen bij dat component: λj Σpi=1 aij2. Die van het eerste component zal altijd het hoogst zijn, de tweede lager dan de eerste etc. Door de eigenwaarde te delen door het aantal variabelen, krijg je de proportie verklaarde variantie.
Verklaarde variantie van een variabele: communaliteiten: Het deel van de variantie van variabele Xi dat wordt verklaard door de componenten wordt de communaliteit van die variabele genoemd (h²). De som van de gekwadrateerde component ladingen van variabele Xi op de componenten geeft de communaliteit van die variabele: hi2 Σkj=1 aij2. Communaliteit wordt ook gebruikt als mate van ‘fit’: hoe goed een variabele past in een factor oplossing.
Volle dimensionaliteit en uniekheid van de oplossing: als er evenveel componenten als variabelen zijn, wordt 100% van de variantie verklaard, dit wordt volle dimensionaliteit genoemd. Nu wordt de data echter niet gereduceerd. Ook is er sprake van het rotatieprobleem: het specifieke coördinaten systeem maakt niks uit voor de oplossing, dus er is een oneindig aantal manieren om dezelfde oplossing te beschrijven.
Voorrondes
PCA levert niet altijd een bruikbare oplossing. De hoofdbedreigingen zijn dat PCA oplossingen onstabiel kunnen zijn (sterk variërend van steekproef tot steekproef) of slechts willekeur weergeven. Daarom moeten voorbereidende controles worden gedaan.
Bescherming tegen willekeur
Bartletts test controleert of de correlaties tussen de variabelen in de analyse nul zijn. De Bartletts test moet significant zijn. Met echte psychologische data is deze test echter altijd significant. De beste indicatie van bruikbaarheid is de Kaiser-Meyer-Olkin (KMO) meting. Als de data een duidelijke factor structuur hebben, zijn de partiële correlaties tussen paren van variabelen heel dicht bij nul. Het wordt als volgt berekend:
- Som van gekwadrateerd correlaties / (som van gekwadrateerde correlaties + som van gekwadrateerde partiële correlaties).
KMO heeft meestal een waarde tussen 0.5 (het slechtste geval) en 1.00 (het beste geval, wanneer alle partiële correlaties nul zijn). Waardes hoger dan 0.7 zijn goed genoeg.
Stabiele resultaten
Vaak zijn de resultaten van PCA instabiel, ze verschillen per steekproef. Om dit tegen te gaan is het belangrijk een steekproef te nemen die groot genoeg is. Een vuistregel is dat groter dan of gelijk aan 300 bijna altijd groot genoeg is. Aanvullende regels zijn:
Factor ladingen: Als een factor vier of meer ladingen heeft met een absolute waarde groter dan 0.6, maakt de steekproefgrootte niet uit. Factoren met ten minste tien ladingen hoger dan 0.4 zijn stabiel als N groter is dan 150.
Communaliteiten: Als (bijna) alle communaliteiten groter zijn dan 0.6 is een steekproefgrootte van 100 goed, en boven 0.5 is N tussen 100 en 200 goed genoeg.
Hoe veel componenten?
Het vinden van de factoren of componenten heet factor extractie. Hoe meer factoren, hoe meer variantie uitgelegd wordt, maar hoe minder nuttig de oplossing is. Er is geen universeel criterium om dit probleem op te lossen, maar vier criteria kunnen gebruikt worden:
Het eigenwaarde-groter-dan-één criterium: de eigenwaarde moet minimaal 1 zijn, omdat elke variabele een variantie van 1 heeft.
Interpreteerbaarheid: Componenten moeten betekenisvol zijn. Dit bepalen we aan de hand van algemene kennis, theorie, kennis van voorgaand onderzoek, etc.
Het elleboog criterium: Volgens dit criterium moet je stoppen met het extraheren van factoren op het punt in de grafiek met eigenwaardes waar de curve op een elleboog lijkt. Soms kan geen duidelijke ‘elleboog’ gevonden worden, of zijn er meerdere te zien. Het advies is om j-1 en j+1 componenten te proberen, en degene te kiezen met de duidelijkste interpretatie.
Het ‘steenslag’ criterium: Soms liggen er punten in de eigenwaarde grafiek waar een duidelijke rechte lijn door getekend kan worden. Het criterium zegt dat de oplossing alleen de componenten moet bevatten waarvan de eigenwaardes boven deze rechte lijn liggen. Het probleem is dat er niet altijd een duidelijke rechte lijn is.
Geadviseerd wordt om altijd een grafiek te maken met SPSS van de eigenwaardes. Als er een ‘elleboog’ te zien is, is dit altijd de beste methode (plus of min 1).
Rotatie en interpretatie
Een PCA oplossing kan op oneindig veel manieren beschreven worden, die mathematisch gelijk zijn, maar tot heel verschillende interpretaties kunnen leiden. Dit wordt het rotatieprobleem genoemd.
Eén oplossing heeft een oneindig aantal beschrijvingen
Het rotatieprobleem ontstaat door het veranderen van het perspectief van waaruit we naar de oplossing kijken. Als we F1 en F2 bijvoorbeeld 30 graden naar rechts draaien, ontstaan er nieuwe X- en Y-assen (F1’ en F2’). Hiermee kunnen nieuwe coördinaten voor elke vector (dus variabele) berekend worden. Dit leidt tot verschillende interpretaties.
Simpele structuur
Het doel van rotatie is het vinden van een begrijpelijke en daarmee simpele oplossing. Dit betekent a. zo min mogelijk componenten, en b. elk component moet gerelateerd zijn aan een klein aantal geobserveerde variabelen. Zo’n simpele oplossing is bijna onmogelijk omdat de componenten zo worden gekozen dat het 1e component zoveel mogelijk variantie verklaart, vervolgens moet het 2e component ook zo veel mogelijk variantie verklaren enzovoorts. Dit is goed voor datareductie, maar geen simpele oplossing. PCA is ‘biased’ in de richting van het vinden van een algemeen eerste component. Dit accentueert wat alle geobserveerde variabelen gemeenschappelijk hebben. Alle volgende componenten zijn contrast componenten, omdat ze orthogonaal zijn aan het eerste component. Vooral in situaties met veel items en componenten is deze oplossing complex. Daarom is een rotatie die een simpele structuur vindt in de data gewenst. Dit kan op verschillende manieren.
Rotatiemethodes: orthogonale (VARIMAX) en niet-orthogonale (OBLIMIN)
De VARIMAX rotatie probeert de variantie van de ladingen voor elk component te maximaliseren. Als er een simpele structuur is in de data (homogene subsets van items die niet sterk gecorreleerd zijn met items van andere subsets), vindt VARIMAX deze eerder dan de andere rotaties. Na VARIMAX blijven de communaliteiten hetzelfde. De totale verklaarde variantie blijft ook hetzelfde. Het nieuwe coördinaten systeem blijft orthogonaal (in een hoek van 90°).
Rotatiemethodes waarbij de hoeken van de assen veranderen worden schuine rotaties genoemd (in SPSS: OBLIMIN). Dit levert een realistischer interpretatie, maar het wordt wel ingewikkelder. Daarom, en vanwege historische redenen, wordt VARIMAX het meest gebruikt. Doe altijd een VARIMAX rotatie, maar als deze oplossing onbegrijpelijk is, moet gekeken worden naar de ongeroteerde oplossing.
SPSS voorbeeld
De belangrijkste SPSS keuzes zijn als volgt:
Analysemethode: In het extractie scherm binnen ‘FACTOR’ kan gekozen worden voor PCA en andere soorten factor analyses. PCA is de standaard instelling.
Het aantal componenten kan gekozen worden in het Extractie scherm.
Ongeroteerde oplossing en eigenwaardes plot: ‘Unrotated factor solution’ en ‘Scree plot’ aanzetten in het extractie scherm.
Rotatiemethode: in het rotatiescherm kan VARIMAX worden gekozen.
Variabelen sorteren: door ‘Sorting by size’ te kiezen in het ‘options’ scherm zijn alle variabelen van hoog naar lage ladingen op elke component gesorteerd.
Eigenwaardes, communaliteiten en verklaarde variantie
Onder het kopje ‘Extraction Sum of Squared Loadings’ in SPSS staan de eigenwaardes en de verklaarde variantie voor de ongeroteerde componenten. Als er sprake is van een sterke datareductie moet je geen al te hoge verklaarde variantie verwachten. Onder het kopje ‘Rotation Sum of Squared Loadings’ is de verklaarde variantie en de eigenwaardes voor de geroteerde componenten te vinden. De rotatie verandert niet de totale verklaarde variantie, maar de variantie is gelijkmatiger verdeeld over de componenten. Als een variabele een lage communaliteit heeft, is dit een unieke variabele. Dit kan betekenen dat de variabele iets heel anders meet dan we willen, maar kan ook betekenen dat het item iets belangrijks meet, wat niet door andere items wordt gemeten. Het hoeft dus niet slecht te zijn.
Assumpties in PCA
De volgende aannames worden in PCA gemaakt:
De relaties tussen de geobserveerde variabelen zijn lineair. Dit kan bepaald worden met scatterplots.
De geobserveerde variabelen volgen een multivariate normaalverdeling. Deze aanname is niet heel belangrijk.
De correlaties tussen de geobserveerde variabelen zijn betrouwbaar. De steekproef moet representatief en groot genoeg zijn.
PCA versus factor analyse (FA)
PCA en factor analyse worden vaak door elkaar gehaald in de praktijk. SPSS draagt bij aan deze verwarring door beide technieken te integreren in één procedure: FACTOR. Er is echter wel onderscheid tussen PCA en FA.
PCA: empirische samenvatting van verzamelde data
Het wordt wel gezegd dat PCA een empirische samenvatting geeft van data, omdat componenten worden gevonden door het optellen van geobserveerde variabelen die een bepaald gewicht hebben gekregen. Een component representeert de variabelen.
FA: model voor geobserveerde associatie
Terwijl PCA wil onderscheiden wat belangrijk en onbelangrijk is in de variantie van variabelen, wil FA juist ontdekken wat gemeenschappelijk is in de variantie van variabelen vergeleken met wat uniek is voor individuele variabelen. Bij FA wordt eerst een model gemaakt voor de geobserveerde associaties binnen een set variabelen. Het model probeert deze associaties zo accuraat mogelijk te reproduceren. De factoren, ook latente variabelen genoemd, zijn hypothetische constructen die alleen indirect meetbaar zijn, in tegenstelling tot bij PCA. Bij FA wordt ook een unieke factor gemaakt voor elke variabele, dit bevat alle variantie van die variabele die niet verklaard kan worden door de algemene factoren. De unieke factoren zijn dus ‘error’. FA wordt soms structureel of causaal model genoemd.
Het factor analyse model
Het factor analyse model specificeert elke geobserveerde variabele als de gewogen som van de gemeenschappelijke factoren en een unieke factor, die specifiek is voor die variabele. Bij FA zijn de factoren de oorzaak van de geobserveerde correlaties, in tegenstelling tot bij PCA. Het tweede verschil is de aanwezigheid van unieke factoren Uj. Unieke factoren zijn niet gecorreleerd met elkaar en met algemene factoren. FA en PCA komen vaak op dezelfde conclusie omdat ze dezelfde informatie gebruiken. Alleen bij een klein aantal variabelen kunnen de resultaten verschillen. Dan is te zien dat FA vooral een model is voor de geobserveerde correlaties, terwijl PCA een techniek is die zo veel mogelijk variantie probeert te verklaren. Samenvattend kunnen we zeggen dat PCA de varianties wil verklaren, terwijl FA de covariantie van de geobserveerde variabelen wil verklaren.
- 1366 keer gelezen
Add new contribution