College-aantekeningen bij Psychometrie aan de Universiteit Leiden - 2015/2016

College 1: Schaling en Normering
College 2: Betrouwbaarheid
College 3: Validiteit
College 4: PCA en FA
College 5: Confirmatieve factoranalyse
College 6: IRT als alternatief voor KTT
College 7: Classificatie en discriminantanalyse
Bron

College 1: Schaling en Normering

Psychometrie

In de psychometrie bestudeert men de testscore. Hierbij gaat men van kwalitatief materiaal (antwoorden op testitems) naar kwantitatieve testscores. Daarbij stelt men zich de vraag wat de kwaliteit is van deze scores.

Psychologische eigenschappen zijn moeilijk te meten omdat ze een hele brede verscheidenheid hebben en omdat ze niet direct observeerbaar zijn. Toch willen we het graag meten en weten. Het psychologische construct dat niet observeerbaar is (de latente variabele) beïnvloedt het observeerbare gedrag. Om toch iets te weten te komen over het construct draaien we het om: het observeerbare gedrag (de operationele definities) vertelt iets over hetgeen dat niet direct observeerbaar is. Met behulp van deze redenering voert men psychologische testen uit.

Een psychologische test is een systematische gedragssteekproef, waarmee mensen een vaste set items moeten beantwoorden. Voor iedereen moeten deze items hetzelfde zijn, en de test moet op dezelfde manier bij iedere participant worden afgenomen. Met de uitkomsten kunnen er vergelijkingen worden gemaakt, bijvoorbeeld tussen verschillende personen, ook wel inter-individuele verschillen. Intra-individuele verschillen zijn vergelijkingen die gemaakt worden tussen condities of tijdstippen binnen personen.

Testscores

Met testscores wordt de kwaliteit van bepaalde items bepaald. De eisen voor kwaliteit zijn van groot belang voor psychologische testen. Belangrijk zijn hierbij de betrouwbaarheid en de validiteit. Bij betrouwbaarheid gaat het om de afwezigheid van toevalsmeetfouten en bij validiteit gaat het om de afwezigheid van systematische meetfouten (‘meet ik wel wat ik wil meten?’). Het is belangrijk om ervoor te zorgen dat een test zo betrouwbaar en valide mogelijk is. Daarnaast zijn er nog andere factoren die een psychologische test lastig maken:

Participantreactiviteit:
- ‘Demand characteristics’: de participanten weten dat ze in een onderzoek zitten en passen hun gedrag aan.
- Sociale wenselijkheid: de participanten reageren soms anders door sociaal gewenste antwoorden te geven.
- Malingering: Participanten verzinnen/overdrijven antwoorden. Of hebben verwachtingen over hun uitslag van de test en antwoorden hiernaar.
‘Expectation bias’: Er wordt verwacht dat de desbetreffende groep waarin men zit lager scoort en er wordt hiernaar geantwoord.

Daarnaast staat niet iedereen stil bij de kwaliteit van de toets (bijvoorbeeld een leraar die niet nadenkt over de kwaliteit van zijn proefwerk).

Schaling

Schaling van testscores gaat om de manier waarop er getallen worden toegewezen aan psychologische eigenschappen. Er worden testscores of categorieën bepaald uit itemresponsen. Denk hierbij aan de verschillende meetniveaus (nominaal, ordinaal, interval en ratio). Zie hiervoor de tabel op dia 16.

De totaalscore en het gemiddelde zijn twee veel voorkomende schaalscores. De totaalscore is de som van de itemscores. Het gemiddelde is de totaalscore gedeeld door het aantal items.

Ruwe scores kunnen op zichzelf slecht worden geïnterpreteerd. De hoogte van een testscore is namelijk afhankelijk van het aantal items en de verschillende itemscores. Om de ruwe scores te interpreteren worden er normen gesteld. Voorbeelden van deze normen zijn percentiel- en standaardscores.

Percentielscores en standaardscores

Bij percentielscores wordt gekeken naar een percentage personen met eenzelfde of een lagere score. Zie dia 23 voor de berekening van een percentielscore.
Standaardscores zijn het aantal standaarddeviaties die afwijken van het gemiddelde. De verdeling zal hierbij echter hetzelfde blijven. De ruwe scores kunnen worden omgezet naar Z-scores door middel van de volgende formule:

Z_x= (X-M_x)/SD_x

Waarbij geldt SD_z = 1 en M_z = 0

Ook kunnen er T-scores worden uitgerekend. Deze zijn veel beter te begrijpen doordat er geen negatieve scores meer voorkomen. T-scores worden berekend met de volgende formule:

T_x = 10*Z_x + 50

Waarbij geldt SD_T= 10 en M_T = 50

Normtabellen bevatten elke voorkomende ruwe score, geordend van laag naar hoog, gekoppeld aan normscores en eventueel met verwachtingen.

Er bestaan twee typen normen, namelijk normgerichte interpretatie en domeingerichte/criteriumgerichte interpretatie. Normgerichte interpretatie is een relatieve norm zoals het percentiel en de Z- en T-scores: de norm wordt aangepast aan de resultaten. De criteriumgerichte interpretatie is een absolute norm. Hierbij worden vaste standaarden of grensscores gehanteerd.

College 2: Betrouwbaarheid

Betrouwbaarheid is te beschrijven aan de hand van de vraag ‘In hoeverre zijn verschillen in testscores een functie van werkelijke individuele verschillen?’. Eigenlijk wil men dus weten in hoeverre men dezelfde uitkomst krijgt, wanneer men verschillende malen meet en in hoeverre deze score vrij is van random meetfouten. Testen kunnen namelijk nooit de werkelijke score meten, zij geven alleen de testscore weer. En op deze manier ontstaan deze ‘errors’.

In de klassieke testtheorie wordt hiervoor de volgende formule weergeven.
Xo = Xt + Xe. Waarbij de geobserveerde score (Xo) de optelling is van de ware score (Xt) en de error (Xe). De ware score (Xt) is dus niet direct observeerbaar. Daarom wordt dit een latente variabele genoemd, welke geschat moet worden. Bv. Wanneer men een IQ test afneemt, dan hoopt men dat de test de werkelijke score weergeeft. Echter, is dit nooit perfect. De geobserveerde score is daarom gelijk aan: t + error. Error = Xe – Xo – Xt (dit kan negatief of positief zijn).

Aan de klassieke testtheorie zitten drie assumpties vast. Aangezien Xo de som is van twee onbekende factoren, wat onoplosbaar is, geldt:

µ_e = 0. De gemiddelde errorscore in de populatie is nul. Er is geen sprake van systematische over- of onderschatting van de ware scores.
r_et = 0. De correlatie tussen error en ware score is nul. Iedereen heeft een gelijke kans, de errors zijn dus ongecorreleerd met de ware scores. Bv. Het maakt niet uit of de werkelijke IQ score 100 of 60 is, voor alle mogelijke ware scores geldt nog steeds dat de gemiddelde error nul is.
r_eiej = 0. De error van persoon 1 zegt niets over de error van persoon 2 en deze scores zijn dus niet gecorreleerd; ze zijn volledig random en onafhankelijk van elkaar.

De variantie van X_O is S_O² = S_T²+ S_E². In de ideale test is S_T²gelijk aan S_O² en zijn er dus geen random meetfouten gemaakt (S_E²=0). In alle andere gevallen is er wel een error, welke negatief of positief kan zijn. Hoe kleiner deze error is, des te beter de scores een afspiegeling zijn van de ware scores.

Betrouwbaarheidscoëfficiënt

R_xx is de betrouwbaarheidscoëfficiënt, wat gelijk staat aan de proportie verklaarde variantie van X_Odoor X_T.R_xx = S_T²/ S_O² of R_xx = 1 – (S_E²/ S_O²). R_xx zit tussen de nul en één, en is verder gelijk aan de gekwadrateerde correlatie r_OT² (oftewel: 1- r_oe²).

Aangezien ware scores, de ‘errors’ en varianties onbekend zijn, moeten er voor het schatten van de betrouwbaarheid minstens twee observaties zijn gedaan per persoon. Dit kan gedaan worden met parallelle metingen.

Parallelle metingen:

Parallelle metingen zijn metingen waarbij de errorscores ongecorreleerd zijn en de varianties van de errorscores gelijk zijn. De metingen moeten ook dezelfde ware scores meten. De reden hiervan is dat alles wat de metingen van X en Y gemeen hebben, afkomstig is van de ware score. De correlatie tussen twee parallelle tests geeft een schatting voor de betrouwbaarheid van beide tests, want paralleltests hebben altijd dezelfde betrouwbaarheid.

Er zijn drie manieren van parallelle metingen: Alternate forms, test-hertest en split-half. Bij ‘alternate forms’ zijn er twee verschillende test voor hetzelfde construct. Hierbij kan wel het ‘carry-over effect’ ontstaan; test 1 beïnvloedt resultaat van test 2, wat tot een overschatting van de betrouwbaarheid leidt. Een ander probleem is dat men nooit zeker weet of de tests werkelijk parallel zijn.
Bij ‘test-hertest’ wordt dezelfde test twee keer afgenomen op een ander tijdstip, maar ook hier kunnen carry-over effecten optreden. Daarnaast is er het probleem dat mensen veranderen over tijd.
Bij ‘split-half’ worden er in één test twee parallelle helften gemaakt. De betrouwbaarheid voor de hele test wordt vervolgens berekend met de ‘Spearman-Brown formule’.

Spearman-Brown formule

N is in deze formule de factor waarmee een test vergroot of verkleind wordt, en dus niet het aantal items!

Er kunnen natuurlijk uitputtend veel tweedelingen worden gemaakt. Daarom kan er ook voor worden gekozen om alle items van de test als aparte test te zien. Er kunnen nu berekeningen worden uitgevoerd met de Cronbach’s alpha. Deze test is over het algemeen meer betrouwbaar bij een split-half test, aangezien alle items nu gecombineerd worden. Voor formules, zie de powerpoint op Blackboard.

Standaard meetfout

De standaard meetfout kan men als volgt berekenen: S_E²= S_O² * √(1-R_xx). De standaard meetfout wordt vaak afgekort met S_em. Deze geeft de nauwkeurigheid van individuele metingen aan en is ook de standaarddeviatie van de error. Er wordt vaak ook een 95% betrouwbaarheidsinterval bij gegeven. Als de scores negatief zijn, zitten de ware scores onder het gemiddelde.

Kritische kijk op gebruikte aannames:

Er zijn enkele feiten aangenomen om R_xx te schatten, echter zijn deze niet altijd (helemaal) waar:

De drie CTT-aannames (µ_e = 0; r_et = 0; = 0) – deze zijn in de praktijk niet altijd gelijk aan nul!

Tau-equivalentie – in de praktijk meten de items van twee parallelle testen niet altijd precies dezelfde feiten: de testen zijn namelijk eigenlijk niet precies parallel te maken!
Identieke error varianties - in de praktijk zijn de varianties van twee parallelle testen niet precies hetzelfde: de testen zijn namelijk niet precies parallel te maken!

College 3: Validiteit

Validiteit

Bij validiteit wordt er gekeken of een instrument meet wat het beoogt te meten. Een test is valide wanneer er juiste, betekenisvolle en bruikbare gevolgtrekkingen mee gemaakt kunnen worden. Ofwel: in hoeverre is een test vrij van systematische fouten.

In het boek van Furr en Bacharach (2014) wordt validiteit besproken als de interpretatie en het gebruik van testscores in relatie tot bepaalde doelen. Validiteit gaat dus niet over de waarden op zich, maar over wat men hiermee doet (niet de test, maar de conclusies uit de test zijn valide of niet). Validiteit is multidimensionaal ( heeft meerdere eigenschappen) en gradueel (er is een bepaalde mate van validiteit, het is niet zomaar aanwezig of afwezig).

Constructvaliditeit

Constructvaliditeit (ook wel begripsvaliditeit) is de interpretatie van een test als weergave van een psychologisch construct. Men kijkt hierbij dus in hoeverre de interpretatie overeenkomt met de gemeten constructen. Er zijn 5 soorten bewijs voor constructvaliditeit:

Testinhoud
Interne structuur van de test
Response processen
Associaties met andere variabelen
Gevolgen van testgebruik

a. Inhoudsvaliditeit:

Bij inhoudsvaliditeit wordt gekeken of de items van de test aansluiten bij de belangrijkste deelconstructen. Bedreigingen die hierbij opspelen zijn dat items, of informatie over vragen, soms irrelevant zijn voor een test (construct-irrelevante inhoud) en dat deelconstructen soms niet goed vertegenwoordigd worden, door te weinig of geen items (construct-ondervertegenwoordiging).

b. Interne structuur van een test:

De hoofdvraag bij het bekijken van de interne structuur van een test is of de items en subtests van een test één samenhangend geheel vormen.

Wanneer het antwoord op deze vraag ‘ja’ is, is er sprake van homogeniteit. Er is één onderliggende dimensie aan het construct. Wanneer het antwoord op deze vraag ‘nee’ is, dan is er sprake van heterogeniteit en zijn er meerdere onderliggende dimensies.

c. Responsprocessen:

Bij responsprocessen gaat het om in hoeverre er overeenkomst is tussen de psychologische processen die personen verondersteld worden te gebruiken, en die personen werkelijk gebruiken bij het doen van de test.

d. Relaties met andere variabelen:

Predictieve validiteit is het voorspellen van een uitkomst in de toekomst, en vaak is dit een praktisch relevant criterium.

Multitrait- multimethod matrix ( MTMMM)

Als je kijkt naar sheet 18 van de slides zie je een matrix. Deze matrix gaat over de correlaties tussen bepaalde groepen. De dikgedrukte getallen zijn de Cronbach’s alfa’s voor de desbetreffende scores. Onder de Cronbach’s alfa staat de correlatie tussen 2 constructen.

Convergente evidentie: correlaties tussen dezelfde ‘traits’ zijn hoog in verschillende testen. Discriminante evidentie: correlaties tussen verschillende ‘traits’ zijn laag en dus onafhankelijk van elkaar.

Als er wordt gekeken naar de matrix zien we dat de onderstreepte getallen de convergente evidenties zijn.

Taylor- Russell tabel

Op sheet 23 is een voorbeeld te zien van een Taylor-Russell tabel. Deze wordt gebruikt bij ‘ja/nee’ kwesties. Bovenin de tabel staat de ‘base rate’ genoemd. Met de ‘base rate’ wordt in dit geval een toelating tot de opleiding Geneeskunde bedoeld. Er is sprake van de ‘base rate’ als 44 procent wordt toegelaten en de predictieve validiteit gelijk is aan 0. Als deze met 0.2 verhoogd wordt, kan er gezegd worden dat de ‘base rate’ verhoogt met 0.06-0.07.

Bias

Er bestaat zowel test bias als item bias.

Test bias komt voor wanneer een test andere dingen meet bij verschillende groepen.

Predictieve bias is het fenomeen waarbij het voorspellen van scores verschillende consequenties heeft voor verschillende groepen. In een figuur is dit te zien als de regressielijn anders gaat lopen. Wanneer er sprake is van andere regressieformules, is er een bias aanwezig. Er zijn verschillende soorten predictieve bias. Bij intercept bias hebben de regressielijnen dezelfde hellingshoek, maar een verschillend ‘intercept’. Bij een slope bias hebben de regressielijnen een verschillende hellingshoek.

Constructbias is het fenomeen waarbij een test verschillende constructen meet in verschillende groepen.

Wanneer men een bias vermoedt, dan kan men aan de verschillende groepen verschillende behandelingen geven. Zo kan men bij een predictieve bias adviezen geven op basis van de regressielijn die de verschillende groepen hebben.

Item bias (ook wel ‘differential item funtioning’ (DIF)) komt voor wanneer personen uit verschillende groepen met dezelfde vaardigheid een ongelijke kans hebben om een item goed te maken. Denk hierbij bijvoorbeeld aan geslacht of etniciteit.

College 4: PCA en FA

PCA en FA

Principale Componenten Analyse en Factor Analyse zijn analyses waarbij het reduceren van data het doel is. Beiden zijn zij ontwikkeld in samenspraak met de psychologie, in tegenstelling met tot de biologie. Bij datareductie wordt een grote set variabelen verkleind tot een veel kleinere set onderliggende dimensies. Dit kan nuttig zijn om overzicht te creëren en om te veel overlap te voorkomen tussen de dimensies. Een voorbeeld hiervan is alle persoonlijkheidseigenschappen reduceren tot de Big Five. Deze variabelen moeten van interval niveau zijn. Slechts bij de PCA mogen de variabelen dichotoom zijn.

Deze week worden PCA en exploratieve factoranalyse (EFA) besproken, waarbij er geen exacte vraag wordt gesteld. Van te voren heeft de onderzoeker wel bepaalde verwachtingen, echter bevinden deze verwachtingen zich in vroege fase van het onderzoek. Het onderzoek dient de techniek gedeeltelijk open te laten. Het verschil tussen Principale Componenten Analyse en Factor Analyse is dat Factor Analyse een expliciet model heeft. Hiermee wordt bedoeld dat het model zo in elkaar zit dat de scores op de geobserveerde variabelen worden verklaard in dit expliciete model door niet direct observeerbare, ofwel: latente variabelen. Bij Factor Analyse gaan we met een gedetailleerde hypothese bekijken of het idee wat we over de data hebben ook daadwerkelijk klopt. Bij de Principale Componenten Analyse wordt alleen een a-theoretische ‘herschrijving’ maakt van variabelen tot componenten. Bij Principale Componenten Analyse gaan we kijken naar de data zonder verwachtingen. Er wordt dus alleen geobserveerd. PCA heeft geen beschrijving voor error. Bij PCA hoopt men dat ‘errors’ verdwijnen naar hogere dimensies, terwijl de Factoranalyse een expliciet model voor error heeft.

Functie van PCA

PCA kunnen we op zowel een algebraïsche manier als een geometrische manier bekijken. Als we kijken naar de algebraïsche manier is een principale component een lineaire combinatie van variabelen. De eerste component moet zoveel mogelijk variantie verklaren van de variabelen. Zo komt de eerste component het dichtst in de buurt met het beschrijven van de variabelen. Ieder component dat hierop volgt probeert ook zoveel mogelijk variantie te verklaren, maar is totaal niet gecorreleerd aan de voorafgaande component (orthogonaliteit). Hierdoor zullen een aantal componenten een overgroot deel van de variantie verklaren en kunnen de belangrijkste componenten geselecteerd worden. De data zijn nu gereduceerd.

Als we PCA op de geometrische manier bekijken zijn de componenten gelijk aan vectoren. Hoe meer deze naar rechts of naar boven gelegen is, hoe hoger de score op een van de componenten. De opvolgende vector is niet gecorreleerd aan de voorafgaande vector en staat daarom loodrecht op de eerste vector. Het is lastig om dit model te maken voor meer dan 2 variabelen, omdat er dan een ruimtelijke structuur ontstaat.

Communaliteit en componentlading

C_ij is de componentlading. Dit is de correlatie van variabele X_i met component j. Wanneer de componentlading gelijk is aan 0, hebben de variabele en het component niets met elkaar gemeen. Als je de componentlading kwadrateert (Cij²) krijg je de proportie variantie van variabele X_i verklaard door component j.

De ‘uniekheid’ van een variabele wordt aangegeven met de communaliteit. Hoe lager de communaliteit, hoe unieker de variabele. Het is de proportie verklaarde variantie per variabele. Verder is het de som van gekwadrateerde componentladingen.

Som van de gekwadrateerde componentladingen

In deze formule is k het maximaal aantal componenten, h_i²is de communaliteit, Cij²is de componentlading in het kwadraat.

Eigenwaarde

De eigenwaarde van een variabele is de som van de gekwadrateerde componentladingen per component. Het is de hoeveelheid verklaarde variantie van alle variabelen bij elkaar. Als dit wordt gedeeld door het aantal variabelen krijgt men de proportie verklaarde variantie.

Criteria voor het aantal componenten

Om te bepalen tot hoeveel componenten men het best kan reduceren, zijn er een aantal richtlijnen, namelijk:

De eigenwaarde moet groter zijn dan 1. Je kunt alle componenten gebruiken die een eigenwaarde hebben die groter is dan 1.
Knik: als we naar de grafiek op sheet 12 kijken, zien we een grafiek met daarin een lijn die componenten aangeeft en hun bijbehorende eigenwaarde. We zien dat de lijn erg snel afneemt met het toenemen van het aantal componenten. Als we een grens willen stellen voor het aantal componenten die gebruikt kunnen worden voor de analyse, moet er gekeken worden naar de knik in de lijn. Dit is een vage omschrijving, maar meestal geeft dit wel het juiste antwoord. Vaak kan er ook 1 component meer of minder worden gebruikt.
Interpreteerbaarheid: alle oplossingen bekijken en dan de oplossing kiezen waar je het beste een verhaal van kunt maken, is de meest begrijpelijke/praktische oplossing. Dit is een hele vage methode.

Interpretatie

Componentladingen kunnen worden gebruikt voor de interpretatie van een PCA-oplossing. Als dit algebraïsch wordt gedaan, moeten de ladingen worden onderstreept met de absolute waarde boven een grenswaarde (meestal wordt de grenswaarde 0.40 gehanteerd, maar dit kan verschillen). Daarna moet worden bepaald voor variabelen met hoge ladingen op hetzelfde component of deze wat gemeenschappelijk hebben, en of dit gemeenschappelijke deze variabelen onderscheidt van variabelen die niet op de component laden.

Als er meetkundig wordt geïnterpreteerd maakt men een grafiek waarin de variabelen als vectoren in de componentenruimte staan. De lijn loopt vanuit de oorsprong naar het punt van componentenlading. Er wordt dan gekeken naar de verschillende lengtes (hoe langer de vector, hoe beter de variabele verklaard wordt) en naar de hoek (hoe scherper de hoek tussen de vectoren, hoe hoger de correlatie tussen de variabelen).

Rotatie

Als er wordt gekeken naar sheet 15 is hierop een plaatje te zien met vectoren. Wanneer de hoek tussen de verschillende vectoren klein is, zullen de vectoren meer met elkaar correleren. Een hoek kleiner dan 90 graden geeft een correlatie aan. Als de hoek gelijk is aan 90 graden, zullen de componenten die zijn uitgebeeld via de vectoren onderling niet correleren. Bij rotatie wordt er anders gekeken naar de oplossing: het assenstelsel wordt veranderd. Zo krijg je een ‘simple structure’ (de meest ideale situatie) waarbij een interpretatie makkelijker wordt. VARIMAX is de meest gebruikte rotatie, waarbij nieuwe assen worden gekozen op zo’n manier dat varianties van gekwadrateerde factorladingen per factor zo hoog mogelijk zijn. Voorbeelden met SPSS zijn te zien in de slides vanaf dia 19.

College 5: Confirmatieve factoranalyse

CFA en SEM:
CFA is een onderdeel van de SEM, wat staat voor ‘structural equation modelling’. Met SEM onderzoekt men expliciete modellen voor (causale) relaties van drie of meer variabelen. Het is een toets voor een model als geheel. Bij SEM zijn manifeste en latente variabelen goed te onderscheiden en kunnen de onderlinge relaties worden geschat en getoetst.

SEM cyclus toegepast op CFA:
Er zijn een aantal stappen die standaard worden doorlopen in het SEM model. Dit heet de SEM cyclus en hieronder vallen de volgende stappen:

Modelspecificatie:

Hierbij wordt uit de theorie of hypothese een model gevormd, die verschillende onderdelen bevat. Manifeste variabelen zijn testscores. Latente variabelen zijn psychologische constructen. Alle manifeste variabelen hebben een error. De error zelf is een latente variabele. Ook hebben we pijlen nodig voor het model. Een eenrichtingspijl toont een causaal verband aan en een wederkerige pijl laat een correlatie zien. Bij het SEM model voor CFA bestaan er alleen inkomende pijlen, waarbij alle pijlen van latent naar manifest gaan. Als er geen pijlen tussen factoren aanwezig zijn, betekent dit ook meteen dat er geen relatie is tussen de factoren: deze staat dan op 0 en wordt dus ‘vastgezet’. Bij elke pijl hoort een modelparameter. De structurele vergelijkingen per manifeste variabelen zijn te vinden in de slides van week 5.

Modelidentificatie:

Hierbij moet na worden gegaan of het model geschat of getoetst kan worden. Wanneer we het SEM model willen gaan toetsen, moeten er niet teveel onbekende variabelen in de vergelijking zitten. Dit kan men zien aan het aantal vrijheidsgraden. Als dat getal positief is (groter dan 0), is het model toetsbaar. Je kunt het aantal vrijheidsgraden op de volgende manier berekenen:

Df = V – P. Waarin het aantal relaties (pijlen) in het model is P en het aantal varianties en covarianties V = (k(k+1)/2).

Parameterschatting:

Men kan kijken of er ‘warnings’ zijn. ‘Warnings’ zijn varianties of covarianties die op bepaalde factoren hoog scoren, terwijl ze niet mogen correleren of andersom. Op sheet 20 is een variantie-covariantiematrix te zien. Hierin mogen tussen X1, X2, X3 en X4,X5,X6 geen hoge covarianties aanwezig zijn.

Model-evaluatie:

Met een Chi-kwadraattoets evalueren we het model. Wanneer er een significant resultaat wordt gevonden, klopt ons model niet. H0 wordt dan namelijk verworpen. In dit geval is H0 dat de data en het model overeenstemmen.

Er zijn wel wat problemen met de Chi-kwadraattoets, zoals dat deze erg snel significant wordt bevonden met een groot aantal deelnemers. We kijken daarom ook naar de volgende fit-maten:

RMSEA (deze meet standaarderror): een fitmaat kleiner dan 0.06 is goed, kleiner dan .10 is acceptabel.
NFI: een fitmaat groter dan 0.9 is goed.
NNFI: een fitmaat groter dan 0.9 is goed.
CFI: een fitmaat groter dan 0.95 is goed.

Deze fitmaten kunnen elkaar (en dus ook de Chi-kwadraat) nog wel eens tegenspreken, in dit geval kijk je naar de meerderheid.

Modelbijstelling:

Als blijkt dat het model niet klopt, kunnen we kijken of er toch meer factoren zijn, die we eerst op 0 hadden gezet (geen pijl hadden gegeven), die correleren en aan de hand daarvan het model wijzigen.

Residuen:
Residuen kunnen ons helpen bij de keuze hoe we een model kunnen verbeteren. Een residu is het verschil tussen de covariantie en de terug geschatte covariantie. We rekenen graag met gestandaardiseerde residuen: Zres_ij= r_ij- r(gem)_ij.

Een residu is groot wanneer het groter is dan 0.10 of kleiner dan -0.10. Als residuen voor een bepaalde variabele groot zijn, is het model voor die variabele niet goed. Ook moet er worden gekeken naar de verdeling van de residuen (normaal verdeeld, symmetrie, gecentreerd rond nulpunt).

Het verbeteren van een slechte fit:
Men kan de fit verbeteren door de parameters vrij te maken. Dit kan door meer pijlen aan het model toe te voegen. Men kan zien of deze pijlen ontbreken door te kijken naar een patroon in residuen. Wanneer deze allemaal positief of allemaal negatief zijn, kan het zo zijn dat er een correlatie is tussen twee factoren.

Wanneer is een model bewezen?
Met de CFA kan men eigenlijk alleen een model falsifiëren. Een model bewijzen is erg moeilijk. Men kan een modeltoets doen om te kijken of het bewerkte model een significante verbetering heeft ten opzichte van het eerdere model. Dit kan aan de hand van de volgende formules:

Δ X²= X²(1) – X²(2), in andere woorden: X²complex model - X² simpel model. Dit komt altijd uit op een positief getal. Is dit niet het geval, heb je waarschijnlijk het complexe model van het simpele model afgetrokken. Het complexe model is het model met de meeste pijlen.

Δ df= df(1) – df(2)

De uitkomst hiervan kunnen we vergelijken met de tabel van de Chi-kwadraat toets en zo de bijbehorende p-waarde vinden. De toets kan alleen worden uitgevoerd wanneer beide modellen genest zijn met elkaar. Dit betekent dat alle pijlen van Model A (simpel) ook in Model B (complex) aanwezig zijn, maar model B heeft ook nog extra pijlen.

Tot slot:
SEM modellen hebben wel een aantal problemen en beperkingen. Deze modellen vereisen bijvoorbeeld een groot aantal personen. Ook maken SEM modellen zware assumpties over de data en de SEM modellen zijn minder robuust tegenover schendingen hiervan dan andere technieken. Daarnaast is CFA niet werkelijk toetsend. Je nieuwe model is gebaseerd op het vorige model. Hierdoor gaat men steeds meer geloven in het model en smokkelen we eigenlijk met de statistische regels.

College 6: IRT als alternatief voor KTT

Het verschil tussen KTT (de klassieke testtheorie) en IRT (de item-responstheorie) ligt bij de stap van het berekenen en evalueren van testscores. Bij KTT is betrouwbaarheid het centrale begrip. Er wordt gekeken in hoeverre de testscores overeenkomen met de ware scores, hierbij spelen de item-kenmerken geen rol. De statistieken van KTT zijn dus populatie-afhankelijk. Voorbeeld: Wanneer een rekentoets wordt afgenomen bij kinderen op de basisschool, kan dit hele andere resultaten opleveren wanneer dezelfde rekentoets gegeven wordt aan studenten op de universiteit. Dit kan de betrouwbaarheid belemmeren. Dit is een tekortkoming van KTT.
Het doel van IRT is om personen en items op dezelfde schaal te ordenen. Doordat bij IRT de itemkenmerken ook mee worden genomen in het model, zijn deze niet populatie-afhankelijk.
Het persoonskenmerk is de vaardigheid (θ), een latente variabele, waarbij geldt: hoe hoger de vaardigheid, hoe waarschijnlijker het is dat deze persoon een correct antwoord geeft. Een itemkenmerk uit het model is de moeilijkheidsgraad β. Als deze hoog ligt, dan is het onwaarschijnlijk dat er een correct antwoord wordt gegeven. Tussen de vaardigheid en de moeilijkheidsgraad ligt een verband, dat bepaald wordt door specifieke IRT-modellen.

Specifieke IRT-Modellen

Er zullen drie verschillende modellen worden beschreven, namelijk: Guttman model, één-parameter logistisch model (1PL): het Rasch-model en het twee-parameter logistisch model (2PL). De verschillen tussen deze modellen zitten in de itemkenmerken en de uitkomsten.

Het Guttman model

Dit is het eerste IRT model; hierbij wordt de respons volledig verklaard door de vaardigheid en de moeilijkheidsgraad. Hierdoor ontstaat er een stapsgewijze curve en is er geen vloeiende overgang aanwezig. Dit noemen we ook wel een deterministisch model. Als de vaardigheid kleiner is dan de moeilijkheidsgraad is het antwoord fout (0). Ligt de vaardigheid hoger dan is het antwoord goed (1). Dit model is erg beperkend, aangezien er maar k + 1 antwoordmogelijkheden zijn (je kunt nooit makkelijke vragen fout hebben en moeilijke goed).

Er is een alternatief bedacht voor het restrictieve Guttman-model, namelijk probabilistische modellen. Bij probabilistische modellen is de lijn wel vloeiend en stijgt de curve langzaam van 0 naar 1. Het is een S-curve. Dit model wordt weergegeven met een logaritmische functie, waardoor er 2^kantwoordmogelijkheden zijn. Sommige antwoordpatronen zijn echter onwaarschijnlijker dan andere, dus je moet je afvragen of de toevoeging van enkele mogelijkheden wel nuttig is. Voorbeelden van probabilistische modellen die we nu gaan bespreken zijn de 1PL en 2PL, die verschillen in het aantal parameters.

Één-parameter logistisch model (1PL): het Rasch-model:

Het Rasch-model is een 1-dimensionaal model. Dit betekent dat er slechts één itemparameter relevant is. Dit is de moeilijkheidsgraad β; het persoonskenmerk is nog steeds de vaardigheid θ. Wanneer de moeilijkheidsgraad gelijk is aan het vaardigheidsniveau, dan is de kans dat een persoon een item goed beantwoordt 50%.

De formule die hierbij hoort is:

P(Xis=1|θs βi) = e(θs-βi) / 1+e(θs-βi)

Dit is de kans dat het antwoord goed is, gegeven de vaardigheid en de moeilijkheidsgraad.

Twee-parameter logistisch model (2PL):

Het 2PL model is een model waarbij twee itemparameters relevant zijn. Dat zijn de moeilijkheidsgraad en de α_i (het onderscheidend vermogen). Dit is de mate waarin een item personen met een laag en hoog niveau van elkaar kan onderscheiden. Deze kan voor elk item anders zijn. Dit leidt tot de volgende formule:

P(Xis=1|θs βi α_i) = e[α_i(θs-βi)] / 1+e[α_i(θs-βi)]

De discriminatieparameter α_i geeft de steilheid van curve aan, op het steilste punt snijdt deze de kans van 50%. Hier geldt θ = β.

Wel moet hier vermeld worden dat het 1PL-model nu is uitgelegd alsof alle alpha’s 1 zijn, maar de alpha’s hoeven niet perse 1 te zijn, als ze maar gelijk zijn voor alle items. De formule voor het 1PL-model is dan hetzelfde als die voor het 2PL-model, maar dan zonder subscript bij de alpha.
Er zijn ook 3PL modellen, hierbij zijn ook nog items met een gokkans toegevoegd, bijvoorbeeld een multiple choice item.

Kwaliteit van items en testen:

Wat zeggen de scores eigenlijk over de betrouwbaarheid? Dit hangt af van de vaardigheid van de persoon, een makkelijke test is meer te onderscheiden voor mensen met een laag vaardigheidsniveau. Deze geeft dus meer informatie. De informatie is dus het hoogst op het moeilijkheidsniveau. Door deze afzonderlijke item-informatie scores bij elkaar op te tellen, kom je tot de testinformatie. Deze is nuttiger dan de item-informatie omdat we geïnteresseerd zijn in de gehele test, en niet alleen in de losse items.

Toepassingen van IRT:

Er zijn verschillende toepassingen van IRT. Zo kunnen testen worden verbeterd, door te kijken welk item de meeste informatie geeft of het best onderscheid maakt. Ook kan gekeken worden naar de test-informatie.

Bij het equivaleren van testen wordt er onderscheid gemaakt tussen de moeilijkheid en de vaardigheid door bij twee testen gebruik te maken van anker-items. Deze items overlappen in beide toetsen.

Bij vragen over of er een item-bias aanwezig is in een toets kan met IRT onderzocht worden of elk construct gelijk is voor bijvoorbeeld mannen en vrouwen.

Bij person-fit kunnen door middel van IRT de onwaarschijnlijke antwoordpatronen worden opgespoord. Hierdoor kan bijvoorbeeld afkijken of het random invullen van een test worden herkend.
Als laatste wordt IRT gebruikt bij CAT. Dit staat voor computergestuurd adaptief testen. Op de computer worden antwoorden gegeven op items. Aan de hand van de antwoorden gaat de computer naar elk item een herberekening maken van de vaardigheid van de persoon. Op basis hiervan wordt het volgende item gekozen. Het is dus een toets op maat, die leidt tot maximale informatie. Dit is echter wel lastig om uit te voeren, omdat je een grote database moet hebben aan items van verschillende moeilijkheidsgraden. Bovendien moet je ook aan de computer vertellen wat de moeilijkheidsgraad van elk item is.

College 7: Classificatie en discriminantanalyse

Dimensioneel en classificatie:

Scores zijn in te delen op schalen op de dimensionale manier en via classificatie. Bij dimensionaal onderverdelen gaat het om het zo goed mogelijk indelen van personen op bepaalde dimensies. Bij classificatie gaat het erom dat mensen worden toegewezen aan bepaalde groepen.

Classificatieprocedure:

Bij classificatie is er altijd sprake van een grenswaarde. Dit punt noemen we het ‘cut-off point’. De procedure die gebruikt wordt bij classificatie is als volgt; Eerst worden gegevens verzameld over de variabele (X) waarbij de classificatie al bekend is. Deze classificatie is een bepaalde groep (Y). Daarna wordt een optimale voorspellingsregel gezocht om Y zo goed mogelijk te voorspellen uit X. Ten slotte wordt deze voorspellingsregel gebruikt om nieuwe variabele X ook te classificeren

Dimensies:

In het meest eenvoudige geval is er sprake van één dimensie, waar twee groepen op scoren. Het cut-off point zit daar waar de verhouding tussen valse positieven en valse negatieven optimaal is (hangt af van de situatie). Zie dia 6 voor een schematisch overzicht. Van valse positieven is sprake wanneer er wel een diagnose is gesteld, terwijl dit in werkelijkheid niet had gemoeten. Van valse negatieven is sprake wanneer er geen diagnose is gesteld, terwijl dit in werkelijkheid wel had gemoeten. Het hangt vervolgens van de situatie af welke fouten het minst erg zijn; als de valse positieven erger zijn (zwaarder wegen) dan verschuift het cut-off point bijvoorbeeld naar rechts.

Bij meerdere dimensies kunnen we niet meer spreken van een cut-off point. Hierbij gaat het om een ruimtelijk geheel en zal sprake zijn van een cut-off lijn of een cut-off vlak. Hierbij wordt ook een andere analyse toegepast, namelijk een logistische regressie analyse (cursus MVDA) of een discriminantanalyse.

Discriminantanalyse:

Bij een discriminantanalyse zijn er twee doelen. Voor deze cursus is het van belang dat we individuele voorspellingen willen doen, oftewel classificatie. Dit wordt gedaan met de predicitieve discriminantanalyse.

Er zijn 3 problemen die zich bij deze analyse voordoen:

Hoe moeten de meerdere dimensies gecombineerd worden om tot een optimale indeling te komen?
Hoe goed is de uiteindelijke indeling?
Hoe kunnen we generaliseren naar andere situaties?

Toewijzing aan groepen (1)

Om de individuen toe te wijzen aan groepen, moet de afstand tot alle groepspunten (centroïden) worden berekend met de (gegeneraliseerde) stelling van Pythagoras (zie slide 10 voor de formule).

Hoe goed is een oplossing? (2)

Met een classificatietabel, waarin de voorspelde waarden worden afgezet tegen de geobserveerde waarden, kunnen we zien hoe goed een uiteindelijke oplossing is. Er kunnen verschillende maten worden afgeleid uit deze tabel. De PAC (‘Percentage accuracy in classification’) is een ruwe maat voor het bekijken van hoe goed een oplossing is. Hierbij worden alle juiste voorspellingen gedeeld door het totaal aantal voorspellingen. Er zijn ook andere maten, zoals de specificiteit en de sensitiviteit.

Bij de specificiteit wordt het aantal juist voorspelde gevallen die niet de ziekte hebben gedeeld door het totaal aantal niet gediagnosticeerde deelnemers. Bij de sensitiviteit wordt het aantal juist voorspelde gevallen die wel de ziekte hebben gedeeld door het totaal aantal gediagnosticeerde deelnemers. Specificiteit en sensitiviteit bepalen samen de kwaliteit van het meetinstrument.

Ook kan er van uit het individu worden gekeken naar de percentages. Als individu wil je namelijk weten hoe groot de kans is dat de diagnose klopt. Ook hiervoor zijn twee maten; de positieve en negatieve voorspelde waarde: De positief voorspellende waarde is het aantal goed voorspelde gevallen met ziekte gedeeld door het totaal aantal voorspellingen met ziekte. Dit is dus de kans dat de diagnose ‘ziekte’ juist is. De negatieve voorspellende waarde is het aantal goed voorspelde gevallen zonder ziekte gedeeld door het totaal aantal voorspelde niet zieken. Dit is dus de kans dat de diagnose ‘niet ziek’ juist is.

Bij een goede steekproef zijn de specificiteit en de sensitiviteit onafhankelijk van de proporties gediagnosticeerde personen en de proporties niet-gediagnosticeerde personen in de onderzochte groep. Voor de positieve en negatieve voorspellende waarden geldt dit niet.

Generaliseren naar de gehele populatie:

Bij het generaliseren naar de gehele populatie wordt de betrouwbaarheid van de individuele diagnose niet alleen bepaald door de kwaliteit van de instrumenten, maar ook door de base rate. Dit is hoe vaak een bepaalde ziekte voorkomt in de gehele populatie.

Je kan een classificatietabel maken met behulp van de gegevens van de algemene populatie en de specificiteit en de sensitiviteit van de steekproef. Uit deze tabel kunnen dan weer de voorspellende waarden worden berekent. Hieruit kan je opmaken of de steekproef wel of niet generaliseerbaar is naar de populatie.

Ook de ‘base rate’ bepaalt de betrouwbaarheid van de diagnose en heeft invloed op de voorspellende waarde. Dat kan er toe leiden dat de diagnostische informatie soms tot slechtere voorspellingen leidt.

De stelling van Bayes maakt het mogelijk om kansen te berekenen voor de gehele populatie, zonder dat daarbij de omvang bekend is. De formule staat op sheet 22 en een grafische weergave is te vinden op sheet 23. Voor de formule van Bayes zijn alleen proporties nodig.

Bron

Deze aantekeningen zijn gebaseerd op 2015-2016, geupdate door Demi de Vries.

Let op enkele formules ontbreken

Access:

Public

Check more: click and go to more related summaries or chapters

Studiegids met college-aantekeningen voor Psychologie Bachelor 2 aan de Universiteit Leiden

College-aantekeningen bij Ontwikkelingspsychopathologie aan de Universiteit Leiden - 2016/2017

College-aantekeningen bij Psychometrie aan de Universiteit Leiden - 2018/2019

College- en werkgroepaantekeningen bij Psychometrie aan de Universiteit Leiden - 2016/2017

College-aantekeningen bij Psychometrie aan de Universiteit Leiden - 2015/2016

College-aantekeningen bij Bewustzijn aan de Universiteit Leiden - 2016/2017

College-aantekeningen bij Groepsdynamica aan de Universiteit Leiden - 2018/2019

College-aantekeningen bij Groepsdynamica aan de Universiteit Leiden - 2016/2017

Werkgroepaantekeningen bij Groepsdynamica aan de Universiteit Leiden - 2018/2019

College-aantekeningen bij Psychodiagnostiek aan de Universiteit Leiden - 2016/2017

College-aantekeningen bij Multivariate data-analyse (MVDA) aan de Universiteit Leiden - 2015/2016

Werkgroepaantekeningen bij Multivariate data-analyse (MVDA) aan de Universiteit Leiden - 2018/2019

Psychology Leiden: summaries and study notes - Theme

Join: WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check: concept of JoHo WorldSupporter

Concept of JoHo WorldSupporter

JoHo WorldSupporter mission and vision:

JoHo wants to enable people and organizations to develop and work better together, and thereby contribute to a tolerant and sustainable world. Through physical and online platforms, it supports personal development and promote international cooperation is encouraged.

JoHo concept:

As a JoHo donor, member or insured, you provide support to the JoHo objectives. JoHo then supports you with tools, coaching and benefits in the areas of personal development and international activities.
JoHo's core services include: study support, competence development, coaching and insurance mediation when departure abroad.