College-aantekeningen bij Psychometrie aan de Universiteit Leiden - 2018/2019

Hoorcollege 1: Schaling en Normering

Psychometrie

In de psychometrie bestudeert men de testscore. Hierbij gaat men van kwalitatief materiaal (antwoorden op testitems) naar kwantitatieve testscores. Daarbij stelt men zich de vraag wat de kwaliteit is van deze scores.

Psychologische eigenschappen zijn moeilijk te meten omdat ze een hele brede verscheidenheid hebben en omdat ze niet direct observeerbaar zijn. Toch willen we het graag meten en weten. Het psychologische construct dat niet observeerbaar is (de latente variabele) beïnvloedt het observeerbare gedrag. Om toch iets te weten te komen over het construct draaien we het om: het observeerbare gedrag (de operationele definities) vertelt iets over hetgeen dat niet direct observeerbaar is. Met behulp van deze redenering voert men psychologische testen uit.

Een psychologische test is een systematische gedragssteekproef, waarmee mensen een vaste set items moeten beantwoorden. Voor iedereen moeten deze items hetzelfde zijn, en de test moet op dezelfde manier bij iedere participant worden afgenomen. Met de uitkomsten kunnen er vergelijkingen worden gemaakt, bijvoorbeeld tussen verschillende personen, ook wel inter-individuele verschillen. Intra-individuele verschillen zijn vergelijkingen die gemaakt worden tussen condities of tijdstippen binnen personen.

Testscores

Met testscores wordt de kwaliteit van bepaalde items bepaald. De eisen voor kwaliteit zijn van groot belang voor psychologische testen. Belangrijk zijn hierbij de betrouwbaarheid en de validiteit. Bij betrouwbaarheid gaat het om de afwezigheid van toevalsmeetfouten en bij validiteit gaat het om de afwezigheid van systematische meetfouten (‘meet ik wel wat ik wil meten?’). Het is belangrijk om ervoor te zorgen dat een test zo betrouwbaar en valide mogelijk is. 

Schaling

Schaling van testscores gaat om de manier waarop er getallen worden toegewezen aan psychologische eigenschappen. Er worden testscores of categorieën bepaald uit itemresponsen. Denk hierbij aan de verschillende meetniveaus (nominaal, ordinaal, interval en ratio). Zie hiervoor de tabel op dia 16.

De totaalscore en het gemiddelde zijn twee veel voorkomende schaalscores. De totaalscore is de som van de itemscores. Het gemiddelde is de totaalscore gedeeld door het aantal items.

Ruwe scores kunnen op zichzelf slecht worden geïnterpreteerd. De hoogte van een testscore is namelijk afhankelijk van het aantal items en de verschillende itemscores. Om de ruwe scores te interpreteren worden er normen gesteld. Voorbeelden van deze normen zijn percentiel- en standaardscores.

Percentielscores en standaardscores

Bij percentielscores wordt gekeken naar een percentage personen met eenzelfde of een lagere score. Zie dia 29 voor de berekening van percentielscores.
Standaardscores zijn het aantal standaarddeviaties van het gemiddelde. De verdeling zal hierbij echter hetzelfde blijven. De ruwe scores kunnen worden omgezet naar Z-scores door middel van de volgende formule:
Zx = (X-Mx)/SDx
Waarbij geldt SDz = 1 en Mz = 0

Ook kunnen er T-scores worden uitgerekend. Deze zijn veel beter te begrijpen doordat er geen negatieve scores meer voorkomen. T-scores worden berekend met de volgende formule:

Tx = 10*Zx + 50

Waarbij geldt SDT = 10 en MT = 50

Normtabellen bevatten elke voorkomende ruwe score, geordend van laag naar hoog, gekoppeld aan normscores en eventueel met verwachtingen.

Er bestaan twee typen normen, namelijk normgerichte interpretatie en domeingerichte/criteriumgerichte interpretatie. Normgerichte interpretatie is een relatieve norm zoals het percentiel en de Z- en T-scores: de norm wordt aangepast aan de resultaten. Hier kan men zien of hij/zij boven/onder het gemiddelde zit en hoe ver. 

De criteriumgerichte interpretatie is een absolute norm. Hierbij worden vaste standaarden of grensscores gehanteerd.

Hoorcollege 2 Betrouwbaarheid

Betrouwbaarheid

Bij betrouwbaarheid wordt gekeken in hoeverre de verschillende testscores een functie zijn van echte individuele verschillen. Dus in hoeverre ligt dit aan random fouten?

Klassieke testtheorie (KTT)

Klassieke testtheorie: Xo=Xt+Xe. Hierbij is de Xo de geobserveerde score, Xt de ware score en de Xe de errorscore. 

We hebben ook aannames:

  1. De gemiddelde error is 0
  2. De correlatie tussen errors en ware scores is ook 0
  3. Errors hebben een correlatie van 0 met elkaar.

De variantie van de geobserveerde scores: (het lukte met niet om de formule er helemaal goed in te zetten)

So^2=St^2+Se^2+2RteStSe. Dit is gelijk aan So^2= St^2+Se^2

Kwaliteiten van de test in termen van variantie

  • Ideale test: alle geobserveerde variantie is gelijk aan de variantie van de ware score
  • Completely useless test: alle geobserveerde variantie is errorvariantie
  • Real test: deze test zitten tussen de twee extremen in.

Betrouwbaarheidscoëfficient

De betrouwbaarheidscoëfficient is de proportie variantie van de geobserveerde scores, verklaard door de ware scores (formule). Deze liggen tussen 0 en 1. De proportie van de verklaarde variantie is een gekwadrateerde correlatie. (formule; Rxx=Rot^2=1-Roe^2). 

Om de betrouwbaarheid te schatten, kan je op verschillende manieren meten. Als er twee of meer scores per persoon zijn, gebruiken we parallel testen.We hebben een aantal eisen: 

  • Ze moeten dezelfde ware scores meten (Xt=Yt)
  • Ze moeten dezelfde errorvarianties hebben.

Gevolgen van paralelliteit:

  • Identieke geobserveerde variantes
  • Identieke correlaties met ware scores

Paralleltesten kunnen gedaan worden op drie manieren

Alternate forms: 2 verschillende testen voor hetzelfde construct

Beiden testen hebben bij alternate forms dezelfde betrouwbaarheid. Er zijn twee problemen:

  • Zijn de testen echt parallel? Hier kunnen we niet zeker van zijn, omdat de ware scores onbekend zijn en hun variantie is geschat op de assumptie van parallelliteit. Een oplossing is domain sampling: Selecteer een k aantal items van de twee paralleltesten random uit een groep van mogelijke items. Dit werkt perfect als k oneindig is. Een andere oplossing is de consequences of parallelness. Hier kijken we of de testen hetzelfde gemiddelde en dezelfde standaardafwijking hebben. Als dit zo is, betekent het niet meteen dat dat paralleliteit betekent.
  • Carry-over effects. Het afnemen van test 1 kan de resultaten van test 2 beïnvloeden. Hierdoor kan de correlatie tussen de testen te hoog worden, waardoor de betrouwbaarheid wordt overschat.

Test-retest: twee dezelfde testen, maar op verschillende tijdstippen

Problemen: 

  • Mensen veranderen, zeker met een langere tijd tussen de testen. Dit heeft als gevolg dat er een lagere correlatie tussen de testen is, en dat de betrouwbaarheid wordt onderschat. --> Korte tijd tussen test en re-test
  • Carry-over effects. Deze is sterker dan bij paralleltesten. Dit kan leiden tot gecorreleerde errors of een verandering in errorvariantie --> Lange tijd tussen test en re-test

Split half: 2 parallelle half-testen

Dit is één test in tweeën gesplitst. Je komt dus wel achter de betrouwbaarheid van de halve test, maar je wilt die van de hele test weten. Hiervoor hebben we de Spearman-Brown formule. Hierin kan je zien wat er met een test gebeurt als je die langer of korter maakt. 

n = Krevised/Koriginal

(Formule Spearman Brown)

Problemen met split-half:

  • Parallelliteit. Ook bij split-half testen moten de half-testen parallel zijn. Het heeft dus dezelfde problemen als alternate forms
  • Er zijn veel verschillende splits mogelijk. Er zijn dus verschillende schattingen mogelijk van Rxx. We weten niet welke de beste is .

Oplossingen

  • De half-tests kiezen die zo parallel mogelijk zijn
  • Verdeel items in paren, gebaseerd op gelijke gemiddeldes, standaarddeviaties etc.
  • Evaluation of solution. De tests zijn meer parallel, maar nog steeds geen zekerheid. Er zijn minder splits. Split half wordt niet vaak gebruikt.

Schatten betrouwbaarheid bij meer dan twee metingen

Interne consistentie: betrouwbaarheid afleiden van de correlatie tussen delen van een test. Als er twee metingen zijn gedaan, gebruik je split-half. Als er meer dan twee metingen zijn gedaan, behandel je elk item als een aparte test. Dit wordt ook wel een unieke split genoemd (in k aantal delen)

Standardized coefficent alpha: Dit is gebaseerd op het aantal items (k) en de correlaties tussen de items (Rii). 

  1. Betrouwbaarheid van elk item kan geschat worden met behulp van de gemiddelde correlatie van alle items 
  2. Betrouwbaarheid voor totale test. Totale test is k items zo lang als 1 item. Spearman-Brown formule --> n=k

(Formule)

Schatten van ware sores

Dit kan op twee manieren. Dit hangt af van wat we willen weten.

  • Ignoring regression toward mean

(Formule)

Dit is niet helemaal correct, want erros zijn positief gecorreleerd met de geobserveerde scores. (Formule)

Gevolgen: Geobserveerde scores liggen boven het gemiddelde: meer positieve errors --> overschatten van ware scores)

- Geobserveerde scores liggen onder het gemiddelde: meer negatieve errors --> onderschatten van ware scores. 

Ware scores liggen dus dichter bij het gemiddelde dan de geobserveerde scores. Dit wordt ook wel regression toward the mean genoemd.

  • Taking regression into account (Formule)

Aannames en beperkingen van klassieke testtheorie

De constructie is sterk afhankeijk van allerlei aannames, waaraan zelfden voldaan wordt. 

  • De 3 KTT assumpties
  • De tau-equivalentie: items meten identieke ware scores
  • identieke error-varianties.

Wanneer er niet voldaan wordt aan de assumpties:

  • Errorvarianties zijn niet hetzelfde, maar tau is oke: alpha en KR-20 zijn betere schattingen van Rxx dan parallelle methodes
  • Geen tau-equivalentie en errorvarianties zijn ook niet hetzelfde: alle methodes geven een onderschatting van RXX

 

Hoorcollege 3: Validiteit

Validiteit

Bij validiteit wordt er gekeken of een instrument meet wat het beoogt te meten. Een test is valide wanneer er juiste, betekenisvolle en bruikbare gevolgtrekkingen mee gemaakt kunnen worden. Ofwel: in hoeverre is een test vrij van systematische fouten?

In het boek van Furr en Bacharach (2014) wordt validiteit besproken als de interpretatie en het gebruik van testscores in relatie tot bepaalde doelen. Validiteit gaat dus niet over de waarden op zich, maar over wat men hiermee doet (niet de test, maar de conclusies uit de test zijn valide of niet). Validiteit is multidimensionaal (heeft meerdere eigenschappen en doelen) en gradueel (er is een bepaalde mate van validiteit, het is niet zomaar aanwezig of afwezig).

Constructvaliditeit

Constructvaliditeit (ook wel begripsvaliditeit) is de interpretatie van een test als weergave van een psychologisch construct. Men kijkt hierbij dus in hoeverre de interpretatie overeenkomt met de gemeten constructen. Er zijn 5 soorten bewijs voor constructvaliditeit:

  1. Testinhoud

  2. Interne structuur van de test

  3. Response processen

  4. Associaties met andere variabelen

  5. Gevolgen van testgebruik

a. Inhoudsvaliditeit:

Bij inhoudsvaliditeit wordt gekeken of de items van de test aansluiten bij de belangrijkste subconstructen. Bedreigingen die hierbij opspelen zijn dat items, of informatie over vragen, soms irrelevant zijn voor een test (construct-irrelevante inhoud) en dat deelconstructen soms niet goed vertegenwoordigd worden, door te weinig of geen items (construct-onderrepresentatie).

Er is een methode om de inhoudsvaliditeit te verbeteren, de facet-methode.

1. Probeer de niveaus van ieder facet te specificeren 

2. Zorg dat je een voldoende aantal items hebt voor elke combinatie van facetniveau.

Je kan het overzicht/bewijs hiervan in een specificatietabel zetten. Het vat in één oogopslag de operationalisatie van het construct samen.

b. Interne structuur van een test:

De hoofdvraag bij het bekijken van de interne structuur van een test is of de items en subtests van een test één samenhangend geheel vormen.

Wanneer het antwoord op deze vraag ‘ja’ is, is er sprake van homogeniteit. Er is één onderliggende dimensie aan het construct. Wanneer het antwoord op deze vraag ‘nee’ is, dan is er sprake van heterogeniteit en zijn er meerdere onderliggende dimensies. Deze kunnen mogelijk gecorreleerd zijn

c. Responsprocessen:

Bij responsprocessen gaat het om in hoeverre er overeenkomst is tussen de psychologische processen die personen verondersteld worden te gebruiken, en die personen werkelijk gebruiken bij het doen van de test.

Er is sprake van inconsistentie wanneer er sociaal wenselijke antwoorden worden gegeven, of wanneer er bijvoorbeeld wordt afgekeken op een examen. Ook kunnen meetschalen verschillen tussen respondenten en over tijd (response shifts)

d. Relaties met andere variabelen:

Convergente validiteit is de mate waarin testscores correleren met andere testscores van een soortgelijk construct

Discriminante/divergente validiteit is de mate van het niet-correleren van testen van niet-gerelateerde constructen

Concurrente validiteit is de mate van samenhang met relevante variabelen op hetzelfde moment en predictieve validiteit is de mate van samenhang met relevante variabelen in de toekomst

e. Consequenties van testgebruik

Er moet rekening worden gehouden met eventuele gevolgen van een test. Deze gevolgen kunnen negatief of oneerlijk zijn. Zo is er bij CITO geen voldoende of onvoldoende. Zo kan de toets niet als oneerlijk worden ervaren.

Multitrait- multimethod matrix ( MTMMM)

Deze matrix gaat over de correlaties tussen bepaalde groepen. De dikgedrukte getallen zijn de Cronbach’s alfa’s voor de desbetreffende scores. Onder de Cronbach’s alfa staat de correlatie tussen 2 constructen.

Convergente evidentie: correlaties tussen dezelfde ‘traits’ zijn hoog in verschillende testen. Discriminante evidentie: correlaties tussen verschillende ‘traits’ zijn laag en dus onafhankelijk van elkaar.

Als er wordt gekeken naar de matrix zien we dat de onderstreepte getallen de convergente evidenties zijn.

Er zijn vier typen coëfficienten: 

- Monotrait: correlatie tussen metingen van hetzelfde construct

- Heterotrait: correlatie tussen metingen van verschillende constructen

- Monomethod: correlatie tussen metingen met dezelfde methode

- Heteromethod: correlatie tussen metingen van verschillende methodes

Dit laat zien in welke mate er effecten van methoden zijn.

Taylor- Russell tabel

De Taylor-Russell wordt gebruikt bij ‘ja/nee’ kwesties. Bovenin de tabel staat de ‘base rate’ genoemd. Met de ‘base rate’ wordt in dit geval een toelating tot de opleiding Geneeskunde bedoeld. Er is sprake van de ‘base rate’ als 44 procent wordt toegelaten en de predictieve validiteit gelijk is aan 0. Als deze met 0.2 verhoogd wordt, kan er gezegd worden dat de ‘base rate’ verhoogt met 0.06-0.07.

Hoorcollege 4 Principal Component Analysis

Het algemene doel van PCA/factor anyaluse is datareductie. Dit is het verkleinen van een grote set variabelen naar een kleinere set onderliggende dimensies. De variabelen moeten interval variabelen zijn. 

Kan op 2 manieren aangepakt worden: exploratief of confirmatief.

  • Exploratief: PCA en exploratieve factor analyse. EFA
  • Confirmatief: confirmatieve factor analyse. CFA

Verschillen tussen EFA en PCA:

  • EFA heeft een expliciet model. PCA is meer een theoretische herschrijving van variabelen in componenten.
  • EFA heeft een expliciet model voor error. PCA niet (daar verdwijnen errors automatisch in hogere dimensies)
  • PCA is vaak makkelijker uit te leggen.

Wat doet PCA: kan op 2 manieren beschreven worden.

  • Algebraïsch: een principale component is een lineaire combinatie (een gewogen som) van de variabelen. .
    De Aij worden gekozen op basis van:

    • De eerste component verklaart zo veel mogelijk variantie van de variabelen. De best mogelijke samenvatting van de variabelen die je kan maken.
    • De tweede component (en de rest) moet ook zo veel mogelijk variantie verklaren én moet volstrekt ongecorreleerd zijn met de eerste component.
    • De derde component moet volstrekt orthogonaal zijn ten opzichte van alle voorafgaande componenten.
  • Geometrisch: er zijn een aantal componenten van PCA
    • Variabelen: bepalen de richting (x of y as) (vectoren)
    • Cases: wijzen in dezelfde richting
    • Componenten: soort van variabelen, namelijk vectors.
      • De eerste component is de richting waar depunten zo veel mogelijk spreiding tonen à de lange as in de ellips
      • De tweede component lijkt op de eerste maar moet er onafhankelijk van zijn (loodrecht op de as staan). De korte as van de ellips
      • Stel er is een derde component moet deze orthogonaal zijn, denk 3D.

Component lading (aij): correlatie van de variabele Xi met component j. gewoon een correlatie (zoals pearson correlatie)
Aij2: proportie variantie van variabele Xi verklaard bij component j.

Eigenvalue

Communality (hi2): sum of squared component loadings for variable i 
Eigenvalue: sum of squared component loadings for component j. Zie de colleges voor de formules

Eigenvalue / p geeft proportie van variantie uitgelegd door component.

Hoeveel componenten? Hier zijn 3 criteria voor.

  1. Eigenwaarde groter dan Kies alleen componenten met eigenwaarde > 1. Anders heb je geen data reductie.
  2. Knikcriterium. Als er een knikpunt in je curve zit, kies dan de optie met dezelfde aantal componenten als het knikpunt.
  3. Beste interpretatie: kijk naar alle oplossingen van 1 – factor tot eigenwaarde > 1. Kies dan de meeste praktische oplossing.

Een interpretatie van PCA uitkomst kan gedaan worden aan de hand van de lading van de componenten. Dit kan ook weer algebraïsch of geometrisch gedaan worden.

Algebraïsch: er is een onderkant van de lading. Deze ligt vaak op .40. hierboven zitten absolute waarden.
Geometrisch: kijk naar lengte en naar de hoek. Hoe langer de vector, hoe beter de variabele verklaard kan worden. Hoe scherper de hoek tussen de vectoren, hoe hoger de correlatie tussen de variabelen.

Rotatieprobleem

Op een bepaalde manier is een PCA oplossing niet uniek. Componenten van de PCA kunnen namelijk op heel veel manieren worden geroteerd. Deze rotereringen hebben geen invloed op de proportie verklaarde variantie en de lengte en hoeken tussen variabelen.

Er is wel een verandering in de assen en hun interpretatie. Rotatie tot simpele structuur leidt vaak tot betere interpretatie. 

Hoorcollege 5: Confirmatieve factoranalyse

CFA en SEM:
CFA is een onderdeel van de SEM, wat staat voor ‘structural equation modelling’. Met SEM onderzoekt men expliciete modellen voor (causale) relaties van drie of meer variabelen. Het is een toets voor een model als geheel. Bij SEM zijn manifeste en latente variabelen goed te onderscheiden en kunnen de onderlinge relaties worden geschat en getoetst.

SEM cyclus toegepast op CFA:
Er zijn een aantal stappen die standaard worden doorlopen in het SEM model. Dit heet de SEM cyclus en hieronder vallen de volgende stappen:

  • Modelspecificatie:

Hierbij wordt uit de theorie of hypothese een model gevormd, die verschillende onderdelen bevat. Manifeste variabelen zijn testscores. Latente variabelen zijn psychologische constructen. Alle manifeste variabelen hebben een error. De error zelf is een latente variabele. Ook hebben we pijlen nodig voor het model. Een eenrichtingspijl toont een causaal verband aan en een wederkerige pijl laat een correlatie zien. Bij het SEM model voor CFA bestaan er alleen inkomende pijlen, waarbij alle pijlen van latent naar manifest gaan. Als er geen pijlen tussen factoren aanwezig zijn, betekent dit ook meteen dat er geen relatie is tussen de factoren: deze staat dan op 0 en wordt dus ‘vastgezet’. Bij elke pijl hoort een modelparameter. Er zijn geen pijlen tussen de manifeste variabelen. Een CFA-assumptie is namelijk dat deze relaties al verklaard worden door factoren en errors. Ook zijn er geen pijlen tussen de factoren en errors: de factoren zijn namelijk ongecorreleerd met de errors. De structurele vergelijkingen per manifeste variabelen zijn te vinden in de slides van week 5.

  • Modelidentificatie:

Hierbij moet na worden gegaan of het model geschat of getoetst kan worden. Wanneer we het SEM model willen gaan toetsen, moeten er niet teveel onbekende variabelen in de vergelijking zitten. Dit kan men zien aan het aantal vrijheidsgraden. Als dat getal positief is (groter dan 0), is het model toetsbaar. Je kunt het aantal vrijheidsgraden op de volgende manier berekenen:

Df = V – P. Waarin het aantal relaties (pijlen) in het model is P en het aantal varianties en covarianties V = (k(k+1)/2).

  • Parameterschatting:

Men kan kijken of er ‘warnings’ zijn. ‘Warnings’ zijn varianties of covarianties die op bepaalde factoren hoog scoren, terwijl ze niet mogen correleren of andersom. In een variantie-covariantiematrix mogen tussen X1, X2, X3 en X4,X5,X6 geen hoge covarianties aanwezig zijn.

  • Model-evaluatie:

Met een Chi-kwadraattoets evalueren we het model. Wanneer er een significant resultaat wordt gevonden, klopt ons model niet. H0 wordt dan namelijk verworpen. In dit geval is H0 dat de data en het model overeenstemmen.

Er zijn wel wat problemen met de Chi-kwadraattoets, zoals dat deze erg snel significant wordt bevonden met een groot aantal deelnemers. We kijken daarom ook naar de volgende fit-maten:

  • RMSEA (deze meet standaarderror): een fitmaat kleiner dan 0.05 is goed, kleiner dan .10 is acceptabel.

  • NFI: een fitmaat groter dan 0.9 is goed.

  • CFI: een fitmaat groter dan 0.95 is goed.

Deze fitmaten kunnen elkaar (en dus ook de Chi-kwadraat) nog wel eens tegenspreken, in dit geval kijk je naar de meerderheid.

  • Modelbijstelling:

Als blijkt dat het model niet klopt, kunnen we kijken of er toch meer factoren zijn, die we eerst op 0 hadden gezet (geen pijl hadden gegeven), die correleren en aan de hand daarvan het model wijzigen.

Residuen:
Residuen kunnen ons helpen bij de keuze hoe we een model kunnen verbeteren. Een residu is het verschil tussen de covariantie en de terug geschatte covariantie. We rekenen graag met gestandaardiseerde residuen: Zresij= rij- r(gem)ij.

Een residu is groot wanneer het groter is dan 0.10 of kleiner dan -0.10. Als residuen voor een bepaalde variabele groot zijn, is het model voor die variabele niet goed. Ook moet er worden gekeken naar de verdeling van de residuen (normaal verdeeld, symmetrie, gecentreerd rond nulpunt).
Het verbeteren van een slechte fit:
Men kan de fit verbeteren door de parameters vrij te maken. Dit kan door meer pijlen aan het model toe te voegen. Men kan zien of deze pijlen ontbreken door te kijken naar een patroon in residuen. Wanneer deze allemaal positief of allemaal negatief zijn, kan het zo zijn dat er een correlatie is tussen twee factoren.

Wanneer is een model bewezen?
Met de CFA kan men eigenlijk alleen een model falsifiëren. Een model bewijzen is erg moeilijk. Men kan een modeltoets doen om te kijken of het bewerkte model een significante verbetering heeft ten opzichte van het eerdere model. Dit kan aan de hand van de volgende formules:

Δ X2 = X2 (1) – X2 (2), in andere woorden: X2complex model - X2 simpel model. Dit komt altijd uit op een positief getal. Is dit niet het geval, heb je waarschijnlijk het complexe model van het simpele model afgetrokken. Het complexe model is het model met de meeste pijlen.

Δ df= df(1) – df(2)

De uitkomst hiervan kunnen we vergelijken met de tabel van de Chi-kwadraat toets en zo de bijbehorende p-waarde vinden. De toets kan alleen worden uitgevoerd wanneer beide modellen genest zijn met elkaar. Dit betekent dat alle pijlen van Model A (simpel) ook in Model B (complex) aanwezig zijn, maar model B heeft ook nog extra pijlen.

Tot slot:
SEM modellen hebben wel een aantal problemen en beperkingen. Deze modellen vereisen bijvoorbeeld een groot aantal personen. Ook maken SEM modellen zware assumpties over de data en de SEM modellen zijn minder robuust tegenover schendingen hiervan dan andere technieken. Daarnaast is CFA niet werkelijk toetsend. Je nieuwe model is gebaseerd op het vorige model. Hierdoor gaat men steeds meer geloven in het model en smokkelen we eigenlijk met de statistische regels.

 

Hoorcollege 6: IRT als alternatief voor KTT

Het verschil tussen KTT (de klassieke testtheorie) en IRT (de item-responstheorie) ligt bij de stap van het berekenen en evalueren van testscores. Bij KTT is betrouwbaarheid het centrale begrip. Er wordt gekeken in hoeverre de testscores overeenkomen met de ware scores, hierbij spelen de item-kenmerken geen rol. De statistieken van KTT zijn dus populatie-afhankelijk. Voorbeeld: Wanneer een rekentoets wordt afgenomen bij kinderen op de basisschool, kan dit hele andere resultaten opleveren wanneer dezelfde rekentoets gegeven wordt aan studenten op de universiteit. Dit kan de betrouwbaarheid belemmeren. Dit is een tekortkoming van KTT.
Het doel van IRT is om personen en items op dezelfde schaal te ordenen. Doordat bij IRT de itemkenmerken ook mee worden genomen in het model, zijn deze niet populatie-afhankelijk.
Het persoonskenmerk is de vaardigheid (θ), ook wel theta genoemd, een latente variabele, waarbij geldt: hoe hoger de vaardigheid, hoe waarschijnlijker het is dat deze persoon een correct antwoord geeft. Een itemkenmerk uit het model is de moeilijkheidsgraad β. Als deze hoog ligt, dan is het onwaarschijnlijk dat er een correct antwoord wordt gegeven. Tussen de vaardigheid en de moeilijkheidsgraad ligt een verband, dat bepaald wordt door specifieke IRT-modellen.

Specifieke IRT-Modellen

Er zullen drie verschillende modellen worden beschreven, namelijk: Guttman model, één-parameter logistisch model (1PL): het Rasch-model en het twee-parameter logistisch model (2PL). De verschillen tussen deze modellen zitten in de itemkenmerken en de uitkomsten.

Het Guttman model

Dit is het eerste IRT model; hierbij wordt de respons volledig verklaard door de vaardigheid en de moeilijkheidsgraad. Hierdoor ontstaat er een stapsgewijze curve en is er geen vloeiende overgang aanwezig. Dit noemen we ook wel een deterministisch model. Als de vaardigheid kleiner is dan de moeilijkheidsgraad is het antwoord fout (0). Ligt de vaardigheid hoger dan de moeilijkheidsgraad, dan is het antwoord goed (1). Dit model is erg beperkend, aangezien er maar k + 1 antwoordmogelijkheden zijn (je kunt nooit makkelijke vragen fout hebben en moeilijke goed).

Er is een alternatief bedacht voor het restrictieve Guttman-model, namelijk probabilistische modellen. Bij probabilistische modellen is de lijn wel vloeiend en stijgt de curve langzaam van 0 naar 1. Het is een S-curve. Dit model wordt weergegeven met een logaritmische functie, waardoor er 2kantwoordmogelijkheden zijn. Sommige antwoordpatronen zijn echter onwaarschijnlijker dan andere, dus je moet je afvragen of de toevoeging van enkele mogelijkheden wel nuttig is. Voorbeelden van probabilistische modellen die we nu gaan bespreken zijn de 1PL en 2PL, die verschillen in het aantal parameters.

Één-parameter logistisch model (1PL): het Rasch-model:

Het Rasch-model is een 1-dimensionaal model. Dit betekent dat er slechts één itemparameter relevant is. Dit is de moeilijkheidsgraad β; het persoonskenmerk is nog steeds de vaardigheid θ. Wanneer de moeilijkheidsgraad gelijk is aan het vaardigheidsniveau, dan is de kans dat een persoon een item goed beantwoordt 50%.

De formule die hierbij hoort is:

P(Xis=1|θs βi) = e(θs-βi) / 1+e(θs-βi)

Dit is de kans dat het antwoord goed is, gegeven de vaardigheid en de moeilijkheidsgraad.

Twee-parameter logistisch model (2PL)

Het 2PL model is een model waarbij twee itemparameters relevant zijn. Dat zijn de moeilijkheidsgraad en de αi (het onderscheidend vermogen). Dit is de mate waarin een item personen met een laag en hoog niveau van elkaar kan onderscheiden. Deze kan voor elk item anders zijn. Dit leidt tot de volgende formule:

P(Xis=1|θs βi αi) = e[αi(θs-βi)] / 1+e[αi(θs-βi)]

De discriminatieparameter αi geeft de steilheid van curve aan, op het steilste punt snijdt deze de kans van 50%. Hier geldt θ = β.

Wel moet hier vermeld worden dat het 1PL-model nu is uitgelegd alsof alle alpha’s 1 zijn, maar de alpha’s hoeven niet perse 1 te zijn, als ze maar gelijk zijn voor alle items. De formule voor het 1PL-model is dan hetzelfde als die voor het 2PL-model, maar dan zonder subscript bij de alpha.
Er zijn ook 3PL modellen, hierbij zijn ook nog items met een gokkans toegevoegd, bijvoorbeeld een multiple choice item.

Kwaliteit van items en testen

Wat zeggen de scores eigenlijk over de betrouwbaarheid? Dit hangt af van de vaardigheid van de persoon, een makkelijke test is meer te onderscheiden voor mensen met een laag vaardigheidsniveau. Deze geeft dus meer informatie. De informatie is dus het hoogst op het moeilijkheidsniveau. Door deze afzonderlijke item-informatie scores bij elkaar op te tellen, kom je tot de testinformatie. Deze is nuttiger dan de item-informatie omdat we geïnteresseerd zijn in de gehele test, en niet alleen in de losse items.

Toepassingen van IRT

Er zijn verschillende toepassingen van IRT. Zo kunnen testen worden verbeterd, door te kijken welk item de meeste informatie geeft of het best onderscheid maakt. Ook kan gekeken worden naar de test-informatie.

Bij het equivaleren van testen wordt er onderscheid gemaakt tussen de moeilijkheid en de vaardigheid door bij twee testen gebruik te maken van anker-items. Deze items overlappen in beide toetsen.

Bij vragen over of er een item-bias aanwezig is in een toets kan met IRT onderzocht worden of elk construct gelijk is voor bijvoorbeeld mannen en vrouwen.

Bij person-fit kunnen door middel van IRT de onwaarschijnlijke antwoordpatronen worden opgespoord. Hierdoor kan bijvoorbeeld afkijken of het random invullen van een test worden herkend.
Als laatste wordt IRT gebruikt bij CAT. Dit staat voor computergestuurd adaptief testen. Op de computer worden antwoorden gegeven op items. Aan de hand van de antwoorden gaat de computer naar elk item een herberekening maken van de vaardigheid van de persoon. Op basis hiervan wordt het volgende item gekozen. Het is dus een toets op maat, die leidt tot maximale informatie. Dit is echter wel lastig om uit te voeren, omdat je een grote database moet hebben aan items van verschillende moeilijkheidsgraden. Bovendien moet je ook aan de computer vertellen wat de moeilijkheidsgraad van elk item is.

 

Hoorcollege 7: Bias

Een bias betekent dat er gebrek aan validiteit is. et is een systematische vertekening, de test meet/voorspelt gedeeltelijk iets anders dan wat we beogen.

Er zijn verschillende typen responsebias:

Acquiesence bias

Dit is structureel ja/nee zeggen. Sociale wenselijkheid en de acquiescene bias kunnen de metingen vermoeilijken, dus hier hebben we wat oplossingen voor bedacht

  • Uitsluiten door een experimentele opzet
  • Meten als relevante variabelen
  • Het toepassen van methoden voor het verminderen van “response set”: meerkeuze of gedwongen keuze items, de ene helft negatief en de andere helft positief formuleren.

Daarnaast heb je nog extreme of gematigde reactiepatronen, sociale wenselijkheid, malingeren (overdrijven), achteloos/random antwoorden en gokken.

Er zijn een aantal methoden om (de effecten) van response bias te verminderen.

  • Het aanpassen van de testcontext

We kunnen sociale wenselijkheid verminderen door de anonimiteit te benadrukken. Er is dan wel een nadelig bij-effect: het kan de kans verhogen dat er random antwoorden worden gegeven. Ook moeten we de vermoeidheid, stress, frustratie en afleiding minimaliseren. Ten slotte kunnen we de respondenten vertellen dat vastgesteld kan worden of er eerlijk is geantwoord. 

  • Het aanpassen van de testinhoud

Als we de respondenten eenvoudige items voorleggen, vermindert dit moeheid en frustratie. Ook kunnen we de items neutraler gaan formuleren, of gedwongen keuze items voorleggen, deze gaan sociaal wenselijke antwoorden tegen. Daarbij moeten we positief en negatief geformuleerde vragen afwisselen. Dit noemen we ook wel een gebalanceerde test. 

  • Het aanpassen van testinhoud en scoring

Een gebalanceerde test is ook hier belangrijk. Daarnaast wordt er een gokcorrectie toegepast. In de IRT is dit het 3PL model. In de klassieke testtheorie wordt dit de “guessing corrected score” genoemd. Die formule ziet er als volgt uit:

GCS = R – (W/(n-1). Hierbij is R de aantal correcte items, W de aantal incorrecte items en n aantal responscategorieën.

  • Het detecteren van responsbias

Dit kunnen we doen door validiteitsitems- en subschalen toe te voegen, ook kunnen we extra tests toevoegen om specifieke responsbiases te meten. Als deze testen een respons bias laten zien, kunnen we ze meenemen in de interpretatie van testresultaten (bij individuele diagnostiek) of kunnen we ze opnemen in het statistisch model (bij onderzoek in groepen).

Test bias

Er zijn twee manieren om (statistische) bias vast te stellen

  • Door eigenschappen van & samenhang tussen item scores (interne structuur)

Dit is een systematische verstoring in de meting van het construct. Het wordt ook wel item-, meet- of contructiebias genoemd. Dit kunnen we evalueren met behulp van de interne structuur. Dit doen we door factor analyse (CFA), de item discriminatie index (KTT) of differiential item functioning (IRT) te gebruiken.

  • Samenhang tussen testscore en externe variabelen

Dit is een systematische verstoring in associatie met andere variabelen. Dit wordt ook wel predictie- of testbias genoemd.

Construct bias evalueren met CFA

Voer een aparte factoranalyse uit op de itemscores van elke groep. Kijk dan goed naar of de het aantal factoren tussen groepen verschilt, of het patroon van de factorladingen (nul en niet nul) verschilt en of de factorladingen tussen de groepen verschillen. Als er verschillen zijn, is er een bias. Als er geen verschillen zijn, is dit empirisch bewijs voor validiteit.

De KTT benadering

Berekent de testscore voor elke persoon in de steekproef. Hierna selecteer je de 25% hoogst- en 25% laagstscorenden. Controleer tenslotte of er tussen de groepen verschillen zijn in de kans om een item correct (of bevestigend) te beantwoorden, die niet kunnen worden verklaard door de scoregroep. Er zijn dus drie variabelen

  1. Lidmaatschap van testscoregroep (hoge of lage testscore)
  2. Itemrespons (bevestigend of niet bevestigend)
  3. Lidmaatschap van groep

De itemrespons moet alleen afhankelijk zijn van testscore, en niet van de construct-irrelevante eigenschappen.

De IRT benadering (differential item functioning)

Fit het 2PL model op de itemresponsen van elke groep apart. Vervolgens kijk je naar de parameters in beide groepen en ga je ze vergelijken. Als er geen verschillen zijn in parameters, is er geen DIF. Als er verschillen zijn in de moeilijkheidsparameter (β), is er een uniforme DIF. Als er verschillen zijn in de discriminatieparameter (α), is er een niet-uniforme DIF.

Test- of predictiebias

De methode die we hierbij gebruiken, is een regressieanalyse. Als er verschillen tussen de groepen zit in regressiecoëfficienten, is er sprake van bias. Hierbij een paar voorbeelden uit het college met grafieken

  • Geen predictiebias: de puntenwolk is symmetrisch en er zijn geen systematische verschillen tussen de groepen (dia 40)
  • Geen predictiebias: er zijn verschillende puntenwolken, maar wel dezelfde regressielijn, de verschillen in Y worden verklaard door de verschillen in X (dia 41)
  • Intercept bias: er zijn verschillende regressielijnen (de groep met de meerderheid heeft meer invloed op de totale regressielijn dan de groep met de minderheid). Zo geeft de regressielijn van de totale groep systematisch een te lage voorspelling voor de ene groep, en een te hoge voorspelling voor de andere groep. Het intercept, niet de helling, verschilt. Het verschil in predictie is voor iedere waarde van X hetzelfde, dus er is een uniforme predictiebias (dia 42)
  • Slope bias: de helling verschilt tussen de groepen. Het verschil in de voorspelde waarde van Y is afhankelijk van de waarde van X. Er is dus een niet-uniforme bias. Als de regressielijnen elkaar kruisen, onderschat het de prestaties van de meerderheid bij een hogere X of onderschat het de prestaties van de minderheid bij een hogere X (dia 44).

Het verschil is niet zo zeer of intercepten verschillen, maar of de lijnen kruisen binnen de geobserveerde score range.

Evalueren predictiebias

Om vast te stellen hoe goed testscore X criterium Y voorspelt, gebruiken we de lineaire regressieformule: ^Y= b0 + b1x.

Om vast te stellen of er sprake is van een bias t.o.v. variabele Z, voegen we een hoofd- en interactie effect toe:

^Y= b0 + b1x + b2z + b3xz. De xz is de interactie tussen testscore X en bias variabele Z. Z is altijd een dichotome variabele. Een correctie voor de bias kan zijn dat je Z in je predictieformule opneemt.

 

 

Hoorcollege 8 Classificatie en discriminantanalyse

Dimensioneel en classificatie:

Scores zijn in te delen op schalen op de dimensionale manier en via classificatie. Bij dimensionaal onderverdelen gaat het om het zo goed mogelijk indelen van personen op latente dimensies. Bij classificatie gaat het erom dat individuen worden toegewezen aan bepaalde groepen.

Classificatieprocedure:

Bij classificatie is er altijd sprake van een grenswaarde. Dit punt noemen we het ‘cut-off point’. De procedure die gebruikt wordt bij classificatie is als volgt; Eerst worden gegevens verzameld over de variabele (X) waarbij de classificatie al bekend is. Deze classificatie is een bepaalde groep (Y). Daarna wordt een optimale voorspellingsregel gezocht om Y zo goed mogelijk te voorspellen uit X. Ten slotte wordt deze voorspellingsregel gebruikt om nieuwe variabele X ook te classificeren

Dimensies:

In het meest eenvoudige geval is er sprake van één dimensie, waar twee groepen op scoren. Het cut-off point zit daar waar de verhouding tussen valse positieven en valse negatieven optimaal is (hangt af van de situatie).  Van valse positieven is sprake wanneer er wel een diagnose is gesteld, terwijl dit in werkelijkheid niet had gemoeten. Van valse negatieven is sprake wanneer er geen diagnose is gesteld, terwijl dit in werkelijkheid wel had gemoeten. Het hangt vervolgens van de situatie af welke fouten het minst erg zijn; als de valse positieven erger zijn (zwaarder wegen) dan verschuift het cut-off point bijvoorbeeld naar rechts. Zorg dat het aantal false positives & false negatives zo klein mogelijk zijn.

Bij meerdere dimensies kunnen we niet meer spreken van een cut-off point. Hierbij gaat het om een ruimtelijk geheel en zal sprake zijn van een cut-off lijn of een cut-off vlak. Hierbij wordt ook een andere analyse toegepast, namelijk een logistische regressie analyse (cursus MVDA) of een discriminantanalyse.

Discriminantanalyse:

Bij een discriminantanalyse zijn er twee doelen. Voor deze cursus is het van belang dat we individuele voorspellingen willen doen, oftewel classificatie. Dit wordt gedaan met de predicitieve discriminantanalyse.

Er zijn 3 problemen die zich bij deze analyse voordoen:

  1. Hoe moeten de meerdere dimensies gecombineerd worden om tot een optimale indeling te komen?

  2. Hoe goed is de uiteindelijke indeling?

  3. Hoe kunnen we generaliseren naar andere situaties?

Toewijzing aan groepen (1)

Om de individuen toe te wijzen aan groepen, moet de afstand tot alle groepspunten (centroïden) worden berekend met de (gegeneraliseerde) stelling van Pythagoras (zie slide 10 voor de formule).

Wel zijn er een aantal moeilijkheden; hoge varianties hebben meer invloed dan variabelen met lagere varianties. Ook kunnen variabelen gecorreleerd zijn.

Hoe goed is een oplossing? (2)

Met een classificatietabel, waarin de voorspelde waarden(X) worden afgezet tegen de geobserveerde waarden (Y), kunnen we zien hoe goed een uiteindelijke oplossing is. Er kunnen verschillende maten worden afgeleid uit deze tabel. De PAC (‘Percentage accuracy in classification’) is een ruwe maat voor het bekijken van hoe goed een oplossing is. Hierbij worden alle juiste voorspellingen gedeeld door het totaal aantal voorspellingen. Er zijn ook andere maten, zoals de specificiteit en de sensitiviteit.

Bij de specificiteit wordt het aantal juist voorspelde gevallen die niet de ziekte hebben gedeeld door het totaal aantal niet gediagnosticeerde deelnemers. Bij de sensitiviteit wordt het aantal juist voorspelde gevallen die wel de ziekte hebben gedeeld door het totaal aantal gediagnosticeerde deelnemers. Specificiteit en sensitiviteit bepalen samen de kwaliteit van het meetinstrument. Het ideale meetinstrument mist niemand die een ziekte heeft (sensitiviteit =1) en verklaart iedereen die niet ziek is gezond (specificiteit)

Ook kan er van uit het individu worden gekeken naar de percentages. Als individu wil je namelijk weten hoe groot de kans is dat de diagnose klopt. Ook hiervoor zijn twee maten; de positieve en negatieve voorspelde waarde: De positief voorspellende waarde is het aantal goed voorspelde gevallen met ziekte gedeeld door het totaal aantal voorspellingen met ziekte. Dit is dus de kans dat de diagnose ‘ziekte’ juist is. De negatieve voorspellende waarde is het aantal goed voorspelde gevallen zonder ziekte gedeeld door het totaal aantal voorspelde niet zieken. Dit is dus de kans dat de diagnose ‘niet ziek’ juist is.

Bij een goede steekproef zijn de specificiteit en de sensitiviteit onafhankelijk van de proporties gediagnosticeerde personen en de proporties niet-gediagnosticeerde personen in de onderzochte groep. Voor de positieve en negatieve voorspellende waarden geldt dit niet.

Generaliseren naar de gehele populatie:

Bij het generaliseren naar de gehele populatie wordt de betrouwbaarheid van de individuele diagnose niet alleen bepaald door de kwaliteit van de instrumenten, maar ook door de base rate. Dit is hoe vaak een bepaalde ziekte voorkomt in de gehele populatie.

Je kan een classificatietabel maken met behulp van de gegevens van de algemene populatie en de specificiteit en de sensitiviteit van de steekproef. Uit deze tabel kunnen dan weer de voorspellende waarden worden berekent. Hieruit kan je opmaken of de steekproef wel of niet generaliseerbaar is naar de populatie.

  1. Bereken de row totals D & ND door de grootte van de populatie en de base rate
  2. Bereken de aantal correct gediagnosticeerden door het vermenigvuldigen van het totale aantal gediagnosticeerden met de sensitiviteit. Doe hetzelfde voor de 'gezonde' mensen door het totale aantal gezonde mensen te vermenigvuldigen met de specifiteit.
  3. Bereken het aantal incorrecte diagnoses door het aantal correcte diagnoses af te trekken van row totals
  4. Bereken de column total door alles in de cellen bij elkaar op te tellen.

Ook de ‘base rate’ bepaalt de betrouwbaarheid van de diagnose en heeft invloed op de voorspellende waarde. Dat kan er toe leiden dat de diagnostische informatie soms tot slechtere voorspellingen leidt.

De stelling van Bayes maakt het mogelijk om kansen te berekenen voor de gehele populatie, zonder dat daarbij de omvang bekend is. Voor de formule van Bayes zijn alleen proporties nodig (vanaf slide 22)

 

 

 

Image

Access: 
Public

Image

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Check the related and most recent topics and summaries:
Institutions, jobs and organizations:
Activity abroad, study field of working area:
Countries and regions:

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Follow the author: Naomi Kulk
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
1551 1 1