Testtheorie - college aantekeningen

College 1

Testen

  • Meten van eigenschappen van mensen
  • Tests, proeven, vragenlijsten
  • Verschillende vormen en afnames
  • Wetenschappelijke benadering

Nut van testen

Maatschappelijk

Diagnose stoornissen, leer/onderwijsproblemen

  • Voorbeeld klaspraktijk

Freek uit groep 3 lijkt niet zo goed mee te kunnen met lezen. Zijn leerkracht heeft al van alles geprobeerd. Niets lijkt te helpen. Wat is er aan de hand? Lage intelligentie? Dyslexie?

 

Counseling

Schoolvorderingen

vb. Cito-LOVS

Voorspellen, plaatsing, toelating en selectie

vb Cito-eindtoets

vb centrale examens vo

Onderzoek

  • Vergelijking tussen groepen
      • Is er een verschil tussen jongens en meisjes wat faalangst betreft?
    • Relatie tussen variabelen
      • Is er een verband tussen de mate waarin leerkrachten zich persoonlijk verantwoordelijk voelen voor hun onderwijs en de mate waarin ze in hun klas de focus leggen op leren of op presteren?

 

Testconstructie en kwaliteitsbepaling

  • Wat willen we meten en waarom?
    • (construct  - bv. motivatie, intelligentie, ordelijkheid, schoolprestaties, enz.; doel ….)
    • Hoe kunnen we dit operationaliseren in vragen, opgaven, uitspraken?
  • Wat is de relatie tussen de delen (de vragen/items) en het geheel?
  • Kwaliteit (doel, construct, betrouwbare meting)

 

Historie Testtheorie in 4 perioden

  1. Periode tot Binet-Simon-test
  2. Binet-Simon-test – WO 1
  3. WO 1 – WO 2
  4. Begin WO 2 - heden

 

Periode tot Binet-Simon-test

  • Psychiatrie
  • Experimentele psychologie (Wundt)
  • Genetica (Galton)
    • Individuele verschillen
    • Systematisering van technieken (generalisatie conclusies)
    • Afwijkingen van het gemiddelde (statistische testen)
  • Aanloop tot ontwikkeling testtheorie, weinig complexe vaardigheden

Alfred Binet – Tot Wo 1

  • Binet – Simon (1904):
    • Complexe opgaven
    • Via empirisch onderzoek -> moeilijkheidsgraad
    • Werken met een totaalscore, begrip mentale leeftijd
  • Stern: mentale lft vergelijken met kalender lft
  • Terman: Stanford-Binet
    • Formuleren van standaardinstructies
    • Normen gebaseerd op representatieve streekproef
    • (mentale lft / kalender lft) x 100 = IQ
  • Alleen individu
  • Geen valideringsonderzoek
  • Samenhang tests met latere prestaties
  • Selecteren/wegen nog niet van toepassing

WO 1 – WO 2

  • Door nood aan selectie van personeel voor leger WO -> testen in stroomversnelling
  • Na WO 1:
    • Europa: individuele diagnostiek, later ook collectief
    • VS: collectief testen, migrantenprobleem -> niet-verbale testen
    • Engeland: tussenpositie, aandacht voor objectief evalueren van schoolprestaties (Multiple Choice test)
    • Gebruik test ging voor theorie
    • Thurstone (1931):
    • focus op betrouwbaarheid en criteriumvaliditeit –> test gedrag buiten de testsituatie voorspellen
    • Factoranalyse (verderop in de cursus)

 

Begin WO 2 – heden

  • Het aantal testen nam toe, aandacht voor methodologie
  • Educational Testing Service (Amerika) – 1947
    • Evalueren van het onderwijs – onderwijskundig meten
    • Fundamenteel psychometrisch onderzoek
    • NIP stelt COTAN in - 1959
  • Cito – 1968
    • Introductie computer en adaptief toetsen

 

Definitie van het begrip ‘Test’ : “een systematische classificatie- of meetprocedure,

waarbij het mogelijk is een uitspraak te doen

over één of meer empirisch-theoretisch gefundeerde eigenschappen van de onderzochte of over specifiek niet-testgedrag,

door uit te gaan van een objectieve verwerking van reacties van hem/haar,

in vergelijking met tot die van anderen,

op een aantal gestandaardiseerde, zorgvuldig gekozen stimuli

 

Kenmerken test

  1. Efficiëntie
  2. Standaardisatie
  3. Normering (verderop in de cursus – het kunnen vergelijken van de geteste persoon met relevante anderen)
  4. Objectiviteit: Resultaat van het onderzoek is onafhankelijk van degene die de gegevens verzamelt of uitwerkt
  5. Betrouwbaarheid (HC 3)
  6. Validiteit (HC 4)

 

Schalen

  • Nominaal: ongeordend categorieën. Bv. Man/vrouw.
  • Ordinaal: Geordende categorieën, maar ongelijke afstanden. Bv. Mild, matig, ernstig.
  • Interval: Geordende categorieën, gelijke afstanden. Graden celsius. Bij > 3 categorieën van een ordinale schaal wordt het vaak als interval benaderd.

Nominale schaal: kappa (κ) 

Kappa bestaat uit

een proportie geobserveerde overeenstemming Po en

een proportie verwachtte overeenstemming  Pe

κ= Po -Pe1-Pe

 

 

 

 

 

 

 

Betrouwbaarheid

  • Kom je tot dezelfde conclusie als je twee keer dezelfde persoon meet? - herhaalbaarheid
  • Een test is betrouwbaar wanneer het testresultaat niet afhangt van het moment waarop getest is of de testleider.

Validiteit

  • Meet mijn test wat het beoogt te meten?
  • “Intelligentie is wat een IQ-test meet”

      (Boring, 1945)- operationalisme

  • Overzicht van tests – Indelingen van tests
    Verschillende mogelijkheden
    • soort testgedrag (bijv. prestatieniveau, gedragswijze)
    • instructie en afneming (bv. individueel versus groep)
    • testvragen (al dan niet cultuur-vrij; open vs MC)

Indeling naar testgedrag

  • Prestatieniveau
    • maximale prestatie, G/F – norm
    • totaalscore
    • (meestal) intelligentie, cogn. capac., kennis

Gedragswijze

    • hoe iemand iets doet, reactie plaatsvindt
    • persoonlijkheidstrek, voorkeuren, attitudes, ..

 

 

Problemen met tests voor gedragswijze

  • Overeenkomst testgedrag en gedrag in dagelijks leven?
    • Geen objectief criterium, beoordeling
  • Persoonlijkheidstrekken zijn minder stabiel, minder generaliseerbaar, minder gelijkmatig van invloed op gedrag

 

Andere indelingen

  • Individuele vs groepsgewijze afname
  • Snelheid en/of niveau (vb DMT)
  • Soorten vragen
    • Cultuurvrij vs niet-cultuurvrij (vb SON-R)
    • Direct vs indirect
    • Vrije antwoorden vs MC

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

College 2

 

Verschillende type items

  • Gevraagde activiteit
    • Theoretische opdracht (bijv. doolhof, rekenopdracht, rijbewijs)
    • Stelling beoordelen (bijv. mate van toepassing)
    • Vragen (bijv. ja/nee, politieke partij)
    • Praktijkproeven (bijv. simulator, assessment)
    • Vorm van antwoord
    • Open vragen
    • Gesloten vragen
  • Uiterlijke verschijningsvorm van item
    • Meerkeuzevragen (prestatieniveau)
    • Rating scale (gedragswijze)

 

Antwoordvorm

  • Open vs gesloten

Nadelen open:

  1. Beoordelen en categoriseren van antwoorden kost veel tijd
  2. Respondenten geven vaak niet aan wanneer ze een vraag niet begrijpen
  3. Handschriften kunnen niet goed leesbaar zijn waardoor de onderzoeker het antwoord zelf moet interpreteren

Open vraag (introversie)

  • Vraag: hoe gedraagt u zich in gezelschappen? Bent u veel aan het woord of juist niet?
  • Antwoord: Ik ga ervan uit dat vooral vergaderingen en dergelijke worden bedoeld. Ik probeer juist goed op te letten wat er gezegd wordt. Ik denk ook dat dit belangrijker is dan steeds zelf aan het woord te willen zijn

 

 

 

Ratingscale

Introversievraag:

  • Ik ben in gezelschappen weinig aan het woord:

Van toepassing 1 – 2 – 3 – 4 – 5 niet van toepassing

Moeilijkheid is dat gezelschappen een breed begrip is.

Stel je maakt er ‘vergaderingen’ van, dan is de vraag voor een aantal respondenten niet relevant

Voordelen ratingscales

  1. Snel in te vullen, er kunnen veel vragen gesteld worden
  2. Kans dat de vraag begrepen wordt is groter
  3. Interpretatie door de onderzoeker speelt geen rol

Nadelen gesloten vragen

  1. Het bedenken van vragen en antwoorden kost veel tijd
  2. Antwoorden kunnen geraden worden
  • Alternatief: 2 van de 6 antwoordalternatieven zijn goed en pas als beide stellingen goed zijn is het antwoord goed: 1/3 x 1/5 = 1/15

3. Gesloten vragen zijn alleen geschikt als het gaat om feitenkennis of ‘weetjes’ (?)

Items prestatieniveau

Er wordt bij prestatieniveautests, zoals studietoetsen en inteligentietests vaak gebruik gemaakt van meerkeuze-items

Er worden doorgaans 2 tot 5 antwoordmogelijkheden gegeven. Er is vaak één goed en de andere zijn fout

3 principes voor een meerkeuze item:

  1. Kiezen: eens/oneens vragen of ABCD
  2. Rangschikking: zet op volgorde van stom-leuk
  3. Toeschrijving: maak combinaties 1b 2c 3a
  • In tests voor gedragswijze (persoonlijkheidsvragenlijsten en attitudetests) is een item vaak een uitspraak waarbij je een kruisje moet zetten (eens – neutraal – oneens)

Ontwikkelen van items
A. De Groot & Van Naersen

  • Studietoetsen (MC)
    • relevantie
    • objectiviteit
    • specificiteit
    • efficiëntie
    • moeilijkheid
    • discriminatie

Kwaliteit van items

  • 2 fasen
  • Fase 1 (vooronderzoek): er wordt een kleine steekproef getrokken (20 tot 100)
  • Reacties op de 1e versie van de items wordt geanalyseerd. De steekproef hoeft niet altijd representatief te zijn
  • Er worden altijd wel wat items verwijderd
  • Fase 2 (hoofdonderzoek): er wordt een grote representatieve steekproef getrokken (500 tot 2000). Waarom zo groot?
  • Populatie bevat veel interessante subgroepen die allemaal een eigen normering nodig hebben (bv leeftijd, niveau)
  • De groep moet groot genoeg zijn om de normverdeling van testscores te kunnen schatten
  • Doel: kwaliteit van de gehele test vaststellen

Beoordelen van de kwaliteit van items

  • Dichotome items (MC met F/G of 0/1 kwantificering)
    • Is dit een dichotoom of polytoom item?
            1.  Polytoom
            2.  Dichotoom
            3. Geen van beiden
            4. Polytome items (‘rating scale’; geordende antw.cat.)
    • Testtheorie is een moeilijk vak

                                                   mee oneens            O           O           O           O                                                 O mee eens

  • Antworod gescoord als 0-1: dichotoom

 

 

 

 

 

 

 

 

                      

Kwantificeren van reacties

  • Omzetten van reacties op items in scores/getallen
  • Veronderstelling van geordend continuüm
    • Studietoetsitem: kennisniveau goed/fout
    • Attitude-item: niveau van attitude

Verwerken van testgegevens:
berekenen scores

  1. Score = totaal aantal items juist
  2. Score = gecorrigeerde totaalscore
    • Correctie voor gissen
    • Correctie voor overgeslagen items
  1. Werken met aftestgrens
  2. Wegen van items: zinvol?

Wat te doen met gokken? Lege antwoorden?

Meerkeuzevragen  - prestatieniveau

  1. Totaalscore = totaal aantal items juist

Bijv. 50 items – 4 alt. – 38 juist en 12 fout

   Totaalscore: 38 op 50

MAAR: gevaar van gokken!

Formule voor correctie voor gissen

Xc geeft aan hoeveel antwoorden goed beantwoord zijn o.b.v. kennis

  XC = X – (k – X) / (A – 1)

waarbij:

X = aantal items goed

XC  = gecorrigeerd aantal goed

k = aantal items

A = aantal antwoordalternatieven

k-x = aantal fout

a-1 = aantal alternatieven -1

  • Stel, Jan heeft 23 goede antwoorden gegeven op een test van 32 vragen met 4 alternatieven
  • X = 23 (aantal goed)
  • k = 32 (aantal items)
  • A = 4 (aantal alternatieven)

Xc = 23 – (32-23)/(4-1) = 20

  • Jan heeft 20 goede antwoorden gegeven o.b.v. kennis

Aannames

    • Item juist: juist door kennis of gokken
    • Item fout is door gokken
  • Voorbeeld
  • 50 items – 4 alternatieven – 38 juist en 12 overgeslagen            

 

  • Formule:            XC = X + (k – X – Xf ) / A
  • waarbij
  • Xf = aantal foute items
  • (k-X-Xf) = aantal overgeslagen items
  •               Score: 38 + 3 = 41

Kanttekeningen bij correctieformules

  • Gevaar voor onder- en overcorrectie
    • partiële kennis –> gokkans groter -> ondercorrectie
    • grote attractiviteit van afleider –> gokkans kleiner -> overcorrectie
    • Fout kan ook door verkeerd inzicht, onjuiste info
  • Grotere spreiding van scores na giscorrectie

  (probleem: verschillend gewicht als je subtestscores optelt)

Grotere spreiding na giscorrectie

Stel 40 items – 4 alt.

A: 10 goed, 30 fout; score na corr.: 0

B: 31 goed, 9 fout; score na corr.: 28

Bereik: 10 – 31  na corr.: 0 – 28

Reden:

XC is een lineaire transformatie van X

en de SD van lin. getransform. scores = |b| SD(X)           

En b = A / (A-1) > 1

Correlatie tussen XC en X = 1

Gevolgen:

  • Geen verschil in ordening van personen
    • (wel in positie t.a.v. aftestgrens/norm)
    • r(XC,Y) = r(X,Y)
    • -> gelijke kwaliteit van voorspellen
    • Gelijke nauwkeurigheid (en betrouwbaarheid)
    • Conclusie: Beter niet corrigeren, teveel nadelen

 

Aftestgrens

  • Aanpassen aftestgrens

Hoe?

Stel k=100 items met A=4 alternatieven en gewenst kennispercentage van 60%

Aftestgrens: 100/4 + 0.6 (100 - 25) = 25 + 45 =70

Verwerken van testgegevens:
berekenen van de scores

  1. Score = totaal aantal items juist
  2. Score = gecorrigeerde totaalscore
  3. Werken met aftestgrens
  4. Wegen van items: zinvol?

Weinig invloed op betrouwbaarheid en validiteit.

Beter: meer items, beter nadenken inhoud items.

 

                                                

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

College 3

 

De latente trek

Even terug naar de definitie van de psychologische test…

‘Een systematisch onderzoek van gedrag met behulp van speciaal geselecteerde vragen of opgaven, met de bedoeling inzicht te krijgen in een psychologisch kenmerk van de onderzochte in vergelijking met anderen.’

…maar dat ‘psychologische kenmerk’ is niet direct waarneembaar of observeerbaar. We noemen dit kenmerk dus een ‘latente’ trek.  (verborgen onder hersenpan)

 

GEDRAG

TESTSCORE

LATENTE TREK

STUURT

IS UIT TE DRUKKEN IN

ZEGT IETS OVER

 

 

 

 

 

 

 

 

 

 

Testtheorie geeft een KADER…

…waarbinnen je kunt onderzoeken hoe goed je erin slaagt om de ‘latente trek’ te ‘vangen’ op basis van je test.

Twee globale benaderingen:

  1. Klassieke testtheorie (KTT) à X = T + E (dit college). Niet losse items maar totale score.

Focus bij KTT ligt op testscore (niet op itemscores).

In dit college gaan we dus steeds uit van een score op een test (dus een al dan niet gewogen som van item scores)

 

  1. Item Respons Theorie (IRT) à item-karakteristieke curve (college 6): mokkemschaal

 

    • Wat is betrouwbaarheid?
    • Hoe kun je het meten?
    • Waarom is het belangrijk?
    • Wat moet/kun je er vervolgens mee?

Wanneer is een test betrouwbaar?

  • Zelfde kernwoorden:

Voorspelbaarheid, consistentie

  • Testscore is consistent over metingen
  • Je kunt de score “serieus nemen”

Stel je doet een IQ-test…

  • En er komt een score van 120 uit.

  Je bent daar best tevreden over

  (X=100, SD=15)

  • Een week later doe je de IQ-test weer

  ….en tot je schrik komt daar een score

  van 78 uit!

  • Je voelde je misschien iets meer uitgeslapen

de eerste keer maar dat was alles..

  • Neem je de scores serieus? Nee.
  • Betrouwbaarheid: Mate van herhaalbaarheid van metingen (zelfde scores bij meerdere metingen)
  • Hoge betrouwbaarheid: weinig variatie in  testscore (onder gelijke condities)

Anders geformuleerd:

  • Hoge betrouwbaarheid: weinig last van

  meetfouten

  • Betrouwbare score = de gemiddelde

  score van een persoon over een groot

  aantal onafhankelijk afnames

  • Verschillen tussen de scores zien we als

  toevallig, als meetfouten

Klassieke testtheorie (KTT)

  • In de KTT staat de testscore centraal
  • Volgens de KTT bestaat een score op een

  test uit een betrouwbaar deel en een

  toevallig deel (meetfout)

      X = T + E

X = geobserveerde testscore

T = ware score

E = error

Betrouwbare score & meetfout

Opsplitsing van de geobserveerde score van persoon i behaald tijdens replicatie j:

       Xij = Ti + Eij                                                                                                                                                          

Bijvoorbeeld

1e meting: 120 = 110 + 10

2e meting: 78 = 110 - 32

S(E)i is de standaarddeviatie van de meetfout van persoon i. Wordt ook standaardmeetfout genoemd.                                                               

  • In de praktijk beschik je meestal niet over een groot aantal testafnames van 1 persoon
  • Maar over de scores van (hopelijk) een groot aantal personen op basis van 1 testafname (hooguit 2)
  • De vraag was: als ik een groot aantal onafhankelijke metingen heb van een persoon, komt er dan steeds dezelfde score uit?
  • De vraag wordt: als ik een groot aantal mensen een aantal keer meet, scoren mensen die op meetmoment 1 relatief hoog scoorden dan ook relatief hoog op meetmoment 2?
  • Of: zijn de verschillen tussen mensen toe te schrijven aan echte verschillen of vooral aan meetfouten?
  • Er worden een aantal aannames gemaakt over meetfouten:
    • E=0
    • Hieruit volgt: X=T 
    • rE,Y=0, waar Y een variabele is waar E

  geen deel van uitmaakt

    • Hieruit volgt: rE,T=0 en dus SE,T=0 
    • Uit dit laatste volgt S2XS2T+S2E
  • Volgens de KTT kan betrouwbaarheid van

  een testscore gemeten in een populatie van   

  personen op 2 manieren worden gezien:

    • Als een proportie (definitie)
    • Als een correlatie (benadering)

S2 is variantie

T = waarde scores (altijd kleiner dan X)

X = geobserveerde scores

Hoe dichter bij 1 hoe beter de betrouwbaarheid. Bij 1 heb je een meetfout van 0.

  • De betrouwbaarheid kan worden benaderd door de correlatie tussen 2 testafnames
    • Twee paralleltests (100 vragen opdelen in meerdere delen)
    • Twee keer dezelfde test
  • Of door de correlatie tussen testdelen te

  bepalen op basis van 1 testafname

  • De correlatie tussen test X en parallelle test X’ wordt geschreven als:

Onderste deel is tussen -1 en 1. Een test die negatief correleert is definitief onbetrouwbaar.

De correlatie kun je zien als een gestandaardiseerde covariantie

Paralleltests als ideaal

  • Omdat de geobserveerde covariantie tussen X en X’ gelijk is aan de covariantie tussen de betrouwbare delen van deze tests, en
  • paralleltests identieke betrouwbare componenten (teller) en gelijke standaarddeviaties (noemer) hebben, en
  • de covariantie van een variabele met zichzelf gelijk is aan de variantie van die variabele, geldt:

rxx'Sxx'SxSx'Stxtx'SxSx'St2Sx2rxx

 

Het laat zich bewijzen dat

rxx'rxx

Ofwel: de correlatie tussen twee paralleltests is gelijk aan de betrouwbaarheid van de test

  • Om praktische redenen wordt vaak gekozen voor het schatten van de betrouwbaarheid op basis van 1 testafname
    • Splitsingsbetrouwbaarheid
    • Cronbachs alfa (gemiddelde splitsingbetrouwbaarheid: test van 100 steeds opdelen in delen van 2 en steeds opnieuw de betrouwbaarheid testen). Dit is een onderschatting van de betrouwbaarheid. Aangezien de wetenschap conservatief is is dat niet heel erg, ze zijn graag wat voorzichtig met de uitspraken.
    • Guttman’s lambda2  ⇒ αλ2rxx 
  • Om praktische redenen wordt vaak gekozen voor het schatten van de betrouwbaarheid op basis van 1 testafname
    • Splitsingsbetrouwbaarheid
    • Cronbachs alfa (gemiddelde splitsingbetrouwbaarheid)
  • Het is mogelijk om op basis van 1 testafname een schatting te maken van de ondergrens vd betrouwbaarheid
  • Cronbachs Alfa is hier een populaire maat voor
  • Voor het schatten van Cronbachs Alfa heb je 3 ingrediënten nodig: het aantal items, de gemiddelde covariantie tussen alle itemparen, en de variantie van de totaalscore. De totaalscore is een optelsom van de antwoorden op alle items.
  • Om praktische redenen wordt vaak gekozen voor het schatten van de betrouwbaarheid op basis van 1 testafname
    • Splitsingsbetrouwbaarheid
    • Cronbachs alfa (gemiddelde splitsingbetrouwbaarheid)
    • Guttman’s lambda2  ⇒ αλ2rxx 

Voor het schatten van Cronbach’s Alfa heb je nodig:

  1. het aantal items
  2. de gemiddelde covariantie tussen alle itemparen
  3. de variantie van de totaalscore

Onderzoek

Stel dat je in je onderzoek verbanden tussen test X en variabele Y onderzoekt. De correlatie kan dan niet hoger zijn dan rxx !

Vuistregel bij correlationeel onderzoek:

rxx ≥0.70

Verband tussen twee variabele is maximaal de betrouwbaarheid van het vaststellen van de hoogste variabele.

Bij diagnostiek is de inzet hoog. De score heeft belangrijke consequenties. Bijvoorbeeld toelating tot een opleiding, certificering, het krijgen van een diagnose.

Vuistregel bij individuele diagnostiek:

rxx ≥0.90

Verduidelijking consequenties

  • Nu weet ik de betrouwbaarheid. Wat zegt dit over hoe serieus ik een score kan nemen?
  • Betrouwbaarheidsinterval (bhi) voor T berekenen
  • Hoe zat dat ook alweer met bhi?
    • T ±z×Se 
    • 95% bhi: T ±1.96×Se
    • Ingrediënten die we nodig hebben: T en Se
  • Twee manieren om die te schatten (p. 233)

Manier 1

  • T=X                                                                                                                                                                                                    (formule 6.43 in boek)
  • SeSx1-rxx                                                                                                                                                                                (formule 6.16 in boek)
    • 95% bhi wordt dan: 

X±1.96×Se

T is schatting van score (X= geobserveerde testscore)

Se = standaardmeetfout

Rxx = betrouwbaarheid van de test (schatten met Alpha/Lambda)

Manier 2

  • T=rxxX+(1- rxx)X                                                                                                                                                                     (formule 6.46 in boek)
  • St-tSt1-rxx                                                                                                                                                                             (formule 6.47 in boek)
  • Strxx Sx                                                                                                                                                                                                 (p. 232 in boek)
  • St≤ Sx                                                                                                                                                                                                                   (p. 232 in boek)
    • 95% bhi wordt dan: 

T±1.96×St-t

Verschil met formule 6.16: er staat nu S(T) ipv S(X). S(T) is doorgaans kleiner dan S(X)

Bij deze formule heb je zowel geobserveerde van persoon nodig, als de gemiddelde score op de test.

Voorbeeld

  • Stel, we hebben een test die screent op autisme met de volgende eigenschappen:
    • N(100,20)
    • rxx = .75
    • cuf-off bij een score van 116
  • We vinden een geobserveerde score van 98, hoe zeker zijn we dat de persoon geen autisme heeft?
  • SD is altijd positief; de gekwadrateerde meetfout

methode 1

X±1.96×Sx1-rxx

98±1.96×20×0.25

98±1.96×10

 

95% bhi: [78.40 ≤ Ti ≤ 117.60]

=> cut-off van 116 zit in het interval!

Dus we kunnen niet uitsluiten dat deze persoon niet autistisch is.

methode 2

95% bhi: T±1.96× St-t 

T=rxxX+(1- rxx)X

T= 0.75×98+0.25 ×100= 73.5+25=98.5

St-t = rxx Sx1-rxx

St-t = 0.75 ×20×0.25=8.66

98.5±1.96×8.66

95% bhi:[81.03 ≤ Ti ≤ 115.47]

=> cut-off van 116 zit niet in het interval!                                            

Betrouwbaarheid lager, invloed gemiddelde groter

Standaardschattingsfout vs standaardmeetfout (SE)

Dus de persoon heeft waarschijnlijk geen autisme.

  • Kijk goed naar je data. Kun je een verklaring vinden?
    • Omschalen van bepaalde items
    • Hoe zit het met de spreiding van scores?

Vervolgstap: test aanpassen

    • Niet zomaar items weggooien!
    • Cognitieve interviews: worden de items goed begrepen?
    • Items toevoegen
  • Zonder individuele verschillen (= spreiding) geen statistiek/psychometrie
  • Lagere spreiding -> lagere betrouwbaarheid

Restriction of range

Wanneer betrouwbaarheid nagegaan wordt bij (homogenere) deelpopulatie

Bijv. een intelligentietest (St2 =225, Se2 =35)

 rXX’ = St2Sx2 = St2St2+Se2 = 225260 = .87

 afgenomen in populatie kinderen met een verstandelijke beperking (St2 =64 en Se2 =35)

 rXX’ = 6499 = .65

→ wanneer St2 kleiner wordt en Se2 blijft gelijk,

wordt rXX’ kleiner

De betrouwbaarheid is kleiner in een homogene doelpopulatie dan in een heterogene populatie, omdat de St (range) dan kleiner is, terwijl de meetfout (se) hetzelfde blijft)

De betrouwbaarheid is laag, wat nu?

  • Kijk goed naar je data. Kun je een verklaring vinden?
    • Omschalen van bepaalde items
    • Hoe zit het met de spreiding van scores?
    • Vervolgstap: test aanpassen
    • Niet zomaar items weggooien!
    • Cognitieve interviews: worden de items goed begrepen?
    • Items toevoegen

Betrouwbaarheid en testlengte

Spearman-Brown formule voor testverlenging:

rKK =  KrXX'1+(K-1)rXX'                                                                                        

K = n_items in verlengde/verkorte test gedeeld door het n_items in de oorspronkelijke test

K < 1 bij verkorting; K > 1 bij verlenging (K = verlengingsfactor)

Verband tussen K en rKK 

 

 

 

 

 

 

 

 

Het verlengen van een test, maakt de test betrouwbaarder.

Boek:

  • Effect van toevoegen items steeds minder
  • Test met lage betrouwbaarheid is nauwelijks te redden
    • Valt bij nieuwe items makkelijk in herhaling (persoonlijkheid): verveeldheid
    • Lange test vermoeiend/demotiverend
  • Verlenging alleen doen als .60 < rxx’ < .80 en test niet al te groot is (10-20 items)
  • Betrouwbaarheid is specifiek voor een populatie
  • Betrouwbaarheid is specifiek voor een test
    • (dus niet voor een construct) Bepaalde IQ test, niet alle IQ testen
  • WE HEBBEN HET OVER TESTBETROUWBAARHEID, VOOR EEN BEPAALDE POPULATIE.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

College 4

CAT = computer adaptieve test

Als je vorige vraag goed hebt krijg je andere vraag dan als je het fout hebt.

Wat is (test) validiteit?

    • Mate waarin de test meet wat het wilt meten, in de populatie waarvoor je test gebruikt wordt.
    • Mate waarin de test aan zijn doel beantwoordt.
    • Mate waarin interpretaties van de score (theoretisch en emperisch) onderbouwd zijn die voortvloeien uit het testdoel.
    • Samenvatting van zowel het bewijs voor en de werkelijke – en potentiele – consequenties van score interpreatie en gebruik

Vier vragen

    1. Welke onderdelen van het testproces kunnen we valide noemen?
    2. Welke aspecten van validiteit kunnen we onderscheiden?
    3. Hoe leveren we bewijs voor validiteit?
    4. Wat is een Mokkenschaal analyse? (intrument voor validiteit)

 

Vraag 1:

 

Testcontext (populatie, afnameprocedure)

Begrip / vaardigheid à test score à gebruik / doel à interpretatie à (on)bedoelde consequenties

Betrouwbaarheid is een voorwaarde voor validiteit, maar niet een garantie.

 

Foutieve onderzoeksvraag: ‘hoe is het gesteld met aarderijkskundige kennis van nederlanders tussen de 18-67 jaar’

Het moet bij een individueel persoon.

Test ontwikkel je met het doel dat je uitspraak wilt doen bij een individueel persoon.

Wat gaan we voor uitspraak doen (type uitspraak: aanbeveling/behandeling/beschrijvend) na aanleiding van de score op de test?

Twee soorten doelen voor een test:

    • Beschrijven

      1. Persoonlijkheidstrek
      2. Klinische diagnose
      3. voortgangstoets
    • Voorspellen
      1. Toelating tot cursus
      2. Selectie voor een baan
      3. Beroepsadvisering

 

Is interpretatie van een test de verantwoordelijkheid van de gebruiker of van de testontwikkelaar?

Verantwoordelijkheid van de gebruiker; maar testontwikkelaar kan ondersteunen in het goed intepreteren van de testscores (bijvoorbeeld door middel van illustratie)

Voorbeeld onbedoelde consequentie: voortgangstoets wordt elk jaar gebruikt, leerkrachten gaan hun onderwijs dan aanpassen om deze punten te behandelen in de les zodat de leerlingen hoger scoren op de test. De verantwoordelijkheid van de (on)bedoelde consequenties ligt ook bij de gebruiker, maar moet wel overna gedacht worden door de testontwikkelaar. De testontwikkelaar kan niet alle mogelijke onbedoelde consequenties overzien.

Validiteit kan betrekking hebben op verscheidene aspecten van het testproces

    • Meetpretentie icm doelpopulatie
    • Meetdooel/intepretatie
    • Consequentie van test
    • Zeg niet: ‘de test is valide’ want ‘de validiteit’ bestaat niet. Het is een interactie tussen test en andere aspecten (zoals poputie), dus in de test zit niet een aspect dat valide is.

Verschil doel en intepreatie

Vraag 2:

Aspecten van validiteit

    • Inhoudsvaliditeit (content validity)

      • Kan je niet op basis van statistiek testen. Als je een begrip wilt meten: welke deelonderwerpen horen erbij en welke vragen ga ik hier over vragen (het liefst theorie gestuurd). Dit proces voorleggen aan een panel van experts (professionals of doelgroep) is een volgende stap: missen zij iets, is het goede volgorde.
    • Begripsvaliditeit (construct validity)
    • Criterium validiteit (criterion validity)
      • Wat meet een test? Welke samenhang verwacht ik te vinden?

 

Nomologisch netwerk

Zegt iets over hoe de test ingebed is in de bredere theorie en wat we weten van eerder onderzoek. Hoe hangt begrijpend lezen samen met andere aspecten?

                                                

 

 

Begripsvaliditeit (construct validity)

    • Meet de test de eigenschappen die wordt verondersteld?

      • Meten testitemens hetzelfde construct?
      • Vormen testitems samen een (sub)schaal?
      • Zijn items binnen een schaal sterker gerelateerd dan items tussen schalen?
    • Samenhang itemscore binnen (sub)schaal (correlatie)
    • Samenhang itemscore tussen subschalen
    • Samenhang itemscore met totaalscore

 

Correlatie is een stukje bewijs, maar geen uitstuitend bewijs.

Hoge correlatie tusen items in dezelfde schaal: deze meten zelfde kennis

Bij itemtotaalcorrelatie is hoger dan itemrestscorecorrelatie, omdat een item altijd met zichzelf correleert.

 

 

Richtlijnen over item correlatie (daarbij ga je ervan uit dat je item in goede schaal zit)

 

Bij deze allemaal hoger dan .30 dus goede correlatie. Het is ideaal om te zien dat de correlatie met eigen schaal hoger is dan correlatie met andere schaal.

 

 

 

Opzich is het niet heel erg dat de correlatie negatief is (al is een sterke – correlatie niet ideaal), maar wat opvallend is, is dat de correlatie bij een paar vragen de correlate nabij 0 is.

Uitgaand van de itemtotaalcorrelatie gingen we ervan uit dat het goed was, maar dit zegt dus niks over de (sub)schalen. Hier is duidelijk een onderscheid te zien tussen de vragen 1-3 en 4-6.

 

Dat de schalen onderling correleren wil je wel (omdat je hetzelfde construct meet), maar niet te hoog omdat je anders de subschalen overbodig hebt. Een correlatie tussen de schalen van .6/.7 is prima, maar liever niet .9. Maar hier zijn geen hele specifieke richtlijnen voor.

Concurrente validiteit

    • Convergente validiteit

      • Correleert de test hoog met soortgelijke test, die hetzelfde meten?
    • Discriminante / divergente validiteit
      • Correleert de test laat met ongerelateerde gerelateerde test (is het te onderscheidne)
    • ! Betrouwbaar instrument is een voorwaarde voor validiteitsonderzoek !

Relatie tussen begrijpend lezen verwachten we dat deze hoge samenhang heeft met het begrijpendlezen op de CiTo toets. Een predictieve factor van deze test is schoolsucces. Je kan ook denken aan andersoort samenhang: bijvoorbeeld leeftijd (non-group-validity)

Vraag 3:

We kijken naar verwachte samenhang

    • Tussen items onderling
    • Tussen items en totaalscore
    • Score met andere toetsen
    • Score met toekomstig creterium

 

Vraag 4:

Contructvaliditeit, Mokken

    • Samenhang items binnen schaal
    • Meer geavanceerde methoden
      1. Factoranalyse
      2. mokkemschaalanalyse
    • Wat is een schaal?

Guttman schaal (niet Guttman’s Lambda)

    • Er is een onderliggende vaardigheid
    • Items zijn te ordenen van makkelijk naar moeilijk
    • Alleen een goed antwoord als vaardigheid > moeilijkheid item
    • Relatie tussen score en socrepatroon: met een somscore van 5 heeft de persoon de eerste 5 vragen goed, en daarna alles fout
    • Bij Guttman kan het niet dat een persoon een score patroon van ‘01000’ heeft. Er is dan 1 Guttman-fout aanwezig: er is één nul aanwezig voor de 1.

 

Mokken Schaal Analyse (MSA)

    • Guttman: deterministisch (als dit dan dat; als het op moeilijkheid is geordend heb je altijd eerste goed en na je fout niks meer goed)
    • Mokken: probabilistisch (je gaat er niet van uit dat er 0 Guttmanfouten zijn)

H-coefficient voor itempaar (Hij)

Naar mate je dichterbij de 1 bent, lijkt het meer op een Guttman model. Naar mate je dichtbij 0 bent is er geen samenhang tussen de vragen. Boven 0.5 is het een goede schaal.

F = waargenomen guttmans fouten                      E = verwacht op basis van toeval

Item H-coeffient (Hi)

Stel we herhalen dit voor alle item paren

 som van alle geobserveerde Guttman fouten met item i

Som van alle verwachte Guttman fouten met item i

Hij kan gezien worden als gecorrigeerde correlatie.

Dimensionaliteit

MSA kan op beide manieren worden uitgevoerd

    • Confirmatief (theorie gestuurd)

      • De schaalinderling bepaal je zelf obv theorie
      • Check (per schaal) of de H en Hi waarden boven de 0.3 uitkomen
    • Exploratief (data gestuurd)
      • Automatic Item Selection Procedure (AISP)
      • Doen als er veel tegenstrijdigheid is in de bevindingen in de literatuur
      • Hoe werkt dat? Het algeritme begint met 2 vragen die allersterkt met elkaar samenhangen en daar gaat die steeds vragen aan toevoegingen die ook sterk mee samenhangen. Als er dan nog items over zijn (die niet goed samenhangen met de huidige vragen), wordt er een nieuwe subschaal gevormd en worden daar steeds nieuwe sterk samenhangende vragen aan toegevoegd. Zo duur tot alle vragen ingedeeld zijn in een subschaal.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

College 5

WAT IS... EEN TEST?

Definitie (Drenth & Sijtsma):

Een systematisch onderzoek van gedrag met behulp van speciaal geselecteerde vragen of opgaven, met de bedoeling inzicht te krijgen in een psychologisch kenmerk van de onderzochte (meestal in vergelijking met anderen).

à Vervolgens wil je een uitspraak doen over een individu: een voorspelling, classificatie of beschrijving

…maar dat ‘psychologische kenmerk’ is niet direct waarneembaar of observeerbaar. We noemen dit kenmerk dus een ‘latente’ trek (θ).

Testtheorie geeft een KADER…

…waarbinnen je kunt onderzoeken hoe goed je erin slaagt om de ‘latente trek’ te ‘vangen’ op basis van je test.

Dit kun je onderzoeken met behulp van:

  1. Klassieke testtheorie à X = T + E
  2. Item respons theorie à item characteristic curve

Belangrijke vragen: meet de test wat ‘ie beoogt te meten? Doet de test dat op een consistente manier (weinig ruis)?

X = geobserveerde test score

T = betrouwbare test score

E = foutenmarge

Welke theorie je ook gebruikt, je wilt een aantal vragen beantwoorden. Wat de psychometricshe eigenschappen van een test zijn.

  1. Tot nu toe in statistiek vakken focus vaak op vergelijking van groepen (gemiddelden), op hypothesetoetsing. Bijvoorbeeld: hebben jongens vaker aandachtsproblemen dan meisjes?
  2. Nu leggen we juist de focus op uitspraken doen over individuen.
  3. Die uitspraken moeten goed gefundeerd zijn, er hangt vaak veel vanaf!
  4. Testconstructie omvat dan ook meer dan “schaalconstructie”.
  5. Schaaltje kan je bijvoorbeeld gebruiken in hypothesetoetsing.
  6. Focus op hypothese toetsen.
  7. In dit vak uitspraken doen over individuen.
  8. Voor individu hangt er veel af van de uitslag van de score, daarom moet het ook goed onderbouwd worden. Daarom omvat een testconstructie meer dan alleen een schaalconstructie.

Een goede test is:

  1. Efficiënt
  2. Gestandaardiseerd
  3. Genormeerd
  4. Objectief
  5. Betrouwbaar
  6. Valide

Deze punten onderscheiden een test van een ‘voorwetenschappelijk’ oordeel

BELANGRIJKE KENMERKEN VAN EEN TEST

Een goede test is:

  • Genormeerd

Heeft ook te maken met vergelijkbaarheid.

Om te bepalen of iemand een hoge of lage score heeft, heb je een maatstaf (norm) nodig.

Vaak wordt de score van een individu vergeleken met de scores van een of meerder normgroepen.

  • Objectief

De score, het oordeel, de classificatie moet vrij zijn van invloeden die aan de testleider gebonden zijn.

De overeenstemming tussen twee beoordelaars zou dus hoog moeten zijn! Voorbeeld: mondeling examen. Cijfer zou niet afhankelijk moeten zijn van welke leraar dit afneemt.

à Interbeoordelaarsbetrouwbaarheid!

  1. Correlatie (of kappa) voor dezelfde variabele maar twee of meerdere observatoren
  2. Wanneer is deze vorm van betrouwbaarheid relevant?
  3. Als je observaties hebt door meerdere observatoren, of bijvoorbeeld clinici een semi-gestructureerd interview afnemen bij een cliënt

à Als respondenten zelf antwoorden invullen, neem dan een andere maat voor betrouwbaarheid

  • Betrouwbaar

Betrouwbaarheid heeft te maken met consistentie.

  • Paralleltestbetrouwbaarheid/test-hertest betrouwbaarheid
  • Schatting ondergrens betrouwbaarheid op basis van 1 meting (Cronbachs alfa, Guttmans lambda-2)
  • Cronbachs en Guttmans zijn beide ondergrenzen, die van Guttmans wel dichterbij de werkelijke betrouwbaarheid.
  • Valide

“Oude” definitie: de test meet ook echt wat hij zou moeten meten.

“Moderne” definitie: je kunt de test gebruiken voor een bepaald doeleinde (levert “valide” uitspraken op)

KLASSIEKE TESTTHEORIE (p. 254)

  1. Aanname klassieke testtheorie: totaalscore op een test is een schatter voor de ‘betrouwbare score’(true score), standaardmeetfout is gelijk voor alle personen
  2. Sommige aannames KTT moeilijk te controleren
  3. KTT: populatie-afhankelijk meten: de score van een persoon kan je niet los zien van de kenmerken van een test. Als je een moeilijke test hebt, met een lage score. Weet je niet of het kwam door een lage vaardigheid of door een moeilijke test.

ITEM RESPONS THEORIE (vs. KTT)

  1. Het antwoord op een item geeft informatie over de positie op de latente trek. Hoe meer ‘goede’ items je afneemt, hoe preciezer je die score kan schatten. Standaardfout is dus niet gelijk over alle personen.
  2. Assumpties goed te controleren (allemaal!)
  3. Populatie-onafhankelijk meten (voordeel)
  4. Niet alleen data-reductie, maar meting van latente eigenschap/vormen van een bruikbaar schaaltje (psychometrische eigenschappen van de test)
  5. Uit gaan van een logistisch verband tussen antwoord op de vraag en testscore (parametrische IRT)
  6. We houden rekening met meetfouten
  7. Meestal confirmatief toegepast: van te voren bepaal je welke items horen bij welk (deel)construct, je laat niet de analyse beslissen welke item bij welk construct hoort. (mokkenschaal analyse kan ook exploratief worden toegepast)
  8. Link leggen tussen antwoord op items en testscore

IRT: DE BASIS

  • Inleiding IRT

    • Guttman Scalogram
    • Item ‘moeilijkheid’, item discriminatie, pseudokansniveau
  • Basisprincipes IRT
    • Item Characteristic Curve (ICC)
    • Assumpties
    • Testinformatie (vs. betrouwbaarheid)
    • Verschillende IRT modellen (link Mokken)

 

GUTTMAN MODEL: OPFRISSEN

De hypothese die ten grondslag ligt aan het Guttman model is heel eenvoudig te testen!

  • Als er een Guttman fout opreedt, wordt het model verworpen

Wat is een Guttman fout?

Wat kunnen we zien aan dit scorepatroon?

  • 000001
  • 5 Guttman fouten (5 keer een 0 links van een 1)
  • De vragen worden gestelt op volgorde van moeilijkheid
  • Guttman model is simpele versie van IRT model
  • Essentieel verschil: IRT model is probabilistisch (Guttman model is determanistisch; als iets gebeurt, dan dat)
  • Dus bij een makkelijk item en een slimme persoon is de kans groot (maar niet 1!) dat de persoon het item goed maakt
  • De waarschijnlijkheid dat een persoon ‘1’ scoort hangt af van diens positie op de latente trek. Hoe hoger de score op de latente trek, hoe hoger de kans dat de persoon ‘1’ scoort.
  • Deze relatie wordt grafisch weergegeven in een Item Characteristic Curve (ICC) ookwel Item Respons Functie (IRF) genoemd.

IRT – type data

  • IRT is uitermate geschikt voor het analyseren van dichotome/polytome data
  • IRT kan ook gezien worden als combinatie van wiskunde modellen. Niet alleen een referentiekader.
  • Dygothoom: ja/nee antwoorden
  • Polytoom: schalen antwoorden
  • Dit soort data veel voorkomend bij vragenlijst onderzoek en vaardigheidstests (goed/fout)

ITEM CHARACTERISTIC CURVE (ICC)

    1. Er zijn verschillende IRT modellen, maar bij al deze modellen staat de ICC centraal!
    2. Makkelijkst te illustreren voor dichotome (ja/nee, goed/fout) data. (Kan ook voor polytome data)
    3. ‘latente trek’ wordt aangeduid met ‘theta’/θ – dit kan bijvoorbeeld wiskundevaardigheid zijn, IQ, of depressie (hangt af van de test)
    4. Je gaat ervan uit dat θ normaal is verdeeld met gemiddelde 0 (en standaard deviatie 1 (standaard normale verdeling))
  1. Logistische vorm (S-vorm)
  2. Voorbeeld:
  3. Theta= aandachtproblematiek
  4. Probability = de kans dat ik wiebel op mijn stoel
  5. De definitie van itemmoeilijkheid bekijk je door te kijken welke theta hoort bij een kans van 0,5. De item is hier van gemiddelde moeilijkheid. Specifiek voor parametische IRT: de moeilijkheid kan je op dezelfde schaal uitdrukken als de vaardigheid van een persoon (kan niet bij KTT of Mokkenschaal).

2 items (rood en zwart)

Het linker item: probeer onder bezigheden uit te komen

Rechter item: mijn aandacht slecht bij blijven.

De zwarte item (0,2) is moeilijker dan de rode (0,5).

Dus... Item sg26 (zwart) is moeilijker.

MOEILIJKHEID / LOCATIE

  1. In IRT wordt de moeilijkheid of locatie parameter aangeduid met de Griekse letter delta: δ
  2. δ is op de zelfde schaal gemeten als θ (latente trek)!
  3. Nog even terug naar de 2 ICC’s...
  4. Er wordt ook wel eens Beta gebruikt voor de IRT moeilijkheid. Maar bij dit vak houden we het bij Thenta

DISCRIMINATIE PARAMETER

  1. Naast de δ-parameter is er nog een 2e belangrijke item-parameter in IRT: de discriminatie-parameter alfa (α)
  2. α zegt iets over hoe goed lage en hoge scoorders van elkaar te onderscheiden zijn
  3. Hoe hoger α, hoe meer de items op een Guttman scalogram gaan lijken (hoe stijler de ICC!)
  4. Alle IRT modellen hebben een moeilijkheids-parameter, sommige hebben ook  nog andere item-parameters. BV. Discriminatie-parameter.
  5. Wordt aangeduid met alpha. Hoe hoger de alpha is, hoe stijler de IR-fuctie.

IRTFORMULE.jpg

Belangrijk bij formule: Xg is 0 of 1, a groter dan 0, gebruik van logistische formule zorgt ervoor dat P tussen 0 en 1 ligt. Exp => e. Zie dit filmpje voor uitleg over e: https://www.youtube.com/watch?v=AuA2EAgAegE

Bij Guttman is de kans of 0 of 1, no inbetween.

PSEUDOKANSNIVEAU

  1. De 3e item-parameter in IRT:

   pseudokansniveau (γ)

  1. γ heeft te maken met de giskans
  2. P(Xg|θ) nadert niet meer tot 0 voor zeer lage θ-waarden, maar tot γ
  3. Exacte giskans hangt niet alleen af van het aantal alternatieven, maar ook van inhoudelijke kenmerken van het item en de antwoordopties
  4. Gevolg voor IRT is dat de kans niet meer 0 kan zijn. In dit voorbeeld is de laagste kans die het kan aannemen 0,2. Voor hoge score nadert de kans nog wel naar 1.

IRT MODELLEN (1)

  • De IRF’s die jullie hebben gezien worden parametrische functies genoemd, omdat ze de relatie tussen θ en P(Xg|θ) vastleggen door middel van een logistische functie met parameters α en δ(Delta) (en γ (gamma))
  • Er zijn ook IRT modellen die geen specifieke vorm opleggen aan de IRF: non-parametrische modellen (bv. Mokkenschaal)
  • Kan handig zijn als de assumpties voor parametrische IRT niet opgaan. Maar: parametrische IRT heeft de voorkeur als dit wel zo is! Item-moeilijkheid en latente trek kunnen dan op dezelfde schaal gemeten worden

PARAMETRISCHE IRT MODELLEN – ASSUMPTIES

Assumpties die ten grondslag liggen aan de meest gebruikte (logistische) IRT modellen:

  1. ‘Unidimensionality’ – je meet 1 latente trek (bij dimensionality heb je dus meerdere (deel)constructen
  2. ‘Monotonicity’ – de ICC daalt nooit! Hij mag wel gelijk zijn. Meer latente trek leidt dus nooit tot een lagere kans op een score van 1.
  3. ICC heeft logistische vorm (S-vorm)
  4. ‘Local Independence’ – de antwoorden tussen 2 items zijn onafhankelijk als je controleert voor de positie op de latente trek (een toets met verschillende tekstvragmenten en vragen is fout: de antwoorden bij tekstfragment 1 zullen sterker met elkaar samenhangen dan de antwoorden bij tekstfragment 1 en 2. Er is sprake van een clustering van de items.)
  5. (Er bestaan wel ‘multidimensionele’ IRT modellen, maar

      hier wordt in deze cursus geen aandacht aan besteed)

Populatieafhankelijkheid wordt vaak verkeerd geimplementeerd. Het wil niet zeggen dat het niet uitmaakt bij welke populatie je de test uitvoort waarvoor je de IRT wilt schatten, dat is wel degelijk het geval. Maar het gaat om: de itemkenmerken kunnen los getrokken worden van de latent trek score van de person. Moeilijkheid van de test is niet afhankelijk van de persoon. Je kan de scores direct met elkaar vergelijken.

IRT MODELLEN (2)

  1. Simpelste IRT model is het 1-parameter logistisch (1PL) model, ook wel Rasch model genoemd. Hier wordt α op 1 gezet (discriminatieparameter), en alleen δ wordt geschat (één parameter; moeilijkheidsparameter)!

    • Voordeel: simpel model, minder data nodig dan voor ingewikkelder model
    • Nadeel: kan vaak de data niet goed beschrijven
  2. Als het 1PL model de data niet goed kan beschrijven, kun je het 2PL (Birnbaum) proberen. Fit vaak beter.
    • Minstens 500 respondenten nodig!

IRT MODELLEN (3)

  • Tot nu toe ICC’s laten zien voor dichotome items
  • De besproken IRT modellen zijn ook uit te breiden voor polytome items!
  • Je hebt dan in plaats van 1 locatie parameter (δ), een aantal ‘treshold’ parameters: de plek waar de kans op antwoord in categorie m+1 groter wordt dan voor antwoord in categorie m

à Option response curve

BETROUWBAARHEID

Binnen KTT is er een getal wat ‘de’ betrouwbaarheid van de test aangeeft (1 betrouwbaarheid), in een specifieke populatie.

Interpretatie:

  1. Proportie verklaarde variantie die wordt ‘verklaard’ door de betrouwbare score op de test
  2. Stabiliteit van je testscore (denk test-hertest)
  3. Nadeel:
  4. - Er wordt een aaname gemaakt die vaak niet wordt getoetst: de test meet op elk scoreniveau even nauwkeurig. Meestal onjuist!
  5. Stel je dat het je DOEL is om onderscheid maken tussen depressieve en niet-depressieve mensen op basis van test X.

Nu komen we bij een van de grootste voordelen van IRT...

  1. Je kunt onderzoeken in welke range van waarden op de latente trek je het meest nauwkeurig/betrouwbaar meet!
  2. Waar wil je het meest nauwkeurig meten in dit geval?
  3. Link testinformatie, item discriminatie, item moeilijkheid
  4. De grenswaarde is 2. Dus je wilt dat die het meest nauwkeurig is rond deze waarde.
  5. Bij 2PL en 3PL (en polytome varianten) geldt Informatie van 10 = betrouwbaarheid van .90
  6. Waar wil je het meest nauwkeurig meten in dit geval?
    1. Voor dit doeleinde wil je de meeste Informatie bij theta = 2
    2. Informatie is om te rekenen in lokale betrouwbaarheid
    3. Bij 2/3PL of polytome variant: gemiddelde van theta = 0, SD = 1
      1. Dan geldt: Informatie 10 = betrouwbaarheid .90, Informatie 5 =
        betrouwbaarheid .80 (want r = 1-1/I)
  7. Stel dat je het als screeningsinstrument had willen gebruiken bij de normale bevolking, op milde depressie, dan was het beter geschikt geweest.
  8. Bij RASH model gaat de betrouwbaarheidsomrekening niet op

DISCLAIMER

  1. Voor IRT modellen heb je veel data nodig!
  2. Voor Rasch model minstens 100 maar liever rond 500 waarnemingen
  3. Voor Mokkenschaal analyse (non-parametisch) minstens 50 maar vaak een stuk meer
  4. Voor 2PL + ingewikkelder: minstens 500
  5. Maar ook voor PCA heb je het liefst meer dan 100 waarnemingen

Wanneer KTT, IRT, MSA?

KTT als

    • je niet genoeg data hebt voor IRT
    • eerste stap om gevoel te krijgen voor de data

IRT als…

    • je (genoeg) dichotome/polytome data hebt
    • je geïnteresseerd bent in meetfout voor specifieke θ range
    • je o.b.v. theorie of eerder onderzoek al een idee hebt over het aantal sub-schalen in je test
    • je vraagonzuiverheid wilt onderzoeken
    • je een computer adaptieve test wil ontwikkelen
    • …etc!

MSA als…

    • je (genoeg) dichotome/polytome data hebt
    • je de parametrische IRT modellen te streng vindt
    • je accepteert dat je de latente trek en item moeilijkheid niet op dezelfde interval schaal kan plaatsen
    • je een exploratieve analyse uit wil voeren

 

SCORES VERGELIJKEN
TUSSEN TWEE TOETSEN
MET (DEELS) ANDERE ITEMS

Bij KTT is de score op 1 test (bijv. IQ) niet direct te vergelijken met de score op een andere test.

Volgende voordeel van IRT!

Als je in ieder geval een aantal items/personen laat overlappen, zijn scores op dezelfde theta-schaal te herleiden!

Als je in ieder geval een aantal items/personen laat overlappen, zijn scores op dezelfde theta-schaal te herleiden!

Waarom zou je dit willen?

Voorbeeld:

Je wilt op basis van een score op je test bepalen of iemand geschikt is voor de opleiding geneeskunde.

Als je elk jaar dezelfde test zou afnemen heb je een probleem met ‘exposure’: items zouden kunnen uitlekken en bijvoorbeeld via internet kunnen worden gedeeld. Gevolg: veel hogere scores in jaar 2.

Hoe zou je dit probleem kunnen oplossen?

  • Een aantal verschillende versies van je test maken, en zorgen voor overlap («linked design», anker)
  • Ontwikkel een ITEM BANK = grote verzamelbak met vragen (veel groter dan de test zelf)
  • Een aantal verschillende versies van je test maken, en zorgen voor overlap («linked design», anker)

 

Verschil itembank in 1 keer calibreren vs elk jaar een paar items afnemen en zorgen voor overlap.

Blauwe items zijn bijvoorbeeld items van 1e jaar; grijze bolletjes van items 2e jaar

Hoe zou je dit probleem kunnen oplossen?

  • Een aantal verschillende versies van je test maken, en zorgen voor overlap («linked design», anker)
  • Ontwikkel een ITEM BANK = grote verzamelbak met vragen (veel groter dan de test zelf)

Er is een alternatief voor de standaar ‘paper and pencil test’: de computer adaptieve test (CAT)

  • Eerst met name populair voor onderwijskundig meten (bijv. Examens)
  • Nu ook populair aan het worden in andere gebieden, waaronder klinische psychologie en geneeskunde (bijv. kwaliteit van leven)
  • Meeste CAT om zelfinvullijsten, maar kan ook voor interviews.

CAT

  1. Basisingrediënt: item bank die met IRT is ‘gecalibreerd’.
  2. Dat wil zeggen: je kent van elk item in de item bank δ en indien relevant ook α en γ
  3. Kernidee: De respondent krijgt items aangeboden die op zijn/haar antwoordgedrag worden afgestemd!
  4. Je maakt hier dus gebruik van populatie-onafhankelijkheid. Voor elke item ken je de locatie (dus ook de moeilijkheids- en discriminatieparameter). Je krijgt bij CAT soms andere vragen dan de ander, de items worden geselecteerd obv je vorige antwoorden.

Meestal begin je met een item van gemiddelde moeilijkheid (delta van 0). Je kan bijvoorbeeld zeggen: ik wil stoppen na 50  items. Maar je kan ook zeggen dat je pas wilt stoppen als je een bepaalde betrouwbaarheid hebt behaald. Dan kan je ervoor zorgen dat je voor alle respondenten een betrouwbare score hebt bereikt

CAT zoekt items die net op jouw grens van goed/fout ligt. Het zoekt de grens waar de kans 0,5 is. Bij het invullen van een CAT vragenlijst heb je dus ongeacht jouw vaardigheid op de latente trek, vaak ongeveer de helft van de vragen fout; dit kan heel frustrerend werken (vooral als je goed bent in een vaardigheid en gewend bent om veel goed te hebben)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

College 6

VAN RUWE SCORE TOT UITSPRAAK

Hoe kom je van een ruwe score tot een uitspraak? Ø Stel je gaat naar de dokter om te laten checken of je vitamine D tekort hebt. Ø Er komt een waarde uit van 63. Wat wil dat zeggen? Ø Kun je pas een interpretatie aan geven als je de normen kent. Ø In dit geval is de onderwaarde 50 en de bovenwaarde 160.

VAN RUWE SCORE TOT UITSPRAAK

Inmiddels weten jullie hoe jullie... - Test items kunnen genereren - Kunnen analyseren of de test items van goede kwaliteit zijn - De betrouwbaarheid van een test kunnen bepalen - Verschillende aspecten van validiteit kunnen onderzoeken Dus nu hebben we een kwalitatief goede test die een score oplevert. Wat moeten we nu met deze score?

1 e ingrediënt: de ruwe score Hoe bereken je die? Voorbeelden: • Aantal goede antwoorden op een tentamen • Reactiesneldheid bij een leesvaardigheidstest • Som van de likert scores op alle items in een depressie-vragenlijst à Let goed op of je item scores allemaal dezelfde betekenis hebben! Zo niet (een geeft veel depressie aan, ander weinig), omschalen voordat je de item scores optelt tot een ruwe score

De ruwe score heeft op zichzelf geen betekenis! Voorbeeld: ruwe score van 22 op tentamen. Pas betekenis als je weet 1. Uit hoeveel vragen het tentamen bestond 2. Of voor elke vraag evenveel punten zijn gegeven 3. Wat de omzettingstabel is van ruwe scores naar schoolcijfers

Aantal belangrijke manieren om van ruwe score tot een uitspraak te komen: Via: 1.Absolute normen (‘criterion-referenced measurement’) bv. tentamencijfers 2.Verhoudingsnormen – bv IQ 3.Relatieve normen (‘ norm-referenced measurement’) 4.Cut-off scores gebaseerd op verschil tussen populatieverdelingen

Leerquotiënt • DLE/DL • Kleiner dan 1 kan wijzen op leerachterstand • DL: # maanden onderwijs dat de leerling vanaf groep 3 heeft gevolgd (10 mnd/jaar) • Om DLE te bepalen: – Mediane/gemiddelde score berekenen voor een toets voor verschillende DL groepen -> tabel – Dan voor een individueel kind de ruwe score met deze tabel vergelijken

VOORBEELD: CITO LEERLING VOLGSYSTEEM ØOnderdeel “toetsen taal”. Deze toetsen brengen de algemene taalvaardigheid van jonge kinderen in beeld. ØDoelgroep: De toetsen Taal voor kleuters zijn bestemd voor en genormeerd bij leerlingen in groep 1 en 2 in het Nederlandse basisonderwijs. ØDoel: niveaubepaling en progressiebepaling

RELATIEVE NORMEN Hoe doet Peter het ten op zichte van zijn leeftijdgenoten? Benodigde info: - Populatieverdeling op basis van representatieve steekproef - Score van Peter Let op! Normeringssteekproef versus persoon/groep waar je uitspraak over wil doen

Stappenplan normtabellen: 1.Trek steekproef die je doelpopulatie weerspiegelt, liefst aselect 2.Neem test af onder zelfde condities als waarin je de test wil gaan gebruiken 3.Maak verdeling(en) van de testscores 4.Eventueel omzetten van ruwe scores in bewerkte scores (stanines, percentielen, etc.) 5.Pas tabellen regelmatig aan! Zijn niet eeuwig ‘houdbaar’

PERCENTIELEN IN R

• In R kun je de functie quantile gebruiken • Als je weer percentielen 20, 40 en 60 wil opvragen typ je: quantile(ruwescore, c(.20, .40, .60)) Waar ruwescore staat, typ je de naam van je variabele

RELATIEVE NORMEN

§ We hebben het tot nu toe gehad over normen gebaseerd op rangordes (percentielen) § Ander voorbeeld van relatieve normen zijn gestandaardiseerde normscores § Voorbeelden: T-scores, IQ-scores

                                                                                                                                

PSYCHISCHE KLACHTEN: CUT-OFF SCORES

Essentieel verschil met voorgaande: à Doel van veel klinische vragenlijsten (bijv. depressie) is het bepalen uit welke populatie de respondent afkomstig is!! = Extra stap! Score – welke populatie – (relatieve positie in die populatie)

THE KNOWN GROUPS METHOD

Stel we willen bepalen of Maria depressief is. Op onze depressie[1]vragenlijst heeft ze een score van 67. Wat hebben we nodig? 1. Verdeling van scores op deze lijst voor niet-depressieve mensen 2. Verdeling van scores voor depressieve mensen 3. Cut-off: wanneer zeggen we dat de kans dat Maria tot de depressieve populatie behoort groter is dan tot de niet[1]depressieve populatie

VERDELINGEN – CUT-OFF – SENS & SPEC

Even samenvatten:

– Je maakt eerst 2 verdelingen van testscores, 1 voor populatie 1 en een voor populatie 2 – Dan bepaal je de cut-off: dit is een score waarboven je iemand indeelt in categorie 2 – Je gaat dus van een continue score naar een categorie – Hoe bepaal je de validiteit van die categorisering? Vb depressie. Je wilt weten hoe goed je erin slaagt op basis van je test het oordeel van de clinicus te ‘voorspellen

Sensitiviteit: het aantal mensen dat een positieve testuitslag heeft gekregen gedeeld door het aantal mensen dat de diagnose echt heeft Specificiteit: het aantal mensen dat een negatieve testuitslag heeft gekregen gedeeld door het aantal dat de diagnose niet heeft

!! Let op !! Ø De sens & spec veranderen als je de cut-off verandert! Dus geen vaststaande eigenschap van een instrument! Ø Er onstaat een trade-off tussen sensitiviteit en specificiteit. Afhankelijk van je toepassing probeer je een van twee (liefst beiden) te optimaliseren. Wat is erger? Een false positive of een false negative?

VAN RUWE SCORE TOT UITSPRAAK - OPFRISSER

Belangrijke manieren om van ruwe score tot een uitspraak te komen: Via: 1.Absolute normen (‘criterion-referenced measurement’) 2.Verhoudingsnormen 3.Relatieve normen (‘ norm-referenced measurement’) 4.Cut-off scores gebaseerd op verschil tussen populatieverdelingen

DOEL VAN DE TEST

Als je doel is om vast te stellen of iemand een bepaalde stoornis heeft (en behandeling te starten als dit het geval is), wil je weten hoe goed jouw score de diagnose van een clinicus voorspelt. à Normering: cut-off score à Validiteit: dimensionaliteit, sens & spec Als je doel is om vast te stellen of een kind achterloop met rekenvaardigheid, wil je weten hoe goed dat kind het doet in vergelijking met leeftijdgenoten à Normering: relatieve normen à Validiteit: dimensionaliteit, correlatie met bestaande test, extern criterium (schoolcijfers)

Access: 
Public
Check more of this topic?
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Image

Follow the author: LavaVanDrooge
More contributions of WorldSupporter author: LavaVanDrooge:
Comments, Compliments & Kudos:

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
Check how to use summaries on WorldSupporter.org


Online access to all summaries, study notes en practice exams

Using and finding summaries, study notes en practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the menu above every page to go to one of the main starting pages
    • Starting pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
  2. Use the topics and taxonomy terms
    • The topics and taxonomy of the study and working fields gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
  3. Check or follow your (study) organizations:
    • by checking or using your study organizations you are likely to discover all relevant study materials.
    • this option is only available trough partner organizations
  4. Check or follow authors or other WorldSupporters
    • by following individual users, authors  you are likely to discover more relevant study materials.
  5. Use the Search tools
    • 'Quick & Easy'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject.
    • The search tool is also available at the bottom of most pages

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Field of study

Check the related and most recent topics and summaries:
Activity abroad, study field of working area:
Institutions, jobs and organizations:
Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
859