Testtheorie hoorcolleges

College 1: 10-09-20

Één van de kenmerken van psychologische eigenschappen is dat ze niet/moeilijk observeerbaar zijn. Testscores zijn geen absolute waarheid, je moet rekening houden met de context en de persoon. Het is dus van belang om altijd kritisch te zijn op testscores en andere bronnen van informatie. Ook is het belangrijk dat er spreiding is in de totaalscores op een test.

James McKeen Cattell was de eerste die systematisch onderzoek deed naar kwantificeren van individuele verschillen. Ook was hij de eerste hoogleraar psychologie ter wereld, in 1887.

Notatie:

k = totaal aantal items in een test
g/h = specifiek item
X= ruwe score/totaalscore/ongewogen som van de k itemscores
i = personen

De som van de testscores is gelijk aan de gemiddelde itemscore.

De covariantie geeft de richting van het verband aan, maar niet de sterkte van het verband. In dat geval zou je moeten werken met de correlatie.

Met de variantie-covariantiematrix bereken je de de variantie van een som variabele:

Kenmerken van een test:

efficiëntie
standaardisatie
normering (H5)
objectiviteit (correlatie, kendalls tau, spearman's rho, cohens kappa)
betrouwbaarheid (H6)
validiteit (H8, de mate waarin de test aan zijn doel beantwoord)

Een paar voorbeeld van typen tests:

test of maximum performance (prestaties, zoals WAIS, WISC en NIO)
test of typical performance (gedragswijze, zoals observatie en zelfbeoordeling)
snelheidstest
niveautest

College 2: 17-09-20

Itemanalyse vindt plaats door gebruik te maken van gemiddelden, spreidingen, relatieve frequentieverdelingen, item-test en item-test correlaties.

LISS Panel is een groot panel voor onderzoek in de sociale wetenschappen via internet.

Dichotome items= twee mogelijke scores, maar er kunnen wel meerdere antwoordmogelijkheden zijn. Vaak nul punten voor fout en één punt voor goed.

p-waarde (mensen die het goede antwoord hebben gegeven)
a-waarde (mensen die het foute antwoord hebben gegeven)

Polytome items= meerdere scores mogelijk

relatieve frequentieverdeling (de frequenties van de klassen worden als percentage van het totaal weergegeven)

Een incorrect antwoord wordt een afleider genoemd.

Restscore: Xg= X - Xg

rXgXg= 1

Homogene constructen= hogere correlaties

Heterogene constructen= lagere correlaties

Toevalscorrectie :

X_c=X-(k-X)/(A-1)

X = aantal goed

k = aantal items

A = aantal antwoordopties

Aftestgrens = k/A+(%kennisniveau∗(k-k/A))

Een lineaire transformatie is niet altijd normaal verdeeld. Bij een genormaliseerde standaardscore moet je alles opnieuw berekenen, zodat je wel de normale verdeling kan aanhouden.

College 3: 24-09-20

Betrouwbaarheid= herhaalbaarheid van metingen met zo min mogelijk toevalligheden.

= de proportie van de variantie van X is systematisch.

Testscore= systematisch deel + toevallig deel

= Xij = Ti (constant) + Eij

Spreiding meetfouten = spreiding geobserveerde scores

r(E,Y) = 0 Dus: r(E,T) = 0 Maar: r(E,X) > 0

Geen spreiding in T? Betrouwbaarheid van nul

Geen spreiding in X? Goed, want systematisch

Individuele diagnostiek: rxx’= 0,9

Vergelijking van groepen: rxx’= 0,7

In de praktijk kunnen we S2(T) niet uitrekenen, dus moeten we een schatting maken:

Test-hertest methode= dezelfde test twee keer bij dezelfde persoon afnemen.

correlatie

Parallel-methode= twee verschillende test bij dezelfde persoon afnemen.

T en S2 gelijk

Splitsingsmethode= één keer een test afnemen, de test in twee helften verdelen.

Spearman Brown=

K=2= rkk(1-rxx’):rxx’(1-rkk)

Interne consistentie methode= alfa is het meest gebruikt maar je kan ook gutmans lambda, GLB of omega gebruiken.

k= aantal items

Alfa is afhankelijk van het aantal items en de kwaliteit van de items.

Grotere betrouwbaarheid kan je krijgen door:

meer items, mits allemaal van een even goede kwaliteit (hoge-inter-item covariatie)
alfa hoog als S2(X) is hoog
items verwijderen met lage item-rest r verwijderen

De winst in betrouwbaarheid wordt steeds kleiner naarmate je meerdere items toevoegt. Lange tests zijn vermoeiender. Ook is het moeilijk om vragen van even goede kwaliteit te bedenken.

College 4: 24-09-20

Met de klassieke testtheorie kunnen we de betrouwbare score Ti(individu) niet meten, alleen de gemiddelde betrouwbare score.

Betrouwbaarheidsinterval rond Ti schatten: T +- 1,96 x S(E), voor een schatting van T en het bepalen van S(E) gebruik je:

Individueel model: Je gebruikt de geobserveerde score van X als schatting voor T.

standaardmeetfout

Groepsmodel:

standaardschattingsfout

Bij dit model zijn je uitkomsten nauwkeuriger, het bevat meer relevante informatie.

Als de meetfout omhoog gaat, gaat de geobserveerde score ook omhoog. En andersom.

Validiteit= de mate waarin de test aan zijn doel beantwoordt. Dit is afhankelijk van het doel van de test. Je kan een test gebruiken om als voorspeller van ander gedrag te fungeren. Ook kan een test dienen als operationalisering van psychologisch construct.

Betrouwbaarheid als voorwaarde voor validiteit. Als de betrouwbaarheid van een test laag is, kan de validiteit ook niet hoog zijn. Maar een betrouwbare test is niet automatisch valide, het is alleen een voorwaarde voor validiteit. Een test kan erg betrouwbaar zijn en toch iets anders meten dan dat je wilde.

Typen begripsvaliditeit:

content validity(inhoudsvaliditeit)= in hoeverre representeert de inhoud van de test voor datgene wat we willen meten.
face validity(indruksvaliditeit)= ogenschijnlijke relatie tussen een construct en een criterium, het is een lekenoordeel.
congruente/divergente validiteit= samenhang met scores op een test die soortgelijke eigenschap meet. Of samenhang met scores op een test die een ander begrip meet.

Er is een tegenstelling in validiteit doordat het lekenoordeel en de objectieve oordelen van elkaar verschillen.

Factoranalyse dient tot het vaststellen welke samenvatting het beste past. Het gaat dus om dimensionaliteit:

exploratief= wat is de structuur van de test?
bevestigend= klopt de veronderstelde structuur van de test?

Common factor analysis: je gebruikt alleen de delen van de itemscores die onderling samenhangen.

Componentenanalyse: geobserveerde itemscores gebruiken.

PCA, dit is exploratief (onderzoeker bepaald gewicht, correlaties(lading matrix))

Vind een q aantal factoren die samen zoveel mogelijk variantie verklaren. Alle PC’s zijn ongecorreleerd. Hoog laden is ver van 0 af, zowel naar de min als de plus. Kaiser criterium(eigenvalue= VAF factor x totaal aantal items, groter dan 1 is goed).

Scree criterium(aantal factoren voor knik in een scree plot)

MGM, dit is bevestigend (data voor bepalen gewicht, correlaties(lading matrix))

Wordt een aangenomen groepering van items ondersteund door een gegeven dataset?

Ongecorreleerde factoren zijn orthogonaal en gecorreleerde factoren zijn oblique.

Factorscore = gewogen som itemscores

?_??=?_1?∗?_?1+?_2?∗?_?2…?_??∗?_??

fiq = factorscore van persoon i op factor q

bjq = gewicht van item j voor factor q

zij = gestandaardiseerde score van persoon i op item j

Rotatie:

Doel PCA= Zoveel mogelijk verklaarde variantie. De totale VAF moet zo groot mogelijk zin en zegt niets over VAF afzonderlijke componenten.

Vervangen PC’s door nieuwe factoren met dezelfde totale VAF, maar andere VAF voor afzonderlijke factoren. VAF herverdeeld over de factoren

Geroteerde PC’s ≠ PC

1e PC verklaart niet zo veel mogelijk variantie
Niet per definitie ordening meer van 1e naar qe in grootte VAF
Niet per definitie ongecorreleerd

Als de assen in een hoek van 90 graden blijven staan, dan blijven ze ongecorreleerd/orthogonaal.

College 5: 08-10-20

Een alternatief voor de klassieke testtheorie: Item respons theorie (IRT)= de kans op een psychologische trek. Deze kans hangt af van de kenmerken van de items. Ze worden beschreven door logistische functies.Deze is altijd stijgend en nooit dalend

We kijken naar dichotome items met ፀ latente trek(niet direct waarneembaar).

P(Xg=1 | θi ) = de kans dat een persoon met vaardigheidswaarde θi item g goed maakt.

Hoe steiler de IRF, hoe groter discriminerend vermogen (dus beter)

Hoe meer naar rechts de IRF, hoe moeilijker het item (dus slechter)

3 basisaannames IRT:

unidimensionaliteit= alle items meten dezelfde trek
lokale onafhankelijkheid= het antwoord op de ene item wordt niet beïnvloedt door het antwoord op de andere item
monotoniciteit= de item respons functie is ‘nondecreasing’

Rasch Model (1PL)

?(?? = 1 θ )= exp (θ−δ?) : 1+exp (θ−δ?)

δ? = moeilijkheidsparameter van item g= θ-waarde waar kans op item goed .5 is.

IRF’s kruisen niet, dus lopen op in moeilijkheid ongeacht het niveau

Birnbaums twee parameter model (2PL)

?(?? = 1 θ)= exp (α? θ−δ?) : 1+exp α? (θ−δ?)
δ? = moeilijkheidsparameter van item g= θ-waarde waar kans op item goed .5 is α?= discriminatieparameter van item g= steilheid van de IRF
IRF’s kunnen elkaar kruisen, door het gebruik van de α?.

Birnbaums drie parameter model (3PL)

?(?? = 1 θ)= γ? + (1 − γ?) x exp α? (θ−δ?) : 1+exp α? (θ−δ?)

δ? = moeilijkheidsparameter van item g= θ-waarde waar kans op item goed .5 is α?= discriminatieparameter van item g= steilheid van de IRF

γ?= pseudokansniveau van item g= punt op de y-as waar de IRF begint

Wordt gebruikt bij gokken. Volgens dit model gokt iedereen in dezelfde mate.

Als je een berekening moet maken van twee items, bereken je ze los met de formules en vermenigvuldig je de uitkomsten met elkaar. Tussendoor moet je afronden op twee decimalen.

Informatiefunctie→ S(E)= 1 : √I

Hogere informatie geeft een lagere S(E) en dus een nauwkeurigere meting.

Gebruik IRT:

testconstructie (ICC, selectie van items)
testafname (schat de nauwkeurigheid van θ en voor iedereen)

Voor parametrische modellen gebruik je heel veel personen om tot een goede schatting te komen. Bij non-parametrische modellen gebruik je de totaalscore i.p.v de θ, gebruik je de p-waarde en hoeft het niet logistisch te zijn. Twee non-parametrische modellen:

mokken model monotone homogeniteit= IRF’s mogen kruisen (2PL & 3PL)
mokken model dubbele monotomie= IRF’s mogen kruisen (1PL)

Toepassingen van IRT in de praktijk:

itembank en equivalering
adaptief toetsen/testen= CAT(korter, betere meetprecisie, duur, moeilijk veel items)
vraagonzuiverheid
afwijkende antwoordpatronen= PRF en Guttman fouten(kans op bepaalde scorepatronen, inhouding psychologische verklaring)

PRF= de kans dat een persoon met een gegeven θ waarde een goed antwoord geeft als functie van moeilijkheid.

Guttman fouten= items geordend naar moeilijkheid en populariteit van de antwoordcategorieën. Elke persoon maakt gegeven zijn totaalscore de makkelijkste item goed en de moeilijkste item fout. Dit is echter niet realistisch te noemen.

bijv. 11110000 (0 Guttman fouten) en 1110101 (3 Guttman fouten)

Je telt elke 0 ten opzichte van elke 1.

College 6: 15-10-20

Doelen van een test:

voorspeller van gedrag of prestaties→ predictief validiteit (multiple correlatie= R)
operationalisering van psychologisch begrip→ begripsvaliditeit

Concurrent validity= gelijktijdig beschikbare criterium gegevens (r,R,R^2)

Predictieve validiteit= criterium gegevens verkregen op een later tijdstip (r,R,R^2)

de vuistregel die hierbij hoort:

r=0,10 klein

r=0,30 middelgroot

r=0,50 groot

Incrementele validiteit= verbetering van voorspelling t.o.v reeds aanwezige informatie (R2)

= test met relatief hoge correlatie met criterium kan soms behoorlijk bijdragen bovenop een andere voorspeller, als de relatie met bestaande voorspeller klein is.

Redenen lage validiteitscoëfficiënt:

lage betrouwbaarheid criterium
negeren variabelen betekenis van het criterium
ten onrechte lineair verband verondersteld→ meer lineair=beter
negeren complexe samenstelling van groepen
te sterke vereenvoudiging van het criterium
range restriction→ alleen de geselecteerde groep blijft over. Dit is een onderschatting van de predictieve validiteit(hoe minder mensen je aanneemt, hoe sterker de onderschatting)

Beslissingen in testgebruik→ doel van testgebruik is zelden testen op zich.

Utiliteit= vergelijken van de beslissingen gemaakt met en zonder test. Het doel hiervan is een zo hoog mogelijke succesratio te bereiken, door middel van een selectieratio en een base rate/toevalsscore.

= hit(terecht afgewezen/aangenomen), vals positief(onterecht aangenomen) en vals negatief(onterecht afgewezen)

Economische utiliteit= baten verwachte verandering in succesratio versus kosten procedure.

Testen heeft geen zin als:

de base rate heel hoog of laag is→ iedereen is dan geschikt of ongeschikt
de selectieratio hoog is→ iedereen wordt toegelaten

Taylor Russell tabel= toegevoegde waarde schatten

Access:

Public

Verzekeren bij een faire en solidaire zorgverzekeraar?

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check: concept of JoHo WorldSupporter

Concept of JoHo WorldSupporter

JoHo WorldSupporter mission and vision:

JoHo wants to enable people and organizations to develop and work better together, and thereby contribute to a tolerant tolerant and sustainable world. Through physical and online platforms, it support personal development and promote international cooperation is encouraged.

JoHo concept:

As a JoHo donor, member or insured, you provide support to the JoHo objectives. JoHo then supports you with tools, coaching and benefits in the areas of personal development and international activities.
JoHo's core services include: study support, competence development, coaching and insurance mediation when departure abroad.