Testtheorie hoorcolleges

College 1: 10-09-20

 

Één van de kenmerken van psychologische eigenschappen is dat ze niet/moeilijk observeerbaar zijn. Testscores zijn geen absolute waarheid, je moet rekening houden met de context en de persoon. Het is dus van belang om altijd kritisch te zijn op testscores en andere bronnen van informatie. Ook is het belangrijk dat er spreiding is in de totaalscores op een test.

 

James McKeen Cattell was de eerste die systematisch onderzoek deed naar kwantificeren van individuele verschillen. Ook was hij de eerste hoogleraar psychologie ter wereld, in 1887.

 

Notatie:

  • k = totaal aantal items in een test

  • g/h = specifiek item

  • X= ruwe score/totaalscore/ongewogen som van de k itemscores

  • i = personen

 

 

De som van de testscores is gelijk aan de gemiddelde itemscore.

 

De covariantie geeft de richting van het verband aan, maar niet de sterkte van het verband. In dat geval zou je moeten werken met de correlatie. 

 

Met de variantie-covariantiematrix bereken je de de variantie van een som variabele:

 

Kenmerken van een test:

  • efficiëntie

  • standaardisatie

  • normering (H5)

  • objectiviteit (correlatie, kendalls tau, spearman's rho, cohens kappa)

  • betrouwbaarheid (H6)

  • validiteit (H8, de mate waarin de test aan zijn doel beantwoord)

Een paar voorbeeld van typen tests:

  • test of maximum performance (prestaties, zoals WAIS, WISC en NIO)

  • test of typical performance (gedragswijze, zoals observatie en zelfbeoordeling)

  • snelheidstest

  • niveautest

 

College 2: 17-09-20

 

Itemanalyse vindt plaats door gebruik te maken van gemiddelden, spreidingen, relatieve frequentieverdelingen, item-test en item-test correlaties. 

LISS Panel is een groot panel voor onderzoek in de sociale wetenschappen via internet.

 

Dichotome items= twee mogelijke scores, maar er kunnen wel meerdere antwoordmogelijkheden zijn. Vaak nul punten voor fout en één punt voor goed. 

  • p-waarde (mensen die het goede antwoord hebben gegeven)

  • a-waarde (mensen die het foute antwoord hebben gegeven)

 

Polytome items= meerdere scores mogelijk

  • relatieve frequentieverdeling (de frequenties van de klassen worden als percentage van het totaal weergegeven)

 

Een incorrect antwoord wordt een afleider genoemd.

 

Restscore: Xg= X - Xg 

rXgXg= 1

 

Homogene constructen= hogere correlaties

Heterogene constructen= lagere correlaties

 

Toevalscorrectie :

X_c=X-(k-X)/(A-1)

X = aantal goed

k = aantal items

A = aantal antwoordopties

Aftestgrens = k/A+(%kennisniveau∗(k-k/A))

 

Een lineaire transformatie is niet altijd normaal verdeeld. Bij een genormaliseerde standaardscore moet je alles opnieuw berekenen, zodat je wel de normale verdeling kan aanhouden.

 

 

College 3: 24-09-20

 

Betrouwbaarheid= herhaalbaarheid van metingen met zo min mogelijk toevalligheden. 

    = de proportie van de variantie van X is systematisch.

   

 

Testscore= systematisch deel + toevallig deel

    = Xij = Ti (constant) + Eij

Spreiding meetfouten = spreiding geobserveerde scores

r(E,Y) = 0  Dus: r(E,T) = 0   Maar: r(E,X) > 0

 

Geen spreiding in T? Betrouwbaarheid van nul

Geen spreiding in X? Goed, want systematisch

 

Individuele diagnostiek: rxx’= 0,9

Vergelijking van groepen: rxx’= 0,7

 

In de praktijk kunnen we S2(T) niet uitrekenen, dus moeten we een schatting maken:

  • Test-hertest methode= dezelfde test twee keer bij dezelfde persoon afnemen.

correlatie

  • Parallel-methode= twee verschillende test bij dezelfde persoon afnemen.

      T en S2 gelijk

  • Splitsingsmethode= één keer een test afnemen, de test in twee helften verdelen.

      Spearman Brown=

K=2= rkk(1-rxx’):rxx’(1-rkk)

  • Interne consistentie methode= alfa is het meest gebruikt maar je kan ook gutmans lambda, GLB of omega gebruiken.

k= aantal items

  Alfa is afhankelijk van het aantal items en de kwaliteit van de items.

 

Grotere betrouwbaarheid kan je krijgen door:

  • meer items, mits allemaal van een even goede kwaliteit (hoge-inter-item covariatie)

  • alfa hoog als S2(X) is hoog

  • items verwijderen met lage item-rest r verwijderen

De winst in betrouwbaarheid wordt steeds kleiner naarmate je meerdere items toevoegt. Lange tests zijn vermoeiender. Ook is het moeilijk om vragen van even goede kwaliteit te bedenken.

 

College 4: 24-09-20

 

Met de klassieke testtheorie kunnen we de betrouwbare score Ti(individu) niet meten, alleen de gemiddelde betrouwbare score.

Betrouwbaarheidsinterval rond Ti schatten: T +- 1,96 x S(E), voor een schatting van T en het bepalen van S(E) gebruik je: 

  • Individueel model: Je gebruikt de geobserveerde score van X als schatting voor T.

                  standaardmeetfout

  • Groepsmodel:

  

standaardschattingsfout

Bij dit model zijn je uitkomsten nauwkeuriger, het bevat meer relevante informatie.

 

Als de meetfout omhoog gaat, gaat de geobserveerde score ook omhoog. En andersom.

 

Validiteit= de mate waarin de test aan zijn doel beantwoordt. Dit is afhankelijk van het doel van de test. Je kan een test gebruiken om als voorspeller van ander gedrag te fungeren. Ook kan een test dienen als operationalisering van psychologisch construct.

Betrouwbaarheid als voorwaarde voor validiteit. Als de betrouwbaarheid van een test laag is, kan de validiteit ook niet hoog zijn. Maar een betrouwbare test is niet automatisch valide, het is alleen een voorwaarde voor validiteit. Een test kan erg betrouwbaar zijn en toch iets anders meten dan dat je wilde. 

Typen begripsvaliditeit:

  • content validity(inhoudsvaliditeit)= in hoeverre representeert de inhoud van de test voor datgene wat we willen meten.

  • face validity(indruksvaliditeit)= ogenschijnlijke relatie tussen een construct en een criterium, het is een lekenoordeel.

  • congruente/divergente validiteit= samenhang met scores op een test die soortgelijke eigenschap meet. Of samenhang met scores op een test die een ander begrip meet.

Er is een tegenstelling in validiteit doordat het lekenoordeel en de objectieve oordelen van elkaar verschillen. 

 

Factoranalyse dient tot het vaststellen welke samenvatting het beste past. Het gaat dus om dimensionaliteit:

  • exploratief= wat is de structuur van de test?

  • bevestigend= klopt de veronderstelde structuur van de test?

Common factor analysis: je gebruikt alleen de delen van de itemscores die onderling samenhangen.

Componentenanalyse: geobserveerde itemscores gebruiken.

  • PCA, dit is exploratief (onderzoeker bepaald gewicht, correlaties(lading matrix))

Vind een q aantal factoren die samen zoveel mogelijk variantie verklaren. Alle PC’s zijn ongecorreleerd. Hoog laden is ver van 0 af, zowel naar de min als de plus. Kaiser criterium(eigenvalue= VAF factor x totaal aantal items, groter dan 1 is goed).

Scree criterium(aantal factoren voor knik in een scree plot)

  • MGM, dit is bevestigend (data voor bepalen gewicht, correlaties(lading matrix))

Wordt een aangenomen groepering van items ondersteund door een gegeven dataset?

Ongecorreleerde factoren zijn orthogonaal en gecorreleerde factoren zijn oblique.

Factorscore = gewogen som itemscores 

 

?_??=?_1?∗?_?1+?_2?∗?_?2…?_??∗?_??

 

fiq  = factorscore van persoon i op factor q

bjq = gewicht van item j voor factor q

zij  = gestandaardiseerde score van persoon i op item j

 

Rotatie:

Doel PCA= Zoveel mogelijk verklaarde variantie. De totale VAF moet zo groot mogelijk zin en zegt niets over VAF afzonderlijke componenten.

 

Vervangen PC’s door nieuwe factoren met dezelfde totale VAF, maar andere VAF voor afzonderlijke factoren. VAF herverdeeld over de factoren

 

Geroteerde PC’s ≠ PC

  • 1e PC verklaart niet zo veel mogelijk variantie

  • Niet per definitie ordening meer van 1e naar qe in grootte VAF

  • Niet per definitie ongecorreleerd

 

Als de assen in een hoek van 90 graden blijven staan, dan blijven ze ongecorreleerd/orthogonaal. 

College 5: 08-10-20

 

Een alternatief voor de klassieke testtheorie: Item respons theorie (IRT)= de kans op een psychologische trek. Deze kans hangt af van de kenmerken van de items. Ze worden beschreven door logistische functies.Deze is altijd stijgend en nooit dalend

We kijken naar dichotome items met ፀ latente trek(niet direct waarneembaar).

P(Xg=1 | θi ) = de kans dat een persoon met vaardigheidswaarde θi item g goed maakt.

Hoe steiler de IRF, hoe groter discriminerend vermogen (dus beter)

Hoe meer naar rechts de IRF, hoe moeilijker het item (dus slechter)

 

3 basisaannames IRT:

  1. unidimensionaliteit= alle items meten dezelfde trek

  2. lokale onafhankelijkheid= het antwoord op de ene item wordt niet beïnvloedt door het antwoord op de andere item

  3. monotoniciteit= de item respons functie is ‘nondecreasing’

 

Rasch Model (1PL)

  • ?(?? = 1 θ )= exp (θ−δ?) : 1+exp (θ−δ?) 

 δ? = moeilijkheidsparameter van item g= θ-waarde waar kans op item goed .5 is.

  • IRF’s kruisen niet, dus lopen op in moeilijkheid ongeacht het niveau

 

Birnbaums twee parameter model (2PL)

  • ?(?? = 1 θ)= exp (α? θ−δ?) :  1+exp α? (θ−δ?)

  • δ? = moeilijkheidsparameter van item g= θ-waarde waar kans op item goed .5 is  α?= discriminatieparameter van item g= steilheid van de IRF

  • IRF’s kunnen elkaar kruisen, door het gebruik van de α?.

 

Birnbaums drie parameter model (3PL)

  • ?(?? = 1 θ)= γ? + (1 − γ?) x exp α? (θ−δ?) : 1+exp α? (θ−δ?)

δ? = moeilijkheidsparameter van item g= θ-waarde waar kans op item goed .5 is  α?= discriminatieparameter van item g= steilheid van de IRF 

γ?= pseudokansniveau van item g= punt op de y-as waar de IRF begint

  • Wordt gebruikt bij gokken. Volgens dit model gokt iedereen in dezelfde mate.

 

Als je een berekening moet maken van twee items, bereken je ze los met de formules en vermenigvuldig je de uitkomsten met elkaar. Tussendoor moet je afronden op twee decimalen.

 

Informatiefunctie→ S(E)= 1 : √I

Hogere informatie geeft een lagere S(E) en dus een nauwkeurigere meting.

 

Gebruik IRT: 

  • testconstructie (ICC, selectie van items)

  • testafname (schat de nauwkeurigheid van θ en voor iedereen)

 

Voor parametrische modellen gebruik je heel veel personen om tot een goede schatting te komen. Bij non-parametrische modellen gebruik je de totaalscore i.p.v de θ, gebruik je de p-waarde en hoeft het niet logistisch te zijn. Twee non-parametrische modellen:

  • mokken model monotone homogeniteit= IRF’s mogen kruisen (2PL & 3PL)

  • mokken model dubbele monotomie= IRF’s mogen kruisen (1PL)

 

Toepassingen van IRT in de praktijk:

  • itembank en equivalering

  • adaptief toetsen/testen= CAT(korter, betere meetprecisie, duur, moeilijk veel items)

  • vraagonzuiverheid

  • afwijkende antwoordpatronen= PRF en Guttman fouten(kans op bepaalde scorepatronen, inhouding psychologische verklaring)

PRF= de kans dat een persoon met een gegeven θ waarde een goed antwoord geeft als functie van moeilijkheid.

Guttman fouten= items geordend naar moeilijkheid en populariteit van de antwoordcategorieën. Elke persoon maakt gegeven zijn totaalscore de makkelijkste item goed en de moeilijkste item fout. Dit is echter niet realistisch te noemen.

  • bijv. 11110000 (0 Guttman fouten) en 1110101 (3 Guttman fouten)

Je telt elke 0 ten opzichte van elke 1.

 

College 6: 15-10-20

 

Doelen van een test: 

  • voorspeller van gedrag of prestaties→ predictief validiteit (multiple correlatie= R)

  • operationalisering van psychologisch begrip→ begripsvaliditeit

 

Concurrent validity= gelijktijdig beschikbare criterium gegevens (r,R,R^2)

Predictieve validiteit= criterium gegevens verkregen op een later tijdstip (r,R,R^2)

de vuistregel die hierbij hoort:

r=0,10 klein

r=0,30 middelgroot

r=0,50 groot

Incrementele validiteit= verbetering van voorspelling t.o.v reeds aanwezige informatie (R2)

= test met relatief hoge correlatie met criterium kan soms behoorlijk bijdragen bovenop een andere voorspeller, als de relatie met bestaande voorspeller klein is.

 

Redenen lage validiteitscoëfficiënt:

  • lage betrouwbaarheid criterium

  • negeren variabelen betekenis van het criterium

  • ten onrechte lineair verband verondersteld→ meer lineair=beter

  • negeren complexe samenstelling van groepen

  • te sterke vereenvoudiging van het criterium

  • range restriction→ alleen de geselecteerde groep blijft over. Dit is een onderschatting van de predictieve validiteit(hoe minder mensen je aanneemt, hoe sterker de onderschatting)

 

Beslissingen in testgebruik→ doel van testgebruik is zelden testen op zich.

Utiliteit= vergelijken van de beslissingen gemaakt met en zonder test. Het doel hiervan is een zo hoog mogelijke succesratio te bereiken, door middel van een selectieratio en een base rate/toevalsscore.  

= hit(terecht afgewezen/aangenomen), vals positief(onterecht aangenomen) en vals     negatief(onterecht afgewezen)

Economische utiliteit= baten verwachte verandering in succesratio versus kosten procedure.

 

Testen heeft geen zin als: 

  • de base rate heel hoog of laag is→ iedereen is dan geschikt of ongeschikt

  • de selectieratio hoog is→ iedereen wordt toegelaten

Taylor Russell tabel= toegevoegde waarde schatten

 

 

Access: 
Public
Check more of this topic?
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Image

Comments, Compliments & Kudos:

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
Promotions
oneworld magazine
Check how to use summaries on WorldSupporter.org


Online access to all summaries, study notes en practice exams

Using and finding summaries, study notes en practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Starting Pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
  2. Use the menu above every page to go to one of the main starting pages
  3. Tags & Taxonomy: gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
  4. Follow authors or (study) organizations: by following individual users, authors and your study organizations you are likely to discover more relevant study materials.
  5. Search tool : 'quick & dirty'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject. The search tool is also available at the bottom of most pages

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study (main tags and taxonomy terms)

Field of study

Check related topics:
Activities abroad, studies and working fields
Institutions and organizations
Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
2226