Testtheorie hoorcolleges | WorldSupporter Summaries and Study Notes

Testtheorie hoorcolleges

College 1: 10-09-20

Één van de kenmerken van psychologische eigenschappen is dat ze niet/moeilijk observeerbaar zijn. Testscores zijn geen absolute waarheid, je moet rekening houden met de context en de persoon. Het is dus van belang om altijd kritisch te zijn op testscores en andere bronnen van informatie. Ook is het belangrijk dat er spreiding is in de totaalscores op een test.

James McKeen Cattell was de eerste die systematisch onderzoek deed naar kwantificeren van individuele verschillen. Ook was hij de eerste hoogleraar psychologie ter wereld, in 1887.

Notatie:

k = totaal aantal items in een test
g/h = specifiek item
X= ruwe score/totaalscore/ongewogen som van de k itemscores
i = personen

De som van de testscores is gelijk aan de gemiddelde itemscore.

De covariantie geeft de richting van het verband aan, maar niet de sterkte van het verband. In dat geval zou je moeten werken met de correlatie.

Met de variantie-covariantiematrix bereken je de de variantie van een som variabele:

Kenmerken van een test:

efficiëntie
standaardisatie
normering (H5)
objectiviteit (correlatie, kendalls tau, spearman's rho, cohens kappa)
betrouwbaarheid (H6)
validiteit (H8, de mate waarin de test aan zijn doel beantwoord)

Een paar voorbeeld van typen tests:

test of maximum performance (prestaties, zoals WAIS, WISC en NIO)
test of typical performance (gedragswijze, zoals observatie en zelfbeoordeling)
snelheidstest
niveautest

College 2: 17-09-20

Itemanalyse vindt plaats door gebruik te maken van gemiddelden, spreidingen, relatieve frequentieverdelingen, item-test en item-test correlaties.

LISS Panel is een groot panel voor onderzoek in de sociale wetenschappen via internet.

Dichotome items= twee mogelijke scores, maar er kunnen wel meerdere antwoordmogelijkheden zijn. Vaak nul punten voor fout en één punt voor goed.

p-waarde (mensen die het goede antwoord hebben gegeven)
a-waarde (mensen die het foute antwoord hebben gegeven)

Polytome items= meerdere scores mogelijk

relatieve frequentieverdeling (de frequenties van de klassen worden als percentage van het totaal weergegeven)

Een incorrect antwoord wordt een afleider genoemd.

Restscore: Xg= X - Xg

rXgXg= 1

Homogene constructen= hogere correlaties

Heterogene constructen= lagere correlaties

Toevalscorrectie :

X_c=X-(k-X)/(A-1)

X = aantal goed

k = aantal items

A = aantal antwoordopties

Aftestgrens = k/A+(%kennisniveau∗(k-k/A))

Een lineaire transformatie is niet altijd normaal verdeeld. Bij een genormaliseerde standaardscore moet je alles opnieuw berekenen, zodat je wel de normale verdeling kan aanhouden.

College 3: 24-09-20

Betrouwbaarheid= herhaalbaarheid van metingen met zo min mogelijk toevalligheden.

= de proportie van de variantie van X is systematisch.

Testscore= systematisch deel + toevallig deel

= Xij = Ti (constant) + Eij

Spreiding meetfouten = spreiding geobserveerde scores

r(E,Y) = 0 Dus: r(E,T) = 0 Maar: r(E,X) > 0

Geen spreiding in T? Betrouwbaarheid van nul

Geen spreiding in X? Goed, want systematisch

Individuele diagnostiek: rxx’= 0,9

Vergelijking van groepen: rxx’= 0,7

In de praktijk kunnen we S2(T) niet uitrekenen, dus moeten we een schatting maken:

Test-hertest methode= dezelfde test twee keer bij dezelfde persoon afnemen.

correlatie

Parallel-methode= twee verschillende test bij dezelfde persoon afnemen.

T en S2 gelijk

Splitsingsmethode= één keer een test afnemen, de test in twee helften verdelen.

Spearman Brown=

K=2= rkk(1-rxx’):rxx’(1-rkk)

Interne consistentie methode= alfa is het meest gebruikt maar je kan ook gutmans lambda, GLB of omega gebruiken.

k= aantal items

Alfa is afhankelijk van het aantal items en de kwaliteit van de items.

Grotere betrouwbaarheid kan je krijgen door:

meer items, mits allemaal van een even goede kwaliteit (hoge-inter-item covariatie)
alfa hoog als S2(X) is hoog
items verwijderen met lage item-rest r verwijderen

De winst in betrouwbaarheid wordt steeds kleiner naarmate je meerdere items toevoegt. Lange tests zijn vermoeiender. Ook is het moeilijk om vragen van even goede kwaliteit te bedenken.

College 4: 24-09-20

Met de klassieke testtheorie kunnen we de betrouwbare score Ti(individu) niet meten, alleen de gemiddelde betrouwbare score.

Betrouwbaarheidsinterval rond Ti schatten: T +- 1,96 x S(E), voor een schatting van T en het bepalen van S(E) gebruik je:

Individueel model: Je gebruikt de geobserveerde score van X als schatting voor T.

standaardmeetfout

Groepsmodel:

standaardschattingsfout

Bij dit model zijn je uitkomsten nauwkeuriger, het bevat meer relevante informatie.

Als de meetfout omhoog gaat, gaat de geobserveerde score ook omhoog. En andersom.

Validiteit= de mate waarin de test aan zijn doel beantwoordt. Dit is afhankelijk van het doel van de test. Je kan een test gebruiken om als voorspeller van ander gedrag te fungeren. Ook kan een test dienen als operationalisering van psychologisch construct.

Betrouwbaarheid als voorwaarde voor validiteit. Als de betrouwbaarheid van een test laag is, kan de validiteit ook niet hoog zijn. Maar een betrouwbare test is niet automatisch valide, het is alleen een voorwaarde voor validiteit. Een test kan erg betrouwbaar zijn en toch iets anders meten dan dat je wilde.

Typen begripsvaliditeit:

content validity(inhoudsvaliditeit)= in hoeverre representeert de inhoud van de test voor datgene wat we willen meten.
face validity(indruksvaliditeit)= ogenschijnlijke relatie tussen een construct en een criterium, het is een lekenoordeel.
congruente/divergente validiteit= samenhang met scores op een test die soortgelijke eigenschap meet. Of samenhang met scores op een test die een ander begrip meet.

Er is een tegenstelling in validiteit doordat het lekenoordeel en de objectieve oordelen van elkaar verschillen.

Factoranalyse dient tot het vaststellen welke samenvatting het beste past. Het gaat dus om dimensionaliteit:

exploratief= wat is de structuur van de test?
bevestigend= klopt de veronderstelde structuur van de test?

Common factor analysis: je gebruikt alleen de delen van de itemscores die onderling samenhangen.

Componentenanalyse: geobserveerde itemscores gebruiken.

PCA, dit is exploratief (onderzoeker bepaald gewicht, correlaties(lading matrix))

Vind een q aantal factoren die samen zoveel mogelijk variantie verklaren. Alle PC’s zijn ongecorreleerd. Hoog laden is ver van 0 af, zowel naar de min als de plus. Kaiser criterium(eigenvalue= VAF factor x totaal aantal items, groter dan 1 is goed).

Scree criterium(aantal factoren voor knik in een scree plot)

MGM, dit is bevestigend (data voor bepalen gewicht, correlaties(lading matrix))

Wordt een aangenomen groepering van items ondersteund door een gegeven dataset?

Ongecorreleerde factoren zijn orthogonaal en gecorreleerde factoren zijn oblique.

Factorscore = gewogen som itemscores

?_??=?_1?∗?_?1+?_2?∗?_?2…?_??∗?_??

fiq = factorscore van persoon i op factor q

bjq = gewicht van item j voor factor q

zij = gestandaardiseerde score van persoon i op item j

Rotatie:

Doel PCA= Zoveel mogelijk verklaarde variantie. De totale VAF moet zo groot mogelijk zin en zegt niets over VAF afzonderlijke componenten.

Vervangen PC’s door nieuwe factoren met dezelfde totale VAF, maar andere VAF voor afzonderlijke factoren. VAF herverdeeld over de factoren

Geroteerde PC’s ≠ PC

1e PC verklaart niet zo veel mogelijk variantie
Niet per definitie ordening meer van 1e naar qe in grootte VAF
Niet per definitie ongecorreleerd

Als de assen in een hoek van 90 graden blijven staan, dan blijven ze ongecorreleerd/orthogonaal.

College 5: 08-10-20

Een alternatief voor de klassieke testtheorie: Item respons theorie (IRT)= de kans op een psychologische trek. Deze kans hangt af van de kenmerken van de items. Ze worden beschreven door logistische functies.Deze is altijd stijgend en nooit dalend

We kijken naar dichotome items met ፀ latente trek(niet direct waarneembaar).

P(Xg=1 | θi ) = de kans dat een persoon met vaardigheidswaarde θi item g goed maakt.

Hoe steiler de IRF, hoe groter discriminerend vermogen (dus beter)

Hoe meer naar rechts de IRF, hoe moeilijker het item (dus slechter)

3 basisaannames IRT:

unidimensionaliteit= alle items meten dezelfde trek
lokale onafhankelijkheid= het antwoord op de ene item wordt niet beïnvloedt door het antwoord op de andere item
monotoniciteit= de item respons functie is ‘nondecreasing’

Rasch Model (1PL)

?(?? = 1 θ )= exp (θ−δ?) : 1+exp (θ−δ?)

δ? = moeilijkheidsparameter van item g= θ-waarde waar kans op item goed .5 is.

IRF’s kruisen niet, dus lopen op in moeilijkheid ongeacht het niveau

Birnbaums twee parameter model (2PL)

?(?? = 1 θ)= exp (α? θ−δ?) : 1+exp α? (θ−δ?)
δ? = moeilijkheidsparameter van item g= θ-waarde waar kans op item goed .5 is α?= discriminatieparameter van item g= steilheid van de IRF
IRF’s kunnen elkaar kruisen, door het gebruik van de α?.

Birnbaums drie parameter model (3PL)

?(?? = 1 θ)= γ? + (1 − γ?) x exp α? (θ−δ?) : 1+exp α? (θ−δ?)

δ? = moeilijkheidsparameter van item g= θ-waarde waar kans op item goed .5 is α?= discriminatieparameter van item g= steilheid van de IRF

γ?= pseudokansniveau van item g= punt op de y-as waar de IRF begint

Wordt gebruikt bij gokken. Volgens dit model gokt iedereen in dezelfde mate.

Als je een berekening moet maken van twee items, bereken je ze los met de formules en vermenigvuldig je de uitkomsten met elkaar. Tussendoor moet je afronden op twee decimalen.

Informatiefunctie→ S(E)= 1 : √I

Hogere informatie geeft een lagere S(E) en dus een nauwkeurigere meting.

Gebruik IRT:

testconstructie (ICC, selectie van items)
testafname (schat de nauwkeurigheid van θ en voor iedereen)

Voor parametrische modellen gebruik je heel veel personen om tot een goede schatting te komen. Bij non-parametrische modellen gebruik je de totaalscore i.p.v de θ, gebruik je de p-waarde en hoeft het niet logistisch te zijn. Twee non-parametrische modellen:

mokken model monotone homogeniteit= IRF’s mogen kruisen (2PL & 3PL)
mokken model dubbele monotomie= IRF’s mogen kruisen (1PL)

Toepassingen van IRT in de praktijk:

itembank en equivalering
adaptief toetsen/testen= CAT(korter, betere meetprecisie, duur, moeilijk veel items)
vraagonzuiverheid
afwijkende antwoordpatronen= PRF en Guttman fouten(kans op bepaalde scorepatronen, inhouding psychologische verklaring)

PRF= de kans dat een persoon met een gegeven θ waarde een goed antwoord geeft als functie van moeilijkheid.

Guttman fouten= items geordend naar moeilijkheid en populariteit van de antwoordcategorieën. Elke persoon maakt gegeven zijn totaalscore de makkelijkste item goed en de moeilijkste item fout. Dit is echter niet realistisch te noemen.

bijv. 11110000 (0 Guttman fouten) en 1110101 (3 Guttman fouten)

Je telt elke 0 ten opzichte van elke 1.

College 6: 15-10-20

Doelen van een test:

voorspeller van gedrag of prestaties→ predictief validiteit (multiple correlatie= R)
operationalisering van psychologisch begrip→ begripsvaliditeit

Concurrent validity= gelijktijdig beschikbare criterium gegevens (r,R,R^2)

Predictieve validiteit= criterium gegevens verkregen op een later tijdstip (r,R,R^2)

de vuistregel die hierbij hoort:

r=0,10 klein

r=0,30 middelgroot

r=0,50 groot

Incrementele validiteit= verbetering van voorspelling t.o.v reeds aanwezige informatie (R2)

= test met relatief hoge correlatie met criterium kan soms behoorlijk bijdragen bovenop een andere voorspeller, als de relatie met bestaande voorspeller klein is.

Redenen lage validiteitscoëfficiënt:

lage betrouwbaarheid criterium
negeren variabelen betekenis van het criterium
ten onrechte lineair verband verondersteld→ meer lineair=beter
negeren complexe samenstelling van groepen
te sterke vereenvoudiging van het criterium
range restriction→ alleen de geselecteerde groep blijft over. Dit is een onderschatting van de predictieve validiteit(hoe minder mensen je aanneemt, hoe sterker de onderschatting)

Beslissingen in testgebruik→ doel van testgebruik is zelden testen op zich.

Utiliteit= vergelijken van de beslissingen gemaakt met en zonder test. Het doel hiervan is een zo hoog mogelijke succesratio te bereiken, door middel van een selectieratio en een base rate/toevalsscore.

= hit(terecht afgewezen/aangenomen), vals positief(onterecht aangenomen) en vals negatief(onterecht afgewezen)

Economische utiliteit= baten verwachte verandering in succesratio versus kosten procedure.

Testen heeft geen zin als:

de base rate heel hoog of laag is→ iedereen is dan geschikt of ongeschikt
de selectieratio hoog is→ iedereen wordt toegelaten

Taylor Russell tabel= toegevoegde waarde schatten

Access:

Public

Join WorldSupporter!

Join with a free account for more service, or become a member for full access and support of WordSupporter

Check more of this topic?

Psychologie en gedrag

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Search other summaries?

Associate with your Field of Study

Search Summaries or Notes

Start using Summaries

Add a Summary

Follow the author: Vera Korf

Vera Korf

More contributions of WorldSupporter author: Vera Korf:

Comments, Compliments & Kudos:

Add new contribution

Promotions

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams
Using and finding summaries, study notes en practice exams on JoHo WorldSupporter
Quicklinks to fields of study (main tags and taxonomy terms)

Online access to all summaries, study notes en practice exams

Check out: Register with JoHo WorldSupporter: starting page (EN)
Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)

Using and finding summaries, study notes en practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

Starting Pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
Use the menu above every page to go to one of the main starting pages
Tags & Taxonomy: gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
Follow authors or (study) organizations: by following individual users, authors and your study organizations you are likely to discover more relevant study materials.
Search tool : 'quick & dirty'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject. The search tool is also available at the bottom of most pages

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Check out: Why and how to add a WorldSupporter contributions
JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form

Quicklinks to fields of study (main tags and taxonomy terms)

Field of study

Check related topics:

Activities abroad, studies and working fields

Psychologie en gedrag

Institutions and organizations

Universiteit Groningen en studieverenigingen

Access level of this page

Public
WorldSupporters only
JoHo members
Private

Statistics

2226