Colleges testtheorie en testgebruik

Formules op het formuleblad (dus niet uit het hoofd leren):

Varianties van een somscore
Alfa
Spearman-brown
Individueel model
Groepsmodel
95% BHI
Rasch model
Birnbaums twee-parameter (logistisch) model
Birnbaums drie-parameter (logistisch) model
Selectieratio
Toevalskan / base rate
Succesratio
Toevalscorrectie
Aftestgrens

College 1: 13-09-21

Één van de kenmerken van psychologische eigenschappen is dat ze niet/moeilijk observeerbaar zijn. Testscores zijn geen absolute waarheid, je moet rekening houden met de context en de persoon. Het is dus van belang om altijd kritisch te zijn op testscores en andere bronnen van informatie. Ook is het belangrijk dat er spreiding is in de totaalscores op een test. Het doel van psychologische tests is een uitspraak doen die een voorspelling, classificatie of beschrijving mogelijk maakt m.b.t het onderzochte individu/de onderzochte groep.

James McKeen Cattell was de eerste die systematisch onderzoek deed naar kwantificeren van individuele verschillen. Ook was hij de eerste hoogleraar psychologie ter wereld, in 1887.

Testscores zijn geen absolute waarheid. Een psycholoog dient bij voorkeur test tot een oordeel te komen op basis van combinatie van verschillende waarnemingen. Geen blind testgebruik, rekening houden met de context en de persoon bij keuze van de tests. Als je scores wil vergelijken, kijk je naar normen.

Notatie:

k = totaal aantal items in een test
g/h = specifiek item
X= ruwe score/totaalscore/ongewogen som van de k itemscores
i = personen

Standaarddeviatie:

De som van de testscores is gelijk aan de gemiddelde itemscore.

De covariantie geeft de richting van het verband aan, maar niet de sterkte van het verband. Het is een maat voor lineaire samenhang, namelijk de mate waarin X en Y samen variëren. Als je de sterkte van het verband wilt weten, zou je moeten werken met de correlatie.

Covariantie:

Met de variantie-covariantiematrix bereken je de de variantie van een som variabele:

Kenmerken van een test:

efficiëntie= de test is alleen maar gericht op het meten van het hypothetisch construct, zonder andere storende factoren.
standaardisatie= de testprocedure moet voor alle respondenten gelijk zijn, dus dezelfde instructie, tijdslimiet en condities.
normering (H5)= beschikbaarheid van normen om testscores te vergelijken.
objectiviteit= het mag niet uitmaken wie de beoordelaar is en openheid en reproduceerbaarheid van testprocedures (correlatie, kendalls tau, spearman's rho, cohens kappa)
betrouwbaarheid (H6)= mate waarin bij herhaalde metingen dezelfde score behaald wordt.
validiteit (H8)= de mate waarin de test aan zijn doel beantwoordt.

Een paar voorbeeld van typen tests:

test of maximum performance= test voor prestatieniveau (enkelvoudige niveautest zoals WAIS, WISC en NIO & test voor geschiktheid). Vaak goed/fout en high-stakes.
test of typical performance= tests voor gedragswijze (zoals observatie tests en zelfbeoordelingsschalen). Geen goed/fout en low-stakes. Bij deze tests zijn wat problemen te vinden, namelijk dat ze soms soms minder stabiele constructen meten en in de high-stakes context zal faking good/bad optreden.
snelheidstest= makkelijke items, veel items en een krap tijdslimiet.
niveautest= spreiding in de moeilijkheidsgraad van de items, ruim de tijd en minder items.

College 2: 20-09-21

Itemanalyse vindt plaats door gebruik te maken van gemiddelden, spreidingen, relatieve frequentieverdelingen, item-test en item-test correlaties.

LISS Panel is een groot panel voor onderzoek in de sociale wetenschappen via het internet.

Kwantificeren van reacties:

Dichotome items= twee mogelijke scores, maar er kunnen wel meerdere antwoordmogelijkheden zijn. Vaak nul punten voor fout en één punt voor goed.

p-waarde (mensen die het goede antwoord hebben gegeven)
a-waarde (mensen die het foute antwoord hebben gegeven)

Dit zijn beide waarden tussen de 0 en 1. Bij de relatieve frequentieverdeling (de frequenties van de klassen worden als percentage van het totaal weergegeven) willen we graag dat het goede item het hoogste percentage(niet te hoog) heeft en de afleiders een ongeveer gelijk percentage.

Variantie:

Standaarddeviatie:

Polytome items= meerdere scores mogelijk. Een antwoord is niet goed of fout. Er wordt niet altijd een soort waardeoordeel aangegeven, maar dat kan wel (bv. voldoende, goed en excellent).

Je kijkt naar relatieve frequentieverdelingen, itemgemiddelden en de spreiding. Net zoals bij dichotome items. je wilt graag een niet te extreem itemgemiddelde en een redelijke standaarddeviatie. Dus een niet scheve verdeling.

Theoretisch verwacht je samenhang tussen verschillende items die samen een test vormen. Je kijkt naar de correlatie tussen itemscores en de scores op de rest van de items van de test. Je verwacht dat deze positief is.

Item-test correlatie= correlatie (r) tussen score item (Xg) en somscore (X)

Item-rest correlatie= correlatie (r) tussen score item (Xg) en restscore (X-Xg)

Restscore: Xg= X - Xg
rXgXg= 1

Omdat de correlatie met de hele testscore een te positief beeld geeft van de relatie tussen een item en de overige items, want item maakt deel uit van testscore (rXgXg=1). Dit effect is het grootst bij korte tests. Dus een item-test correlatie > item-rest correlatie.

Als er een lage rest correlatie (< 0.15) wordt gevonden, betekent dat er weinig samenhang is met scores van de overige items. Dan wordt en dus niet gediscrimineerd tussen personen op dat construct. Je neemt dan aan dat de andere items wel dat construct meten. Een negatief verband is helemaal reden tot zorg.

Hogere item-rest correlaties: Homogene constructen= hogere correlaties

Lagere item-rest correlaties: Heterogene constructen= lagere correlaties

Een incorrect antwoord wordt een afleider genoemd. Een correct antwoord een gesleutelde respons.

Factoren van invloed op standaardisatie:

testcondities (ruimte, rust)
gedrag van proefpersonen (motivatie, fysieke gesteldheid, emotionele gesteldheid)
gedrag van de proefleider (persoonskenmerken, mate van handleiding volgen, sympathie/antipathie, training/ervaring)

Toevalscorrectie :

Xc=X-(k-X)/(A-1)

X = aantal goed

k = aantal items in de totale test

A = aantal antwoordopties

Kritiek aan de toevalscorrectie is:

fout antwoordt ligt niet altijd aan gokken
onderscheid wel/niet weten irreëel
geen punten voor partiële kennis

De aftestgrens bijstellen is dan een goede optie, i.p.v de score bijstellen. Aftestgrens = k/A+(%kennisniveau∗(k-(k/A)). Je rond dit altijd naar boven af.

Ruwe scores zijn alleen geschikt voor rangschikken van specifieke groepen. In andere gevallen kan je er geen interpretatie aan geven. Je hebt dan normen nodig.

Flynn effect= IQ scores worden steeds hoger

Een lineaire transformatie is niet altijd normaal verdeeld. Bij een genormaliseerde standaardscore moet je alles opnieuw berekenen, zodat je wel de normale verdeling kan aanhouden. Transformatie verandert niks aan de relatie tussen variabelen.

College 3: 27-09-21

Betrouwbaarheid= de mate waarin testscores overeenkomen als een test onder gelijkblijvende condities meerdere keren aan dezelfde persoon wordt voorgelegd.

=herhaalbaarheid van metingen met zo min mogelijk toevalligheden.

= de proportie van de variantie van X is systematisch.

We gaan er vanuit dat er onafhankelijke replicaties zijn, praktisch is dit niet vaak haalbaar.

Testscore= systematisch deel + toevallig deel

= betrouwbare score + meetfout

= Xij = Ti (constant) + Eij (varieert)

E= toevallige deel

T= systematische deel

X= geobserveerde deel

Je wilt het toevallige deel zo klein mogelijk hebben.

Ti= Xij - Eij

Aannamen in een populatie met van elke respondent één testscore (realistisch):

gemiddelde meetfout in populatie n personen is 0

Xgemiddeld= Tgemiddeld

correlatie meetfout en willekeurige andere variabele is 0

r(E,Y) = 0 Dus: r(E,T) = 0 Maar: r(E,X) > 0

Variantie geobserveerde score= variantie betrouwbare score + variantie meetfout

Spreiding meetfouten = spreiding geobserveerde scores

Geen spreiding in T? Betrouwbaarheid van nul, want alle variantie in X is meetfout.

Geen spreiding in X? Goed, want systematisch

Geen spreiding in E? Goed, want betrouwbaarheid is 1.

De vuistregel van Drenth & Sijtsma:

Betrouwbaarheid is een waarde tussen 0 en 1.

Individuele diagnostiek: rxx’ > 0,9

Vergelijking van groepen: rxx’> 0,7

In de praktijk kunnen we S^2(T) niet uitrekenen, dus moeten we een schatting maken:

Test-hertest methode= dezelfde test twee keer bij dezelfde persoon afnemen. Correlatie tussen de scores op de twee tests is dan de schatting voor de betrouwbaarheid. Deze schatting zit er boven of onder, maar zal nooit de precieze betrouwbaarheid zijn.
Parallel-methode= twee verschillende parallelle tests bij dezelfde groep personen afnemen. Voor parallelle tests geldt: T op beide tests gelijk, variantie S^2(X) van beide tests gelijk en correlatie van testscores X1 en X2 met alle andere variabelen Y gelijk. Dan is rxx’ = r ( Xi, Xii ). Het is echter heel moeilijk om parallelle tests te maken en lastig na te gaan of tests parallel zijn. Als dit dus niet gelukt is, is de betrouwbaarheid schatting te laag.
Splitsingsmethode= één keer een test afnemen bij iedere respondent, de test in twee helften verdelen met een gelijk aantal items. Voor beide testhelften wordt een totaalscore berekend(X1 en X2). Bereken rxx’= r(X1, X2). De aanname is dat beide helften parallel zijn.

Om de betrouwbaarheid van de hele test te weten doe je Spearman Brown=

rkk’= betrouwbaarheid na verlengen

K= verlengingsfactor

rxx’= betrouwbaarheid voor verlengen

K=2= rkk(1-rxx’):rxx’(1-rkk)

Interne consistentie methode= schatting van de betrouwbaarheid. Geeft een ondergrens voor de betrouwbaarheid. Alfa is het meest gebruikt maar je kan ook gutmans lambda, GLB of omega gebruiken. Alfa </= lambda 2 <= GLB.

k= aantal items

Alfa is afhankelijk van het aantal items en de kwaliteit van de items.

Onder de streep staan 1,1 en 2,2 en 3,3, etc.

Methoden o.b.v interne consistentie zeggen niets over eendimensionaliteit, alfa geeft de gemiddelde splitsing betrouwbaarheid voor alle mogelijke splitsingen, methoden als ondergrens voor betrouwbaarheid en niet geschikt voor speedtests (niet iedereen maakt een gelijk aantal items).

Grotere betrouwbaarheid kan je krijgen door:

meer items, mits allemaal van een even goede kwaliteit (hoge-inter-item covariatie).
alfa hoog als item-rest correlatie S^2(X) is hoog.
items verwijderen met lage item-rest r verwijderen.

Verlengingsfactor (K)= aantal items nieuw : aantal items oorspronkelijk

K x aantal items in de oorspronkelijke test en dan aantal items oorspronkelijke test - verkregen antwoord aantal nieuwe.

De winst in betrouwbaarheid wordt steeds kleiner naarmate je meerdere items toevoegt. Lange tests zijn vermoeiender. Ook is het moeilijk om vragen van even goede kwaliteit te bedenken.

College 4: 04-10-21

Met de klassieke testtheorie kunnen we de betrouwbare score Ti(individu) niet meten, alleen de gemiddelde betrouwbare score.

Betrouwbaarheidsinterval rond Ti schatten: T +- 1,96 x S(E), voor een schatting van T en het bepalen van de standaardmeetfout S(E) gebruik je:

Individueel model:

Je gebruikt de geobserveerde score van X als schatting voor T.

Je gebruikt hier de S(E) die je hebt uitgerekend met de geschatte waarde.

Groepsmodel:

S(E) is in dit model de standaardschattingsfout.

Bij dit model zijn je uitkomsten nauwkeuriger, het bevat meer relevante informatie.

BHI van het groepsmodel is smaller, want deze gebruikt naast de ruwe score ook de gemiddelde ruwe score, bevat meer relevante informatie en als rxx’ hoger is krijgt de individuele score meer gewicht + als rxx’ lager is krijgt groepsgemiddelde meer gewicht

Als de meetfout omhoog gaat, gaat de geobserveerde score ook omhoog. En andersom.

Validiteit= de mate waarin de test aan zijn doel beantwoordt. Dit is afhankelijk van het doel van de test. Je kan een test gebruiken om als voorspeller van ander gedrag te fungeren. Ook kan een test dienen als operationalisering van psychologisch construct.

Betrouwbaarheid is een voorwaarde voor validiteit. Niet betrouwbaar? Niet valide. Als de betrouwbaarheid van een test laag is, kan de validiteit ook niet hoog zijn. Maar een betrouwbare test is niet automatisch valide, het is alleen een voorwaarde voor validiteit. Een test kan erg betrouwbaar zijn en toch iets anders meten dan dat je wilde.

Verschillende doelen van een test zijn een voorspeller van ander gedrag (toekomstig gedrag voorspellen) en een operationalisering van een psychologisch construct (beschrijvend).

Er bestaat predictieve validiteit (voorspellen) en begripsvaliditeit (meet de test de eigenschap die we willen meten).

Typen begripsvaliditeit:

content validity (inhoudsvaliditeit)= in hoeverre representeert de inhoud van de test voor datgene wat we willen meten. Wordt door experts beoordeeld.
face validity (indruksvaliditeit)= ogenschijnlijke relatie tussen een construct en een criterium. Wordt door leken beoordeeld.
congruente validiteit= soortgenootvaliditeit: samenhang met scores op een test die een soortgelijke eigenschap meet.
divergente validiteit= samenhang met scores op een test die een ander begrip meet.

het boek voegt nog toe:

synthetische validiteit= richt zich op identificeerbare en op zichzelf zinvolle onderdelen van het criteriumgedrag i.p.v het complexe criterium als geheel.
incrementele validiteit= de mate waarin een voorspelling verbeterd kan worden.

Factoranalyse gaat over de structuur van een test. Deze dient tot het vaststellen welke samenvatting het beste past. Het gaat om de begripsvaliditeit. Het doel is om veel variabelen/items samen te vatten in minder variabelen/factoren. Het resultaat is het hebben van groepen van items waarvan de scores onderling sterk samenhangen. Het gaat om de dimensionaliteit van een test. Exploratief beantwoordt de vraag: wat is de structuur van de test? En bevestigend beantwoord de vraag: klopt de veronderstelde structuur van de test?

Common factor analysis= je gebruikt alleen de delen van de itemscores die onderling samenhangen. Exploratief of bevestigend.
Componentenanalyse= geobserveerde itemscores.

Factorscore = gewogen som itemscores

?_??=?_1?∗?_?1+?_2?∗?_?2…?_??∗?_??

fiq = factorscore van persoon i op factor q

bjq = gewicht van item j voor factor q

zij = gestandaardiseerde score van persoon i op item j

Twee soorten zijn:

Principale Componentenanalyse (PCA), dit is exploratief. Het gewicht wordt geschat aan de hand van de data. Vind een q aantal factoren die samen zoveel mogelijk variantie verklaren. Je vindt factoren één voor één. Alle PC’s zijn ongecorreleerd. Ze zijn geordend naar mate van verklaarde variantie. Hoog laden is ver van 0 af, zowel naar de min als de plus.Hoe veel componenten? Gebruik het Kaiser criterium (eigenvalue= VAF factor x totaal aantal items, groter dan 1 is goed) of het scree criterium (zo veel mogelijk VAF, met zo min mogelijk factoren. Het aantal factoren voor knik in een scree plot).
Multiple group method (MGM), dit is bevestigend. Wordt een aangenomen groepering van items ondersteund door een gegeven dataset? Het gewicht wordt bepaald door de onderzoeker, dit is 0 of 1. De verwachting is dat voor iedere factor q zullen items met gewicht 1 hoger correleren dan items met gewicht 0. Let hier op de correlatie van items met zichzelf.

Stappen van een componentenanalyse:

bepalen van gewichten (bjq)
correlaties itemscores met alle factoren (loading matrix)
interpretatie (items die hoog laden horen bij die factor)
proportie verklaarde variantie (hoe goed geven de factoren de geobserveerde variabelen/items weer? Meer factoren is een hogere VAF)

Ongecorreleerde factoren zijn orthogonaal, de constructen zijn niet aan elkaar gerelateerd. Gecorreleerde factoren zijn oblique, gerelateerde constructen.

Rotatie in componentenanalyse heeft als doel bij de PCA, om zoveel mogelijk verklaarde variantie te krijgen. De totale VAF moet zo groot mogelijk zijn en zegt niets over VAF afzonderlijke componenten. Je vervangt de PC’s door nieuwe factoren met dezelfde totale VAF, maar andere VAF voor afzonderlijke factoren. VAF herverdeeld over de factoren. De PC’s voldoen niet meer volledig aan waar ze eerst aan voldeden, ze zijn geen principale componenten meer. Geroteerde PC’s ≠ PC 1e PC verklaart niet zo veel mogelijk variantie, niet per definitie ordening meer van 1e naar qe in grootte VAF en niet per definitie ongecorreleerd.

Als de assen in een hoek van 90 graden blijven staan, dan blijven ze ongecorreleerd/orthogonaal.

College 5: 11-10-21

De nadelen van de klassieke testtheorie zijn:

T en X zijn afhankelijk van de respondent en test
geen controle op het model
nauwkeurigheid S(E) voor iedereen gelijk

Een alternatief voor de klassieke testtheorie is de item respons theorie (IRT)= wat is de kans dat een persoon met een bepaalde waarde op een psychologische trek een item goed beantwoordt of een positief antwoord geeft? Dit is de kans op een psychologische trek. Deze kans hangt af van de kenmerken van de items. Ze worden beschreven door logistische functies (Item respons functie). Deze is altijd stijgend en nooit dalend.

We kijken naar dichotome items met ፀ latente trek (niet direct waarneembaar).

P(Xg=1 | θi ) = de kans dat een persoon met vaardigheidswaarde θi item g goed maakt.

Hoe steiler de IRF, hoe groter discriminerend vermogen (dus beter).

Hoe meer naar rechts de IRF, hoe moeilijker het item (dus slechter).

3 basisaannames IRT:

unidimensionaliteit= alle items meten dezelfde latente trek.
lokale onafhankelijkheid= het antwoord op de ene item wordt niet beïnvloedt door het antwoord op de andere item. De gegeven antwoorden worden veroorzaakt door de onderliggende trek en niet door eerdere antwoorden.

Een mooie implicatie hiervan is dat de kansen op een goed item onafhankelijk zijn van elkaar, dus je ze mag vermenigvuldigen.

monotoniciteit= de item respons functie is nondecreasing (niet dalend).

Parametrische logistische modellen

Rasch Model (1PL)

?(?? = 1 θ )= exp (θ−δ?) : 1 + exp (θ−δ?)

δ? = moeilijkheidsparameter van item g= θ-waarde waar kans op item goed 0.5 is.

IRF’s kruisen elkaar niet, dus lopen op in moeilijkheid ongeacht het niveau. Dat komt door de afwezigheid van de discriminatieparameter. Discrimineren in gelijke mate.
Ratio en interval

Birnbaums twee parameter model (2PL)

?(?? = 1 θ)= exp (α? θ−δ?) : 1 + exp α? (θ−δ?)
δ? = moeilijkheidsparameter van item g= θ-waarde waar kans op item goed 0.5 is. α?= discriminatieparameter van item g= steilheid van de IRF.
IRF’s kunnen elkaar kruisen, door het gebruik van de α?.
Monotoon niet-dalend
Ratio en interval

Birnbaums drie parameter model (3PL)

?(?? = 1 θ)= γ? + (1 − γ?) x exp α? (θ−δ?) : 1 + exp α? (θ−δ?)

δ? = moeilijkheidsparameter van item g= θ-waarde waar kans op item goed (1 + γ?) : 2 is. Hoe meer naar recht IRF, hoe moeilijker het item. De moeilijkheid hangt af van de θ-waarde en hoe de functies beschreven worden.

α?= discriminatieparameter van item g= steilheid van de IRF. Hoe steiler, hoe groter het discriminerend vermogen.

γ?= pseudokansniveau van item g= punt op de y-as waar de IRF begint

IRF’s kunnen elkaar kruisen.

Wordt gebruikt bij gokken. Volgens dit model gokt iedereen in dezelfde mate.
Ratio en interval

exp staat voor e^x

Als je een berekening moet maken van twee items, bereken je ze los met de formules en vermenigvuldig je de uitkomsten met elkaar. Tussendoor moet je afronden op twee decimalen.

Informatiefunctie→ S(E)= 1 : √I

Je toont aan dat de S(E) niet voor iedereen gelijk is. Hogere informatie geeft een hogere informatiefunctie en een lagere S(E) en dus een nauwkeurigere meting.

Gebruik IRT:

testconstructie (ICC, selectie van items, schat item respons functies)
testafname (schat de nauwkeurigheid van θ en voor iedereen)

Wanneer welk model?

hangt af van te meten construct
hangt af van of er een duidelijke ordening in moeilijkheid te veronderstellen is (Rasch/Mokkens model van dubbele monotonie bij veronderstelde duidelijke ordening)

Voor parametrische modellen gebruik je heel veel personen om tot een goede schatting te komen. Bij non-parametrische modellen gebruik je de totaalscore i.p.v de θ, gebruik je de p-waarde en hoeft het niet logistisch te zijn.

Non-parametrische modellen

Mokken model monotone homogeniteit

IRF’s mogen kruisen (2PL & 3PL)

Ordinaal
Monotoon niet-dalend
Niet per se de S-vorm

Mokken model dubbele monotomie

IRF’s mogen kruisen (1PL)
Ordinaal
Niet per se de S-vorm

Kans op een bepaald scorepatroon gegeven iemands meetwaarde en kenmerken van de items vs verwachte kans o.b.v specifiek IRT model of ander testmodel.

Toepassingen van IRT in de praktijk:

itembank en equivalering
adaptief toetsen/testen= CAT (korter, betere meetprecisie, duur, moeilijk veel items)
vraagonzuiverheid
afwijkende antwoordpatronen= PRF en Guttman fouten (kans op bepaalde scorepatronen, inhouding psychologische verklaring)

Persoons-responsfunctie (PRF)= de kans dat een persoon met een gegeven θ waarde een goed antwoord geeft als functie van moeilijkheid.

Guttman fouten= items geordend naar moeilijkheid en populariteit van de antwoordcategorieën. Elke persoon maakt gegeven zijn totaalscore de makkelijkste item goed en de moeilijkste item fout. Dit is echter niet realistisch te noemen.

bijv. 11110000 (0 Guttman fouten) en 1110101 (3 Guttman fouten)

Je telt elke 0 ten opzichte van elke 1.

Eerst ordenen van makkelijk naar moeilijk, zie p-waardes voor de moeilijkheidsgraad van het item.
Wijkt het antwoordpatroon van de persoon af van deze ordening?

College 6: 18-10-21

Doelen van een test:

voorspeller van gedrag of prestaties→ predictieve validiteit (multiple correlatie= R)
operationalisering van psychologisch begrip→ begripsvaliditeit

Predictieve validiteit= hoe goed voorspelt een testscore X een gegeven criterium Y. Je hebt hiervoor testscores en criterium gegevens nodig. Je kijkt hierbij naar de correlatie. Als je meerdere voorspellers tegelijk hebt, kijk je naar de R (multipele correlatie). Dus in welke mate worden de voorspellingen bevestigd door criterium gegevens verkregen op een later tijdstip. (correlatie, multipele correlatie of verklaarde variantie)

Concurrent validity= in welke mate komen testresultaten overeen met gelijktijdig beschikbare criterium gegevens. (correlatie, multipele correlatie of verklaarde variantie)

Incrementele validiteit= verbetering van voorspelling t.o.v reeds aanwezige informatie. Test met relatief hoge correlatie met criterium kan soms behoorlijk bijdragen bovenop een andere voorspeller, als de relatie met bestaande voorspeller klein is. (toename in verklaarde variantie)

De vuistregel die hoort bij de correlatie (r):

r=0,10 klein
r=0,30 middelgroot
r=0,50 groot

Redenen lage validiteitscoëfficiënt:

lage betrouwbaarheid criterium door onderschatting van de predictieve validiteit.
negeren variabelen betekenis van het criterium, lastig om passend te maken voor meerdere/alle situaties.
ten onrechte lineair verband verondersteld, dan is er een onderschatting van de predictieve validiteit. Kijk naar de vorm van de relatie. Meer lineair is altijd beter.
negeren complexe samenstelling van groepen, dan is er dus geen rekening gehouden met een moderatorvariabele.
te sterke vereenvoudiging van het criterium. Wat we willen voorspellen is vaak complex, wat het moeilijk te operationaliseren maakt. Bij een te globale criteriummaat gaan nuances verloren.
range restriction, dan blijft alleen de geselecteerde groep over. Dit is een onderschatting van de predictieve validiteit (je houdt minder spreiding/variantie over, dus minder samenhang).

Het doel van testgebruik is zelden testen op zich. De praktische waarde van een test hangt af van kwaliteit van beslissingen, gemaakt op basis van de test.

Utiliteit= vergelijken van de beslissingen gemaakt met en zonder test. Het doel hiervan is een zo hoog mogelijke succesratio te bereiken. De bijdrage van een test aan beslissingen mede afhankelijk van contextfactoren:

base rate/toevalskans

groepen die een hit hebben : alle groepen

selectieratio (de strengheid)

groepen die positieve stempel krijgen : alle groepen

Je wilt hiermee een zo hoog mogelijke succesratio (succesvol deel aangenomen : alle aangenomen) bereiken.

Een hit(terecht afgewezen/aangenomen), vals positief(onterecht aangenomen) en vals negatief(onterecht afgewezen).

Economische utiliteit= baten verwachte verandering in succesratio versus kosten procedure.

Testen heeft geen zin als:

de base rate heel hoog of laag is→ iedereen is dan geschikt of ongeschikt
de selectieratio hoog is→ iedereen wordt toegelaten

Taylor-Russell tabel= toegevoegde waarde schatten van testgebruik.

Je kan hierin de succesratio opzoeken voor gegeven base rate, selectieratio en predictieve validiteit. Ook voor inzicht in effect op succesratio wanneer predictieve validiteit wordt verhoogd. Je hebt voor iedere base rate een eigen tabel.

y-as= realistische predictieve validiteit

x-as= base rate / toevalskans = aantal succesvol : aantal steekproef

College 7: 25-10-21

De psychometrische kwaliteit van de test moet goed zijn, dus elke test moet hetzelfde meten. Voor CAT is dit nog evidenter, omdat je het moet kunnen uitleggen aan je kandidaten. Dit wordt beoordeeld door de COTAN. Hun missie is het bevorderen van de kwaliteit van tests en testgebruik in Nederland door testgebruikers, toetsontwikkelaars en test uitgevers te informeren over de beschikbaarheid, de inhoud en de kwaliteit van tests. Ze beoordelen de kwaliteit van de psychodiagnostische instrumenten en ze stellen standaarden op over gebruik van psychologische tests. De beoordelingen worden vastgesteld in de cotandocumentatie.

Zeven criteria die worden beoordeeld (onvoldoende/voldoende/goed):

uitgangspunten van testconstructie
kwaliteit van testmateriaal
kwaliteit van de handleiding
normen
betrouwbaarheid
begripsvaliditeit
criteriumvaliditeit

Het doel van de beoordelingen is de testgebruikers informeren over de kwaliteit van de instrumenten en testauteurs feedback geven over de kwaliteit van het door hen ontwikkelde instrument. Het is geen overall/samenvattend oordeel maar een toelichting bij gegeven beoordeling. Het geeft geen kwaliteitskeurmerk af en/of advies over welke tests wel/niet te gebruiken zijn. Dat is de verantwoordelijkheid van de psycholoog/testgebruiker.

COTAN bestaat uit cotan leden (elke uni, NIP, experts) en een pool van externe beoordelaars. Het zijn allemaal vrijwilligers. Intelligentietest zijn niet met elkaar te vergelijken.

Leerpunten eerdere opgaven

Gutman model→ antwoorden eerst ordenen van makkelijk naar moeilijk, kijk hierbij naar de p-waarde. Daarna kijk je naar de volgorde.
De constructie van items vergt meer tijd bij gesloten vragen dan bij open vragen.
Tests kunnen niet parallel zijn als de F-waardes van elkaar verschillen.
COTAN beoordeelt de kwaliteit van tests door middel van de beoordeling van de onderzoeksresultaten van toetsconstructeurs zoals gegeven in de handleiding.
De alfacoëfficiënt is kleiner dan of gelijk aan lambda 2 en gelijk aan de gemiddelde splitsing betrouwbaarheid over alle mogelijke splitsingen.

Kruisvalidering is het controleren van een voorspellingsmodel in een nieuwe steekproef.
De p-waarde geeft informatie over de moeilijkheidsgraad van een item.
De item-rest correlatie geeft informatie over het discriminerend vermogen van een item.
De δ-parameter geeft informatie over de moeilijkheid van een item in IRT modellen.
De persoons-responsfunctie wordt vooral gebruikt bij afwijkende patronen van itemscores.
Bij een scree plot tel je de knik zelf niet mee, maar alles wat erboven ligt.
KR20= de alfacoëfficiënt voor dichotome items.
RAKIT= een enkelvoudige algemene niveautest(kinderen).
Cohens kappa beoordeelt de objectiviteit van een testprocedure.
Een lage betrouwbaarheid van de voorspeller kan een reden zijn voor een lage predictieve validiteit. Omdat de voorspeller in dat geval voornamelijk uit meetfout bestaat, en de meetfout nergens mee samenhangt, zal de correlatie met een criteriumvariabele klein zijn als de betrouwbaarheid van de voorspeller laag is.
De item-rest correlatie is kleiner dan de item-test correlatie.

Transformatie verandert niks aan de relatie tussen variabelen.
Standaardscores hebben een gemiddelde van 0 en een standaarddeviatie van 1.
Variantie: S^2(Y)= b^2S^2(X)
Variantie van een dichotoom item: S^2(Xg)= pg* (1-pg)= pg x qg
De incrementele validiteit is het hoogst als de predictieve validiteit hoog is en de samenhang met bestaande informatie laag is.
Het uitvoeren van veel onafhankelijke replicaties van een testafname is niet mogelijk, daarom hebben we schattingsmethoden nodig en kunnen we de betrouwbaarheid niet vaststellen.
Range restriction is een probleem wanneer de selectieratio laag is.
Multi-trek multi-methode matrix geeft inzicht in divergente en convergente validiteit.
De item-test correlatie is groter dan de item-rest correlatie en het verschil is groter bij korte tests.
Andere a? Mogelijk parallellie
Bij begripsvaliditeit kunnen er validiteitscoëfficiënten berekend worden
Coëfficiënt alfa is gevoelig voor de item varianties, de covarianties tussen de items en het aantal items in de test.
Concurrent validiteit is vaak hoger dan predictieve validiteit.
Een testinformatie functie wordt gebruikt om de meetnauwkeurigheid van de test in kaart te brengen.

Access:

Public

Verzekeren bij een faire en solidaire zorgverzekeraar?

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check: concept of JoHo WorldSupporter

Concept of JoHo WorldSupporter

JoHo WorldSupporter mission and vision:

JoHo wants to enable people and organizations to develop and work better together, and thereby contribute to a tolerant and sustainable world. Through physical and online platforms, it supports personal development and promote international cooperation is encouraged.

JoHo concept:

As a JoHo donor, member or insured, you provide support to the JoHo objectives. JoHo then supports you with tools, coaching and benefits in the areas of personal development and international activities.
JoHo's core services include: study support, competence development, coaching and insurance mediation when departure abroad.