College-aantekeningen bij Testtheorie & Testgebruik aan de Rijksuniversiteit Groningen - 2016/2017

Hoorcollege 1

Vakvoorwaarden en het tentamen

Een voorwaarde voor het vak: zelfstandig een betrouwbaarheidsonderzoek en een factoranalyse uitvoeren bij de NEO-PI-R om ervaring op te doen. Dit dient gedaan te worden in tweetallen. De tweetallen hoeven niet te worden doorgegeven aan de docent. De beoordeling is een voldoende of een onvoldoende. Het moet duidelijk zijn dat serieus aan de opdracht gewerkt is (zinnige en complete antwoorden op alle vragen). De opdracht is een voorwaarde voor deelname aan het tentamen. Elke student moet de opdracht individueel inleveren, maar beide namen moeten op het voorblad worden ingevuld. In Hoorcollege 4 komt meer informatie over factoranalyse.

Het tentamen gaat over H2-9 van het boek, plus alle inhoud van de hoorcolleges. Afleidingen van formules zijn geen tentamenstof. Op nestor komt een document met voorbeeldopgaven; de opgaven in het boek hoeven niet te worden gemaakt (kan wel voor oefening, maar bij de opgaven zijn geen antwoorden).

Algemene inleiding

Dit vak gaat over soorten tests, hoe tests tot stand komen en hoe je kunt bepalen of een bepaalde psychologische test een goede test is. McKeen Cattell was erg gericht op het kwantificeren van individuele verschillen. Hij heeft de eerste stappen gezet in het systematisch onderzoeken van en naar individuele verschillen. Hij was ook de eerste hoogleraar psychologie in 1887.

Het doel van testtheorie is het kwantificeren van individuele verschillen. Dit kan worden gedaan door metingen te verrichten. Het doel daarbij is het doen van een uitspraak die een voorspelling, classificatie of beschrijving mogelijk maakt met betrekking tot het onderzochte individu. Psychologische tests meten psychologische eigenschappen die niet direct observeerbaar/meetbaar zijn. Daarom worden indicatoren (items) geconstrueerd die gedrag oproepen dat iets zegt over het te meten construct.

Het is belangrijk om te onthouden dat een test een hulpmiddel is; het is niet de waarheid. Er dient dus opgelet te worden met het verabsoluteren van testscores.

Meten in de sociale wetenschappen

Een bepaald construct wordt als uitgangspunt genomen. Daarbij wordt een meetinstrument ontwikkeld. Vervolgens wordt de testscore berekend. Testscores krijgen pas betekenis als er een criterium aan verbonden wordt (bijvoorbeeld: geslaagd bij minstens vijftien vragen goed), of als ze worden vergeleken met andere scores.

Notatie

  • K: totaal aantal items in een test;

  • Items: kennen indices g en h, die lopen tot k;

  • Xg en Xh zijn scores op de items (toevalsvariabelen):

Dichotome scores (ja/nee) kennen de scores 0 en 1.

Polytoom: meerdere aantwoordcategorieën: Xg = 0, ..., m

  • X = ruwe testscore. Ook wel de totaalscore;

  • i: Personen. Er wordt uitgegaan van scores van n personen;

  • Xig= score van de persoon i op item g;

  • Xi= ruwe testscore van persoon i.

Spreiding

Spreiding een belangrijk concept in de testtheorie omdat individuele verschillen worden verondersteld. Als iedereen alles goed heeft op een tentamen is het geen goed tentamen, omdat er geen individueel te kwantificeren verschillen zijn. Om deze spreiding weer te geven gebruiken we S^2. Je moet het kwadrateren omdat anders een negatieve een positieve spreiding kan opheffen. Vervolgens trekken we de wortel van de variantie om de standaarddeviatie uit te rekenen.

Spreiding van dichotome items (goed of fout) is S^2= pg (1-pg)=PgQg. De standaarddeviatie is de wortel van deze formule.

De uitkomst van de variantie wordt uitgedrukt in gekwadrateerde eenheden. Daarom wordt gewerkt met de standaarddeviatie. Dit is de wortel van de variantie. De variantie wordt vaak gebruikt in samenhang met de covariatie. Dit is een maat voor lineaire samenhang. Het is de mate waarin X en Y samen variëren. Dit geeft de richting van het verband aan, maar niet de sterkte ervan. De covariantie van twee somvariabelen is de som van de covarianties van de variabelen van de twee sommen.

De variantie en covariantie kunnen overzichtelijk worden weergegeven in een variantie-covariantie matrix. De varianties staan op de diagonaal en aan de buitenkant de covarianties, dus:

1,2,3
1,2,3
1,2,3

Bij de covariantie wordt geen rekening gehouden met de spreiding. Dus covariantie van 4,3 is niet per se sterker dan 0,9. Deze scores kunnen heel makkelijk worden opgeblazen omdat je ze keer elkaar doet.

Hoofdstuk 2: Kenmerken van een test

Zes kenmerken van een goede test t.o.v. voorwetenschappelijk oordeel:

  • Efficiëntie: een goede test is alleen maar gericht op het meten van het hypothetisch construct, zonder andere storende factoren;

  • Standaardisatie: een goede test is gestandaardiseerd. Om testresultaten te vergelijken is het cruciaal dat de test bij iedereen hetzelfde is afgenomen; zelfde instructie, zelfde tijdslimiet, zelfde condities;

  • Normering: het kunnen vergelijken van de testscores aan de hand van vastgestelde normen;

  • Objectiviteit: bij het afnemen van een test mag het niet uitmaken wie de beoordelaar is of wie de score interpreteert. Dat heeft te maken met de openheid en de reproduceerbaarheid van de testprocedure. Kendalls tau en Spearmans rho meten de correlatie tussen rangscores;

  • Betrouwbaarheid: de mate waarin bij herhaalde meting dezelfde score behaald wordt;

  • Validiteit: of de test meet wat het behoort te meten.

Typen tests

Er zijn verschillende indelingen mogelijk:

  • Indeling naar testgedrag. Hierbinnen is onderscheid tussen:

    • Tests of maximum performance: hierbij behoort sollicitant maximaal te scoren. Dit zijn bijvoorbeeld IQ-tests, tentamens en vaardigheden. Bij deze tests staat vaak veel op het spel (zoals worden aangenomen voor een baan);

    • Tests of typical performance: tests voor gedragswijze. Hierbij hangt er minder van af. Er is geen goed of fout, het gaat vaak om voorkeuren. Voorbeelden zijn tests die persoonlijkheid, motivatie of klinische schalen meten. Een voorbeeld hiervan zijn projectietests. Ook zelfbeoordelingsschalen en observaties vallen in deze categorie.

  • Indeling naar testinstructie/afname. Hierbinnen is onderscheid tussen:

    • Snelheidstests: hierbij gaat het om de snelheid. Deze tests bevatten veel makkelijke items, die zo snel mogelijk voltooid dienen te worden;

    • Niveautests: bij deze tests is spreiding in de moeilijkheidsgraad. Hier krijgen deelnemers ruimschoots de tijd om de test te voltooien.

 Een probleem bij tests voor gedragswijze is dat het vaak minder stabiele constructen meet. Dit kan leiden tot problemen gerelateerd aan betrouwbaarheid. Ook is careless response hier vaak een probleem.

Hoorcollege 2

Hoofdstuk 4 & 5

Kwantificeren van reacties

Er kan onderscheid worden gemaakt tussen twee vormen van items. Bij dichotome items zijn er maar twee mogelijk scores: goed of fout. Polytome items zijn ordinaal; het zijn er meer dan twee. Dit soort vragen komt vaak voor bij bijvoorbeeld klinische vragenlijsten.

Het doel van een item is het meten van een bepaalde eigenschap/vaardigheid/begrip. Bij dichotome items kunnen we als eerste kijken naar relatieve frequentieverdelingen. Hierbij maken we onderscheid tussen p-waarden en a-waarden van het item. De p-waarde houdt in hoeveel mensen het juiste antwoord hebben. De a-waarden zijn de waarden van de ‘verkeerde’ antwoorden. Bij een vierkeuzevraag met één correct antwoord zijn dus drie a-waarden. Als de p-waarde te hoog is, heeft de vraag weinig onderscheidend vermogen. En als de p-waarde erg laag is, kan dat erop wijzen dat iedereen de vraag heeft gegokt. Dit kan betekenen dat er een fout zit in de vraag, of dat de vraag erg lastig was. Een ander probleem is als veel mensen voor hetzelfde foute antwoord kiezen. Het kan zijn dat het een ‘sterke afleider’ is: dat de vragen erg veel op elkaar lijken.

Itemanalyse

De correlatie tussen een item en de somscore/restscore geeft een idee hoe sterk een item samenhangt met de overige items. De restscore voor item g is de totaalscore op de test minus de itemscore op item g. Vooral bij kortere tests geeft dit een te positief beeld van de situatie, omdat een item altijd een positieve correlatie met zichzelf heeft. Daarom trekken we het item af van de totaalscore, omdat de correlatie met zichzelf dan is verwijderd uit de totaalscore. Dit is de item-rest correlatie. Daarentegen is de item-test correlatie de correlatie tussen itemscore Xg en somscore X.

Als de item-test of de item-restcorrelatie laag is, kunnen we concluderen dat er weinig samenhang is met de overige items. Allereerst is dit theoretisch een probleem, want je verwacht samenhang van de items bij een goede test. Maar dit is ook een probleem omdat in deze gevallen geen onderscheid gemaakt kan worden tussen verschillende personen (en dat is nou eenmaal het doel van een test).

Als een lage correlatie wordt gevonden, wordt er eerst gekeken of hiervoor een verklaring gegeven kan worden. Een lage correlatie kan bijvoorbeeld betekenen dat het item niet veel zegt over datgene dat gemeten beoogt te worden. In dat geval kan het item beter worden verwijderd, omdat het er niet aan bijdraagt het doel van de test te bereiken. Een veelgebruikte ondergrens is .15. Dit is geen harde regel, maar het wordt wel vaak aangehouden. Echter, een item dient niet enkel op basis van een itemanalyse te worden verwijderd. Ook de inhoud en het construct spelen een rol. Zo hebben scores op klinische en persoonlijkheidsschalen vaak een hoge correlatie omdat er een homogeen construct gemeten wordt (Ik ben vaak neerslachtig?, Ik ben vaak somber?) In het onderwijs en cognitieve toetsen heb je lagere item-rest correlaties omdat je een heterogeen construct meet. (Wat is peper?; als twee knopen 5 cent kosten wat kost dan een dozijn knopen?). Discriminatie van een item wordt weergegeven aan de hand van de itemrestcorrelatie!

Item-rest correlatie en construct

Klinische en persoonlijkheidsschalen. Een homogeen begrip is: ik voel me vaak somber, ik ben vaak neerslachtig. Bij deze vragen zal een hoge item-rest correlatie zijn. Goed functionerende items hebben vaak een item-rest correlatie van tussen de 0.40 en 0.60. Bij onderwijskundige/cognitieve toetsen is dat een stuk lager: 0.20 of 0.40.

Conclusie

Dus: bij itemanalyse is het belangrijk om:

  • Itemgemiddelden te inspecteren;

  • Relatieve frequentieverdelingen te inspecteren;

  • De item-test/rest correlaties te inspecteren.

Kijk hierbij altijd naar de iteminhoud, en houdt rekening met het construct!

Afname van tests

Heel belangrijk bij de afname van tests is de standaardisatie. Heel veel dingen zijn van invloed op de standaardisatie: testcondities, gedrag van proefpersonen en het gedrag van de proefleider. Als de ruimte te klein is, te donker of te rumoerig kan dat erg veel invloed hebben op de tests. Daarnaast moeten de condities bij iedereen gelijk zijn. Ook het gedrag van de proefpersoon is van belang, zoals de motivatie: waarom maakt deze persoon deze test. Ook de fysieke en de emotionele gesteldheid van de proefpersoon spelen een rol. Daarnaast dient het gedrag van de proefleider consistent te zijn. Bepaalde persoonlijkheidskenmerken kunnen zorgen voor een ander resultaat, maar ook een verschil in training/sympathie.

Toen psychologische testen net in opkomst waren, werd de army alpha/beta test ontwikkeld voor het Amerikaanse leger. Hiermee werd gekeken of mensen geschikt waren voor bepaalde functies. Hier werd nog totaal niet gelet op de condities. Een tegenwoordig voorbeeld is het LAKS dat zich bezighoudt met het eindexamen. Veel eindexamenkandidaten schrijven over geluidsoverlast/het meubilair etcetera. Het feit dat leerlingen daadwerkelijk klachten over hebben ingediend betekent dat ze hinder hebben ondervonden en dat er dus mensen zijn geweest die geen rekening hebben gehouden met deze zaken.

Scoring van antwoorden

Er zijn verschillende vormen om vragen te formuleren: open en gesloten. Beide manieren hebben voor- en nadelen. Een voordeel aan open vragen is dat de kennis beter getest wordt, een nadeel is dat deze manier veel tijd kost. Een voordeel aan gesloten vragen is dat het makkelijker is om na te kijken, maar het nadeel is dat er een gokkans aanwezig is.

Deze gokkans kan gecorrigeerd worden. Er zijn drie mogelijke uitkomsten: je hebt de vraag goed omdat je het goede antwoord wist, je hebt de vraag goed omdat je goed hebt gegokt, of je hebt de vraag fout. Dus: een deel van de antwoorden is goed omdat je goed hebt gegokt. Daarom wordt gecorrigeerd voor de gokkans. Dit heet de toevalscorrectie. Het wordt berekend met de formule k-X/A—1. K is het aantal vragen, x is aantal goed en A is het aantal antwoordopties.

Een punt van kritiek op de toevalscorrectie is dat het beter is om de aftestgrens bij te stellen in plaats van de score. Dit kan worden berekend door k/A+%kennisniveau*(k-k/A).

Bewerken van scores en normen

De ruwe score is de som van alle itemscores. Enkel deze ruwe score zegt nog niet heel veel. Vaak is het lastig om te interpreteren. Het is dan nodig om normen op te stellen. Deze zijn gebaseerd op de verdeling van scores in de populatie(s), geschat op basis van een representatieve steekproef.

Er zijn vaak verschillen tussen groepen. Dit is belangrijk om te onderzoeken. Soms is het nodig om aparte normen op te stellen.

Normeren moet aan best veel criteria voldoen, en dat is niet eenvoudig. Ten eerste is het vaak toch een beetje een gelegenheidssteekproef, omdat niet uit een hele populatie mensen worden geselecteerd. Vaak worden convenience samples gebruikt, zoals klanten, nieuwe aanmelders of cliënten van een instantie. Dat hoeft geen probleem te zijn, als kan worden aangetoond dat het toch een representatieve groep uit de populatie oplevert. Een ander probleem is non-participatie. Bij vrijwillige deelname of weigeringen is er per definitie al geen sprake meer van een random sample.

Soorten bewerkingen

De normeringen kunnen op verschillende manieren worden gedaan. De eerste vorm is vergelijken met een absolute standaard. Er wordt dan bijvoorbeeld gezegd: meer dan 5 fouten betekent gezakt. Vroeger werden verhoudingsnormen gebruikt. De IQ-score werd bijvoorbeeld berekend door de mentale leeftijd (berekend op de test) te delen door de chronologische leeftijd. Een andere vorm is op basis van rangorde. Hierbij wordt gebruik gemaakt van percentielscores.

Hoorcollege 3

Hoofdstuk 6

Van dit hoofdstuk hoeven een aantal onderdelen niet bestudeerd te worden:

  • Paragraaf 6.4.4: betrouwbaarheid van verschilscores;

  • Paragraaf 6.4.6: betrouwbaarheid van heterogene tests;

  • Paragraaf 6.4.7: generaliseerbaarheid van metingen;

  • Afleidingen van formules.

De rest van het hoofdstuk is wel tentamenstof.

Betrouwbaarheid

De betrouwbaarheid is een centraal begrip in de klassieke testtheorie. De letterlijke definitie van het woord is: ‘de mate waarin de testscores overeenkomen als een test onder gelijkblijvende condities meerdere keren aan dezelfde persoon wordt voorgelegd.’ Testen zijn niet altijd herhaalbaar: het verschilt per onderwerp. Dingen zoals bloeddruk, lengte en sportprestaties kunnen zinvol meerdere malen worden getest, maar bij bijvoorbeeld vaardigheidstests is dat minder het geval. Bij betrouwbaarheid gaat het namelijk om onafhankelijke replicaties, terwijl bij het laatste voorbeeld sprake is van een leereffect.

De testscore bestaat uit een systematisch deel en uit toevallige invloeden. Toevallige invloeden hebben soms meer invloed dan gewenst, zoals een luidruchtige achtergrond tijdens het maken van een tentamen. De herhaalbaarheid van metingen bestaat ook uit een systematisch deel en een toevallig deel. Het systematisch deel is constant over onafhankelijke replicaties, maar het toevallige deel varieert over onafhankelijke replicaties. Dit houdt in dat betrouwbaarheid mede wordt bepaald door toevallige invloeden. Dit is natuurlijk niet gewenst. Probeer deze toevallige invloeden te beperken. Het doel van de meting is het meten van het systematisch deel.

We beschouwen eerst de testscore van één persoon over onafhankelijke replicaties, vervolgens kijken we naar groepen personen.

Klassieke testtheorie

Eén persoon

De klassieke testtheorie kijkt eerst naar onafhankelijke replicaties van één persoon. De testscore bestaat hier uit een systematische, betrouwbare score, en uit een meetfout. Die meetfout is toevallig. De formule hiervoor is als volgt: Xij = Ti + Eij. De waarden zijn:

  • Xij: score X van persoon i op replicatie j;

  • Ti: de betrouwbare score van persoon i; de T heeft geen j omdat hij niet varieer over replicaties het is immers een constante waarde.

  • Eij: de meetfout van persoon i op replicatie j.

De betrouwbare score (T) is de gemiddelde testscore van een persoon over heel veel replicaties. De spreiding van de meetfouten is gelijk aan de spreiding van geobserveerde scores.

Populatie

Nu wordt gekeken naar een populatie met van elke respondent één testscore. Hierbij gelden twee aannames: de gemiddelde meetfout in een populatie van n personen is 0, en de correlatie tussen de meetfout en andere willekeurige variabelen is 0.

De variantie van de geobserveerde score bestaat uit de variantie van de betrouwbare score plus de variantie van de meetfout. De correlatie tussen de meetfout en T is dus 0. Want E maakt deel uit van X maar niet van T. Wanneer iets deel van iets anders is moet de correlatie groter zijn dan 0. Rxx is de definitie van betrouwbaarheid. Rxx= S2(T)/S2(X).

Er gelden twee vuistregels voor de betrouwbaarheid r:

  • Bij het vergelijken van groepen wordt uitgegaan van r > 0.7;

  • Bij individuele diagnostiek wordt uitgegaan van r > 0.9.

Hierbij dient te worden onthouden dat het gaat om vuistregels. De genoemde waarden zijn geen harde ondergrenzen.

Standaardmeetfout van de testscore

Hiervoor zijn een aantal schattingsmethoden bedacht:

  • Test-hertest methode: hierbij wordt dezelfde test tweemaal afgenomen. De correlatie tussen de scores is de schatting van de betrouwbaarheid;

  • Parallel-vorm methode: bij deze methode wordt ervan uitgegaan dat we twee parallelle tests construeren. Voor deze methode gelden drie strenge eisen, waaraan lastig is te voldoen. Daarom is deze methode niet erg populair. Evenals de test-hertest methode is het vaak niet mogelijk om twee afnames te realiseren. Daarom worden meestal schattingsmethoden gebruikt die zijn gebaseerd op één afname:

  • Splitsingsmethode: eerst maakt iedere respondent één enkele test. De test wordt in twee helften verdeeld met een gelijk aantal items. Voor beide items wordt een totaalscore berekend. Aan de hand hiervan kan r(X1, X2) berekend worden. Een belangrijke aanname hierbij is dat beide helften parallel zijn. Nadat r is berekend, vindt een correctie plaats aan de hand van de Spearman-Brown formule. Rkk’= K * Rxx/1+(k-1) * RXX.

  • Interne consistentiemethode – Cronbachs alfa: Dit is de meest gebruikte methode. Bij deze methode is de alfa de ondergrens van de betrouwbaarheid. Deze alfa is afhankelijk van het aantal items k en de kwaliteit van de items (items met een sterke onderlinge samenhang). De geschatte betrouwbaarheid en de geobserveerde scores worden gebruikt om het BHI rond T te berekenen. Er zijn betere methoden dan de alfa: lambda2 en GLB. Toch wordt alfa veruit het meest gebruikt. Let op dat Alfa niet de daadwerkelijke betrouwbaarheid weergeeft maar de ondergrens.

De ideale test

De ideale test heeft een hoge betrouwbaarheid, dus een hoge alfa. Het is dus zaak om de betrouwbaarheid zo hoog mogelijk te krijgen. Dit kan onder andere worden gedaan door items toe te voegen. Immers: in de Spearman-Brown formule leidt toevoeging van items tot een hogere betrouwbaarheid. Meer items zorgen voor meer betrouwbaarheid, mits de toegevoegde items van dezelfde kwaliteit zijn als bestaande items. Tevens verdient het de voorkeur om items met een hoge inter-item covariantie toe te voegen. Dit zijn items met een sterke onderlinge samenhang. Items met een hoge inter-item covariantie, hebben tevens een hoge item-rest correlatie. En als de item-rest correlaties hoog zijn, is de alfa ook hoog. (Als de item-rest correlatie laag is, is de alfa ook laag. De oplossing is in dat laatste geval om items te verwijderen.)

De Spearman-Brown formule kan worden gebruikt om te bepalen hoe de betrouwbaarheid verandert als er items worden toegevoegd of verwijderd. Ook kan aan de hand van deze formule worden bepaald hoeveel items dienen te worden toegevoegd of verwijderd om een bepaalde betrouwbaarheid te verkrijgen.

Over het algemeen geldt dat de winst in betrouwbaarheid steeds kleiner wordt naarmate meer items worden toegevoegd. Daarbij geldt dat het moeilijk is om veel extra items te bedenken van goede kwaliteit, en dat lange tests onpraktisch en vermoeiend zijn.

Nauwkeurigheid van metingen

Er zijn twee manieren om aan een schatting voor T en aan S(E) te komen om een 95%BHI voor T op te stellen: een individueel model en een groepsmodel.

Bij het individuele model is de geschatte T gelijk aan de geobserveerde score X. Bij het groepsmodel geldt dat de schatting van T met lineaire regressie is. Het groepsmodel is nauwkeuriger dan het individuele model, omdat het naast de ruwe score ook de gemiddelde score gebruikt. Daarnaast krijgt de individuele score meer gewicht als r(XX) hoger is, en het groepsgemiddelde meer gewicht als r(XX) lager is.

Betrouwbaarheid en validiteit

De validiteit houdt in of een test meet wat hij zou moeten meten. Een test die niet betrouwbaar is, kan ook niet valide zijn. Betrouwbaarheid is echter geen afdoende voorwaarde voor validiteit.

Hoorcollege 4

Herhaling vorige week

De betrouwbaarheid is de mate waarin de testscores overeenkomen als een test onder gelijkblijvende condities meerdere keren aan dezelfde persoon wordt voorgelegd. Het is de herhaalbaarheid van metingen. Bij die herhaalbaarheid wordt ervan uitgegaan dat de tests zullen variëren. Dat komt omdat ervan uitgegaan wordt dat tests bestaan uit een systematisch deel, dat constant is over onafhankelijke replicaties, en een toevallig deel, dat varieert over onafhankelijke replicaties.

De testscore X is de betrouwbare score T + de meetfout E. De gemiddelde meetfout is gelijk aan nul. De spreiding van de meetfout van een persoon i is gelijk aan de spreiding van de geobserveerde scores van een persoon i. Dit is een onrealistisch gedachtenexperiment.

De betrouwbaarheid is de proportie van de variantie van testscores X, die systematisch is. Een probleem met de betrouwbaarheid is dat we het niet kunnen uitrekenen. Hiervoor is namelijk de betrouwbare score van elke persoon i in de populatie nodig, en het is onmogelijk om die te weten. Daarom zijn schattingsmethoden bedacht. Er zijn een aantal methodes, maar de meest gebruikte is de interne consistentiemethode, waarbij alfa de ondergrens voor de betrouwbaarheid is. Deze alfa is afhankelijk van het aantal items k en de kwaliteit van het item (items met een sterke onderlinge samenhang). De geschatte betrouwbaarheid en de geobserveerd scores worden gebruikt om het BHI rond T te berekenen.

Validiteit

Onderzoek naar validiteit meet de vraag: Meet de test wat het behoort te meten? Er is veel onenigheid over de definitie van validiteit. Bij het vak testtheorie wordt uitgegaan van de volgende: Validiteit is de mate waarin de test aan zijn doel beantwoordt. Er is dus geen eenduidige definitie. De definitie is ook afhankelijk van het doel van de test. Validiteit is dus geen eigenschap van een test; het is niet altijd wel of niet valide.

De validiteit kan bijvoorbeeld worden bepaald aan de hand van de correlatie tussen een testscore en een gerelateerd begrip/score. Er wordt vaak gekeken naar correlaties. De betrouwbaarheid van testscores is een voorwaarde van validiteit. De correlatie kan nooit groter zijn dan de wortel van de betrouwbaarheid. Daarom kan een test niet valide zijn als een test niet betrouwbaar is. Andersom is dat niet zo: als een test betrouwbaar is, is de test niet automatisch valide. Het is wel een criterium, maar niet een voldoende voorwaarde. Een test kan bijvoorbeeld wel betrouwbaar zijn, maar toch iets anders meten dan beoogd werd.

Een voorbeeld is redactiesommen. Hiermee wordt niet alleen de rekenvaardigheid gemeten, maar ook de leesvaardigheid (ook al is dat niet de bedoeling).

Doelen van een test

Er worden vaak twee doelen onderscheiden. Allereerst het doel als voorspeller van ander gedrag, zoals selectie van een baan. Dit heet predictieve validiteit. Hierop wordt tijdens college 6 nader ingegaan. Begripsvaliditeit is het meten van een eigenschap en staat in dit college centraal. Dit is meer een beschrijvend doel. Het is een test als operationalisering van een psychologisch begrip. Binnen deze tweede groep zijn een aantal subtypen:

  • Inhoudsvaliditeit: in hoeverre de testvaliditeit representatief voor het gehele begrip is. Dit wordt vaak beoordeeld door experts, die hierover consensus dienen te verkrijgen;

  • Indruksvaliditeit (facevaliditeit): ogenschijnlijke relatie tussen test en het construct/criterium. Dit wordt vaak gevraagd aan de mensen die de test dienen te maken. Het is een lekenoordeel;

  • Congruente/divergente validiteit: congruent is soortgenootvaliditeit; of de test samenhangt met een andere test die een soortgelijk begrip meet. Hiermee kan bewijs worden aangedragen dat gemeten wordt wat behoord te worden gemeten. Divergente validiteit is de samenhang met een test die niet hetzelfde begrip meet.

Het verkrijgen van begripsvaliditeit begint al voorafgaand aan de test. Dit is dus theoriegestuurd. De manier waarop dit proces is uitgevoerd dient te worden beschreven.

Factoranalyse

Hiermee kan de begripsvaliditeit worden vastgesteld. Het is meten aan de hand van een bepaald construct. Er worden veel variabelen (items) samengevat in minder variabelen (factoren). Daarnaast wordt gepoogd zo min mogelijk informatie te verliezen.

Een factoranalyse bestaat uit twee onderdelen: exploratief en bevestigend. Het exploratieve deel onderzoekt wat de structuur is van de test. De onderzoeksvraag hierbij is: Stel, je hebt een intelligentietest ontworpen. Hoeveel subfactoren van intelligentie zijn te onderscheiden o.b.v. de test? Bij bevestigende analyses wordt gekeken of de veronderstelde structuur van de test klopt. De onderzoeksvraag is hierbij: stel, je hebt een intelligentietest ontworpen die verbale en numerieke intelligentie moet meten. Kunnen deze twee subfactoren worden onderscheiden?

Een vorm van factoranalyse is de componentenanalyse. Een andere vorm is de common factor analyse. Deze is exploratief of bevredigend. Het verschil tussen beide methodes zit in de manier waarop tot de factoren wordt gekomen.

Componentenanalyse

Bij de componentenanalyse geldt de gewogen som van itemscores of subtestscores. Het gewicht van variabelen voor een bepaalde factor wordt vermenigvuldigd met de gestandaardiseerde score van persoon i op variabele j. Vervolgens wordt hiervan de gewogen som genomen. Dit gaat volgens een aantal stappen:

  • Stap 1: Eerst worden de gewichten Bjq bepaald. Binnen de multiple group method (MGM) worden die gekozen door de onderzoeker. Dit is bij MGM een 0 (hoort niet bij het groepje) of een 1 (hoort wel bij het groepje). Bij PCA is dit een optimale schatting o.b.v. geobserveerde data;

  • Stap 2: Vervolgens wordt gekeken naar de correlaties van alle variabelen en alle factoren (Loading matrix). De correlatie tussen een item en een factor wordt de lading van dat item op een factor genoemd;

  • Stap 3: Hierna wordt geïnterpreteerd. Er wordt vaak gesteld dat factoren die hoog laden op een bepaalde factor horen bij die factor. Aan de hand van alle items die horen bij een specifiek groepje kunnen labels gegeven worden.

Als sprake is van ongecorreleerde factoren wordt gesproken van orthogonale factoren. Deze zijn niet gerelateerd. Gecorreleerde factoren worden oblique genoemd. Dat betekent dat er gerelateerde constructen door die groepjes worden gemeten.

  • Stap 4: de proportie van de verklaarde variantie. Hiermee kunnen we kijken hoe goed de factoren de geobserveerde variabelen weergeven. Hiervoor kijken we naar de variance accounted for (VAF), die meestal tussen de 0.3 en de 0.8 ligt. Hoe meer factoren worden onderscheiden., hoe hoger de variance accounted for zal zijn.

Multiple group method

Bij deze methode wordt gekeken of een aangenomen groepering van variabelen ondersteund wort door een gegeven dataset. De volgende punten gelden bij de MGM:

  • Gewichten van de variabelen zijn 1 of 0;

  • Factorscore is de som van alle variabelen met gewicht 1;

  • De correlatie tussen gestandaardiseerde variabelen en de voorgestelde factoren wordt berekend;

  • Voor factor Q wordt dan verwacht: variabelen met gewicht 1 zullen hoger correleren dan variabelen met gewicht 0;

  • Hierbij dient in het achterhoofd gehouden te worden dat er correlatie van item/subset met zichzelf is. Daarom kan beter restscores gebruikt worden: Factorscore – itemscore.

Principale componentenanalyse

Hierbij dient eerst een q aantal factoren te worden gevonden die zoveel mogelijk variantie verklaren: het ideale gewicht voor de variabelen dient te worden gevonden. Deze factoren moeten één voor één worden gevonden. De gewichten dienen zo gezocht te worden dat de factor maximale variantie verklaart. Dit leidt tot het eerste principale component. Binnen de residuen wordt weer gezocht naar de ideale gewichten. Het resultaat is de tweede principale component. Dit proces wordt doorgezet tot alle factoren zijn gevonden.

Dit levert één of meer principale componenten (PC) op, die een aantal eigenschappen hebben:

  • De eerste PC verklaart de meeste variantie. Daarna de tweede, etcetera;

  • Alle PC’s zijn ongecorreleerd;

  • De gewichten van de items worden bepaald o.b.v. de correlaties tussen geobserveerde variabelen;

  • Soms is het moeilijk te interpreteren.

Het doel van PCA is om zoveel mogelijk verklaarde variantie te krijgen. De totale VAF dient zo groot mogelijk te zijn. Dit zegt niets over VAF van afzonderlijke componenten.

Ook worden PC’s door nieuwe factoren met dezelfde totale VAF vervangen.

Wat dit oplevert, naast makkelijker te interpreteren resultaten, is dat niet meer van principale componenten wordt gesproken.

Het aantal principale componenten kan op een aantal manieren worden bepaald. Allereerst door een vooraf gespecificeerd aantal. De procedure stopt dan bij het behalen van een van te voren bepaald aantal factoren. Een tweede optie is op basis van bepaalde criteria. Het Kaiser criterium stelt: alle factoren die een eigenwaarde hebben die groter is dan 1 worden behouden. De eigenwaarde kan worden bepaald door de VAF te vermenigvuldigen met het aantal variabelen. Vaak is hierbij sprake van overschatting. Een tweede optie is het Scree criterium. Hierbij dient zoveel mogelijk VAF met zo min mogelijk factoren te worden verkregen. Een bepaald aantal factoren is vereist voor de ‘knik’ in een screeplot. Het aantal componenten vóór de knik wordt meegenomen in de berekening. Als de knik zit bij vier componenten, worden drie componenten meegenomen. Die andere componenten voegen zo’n klein deel toe van de verklaarde variantie, dat het geen zin heeft om deze toe te voegen.

Hoorcollege 5

Klassieke testtheorie

Een nadeel aan de klassieke testtheorie is dat de betrouwbare score T en de testscore X afhankelijk zijn van de respondent en van de test. Binnen de klassieke testtheorie wordt aangenomen dat we even nauwkeurig kunnen meten voor iedereen. Met de item respons theorie kan worden aangetoond dat die assumptie niet correct is.

Item respons theorie (IRT)

Bi deze theorie wordt een testmodel geformuleerd. Dit model beschrijft de kans dat een persoon met een bepaalde waarde op een psychologische trek (intelligentie, persoonlijkheid) een item goed beantwoordt of een positief antwoord geeft? Het gaat dus om het volgende: Gegeven iemands trekwaarde, wat is de kans dat iemand een vraag goed beantwoordt?

Deze kans hangt af van de kenmerken van de items, zoals moeilijkheid en discriminerend vermogen. Deze kansen worden beschreven door een logistische functie. Onderzoek heeft aangetoond dat dit een goede benadering blijkt te geven van het verband tussen de kans op een positief antwoord en de trek die gemeten wordt. De kansen worden weergegeven als een item respons functie (IRF) (ook wel de Item Karakteristieke Curve). De basisaanname bij deze curve is dat hij stijgend is.

Begrippen van de IRT

Bij testtheorie wordt voorlopig alleen ingegaan op dichotome items. De latente trek wordt weergegeven als theta. Theta met een i erachter is de latente trekwarde van persoon i. Latent betekent niet direct waarneembaar. Ook wordt altijd uitgegaan van een normaalverdeling van 0, met een SD van 0.

P(Xg=1|Tetai). Dit is de kans dat een person met vaardigheidswaarde Thetai, het item g goed maakt.

Dit is de basis van de item-respons theorie. Dit wordt weergegeven in item respons functies.

Een itemresponsfunctie kan als volgt geïnterpreteerd worden: Gegeven een theta van bijvoorbeeld -2, is de kans 0.2 om item 1 goed te beantwoorden. Bij een theta van plus 2 is er een kans van ongeveer 0.8 om item 3 goed te beantwoorden. Des te steiler de IRF, des te groter het discriminerend vermogen

Er zijn drie basisaannames bij IRT:

  • Unidimensionaliteit: alle items in de test meten dezelfde latente trek. Er wordt één construct gemeten, één dimensie met een bepaalde vraag;

  • Lokale onafhankelijkheid: het antwoord op het ene item wordt niet beïnvloed door het antwoord op het andere item;

  • Monotoniciteit: de item respons functies zijn nondecreasing. Dit houdt in dat het niet zo kan zijn dat er een punt is dat als iemand vaardiger is, de kans dat een vraag fout wordt beantwoord groter is dan als iemand niet vaardig is. De functie moet dus altijd stijgend zijn.

Rasch-model (1PL)

De Delta wordt bepaald op een waarde waar de kans op item goed 0.5 is. Dit is de algemene formule voor de item responsfuncties. Het is belangrijk ervoor te zorgen dat voor het tentamen wordt geoefend met opgaven hierover, omdat er aparte knoppen voor zijn op de rekenmachine. Belangrijk om bij dit model te onthouden is dat de lijnen elkaar nooit kruizen.

Het Rasch-model is erg streng. Alle functies discrimineren in dezelfde mate, maar verschillen enkel in de moeilijkheid (daarom snijden de item respons functies elkaar ook niet). Dit houdt in dat de vragen tevens geordend zijn. De praktijk toon echter aan dat items verschillen in de mate waarin ze onderscheid maken tussen personen. Het model past vaak niet.

Meerdere parameter modellen

Deze functie vervalt als een twee-parameter logistisch model gebruik wordt. In dat geval kruisen de functies wel, waardoor er niet voor alle personen dezelfde ordening is. Dit model wordt ook wel Birnbaums model genoemd. In dit model worden ook de moeilijkheidsparameter van item g en de discriminatieparameter van item g meegenomen. Des te steiler de functie, des te steiler de a-parameter. Bij dergelijke vragenlijsten hoeven niet alle vragen per se heel duidelijk gerelateerd te zijn aan een bepaalde trek.

Des te meer parameters worden toegevoegd, des te groter de kans is dat een model past. Het drie-parameter model (3PL) is nogal omstreden. Hier wordt namelijk ook een parameter voor de gokkans meegenomen: de pseudokansniveau. Bij dit model wordt er als het ware van uitgegaan dat iedereen gokt. Iedereen gokt volgens dit model even vaak en in dezelfde mate.

Nauwkeurigheid van de meting

In klassieke testtheorie is de standaardfout (SE) voor iedereen gelijk. Met de item respons theorie gaat het erom dat wordt aangetoond dat de SE niet voor iedereen gelijk is. De SE is de standaard meetfout. De informatieformule is afhankelijk van de moeilijkheid van het item.

De IRT wordt dus gebruikt bij testconstructie. Daarnaast is de IRT relevant bij testafname als eenmaal een vragenlijst is opgesteld, om de nauwkeurigheid te bepalen van de schattingen.

Mokken modellen

Twee non-parametrische IRT modellen:

  • Mokken model van monotone homogeniteit;

  • Mokken model van dubbele monotonie.

Het eerste mokken model is vergelijkbaar met het 2PL en het 3PL model. Het tweede model is vergelijkbaar met 1PL: de IRF’s mogen elkaar niet kruisen (dichotoom). Bij een polytome mogen ISRF elkaar niet kruisen.

Toepassen IRT in de praktijk

Het boek geeft een aantal toepassingen aan. Vandaag wordt gericht op twee toepassingen: adaptief toetsen en afwijkende antwoordpatronen.

Adaptief toetsen: het idee is hierbij dat iedere kandidaat alleen die items krijgt die bij zijn/haar (eigenschaps-)niveau horen. Verschillende kandidaten krijgen verschillende tests. Het is afhankelijk van het niveau welke vragen gemaakt dienen te worden. Noodzakelijke voorwaarden hierbij zijn dat een itembank aanwezig is met items die voldoen aan een IRT model. Daarnaast moeten itemparameters bekend zijn van alle items.

Een voorbeeld: intelligentie. Items worden geordend van minst tot meest indicatief, bijvoorbeeld op basis van een discriminatie- en een moeilijkheidsparameter. Vaak wordt begonnen met een item met een theta van 0. Op basis van voorgaande vragen wordt bepaald welke volgende vraag gesteld gaat worden.

Voor het ontwikkelen van een adaptieve test dienen een aantal dingen aanwezig zijn:

  • Startcriterium voorselectie van het eerste item. Bijvoorbeeld: random selectie uit meerdere items met een theta van 0;

  • Schattingsmethode voor theta;

  • Selectiecriterium voor het volgende item. Vaak wordt gekeken welke items bij die thetawaarde maximale informatie geven;

  • Een stopcriterium: het moment waarop voldoende informatie binnen is.

Een voordeel aan adaptief toetsen is dat er betere meetprecisie is (voor elk eigenschapsniveau), en dat de testen korter zijn. Er zijn ook een aantal nadelen aan verbonden. Allereerst kost het veel geld, tijd en energie om een dergelijk systeem te ontwikkelen en te onderhouden. Ook is het vaak lastig om een grote itembank te maken.

CAT algemeen

Algemene problemen: er zijn verschillende testen voor verschillende kandidaten. De kandidaten zien dit niet als fair. Daarnaast is het lastig om de moeilijkheid in te schatten bij intelligentie. Onderzoek heeft aangetoond dat de testuitslag vaak een verrassing is als deze test wordt afgenomen. De testuitslag is gebaseerd op welke items iemand goed heeft, en niet op hoeveel items goed worden beantwoord. Dit zorgt ervoor dat meer kandidaten het oneens zijn met de uitslag. Daarom moet de psychometrische kwaliteit van de test echt goed zijn. Een ander probleem is dat er vaak afwijkende antwoordpatronen zijn. Er spelen veel dingen een rol, zoals de gokkans, spieken, voorkennis, vermoeidheid etc.

Guttman fouten – afwijkende antwoordpatronen

Guttmanfouten zijn gebaseerd op het Guttman-model. Daarbij is het idee dat alle items zijn geordend naar moeilijkheid en populariteit van de antwoordcategorieën. Het is een heel strikt model: Het gaat ervan uit dat makkelijke vragen goed worden beantwoord, en dat moeilijke vragen fout worden beantwoord. Er is geen tussenweg mogelijk.

De vragen zijn beantwoord naar moeilijkheid. Volgens het Guttman model is een antwoordpatroon van 1-0-1-0 (goed, fout, goed, fout) niet mogelijk. Een antwoordpatroon van 1-1-0-0 is daarentegen wat wordt verwacht. Des te meer wordt afgeweken van het verwachte antwoordpatroon, des te opvallender.

Ook hierbij wordt uitgegaan van ordening en moeilijkheid van andere categorieën. Het idee is dat het antwoordpatroon een bepaalde mate afwijkt van de ordening. Dus bijvoorbeeld: als een makkelijke vraag fout wordt beantwoord, of een moeilijke vraag goed, dan valt dat op. Helemaal als dat erg vaak gebeurt. Het aantal Guttman fouten kan fysiek geteld worden. Als een vraag niet naar verwachting beantwoord wordt, is sprake van een Guttman fout. Als Guttman fout tellen alle nullen links van alle énen. Stel, het antwoordpatroon is: 1-1-0-1-1-0-1, dan zijn er vier Guttman-fouten.

Hoorcollege 6

Validiteit

Validiteit is de mate waarin een test aan zijn doel beantwoordt. Dit is een brede definitie, omdat er veel onenigheid over bestaat. Dat brengt mee dat validiteit geen eigenschap is, maar dat het afhankelijk is van het doel van een test.Die doelen kunnen verschillende vormen aannemen: tests als voorspeller van ander gedrag: predictieve validiteit; testen als operationalisering van een psychologisch begrip. Dit is een meer beschrijvend doel. Hierbij is sprake van begripsvaliditeit.

Predictieve validiteit

Verschillende validiteitsvormen:

  • Predictieve validiteit: het brede begrip. In specifiekere zin hebben we het dan over het voorspellen van criteriumgedrag op een later tijdstip;

  • Daartegenover staat concurrent validiteit. Dit gaat over de relatie tussen testscores en gedrag op hetzelfde tijdstip;

  • Incrementele validiteit gaat meer over de toegevoegde waarde van een test bovenop reeds beschikbare informatie;

  • Synthetische validiteit ziet op de begripsvaliditeit van het criterium. Om predictieve validiteit te onderzoeken hebben we criteriumgegevens nodig die ook gemeten moeten worden. Synthetische validiteit gaat erover hoe we die criteria definiëren.

De onderzoeksvraag is: hoe goed voorspelt de testscore een gegeven criterium? Hiervoor zijn een aantal dingen nodig: representatieve steekproef, testscores van de mensen in die steekproef, en criteriumgegevens van diezelfde persoon. Om die predictieve validiteit te onderzoeken wordt de validiteitscoëfficient vastgesteld tussen de test en het criterium. In de psychologie worden vaak correlaties gevonden van tussen .3 en .4. Dat houdt in dat er slechts een verklaarde variantie is van 6 tot 19 procent. Dit lijkt niet erg veel, maar de psychologische variabelen die we proberen te onderzoeken zijn erg complex. Het is lastig die proberen te meten met slechts één of enkele tests. Bij predictieve validiteit draait het om het voorspellen van criteriumgedrag, zowel in het verleden als het heden en de toekomst. Dit moet je toetsen aan de hand van een representatieve steekproef zodat je samenhang tussen de test en het criterium kunt bepalen. Er zijn een aantal redenen waarom de validiteit coëfficiënten lager uitvallen dan gewenst:

  • Er is een lage betrouwbaarheid van hoe we het criterium meten. Betrouwbaarheid is een voorwaarde van validiteit, maar dan ging het vooral over de testscore. De validiteit was maximaal zo groot als de wortel van de betrouwbaarheid, mits Y perfect betrouwbaar wordt gemeten. Dat is natuurlijk nooit zo. Als het criterium niet betrouwbaar wordt gemeten, heeft dat veel invloed op de validiteitscoëfficient;

  • Negeren van de variabele betekenis van het criterium: het gaat vaak om dingen die niet altijd hetzelfde betekenen;

  • Ten onrechte een lineair verband veronderstellen tussen de testscore en het criterium. Als dat verband helemaal niet lineair is, wordt de relatie onderschat. Met een correlatiecoëfficient wordt een lineair verband verondersteld. Een voorbeeld: het is al lang bekend dat conscientieusheid leidt tot betere werkprestaties. Maar meer is niet altijd beter: mensen die iets boven gemiddeld scoren, presteren beter dan mensen die erg conscientieus zijn. Overigens is er een verschil tussen lage en hoge complexiteit. Bij hoge complexiteit geldt wel: des te conscientieuzer, des te beter;

  • Negeren van de complexe samenstelling van groepen. Er kan sprake zijn van moderator variabelen: variabelen die de relatie tussen de testscore en het criterium beïnvloeden;

  • Het criterium wordt te erg vereenvoudigd, waardoor nuances verloren gaan;

  • Range beperking: alleen de geselecteerde groep blijft over. Hierdoor wordt de validiteit onderschat. Dit is vooral van invloed bij het bepalen van predictieve validiteit in selectiesituaties. Er wordt geselecteerd, waarna alleen mensen met een hoge score worden aangenomen. Dit zorgt ervoor dat alleen criteriumgegevens beschikbaar zijn voor de hoog scorende kandidaten. Dit leidt tot een onderschatting van de predictieve validiteit!

Beslissingen en testgebruik

Het doel van een test is het maken van beslissingen. De praktische waarde van een test hangt af van de kwaliteit van de beslissingen die gemaakt zijn op basis van die test. Om te bepalen wat de bijdrage van een test is aan de beslissing, dienen beslissingen die met behulp van de test gemaakt worden te worden vergeleken met beslissingen die zonder behulp van de test gemaakt worden. Een voorbeeld van een discutabel onderwerp is de Cito-toets. Deze toets is slechts een momentopname, en het meet niet alle vaardigheden van de leerlingen. Critici halen hieruit echter de gevolgtrekking dat de Cito-toets niet gemaakt moet worden. Om die gevolgtrekking te analyseren moet worden onderzocht hoe de resultaten zijn van aanname met- en zonder Cito-toets. Bijvoorbeeld adviezen van een leraar op basis van het gedrag van leraren. Voor de toegevoegde waarde van een test zijn een aantal dingen van belang. Allereerst de correlatie van de test met een criterium. Nog belangrijker voor incrementele validiteit is de correlatie met de reeds beschikbare informatie. Deze correlatie moet zo laag mogelijk zijn, omdat de test dan het meeste toevoegt. Een test met een lage correlatie met het criterium kan soms meer toevoegen dan een test met een hoge predictiviteit aan bestaande informatie, als de relatie tussen de test en de bestaande informatie maar klein is.

Classificatiemodel/utiliteitsmodel

De bijdrage van een test hangt niet alleen af van de predictieve en de incrementele validiteit van de test. De context speelt een erg belangrijke rol. Eén van de contextfactoren die heel belangrijk zijn is de baserate. Dit is bijvoorbeeld de proportie van personen die geschikt is voor een bepaalde baan binnen de pool van participanten, of de proportie mensen met een depressie. Een tweede criterium is de selectieratio. Dit is bijvoorbeeld de proportie sollicitanten die je aanneemt, of de proportie personen die een diagnose depressie krijgen. Het doel is uiteindelijk een zo hoog mogelijke succesratio. Dus: een zo hoog mogelijk aantal aangenomen sollicitanten dat succesvol is. De baserate is het aantal mensen dat puur op basis van toeval juist wordt aangenomen. Aan de hand van de tabel kan ook de selectieratio worden bepaald, dit is de proportie sollicitanten die wordt aangenomen. De succesratio is de proportie van de aangenomen sollicitanten die daadwerkelijk succesvol zijn, ten opzichte van alle aangenomen personen. Om de toegevoegde waarde te bepalen kan in eerste instantie gekeken worden naar de verhouding tussen de toevalskans en de succesratio. Ten opzichte van puur kans is er dus winst (maar puur op basis van kans toewijzen is natuurlijk niet heel realistisch). De predictieve validiteit speelt nog wel een rol, maar niet heel duidelijk. Aan de hand van deze tabellen zou ook kunnen worden gekeken wat er gebeurt als we nieuwe tests invoeren. In dat geval kan de oude succesratio met de nieuwe succesratio worden vergeleken. Een test heeft weinig toegevoegde waarde als de baserate heel hoog is. Als de selectieratio erg laag is, kan een test ook al erg snel een bijdrage leveren. De context wordt vaak vergeten in de wetenschap en de praktijk.

Taylor en Russel (1939) hebben tabellen ontwikkeld waarin deze informatie kan worden opgezocht. Uit de tabellen kan bijvoorbeeld de succesratio worden afgelezen. Deze tabellen worden echter (helaas) niet vaak gebruikt. Voor iedere afgeronde baserate is een aparte Taylor en Russel-tabel. Bij een lage baserate en selectieratio kan zelfs een test met een lage predictieve validiteit bijdragen.

Hoorcollege 7

Test

We gaan zelf een onderzoek doen om te bepalen of tests wel nodig zijn: testen versus klinisch oordeel. Bij het voorspellen van gedrag zijn twee methoden: klinische methode: hier wordt het expertoordeel gebruikt. Wij verwerken alle informatie in ons hoofd en komen tot een oordeel. Voordelen van deze methode zijn dat mensen het vaak prettig vinden. Het is erg specifiek en er wordt veel informatie verzameld. Een nadeel is dat het erg subjectief is. Voordelen van de actuariële methode zijn dat het objectief en effectief is. Nadelen zijn dat het onpersoonlijk is, en dat mensen complex zijn. Een oplossing kan zijn dat we het beide gaan doen.

Dit college worden beide opties tegen elkaar afgezet. We zien vijf cases, aan de hand waarvan we gaan voorspellen welke mensen hun BSA al dan niet gaan halen. Voorbeelden van informatie zijn leeftijd, middelbareschoolcijfers en de resultaten op de toelatingstest. Ook de motivatie wordt weergegeven.

Het merendeel had 2 goed voorspeld volgens de klinische methode. Aan de hand van een formule die puur de score op de toelatingstests gebruikt wordt was het resultaat al beter. Dit is al erg lang bekend. Beslissingen die gemaakt worden op basis van beslisregels en formules zijn beter dan de klinische methode. De gouden regel van voorspellen: formules en beslisregels werken beter dan human judgment. Zelfs als de human judge meer informatie krijgt dan de formule, doet de formule het nog steeds beter.

Waarom zou dan toch de klinische methode toegepast worden? We denken dat we unieke en complexe informatie beter kunnen verwerken. Het broken leg problem is het volgende: Stel, iemand heeft een gebroken been, gaat hij dan nog steeds naar de bioscoop wat hij van plan was? Human judges zien meer ‘gebroken benen’ dan er daadwerkelijk zijn. Dawes stelde: Vaak vinden mensen het vervelend dat hierdoor ons eigen oordeel als experts als nutteloos wordt afgedaan. Maar Dawes stelde: ons eigen oordeel is helemaal niet nutteloos, Human judgment is good at detecting important variables. We kunnen dus oordelen over informatie die moet worden meegenomen in de berekening. We zijn alleen minder goed in het geven van waardes aan die oordelen.

COTAN

Een terugblik van college vijf: de psychometrische kwaliteit van de test moet goed zijn. In Nederland is de COTAN opgericht (Commissie Testaangelegenheden Nederland) om de kwaliteit van tests te bevorderen. Ook het gebruik van tests begeleiden en beoordelen. Aan de ene kant wordt dit gedaan door de kwaliteit van psychodiagnostische instrumenten te beoordelen. Daarnaast worden standaarden opgesteld over het gebruik van psychologische tests. ‘

Alle toetsen en testen worden beoordeeld aan de hand van het COTAN-beoordelingssysteem voor de kwaliteit van tests. Standaardisatie staat hierin centraal.

Doel van de beoordelingen

Er zijn een aantal doelen te onderscheiden. Allereerst het informeren van testgebruikers over de kwaliteit van de instrumenten, om op deze manier een verantwoorde keuze voor de instrumenten te maken. Ten tweede het geven van feedback aan testauteurs over de kwaliteit van het door hen ontwikkelde instrument. Hierbij wordt het beoordelingssysteem gebruikt als leidraad bij de ontwikkeling van een test en het schrijven van een handleiding.

De COTAN geeft geen kwaliteitskeurmerk af en/of advies over welke tests wel of niet te gebruiken zijn. Het is puur een peer-review om testgebruikers te informeren over de kwaliteit.

Een heel extreem voorbeeld is de Rorschach test. Deze is zeven keer onvoldoende beoordeeld door de COTAN. Op basis daarvan zou je zeggen dat het niet gebruikt zou moeten worden. Veel psychologen geven echter aan dat ze dit een fijn instrument vinden om een gesprek op gang te krijgen. Het wordt dus niet gebruikt als selectie instrument. Die keuze heeft de COTAN geen zicht op.

Ook worden standaarden opgesteld over het gebruik van psychologische tests. Eén van de belangrijkste is de Algemene Standaard Testgebruik. Deze bevat richtlijnen voor professioneel handelen bij testgebruik en het psychodiagnostische proces.

Samenstelling en beoordelingsprocedure

De COTAN bestaat uit een aantal leden: 1 vertegenwoordiger van elke universiteit, NIP commissie leden en experts uit verschillende werkgebieden/grote bedrijven (zoals KLM en CITO). Daarnaast is er een pool van externe beoordelaars, die bestaat uit verschillende professionals. Alle mensen zijn vrijwilligers!

De beoordelingsprocedure is gratis voor de testauteur en/of testuitgever. Er zijn twee anonieme beoordelaars. De verschillen in de beoordeling worden besproken. De eindredacteur combineert de beoordelingen tot één beschrijving en vat de onderdelen samen.

Er worden zeven criteria beoordeeld met onvoldoende/voldoende/goed:

  • Uitgangspunten van de testconstructie

  • Kwaliteit van het testmateriaal

  • Kwaliteit van de handleiding

  • Normen

  • Betrouwbaarheid

  • Begripsvaliditeit

  • Criteriumvaliditeit

Image

Access: 
Public

Image

Click & Go to more related summaries or chapters

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Check the related and most recent topics and summaries:
Institutions, jobs and organizations:

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Follow the author: Psychology Supporter
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
3130 1