College-aantekeningen bij Testtheorie & Testgebruik aan de Rijksuniversiteit Groningen - 2014/2015

College 1: Bespreken hoofdstuk 1, 2, 4 (Testtheorie van Drenth)
College 2: Bespreken hoofdstuk 3, 5, 6 (Testtheorie van Drenth)
College 3: Bespreken hoofdstuk 5, 6 (Testtheorie van Drenth)
College 4: Bespreken hoofdstuk 7 (Testtheorie van Drenth)
College 5: Bespreken hoofdstuk 7, (Testtheorie van Drenth)
College 6: Bespreken hoofdstuk 8, 9 (Testtheorie van Drenth)

College 1: Bespreken hoofdstuk 1, 2, 4 (Testtheorie van Drenth)

Het doel van deze cursus is het gereedschap in handen te geven om zelf bestaande tests te kunnen analyseren.

Hoofdstuk 1

In 1905 is Binet begonnen met het maken van een test. Later kwam Simon hem hierbij helpen en zo hebben zij samen de Binet-Simon test ontworpen.

Binet maakte zijn test anders dan anderen. Hij gebruikte verbale complexe opgaven, waarbij geheugen, analyse en leesvaardigheid tegelijkertijd een rol speelden. In die tijd was dit ongehoord, tests zaten heel simpel in elkaar.

Ook stelde Binet de moeilijkheidsgraad van tests samen. Dit deed hij door het aantal geslaagden te delen door het aantal deelnemers. Door de moeilijkheidsgraad van vragen te berekenen kon Binet een test opbouwen op volgorde van moeilijkheidsgraad. Eerst kwamen de makkelijke vragen en daarna de moeilijkere. Door deze volgorde te gebruiken zouden mensen zelfvertrouwen krijgen tijdens het maken van een test en de test dus eerder afmaken.

Binet werkte met standaard instructies voor de testleider. Hij schreef uit wat de testleider wel en wat hij niet mocht zeggen en of hij mocht helpen als een proefpersoon vastliep tijdens het maken van een test.

Waar Binet verschil tussen maakte was de kalenderleeftijd en mentale leeftijd van mensen. De mentale leeftijd is een indicatie van de geestelijke groei. Stern kwam ermee dat het IQ van iemand berekend kan worden door de mentale leeftijd te delen door de kalenderleeftijd van die persoon en dit te vermenigvuldigen met honderd.

Veel van wat Binet uitgevonden en voorgesteld heeft gebruiken we tegenwoordig nog steeds bij het maken van tests.

Hoofdstuk 2

Een goede test is een test die een bepaald doel goed voorspelt. Om een test te beoordelen moet je dan ook kijken naar de voorspellende kracht ervan.

Als je het oordeel van leerkrachten van de basisschool afzet tegen het oordeel van CITO en het oordeel van CITO draagt niets bij aan de voorspelling van de leerkrachten, dan kan je het oordeel van CITO niet gebruiken. Technisch gezien is de CITO toets een goede toets, met keurige gemiddelden en standaarddeviaties, maar als hij niet bijdraagt aan je voorspelling heb je er niets aan.

In alle statistiekboeken staat dat een test valide is als deze meet wat hij behoort te meten. Drenth en Sijtsma zijn het hier niet mee eens en zeggen dat je in een test niet kan spreken van de validiteit van een test, want een test kan volgens hen meerdere validiteiten hebben. Ze zeggen dat je de validiteit van een test moet afzetten tegen het beoogde gebruik van de test.

Als de test het goed doet bij het beslissen of iemand baat heeft bij een bepaalde therapie, kan de test bij die beslissing valide zijn. De test kan echter helemaal niet geschikt zijn om te beslissen of iemand naar havo of vwo moet en is op dat gebied dus helemaal niet valide.

Er zijn situaties waarin je met het ongewapende oordeel (waarbij je iets inschat) uit de voeten komt. Het gaat dan meestal over kortdurende klussen die niet heel belangrijk zijn en eventueel door een ander overgenomen kunnen worden. Als het serieuzer is, de klus groter is en er meer vanaf hangt, dan wil je iets inbouwen. Je switcht dan naar het gewapende oordeel (je weet precies waar je het over hebt en iets is precies na te meten).

Bij een test is het altijd belangrijk om een referentiegroep te hebben. Deze heb je nodig om de resultaten van je test te kunnen interpreteren.

Een test heeft 6 belangrijke kenmerken waarop hij duidelijk anders is dan het ongewapende oordeel:

Efficiëntie: Een test zorgt ervoor dat je het beoogde gedrag in redelijk korte tijd in de vingers krijgt en er een beeld van krijgt. Dat is waarom een test efficiënt is.

Als je van iemand wil weten hoe goed hij in wiskunde is, dan kun je wel naast deze persoon gaan zitten en wachten tot hij laat zien hoe goed hij in wiskunde is, maar dat is een inefficiënte gang van zaken.

Van drie sollicitanten wil je weten of ze verbaal uit de voeten kunnen.

Standaardisatie: Als je vergelijkt moet iedereen in dezelfde situatie een bepaalde prestatie geleverd hebben. Standaardisatie is een voorwaarde voor vergelijken.

Normering: Als het gemiddelde en de standaarddeviatie van een grote vergelijkbare groep hebt, heb je een norm waartegen je de testresultaten van je proefpersoon kan afzetten.

Normering gebruik je bijvoorbeeld als je wil weten of iemand goed is in lezen vergeleken met anderen van dezelfde leeftijd.

Objectiviteit: Een test moet afgenomen kunnen worden zonder dat er subjectieve invloeden in zitten. De testleider mag op geen enkele manier invloed hebben op de score.

Met Kappa meet je de overeenstemming. Hoe hoger de scores zijn, hoe meer je erop kan vertrouwen dat er sprake is van objectiviteit. Als iets helemaal objectief is zouden beide beoordelaars exact dezelfde score moeten geven en het 100 procent met elkaar eens moeten zijn.

Betrouwbaarheid: Het herhaalbaar zijn van testscores.

Validiteit: Meet de test wat hij behoort te meten? Drenth en Sijtsma zeggen dat dit een te simpele definitie is, want dat er niet maar één validiteit is in een test. Een test kan geschikt zijn voor het ene en tegelijkertijd ongeschikt voor iets anders.

Hoofdstuk 4

Voordat je een test uit kan gaan voeren moet je eerst een aantal dingen doen. Ten eerste moet je vaststellen wat je wilt gaan meten. Als je dit weet kan je een itembank gaan maken: je verzint een aantal ruwe steekwoorden die te maken hebben met het terrein. Nadat je dit gedaan hebt bepaal je het meetmodel en als controle vraag je het oordeel van experts. Eventueel zou je nog indicatoren kunnen toevoegen voor wenselijk gedrag. Hierna kan je de test af gaan nemen in een flinke steekproef. Als dat gedaan is evalueer je de items en pas je de schaallengte aan.

Je moet er bij het maken van een test altijd goed op letten dat je korte formuleringen gebruikt en dat er een evenwicht is tussen positieve en negatieve vragen.

College 2: Bespreken hoofdstuk 3, 5, 6 (Testtheorie van Drenth)

Hoofdstuk 3

Er wordt onderscheid gemaakt tussen twee hoofgroepen tests. Dit zijn de prestatietests en de tests voor gedragswijze. De test voor gedragswijze is een lastige test om te maken, omdat je op zoek bent naar het oordeel van iemand. Iemand kan bijvoorbeeld tijdens een test doen alsof hij heel vriendelijk is, terwijl hij op straat eigenlijk heel onbeschoft is.

De tests voor gedragswijze zijn onder te verdelen in de volgende vier subgroepen:

Observatietests zijn situaties waarbij de testleider de proefpersoon observeert en op die manier scores verzamelt. Het nadeel hiervan is dat het objectiviteitsproblemen oproept.
Somato-fysiologische methoden meten lichamelijke kenmerken of processen om een indicatie te geven van de psychologische kwaliteiten van iemand. Aan de ene kant zijn somato-fysiologische tests erg ouderwets, maar aan de andere kant worden ze nog steeds wel erg veel gebruikt.
Je kunt bijvoorbeeld je hand op een leugendetector leggen en deze signaleert dan of je handen vochtig worden of niet. Op deze manier kan de leugendetector zien of iemand liegt.
Zelfbeoordelingen, tests zonder vragen:

- Bij een semantische differentiaal is er van tevoren een bepaalde antwoordrange bepaald en één van de antwoorden moet je kiezen. Voorbeeld: Helemaal eens – eens – neutraal – oneens – helemaal oneens.
- Bij REP beoordeel je bekende personen. Voorbeeld: Geef een schets van oom Willem.
- Bij Q-Sort krijg je een aantal kaartjes met uitspraken erop die je moet beoordelen van niet relevant tot heel relevant. .
- Bij een Thematic Apperception Test zie je verschillende tekeningen die je met fantasie moet beoordelen en verklaren. De antwoorden die je geeft worden gecategoriseerd.

Kwalitatieve prestatietests

Testindelingen zijn op meerdere manieren te maken. Hieronder worden er een aantal beschreven:

Er bestaan individuele tests en groepstest. Bij individuele tests weet je zeker dat de respondent de uitleg snapt. Wel is het zo dat deze tests duurder zijn, veel tijd kosten en je goed moet oppassen dat de proefpersoon niet beïnvloed wordt door de testleider. Bij groepstests kan je de proefpersoon minder sturen, maar deze zijn wel goedkoper en gaan sneller.

Je kan een test beoordelen op snelheid en op niveau.

Een voorbeeld van een snelheidstest: je krijgt vijftien minuten en als deze tijd verstreken is wordt er gekeken hoe ver de je gekomen bent.

Een voorbeeld van een niveautest: er wordt gekeken hoeveel van de vijftig vragen je goed gemaakt hebt.

Er zijn cultuurvrije en cultuurgebonden tests. Bij cultuurvrije vragen maakt de setting niets uit, (bijna) iedereen kan de test invullen.

Een voorbeeld van cultuurgebonden vragen: het tentamen testtheorie van de studie pedagogische wetenschappen aan de RUG. Dit tentamen hangt af van de literatuur die hier gebruikt wordt en de colleges die in Groningen gegeven worden.

Er zijn directe en indirecte tests. Er is sprake van een directe test als datgene wat men wil meten of voorspellen bekend is bij de proefpersoon. Als dit niet het geval is spreken we van een indirecte test.

Er zijn vrije antwoord tests en keuzetests.

Voorbeelden van vrije antwoord tests zijn dictees en opdrachten waarbij zinnen aangevuld moeten worden.

Hoofdstuk 5

Bij scoring wil je niet dat de testleider invloed heeft. Om dit te voorkomen wordt het advies gegeven om voor alle tests een codering te maken waar bijstaat wat het goede antwoord is en hoeveel punten dat antwoord oplevert. Een coderingssysteem is meestal lastig te maken.

De teken een man test is een voorbeeld van een test waarbij een coderingssysteem gebruikt wordt. Bij deze test wordt aan jonge kinderen gevraagd om een mannetje te tekenen. Om dat mannetje te beoordelen moet je deze scoren in punten. Als je een schema maakt waarin je precies beschrijft wat gewaardeerd wordt en hoe dat gewaardeerd wordt, kan je het mannetje scoren.

Als een proefpersoon op een test alles goed heeft, hoeven we ons niet druk te maken en is het wel duidelijk dat hij een tien gehaald heeft. Wat doen we nu met iemand die een aantal vragen goed heeft, maar de rest gegokt heeft? Hij heeft een paar vragen goed gegokt, maar ook een aantal fout. We kunnen corrigeren voor gokken en op die manier zorgen dat mensen geen punten krijgen die ze eigenlijk niet verdienen. Dit heet de correctie voor gissen.

Stel nu je hebt een test van vijftig vierkeuzevragen en je hebt er 38 goed en 12 fout. Deze 12 heb je niet expres fout gedaan. Je wist ze niet en hebt ze gegokt, helaas verkeerd gegokt.

Als je vierkeuzemogelijkheden hebt bij een vraag en je gokt, dan heb je een kans van ¼ dat je goed gokt en een kans van ¾ dat je fout gokt.

Deze ¾ fout kans vertaalt zich in dit voorbeeld in 12 fout. Als ¾ fout 12 is, dan moeten er 4 goed zijn (¼ van 12).

Nu zou je dus kunnen zeggen dat de proefpersoon een score had van 38, maar hier 4 vragen van binnengehaald heeft door te gokken, dus dat de echte score 34 is.

De formule die je ook wel kunt gebruiken om bovenstaand voorbeeld uit te rekenen is:

Xc = X – (k-X) / (A-1), waarbij:

X = het aantal goed
Xc = gecorrigeerd aantal goed
k = het aantal items
A = het aantal antwoordalternatieven

De correctie voor gissen kan op verschillende manieren gebruikt worden. Hieronder een aantal voorbeelden:

Iemand heeft een toets ingevuld met 28 vierkeuze items. Hij had de kennis om hier 20 van goed te doen en heeft er 8 gegokt. Van die 8 zijn er dus 2 goed gegokt (¼) en 6 fout gegokt (¾). Zijn totaalscore zou 20 + 2 = 22 worden. Je kijkt hier naar een test alsof je kennis zou hebben over wat de proefpersoon precies gedaan heeft.

Er zijn 38 vragen waarvan er 12 niet beantwoord zijn. De proefpersoon had tijdnood en heeft het tentamen niet afgekregen dus moest een aantal vragen open laten. De 12 vragen die hij niet gemaakt heeft rekenen we doorgaans fout, maar we zouden ook kunnen zeggen:
Als de respondent de 12 vragen had gegokt dan waren er 3 (¼) goed geweest dus zijn totaalscore = 38 + 3 = 41.

Drenth en Sijtsma zeggen dat de giscorrectie veel nadelen heeft en betrekkelijk weinig voordelen en zij raden dus aan om de giscorrectie niet uit te voeren.

Hoofdstuk 6

Een test is betrouwbaar als die bij herhaalde meting steeds dezelfde score geeft. Als je een meting wil herhalen moet je die uitvoeren bij dezelfde proefpersonen en onder dezelfde condities als die je eerder gebruikt hebt.

Een probleem die je in de praktijk tegenkomt als je dezelfde test meerdere keren bij één proefpersoon afneemt, is dat de proefpersoon beïnvloed wordt door de eerste testafname en hiervan leert. Je kunt dus eenzelfde test niet vaker dan één keer bij een proefpersoon afnemen. Een oplossing die hiervoor gebruikt wordt is het maken van een gedachtenexperiment. Hierbij doe je net alsof het mogelijk is om de proefpersoon meerdere keren de test af te leggen en ga je ervanuit dat de proefpersoon niet verandert door de test. De volgende formule wordt hierbij gebruikt:

Xij = Ti + Eij, waarbij:

Xij = de score van de proefpersoon (i) in de loop van j (het aantal keer dat je een test doet, loopt van 1 tot q)
Ti = een constante, deze staat vast
Eij = de error, deze leidt er de ene keer toe dat er iets bij komt en de andere keer dat er iets vanaf gaat.

Hoe meer error er in de score zit, hoe minder betrouwbaar de test wordt.

Als de error 0 is kan je aantonen dat de geobserveerde standaarddeviatie gelijk is aan de standaarddeviatie van de error. Hoe kleiner de standaarddeviatie van de error, hoe minder de error om de Ti scoort. Je bent er uiteindelijk op uit om een situatie te vinden waarbij de standaarddeviatie van de error zo klein mogelijk is.

College 3: Bespreken hoofdstuk 5, 6 (Testtheorie van Drenth)

Hoofdstuk 5

Oefenvragen bij de giscorrectie:

Op een test, bestaande uit 35 items met 3 antwoordmogelijkheden, maakt iemand 23 items goed en 12 fout. Als de assumpties voor toevalscorrectie waar zijn, hoeveel items zijn dan door raden goed beantwoord?

Als je drie-keuze vragen hebt is de kans dat je iets goed gokt 1/3 en de kans dat je iets fout gokt is 2/3. De 2/3 fout kans vertaalt zich in dit voorbeeld in 12 fout. Als 2/3 fout 12 is, dan moet het totaal dus 18 zijn en zijn er dus 6 goed zijn (1/3 van 18).

Een respondent slaat op een test met vier-keuze vragen 12 (kennelijk) moeilijke vragen over. Hij heeft dan 25 goed, 12 fout en 12 overgeslagen vragen. Hoeveel zou hij goed hebben gehad als de antwoorden op de 12 overgeslagen vragen gegist zouden zijn?
Hij heeft er 12 overgeslagen. Bij gissen is de kans om een vier-keuze vraag goed te beantwoorden ¼, dus ¼ x 12 = 3. Hij zou 3 van de overgeslagen vragen goed gegist hebben en dus in totaal 25 + 3 = 28 vragen goed hebben.

Iemand heeft een deel van de tentamenstof fout geleerd. Hij maakt daardoor 3 vragen op een tentamen met vier keuze vragen fout. De overige 47 de vragen zijn goed beantwoord. Wat wordt bij toepassing van de giscorrectie de uiteindelijke score van deze respondent?
De ¾ fout kans is hier 3; hij heeft er 3 fout gedaan. Dit betekent dat het totaal 4 is en dus dat de ¼ goed kans 1 is. 1 van de vragen die hij goed had heeft hij dus goed door te gokken en de uiteindelijke score bij toepassing van de giscorrectie zou dus 47 – 1 = 46 moeten worden.

Hoofdstuk 6

Bij een gedachtenexperiment doe je net alsof het mogelijk is om bij de proefpersonen meerdere keren de test af te leggen en ga je ervanuit dat de proefpersoon niet verandert door de test. Om dit te kunnen doen moet je twee dingen aannemen. Ten eerste dat de error 0 is. De error is namelijk iets onvoorspelbaars en iets wat niet systematisch is. De ene keer slaat hij positief uit en de andere keer negatief en daarom kan je zeggen dat hij gemiddeld 0 zal zijn. De tweede aanname is dat de correlatie ( R ) tussen de error en een andere variabele 0 is. Error is iets toevalligs, er zit geen patroon in en het hangt met niets samen. Het hangt dus ook niet samen met Y. Er is één uitzondering: de correlatie tussen de error en X is heel licht positief. Dit komt doordat de error deel uitmaakt van X en dat is terug te zien in de formule Xij = Ti + Ei

S^2 (X) = S^2 (T) + S^2 ( E ), oftewel: de variantie van de geobserveerde score = de variantie van de troefscore + de variantie van de error. De variantie van de error wil je zo klein mogelijk hebben, want dan is de variantie van de geobserveerde score gelijk aan de variantie van de troefscore.

Wanneer de verhouding tussen de geobserveerde score en de troefscore zo dicht mogelijk bij één ligt dan overlappen de variantie van de troefscore en de variantie van de geobserveerde score compleet en dat is de situatie de we eigenlijk zouden willen hebben.

Rxx’ = de betrouwbaarheid. Dit wordt gedefinieerd als de variantie van de troefscore gedeeld door de variantie van de geobserveerde score. De betrouwbaarheid loopt van minimaal 0 tot maximaal 1.

De standaarddeviatie van de error is te berekenen door de geobserveerde standaarddeviatie te vermenigvuldigen met de wortel van 1-rxx’ (S ( E ) = S(X) √(1- rxx’)).

Door de betrouwbaarheid te schatten kun je deze in de formule invullen en dan heb je de andere gegevens ook. De echte betrouwbaarheid is altijd iets hoger dan de schattig en dit is veilig, want je belooft nooit te veel. Het schatten van de betrouwbaarheid kan op twee manieren:

1. Herhaalde metingen:

Parallelle tests: als je twee rekentestjes maakt en je vraagt bij allebei de testjes dezelfde operatie, dan kun je spreken van parallelle tests. Je kunt bijvoorbeeld in het ene testje vragen naar de uitkomst van de som 4 + 3 en in het andere testje naar de uitkomst van de som 5 + 2. Er zijn een aantal voorwaarden bij deze tests. De eerste is dat de proefpersoon dezelfde troefscore moet hebben op beide tests. Ten tweede moeten de varianties van beide tests in de populatie gelijk zijn. Als aan deze twee voorwaarden is voldaan dan geldt dat de correlatie tussen de twee tests gelijk is aan de betrouwbaarheid van de tests. Het nadeel van parallelle tests is dat je niet één, maar twee tests moet maken. In de praktijk worden weinig parallelle tests gemaakt, omdat het vaak een te dure manier is om de betrouwbaarheid te meten.
Test-hertest methode: als je een test afneemt en die na een bepaalde tijd nog eens afneemt, maak je gebruik van de test-hertest methode. De correlatiecoëfficiënt tussen de test en de hertest is gelijk aan de betrouwbaarheid. Je moet er bij de test-hertest methode op letten dat je niet een test maakt waarbij het voor de proefpersoon makkelijk is om er allerlei dingen uit te onthouden. Om te bevorderen dat de proefpersoon zoveel mogelijk vergeet, kun je er een langere tijd tussen laten. Maar als je er een te lange tijd tussen laat kan de proefpersoon ondertussen naar school en college zijn geweest, heeft de krant gelezen, het journaal gezien en dus allerlei dingen geleerd. Je kan dus zeggen dat het niet meer dezelfde proefpersoon is en dat je de scores dus niet meer mag vergelijken. Uiteindelijk moet je dus aan de ene kant zoveel tijd er tussen laten dat de proefpersoon zoveel mogelijk vergeten is, maar aan de andere kant zo weinig dat je zeker weet dat de proefpersoon nog hetzelfde is. Als je hier uit komt dan kan je met deze methode de betrouwbaarheid meten.

2. Eenmalige meting:

Split-half methode: bij de split-half methode knip je een bestaande test in tweeën. Je moet hierbij zorgen dat je niet alle moeilijke vragen bij de ene helft hebt en alle makkelijke vragen bij de andere helft. Je moet dus zoeken en puzzelen om te zorgen dat vergelijkbare items in beide test helften voorkomen. Deze methode is minder arbeidsintensief dan andere methoden. Je moet erop letten dat je de betrouwbaarheid meet van maar de halve test en dit dus nog moet compenseren.
Interne consistentie: je hebt een stapel losse items. Van die items zoek je uit in hoeverre ze, elk voor zich, bijdragen aan een gemeenschappelijke component. Als alle items samenhangen met de achterliggende variabele dan verwacht je een hoge intercorrelatie tussen de items. De mate van interne consistentie is gebaseerd op die intercorrelaties. De betrouwbaarheid wordt hier uiteindelijk aangeduid als alfa (Cronbach’s alfa).

Als je een test langer maakt dan wordt hij betrouwbaarder.

Als je test niet betrouwbaar is dan zal je ook nooit hoge correlaties met andere tests vinden.

Betrouwbaarheid van verschilscores: je hebt twee sub-tests en die ga je vergelijken. Bijvoorbeeld: je hebt een score voor rekenen en een score voor taal en die moet je met elkaar gaan vergelijken. In de praktijk rekenen we de betrouwbaarheid van verschilscores zelden uit, dus we rekenen vaak met verschilscores die niet betrouwbaar zijn.

College 4: Bespreken hoofdstuk 7 (Testtheorie van Drenth)

Hoofdstuk 7

Binnen de klassieke testtheorie staat de observeerbare score centraal. De observeerbare score (de testscore) is de resultante van de troefscore + de error of meetfout: X = T + E.

Hierbij geldt:

Het gemiddelde van E = 0, en;
S (E) = S (X): De spreiding van de meetfouten is dus gelijk aan de spreiding van de testscores.

De betrouwbaarheid van de testscores kan gemeten worden met de volgende formule:

r_XX’ =

De klassieke testtheorie bestaat al meer dan honderd jaar en heeft zijn nut en praktische bruikbaarheid zeker bewezen. De manier waarop de testtheorie naar testscores kijkt is niet heel moeilijk te begrijpen en dankzij de testtheorie konden er een groot aantal tests op diverse domeinen geconstrueerd worden.

De klassieke testtheorie brengt echter ook een aantal problemen met zich mee:

Er worden in de klassieke testtheorie aannames gedaan. Dit kan problemen opleveren, omdat men eigenlijk nooit zeker weet of deze aannames gerechtvaardigd zijn of niet. Bijvoorbeeld: Men neemt aan dat de troefscore en de testscore op intervalniveau gemeten kunnen worden en met deze aanname gaat men rekenen aan deze scores.
Er wordt in de klassieke testtheorie populatie-afhankelijk gemeten. Dit betekent dat je testscore afhankelijk is van de moeilijkheidsgraad van de test. Hierdoor kun je scores op verschillende tests moeilijk vergelijken.
Klassieke testtheorie is niet geschikt voor longitudinaal onderzoek of wanneer je zicht wil krijgen op een breed terrein. Het is bijvoorbeeld niet verantwoord om kinderen uit groep drie honderd wiskundige items aan te bieden.

Men heeft in de testtheorie een stap gezet en is - in plaats van naar totaalscores te kijken -gaan kijken naar de responsen/ de antwoorden op items en naar alle theorieën en modellen die hiermee te maken hebben. Een nieuwe ontwikkeling is de item-response theorie:

Waar het in de klassieke testtheorie nodig was om aannames te doen, is dit in de item-response theorie niet meer nodig. Het is namelijk in de item-response theorie mogelijk om meeteigenschappen te checken en zo kun je zien op welk schaalniveau je aan het meten bent.
Met de item-response theorie is het ook mogelijk om populatie-onafhankelijk te meten.
In de item-response theorie kan met verschillende items toch eenzelfde vaardigheid gemeten worden.
Met de item-response theorie kan je adaptief testen – testen op maat. Iedere respondent krijgt een test voorgelegd die zo goed mogelijk op zijn of haar niveau is toegesneden.
Door de item-response theorie kan je ontwikkeling volgen op een zelfde schaal (LVS)
Itembank en item-response theorie gaan hand in hand
Bij het maken van een test volgens de item-response theorie krijg je nuttige info ter verbetering van de test.

Het basismodel van de klassieke testtheorie is: X = T + E. Wanneer er in deze klassieke testtheorie gesproken wordt over een persoonsparameter dan wordt hiermee de testscore bedoeld. Met de itemparameter wordt de proportie correct bedoeld (de p-waarde).

In de item-response theorie staat het kijken naar items en de antwoorden op deze items centraal. De responsen op deze items zijn het resultaat van interactie tussen de vaardigheid van het individu en de moeilijkheidsgraad van het item.

In de item-response theorie zeggen we dat hoe hoger de vaardigheid van iemand is (theta of θ), hoe meer kans diegene heeft om een item juist te beantwoorden of om hoog te scoren.

P(X_g = 1|θ): hoe groot is de kans dat een item juist wordt beantwoord als functie van de vaardigheid. Je kunt dit ook weergeven in een grafiek. Op de X-as kun je de score op latente vaardigheid aflezen en op de Y-as de kans om een item juist te beantwoorden. De lijn is de item-response functie en die drukt precies het verband tussen de latente vaardigheid en je kans op succes uit.

De kans dat persoon i met θ_i een specifieke respons geeft op item g wordt bepaald door:

De vaardigheid (θ_i)
De kenmerken van het item

- Gokkans (pseudokansniveau) (γ_g)
- Moeilijkheidsgraad (δ_g)
- Discriminerend vermogen (α_g)

Hieronder wordt dieper ingegaan op de drie kenmerken van items.

De gokkans (γ_g)

Hoe meer alternatieven er worden aangeboden, hoe kleiner de gokkans is. Als mensen over weinig vaardigheden beschikken en toch nog een goede kans hebben om vragen juist te beantwoorden, dan is de gokkans dus groot. De gokkans kan in een grafiek worden afgelezen.

De moeilijkheidsgraad (δ_g)

De moeilijkheidsgraad is te berekenen met de formule: (max. kans op succes + γg)/2

Het discriminerend vermogen (α_g)

Hierbij gaat het erom hoe nauwkeurig een item vaardigheid van iemand kan bepalen. Het discriminerend vermogen is te bepalen door een raaklijn te tekenen en vervolgens a/b uit te rekenen.

Hieronder worden enkele modellen uit de item-response theorie besproken. Kenmerkend is dat alle drie de modellen een monotoon, niet-dalend verband laten zien.

Het Rasch-model

Er is maar één parameter die mag verschillen; de moeilijkheidsgraad.

Het Birnbaum-model

Er zijn twee parameters die mogen verschillen; het discriminerend vermogen en de moeilijkheidsgraad.

Het drie-parameter logistische model

Er zijn drie parameters die mogen verschillen; de gokkans, het discriminerend vermogen en de moeilijkheidsgraad. Dit model is vaak het meest realistisch.

	Rasch (1P)	Birnbaum (2P)	3P
Itemparameters - Pseudokansniveau - Discriminerend vermogen - Moeilijkheidsgraad	0 = δ_g en δ_h mogen verschillen	0 α_g en α_h mogen verschillen δg en δh mogen verschillen	γ_g en γ_h mogen verschillen αg en αh mogen verschillen δg en δh mogen verschillen
Strengheid	Erg streng	Minder streng	Minst streng
Populatie-onafhankelijk meten	Personen Items	Personen (maar θ afhankelijk van α juist) als itemparameters bekend zijn	Personen als itemparameters bekend zijn
Meetniveau θ	Verhoudings/ratio	Interval	Interval
Functioneren	Past vrijwel nooit	Vaak schattingsproblemen items mindere kwaliteit	Vaak schattingsproblemen oplossen door onrealistische aannames over verdeling θ

CITO gaat mee met de nieuwe ontwikkelingen binnen de testtheorie en gebruikt de item-response theorie om zijn instrumenten te construeren, maar ook om met de vaardigheidsscores te kunnen rekenen. Zij bedachten het One Parameter Logistic Model (OPLM), een model dat tussen het Rasch-model en het Birnbaum-model in zit.

Zij hebben het discriminerend vermogen berekend (als hypothese) en kunnen die invullen. Hierdoor hoeft er geen schatting meer gemaakt te worden uit de data. Met deze truc hebben ze dus een 1-parameter model en kunnen ze tegelijkertijd toch rekening houden met het discriminerend vermogen.

Over veel eigenschappen van de bovenstaande modellen is nog te weinig kennis en dit kan problemen opleveren.

Mokken heeft twee modellen gepresenteerd die niet zo streng zijn als bovenstaande modellen en daarom kunnen we ze makkelijk gebruiken. Het zijn niet-parametrische modellen. Zijn uitgangspunten hierbij waren dat het moest gaan om een monotoon niet-dalende item-response functie en dat met de toename van θ de kans toeneemt of tijdelijk constant blijft dat het juiste antwoord wordt gegeven.

Het model van monotone homogeniteit
Het model van dubbele monotonie

	Monotone homogeniteit	Dubbele monotonie
Itemparameters Moeilijkheidsgraad	Geen schattingen p-waarden berekenen	Geen schattingen p-waarden berekenen
Strengheid	Weinig restricties	Iets meer restricties Lijnen mogen elkaar niet kruisen: geen snijding IR-f
Populatie-onafhankelijk meten	Personen (ordenen m.b.v. X)	Personen (ordenen m.b.v. X) Items (ordenen m.b.v. p-waarden)
Meetniveau θ	Ordinaal	Ordinaal

Het voordeel van een minder streng model is dat het minder voorkomt dat je items uit je test moet schrappen omdat anders het model niet opgaat. Een test met weinig items heeft vaak een lagere betrouwbaarheid dan een test met meerdere items dus komt het de betrouwbaarheid ten goede als er weinig items geschrapt hoeven te worden.

Het nadeel van een minder streng model is dat er geen itemparameters geschat kunnen worden en je dus terug gaat naar de klassieke testtheorie.

College 5: Bespreken hoofdstuk 7, (Testtheorie van Drenth)

Hoofdstuk 7

Hieronder worden drie vraagstukken besproken die te maken hebben met vraagonzuiverheid:

Is het een goed idee om rekenvaardigheid te toetsen aan de hand van verhaalsommen? En bij migrantenkinderen? - Verhaalsommen zijn sommen die verborgen zijn in een verhaaltje. Leerlingen moeten uit dit verhaaltje de concrete som halen en die vervolgens oplossen.
Nee, dit is geen goed idee. Er wordt niet alleen gekeken naar de rekenvaardigheid van kinderen, maar ook naar de taalvaardigheid. Kinderen kunnen hierdoor benadeeld worden. Denk bijvoorbeeld aan kinderen voor wie Nederlands de 2e taal is.
Een onderzoeker wil een test ontwikkelen die het niveau van begrijpend lezen meet bij leerlingen van groep 5-8 basisonderwijs. Hij selecteert hiervoor teksten uit de kinderkrant Kidsweek over voetbal en de ontwikkeling van de stoommachine en formuleert hierbij vragen die peilen naar het tekstbegrip. Is dit een goed idee?
Nee, dit is geen goed idee. Over het algemeen zullen jongens meer afweten van deze onderwerpen dan meisjes en dus worden meisjes hier benadeeld. Als iemand geïnteresseerd is in een onderwerp dat getoetst wordt is diegene in het voordeel ten opzichte van iemand die niet geïnteresseerd is in dat onderwerp.
Bij het formuleren van items om intelligentie te meten in een Amerikaanse test in de eerste helft van vorige eeuw werd uitgegaan van de cultuur van de Amerikaanse middenklasse. Is dit gerechtvaardigd? Zou dit invloed hebben op de scores van zwarten?
Dit is niet gerechtvaardigd en zou invloed hebben op de score van zwarten, want zij behoorden in die periode niet tot de Amerikaanse middenklasse.

Als er vraagonzuiverheid (ook wel differential item functioning of item bias) in een test zit, dan:

Is de behaalde score op een item niet alleen afhankelijk van de vaardigheid (θ), maar ook van andere kenmerken. Bijvoorbeeld geslacht, interesses, achtergrondkennis, taal en cultuur.
Worden er mensen benadeeld of bevoordeeld en wordt er dus onpartijdig getoetst.
Wordt een vaardigheid of eigenschap niet goed weergegeven. Stel dat je studiesucces wil voorspellen in het voortgezet onderwijs en er is sprake van vraagonzuiverheid, dan is de testscore voor niet voor iedereen even goed voorspellend.

Enkele voorbeelden van tests met vraagonzuiverheid:
Stel je hebt 30 jaar geleden een test ontwikkeld voor beschrijvend lezen. Deze test ontwikkelde je voor kinderen uit de Nederlandse populatie. In de Nederlandse populatie waren er toen alleen kinderen die de Nederlandse taal als 1e taal kenden.
Als je deze test nu opnieuw wilt gaan gebruiken kom je een probleem tegen. Tegenwoordig wonen er veel kinderen in Nederland die de Nederlandse taal als 2e taal kennen en deze dus minder goed beheersen. Is het instrument nu dan eigenlijk nog wel zo geschikt?

Karen moet 3 km wandelen. Zij gaat na hoelang zij doet over honderd meter. Dat duurt ongeveer 1 minuut. Hoelang zal zij ongeveer onderweg zijn?
Er zit veel taalvaardigheid in deze vraag. Om hem op te kunnen lossen is het belangrijk dat je de Nederlandse taal goed begrijpt. Migrantenkinderen of kinderen met dyslexie worden in deze vraag dus benadeeld.

Anita koopt een naaimachine. Deze kost € 400 zonder B.T.W. De B.T.W. is 20%. Hoeveel moet Anita betalen inclusief B.T.W.?
Om deze vraag te kunnen beantwoorden moet je weten dat de B.T.W. een soort heffing is die bij de kostprijs opgeteld moet worden. Kinderen die dit niet weten zullen de vraag waarschijnlijk fout beantwoorden.

Els mag met haar tante op vakantie naar Spanje. Daarvoor heeft zij een paspoort nodig. Waar kan zij dat paspoort krijgen? A. Bij de Spaanse grens. B. Bij het gemeentehuis van haar woonplaats. C. Bij het hoofdbureau van de politie. D. Bij het reisbureau dat haar reis verzorgt.
In deze vraag wordt er vanuit gegaan dat Els een Nederlandse nationaliteit heeft. Maar stel nu dat Els een Belgische nationaliteit heeft. Zij had haar paspoort dan niet op kunnen vragen bij de gemeente hier, maar zou naar de ambassade moeten.

Child Behavior Checklist (CBCL). Deze test gaat na of er problemen zijn in het functioneren van een kind als persoon. Als een kind vermijdt om mensen aan te kijken dan wordt er geconcludeerd dat dit kind verlegen en teruggetrokken is. In de Westerse cultuur zou men kunnen zeggen dat het kind problemen heeft met sociale interactie, maar in de Arabische cultuur geldt dat het onbeschoft is om anderen aan te kijken. Deze test brengt dus problemen met zich mee en kan niet zomaar overal gebruikt worden.

Meet je bij verschillende groepen alleen de vaardigheid die je wil meten?
Om vaardigheden en eigenschappen zo goed en eerlijk mogelijk te kunnen meten willen we graag onpartijdig toetsen. Dit houdt in dat de betekenis, moeilijkheid, taal en aantrekkelijkheid van een item voor respondenten uit verschillende groepen gelijk moet zijn.

Door nieuwe ontwikkelingen binnen de testtheorie kunnen we onderzoek doen naar vraagonzuiverheid. Hiervoor worden modellen uit de item-response theorie gebruikt.

Een item is zuiver/ je bent onpartijdig aan het toetsen als de item-response functie voor verschillende groepen identiek is. Bij gelijke θ is dan de kans gelijk om een item juist te beantwoorden. De itemkenmerken (gokkans, discriminerend vermogen en moeilijkheidsgraad) zijn voor de verschillende groepen dan dus gelijk.

Leerlingvolgsystemen

Een voorbeeld van een leerlingvolgsysteem (afkomstig uit de item-response theorie) is het Leerling- en OnderwijsVolgSysteem (LOVS). Dit is een computersysteem voor de registratie van vorderingen. Het wordt aangeboden door CITO en is het meest gebruikte systeem in Nederland. Met behulp van dit systeem is het mogelijk om scores van verschillende toetsen met elkaar te vergelijken. Personen en items worden op één vaardigheidsschaal geplaatst.

Het doel van de cognitieve toetsen van CITO is om erachter te komen welke inhoud de leerling beheerst, hoe goed de leerling het doet vergeleken met leeftijdsgenoten en hoe de leerling zich ontwikkelt door de jaren.

Om scores op verschillende toetsen te kunnen vergelijken heeft CITO bedacht dat je deze scores kan omzetten naar latente vaardigheid. Hierdoor kan je bijvoorbeeld zien of iemand vooruit gegaan is. Ook kan je hierdoor zien hoe iemand scoort binnen een bepaalde groep.

Dit systeem heeft een behoorlijke meerwaarde voor zowel leerkrachten als scholen:

Ontwikkeling van leerlingen kunnen gevolgd worden in de tijd, ten aanzien van zichzelf, de landelijke normgroep, leeftijdsgenoten of doelen.
Ontwikkelingen kunnen op groepsniveau gevolgd worden.
Er kan een vergelijking gemaakt worden tussen leerdomeinen en klassen.
Toets resultaten kunnen als feedback op het gegeven onderwijs gebruikt worden (evaluatie) en bieden aanknopingspunten voor verbetering.

Conclusie

De item-response theorie biedt interessante mogelijkheden voor leerling volg systemen, zoals:

Het opvolgen en begeleiden van ontwikkeling van leerlingen.
Onderwijsevaluatie en – verbetering

Maar; het kost wel heel veel tijd, energie en werk om een test volgens de item-response theorie te construeren. Om een idee te geven: binnen het CITO zijn er meer dan 600 mensen fulltime bezig met het construeren en reconstrueren van tests.

College 6: Bespreken hoofdstuk 8, 9 (Testtheorie van Drenth)

Hoofdstuk 8

Validiteit heeft te maken met de mate waarin de test voldoet aan het doel waarvoor die ontwikkeld is. Er zijn verschillende doelen waarvoor testen ontwikkeld worden. De twee hoofddoelen zijn:

Het voorspellen van ander gedrag
Het operationaliseren van een psychologisch begrip

Het eerste hoofddoel: het voorspellen van ander gedrag (= het criterium)

Voorspellingen over de toekomst:
Aan de hand van een test kunnen voorspellen of kinderen in staat zijn een VWO diploma te behalen.
Voorspellingen over het heden:
Aan de hand van een test nagaan of een kind dyslexie heeft en, zo ja, in welke mate een kind dyslexie heeft.
Voorspellingen over het verleden:
Aan de hand van een test (bijvoorbeeld bepaalde spelvormen) vat krijgen op een eventuele traumatische ervaring van iemand.

Bij het voorspellen van gedrag van een ander is het essentieel om een zinvolle operationalisering te maken van een criterium.

Om te bepalen of de test een goede voorspeller is van het criterium kan je de predictieve validiteit nagaan. Dit is een vorm van validiteit die relevant is wanneer een test tot doel heeft ander gedrag te voorspellen. Om deze predictieve validiteit van een test na te gaan moet de samenhang tussen de test- en criteriumscores berekend worden. Dit kan aan de hand van correlaties of regressie analyse.

Het tweede hoofddoel: het operationaliseren van een psychologisch begrip

Als je hypothetische/ psychologische begrippen wilt meten dan moet je deze begrippen eerst operationaliseren. Voorbeelden van hypothetische begrippen zijn: capaciteiten, persoonlijkheidstrekken (introvert/ extravert/ agressief) en attitudes (attitude ten aanzien van vreemdelingen).

Om te bepalen of een test meet wat hij pretendeert te meten kan je onderzoek doen naar begripsvaliditeit. Je vraag je eerst af wat de test eigenlijk meet en vervolgens vraag je je af of dit overeen komt met wat je dacht en wilde dat die test zou meten. Ook de begripsvaliditeit kan je bepalen aan de hand van correlaties, maar het kan ook aan de hand van andere, complexere, methodes.

Andere vormen van validiteit

Een toonaangevende instantie in Amerika (APA) schrijft regels uit voor degelijk wetenschappelijk onderwijs. Deze instantie onderscheidt vier vormen van validiteit:

Predictive validity: APA heeft een beperkte definitie van dit begrip. Zij gebruiken de term namelijk alleen wanneer het criterium in de toekomst ligt. Er zit dus verschil in de definities van de begrippen predictive validity (APA) en predictieve validiteit (Drenth en Sijtsma).
Concurrent validity: Je probeert de validiteit te onderzoeken door na te gaan of de score/ het criterium van je test samenhangt met de score/ het criterium van een andere test die gelijktijdig afgenomen werd. Hiermee wordt bedoeld dat hij afgenomen werd in min of meer dezelfde tijdsperiode.
Content validity: In je test onderzoek je kennis over een bepaald domein. Er wordt nagegaan in welke mate de items van een test het domein dekken.
Construct validity: Hier wordt nagegaan of de items van een test het construct meten zoals die theoretisch beschreven is.

Een voorbeeld van hoe je onderzoek kan doen naar de construct validity: Het begrip responsiviteit werd gemeten bij toekomstige leerkrachten. In theorie betekent het begrip responsiviteit; het zich persoonlijk verantwoordelijk voelen. Dus voelen deze toekomstige leerkrachten zich persoonlijk verantwoordelijk voor het werk wat ze doen? Nu wordt, om deze responsiviteit te meten, het globale construct opgedeeld in vier deelconstructen: 1. Persoonlijk verantwoordelijk voelen voor het onderwijs dat men gaat geven, 2. Persoonlijk verantwoordelijk voelen voor de relatie met leerlingen, 3. Persoonlijk verantwoordelijk voelen voor de leerprestaties van leerlingen en 4. Persoonlijk verantwoordelijk voelen voor de motivatie van leerlingen.
Construct validiteit kan je nagaan door de principale componenten analyse uit te voeren. Als je vervolgens gemeten hebt dan moet je de samenhang tussen scores op items bekijken en kun je zien of er inderdaad sprake is van vier deelconstructen.

De vormen van validiteit die tot nu toe beschreven zijn zie je het meest in beschrijvingen van handleidingen van tests. Er zijn echter ook nog andere soorten validiteit die je tegen kan komen, enkele belangrijke hiervan:

De congruente/ soortgenoot validiteit: Kijken naar de samenhang tussen een test die we ontwikkeld hebben en een andere test die in grote lijnen hetzelfde meet.
Je weet dat er al een aantal testen bestaan om intelligentie te meten. Zelf wil je er één ontwikkelen die korter is en minder tijd kost. Om nu na te gaan of de test die je ontwikkelt hebt valide is kan je kijken naar de congruente/ soortgenoot validiteit. Je gaat na of er samenhang is tussen de scores op de test die je ontwikkeld hebt en de scores op een test die al bestond.
De face/ indruk validiteit: Iemand bekijkt een test en bepaalt vervolgens (subjectief) of die test valide is.
Je vraagt een expert om te kijken naar de items in je intelligentietest en vraagt of hij denkt of je op een goede manier het begrip intelligentie meet.
De incrementele validiteit: De toegevoegde waarde van een test in een voorspelling.
Je doet een voorspelling op basis van een test. Wanneer je een tweede test toevoegt en gebruikt voor je voorspelling en vervolgens kijkt of je nu een betere voorspelling kan doen dan ben je aan het kijken of de test incrementeel valide is.

Hieronder meer over de predictieve validiteit, omdat dit één van de vormen van validiteit is die het meeste voorkomt.

Wanneer we onderzoek doen naar de predictieve validiteit willen we kijken hoe goed we ons criterium kunnen voorspellen.

Je kan bijvoorbeeld schoolprestaties voorspellen door het ontwikkelen van een intelligentietest.
Je kan bijvoorbeeld schooluitval voorspellen door het ontwikkelen van een motivatietest.
Je kan bijvoorbeeld nagaan of iemand in de toekomst geweldsdelicten zou kunnen gaan plegen door een test te ontwikkelen die agressiviteit meet.
Je kan bijvoorbeeld kijken wat leerkrachten belangrijk vinden in het onderwijs door een test te ontwikkelen die responsiviteit meet.

- Leraren met een mastery approach vinden het vooral belangrijk dat hun leerlingen de leerstof goed beheersen.
- Leraren met een performance approach vinden de eindresultaten van leerlingen vooral belangrijk.

Bij onderzoek naar predictieve validiteit is het belangrijk dat je een representatieve steekproef hebt om de test bij af te nemen. Soms moet je rekening houden met bepaalde stratificaties. Ook is het essentieel dat je testscores en criteriumscores betrouwbaar zijn.

Als de test ontwikkeld is, de test afgenomen is in een representatieve steekproef en de criteriumgegevens verzameld zijn dan moet de relatie tussen test- en criteriumscores worden nagegaan. Om deze relatie te kunnen zien is het handig om een scatterplot te maken. Op de X-as staan je testscores en op de Y-as staan je criteriumscores. Voor elk individu uit je steekproef geef je de test- en criteriumscores weer in het scatterplot. Op die manier kun je de scores van alle individuen uit je steekproef in één figuur weergeven.

Als de samenhang tussen je test- en criteriumscores weergegeven kan worden door een lineaire verband dan zal de puntenwolk in je scatterplot de vorm van een langgerekte ovaal hebben. Bij het lineaire verband hoort een rechte lijn die je door de puntenwolk kan trekken en een formule: Y = a + b * X, waarbij:

Y de criteriumscore is.
X de testscore is.
a de startscore is: het snijpunt met de Y-as.
b de richtingscoëfficiënt is: de verhouding tussen de X- en de Y scores.

Je kan ook de product-moment correlatie berekenen als je metingen niet op voldoende hoog niveau gedaan zijn. De correlatie die je dan berekent geeft de relatie aan tussen je test- en criteriumscores en geeft een aanduiding voor de validiteit; de validiteitscoëfficiënt. Als er een lineair verband te zien is tussen de test- en criteriumscores dan mag Pearson’s α gebruikt worden en die geeft dan een indicatie van hoe goed de test predictief valide is.

Als je geen lineair verband aantreft dan mag je geen gebruik maken van Pearson’s α om uitspraken te doen over de predictieve validiteit van je test. Er zijn twee soorten niet-lineaire verbanden die nog wel eens voorkomen:

Kromlijnig verband (banaanvormig figuur): Je kan het verband tussen de test- en criteriumscores niet representeren door een rechte lijn door het figuur te trekken. Als we dit ouden doen dan zouden er fouten gemaakt worden en zou je verkeerde criteriumwaardes aflezen. De formule (correlatieratio) die bij dit kromlijnige verband hoort is: Y = a + b1 * X + b2 * X^2 + E.
Heteroscedastisch verband (figuur met uitwaaiering naar één kant): voor een lage X kan Y goed voorspeld worden, voor een hoge X niet. De validiteit kan nagegaan worden met de correlatiecoëfficiënt θ (Guion).

Suppresor variabele (S) onderdrukt het niet-relevante deel van X. Hierdoor wordt X een betere voorspeller van criterium Y: r (X,S) > 0, r (X,Y) > 0, r (S,Y) = 0. De formule die hierbij hoort is: Y (dakje) = a + b1X - b2S
Het criterium is bijvoorbeeld de geschiktheid voor een technisch beroep. Hierbij is X de rekenvaardigheid en S de taalvaardigheid. Deze is dus als het goed is niet relevant voor Y.

De moderatorvariabele (M) beïnvloedt de relatie tussen X en criterium Y. r (X,Y) is dus afhankelijk van M en r (M,Y) = ongeveer 0.
Het criterium is bijvoorbeeld studieprestaties. Hierbij is X de intelligentie en M het geslacht. Voor mannen kan er een sterker verband tussen intelligentie en Y worden gevonden dan voor vrouwen.

Een steekproef bestaat vaak uit deelgroepen met specifieke kenmerken. De samenstelling van groepen kan dan dus complex zijn.
Als de relatie tussen X en Y voor de verschillende deelgroepen anders is, dan moet de juiste moderator gevonden worden die dit verschil veroorzaakt.
Er kan een zelfde verband gevonden worden, maar voor dezelfde X een verschil in gemiddelde criteriumscore. Als dit het geval is dan speelt groepslidmaatschap een rol voor predictie.

Opvallende figuren waarin de scatterplots van de scores van twee groepen vergeleken worden zijn de volgende (zie dia 19):

De twee lijnen die het lineaire verband tussen de test- en criteriumscores van beide groepen aangeven lopen parallel. Dit betekent dat het verband tussen de test- en criteriumscores voor beide groepen hetzelfde is. Er is wel een verschil: als je beide lijnen door zou trekken en zou kijken waar ze de Y-as snijden dan zou je scores zien. De twee groepen hebben dus een predictiemodel die verschillend is, omdat het snijpunt met de Y-as verschillend is.
Zo’n figuur zou je bijvoorbeeld zien als je de samenhang tussen schoolvorderingen en studieprestaties voor VWO leerlingen en voor VMBO leerlingen in één figuur zou zetten. De samenhang tussen de test- en criteriumscores is gelijk, maar VMBO leerlingen starten later.
De puntenwolk van de ene groep begint later en eindigt ook eerder dan die van de andere groep. Als er een lijn getrokken wordt die het verband aangeeft tussen de test- en criteriumscores dan loopt die lijn gelijk. Dit betekent dat de b die behoort bij X in beide lineaire formules hetzelfde is. Ook beide lijnen hebben hetzelfde snijpunt met de Y-as, omdat ze samenlopen. Het predictiemodel is dus voor beide groepen gelijk, omdat de lijnen die de samenhang tussen de test- en criteriumscores aangeeft identiek zijn (en dus is de richtingscoëfficiënt van beide groepen gelijk) en de lijnen hetzelfde snijpunt met de Y-as hebben (en dus is de startscore van beide groepen gelijk).

De validiteit van een test kan soms lager uitvallen dan je eigenlijk verwacht had. Er zijn verschillende dingen die hierbij een rol kunnen spelen. Dit zijn de volgende:

Een lage betrouwbaarheid van de predictor en/ of het criterium.
Een niet-lineair verband tussen predictor en criterium.
Als je onderzoek doet en je zou Pearson’s α berekenen en er blijkt een niet-lineair verband tussen predictor en criterium te zijn dan krijg je een onderschatting.
Geen rekening houden met de complexe samenstelling van groepen.
Negeren van betekenisverschil van het criterium in verschillende organisaties.
De betekenis is niet helemaal hetzelfde bij docenten in het voortgezet onderwijs die als hoofdtaak het lesgeven hebben en bij docenten van de universiteit die naast lesgeven vaak ook nog onderzoek moeten doen en begeleiden. Je moet dus goed kijken op welke groep mensen je je richt, want het kan betekenisverschil geven.
Een criterium te eenvoudig nemen.
Je neemt een hele globale maat van een criterium en wil kijken of een test kan voorspellen of een leerling succesvol is. Maar wat bepaalt nu of een leerling succesvol is? Je moet dit heel duidelijk specificeren en naar eventueel verschillende indicatoren hiervoor gaan kijken.
Een test die teveel tijd kost.

Hoofdstuk 9

Wat draagt een test bij in het beslissingsproces? Testen worden gebruikt om beslissingen te nemen over mensen en dit kunnen diverse soorten beslissingen zijn.

Je kan bijvoorbeeld een test maken om mensen toe- of af te wijzen voor een functie of opleiding. Ook kan je een test gebruiken bij het stellen van een diagnose en beslissen tot een behandeling. Een test kan ook bepalen of iemand slaagt of zakt voor een tentamen.

Je hebt te maken met beslissingen over mensen/ individuen. Over deze mensen heb je informatie en aan de hand daarvan kan je behandelingen doen.

Bij het maken van beslissingen over mensen wordt er vaak gebruik gemaakt van een beslissingsstrategie.
Stel een leerkracht van het basisonderwijs merkt dat één van de leerlingen achterblijft met lezen ten opzichte van de andere leerlingen in de klas. Naar aanleiding hiervan kan een leerkracht onderzoek aanvragen voor de leerling om te kijken of deze dyslexie heeft. De volgende stap is dat mensen een test of meerdere tests gaan uitvoeren. Op basis van de score van de leerling wordt informatie verkregen die gebruikt kan worden om te beslissen of een leerling een bepaalde behandeling of hulp nodig heeft.

Er bestaan diverse soorten beslissingen:

Individuele beslissingen:
- Eenmalig – Welke studie ga ik doen?
- Ja/ nee keuze – Heeft iemand een bepaalde behandeling nodig?
Institutionele beslissingen:
- Serie – Toelatingsprocedure van school
- Selectie – Plaatsing door te kijken naar niveau of kwaliteit

Voor het selecteren of afwijzen van mensen kan een eenvoudig model worden gebruikt om zoveel mogelijk ongeschikten te weren en zoveel mogelijk geschikten aan te nemen. Aan de hand van dit model kan dan vervolgens de selectieratio (het percentage aangenomen kandidaten), de toevalskans (het percentage geschikte kandidaten) en het succesratio (het percentage geschikte kandidaten dat aangenomen is) uitgerekend worden.

Access:

Public

Check more: click and go to more related summaries or chapters

Studiegids met college-aantekeningen voor Testtheorie en testgebruik aan de Rijksuniversiteit Groningen

College-aantekeningen bij Testtheorie & Testgebruik aan de Rijksuniversiteit Groningen - 2016/2017

College-aantekeningen bij Testtheorie & Testgebruik aan de Rijksuniversiteit Groningen - 2014/2015

Testtheorie en Testgebruik - RUG - 2018/2019 - Sheetnotes Week 1

Testtheorie en Testgebruik - RUG - 2018/2019 - Sheetnotes Week 2

Testtheorie en Testgebruik - RUG - 2018/2019 - Sheetnotes Week 3

Testtheorie en Testgebruik - RUG - 2018/2019 - Sheetnotes Week 4

Studiegids met college-aantekeningen voor Psychologie Bachelor 2 aan de Rijksuniversiteit Groningen

College-aantekeningen bij Cognitieve Psychologie aan de Rijksuniversiteit Groningen - 2016/2017

College-aantekeningen bij Introductie in de klinische neuropsychologie aan de Rijksuniversiteit Groningen

College-aantekeningen bij Testtheorie & Testgebruik aan de Rijksuniversiteit Groningen - 2016/2017

College-aantekeningen bij Testtheorie & Testgebruik aan de Rijksuniversiteit Groningen - 2014/2015

College-aantekeningen bij Arbeids-, Organisatie- en Personeelspsychologie aan de Rijksuniversiteit Groningen - 2016/2017

College-aantekeningen bij Klinische Psychologie aan de Rijksuniversiteit Groningen

College-aantekeningen bij Onderzoeksmethoden: theorie en ethiek aan de Rijksuniversiteit Groningen - 2015/2016

College-aantekeningen bij Onderzoeksmethoden: theorie en ethiek aan de Rijksuniversiteit Groningen

College-aantekeningen bij Sociale Omgeving en Gedrag aan de Rijksuniversiteit Groningen - 2015/2016

Studiegids met college-aantekeningen voor Wetenschapstheorie aan de Rijksuniversiteit Groningen

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check: concept of JoHo WorldSupporter

Concept of JoHo WorldSupporter

JoHo WorldSupporter mission and vision:

JoHo wants to enable people and organizations to develop and work better together, and thereby contribute to a tolerant tolerant and sustainable world. Through physical and online platforms, it support personal development and promote international cooperation is encouraged.

JoHo concept:

As a JoHo donor, member or insured, you provide support to the JoHo objectives. JoHo then supports you with tools, coaching and benefits in the areas of personal development and international activities.
JoHo's core services include: study support, competence development, coaching and insurance mediation when departure abroad.