COTAN beoordelingssysteem voor de kwaliteit tests - NIP - 2009 - Artikel

Samenvatting bij het artikel COTAN beoordelingssysteem voor de kwaliteit tests - NIP - 2009

Waaruit bestaat het beoordelingssysteem?
Wat betekenen de beoordelingen?
Welke vragen zijn er bij de papier-en-potloodversie?
Welke vragen worden gesteld bij afname per computer?
Welke extra vragen zijn er voor afname via computer?
Welke vragen worden gesteld bij normgerichte interpretatie?
Welke vragen worden gesteld bij domeingerichte interpretatie?
Welke vragen worden gesteld bij criteriumgerichte interpretatie?
Welke vragen worden gesteld om de betrouwbaarheid te beoordelen?

Waaruit bestaat het beoordelingssysteem?

Het beoordelingssysteem geeft een oordeel over tests die kan variëren van A (zeer goede test) tot F (slechte test of test in ontwikkeling). Hierbij wordt elke test beoordeeld op vijf criteria: 1) uitgangspunten van de testconstructie, 2) kwaliteit van het testmateriaal en de handleiding, 3) normen, 4) betrouwbaarheid en 5) validiteit. Deze criteria werden later nog verder aangepast waarbij criteria 2 en 5 werden gesplitst in aparte onderdelen, namelijk kwaliteit van het testmateriaal, kwaliteit van de handleiding, begripsvaliditeit en criteriumvaliditeit. Dit leidde tot zeven uitganspunten waarop tests worden beoordeeld. Hieronder worden deze zeven criteria verder uitgelicht:

Uitgangspunten van de testconstructie: dit criterium wordt beoordeeld middels drie vragen, waarmee achtereenvolgens wordt vastgesteld of het gebruiksdoel, de theoretische achtergrond en de operationalisatie daarvan in de testinhoud zijn beschreven.
Kwaliteit van het testmateriaal: dit criterium wordt getest middels acht vragen over de testopgaven, standaardisatie van scoring en instructie en of er voldoende aanwijzingen voor de geteste worden gegeven.
Kwaliteit van de handleiding: dit criterium wordt beoordeeld middels zeven (papier-en-potlood) of tien (computer) vragen over de informatie die wordt aangeboden ter ondersteuning van de testgebruiker bij afname en interpretatie van de test.
Normen: dit criterium wordt beoordeeld door middel van zeven vragen (normgerichte interpretatie) of vijf vragen (domeingerichte of criteriumgerichte interpretatie). Hierbij wordt vastgesteld wat de kwaliteit van de normen en de erbij verstrekte informatie is.
Betrouwbaarheid: dit criterium wordt beoordeeld middels drie vragen over de kwaliteit van het onderzoek en vragen naar de betrouwbaarheidsmaten.
Begripsvaliditeit: dit criterium wordt beoordeeld middels drie vragen over de uitkomsten, kwaliteit en specifiek de begripsvaliditeit.
Criteriumvaliditeit: dit criterium wordt ook beoordeeld middels drie vragen waarbij ook de uitkomsten en kwaliteit van de onderzoeksprocedure wordt nagegaan.

Het oordeel voor elk van deze criteria is als volgt: elke vraag wordt beoordeeld met een 1, 2 of 3, wat overeenkomt met de betekenissen onvoldoende, voldoende en goed.

Wat betekenen de beoordelingen?

Een onvoldoende betekent dat de gevraagde informatie afwezig is of dat de kwaliteit van de aanwezige informatie negatief wordt beoordeeld. Afwezigheid van informatie wordt dus op dezelfde manier beoordeeld als wel beschikbare informatie die tot een negatief resultaat leiden. Ook betekent een onvoldoende beoordeling niet per direct dat het instrument niet bruikbaar is. Zo kan een bepaalde schaal niet betrouwbaar zijn, maar hoeft dit niet te betekenen dat de andere schalen of de totaalscore onbruikbaar zijn. Een derde nuancering betreft de grenswaarden die in het beoordelingssysteem worden genoemd en waaraan tests moeten voldoen om een zo groot mogelijke objectiviteit bij de beoordeling te garanderen. Deze waarden zijn niet wetenschappelijk vastgesteld, waardoor waarden die er net onder liggen misschien ook nog steeds voldoende of goed zijn. Een onvoldoende beoordeling is dus meer een waarschuwingssignaal dan een verbod tot gebruiken.

Hoe werkt de beoordelingsprocedure?

De COTAN beoordeelt alle tests die voor opname in de Documentatie van Tests en Testresearch in aanmerking komen. Bij een testbeoordeling is de eerste stap het verzamelen van materiaal en publicaties van en over een test. Dit materiaal wordt anoniem naar twee onafhankelijke beoordelaars gestuurd. Zij leveren beide een inhoudelijk onderbouwing van hun beoordeling, die de senior editor integreert tot een toelichting die samen met het eindoordeel als feedback aan de testauteur ter beschikking wordt gesteld. Mochten er geen opmerkingen over zijn, wordt de beoordeling gepubliceerd.

Welke vormen van vertrouwelijkheid kent de beoordelingsprocedure?

De twee vormen van vertrouwelijkheid betreffen de anonimiteit van de beoordelaars en het aangeschafte of ter beschikking gestelde testmateriaal. De anonimiteit verwijst naar het onbekend blijven van wie de test heeft beoordeeld. Het testmateriaal verwijst naar het geheimhouden van het materiaal voor derden, gezien het auteursrecht. Om de test hiervoor te beschermen zijn sommige auteurs ertoe overgegaan om de informatie in de handleiding te beperken, zodat de informatie over welke items bij welke schaal horen onbekend blijft. Echter maakt dit het beoordelen minder nauwkeurig.

Hoe werkt de beoordeling van vertalingen of bewerkingen van buitenlandse tests?

Bij bewerkingen of vertalingen van buitenlandse instrumenten kan de vraag gesteld worden in hoeverre deze tests van toepassing zijn op de Nederlandse situatie. Dit is afhankelijk van de mate van letterlijkheid van de vertaling. De betekenis van beide tests moeten zo veel mogelijk gelijk zijn, zodat de interne consistentie hoog is. Wanneer de Nederlandse versie zo bewerkt is dat die niet meer gelijk is met de oorspronkelijke versie kunnen de gegevens die in het buitenland zijn verzameld niet meer in de plaats komen van Nederlands onderzoek.

Hoe zit het met Nederlandstalige Belgische tests?

De Nederlandstalige Belgische tests die in de COTAN zijn opgenomen kunnen in principe zonder vertaling of bewerking in Nederland afgenomen worden. Bij de beoordeling van deze tests is gekeken naar de uitgangspunten van de testconstructie, kwaliteit van het testmateriaal en de normen. Aan de betrouwbaarheid en validiteit worden geen speciale eisen gesteld, aangenomen dat deze gegevens generaliseerbaar zijn naar de Nederlandse situatie.

Hoe worden de uitgangspunten van de testconstructie beoordeeld?

Testconstructie vergt een grondige voorbereiding, omdat er verantwoorde uitspraken gedaan zullen worden over verschillen binnen personen, tussen personen of tussen groepen van personen en/of situaties. De uitgangspunten zijn een leidraad voor een heldere omschrijving van de meetpretentie, de keuze van de testinhoud en de wijze waarop begrippen worden gemeten.

Is er aangegeven wat het gebruiksdoel is van de test?
Hierbij is het van noodzaak dat de meetpretentie van de test is aangegeven: welke constructen men beoogt te meten. Er moet aangegeven zijn voor welke doelgroep de test is bedoeld en waarvoor de test bedoeld is om te gebruiken.
Is de herkomst van het constructie-idee beschreven en/of worden de te meten constructen gedefinieerd?
Hier wordt nagegaan of de test aansluit bij een bestaande theorie of dat de auteur een eigen theorie ontwikkelt. Er moet een omschrijving gegeven worden van welk begrip gemeten wordt en waarom dat begrip gemeten wordt.
Wordt de relevantie van de testinhoud voor de te meten constructen aannemelijk gemaakt?
Er moet duidelijk gemaakt worden hoe de constructen gemeten worden, welke aspecten binnen de constructen onderscheiden kunnen worden en een beschrijving van het itemdomein dat duidelijk aangeeft welk item wel of niet tot de test zou kunnen behoren.

Hoe wordt de kwaliteit van het testmateriaal beoordeeld?

Bij deze beoordeling wordt onderscheid gemaakt tussen tests die met behulp van papier-en-potlood of met behulp van de computer worden afgenomen. Voor dit criterium worden voor beide afnamewijzen drie basisvragen gesteld betreft standaardisatie en objectiviteit. Wanneer de test op allebei de manieren afgenomen kan worden, moeten ook beide afnamewijzen beoordeeld worden.

Welke vragen zijn er bij de papier-en-potloodversie?

Zijn de testopgaven gestandaardiseerd?
Standaardisatie houdt in dat de inhoud, vorm en volgorde voor iedereen hetzelfde is. Dit is van uitzondering voor adaptieve tests.
a. Is er sprake van een objectief scoringssysteem?
Een objectief scoringssysteem betekent dat waarden die aan alle mogelijke antwoorden van proefpersonen worden toegekend bij voorbaat zodanig vastliggen, dat elke test-leider, afgezien van administratieve fouten die bij de handmatige of geautomatiseerde scoring kunnen worden gemaakt, tot dezelfde score zal komen. Dit is van toepassing bij schriftelijke capaciteitentests en meerkeuze-items.
b. Als de scoring door beoordelaars of observatoren gebeurt, is dan het beoordelingssysteem volledig en duidelijk?
De richtlijnen voor de beoordeling en scoring moeten duidelijk zijn, zodat duidelijk is wat er in een antwoord moet staan om welke score te krijgen.
Zijn de items vrij van racistische, etnocentrische, seksistische en voor bepaalde bevolkingsgroepen kwetsende inhoud?
Hierbij wordt vastgesteld of de tekst bruikbaar is voor een bepaalde groep.
Zijn items, testboekje, antwoordschalen en/of antwoordformulieren zodanig ontworpen dat fouten bij de invulling kunnen worden vermeden?
Hierbij moet gelet worden op de begrijpelijkheid van de vragen en wanneer er meerdere antwoordformulieren gebruikt moeten worden, het duidelijk is dat dit goed gebeurt zonder mogelijk vergissingen.
Is de instructie voor de geteste volledig en duidelijk?
De instructie of aanwijzingen vormen een onderdeel van het testmateriaal en vormen in het algemeen de eerste bladzijden van het testboekje. De instructie moet gestandaardiseerd en in gangbaar Nederlands zijn gesteld, waarbij voorbeeldvragen, informatie over hoe antwoorden gegeven moeten worden en de beschikbare tijd vermeld worden.
Zijn de items correct geformuleerd?
Er moet aan de voorschriften voldaan worden bij het formuleren van items.
Hoe is de kwaliteit van het testmateriaal?
Het gaat hier om de praktische aspecten, zoals leesbaarheid, overzichtelijkheid, kleurgebruik en duurzaamheid van het testmateriaal.
Is het scoringssysteem zodanig ontworpen en beschreven dat fouten bij de scoring kunnen worden vermeden?
Hierbij moet gelet worden op de duidelijkheid van de scoringsprocedure, het gebruik van scoringsmallen en wat te doen bij niet ingevulde antwoorden.

Welke vragen worden gesteld bij afname per computer?

Is de test gestandaardiseerd of worden bij adaptieve tests beslisregels geëxpliciteerd?
De standaardisatie-eis is hierbij gelijk aan die van de afname op papier. Bij adaptieve test geldt dit niet, omdat deze tests betere resultaten leveren wanneer de vragen in een verschillende volgorde gesteld worden. Hierbij moet wel vermeld worden hoe de volgorde van vragen wordt vastgesteld.
Is er sprake van een geautomatiseerd of objectief scoringssysteem?
Als de scoring geautomatiseerd is, is de scoring ook direct objectief. Hierbij moet de auteur nog wel aangeven hoe de scoring (automatisch) verloopt. Als er enkele open vragen zijn of handmatig gescoord moeten worden, moet hierbij de nodige informatie over de scoring gegeven worden.
Zijn de items vrij van racistische, etnocentrische, seksistische en voor bepaalde bevolkingsgroepen kwetsende inhoud?
Is de software zodanig ontworpen dat fouten door onjuist gebruik kunnen worden vermeden?
Door onjuist gebruik van de CBT-software kunnen de resultaten negatief beïnvloed worden. Dit kan voorkomen worden door overbodige functies of sneltoetsen uit te schakelen, toegang tot harde schijf af te sluiten, onmogelijk maken om andere software te openen en het moeilijk maken om de CBT-software vroegtijdig te verlaten. Daarnaast is de vormgeving van de interface ook van invloed op de kans op fouten.
Is de instructie voor de geteste volledig en duidelijk?
Hierbij is het van belang dat er geen fouten gemaakt worden, omdat de geteste niet weet hoe de software werkt. Er moet informatie gegeven worden over hoe geantwoord moet worden, hoeveel tijd er is en er moet een oefenopgave gegeven worden.
Zijn de items correct geformuleerd?
Voor de COTAN-beoordelaar van adaptieve tests moeten alle items bekeken kunnen worden.
Hoe is de kwaliteit van de vormgeving van de gebruikersinterface?
Hierbij moet gelet worden op de consistentie van de schermvormgeving (steeds dezelfde symbolen, kleuren, informatie, lettertypes en grootte), de overzichtelijkheid van de schermindeling, de leesbaarheid, het kleurgebruik (prettig om te lezen) en de functionaliteit van beeld- en geluidsmateriaal.
Is de test voldoende beveiligd?
Een test is goed beveiligd als al het mogelijke is gedaan om de toegang tot de test, het testmateriaal en de testresultaten te beveiligen. De geteste moet gelegitimeerd worden, zodat de juiste persoon de juiste test maakt. De items mogen niet bekeken worden door andere personen, gezien de validiteit, privacy en anonimiteit.

Hoe wordt de kwaliteit van de handleiding beoordeeld?

Bij dit criterium wordt gevraagd naar de volledigheid van de informatie die de handleiding biedt voor de gebruiker. Denk aan praktische aanwijzingen voor de afname, scoring en interpretatie en informatie over onderzoek dat met de test is verricht.

Is er een handleiding beschikbaar?
Elke test moet over een handleiding beschikken.
Zijn de aanwijzingen voor de testleider volledig en duidelijk?
De handleiding heeft als doel dat de testafname gestandaardiseerd plaatsvindt, dus er moet beschreven zijn wat de testleider wel en niet mag zeggen en welke handelingen moet verrichten.
Wordt er informatie gegeven over de gebruiksmogelijkheden en beperkingen van de test?
Het moet duidelijk zijn voor de testgebruiker welke constructen met welke test worden gemeten, voor welke doelgroep het bestemd is en wat de functie is. Ook moeten de beperkingen beschreven zijn.
Wordt er in de handleiding een samenvatting van de onderzoeksresultaten gegeven?
Een samenvatting van de opzet en de resultaten van normeringstabellen, betrouwbaarheids- en validiteitsonderzoek moet in de handleiding opgenomen worden, zodat de gebruiker een oordeel kan vormen of de test voor zijn doeleinden geschikt is en de vereiste kwaliteit heeft.
Wordt er met behulp van voorbeelden aangegeven hoe testscores kunnen worden geïnterpreteerd?
In een handleiding moeten gevalsbeschrijvingen en rapportagevoorbeelden worden opgenomen.
Wordt gewezen op soorten informatie die bij de interpretatie van belang kunnen zijn?
Zoals het vermelden van welke andere variabelen mogelijk bijdragen aan de voorspelling.
Wordt de mate van deskundigheid vermeld die vereist is voor de afname en interpretatie van de test?
Er moet in de handleiding aandacht besteed worden aan de deskundigheid van de beoogde gebruikers.

Welke extra vragen zijn er voor afname via computer?

Wordt er informatie gegeven over de installatie van de computersoftware?
Het is vereist dat informatie wordt gegeven over de benodigde hard- en software en over de manier waarop dit geïnstalleerd kan worden.
Wordt er informatie gegeven over de bediening en mogelijkheden van de software?
Er moet informatie gegeven worden over de bediening van de software en de mogelijkheden die de software kent, zoals de te kiezen instellingen.
Zijn er voldoende mogelijkheden voor technische ondersteuning?
Er moet informatie beschikbaar zijn over wat te doen bij technische problemen en wanneer mogelijk naar een helpdesk verwezen worden.

Hoe worden de normen beoordeeld?

Het scoren van een test leidt tot een ruwe score, dit zegt echter nog niks over wat deze score betekent. Een ruwe score krijgt pas betekenis wanneer deze wordt vergeleken met een norm. Er zijn twee typen normscores:

Normgerichte interpretatie: de behaalde ruwe score vergelijken met die van anderen. Hierbij wordt vastgesteld hoe de persoon scoort ten opzichte van andere personen waarmee een zinvolle vergelijking kan worden gemaakt. Dit type normen worden ook wel relatieve normen genoemd.
Domeingerichte of criteriumgerichte interpretatie: het resultaat absoluut interpreteren, met de absolute norm. Hierbij worden bepaalde standaarden of grensscores vastgesteld. Dit type normen worden ook wel absolute normen genoemd.

Als er geen normen zijn, is het eindoordeel op dit criterium onvoldoende. Er zijn twee basisvragen bij dit criterium die niet afhankelijk zijn van het type normen.

Worden normen verstrekt?
De normen moeten beschikbaar zijn op het moment dat de test wordt afgenomen. Wanneer die gegevens afwezig zijn, verkeerde vergelijking wordt gemaakt, nog wijzigingen worden aangebracht aan de test nadat de normen zijn verzameld of wanneer de normen op de verkeerde wijze verzameld zijn, scoort de test onvoldoende.
Zijn de normen actueel?
Normen zijn gevoelig voor maatschappelijke veranderingen, veranderingen in het onderwijs en voor de inhoud van functies. Hierdoor is het noodzakelijk dat over tijd een hernormering plaatsvindt. Om veroudering van de normen in de gaten gehouden, moet bij elke gegevensverzameling het jaar gemeld worden. Als de normen niet meer van toepassing zijn, krijgt de test de kwalificatie 'de normen zijn verouderd'.

Welke vragen worden gesteld bij normgerichte interpretatie?

a. Wat is de kwaliteit van de verstrekte normgroepen?
De testauteur moet normen verschaffen voor elk door hem genoemd gebruiksdoel. Wil een normgroep goed aan zijn doel kunnen beantwoorden, dan moet de normgroep en van voldoende omvang zijn en representatief zijn voor de bedoelde groep.
b. Zijn de normgroepen groot genoeg?
De volgende beoordelingsregels moeten hierbij aangehouden worden: bij tests voor belangrijke beslissingen op individueel niveau (N > 400 = goed, 300 < N < 400 = voldoende, N < 300 = onvoldoende) en bij tests voor relatief minder belangrijke beslissingen op individueel niveau (N > 300 = goed, 200 < N < 300 = voldoende, N < 200 = onvoldoende). De eis van de steekproefgrootte geldt per normgroep waarvoor wordt genormeerd. Bij continue normering kunnen kleine steekproeven gebruikt worden wanneer voldaan is aan de voorwaarde van gelijke varianties in de subgroepen, normaalverdeling en dan de regressie van de testscore op leeftijd lineair is. De richtlijnen voor subgroepsgrootte bij continue normering voor tests voor belangrijke beslissingen op individueel model geldt N > 150 = goed, 100 < N < 150 = voldoende en N < 100 = onvoldoende. Bij tests voor relatief minder belangrijke beslissingen op individueel niveau geldt N > 100 = goed, 70 < N < 100 = voldoende en N < 70 = onvoldoende. Deze richtlijnen hebben uitsluitend betrekking op de situatie waarin acht subgroepen worden onderscheiden. Voor tests voor onderzoek op groepsniveau geldt K > 40 = goed, 30 < K < 40 = voldoende en K < 30 = onvoldoende (K = aantal groepen bestaande uit minstens 25 geteste personen).
c. Zijn de normgroepen representatief?
Een steekproef is representatief als de samenstelling ervan voor een aantal variabelen overeenkomt met die van de betreffende populatie, waarbij de steekproef wordt verkregen met behulp van een aselect steekproefmodel. Hierbij heeft elk element in de populatie een even grote kans in de steekproef te worden opgenomen. Om dit te beoordelen moet de steekproef uitgebreid beschreven worden. Wanneer de steekproef is verzameld op basis van regionale normen of via een gemakssteekproef kan de test maximaal beoordeeld worden met voldoende. Bij gelegenheidssteekproeven is de beoordeling onvoldoende, aangezien hun samenstelling onbekend of oncontroleerbaar is.
Worden de betekenis en de beperkingen van de normschaal duidelijk gemaakt voor de gebruiker en is het type normschaal in overeenstemming met het doel van de test?
Bij het omzetten van ruwe scores naar afgeleide scores zijn er drie typen normen die gebruikt kunnen worden: verhoudingsnormen (voorbeeld is het IQ), normen gebaseerd op rangorde (percentielen en daarvan afgeleide schaaltypen) en normen gebaseerd op gemiddelde en spreiding. Elk systeem kent zijn eigen kenmerken, voor- en nadelen die door de testauteur voldoende beargumenteerd moeten worden.
Worden er gemiddelden, standaardafwijkingen en gegevens over de scoreverdeling vermeld?
Voor elke normgroep moeten gemiddelden, standaardafwijkingen en gegevens over de scoreverdeling moeten vermeld.
Worden er gegevens versterkt over mogelijke verschillen tussen subgroepen (bijvoorbeeld vrouwen-mannen)?
De gegevens bij vraag 3 moeten ook gegeven worden voor mogelijke subgroepen, dit om het mogelijke discriminerend effect vast te stellen of een mogelijke extra interpretatie te betrekken.
Worden er gegevens versterkt over de nauwkeurigheid van de meting en de daarbij behorende intervallen?
Voor de interpretatie van testscores is informatie over de nauwkeurigheid van de meting en de betrouwbaarheidsintervallen van belang. Maten voor de nauwkeurigheid van de test zijn bijvoorbeeld de standaardmeetfout, standaardschattingsfout en de standaardfout. Het betrouwbaarheidsinterval kan worden gegeven middels een nulhypothese of vergeleken worden met een drempelwaarde. Voor een positieve beoordeling moeten minstens drie maten voor de nauwkeurigheid gegeven worden inclusief de betrouwbaarheidsintervallen.

Welke vragen worden gesteld bij domeingerichte interpretatie?

Bij een test die gebruik maakt van grensscores wordt met behulp van deze scores het hele scorebereik verdeeld in twee of meer categorieën. Voor het vaststellen van grensscores gelden standaardbepalingsprocedures waaruit vervolgens een norm kan worden vastgesteld. Een standaardbepalingsprocedure is het examinee-centered methode, waarbij beoordelaars gevraagd wordt om voor ieder item uit een representatieve test aan te geven welk gedrag van een student op de grens voldoende/onvoldoende wordt verwacht. Bij test-centered methode worden reële personen beoordeeld en wordt er een grensscore afgeleid uit de feitelijke scoreverdeling.

Is er voldoende overeenstemming tussen de beoordelaars?
Alleen op basis van een hoge beoordelaarsovereenstemming (= identieke oordelen van verschillende beoordelaars) kan de verkregen norm worden gelegitimeerd. Een maat hiervoor is coëfficiënt kappa bij nominaal meetniveau, de gewogen coëfficiënt kappa bij ordinaal meetniveau en de intraklassecorrelatiecoëfficiënt bij interval meetniveau.
Zijn de procedures op grond waarvan de grensscores zijn bepaald correct?
Er moet voldaan zijn aan: het juist volgen van alle stappen en beslissingen binnen de definities en procedures vermeldt in de methode en het houden aan alle stappen in de methode.
Zijn de beoordelaars naar behoren geselecteerd en getraind?
De beoordelaars moeten kennis hebben van het domein waarop de test betrekking heeft en moet de standaardbepalingsmethode die gebruikt wordt goed begrijpen.

Welke vragen worden gesteld bij criteriumgerichte interpretatie?

Dit betreft onderzoek naar de criteriumvaliditeit, namelijk het voorspellen van een criterium met de gegevens van een test.

Rechtvaardigheden de onderzoeksresultaten het gebruik van grensscores?
Wanneer grensscores empirisch worden onderbouwd, moet de onderzoeker het bewijs leveren voor de bruikbaarheid van de gekozen grensscore.
Is de onderzoeksgroep in overeenstemming met het bedoelde gebruik?
Het onderzoek waarin de grensscore wordt bepaald, moet betrekking hebben op de populatie waarvoor de test wordt gebruikt.
Is de onderzoeksgroep groot genoeg?
Hierbij gelden dezelfde eisen als die voor normtabellen, maar gezien grensscores slechts gaan over een aantal punten kunnen de eisen iets versoepeld worden.

Hoe wordt de betrouwbaarheid beoordeeld?

De klassieke testtheorie veronderstelt dat een testscore (X) is opgebouwd uit een betrouwbaar deel, ook wel ware score of betrouwbare score (T) genoemd, en een deel dat te wijten is aan de invloed van toevallige meetfouten (E). Het doel van de betrouwbaarheidsanalyse is om de invloed van deze meetfouten op de testscore te schatten. Daarnaast bestaat een testscore ook uit onbedoelde, systematische meetfouten. De indices voor betrouwbaarheid maken het mogelijk om over de betrouwbaarheid van een test te spreken. Voorbeelden hiervan zijn de parallel-testbetrouwbaarheid, betrouwbaarheidsschattingen op basis van inter-itemrelaties, test-hertestbetrouwbaarheid en interbeoordelaarsbetrouwbaarheid. De uitkomsten van een betrouwbaarheidsonderzoek voor een bepaalde test zijn afhankelijk van de onderzochte groep. Hoewel een test vaak uit meerdere onderdelen bestaat, geeft de beoordelaar in het algemeen één beoordeling voor het criterium betrouwbaarheid.

Welke vragen worden gesteld om de betrouwbaarheid te beoordelen?

Worden er gegevens over de betrouwbaarheid verstrekt?
Zoals betrouwbaarheidscoëfficiënten of de resultaten van generaliseerbaarheidsonderzoeken.
Zijn de resultaten voldoende, gelet op het beoogde type beslissingen dat met behulp van de test moet worden genomen?
Een test die wordt gebruikt wvoor belangrijke beslissingen moet minstens een betrouwbaarheid van .90 bezitten. Tests voor minder belangrijke beslissingen op individueel niveau geld .80 en tests voor onderzoek op groepsniveau .70 voor een goede beoordeling.
a. Paralleltestbetrouwbaarheid.
Dit is het schatten van de betrouwbaarheid als verhouding van alle systematische variantie en de variantie van de testscores. Tests zijn parallel wanneer hun testscores in dezelfde groep dezelfde gemiddelden, varianties en correlaties met andere variabelen hebben. Deze vorm van betrouwbaarheid is van belang bij pure speed-tests.
b. Betrouwbaarheid op basis van inter-itemrelaties.
Hierbij is de Cronbachs alfa een veelgebruikte maat. Echter moet er rekening gehouden worden met dat dit slechts een ondergrens is, er veel alternatieve methoden zijn die dichter bij de ware betrouwbaarheid ligt en Cronbachs alfa wordt eerder gebruikt als maat voor de interne consistentie van een test. Andere mogelijkheden zijn de split-halfcoëfficiënt of splitsingsbetrouwbaarheid. Een methode die nog weinig wordt gebruikt, is de greatest lower bound (glb).
c. Test-hertestbetrouwbaarheid.
Een test wordt herhaald bij dezelfde onderzoeksgroep, waarbij het tijdsinterval en eventueel relevante gebeurtenissen in dat interval nauwkeurig moeten worden vermeld. De correlatie tussen de twee afname momenten is een maat voor de betrouwbaarheid.
d. Interbeoordelaarsbetrouwbaarheid.
Dit is het overeenkomen van de oordelen van verschillende observatoren. Een maat hiervoor is Cohen's kappa, de coëfficiënt van Gower, de identiteitscoëfficiënt en andere maten die rekening houden met verschillen tussen zowel gemiddelden als varianties van beoordelaars.
e. Methoden op basis van item-responstheorie.
Hierbij zijn er twee methoden: de betrouwbaarheid schatten middels de latente trek of de methode rho, waarbij de items individueel beoordeeld worden.
f. Methoden op basis van generaliseerbaarheidstheorie of structurele vergelijkingsmodellen.
Hierin spelen confirmatorische factormodellen een belangrijke rol.
a. Zijn de procedures op basis waarvan de betrouwbaarheidsgegevens zijn berekend correct?
Enkele aandachtspunten hierbij zijn: bij paralleltest moeten de twee testen wel echt parallel zijn, een hoge Cronbachs alfa kan ook betekenen dat de test bestaat uit homogene items en daardoor slechts een smalle testinhoud heeft, de lengte voor het test-hertestinterval moet niet te kort en niet te lang zijn en ten slotte moeten de beoordelingen tussen verschillende observatoren onafhankelijk hebben plaatsgevonden bij interbeoordelaarsbetrouwbaarheid.
b. Zijn de steekproeven op basis waarvan de betrouwbaarheidsgegevens zijn berekend, in overeenstemming met het beoogde testgebruik?
De betrouwbaarheidscoëfficiënten moeten berekend worden per normgroep.
c. Maken de gegevens die worden verstrekt een gefundeerd oordeel over de betrouwbaarheid mogelijk?
Als er geen enkele beschrijvende informatie bij de gerapporteerde betrouwbaarheidscoëfficiënten wordt gegeven, kan er op basis van afwezigheid van deze gegevens een onvoldoende worden gegeven. Voorbeelden van informatie zijn de standaarddeviaties van de scores bij test en hertestgroep, het beschrijven van de steekproeven of op hoeveel observatoren de gerapporteerde betrouwbaarheidscoëfficiënten betrekking hebben.

Hoe wordt de begripsvaliditeit beoordeeld?

Validiteit is de mate waarin een test aan zijn doel beantwoordt: kan men uit de testscore die conclusies trekken die men op het oog heeft? Validiteit heeft betrekking op de interpretatie van de testscores en niet om de eigenschap van een test. Er is enige structuur aangebracht in het beoordelen van de validiteit, namelijk door het te splitsen in drie vormen validiteit: inhoudsvaliditeit, begripsvaliditeit en criteriumvaliditeit. De inhoudsvaliditeit heeft betrekking op de relevantie van de inhoud van een test. De begripsvaliditeit betreft de betekenis van de testscores. De criteriumvaliditeit betreft de voorspellende waarde van testscores, deze vorm geldt alleen voor tests met voorspellende pretentie. De inhoudsvaliditeit is al beoordeeld bij het criterium 'uitgangspunten van de testconstructie'. In dit hoofdstuk wordt de begripsvaliditeit beoordeeld aan de hand van zes vragen, waarbij alleen een cumulatie van dergelijke aanwijzingen voor begripsvaliditeit leidt tot een voldoende of goede beoordeling.

Worden er gegevens versterkt over de begripsvaliditeit?
Hierbij gaat het om de interne (relatie tussen items, subtests binnen de test) of de externe structuur (relaties met andere tests).
Maken de resultaten voldoende aannemelijk dat het begrip zoals bedoeld, wordt gemeten?
Bij de beoordeling speelt uitsluitend de kwaliteit van de uitkomsten in het licht van de theoretische uitgangspunten een rol. De begripsvaliditeit wordt beoordeeld door verschillende gegevens.
1. Gegevens over de dimensionaliteit van scores: wanneer op basis van de theorie verschillende subbegrippen worden verondersteld, manifesten deze zich dan ook als onafhankelijke factoren?
2. Gegevens over de psychometrische kwaliteit van de items: dit kan door middel van de gemiddelden van de itemscores per groep en gegevens over de samenhang tussen items en (sub)tests te vermelden. Dit zijn de zogenaamde item-restcorrelaties, wat aangeeft in hoeverre het betreffende item hetzelfde meet als andere items. Volgens het item-responsmodel worden schattingen van itemparameters gedaan, zoals item-moeilijkheden en itemdiscriminaties. De steekproef moet groot genoeg zijn om te voorkomen dat de itemparameters onnauwkeurig geschat worden. Allerlei uitspraken over de kwaliteit van tests die zijn gebaseerd op statistische berekeningen zijn alleen te vertrouwen als er voor de betreffende toepassing is aangetoond dat aan deze vooronderstellingen is voldaan.
3. Gegevens over de invariantie van de factorstructuur en mogelijke itembias bij verschillende groepen: dit wordt verkregen op basis van modellen en procedures die passen binnen de KTT of de IRT.
4. Gegevens over de convergentie en de discriminante validiteit: deze gegevens kunnen verkregen worden via de multi-trait-multi-method-benadering. Convergente validiteit betreft een hoge correlatie met een test die een soortgelijk construct meet. Discriminante validiteit betreft het uitsluiten dat een ander begrip wordt gemeten dan bedoeld.
5. Gegevens over verschillen tussen relevantie groepen: dit kan uitwijzen over de test onderscheid kan maken tussen verschillende groepen.
6. Overige gegevens gaan bijvoorbeeld over de criteriumvaliditeit.
a. Zijn de procedures op basis waarvan de begripsvaliditeitsgegevens zijn berekend correct?
De opzet van het onderzoek en de gebruikte analysetechnieken moeten voldoende duidelijk zijn beschreven. Enkele aandachtspunten zijn het corrigeren voor het aandeel van het item zelf in de testscore wanneer de samenhang tussen items wordt onderzocht of dat bij onderzoek naar convergente validiteit gewaarschuwd moet worden tegen de interpretatie van onderzoeksresultaten zonder specifieke verwachtingen vooraf.
b. Komen de steekproeven die in het begripsvalideringsonderzoek zijn gebruikt overeen met groepen waarvoor de test is bedoeld?
Het valideringsonderzoek moet betrekking hebben op de populatie waarvoor de test wordt gebruikt, waarbij vooral de variantie van de testscores in de onderzoeksgroep van belang is.
c. Wat is de kwaliteit van de andere maten die in het begripsvalideringsonderzoek zijn gebruikt?
De betrouwbaarheid moet bekend zijn van de andere gebruikte maten, omdat een lage betrouwbaarheid hiervan een lage validering tot gevolg heeft.
d. Is de kwaliteit van het onderzoek (zoals bij vraag 3a tot en met 3c) zodanig dat de beoordeling van de begripsvaliditeit (zoals bij vraag 2) kan worden bevestigd?
Als vragen 3a tot en met 3c leiden tot een score 1 bij vraag 3d, betekent dit dat het oordeel bij vraag 2 naar beneden gesteld moet worden.

Hoe wordt de criteriumvaliditeit beoordeeld?

Bij criteriumvaliditeit onderzoekt men in hoeverre de testscore een goede voorspeller is van niet-testgedrag. Het is van belang dat er op basis van de pretentie van de test verwachtingen gespecificeerd worden over het type criteria waarmee relaties verondersteld worden. Wanneer het niet het doel van de test is om voorspellingen te doen, wordt de criteriumvaliditeit als niet van toepassing verklaard.

Worden er gegevens verstrekt over het verband test-criterium?
Dit zijn gegevens over correlaties, voorspellende waarde van een test of het stellen van een klinische diagnose. Er hoeven geen gegevens voor elke nieuwe situatie of elke nieuwe test verzameld te worden.
Zijn de resultaten voldoende, gelet op het beoogde type beslissingen dat met de test moet worden genomen?
Afhankelijk van het doel van de test, validiteitscoëfficiënten, betrouwbaarheidsintervallen, selectieratio en de utiliteit wordt bepaald of een of meer validiteitsstudies voldoende zijn.
a. Zijn de procedures op grond waarvan de criteriumvaliditeitsgegevens zijn berekend correct?
Hierbij moet gelet worden op mogelijke criteriumcontaminatie (scores op de predictor en criterium moeten onafhankelijk van elkaar tot stand zijn gekomen), de tijd tussen testafname en criteriummeting (gelijktijdigheidsonderzoek is minder nauwkeurig), gelijke testcondities tussen de test en het valideringsonderzoek, mogelijke kruisvalideringsonderzoek, het vermelden van de steekproefgrootte en generaliseerbaarheid.
b. Zijn de steekproeven op grond waarvan de criteriumvaliditeitsgegevens zijn berekend, in overeenstemming met het beoogde testgebruik?
Het valideringsonderzoek moet betrekking hebben op de populatie waarvoor de test wordt gebruikt.
c. Wat is de kwaliteit van de criteriummaten?
Het criterium moet zo volledig mogelijk beschreven worden en er moet aangegeven zijn welke relevante gedragsaspecten wel en niet in de criteriummaat zijn opgenomen.
d. Is de kwaliteit van het onderzoek (zoals beoordeeld in vraag 3a tot en met 3c) zodanig dat de beoordeling van de criteriumvaliditeit (zoals gegeven in vraag 2) kan worden bevestigd?
Als vragen 3a tot en met 3c leiden tot een score 1 bij vraag 3d, betekent dit dat het oordeel bij vraag 2 naar beneden gesteld moet worden.

Access:

Public

Click & Go to more related summaries or chapters

Samenvatting artikelen bij Psychologie als Wetenschap - 2021/22

Publication bias in the social sciences: Unlocking the file drawer - Franco, Malhotra & Simonovits - 2014 - Artikel

Measuring the prevalence of questionable research practices with incentives for truth telling - John, Loewenstein & Prelec - 2012 - Artikel

Estimating the reproducibility of psychological science - Open science Collaboration - 2015 - Artikel

Comment on "Estimating the reproducibility of psychological science" - Gilbert, King, Pettigrew & Wilson - 2016 - Artikel

Publication bias in meta-analysis: its causes and consequences - Thornton, & Lee - 2000 - Artikel

Science and Pseudo-Science - Hanson - 2014 - Artikel

Hoe kan perceptie worden gemeten? - Coren & Ward - Chapter 2 - Artikel

Rationele subjectiviteit in de diagnostiek - Koele - 1990 - Artikel

COTAN beoordelingssysteem voor de kwaliteit tests - NIP - 2009 - Artikel

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check more of topic:

Research methods and Research design

Going abroad?

Insure your way around the world

International expat insurances

Travel & Worldsupporter insurances (NL)

Study with summaries

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Spotlight: topics

Check the related and most recent topics and summaries:

Activities abroad, study fields and working areas:

Research methods and Research design

Check how to use summaries on WorldSupporter.org

Submenu: Summaries & Activities

Follow the author: Social Science Supporter

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics

Search a summary, study help or student organization

Select any filter and click on Search to see results

COTAN beoordelingssysteem voor de kwaliteit tests - NIP - 2009 - Artikel

Waaruit bestaat het beoordelingssysteem?

Wat betekenen de beoordelingen?

Hoe werkt de beoordelingsprocedure?

Welke vormen van vertrouwelijkheid kent de beoordelingsprocedure?

Hoe werkt de beoordeling van vertalingen of bewerkingen van buitenlandse tests?

Hoe zit het met Nederlandstalige Belgische tests?

Welke vragen zijn er bij de papier-en-potloodversie?

Welke vragen worden gesteld bij afname per computer?

Welke extra vragen zijn er voor afname via computer?

Welke vragen worden gesteld bij normgerichte interpretatie?

Welke vragen worden gesteld bij domeingerichte interpretatie?

Welke vragen worden gesteld bij criteriumgerichte interpretatie?

Welke vragen worden gesteld om de betrouwbaarheid te beoordelen?

Samenvatting artikelen bij Psychologie als Wetenschap - 2021/22

Research methods and Research design

Contributions: posts

Add new contribution

Spotlight: topics

Research methods and Research design

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

Quicklinks to fields of study for summaries and study assistance