Samenvatting Testtheorie: inleiding in de theorie van de psychologische test van Drenth et al

Historische testontwikkeling - Chapter 1
Verschillende soorten tests - Chapter 2
Classificatie van tests - Chapter 3
Items - Chapter 4
De afname en de verwerking - Chapter 5
Betrouwbaarheid - Chapter 6
Nieuwe ontwikkelingen - Chapter 7
Validiteit en betekenis - Chapter 8
Het beslissingsproces - Chapter 9
Statistiek in het kort

Historische testontwikkeling - Chapter 1

De ontwikkeling van testdiagnostiek kent grofweg vier perioden, namelijk

de periode tot het verschijnen van de Binet-Simon-test,
de periode tussen het verschijnen van de Binet-Simon-test en de Eerste Wereldoorlog (WOI),
de periode tussen het begin van WOI tot de Tweede Wereldoorlog (WOII), en
de periode tussen het begin van WOII tot heden.

1.1 Testontwikkeling tot de BinetSimon-test

1905 is een belangrijke mijlpaal voor de ontwikkeling van de testdiagnostiek; in dit jaar verscheen de eerste versie van de Binet-Simon-test – de eerste waardevolle intelligentietest. Uiteraard gingen hier een hoop ontwikkelingen aan vooraf, te beginnen met de ontwikkelingen binnen de psychiatrie in Frankrijk en Duitsland. In Frankrijk ontstond eind 18e eeuw een verhoogde interesse in de geestelijke abnormaliteit en zwakzinnigheid. Men begon krankzinnigheid en zwakzinnigheid van elkaar te onderscheiden, waarbij mensen als Esquirol, Séguin, Charcot, Janet en Binet zwakzinnigheid niet beschouwden als ziekte, maar als een gebrek aan intellectuele vaardigheden. Ook in Duitsland veranderde de visie op geestelijke abnormaliteit. In beide landen werd hier steeds meer onderzoek naar gedaan, waardoor er een behoefte ontstond aan methoden om verschillen tussen geesteszieken en verschillende niveaus in zwakzinnigheid te kunnen duiden.

Naast de psychiatrie, ontstond ook binnen de experimentele psychologie – voornamelijk beoefend in Duitsland – een toegenomen interesse in geestelijke abnormaliteit en onderzoek hiernaar. Met de oprichting van zijn experimentele laboratorium in Leipzig, luidde Wundt in 1879 het begin in van systematisch grootschalig experimenteel onderzoek. Aanvankelijk richtte men zich vooral op generaliseerbaarheid en werden afwijkingen en individuele verschillen toegeschreven aan experimenteerfouten en beperkte het onderzoek zich tot primaire sensorische en motorische functies. Later, met de publicatie van een artikel van Cattell in het tijdschrift Mind in 1890, kwam er meer aandacht voor individuele verschillen. In 1893 werd er binnen de American Psychological Association (APA) een commissie ingesteld met als taak tests te registreren en de gebruiksmogelijkheden van deze tests te formuleren.

^eEen derde ontwikkelingslijn die van invloed is geweest op testontwikkeling, is de genetica. Eind 19e eeuw verrichtte Galton diverse antropometrische onderzoekingen die gekenmerkt werden door drie elementen die later een pijler van het wetenschappelijk testonderzoek zouden gaan vormen, namelijk: (1) de wenselijkheid van het onderzoek van individuele verschillen, (2) systematisering van onderzoekstechnieken, en (3) normatief denken en weergeven van onderzoeksresultaten in statistische termen.

1.2 Testontwikkeling van verschijnen Binet-Simon-test tot WOI

In 1905 verscheen de eerste intelligentietest – ontwikkeld door Binet en Simon – die ook echt een praktische functie had. Binet’s benadering was vernieuwend in de zin dat hij het accent legde op complexe mentale processen – zoals begrip, geheugen, probleemoplossend vermogen en verbeeldingskracht – in plaats van eenvoudige mentale processen. Daarnaast had hij een empirisch uitgangspunt. Ten slotte kwam hij met het voorstel een totaalscore te gebruiken als weergave van het intelligentieniveau. Binet introduceerde verder het begrip ‘mentale leeftijd’, waardoor een praktische indicatie kon worden verkregen van het intelligentieniveau. De test werd in verschillende landen vertaald/aangepast. Hoewel het werk van Binet in praktisch opzicht veel betekend heeft, was dit in theoretisch opzicht aanzienlijk minder het geval. Zo ontbrak de theorie over samenstellende elementen in de intelligentie. Spearman heeft hier onderzoek naar gedaan en formuleerde aan de hand van dit onderzoek de twee-factorentheorie waarbij hij stelde dat er in alle tests twee intelligentiefactoren een rol speelden; een algemene (g-)factor en een specifieke (s-)factor.

Hoewel de intelligentiemeting grote vooruitgang boekte in deze periode, werd nog niet op grote schaal getest en ook van valideringsonderzoek was nog geen sprake.

1.3 Testontwikkeling van begin WOI tot WOII

De testontwikkeling kwam door het uitbreken van WOI in een stroomversnelling. De psychologie werd voor het eerst regelmatig in de praktijk toegepast en de testpsychologie kreeg een steeds grotere rol bij de beslissingsproblematiek van selectie en plaatsing met betrekking tot functies en opleidingen. In 1917, toen ook de VS bij de oorlog betrokken raakte, kwam de echte doorbraak. Er ontstond een noodzaak om snel en efficiënt te testen. Dit vormde het begin van de ontwikkeling van de groepsgewijs af te nemen schriftelijke test, waarvan de Army Alpha de eerste was.

Na WOI ontstond er een verschil in testontwikkeling in Amerika en Europa. In Europa – destijds gedomineerd door de Gestaltpsychologie, fenomenologie en personalisme – lag het accent vooral op de individuele diagnostiek. Met name de individuele observatietest werd uiterst populair.

In Amerika – destijds gedomineerd door behaviorisme en positivisme – kregen met name de kwantitatief verwerkbare groepstests veel aanhang. Door een toenemend aantal immigranten uit vele landen van herkomst ontstond er een behoefte aan minder taal- en cultuurafhankelijke tests. In 1917 werd een volledig niet-verbale intelligentietest gepubliceerd. In 1918 volgde de Army Bèta. Ondanks de aandacht voor groepstests, werden in de VS ook veel individuele testbatterijen ontwikkeld, waarvan de Terman Merrill en de Wechsler series wellicht de belangrijkste waren.

Engeland bevond zich meer in een tussenpositie tussen Europa en de VS. Hoewel de ontwikkeling van groepstest geen grote bloei doormaakte zoals de VS die doormaakte, was er, net als in de VS en in tegenstelling tot andere Europese landen, wel veel aandacht voor de objectieve evaluatie van schoolprestaties. ‘Vrije-antwoordenexamens’ maakten plaats voor examens met meerkeuzevragen.

Hoewel er tijdens deze periode vaak geen theorieën ten grondslag lagen aan het gebruik van diverse tests, stimuleerde Thurstone (1931) wel kritische evaluatie van de test zelf. Zo moesten testresultaten volgens hem betrouwbare testscores opleveren en diende de relatie tussen test en criterium alvorens het toepassen van de test te zijn aangetoond. Dankzij deze opvattingen kreeg de statistiek een belangrijke rol in de testpsychologie. Ook begon men het begrip intelligentie in deze periode breder op te vatten; naast de algemene en specifieke factoren, werden door diverse onderzoekers – waaronder Thurstone – de groepsfactoren geïntroduceerd.

Verder ontstond er gedurende deze periode aandacht voor de ontwikkeling van persoonlijkheidstests, waaronder observatietests – met name in West-Europa populair –, persoonlijkheidsvragenlijsten en projectietests.

1.4 Testontwikkeling van begin WOII tot nu

1.4.1 Ontwikkelingen in de VS

De testontwikkeling bloeide tijdens en na WOII. Door de grote en belangrijke keurings- en selectiediensten van de krijsmacht, ging zij op het gebied van selectie, testontwikkeling en psychiatrisch-medische keuringen samenwerken met psychologen. Hierdoor nam niet alleen het aantal selectie- en diagnostische tests toe, maar ontstond er ook een sterke professionalisering van het beleid en werden de psychologische principes van testonderzoek meer constructiever en kritischer.

In 1947 werd de Educational Testing Service (ETS) opgericht, met als doel tegemoet te komen aan de behoeften van het Amerikaanse onderwijs- en opleidingsveld op het gebied van de toelating tot en evaluatie van het onderwijs. Zeer belangrijk hierbij was dat het beleid binnen de ETS niet alleen de focus legde op toegepast onderzoek en testconstructie, maar ook gericht is op fundamenteel psychometrisch onderzoek.

De communicatie over tests, testonderzoek en de psychometrie verliep via vele wetenschappelijke en vaktijdschriften en (hand)boeken, zowel op inleidend niveau, als op gespecialiseerd niveau. Binnen het terrein van de selectiepsychologie stond, vooral in de jaren na WOII, de testtheorie centraal. Aanvankelijk werd, onder andere door Thorndike, selectie vooral gezien als toegepaste testpsychologie. Later werd dit, onder andere door Cronbach, meer beschouwd als een beslissingssituatie. Verder zijn veel belangrijke invloeden uitgegaan van het boek Technical recommendations for psychological tests and diagnostic technieques, gepubliceerd in 1954 door een Testcommissie van de APA. Ook het onderwijskundig meten en de schaaltheorie hadden een belangrijke invloed op de testtheorie en de acceptatie van testtheoretische principes.

Al met al vond er in de VS dus een sterke groei van het aantal tests plaats – waarbij ook de computer een grote rol heeft gehad –, welke gepaard ging met grondige bezinning op de theoretische basis.

1.4.2 Ontwikkelingen in Europa, met name Nederland

De testontwikkeling in Europa verliep minder snel. Pas vanaf de jaren ‘60/70 begon de ontwikkeling van de testtheorie en –constructie tot bloei te komen. De boeken van o.a. Rasch (1960) en Fischer (1974) en diverse wetenschappelijke en vaktijdschriften hebben hierbij een grote rol gespeeld.

In Nederland werd de testontwikkeling in de jaren ‘40/50 zeer gekenmerkt – en zelfs beperkt – door de oriëntatie van de psychologie op de intuïtie van de psycholoog, wat een objectieve en kwantitatieve benadering in de weg stond. Stimulering van testgebruik en de algemene ontwikkeling van de Nederlandse psychologie naar het Amerikaanse model werd eind jaren ’50 vooral in gang gezet door psychologen als Kouwer, De Groot, Van de Geer en Van der Giessen. In 1959 werd door het Nederlands Instituut van Psychologen (NIP) een Test Research Commissie (tegenwoordig Commissie Testaangelegenheden Nederland, COTAN) ingesteld. Deze commissie had als doel de communicatie tussen psychologen te verbeteren en het testonderzoek te bevorderen.

Verder werden tijdens deze periode in Nederland schoolvorderingstests ontwikkeld, welke in Engeland en de VS al zeer veel werden gebruikt. In Nederland deed de testtheorie pas in de jaren ’70 haar intrede bij de beoordeling van school- en opleidingsprestaties. De Groot stelde voor een landelijk centraal instituut voor toetsontwikkeling op te richtten en hierbij het model van de Amerikaanse ETS aan te houden. Dit voorstel werd gerealiseerd in de vorm van de oprichting van het Centraal Instituut voor ToetsOntwikkeling (CITO).

Verschillende soorten tests - Chapter 2

Een verantwoorde en gepubliceerde test bestaat doorgaans uit vier onderdelen:

Het testmateriaal is afhankelijk van de soort test. Het testmateriaal bij een schriftelijke intelligentietest zal bijvoorbeeld bestaan uit een boekje met opgaven die opgelost moeten worden. Als de individuele prestaties van een persoon getest moeten worden, kunnen er legpuzzels, tekenpapier of bouwstenen als testmateriaal gebruikt worden;
Testformulieren om de resultaten van de test op te schrijven om hieruit conclusies of interpretaties te trekken;
Testhandleiding die aangeeft hoe de test gebruikt dient te worden. Een goede testhandleiding moet aan de volgende vier eisen voldoen:
- Een goede testinstructie. Er moet duidelijk zijn over de gang van zaken tijdens de test. Dit wordt bereikt door de testprocedure, uitleg, proefopgaven enzovoort.
- De verwerkingsprocedure. Dit zijn de instructies over hoe de test gescoord en verwerkt dient te worden;
- Normtabellen. Hiermee worden de scores vergeleken met die van de representatieve steekproef.
- De wetenschappelijke kwaliteit van de test. Hierbij gaat het om de betrouwbaarheid van de test, wat de test betekent en wat het voorspelt.
Bij een test gaat het om een systematisch onderzoek met een bepaald doel. Het doel kan zijn het voorspellen, classificeren of beschrijven van een individu in vergelijking met andere mensen.

Een psychologische test is een systematisch onderzoek van gedrag met behulp van speciaal geselecteerde vragen of opgaven, met de bedoeling inzicht te krijgen in een kenmerk van het onderzochte in vergelijking met anderen. Men heeft niet altijd een test nodig om zich een oordeel te vormen over menselijk gedrag. Een psychologische test gebruiken is pas dan gerechtvaardigd als het een juister beeld oplevert dan het voorwetenschappelijk oordeel, of als het een verbetering of een aanvulling hierop kan betekenen en als de kosten of ethische bezwaren niet remmend werken.

Het doen van een psychologische test heeft zes voordelen (kenmerken) boven een 'willekeurig' oordeel (een niet wetenschappelijk oordeel):

Efficiëntie
Standaardisatie
Normering van de testresultaten
Het principe van objectiviteit
De eis van betrouwbaarheid
Validiteit en de betekenis van een test

Ad 1: De intelligentietest is gericht op de reacties die samenhangen met intelligentie. Bovendien wordt geprobeerd om in de testsituatie zoveel mogelijk storende factoren buiten te houden.

Ad 2: Bij een psychologische testafname streeft men ernaar de test op precies dezelfde manier, onder precies dezelfde condities bij iedereen af te nemen. Dit is het standaardiseren van de situatie. Een test kan meer of minder beantwoorden aan de eis van standaardisatie. Als er geen standaardisatie aanwezig is er geen sprake van een test. Standaardisatie maakt een test betrouwbaar en vergelijkbaar. In de praktijk is de inhoud en de situatie steeds verschillend.

Ad 3: Om de resultaten van personen te vergelijken, is het nodig om te weten hoe groot de afstand tussen de resultaten ongeveer is. Door exactheid kan men kleinere verschillen vaststellen. In de praktijk kunnen we een schatting maken van wie intelligenter is dan wie, maar de vraag is hoeveel intelligenter. Bij grote verschillen maakt zo'n schatting niet zoveel uit, maar juist bij kleine verschillen is het nodig een exact instrument te hebben. Een normeringsonderzoek heeft een rangorde van zeer goede tot zeer slechte prestaties. De normen worden vastgesteld op een groep proefpersonen (steekproef). De eenvoudigste vorm van normering is rangorde. Naast een rangorde is een maat nodig die gebaseerd is op gelijke afstanden tussen de verschillende posities. Behalve dat normering nuttig is voor het interpreteren van resultaten, is het een noodzakelijke voorwaarde voor het gebruik van een test. Soms kan men wel een test gebruiken die niet genormeerd is, bijvoorbeeld in experimenteel onderzoek. Maar eigenlijk heeft men bij alle tests normen nodig, dus ook bij observatietests en projectieve technieken.

Ad 4: Met objectiviteit wordt bedoeld dat wie het onderzoek ook doet, het resultaat hetzelfde moet zijn; en dat openheid en reproduceerbaarheid van de test en evaluatie mogelijk zijn. Als men twee personen onafhankelijk van elkaar dezelfde test laat doen onder dezelfde omstandigheden, dan kan men de resultaten met elkaar vergelijken met behulp van bijvoorbeeld correlatie-onderzoek en kan men de procedure op haar objectiviteit toetsen. Dit wordt interbeoordelaar-betrouwbaarheid genoemd. Het is mogelijk bij observatietests en projectietests een verantwoord peil van objectiviteit te bereiken door:

Het waarneembare gedrag te beschrijven en niet te interpreteren. Dit verhoogt de objectiviteit en verlaagt de subjectiviteit. Observatie- en projectietests worden vaak niet als volwaardige tests gebruikt, men gebruikt hen voor het verkrijgen van ideeën en voor het creëren van hypothesen;
Registratie in plaats van evaluatie van het gedrag. Door inbreng van de verwerker worden de resultaten subjectiever;
Een duidelijk voorgeschreven verwerkingsprocedure;
Objectiviteit van een grondhouding van de wetenschapsbeoefenaar. Dus geen invloeden van buitenaf, bijvoorbeeld van de maatschappij, de organisatie, de onderzoeker enz.

Door middel van Cohens Kappa kun je de mate van overeenstemming tussen twee beoordelaars berekenen. Dat doe je als volgt. Bereken de kans dat persoon A en persoon B het bij een aselect gekozen proefpersoon met elkaar eens zijn: Po. Dan bekijk je wat de statistische onafhankelijkheid is. Dit is de overeenstemming die er zou zijn als de beoordelaars hun eigen frequentieverdeling aanhouden. Makkelijker gezegd, dit is de toevalskans: Pt. Dan bereken je Cohens Kappa met de volgende formule: Kappa= (Po – Pt)/ (1 – Pt)

Ad 5: Als we een meting nog eens doen op dezelfde manier, dan moet de uitkomst gelijk zijn aan de uitkomst van de eerste meting. Dit is eerder mogelijk bij een lengtemeting dan bij een intelligentiemeting. Eigenlijk is het niet mogelijk om twee onafhankelijke metingen te verkrijgen in de psychologie. Betrouwbaarheid is wenselijk en zelfs noodzakelijk omdat meetresultaten herhaalbaar moeten kunnen zijn; het moet niets of nauwelijks uitmaken wanneer iemand getest wordt.

Ad 6: Een goede test heeft een vaststaande psychologische betekenis. Dat wil zeggen dat de betekenis aan de praktijk getoetst is. Er is dus geen plaats voor fenomenologische beschrijvingen en alternatieve verklaringen.

In de praktijk gebruikt men de termen testen en meten door elkaar. Door middel van tests kunnen we meten.

De vier meetschalen, van laag naar hoog:

De nominale schaal
Men gebruikt hier getallen om categorieën te onderscheiden en objecten in te delen. Er is geen sprake van een rangorde, het gaat slechts om verschillende getallen. Op de nominale schaal is geen enkele rekenkundige bewerking mogelijk.
De ordinale schaal
Er is sprake van een rangorde, dus meer of minder. Getallen worden gebruikt om categorieën of objecten te ordenen. Er zijn wel sommige rekenkundige bewerkingen toegestaan, bijvoorbeeld statistische bewerkingen met de rangordecorrelatiecoëfficient.
De intervalschaal
Hier is er niet alleen een rangorde van minder of meer, ook de afstanden tussen de verschillende posities zijn belangrijk. De afstanden tussen de verschillende posities zijn trouwens gelijk. Een intervalschaal heeft geen nulpunt vandaar dat men bij een intervalschaal niet mag delen, men mag alleen optellen en aftrekken. Een voorbeeld is de temperatuurschaal.
De ratioschaal
Alle rekenkundige bewerkingen zijn hier toegestaan omdat er sprake is van een gelijke afstand tussen de verschillende posities op de schaal en van een absoluut nulpunt. Voorbeeld zijn lengte en gewicht.

Er zijn slechts weinig metingen in de psychologie die in de ratioschaal vallen, testscores worden meestal op intervalniveau gemeten. Echter bij de interpretatie van testscores zit men eigenlijk tussen de ordinale en de intervalschaal in.

Behalve dat men testen gelijk stelt aan meten, is het ook zo dat men het scoren van tests gelijk stelt aan het meten. In feite gaat het hier om tellen, meten wordt het pas als men conclusies trekt over een bepaalde eigenschap op basis van het aantal tellingen. Dit kan op twee manieren:

Een eigenschap direct meten
Het gaat hier om operationele c.q. empirische begrippen; ook wel het fenotypische systeem genoemd. Met andere woorden dat wat de test meet is dat wat het is, de begrippen zijn gelijk aan hun operationalisering, er is geen sprake van een extra betekenis
Een eigenschap indirect meten
Het gaat hier om het meten van eigenschappen die niet direct waarneembaar zijn, zoals intelligentie, neuroticisme. Ze zijn abstract, theoretisch van aard en operaties zijn altijd één niveau van het begrip verwijderd. dat betekent dus dat de begrippen niet gelijk zijn aan hun operationele begrippen. In de literatuur spreekt men van latente structuuranalyse, genotypische begrippensysteem of hypothetische begrippen. Er is sprake van een extra betekenis die de operationalisering te boven gaat.

Eigenlijk gaat het dus bij het testen altijd om hypothetische begrippen. Het testgedrag op zich heeft geen waarde want praktisch gezien, probeert men ander gedrag te voorspellen en theoretisch gezien levert het de wetenschap niets op om alleen met operationele begrippen aan de slag te gaan.

Een test wordt als volgt gedefinieerd: 'Een test is een systematische classificatie- of meetprocedure, waarbij het mogelijk wordt een uitspraak te doen over één of meer empirisch-theoretisch gefundeerde eigenschappen van de onderzochte of over specifiek niet-testgedrag, door uit te gaan van een objectieve verwerking van reacties van hem/haar, in vergelijking tot die van anderen, op een aantal gestandaardiseerde, zorgvuldig gekozen stimuli'. Een test is dus een systematische meetprocedure om uitspraken te doen over een individu, die reageert op gestandaardiseerde stimuli in vergelijking met de reactie van anderen.

Er zijn drie toepassingsmogelijkheden van de psychologische test:

Beoordeling van individuen
Beoordeling van groepen
Beoordeling van situaties en methoden

De drie toepassingen worden in het komende gedeelte besproken.

Beoordeling van individuen

De beoordeling van individuen kan op zes verschillende manieren:

Criterium
Er is sprake van een criterium waaraan het individu wel of niet kan voldoen. De test correleert met het criterium. Bijvoorbeeld wel of niet een bepaalde opleiding volgen.
Meerdere criteria
De criteria verschillen qua niveau en kwaliteit. Bijvoorbeeld het kiezen van een studierichting. De test moet niet alleen correleren met het criterium, differentiatie moet ook mogelijk zijn.
Onderlinge verhoudingen van testscores bij één persoon
Als men iemands zwakke en sterke punten en zijn interesses wil weten, is de onderlinge verhouding van de verschillende scores in een testserie belangrijk, niet hun hoogte. Met ipsatieve scores wordt bedoeld dat de testscores van één persoon met elkaar vergeleken worden en niet met een externe standaard.
Ontwikkelingen van een persoon
Hetzelfde onderzoek met hetzelfde individu wordt herhaald op een ander tijdstip. Het doel is om erachter te komen of de persoon zich op een bepaald gebied ontwikkeld heeft. Bijvoorbeeld een longitudinaal onderzoek. Het gaat hier ook om interne vergelijking.
Beschrijving van het onderzochte
Bijvoorbeeld in de hypothesevormende fase van een individueel onderzoek. Er zijn verschillende mogelijke vormen van beschrijvingen:
- Een intern rapport, de psycholoog geeft een subjectieve beschrijving van het gedrag van de onderzochte of een beschrijving van de testprestaties.
- Een extern rapport, een verklarende beschrijving aan bijvoorbeeld de ouders van de onderzochte; het kan ook pedagogische adviezen en psychologische uitspraken bevatten.
Counseling
Counseling is een niet-directieve vorm van therapie. Het testonderzoek wordt gebruikt als startpunt (stand van zaken) en van daar uit gaat de hulpverlener samen met de cliënt de problemen van de cliënt analyseren, bewust maken en herformuleren.

Beoordeling van groepen

Bij de beoordeling van groepen worden de verschillen tussen de groepen onderzocht. Het gaat hier voornamelijk om vergelijkend onderzoek. Men is geïnteresseerd in de grootte van het verschil van een bepaalde eigenschap tussen groepen. Dit is vaak een voorstadium voor het individuele onderzoek. Eigenlijk is individueel onderzoek altijd gebaseerd op onderzoek tussen groepen.

Beoordeling van invloed van situaties en methoden

Met methoden bedoelt men bijvoorbeeld behandeling, opleiding en beïnvloeding en met situaties bijvoorbeeld stress, participatief leiderschap. Een manier is om bij groepen dezelfde methoden in verschillende situaties te gebruiken en dan te kijken naar de resultaten. Of men gebruikt in de dezelfde situatie andere methoden. Het gaat dan niet zozeer om groepsverschillen maar om de situaties en de methoden. Averechtse diagnostiek (Hofstee, 1969) is dat als een test een bepaalde correlatie heeft met een criterium, kan men dit gebruiken om voorspellingen te doen over de kansen op criteriumsucces, maar deze correlatie zegt ook heel veel over het criterium zelf.

Classificatie van tests - Chapter 3

De testindeling die in het volgende stuk gemaakt is, beoogt twee doelen te bereiken:

De lezer een systematisch overzicht geven van beschikbare tests en testmethodieken;
Veelgebruikte begrippen op een samenhangende wijze introduceren en behandelen.

De indeling naar testgedrag is de belangrijkste indeling. Ook andere indelingen zijn mogelijk, zo stelt Visser een indeling voor op basis van de meetpretentie. Een groot bezwaar tegen dit voorstel is dat in verschillende gebruikssituaties er geheel verschillende meetpretenties (doelen) aan de orde zijn. En bovendien is dit niet de meest gangbare en internationale indeling.

Er wordt een onderscheid gemaakt tussen tests voor prestatieniveau en tests voor gedragswijze. Bij de eerste gaat het om de maximale prestatie van de onderzochte persoon, het is duidelijk wat goed en wat fout is. Bij de laatste is niet van tevoren bekend wat goed en wat fout is, maximale prestatie wordt niet verkregen door prestatie op de test, belangrijk is hoe iemand iets doet en op welke wijze de prestatie of reactie plaatsvindt.

Tests voor prestatieniveau

Bij de tests voor prestatieniveau zijn vier test te onderscheiden, namelijk:

Enkelvoudige algemene niveautests
Veelvoudige algemene niveautests
Speciale niveautests
Vorderingstests

Deze verschillende tests voor prestatieniveau worden hieronder besproken.

Enkelvoudige algemene niveautests

Enkelvoudige algemene niveautests zijn de grootste en belangrijkste tests. Bij deze tests gaat het om een niveaubepaling van de intelligentie; het gaat dus niet om de verschillende intelligentiegebieden. Er zijn drie enkelvoudige algemene niveautests. De eerste twee zijn individuele tests en de derde is een groepstest:

Individuele intelligentietests voor volwassenen
Het intelligentieniveau wordt vastgesteld nadat intelligentie min of meer als volgroeid mag worden beschouwd (vanaf 15 à 17 jaar) Voorbeeld WAIS, GIT.
Individuele ontwikkelingstests voor kinderen.
Het doel van deze tests is het meten van de intelligentie tijdens de ontwikkeling. De intelligentiescore van het kind wordt vergeleken met de testprestaties van leeftijdsgenoten. Soms wordt het vergeleken met de chronologische leeftijd om te bepalen hoe snel of hoe langzaam de intelligentie-ontwikkeling heeft plaatsgevonden. Voorbeeld WISC-R, Rakit.
Algemene collectieve intelligentietests
Deze tests gebeuren vaak schriftelijk en groepsgewijs. Ze zijn breed en gevarieerd samengesteld. Er zijn collectieve intelligentietests voor volwassenen en voor kinderen en collectieve niet-verbale intelligentietests. Deze laatste hebben meestal niet een maximale brede samenstelling, omdat er geen verbaal materiaal gebruikt wordt. Ze zijn nuttig bij het testen van niet-geletterden en bij populaties met een verschillende culturele en taalkundige achtergrond.

Veelvoudige algemene niveautests

Bij veelvoudige algemene niveautests is differentiatie wel belangrijk. Een verschil met bovenstaande tests is dat deze tests afzonderlijk gezien voldoende betrouwbaar zijn en onderling voldoende afhankelijk zijn. Er zijn twee categorieën veelvoudige algemene niveautests:

Testbatterijen voor intelligentiefactoren.
De verschillende items in een test worden samengevoegd tot enkele factoren. De meest bekende factoren zijn die van Thurnstone: Verbal, Number, Spatial, Word fluency, Memory, Reasoning. De PMA, een testbatterij samengesteld door Thurstone, probeert deze factoren 'zuiver' te meten. Voorbeeld in Nederland is de testserie voor hoger niveau van Drenth e.a. Een alternatief voor de factoren van Thurnstone is het factoranalytische systeem van Guilford. Hij leidde uit de praktijk een aantal factoren af. Hij noemt het de 'structure of intellect theory'.
Testbatterijen voor geschiktheid oftewel 'multiple aptitude' tests
Het gaat om het meten van vermogens waarmee iemand zich voor een maatschappelijke taak of schoolopleidingseisen kan bekwamen. Eigenlijk gaat het om leergeschiktheid. Leerfactoren kunnen soms hetzelfde, maar soms iets heel anders zijn dan intelligentiefactoren. Bijvoorbeeld motorische vaardigheden.

Speciale niveautests

Speciale niveautests richten zich op een bepaald segment van begaafdheid, bijvoorbeeld een intelligentie-aspect, geschiktheid, een vaardigheid. Ze vallen vaak niet onder intelligentie maar ze zijn wel belangrijk. Er zijn drie categorieën:

Tests voor speciale intelligentiefactoren
Dit kunnen bijvoorbeeld tests zijn die zich alleen richten op ruimtelijk inzicht, woordkennis enz. Op basis van de theorie van Guilford komen we tot drie gebieden. De eerste is die van het divergent denken (creativiteit). De onderzochte moet oplossingen bedenken voor een probleem waarvoor er vele oplossingen mogelijk zijn. De antwoorden worden aan de hand van drie criteria beoordeeld, hoeveelheid oplossingen, aantal verschillende principes en originaliteit. Het tweede gebied is die van de behavorial-dimensie (sociale intelligentie). Uit onderzoek blijkt dat het moeilijk te onderscheiden is van andere intelligentiefactoren. Het laatste gebied is kritisch denken. Ook dit is moeilijk te onderscheiden. Eigenlijk is de vraag of iets wel of niet onder intelligentie valt afhankelijk van de definitie die je aanhoudt.
Tests voor speciale geschiktheden oftewel 'special aptitude tests'.
Er zijn twee soorten:
- Tests voor leergeschiktheid die zich richten op leercondities bijvoorbeeld geheugentests, tempotests en concentratietests. Bijvoorbeeld Bourdon-Wiersma.
- Tests voor werkgeschiktheid die zich richten op typische vaardigheden die nodig zijn voor maatschappelijke functies bijvoorbeeld geschiktheid als piloot of chauffeur.
Tests voor speciale niet-intelligentiefactoren.
Deze tests richten zich op vaardigheden of capaciteiten die belangrijk zijn voor een maatschappelijke functie of klinische diagnostiek. Er zijn drie soorten:
- Motoriektests. Dit zijn tests voor reactiesnelheden, lichaamsbeheersing en coördinatie. Het gaat om de beeldvorming van de motoriek.
- Artistieke tests. Men probeert een esthetisch oordeel te geven.
- Sensorische tests. Het gaat om gehoorscherpte, diepte zien, enz. Het gaat om de beeldvorming van sensorische vaardigheden.

Vorderingstests

De cruciale vraag bij een vorderingstest is of iemand het doel van een opleiding heeft bereikt. Let wel: vorderingstests zijn niet hetzelfde als kennistests, want het doel van een opleiding is vaak niet alleen het verkrijgen van kennis. Er zijn twee soorten vorderingstests:

Achievement test
Dit is een kennistest meer specifiek gericht op schoolvorderingen.
Proficiency test
Dit is een vaardigheidstest die meer algemeen gericht is op vaardigheden buiten de cognitieve sfeer en kennis.

In Nederland lijken proefwerk en schriftelijk examen het meest op de kennistest. Er is een vloeiende overgang van kennistests naar vaardigheidstests.

Tests voor gedragswijze

Prestatievermogen bepalen is makkelijker dan het bepalen van gedragswijze. Er zijn drie problemen bij het bepalen van gedragswijze:

Sociaal wenselijk gedrag. Iemand gedraagt zich in de testsituatie beleefd en aangepast, maar is hij/zij dat ook in de praktijk?
Beoordelingsprocedure. Er is geen objectief criterium, dus er is sprake van weinig objectiviteit en betrouwbaarheid bij het vergelijken van testprestaties.
Veranderbaarheid. Persoonlijkheidstrekken zijn minder stabiel en kunnen per situatie verschillen en soms zijn ze ook niet van invloed op gedrag.

Er zijn vier verschillende test voor gedragswijze, die zullen hieronder worden besproken:

Observatietests
Somato-fysiologische tests
Zelfbeoordelingen
Kwalitatieve prestatietests

Observatietests

In vergelijking met andere tests voor gedragswijze is een observatietest een indirecte test omdat het om observaties en interpretaties van de psycholoog gaat. Er zijn twee soorten observatietests:

Individuele observatietests
Eén persoon wordt geobserveerd. Er wordt gelet op werkgedrag, houding, mimiek, uiterlijk gedrag en sociale contact. De observator kan neutraal of geheel betrokken zijn. Meestal weet de onderzochte dat hij/zij geobserveerd wordt. Bij het gebruik van een one-way screen hoeft dat niet het geval te zijn.
Groepsobservatietests
Een groep mensen die gezamenlijk aan een opdracht bezig is, wordt geobserveerd. Een andere vorm is een vorm waarbij deelnemers elkaar beoordelen en de psycholoog de beoordelingen verder verwerkt. Dit noemt men Peer rating of buddy rating.

Somato-fysiologische methoden

Men gaat er vanuit dat er een verband is tussen fysieke/fysiologische aspecten en gedragskenmerken. Door middel van metingen van lichamelijke kenmerken of processen probeert men uitspraken te doen over de psychologische kwaliteiten van de onderzochte. Er zijn twee soorten methoden.

Morfologisch onderzoek
Met behulp van somatische kenmerken (hele lichaam, hoofd, gezicht) probeert men iets te zeggen over persoonlijkheidskenmerken. De validiteit is erg laag.
Fysiologisch onderzoek
Voorbeelden van fysiologisch onderzoek zijn± biochemische indices, elektro-encefalogram (EEG), elektrocardiogram, bloeddruk en bloedvolume, oogbewegingen, oogposities en pupildiameter, elektrodermale verschijnselen. Deze fysiologische maten blijken een verband te hebben met psychologische variabelen die belangrijk zijn voor het persoonlijkheidsonderzoek.

Zelfbeoordelingen

Zelfbeoordelingen worden meestal afgenomen in de vorm van vragenlijsten. Ze zijn niet echt objectief. Een andere vorm is via empirisch onderzoek, er wordt dan gekeken of er een bepaald patroon is in de wijze van beantwoorden. Op basis daarvan kan men een psychologische interpretatie geven aan elke vraag. Deze methode levert meer valide conclusies op. Uit theoretische onderzoeken uit praktijkervaring blijkt de zelfbeoordeling toch een waardevolle methode te zijn.

Er zijn vier soorten zelfbeoordelingen:

Interessetests
Hebben betrekking op interesses en kunnen gebruikt worden bij het bepalen van school- of beroepenkeuze.
Waarden- en attitudetests
Bijvoorbeeld de California-F-Scale geeft aan in hoeverre iemand dogmatisch, conservatief en bevooroordeeld staat tegenover de politiek, cultuur en sociale factoren.
Biografische vragenlijsten
Dit zijn systematische schriftelijke anamneses, oftewel vragenlijsten over biografische gegevens.
Persoonlijkheidsvragenlijsten
Het gaat hier om persoonlijkheidstrekken, zoals neuroticisme, extraversie enzovoort. De proefpersoon krijgt directe vragen die met deze persoonlijkheidstrekken samenhangen. Uitgaande van persoonlijkheidsvragenlijsten zijn er drie soorten constructies:
- Zuiver empirisch samengestelde vragenlijsten op basis van hun relatie met een relevant geacht criterium. Bijvoorbeeld de PMT, meet een trek; de MMPI meet een aantal trekken;
- Via factoranalyse of clusteranalyse. De items worden samengesteld uit een groot aantal persoonlijkheidstests. Bijvoorbeeld 16PF en GZTS;
- Vanuit een theorie over persoonlijkheid of temperament. Bijvoorbeeld ABV.

Er zijn ook zelfbeoordelingsmethoden die anders werken dan vragenlijsten. Enkele voorbeelden zijn:

De Osgoodschalen of de methode van de semantische differentiaal
De proefpersoon moet een aantal objecten, gebeurtenissen of een serie eigenschappen beoordelen op een aantal bipolaire dimensies, zoals mooi/lelijk, sterk/zwak, glad/ruw. Door factoranalyse kwamen de onderzoekers tot drie significante dimensies waarop de antwoorden van de proefpersonen gescoord kunnen worden. Deze zijn: evaluatie (goed/slecht), activiteit (actief/passief) en potentie (sterk/zwak). Deze dimensies bleken niet cultuurgebonden te zijn.
De Role Construct Repertoire van Kelly (de Rep-test)
De proefpersonen beoordelen zichzelf, hun leraar, vader of andere relevante personen op een checklist met adjectiva over persoonlijkheidsontwikkeling. Op deze manier ontstaan constructs over persoonlijkheid.
Q-technique of Q-sort.
Iemand wordt gevraagd een serie uitspraken te sorteren op basis van gelijkenis met bijvoorbeeld zichzelf, ideaal of gemiddelde mens. Niet alleen de absolute scores, maar ook de discrepantiescores worden geïnterpreteerd, want die blijken diagnostische betekenis te hebben. Bijvoorbeeld de discrepantie tussen het ideale zelfbeeld en het waargenomen beeld.

Kwalitatieve prestatietests

Bij kwalitatieve prestatietests wordt het resultaat (prestatie) van de onderzochte anders beoordeeld of geïnterpreteerd; namelijk als een indicatie voor een persoonlijkheidstrek of een klinisch syndroom. De onderzochte weet niet wat de bedoeling is van de test. Er zijn twee soorten kwalitatieve prestatietests; niveautests voor gedragswijze en projectieve technieken. Bij de eerste wordt de prestatie beoordeeld aan de hand van een duidelijke norm voor wat goed of fout is. Men gaat er vanuit dat de score samenhangt met een persoonlijkheidstrek of een klinisch diagnostische categorie. Bovendien gaat in eerste instantie niet om een capaciteit of vaardigheid. Bij projectieve technieken is dit niet het geval. De psycholoog gebruikt coderings- en interpretatiecategorieën gebaseerd op kwalitatieve kenmerken van de reacties op de testopgaven.

Er zijn vijf categorieën niveautests voor gedragswijze (gebaseerd op de aard van de opdracht):

Experimentele tests: Onderzoeksresultaten uit het laboratorium blijken bruikbaar voor persoonlijkheids-diagnostiek.
Motoriektests: bijvoorbeeld coördinatieproeven.
Intelligentietests: de totaalscore wordt gebruikt voor klinische- of persoonlijkheidsdiagnostiek. Bijvoorbeeld de intelligentietests voor de diagnostiek van disfuncties in de hersenen en hersenbeschadigingen, zoals de Bender Gestalt Test.
Karaktertests proberen het karakter, de zedelijke aspecten of de wilskracht te meten. Bijvoorbeeld de volhardingstests.
Cognitieve of perceptuele stijlen: een cognitieve stijl is de manier waarop iemand informatie organiseert en bij een perceptuele stijl gaat het om waarnemingsgegevens, die subjectief worden opgenomen en verwerkt.

Er zijn zes categorieën projectietests of projectieve methoden. De beoordelaar interpreteert de kwalitatieve kenmerken van de reacties op de testopgaven. Het gaat hierbij om ambigue opgaven:

Perceptietests, bijvoorbeeld de Rorschachtest, Holtzman Inkblot Test;
Interpretatietests, bijvoorbeeld de Thematic Apperception Test (TAT);
Expressietests, bijvoorbeeld de boomtest;
Constructietests;
Associatietests, bijvoorbeeld de ZAT;
Keuzetests.

Er zijn twee onderscheidingen in afneming en instructie mogelijk, namelijk individuele test versus groepstest en snelheidstest versus niveautest. Bij een individuele test is er sprake van een individuele testsituatie en individuele instructie. Voordelen aan deze test zijn de mogelijkheid om de onderzochte te stimuleren, controle op de situatie en op de inhoud en de mogelijkheid tot observatie van de onderzochte. Nadelen zijn de geringe efficiëntie en dat de informatie niet op een systematische wijze verkregen wordt. Bij een groepstest geeft de testleider instructies aan een groep. Een voordeel is de efficiëntie, besparing van geld en tijd. Nadelen zijn orde problemen en afkijken, zaken die invloed kunnen hebben op de testprestatie. Zowel individuele test als groepstest kunnen schriftelijk en mondeling worden afgenomen. Hoe groot een groep mag zijn, hangt af van de aard van de test, het doel van het onderzoek en de leeftijd van de onderzochten.

Snelheidstest wordt ook wel speedtest genoemd. Een niveautest noemt men ook wel powertest. Uitgaande van een vaste periode kijkt men bij een snelheidstest hoe snel iemand een bepaalde opdracht af heeft.

Kenmerken van een snelheidstest:

Veel opgaven, dus het is nooit in de toegestane tijd af.
De opgaven zijn ongeveer even moeilijk.
De opgaven zijn vaak bijzonder gemakkelijk.
Bij de beoordeling worden fouten niet meegerekend.

Kenmerken van een niveautest:

Opgaven zijn niet even moeilijk.
Opgaven lopen van makkelijk naar moeilijk.
Iedereen kan de makkelijkste oefeningen maken en vrijwel niemand de moeilijkste.
Geen tijdslimiet (in de praktijk wel).
Beoordeling op basis van correcte oplossingen.

Het blijkt dat snelheidstests samenhangen met kwantiteit en niveautests met kwaliteit.

Meili kwam met twee hypothesen met betrekking tot de verhouding tussen snelheid en niveau:

Snelheid waarmee gemakkelijk opgaven worden opgelost geeft geen maatstaf voor het vermogen moeilijk opgaven op te lossen.
Snelheid waarmee moeilijke opgaven worden beantwoord is wel een aanwijzing voor het vermogen als zodanig om deze problemen op te lossen, maar weer niet voor de snelheid waarmee eenvoudiger taken worden verricht.

De belangrijkste begrippen in verband met de onderscheidingen op basis van testvragen zijn: cultuurvrije en niet-cultuurvrije tests en directe en indirecte tests.

Cultuurvrije en niet-cultuurvrije tests

Het gaat hier meer om een continuüm dan om een tegenstelling. Een zuivere cultuurvrije test bestaat niet en men moet er ook niet naar streven. De mens wordt altijd beïnvloed door zijn omgeving. Ook niet-verbale tests zijn niet helemaal cultuurvrij. Niet verbale-tests blijken vaak laag te correleren met allerlei relevante criteria. Misschien komt dit omdat de taal eruit gehaald is, die misschien een wezenlijke bijdrage levert aan het begrip intelligentie.

Om mee te kunnen doen aan een test heeft men bepaalde vaardigheden, 'skills', nodig, zoals het kunnen horen van instructies. Sommige van deze vaardigheden worden sterk beïnvloed door culturele- en andere omgevingsvariabelen, bijvoorbeeld kunnen lezen.

De invloed van skill-verschillen kan op drie manieren worden gereduceerd:

Het verkleinen van de skill-verschillen zelf, bijvoorbeeld instructie uitbreiden.
Interpretaties en testscores slechts over dat deel van de populatie dat de vereiste skills bezit.
Het ontwikkelen van skill reduced tests, bijvoorbeeld de Design Construction Test van Ord, de SON (voor doven).

Een belangrijke vraag is of het doel van de test bekend is bij de onderzochte. Vrijwel alle projectiemethoden en de meeste zelfbeoordelingen en persoonlijkheidsvragenlijsten vallen onder indirecte tests; de onderzochte weet het doel van de test niet.

Bij directe tests weet en begrijpt de onderzochte het doel van de test. Zoals bij bijna alle prestatietests en vorderingstests, biografische informatielijsten en opinie- en attitudetest.

Vrije-antwoordentest en keuze-antwoordentests worden ook wel open versus gesloten vragen of ongecodeerde versus geprecodeerde vragen, genoemd. Het gaat hier om het verschil in uitvoering van de test.

Er zijn drie categorieën keuze-antwoorden tests:

Het principe van kiezen, two choice of multiple choice
Multiple choice kan op verschillende manieren worden voorgelegd:
- (In)correcte-antwoordvorm: één van de antwoorden is juist of onjuist;
- Meest/minst-juiste-antwoordvorm; uit vier of meer mogelijke antwoorden moet de respondent het meeste juiste antwoord kiezen;
- Verschillende-antwoordenvorm: bijvoorbeeld de motieven kiezen die voor jou het belangrijkste zijn;
- Complexere vormen: bijvoorbeeld indien a goed is, is b fout.
Het principe van rangschikking
De alternatieven moeten in volgorde van juistheid, toepasbaarheid of voorkeur worden geplaatst. Een voordeel is dat het veel informatie oplevert en dat het adequater is omdat er niet geforceerd sprake is van rangorde.
Het principe van toeschrijving (matching)
Het gaat erom de juiste combinatie te maken uit een rij namen, gebeurtenissen of feiten en een rij eigenschappen, jaartallen of oorzaken. Een voordeel is dat men veel informatie krijgt door één opgave.

Een nadeel is dat keuzes niet onafhankelijk van elkaar gemaakt worden en dat de kans op raden groot is.

Vrije antwoordentests kunnen variëren van aanvullingen (completion form) tot opstelvorm (essay-type-test). Rikers (1989) deed een onderzoek naar wanneer vrije- en wanneer keuze-tests te gebruiken. Bij het meten van het cognitieve niveau kan men het beste vrije-antwoordentests gebruiken. En bij het meten van kenmerken van het domein van kennis, inzicht en vaardigheden zijn keuze-antwoordentests geschikt.

Er zijn een aantal bezwaren tegen het gebruik van de vrije-antwoordenvorm:

Correctie en scoring vereisen meer werk en tijd dan keuzevorm.
Geringe betrouwbaarheid door subjectieve oordeelsvorming en evaluatie.
Het antwoord van de onderzochte kan de andere kant opgaan dan de bedoeling van de vragensteller door een andere interpretatie.
Onduidelijkheid bij de onderzochte over hoe uitgebreid zijn antwoord en hoe belangrijk zijn formulering moet zijn en waar de accenten moeten worden gelegd.
Het is bijna onmogelijk om een statische analyse toe te passen op de vragen.

Naast de bezwaren tegen het gebruik van de vrije-antwoordenvorm, zijn er ook bezwaren tegen de keuzevorm:

Het vereist een uitvoerige voorstudie en bewerking.
Door raden kan het dat men goed en hoog scoort.
In tegenstelling tot de vrije-antwoordenvorm meten ze slechts eenvoudige cognitieve vaardigheden.

Uit empirisch onderzoek blijkt dat het soms mogelijk is met keuzevragen hetzelfde te meten als met open vragen, als deze goed geconstrueerd zijn. Het meten van hogere functies via de open vragen methode wordt soms overschat, want het probleem is dat de beoordeling onbetrouwbaarheid is en dat de conclusies vaak subjectief en vrijelijk zijn.

Concluderend kunnen we stellen dat je niet alles met de keuze-antwoordenvorm kan meten, de voorkeur voor de vrije-antwoordenvorm is gebaseerd op een overschatting van deze vorm en onderschatting van de keuzevorm met betrekking tot kwaliteit en mogelijkheden.

Items - Chapter 4

Tests en vragenlijsten zijn opgebouwd uit items. Deze items kunnen we indelen in drie soorten:

Naar de activiteit die van de respondent wordt gevraagd
Naar de vorm van het antwoord van de respondent
Naar de uiterlijke verschijning van het item

De activiteit die van de respondent wordt gevraagd

Bij verscheidene tests en vragenlijsten stimuleren de items de respondent om te reageren. Uit dit gedrag wordt een psychologische eigenschap afgeleid.

We maken onderscheid tussen:

Met theoretische opdrachten met men meestal cognitieve capaciteiten en vaardigheden. Voorbeelden zijn: verkeersvragen uit het theoretisch rijexamen, reken- en taalopdrachten uit de CITO-toets. De antwoorden op dit soort opdrachten zijn (gedeeltelijk) goed of (gedeeltelijk) fout
Stellingen meten vaak persoonlijkheidstrekken, meningen, houdingen of voorkeuren. De respondent geeft aan of hij het met de stelling eens is, of in welke mate. De antwoorden op stellingen zijn niet goed of fout, maar geven aan waar de respondent denkt dat hij staat op de schaal van de eigenschap die gemeten wordt.
Ook vragen meten meningen, houdingen of voorkeuren, maar nu wordt directer naar een stellingname van de respondent gevraagd: 'bent u voorstander van…'
Bij praktijkproeven worden capaciteiten en vaardigheden gemeten. Voorbeelden hiervan zijn het praktisch rijexamen of een managementgame, waarbij in een spelsituatie managementeigenschappen als samenwerking, leiderschap en organisatietalent worden beoordeeld door een psycholoog.

De vorm van het antwoord van de respondent

Hierbij onderscheiden we de open vragen en gesloten vragen.

Open vragen, maar ook open opdrachten op essayopdrachten, hebben als voordeel dat ze de respondent vaak meer creativiteit in het antwoord bieden. Als je bijvoorbeeld creatief schrijven wilt meten, zijn dit soort vragen zeer geschikt. Bij open vragen zal de subjectiviteit van de onderzoeker invloed hebben op de interpretatie van de antwoorden.

Bij de gesloten vraag, ook wel geheten multiple-choicevraag (meerkeuzevraag), of geprecodeerde vraag, daarentegen, wordt alleen een keuze gevraagd, er wordt alleen naar kennis gevraagd.

Maar hoewel bij open vragen meer informatie beschikbaar komt, is het beoordelen en categoriseren hiervan voor de onderzoeker arbeidsintensief. Ook de respondent kost het tijd. Daarnaast begrijpt de respondent niet altijd de vraag goed, maar geeft dan een wel (niet-relevant) antwoord, zodat de middels de vraag te meten eigenschap of het gedrag niet gemeten kan worden. Daarom is het belangrijk de vraag zo helder mogelijk te stellen, en niet of weinig ruimte laten om de vraag anders te interpreteren. Wat ook meespeelt is, dat niet alle respondenten even duidelijk antwoorden, of omdat ze de taal niet of niet goed beheersen, of door een onleesbaar handschrift.

Deze problemen kun je bij gesloten vragen ondervangen door gebruik te maken van een rating scale item, er is dan sprake van bijvoorbeeld 5 mogelijkheden op een schaal van 'niet van toepassing' naar 'wel van toepassing'. Voordeel is antwoorden snel gaat, en het categoriseren ook, je kunt dan meer vragen stellen en dat komt de validiteit en betrouwbaarheid ten goede.

Bij meerkeuzevragen is één antwoord het juiste. Het lastige bij het maken van deze vragen is het bedenken van de foute antwoorden, die moeten liefst enigszins waarschijnlijk zijn, zodat de keuze voor het juiste antwoord moeilijker wordt. Maar juist het inschatten van de moeilijkheidsgraad is voor de vragenmaker lastig.

Een ander nadeel van meerkeuzevragen is de zogenaamde 'gokkans', door te raden kunnen respondenten vragen goed hebben. Er zijn technieken om de gokkans te verkleinen, maar wil je niet dat de respondenten gaan gokken, kun je als vragenmaker beter voor open vragen kiezen.

Vaak is de kritiek dat gesloten vragen alleen (feiten)kennis meten door middel van herkenning, bij open vragen zouden dan meer begrip, inzicht en creativiteit van de respondent worden gevraagd.

De uiterlijke verschijning van het item

Pregecodeerde items kunnen we indelen in items voor prestatieniveautests en tests voor gedragswijze.

Prestatieniveautests

Dit zijn bijvoorbeeld meerkeuzetoetsen bij een studie of intelligentietests. Het item bestaat van zo'n test bestaat uit een stelling, vraag, bewering of uitspraak met twee tot vijf antwoordmogelijkheden. Meerkeuze-items kun je indelen naar:

keuze, bijvoorbeeld juist/onjuist-vragen
rangschikking, de respondent geeft een rangorde aan in bijvoorbeeld zijn voorkeuren
toeschrijving (matching), bij deze vragen moet je 2 rijtjes met begrippen aan elkaar koppelen.

Tests voor gedragswijzen

Bij persoonlijkheids- of attitudetests kruist de respondent vaak op een schaal aan in welke mate hij het met een uitspraak eens is. Het aantal antwoordmogelijkheden kan variëren, maar je moet met een aantal dingen rekening houden:

Zorg ervoor dat de respondent niet tussen twee antwoorden een kruisje kan zetten
Een even aantal keuzemogelijkheden dwingt de respondent om een kant moet kiezen, maar de meeste testconstructeurs kiezen voor een oneven schaal, meestal de Likertschaal met 5 keuzemogelijkheden.
Respondenten kunnen meestal niet meer dan 7 verschillende antwoordmogelijkheden onderscheiden, meer keuzes is daarom niet zinvol.
Het benoemen van de stappen op de schaal kan tot interpretatieverschillen tussen respondenten leiden, je zou dat kunnen tegengaan door alleen de twee uitersten op de schaal te benoemen, bijvoorbeeld 'geheel mee eens' tot 'geheel mee oneens'.

De antwoorden kwantificeren

De kwalitatieve reacties van de respondenten op de items uit een test moeten gekwantificeerd worden, oftewel in getallen worden omgezet, zodat een beeld ontstaat van de eigenschap die gemeten wordt. Met behulp van statistiek kun je dan bepalen of een respondent systematisch gedrag vertoont.

Sommige psychologen vinden dat je door kwantificering informatie weglaat, zodat je iemands persoonlijkheid eigenlijk niet zinvol kunt diagnosticeren. Maar het gaat juist om constant en systematisch gedrag van iemand op te sporen en dat kan door te kwantificeren. Ook diagnoses van andere psychologen kunnen meespelen bij het oordeel over iemands gedrag, maar als die tegenstrijdig zijn, kunnen ze beter buiten beschouwing worden gelaten. Maar in het algemeen is het beter om meerdere informatiebronnen te gebruiken. Overigens, als een test niet goed blijkt te voorspellen, dan moet hij worden vervangen.

Om de kwalitatieve reacties op de items te kunnen kwantificeren, moeten de antwoordmogelijkheden gerangschikt kunnen worden op een schaal die de eigenschap meet. Aan deze antwoordcategorieën worden scores toegekend. Alle items uit een test moeten dezelfde score krijgen, dat wil zeggen elk item krijgt dezelfde weging.

Vooraf de items op kwaliteit beoordelen

Bij het construeren van een test wordt eerst de kwaliteit van de items onderzocht. Tijdens het vooronderzoek wordt met een kleine steekproef (tot 100 personen) vastgesteld welke items uit de voorlopige testversie slecht werken.

Tijdens de tweede fase, het hoofdonderzoek, wordt een grote (tussen 500 en 2000 personen), representatieve steekproef gehouden. Groot omdat je populatie vaak kunt onderverdelen in relevante deelgroepen. Representatief omdat de gehele populatie vertegenwoordigd moet zijn, vaak gebruikt men daarom een gestratificeerde steekproef.

Het doel van het hoofdonderzoek is om de kwaliteit van de hele test te bepalen, daarom kunnen er in de tweede fase ook nog items wegvallen als die slecht blijken te werken. Daarbij kijk je naar betrouwbaarheid, validiteit en normen van de test.

Om bij het vooronderzoek vast te kunnen stellen of een item (bijvoorbeeld een meerkeuzevraag bij een tentamen) goed of slecht werkt, kijk je naar de relatieve frequentie van de antwoorden. De relatieve frequentie van het goede antwoord (dit heet de gesleutelde respons) noemen we de p-waarde, de relatieve frequenties van de andere (foute) antwoordmogelijkheden (afleiders geheten) zijn de a-waarden. Als de a-waarden niet veel van elkaar verschillen, heb je sterke aanwijzingen dat je een goed werkend item hebt.

Als alle antwoordmogelijkheden dezelfde relatieve frequentie opleveren, heeft iedereen waarschijnlijk het antwoord gegokt.

Als het juiste antwoord een erg hoge relatieve frequentie heeft (dicht bij 1), dan was het item (de vraag) te makkelijk.

Als een relatieve frequentie het hoogst is bij een fout antwoord, kan het zijn dat de afleider als zogenaamde 'instinker' heeft gewerkt, maar het kan ook zijn dat deze afleider eigenlijk (ook) het juiste antwoord is.

Hierboven hebben we het over dichotome items, dat betekent dat er twee antwoordcategorieën zijn: goed of fout.

Als er drie of meer antwoordcategorieën zijn, is het item polytoom. Ook hier kijk je naar de relatieve frequentieverdeling van de scores om te zien of een item goed of slecht werkt.

De afname en de verwerking - Chapter 5

Bij het afnemen van tests zijn er een heleboel factoren waar rekening mee gehouden dient te worden, zoals:

de objectieve testsituatie: hierbij is standaardisatie belangrijk. Dit betekent dat de onderzochten in maximaal gelijke omstandigheden worden getest. Dit geld zowel voor groepstests als individuele tests.
het gedrag van de proefpersonen: sommigen zijn meer gemotiveerd en coöperatief, terwijl anderen dat niet zijn. Ook kan een proefpersoon moe zijn waardoor hij of zij de een slechtere prestatie levert dan normaal.
gedrag van de proefleiders: hier kan er verschil zijn in training, ervaring, inzicht, enz. Voor een proefleider is het van belang dat hij of zij de proefpersonen zo objectief mogelijk benadert.

Standaardisatie-eisen in de testsituatie

Standaardisatie van testcondities, dat wil zeggen dat de proefleider zich zo goed mogelijk aan de instructies moet houden: de proefpersonen worden in gelijke omstandigheden getest.
Omgevingsinvloeden moeten zoveel mogelijk voorkomen worden.
Geen storingen tijdens de testafname.
Een goede controle zodat afkijken en spieken niet mogelijk zijn.

Bovenstaande punten spelen vooral een rol in een groepstestsituatie en bij snelheidstests.

Standaardisatie-eisen van de proefpersonen

Behalve standaardisatie van de testsituatie is ook standaardisatie van de situatie van de

onderzochte belangrijk Dit is veel moeilijker te realiseren. Er zijn een aantal factoren die men wel onder controle kan houden, namelijk:

Ervoor zorgen dat de onderzochte fit is.
Nagaan of er geen sprake is (geweest) van een sterke emotionele opwinding.
Door duidelijke extra instructie wordt de opdracht beter begrepen.
Er voor zorgen dat de proefpersonen niet van tevoren weten wat de inhoud van de test is.

Naast deze factoren zijn er ook andere factoren die van invloed kunnen zijn op de testprestatie:

Voorgaande ervaringen of trainingen waardoor de onderzochte vertrouwd is met testen.
Verwachtingen over moeilijkheid, eigen resultaten en consequenties. Deze hangen sterk samen met de sociaal-economische klasse van de onderzochte.
Reacties op slagen en falen, dus een adequate houding van de onderzoeker is vereist
Het motivatieniveau van de onderzochte.
Angst voor de gevolgen van een slechte testprestatie, testangst en examenangst. Hermans (1968) omschrijft twee soorten van angst die sterk met elkaar samenhangen: positieve faalangst (positieve invloed op prestatie) en negatieve faalangst (negatieve invloed op prestatie).

Standaardisatie eisen aan het gedrag van de proefleider/onderzoeker

Een testleider moet voldoende algemene ervaring hebben met testen en hij moet de test ook goed beheersen.
Hij neemt beslissingen met goed psychologisch inzicht.
Hij moet geen vooroordelen hebben, hij moet zichzelf dwingen tot strikte controle en zelfcorrectie.

Scoring van antwoorden

De vrije-antwoordenvorm

Reacties op open vraag kunnen verbaal en niet- verbaal zijn. Een voorbeeld van een niet-verbaal antwoord is dat aan kinderen wordt gevraagd om door een doolhof naar het eindpunt te komen (test uit de RAKIT). Bij deze vorm is er sprake van een grote subjectiviteit en lage interbeoordelaar-betrouwbaarheid. Dit kan men ondervangen door een zo goed mogelijk coderingssysteem dat ten eerste volledig en ten tweede duidelijk en ondubbelzinnig is. Er zijn echter ook vrije-antwoordentests met een grote betrouwbaarheid, zoals de TAT. Het is niet zo dat een grote interbeoordelaar-overeenstemming automatisch betekent dat er sprake is van een betere validiteit.

De keuze-antwoordenvorm

Belangrijk hier zijn de accuraatheid (zo goed mogelijk) en de efficiëntie (zo snel en goedkoop mogelijk) bij scoring. Bij de keuze-antwoordenvorm kent men drie manieren van scoring:

Handscoringsmethode. Nadeel: Het kost veel tijd en er worden veel fouten gemaakt. Correctoren tellen het aantal goede en foute antwoorden en vergelijken dat met de correct ingevulde sleutel.
Zelfscoringsmethode. Is sneller en efficiënter dan de eerste, maar het materiaal is wel duurder. Hierbij wordt het antwoordformulier onder een tweede vel geplaatst, waarop een aantal cirkeltjes staan die precies vallen onder plaatsten waar het goede antwoord op het antwoordformulier moet worden aangestreept. Zo wordt de score direct op het doordrukformulier geregistreerd.
Machinescoring. Dit is de snelste methode van verwerking, waarbij een antwoord op een computer gegeven wordt. De computer berekent automatisch of het antwoord goed of fout is.

Toevalscorrectie is alleen nodig bij de keuze-antwoordenvorm en ter ondervanging van het bezwaar dat de onderzochte slechts door raden goed scoort. De meest gebruikte formule voor toevalscorrectie is: Xc = X - (k-X:A-1) waarbij Xc = gecorrigeerde score, X = aantal goed, k = aantal items, k-X = aantal fout, A = aantal antwoordmogelijkheden.

De correctieformule bij niet-invullen van vragen berust op hetzelfde idee:

Xc = X + (k-X-Xf:A) waarbij ter aanvulling Xf = aantal 'fout', k-X-Xf = aantal niet-ingevulde items.

Bezwaren tegen correctieformules

De formules zien eruit alsof we precies weten wat correct beantwoord is, maar in het echt is er geen scherpe lijn tussen wel en niet weten. Door partiële kennis kan een reëlere giskans gemaakt worden dan door blinde giskans. Eigenlijk gelden de formules voor iemand die niets van de stof af weet.
Iemand kan ook een foutief antwoord geven door verkeerde informatie of verkeerd inzicht. Het is dan onrechtvaardig dat er via de formule door deze fout punten van de goede antwoorden afgetrokken worden.
Ten onrechte wordt een grotere spreiding gesuggereerd door voor toeval gecorrigeerde scores.
De scoring wordt door deze formules complex, waardoor de kans op fouten maken groter wordt (kijk op bladzijde 159 voor een uitgebreide uitleg van dit punt).
De gecorrigeerde score Xc is een linaire functie van X.

Xc = (A:A-1)*X - (k:A-1) => (A:A-1)>0 en rXcX = 1.

Conclusie: in het algemeen wordt geadviseerd correctieformules niet te gebruiken. Bij de keuze-antwoordenvorm is het beter het aantal goede antwoorden te tellen. Een cruciale vraag is of alle vragen even zwaar wegen. Uit onderzoek blijkt dat weging niet nodig is omdat het ten eerste bijzonder extra veel werk vergt en ten tweede blijkt uit correlatie-onderzoek een hoge correlatie tussen gewogen- en niet gewogen totaalscores. het is dus beter om langere testen te maken, die betrouwbaarder zijn.

Testen per computer

Het gegevensbestand is door de computer geautomatiseerd en de terugkoppeling van de resultaten gebeurt snel. Tevens is een test in de computer eenvoudig te veranderen.

Een voorbeeld van een Nederlandse test per computer is de GATB. Twee bijdragen van de computer aan de testpraktijk zijn:

Technologische bijdragen. Afneming, opslag en administratie van items, administratie van testgegevens en psychologische rapportage.
Wetenschappelijke bijdragen. Inhoudelijke psychologische veranderingen en psychometrische veranderingen door het gebruik van de computer.

Voorbeelden van tests via de computer:

Het geautomatiseerde systeem van Nitko en Hsu (1984) voor leerkrachten op scholen. Het systeem bestaat uit drie componenten: en bestand met gegevens van leerlingen en van schoolklassen, een onderdeel van itemanalyse en de mogelijkheid om zelf een itembank te maken en de vorige te veranderen. De drie onderdelen kunnen met elkaar communiceren. One-line testing van Baker, 1984 is een test waarbij de leerling kan zelf bepalen of hij de stof beheerst en de computer vraagt om een toets. Een andere toepassing is het diagnostisch toetsen (McArthur & Choppin, 1984). Deze test ontdekt deficiënties in deelvaardigheden.

Een andere technologische verandering is de vorm van de aangeboden items. Het kan nu via bewegende beelden op de computer en men kan kijken hoe de proefpersoon daar op reageert. Hunt en Pell (1985) menen dat de computer ingezet kan worden bij de meting van intelligentiecomponenten zoals individuele verschillen in ruimtelijk-visueel redeneren, geheugen en aandacht en ook bij individuele verschillen in leerpotentieel.

Een probleem door het gebruik van computers bij het testen van personen kan zijn dat men door testangst en door ervaring met computers verschillen krijgt in testprestatie. Dit is te ondervangen door veel te oefenen met computers. Uit onderzoeken naar de verschillen in testprestatie bij het testen met computers en met de conventionele methoden blijkt dat deze verschillen niet groot zijn. Toch is het raadzaam de normen van conventionele tests niet zomaar toe te passen bij computergestuurde tests.

Er zijn een aantal verschillen. Het is onmogelijk om bij computergestuurde tests items over te slaan zonder een toets in te drukken (passive omitting) hierdoor ontstaat er een andere verdeling van itemscores dan bij conventionele tests. Ook is er een verschil in presentatie en vormgeving.

Adaptief testen is testen op maat. Iedere respondent krijgt een test op zijn/haar niveau. Het idee berust op de item-response-theorie. Om achteraf de scores van verschillende respondenten te vergelijken is een itembank nodig van ten minste 150 à 200 items. Metingen binnen de item-respons-theorie zijn onafhankelijk van het moeilijkheidsniveau van de test. De klassieke standaardtest is een slecht meetinstrument voor personen met extreme attribuutwaarden, ze worden onnauwkeurig getest. Terwijl bij adaptief testen iemand wel items krijgt op zijn/haar niveau. Volgens Weiss (1985) meet een adaptieve test even nauwkeurig als een standaardtest als het ongeveer een half maal de lengte van een standaardtest heeft.

Drie toepassingen van adaptief testen binnen onderwijsevaluatie zijn (Weiss & Kingsburry, 1984) het bepalen of iemand geslaagd is, of iemands prestatie binnen de grenzen van een specifiek interval ligt en of iemand in een specifiek leerstofgebied voortgang heeft geboekt

Bewerkte scores en normen

De gewone basisscore van iemand noemen we de ruwe score. Deze heeft op zichzelf weinig betekenis. Niet bij elke bewerkte score is er sprake van een norm. Soms kunnen bewerkte scores afhankelijk zijn van de prestaties van anderen, zonder dat er sprake is van een testnorm, bijvoorbeeld in een klas. Een norm is een referentiekader voor de evaluatie van de ruwe scores, gebaseerd op de verdeling in de populatie. Het kader wordt geschat op basis van een representatieve steekproef. Uit deze definitie blijkt dat:

Normen afhankelijk zijn van de normeringssteekproef die gebruikt is.
Door normering hebben toevalligheden van de groep geen invloed op de beoordeling van het individu.
De prestatie van het individu kan los van de groep beoordeeld worden door normen.

Het gebruik en de berekening van normen is niet noodzakelijk. Men kan soms ook een eenvoudigere vorm van bewerkte scores gebruiken, zoals rangschikking of het percentage goede antwoorden. Dit is handig bij het kiezen uit een groep sollicitanten. Bovendien kan men soms ruwe scores gebruiken. Met name als het gaat om het verband tussen test- en criteriumscores zijn er geen bewerkte scores nodig.

Twee belangrijke punten bij het gebruik van normen bij het normerings- of testonderzoek zijn dat de kenmerken van de onderzochte groep vermeld moeten worden en er rekening gehouden moet worden met veranderingen in de populatie, met een mogelijk normherziening als gevolg.

Vergelijking met een absolute standaard

De prestatie van een persoon wordt in de eerste instantie niet vergeleken met de prestatie van anderen, maar met een absolute maatstaf, die gebaseerd is op psychologische of onderwijskundige analyse van kennis, inzicht of vaardigheden. Men noemt deze vorm van meten ook wel de 'criterion-reference measurement', het absoluut meten. Daartegenover staat de 'norm-reference measurement', het normatief meten. Het is niet zo goed bruikbaar bij het vergelijken van proefpersonen.

De testscores worden gedeeld door een andere variabele en als zodanig onafhankelijk gemaakt van de betreffende variabele, bijvoorbeeld IQ = (Mentale Leeftijd * Chronologische Leeftijd) : 100. De basale leeftijd is de laatste leeftijd waarop nog geen fouten voorkomen. Hierbij maken we wel een aantal Kritische kanttekeningen:

De mentale leeftijd is een testscore en geen leeftijdsmaat. De chronologische leeftijd is eigenlijk ook geen leeftijdsscore maar de verwachte testprestatie van iemand op die leeftijd. Het gaat dus om de vergelijking met de prestaties van anderen. Men gaat er vanuit dat boven de vijftien jaar er geen verschillen meer zijn tussen de verschillende leeftijden.
Het IQ-begrip is geen constante factor. Want het blijkt dat:
- Sommige vragen afhankelijk zijn van zowel vorming, scholing als intelligentie.
- Bij sommige kinderen de lichamelijke en fysiologische groei die invloed heeft op de psychologische groei niet parallel loopt aan de gemiddelde intelligentiegroei.
- Leermogelijkheden, motivatie en emotionele bereidheid invloed hebben op intelligentie en op verschillen tussen leeftijdsgenoten.
Bezwaren tegen de topleeftijd van 15, 16, 17 jaar. Bij hogere leeftijden blijkt dat intellectuele functies afnemen.
Er is geen sprake van een evenredige toename van spreiding bij hogere leeftijden. Een achterstand van een jaar op zesjarige leeftijd is twee keer zo erg als een jaar achterstand op twaalfjarige leeftijd.

Conclusie: Ondanks deze bezwaren heeft intelligentie wel waarde als ontwikkelingsbegrip, via intelligentie kan men vaststellen of een kind voor of achter is op leeftijdsgenoten.

Vergelijking en normen gebaseerd op een rangorde

De eenvoudigste manier om de testprestaties tussen individuen te analyseren, is door middel van rangordening. Een bepaalde score voor een bepaalde positie wordt gebaseerd op de groep waar men in zit, er is geen sprake van een norm. Nadeel is dat het niets betekent buiten de bewuste groep.

Percentiele scores

Er zijn 99 punten die een scoreverdeling opdelen in 100 groepen van gelijke grootte, elk 1% van de waarneming. Bijvoorbeeld iemand met een ruwe score waarbij het de percentiel score .87 hoort, heeft een percentiel rang van 87, dat wil zeggen dat 87% van de testscores van de normgroep daarbeneden ligt. Een probleem is dat bij een relatief grote groep van onderzochten met dezelfde ruwe score er weinig differentiatie mogelijk is in percentielscores. Dit kan men oplossen via lineaire interpolatie: bijvoorbeeld 21% van de getesten heeft een ruwe score van 66 of lager en 27% heeft een ruwe score van 67 of lager. Dan heeft 6% een ruwe score gelijk aan 67. De percentiele score die bij deze ruwe score hoort is als volgt te berekenen: 21 + 0.5 (27-21) = 24.

Procenten

Door scores aan te duiden in procenten is men niet meer afhankelijk van de absolute groepsgrootte maar wel van niveau, spreiding en toevallige kenmerken van de groep. Percentiele normen daarentegen zijn niet afhankelijk van groepskenmerken.

Voordelen percentiele normen:

eenvoudig en snel te berekenen;
gemakkelijk toe te passen;
te begrijpen voor niet-deskundigen.

Een nadeel van percentiele normen is dat het gaat om een ordinale schaal waardoor er geen deelbewerkingen mogelijk zijn en het zinloos is de frequentieverdelingen van percentiele ruwe scores te vergelijken.

Percentielen: verdelen het aantal scores in groepen.

Decielen: verdelen de scores in tien gelijke klassen.

Vigintielen: verdelen de scores in twintig gelijke klassen

Rangordescores en -normen zijn daar bruikbaar waar men snel een beeld wil hebben van de relatieve positie van de onderzochte in een groep of in de populatie. Ze hebben teveel tekortkomingen voor wetenschappelijk onderzoek.

Vergelijking en normen gebaseerd op gemiddelde en spreiding

Het gaat hier om bewerkte scores uitgedrukt in standaardscores. Er zijn verschillende soorten:

Z-scores, de lineaire standaardscores

Een standaardscore geeft aan hoeveel standaardafwijkingen (= spreidingsmaat) een score boven of onder het gemiddelde ligt volgens de formule z = (X-X : Sx) waarbij z = standaardscore, X = de ruwe score, X = het gemiddelde en Sx = de standaarddeviatie.

Genormaliseerde, niet lineaire standaardscores

De scoreverdeling wordt omgezet in een normaalverdeling. Let wel een normaalverdeling bij concrete dingen (bijvoorbeeld lengte) is heel wat anders dan bij abstracte dingen (bijvoorbeeld intelligentie). De normaalverdeling wordt gebruikt omdat het gemakkelijk en goed bruikbaar is. Bovendien gaat men uit van een intervalschaal, waardoor bepaalde bewerkingen mogelijk zijn.

Soorten genormaliseerde standaardscores (op intervalniveau):

T-scores: men gaat uit van een gemiddelde van vijftig een spreiding van tien;
Stanines: er is niet zoals bij T-score sprake van een exacte overeenkomst met een bepaalde ruwe score maar ze vertegenwoordigen een breedte van 0.5 Sx;
Deviatie-IQ: Er is geen sprake van een quotiënt maar van standaardnormen met een gemiddelde van honderd. Dus de mentale leeftijd wordt niet met de chronologische leeftijd vergeleken, maar de testprestaties worden per leeftijdsklasse verwerkt tot normen, genormaliseerde standaardscores, bijvoorbeeld bij de WAIS.

Betrouwbaarheid - Chapter 6

Opmerking: Voor de uitgebreide formules bestudeer je hoofdstuk 6 uit het boek

Betrouwbaarheid wordt in dit stuk belicht vanuit de betekenis van herhaalbaarheid van metingen. Met herhaalbaarheid bedoelt men dat een test twee of meer keer aan dezelfde persoon wordt voorgelegd onder dezelfde condities. Men kijkt dan naar de variatie in de testscores.

De koppeling herhaalbaarheid en betrouwbaarheid roept twee vragen op:

Is het zinvol metingen van psychologische eigenschappen bij een specifieke persoon te herhalen? Het antwoord is nee, want:
1. Een test levert dezelfde score op omdat de persoon de antwoorden herinnert;
2. De testscore neemt toe omdat de persoon tijdens het beantwoorden bijleert.

Er is dus sprake van geheugen en leerprocessen. We moeten het herhalen van metingen zien als hypothetisch, als een gedachte-experiment.

Wat wordt bedoeld met gelijkblijvende condities tijdens testafname?

Dat wil zeggen dat alle kenmerken van de testomgeving en de testprocedure en relevante psychologische eigenschappen van de persoon, lichamelijke en fysiologische processen. Het gedachte-experiment houdt rekening met het feit dat personen van afname tot afname veranderen met betrekking tot één of meer relevante eigenschappen. Het blijkt dat testscores toch verschillen bij gelijkblijvende condities. Dit komt doordat invloeden op testprestaties onsystematisch en onvoorspelbaar verschillen bij het herhalen van een test. Voorbeelden van factoren die toevallig invloed hebben op testgedrag zijn: blackout, opeens een helder moment, plotselinge hoestbui, slaperigheid enz. Het probleem is dat deze factoren onduidelijk zijn en ook niet duidelijk is in welke mate ze een testprestatie beïnvloeden. Herhaalde metingen worden verderop onafhankelijke replicaties genoemd.

In de klassieke testtheorie gaat men er vanuit dat iemands testscore (X) bestaat uit een ware score (T) en een aantal toevallige componenten. Het bestaat dus uit een constant, systematisch een toevallig, niet systematisch deel.

T is afkomstig van True score (betrouwbare score) en E van Error (meetfout). Een bezwaar tegen het gebruik van de naam true (ware) score is dat het lijkt of de score betrekking heeft op factoren buiten de testsituatie. Hiermee is niet gezegd dat scores niet bruikbaar zijn buiten de testsituatie.

Men gaat er in de klassieke testtheorie vanuit dat de standaardmeetfout voor alle mensen die de test afleggen gelijk is, ongeacht hun ware T-score. Bij het meten van fysische kenmerken (bijvoorbeeld lengte) is de standaardmeetfout niet de moeite waard, bij psychologische eigenschappen (bijvoorbeeld intelligentie) is er wel een aanzienlijke standaardmeetfout. De reden hiervoor is dat onderlinge psychologische processen met behulp van een test niet zo nauwkeurig kunnen worden beschreven als fysische processen met de daarvoor geschikte meetapparatuur.

In de klassieke testtheorie zijn betrouwbaarheid en standaardmeetfout erg belangrijk omdat:

Ze nuttig zijn bij het schatten van de nauwkeurigheid van een meting met behulp van een specifieke test.
Ze een indruk kunnen geven van de mate waarin de testscores bij een onafhankelijke replicatie van de meting zouden verschillen.

Net als opsplitsing van een geobserveerde score in een betrouwbaar en een toevallig deel kunnen we een testscore opsplitsen in een bedoeld en een onbedoeld deel. We zouden dus kunnen zeggen dat de onbedoelde score component gelijk is aan de meetfout en de bedoelde score component aan de betrouwbare score.

Er bestaat geen zuivere intelligentietest. Een test met een hoge betrouwbaarheid meet niet bij voorbaat datgene wat men bedoelt te meten.

Er zijn twee bepalingen van de betrouwbaarheid te noemen:

Herhaalde meting. Deze bestaat uit:
- De parallelvorm-methode, hierbij gebruikt men paralleltests. Deze tests zijn equivalent en inwisselbaar.
- De test-hertest methode, hierbij gaat het om het tweemaal afnemen van dezelfde test.
Eenmalige meting. Deze bestaat uit:
- De splitsingsmethode waarbij men een test splitst in twee helften, elke helft bevat evenveel items.
- De interne consistentie-methode, covariatie tussen alle individuele items.

Parallelvorm-methode

In plaats van tweemaal dezelfde test, kan men twee inwisselbare maar niet identieke tests gebruiken. De correlaties tussen scores van twee paralleltests zijn gelijk aan de betrouwbaarheid van de afzonderlijke testscores. In de praktijk bestaan er geen echte paralleltests, dus de correlaties tussen de scores op beide versies in de populatie zijn kleiner dan als het om echte paralleltests zou gaan.

Test-hertest methode

De test-hertest methode is een poging om het ideaal van onafhankelijke replicaties te realiseren. Dezelfde test wordt met een behoorlijke tussentijd tweemaal aan dezelfde groep personen aangeboden. Als het onafhankelijke replicaties zijn dan is de correlatie tussen beiden verkregen ruwe scores in de populatie gelijk aan de betrouwbaarheid van de test. Dus R (X₁, X₂) = rx₁,rx₂. De test-hertest methode is een goede methode als er in de tijd tussen de twee tests geen veranderingen hebben plaatsgevonden met betrekking tot de eigenschap die door de test wordt gemeten. Het geeft dan een goede betrouwbaarheid.

Drie redenen waarom r(x₁, x₂) soms geen goede maat voor betrouwbaarheid is:

De testmethode zelf. Door het testen ontstaan leereffecten en geheugeneffecten waardoor er verschillen bij de tweede meting ontstaan. Dit is vooral het geval bij opvallende items, bij korte tests en bij een korte tijdsinterval tussen de afnames. Bovendien kan ook een attitude- of instellingsverandering optreden door kritische vragen in de test.
Leereffecten verschillen per persoon, dus niet dezelfde veranderingen bij iedereen.
Men kan zich afvragen hoe groot het tijdsinterval moet zijn. Bij een klein interval is de kans op uitval klein, maar dan wordt de kans op herinnering en beïnvloeding wel groter.

Splitsingsmethode

De splitsingsmethode is een efficiënte variant van de parallelvorm-methode, omdat er twee halve tests gebruikt worden in plaats van twee hele tests. Men doet dit als volgt: men deelt een test in twee even lange helften die men de proefpersonen aanbiedt. Pas achteraf wordt per testhelft een ruwe score bepaald. Als beide scores echt parallel zijn dan is hun correlatie in de populatie gelijk aan de betrouwbaarheid van de scores op een halve test. Op basis van de correctie op de verkregen betrouwbaarheid wordt de betrouwbaarheid van de hele test bepaald. Om dit te kunnen bepalen moeten we weten wat de invloed is van de testlengte op de betrouwbaarheid. Hiervoor wordt de Spearman-Brown formule gebruikt. Deze formule gaat er vanuit dat de testdelen parallel zijn. Als dat niet zo is wordt de betrouwbaarheid lager.

Het splitsen van een test levert nog geen zuivere parallellie op. Mogelijkheden tot het verhogen van parallellie zijn:

De test niet splitsen in een makkelijke en moeilijke helft, doordat moeilijke items iets heel anders kunnen meten dan makkelijke items. Dus het liefst moet er een gelijkmatige verdeling zijn van makkelijke en moeilijke items over beide tests.
Geen splitsing in eerste en tweede helft van de test, omdat verveling, vermoeidheid enz. in de tweede helft kan optreden.

Het is beter met even en oneven rangnummers te werken in de verschillende versies items plaatsen die qua inhoud veel op elkaar lijken.

Problemen bij het samenstellen van twee parallelle testhelften kunnen ook worden verkleind door betrouwbaarheid te meten met behulp van de alfa-coëfficiënt en niet via de splitsingsmethode.

Interne-consistentie-methode

De interne-consistentie-methode is gebaseerd op het gegeven dat individuele items in een test inwisselbaar zijn. Itemscores voldoen in de praktijk niet aan de equivalentie eis. Dit houdt in dat alfa altijd een systematische onderschatting van de betrouwbaarheid oplevert. Daarom wordt alfa vaak gebruikt als maat voor interne consistentie.

In plaats van interne consistentie gebruikt men ook wel de term homogeniteit. Men bedoelt dan dat alfa aangeeft in hoeverre de items in een test dezelfde eigenschappen meten. Twee kritische noten bij deze opvatting met betrekking tot alfa:

Alfa is in veel gevallen een toenemende functie van het aantal items in de test. Volgens Cronbach zou de interne consistentie van een test en het aantal items los van elkaar moeten staan. Maar een hoge waarde van alfa geeft aan dat de systematiek van de meting bepalender is dan toevallige score componenten in de testprestatie.
Alfa kan een hoge waarde hebben terwijl de test in sterke mate heterogeen is.

Alfa kan dus beter niet gebruikt worden als maat voor interne consistentie of homogeniteit van een test. Het is beter alfa te gebruiken als ondergrens voor betrouwbaarheid want het geeft in de praktijk een systematische onderschatting van betrouwbaarheid weer. Voor een indruk van interne consistentie zijn technieken als factoranalyse en item-response modellen geschikt. Een alternatief voor alfa is de lambda-2-coëfficient volgens Guttman. Deze maat geeft de ondergrens voor betrouwbaarheid van een test aan.

Er zijn twee schattingsmethoden voor de bepaling van de juistheid van de schatting van iemands betrouwbare score T. Deze schatting wordt beschouwd als een lineair regressieprobleem. Er wordt gebruik gemaakt van een lineaire vergelijking.

Methode 1: Bij deze methode wordt gebruik gemaakt van de standaardmeetfout. Bij schatting van T wordt de ruwe score gebruikt.
Methode 2: In deze methode wordt gebruik gemaakt van de standaardschattingsfout. Naast de ruwe score worden tevens de gemiddelde score en de betrouwbaarheid in de populatie gebruikt om T te schatten.

De eerste methode is minder zorgvuldig dan de tweede methode. De standaardmeetfout gebruikt in de eerste methode meet gelijk of groter dan de standaardschattingsfout in de tweede methode.

Er is een aantal verbanden tussen de lengte van een test en de betrouwbaarheid van deze test:

Hoe meer items er aan de test worden toegevoegd des te minder winst krijgt de betrouwbaarheid. Vooral bij de eerste items wordt de meeste betrouwbaarheidswinst behaald;
Door praktische redenen is het niet zinvol om een test met een lage betrouwbaarheid te verlengen om zo voldoende betrouwbaarheid te krijgen:
Het kost veel tijd en het kan vermoeiend zijn en demotiverend werken voor de proefpersonen als ze een heel lange test moeten invullen;
Het is moeilijk om veel verschillende items te construeren die dezelfde eigenschap moeten meten;
Testverlenging heeft weinig nut voor de validiteit van een testscore.

Het verlengen van een test is alleen nuttig als er niet te veel items (afhankelijk van het type test) zijn en de aanvangsbetrouwbaarheid niet al te laag is (≥ 0.6). Er dient tevens rekening gehouden te worden met het feit dat de bepaling van het verband tussen lengte en betrouwbaarheid gebaseerd is op de aanname van parallelle metingen. Parallellie is echter een ideaal waaraan in de praktijk niet aan voldaan kan worden.

De correlatie van een testscore met het criterium, datgene wat we willen voorspellen, kan worden beperkt door de betrouwbaarheid van de testscore. De correlatiecoëfficiënt duidt de validiteit van een test aan, zodoende kan de validiteit van de testscore ook beperkt worden door de betrouwbaarheid:

Een test met een lage betrouwbaarheid zal ook geringe validiteit hebben;
Een test met een hoge betrouwbaarheid is een noodzakelijke maar niet voldoende voorwaarde voor een hoge validiteit, want de validiteit is tevens afhankelijk van de samenhang van de testscore en het criterium, datgene wat we willen voorspellen.

Bij verlenging van een test neemt de validiteitswinst slechts weinig toe. omdat de inhoud van de test niet verandert als de test langer wordt. Hierdoor kan het criterium ook niet beter voorspeld worden. De geringe toename van de validiteitswinst is alleen te danken aan de vermindering van meetfouten door testverlenging.

Een vraag bij psychodiagnostiek is welke waarde men kan hechten aan een gevonden verschil in testscores van dezelfde persoon. Het kan zijn dat het verschil veroorzaakt wordt door de onbetrouwbaarheid van de testscore(s). Het is dus belangrijk om te weten wat de betrouwbaarheid van een gevonden verschil is om een goede voorspelling te kunnen doen.

De betrouwbaarheid van het verschil tussen de testscores is gering:

Wanneer de betrouwbaarheid van de testscores laag is. De verschilscores bestaan waarschijnlijk vooral uit meetfouten omdat de lage betrouwbaarheid van de testscores aanduiding is voor een grote meetfout.
Als de covariantie (de samenhang) van de testscores sterk is. Dit betekent dat hun betrouwbare scores veel op elkaar lijken zodat het verschil tussen de testscores vooral uit meetfouten zal bestaan.

Op grond van testscoreverschillen worden in de praktijk vaak allerlei beslissingen genomen zoals bij werving- en selectiecriteria. Maar men moet heel voorzichtig zijn bij het interpreteren van scoreverschillen vooral bij samenhangende testscores. Een goede beslissing kan alleen gemaakt worden wanneer:

De tests zo onafhankelijk mogelijk zijn. Hoe lager de correlatie van de testscores hoe beter;
Beide testscores zo betrouwbaar mogelijk zijn.

Bij de 'DAT' test heeft men bijvoorbeeld wel rekening gehouden met verschilscoreproblematiek. Bij andere tests zoals de WAIS hecht men teveel waarde aan hoog correlerende testscores.

Conclusie: door onbetrouwbare verschilscores zullen besluiten die gebaseerd zijn op de analyse van profielen (verkregen uit de testscores) weinig waarde hebben.

Er is een relatie tussen de spreiding van betrouwbare scores en meetfouten, enerzijds en de betrouwbaarheid anderzijds. Het gemiddelde van de standaardmeetfouten van individuen in diverse populaties, gegeven een vaste test, zal weinig variëren. De variantie van de betrouwbare scores zal daarentegen wel verschillen. En als de variantie van een betrouwbare testscore afneemt bij een vaste meetfoutenvariantie, neemt de betrouwbaarheid eveneens af. Dit betekent dat bijvoorbeeld voor een test ingevuld door een specifieke deelpopulatie van 13- en 14-jarigen men een lagere betrouwbaarheid zal vinden dan in de gezamenlijke populatie dertien en veertien jarigen. Men kan dus alleen een test afnemen bij de populatie waarvoor de test is ontwikkeld.

Vaak worden testbatterijen bestaande uit deeltests ontwikkeld als er ingewikkelde begrippen zoals intelligentie worden onderzocht. Intelligentie bestaat uit verschillende aspecten, elk aspect wordt apart gemeten. Aangenomen wordt dat deze aspecten redelijk onafhankelijke intelligentiekenmerken representeren. Deze onafhankelijkheid komt naar voren in de geringe covariantie of lage correlaties tussen scores op deeltests. Omdat men ook een indicatie wil van iemands algemene niveau, bekijkt men niet alleen het scorepatroon op de verschillende deeltests maar bekijkt men ook de totaalscore op alle deeltests samen. De betrouwbaarheid van een totaalscore gebaseerd op heterogene delen van de test, kan goed bepaald worden door de gestratificeerde alfa-coëfficiënt (alfa-strat).

Onafhankelijke replicaties leiden niet automatisch tot een unieke betrouwbaarheid per test. 'De test-hertest-methode geeft een beeld van de generaliseerbaarheid van de meting in de tijd, de paralleltest-methode geeft aan in hoeverre metingen verkregen met de ene testversie generaliseerbaar zijn naar op hetzelfde moment verkregen meetwaarden van de andere parallelle testversie.

Cronbach e.a. menen dat het doel van testen altijd generalisatie is; generalisatie in de tijd, over vraagvorm, vraaginhoud of over soortgelijke tests. Een universum is het totaal van voorwaarden die men hanteert bij het generaliseren.

Men spreekt dan van een universumscore en niet van een betrouwbare score. De universumscore is de gemiddelde testprestatie berekend over het universum van condities. De universumscore verschilt, afhankelijk van de definitie van het universum maar het is ook afhankelijk van de betrouwbaarheid van de meting. Deze betrouwbaarheid noemt men generaliseerbaarheid. Bij generaliseerbaarheid horen ook de toevallige fouten, E, oftewel de foutenterm. Ook de foutenterm is afhankelijk van de definitie van het universum en daarmee varieert tevens de generaliseerbaarheid.

Bij betrouwbaarheid is het niet automatisch zo dat er sprake is van validiteit, wel is het zo dat een onbetrouwbare testscore (het bestaat dan alleen uit meetfouten) ook invalide is, want meetfouten correleren nergens mee.

Nieuwe ontwikkelingen - Chapter 7

Na de klassieke testtheorie kwam de item-response-theorie, een klasse van aanverwante modellen, waaronder die van Lord, Rasch en Birnbaum. De klassieke testtheorie is nuttig, want men heeft er ervaring mee, bovendien is het makkelijk te begrijpen en levert het praktisch bruikbare resultaten op. Nog veel test gaan via de principes van de klassieke testtheorie. De item-responsmodellen hebben meeteigenschappen die onderdeel zijn van die modellen. Deze modellen kunnen gecontroleerd worden door statistische methoden. Als het model dan een goede beschrijving van de scores geeft, kan deze toegepast worden in de praktijk. Dit heet meten bij implicatie. In de klassieke testtheorie zijn de metingen populatie-afhankelijk. Bij item-responsmodellen is er sprake van populatie-onafhankelijk meten. Dit betekent dat de betrouwbare score, en dus ook de totaalscore, afhankelijk zijn van het moeilijkheidsniveau van de gebruikte test. In de klassieke context maakt iedereen dezelfde test, zodat het moeilijkheidsniveau van de test constant wordt gehouden. Zo kunnen verschillen tussen geteste personen verklaard worden aan hun verschillen in niveau. Wat is populatie-onafhankelijkheid nu? We beschikken over een grote verzameling items, die allemaal dezelfde eigenschap meten. We gaan ervan uit dat nagegaan is dat het item-responsmodel past bij de testgegevens. Voor de vergelijking van de meetwaarden van de personen maakt het niet uit wat het niveau van de tests was (adaptief testen). Naast theoretische voordelen biedt de item-responstheorie praktische toepassingen die met de klassieke testtheorie nog niet mogelijk waren.

De item-responstheorie uit dat van kans dat persoon i met meetwaarde Oi een specifieke respons geeft op item g. Deze kans wordt behalve door de meetwaarde Oi bepaald door kenmerken van het item g. Met een vaste waarde van 0 zijn de kansen op een positief en een negatief antwoord samen 1. Andere uitkomsten zijn er niet. De succeskans is de kans op een positief antwoord. In de item-responstheorie wordt de succeskans opgevat als een functie van de te meten psychologische eigenschap. De succeskans is een monotoon niet-dalende functie van de schaal waarop de eigenschap wordt gemeten.

Over de vorm van de functie zijn een aantal dingen te zeggen. De succeskans is een monotoom niet-dalende functie van de schaal waarop de functie wordt gemeten. Dit betekent dat de functie stijgt of constant is. Ten tweede is de succeskans over grote intervallen van de schaal vrijwel constant laag of hoof. Er is een kritisch gebied waar de helling relatief steil is en waar de succeskans dus snel toeneemt.

Drie kenmerken van de items die de exacte vorm van de item-karakteristieke functie bepalen:

Personen met een lage meetwaarde hebben een succeskans die groter is dan nul. Bij meerkeuze-items kan men altijd blind gissen. De blinde giskans op een positief antwoord is bij een vierkeuze item 0.25. In de praktijk kan de giskans lager zijn, omdat men vaak voor aantrekkelijke maar foutieve antwoorden kiest bij gissen. Vandaar dat Hambleton en Swaminathan (1985) pleiten voor de term pseudokansniveau in plaats van giskans. Bij open vragen is het pseudokansniveau natuurlijk gelijk aan nul;
De curve heeft een specifieke locatie ten opzichte van de schaal. Items rechts zijn moeilijker, succeskans wordt daar kleiner;
Hoe steiler de curve in het kritisch gebied, hoe groter het aantal personen dat een lage of een hoge succeskans hebben. Er is sprake van discriminatie in een kleiner gebied/interval.

Als de itemkenmerken bekend zijn, kan men voor een specifieke meetwaarde O de succeskans op het item bepalen.

Enkele modellen

Deze theorieën hebben als uitgangspunt dat er een monotoon niet-dalend verband bestaat tussen de succeskans op een item en de schaal waarop de psychologische eigenschap wordt gemeten. Ze verschillen in de keuze van de specifieke wiskundige functie voor de item-karakteristieke curve. Sommige modellen zijn strenger, met andere woorden ze leggen veel meer structuur aan op het antwoordgedrag van personen en aan patronen, van itemscores. Andere modellen zijn minder streng en geven een grotere vrijheid aan antwoordgedrag en gegevensstructuur. De strengere modellen zijn van betere kwaliteit maar zijn vaak praktisch niet toepasbaar, bij de minder strenge modellen is precies het omgekeerde het geval. Streng en zwak verwijzen naar de mate waarin modellen restricties opleggen aan antwoordgedrag.

Rasch-model

Het Rasch-model is het strengst van de item-response modellen. De redenen hiervoor zijn:

Bij elk item dat aan de eisen van het model voldoet, nadert de kleinste succeskans tot nul. Gissen naar een positief antwoord is niet mogelijk, de pseudokans is gelijk aan nul. Als gissen wel een positieve score oplevert is het Rasch-model niet geschikt voor analyse van de gegevens;
Het discriminerend vermogen van alle items uit een test die aan het Rasch-model voldoen is gelijk.

De eigenschappen van de schaal waarop men meet zijn afhankelijk van de keuze van het type Rasch-model. Men kan kiezen voor:

Ratioschalen: Meting die plaatsvindt op een antilogaritmische schaal met ratio-eigenschappen;
Verschilschalen: Meting op een logaritmische schaal die verschiltransformaties toelaat;
Meting op intervalniveau

Een belangrijk kenmerk van de meting volgens het Rasch-model is de populatie-onafhankelijkheid van de meetwaarden. Dit betekent:

Personen zijn te vergelijken, onafhankelijk van de moeilijkheidsgraad van de items die gebruikt zijn;
Items zijn te vergelijken zonder afhankelijk te zijn van de personen die aan de meting hebben deelgenomen.

Kanttekening: populatie-onafhankelijkheid geldt alleen maar voor deelpopulaties die gevormd kunnen worden uit een totale populatie. Appels kunnen ook hier niet met peren worden vergeleken maar goudrenetten wel met golden delicious in de totale populaties van appels.

Birnbaummodellen

De Birnbaummodellen meten minder streng dan het Rasch-model. Er zijn er twee:

Het model met twee itemparameters (meet het strengst van de twee modellen)

Kenmerken:

Als de testitems aan de eisen van dit model voldoen dan hebben ze over het algemeen verschillend discriminerend vermogen;
Net als het Rasch-model nadert de succeskans tot nul als het item voldoet aan de eisen van het model;
Analyse volgens dit model is niet mogelijk bij gegevens die verkregen zijn met items waarbij personen het antwoord kunnen raden (giskans > 0);
Meting vindt plaats (evenals bij het Rasch-model) op een metrische schaal, waarop intervallen serieus worden genomen. Meting op een metrische schaal door de empirische onderzoekbaarheid worden verantwoord;
Meting volgens Birnbaum is evenals bij het Rasch model populatie-onafhankelijk. Het geeft wel meer problemen dan bij het Rasch-model omdat meting van de personen wel onafhankelijk is van het item maar niet van het discriminerend vermogen.
De keuze van een bepaalde deelpopulatie heeft gevolgen voor de ordening van de succeskansen. Deze ordening is bij het Rasch-model populatie-onafhankelijk. In dit Birnbaum-model verschilt deze ordening per deelpopulatie.

Keuze van een minder streng model levert verlies aan meeteigenschappen op. Bij dit Birnbaum model kunnen personen alleen populatie-onafhankelijk worden gemeten niet de items.

Birnbaum-model met drie itemparameters

Restricties opgelegd aan het testgedrag is weer verminderd vergeleken met Rasch en het eerste Birnbaum-model. Kenmerken:

Wel meting op intervalschaal;
Meetwaarden van personen zijn populatie-onafhankelijk te bepalen indien bekend is wat de populatie-afhankelijke itemkenmerken zijn;
Itemkenmerken zijn gebonden aan een vaste populatie van personen.

Modellen volgens Mokken

De modellen volgens Mokken zijn item-response-modellen die verschillen van de Rasch- en Birnbaummodellen. Er zijn twee Mokken-modellen:

Het model van monotone homogeniteit (het minst restrictieve van de twee Mokken-modellen). Dit is een verzameling van items waarvan ieder item een beroep doet op dezelfde eigenschap (homogeniteit).

Tevens kan het antwoordgedrag op ieder item door middel van een monotone functie worden beschreven.

Kenmerken:

Geen restrictie op het antwoordgedrag van de proefpersonen op de items door middel van een specifieke response-formule (wel bij de Rasch en Birnbaum-modellen) omdat er over veel psychologische begrippen weinig kennis bestaat;
Restricties; de item-karakteristieke functies zijn monotoon niet-dalend;
Het antwoordgedrag van een persoon op een item is een resultante van persoon en item. Er is geen exacte specificatie van de wijze waarop dit antwoordgedrag wordt bepaald;
Restrictie op het antwoordgedrag: toenemende of constante succeskans gaat gepaard met een toenemende meetwaarde;
De items kunnen variëren qua moeilijkheid, qua discriminerend vermogen en qua pseudokansniveau;
Rasch en Birnbaum-modellen zijn speciale gevallen van dit model;
De item-karakteristieke curve worden niet door een specifieke functie vastgelegd wat wel het geval is bij Rasch en Birnbaum-modellen;
Meting van personen geschiedt op een ordinale schaal;
De ordening van personen is populatie-onafhankelijk. Het maakt niet uit of de test wordt samengesteld uit een itemdomein dat verenigbaar is met de eisen van het model van monotone homogeniteit, de ordening blijft dezelfde;
De ordening van items naar moeilijkheid is wel populatie-afhankelijk.

Het model van dubbele monotonie

Kenmerken:

Populatie-onafhankelijke ordening van zowel personen als items;
Item-karakteristieke functies zijn monotoon niet-dalend, de functies snijden elkaar niet;
Personen en items kunnen niet op dezelfde schaal geordend worden.

Onderlinge relaties van de item-response modellen

Wanneer testtheorie toegepast wordt op de gegevens van de test dan heeft dit tot gevolg dat personen en eventueel ook items op een schaal worden afgebeeld.

Schaaleigenschappen volgen uit het specifieke item-response model

Rasch en Mokken-modellen: de theoretisch afleidbare schaaleigenschappen gelden in de praktijk ook. Dit komt omdat het empirisch te onderzoeken is of een model een goede verklaring geeft van antwoordgedrag;

Type meting

Mokken-modellen: meting op ordinaal niveau.
Birnbaum en Rasch-modellen: meting op een metrische schaal (interval-, verschil en rationiveau).

Ordening

Birnbaum en Rasch-modellen: items en personen worden op dezelfde schaal afgebeeld.
Mokken-modellen: vanwege de ordinale meting aparte ordening personen en items.

Populatie onafhankelijkheid

Rasch: zowel de meting van personen als items;
Birnbaum: meting van personen;
Mokkens model van monotone homogeniteit: ordening van personen;
Mokkens model van dubbele monotonie: ordening van personen en items.

Item-karakteristieke functies

Deze functies verschillen per model.

Meting met behulp van een metrische schaal (ratio-, interval- en verschilschaal) moet niet direct in psychologische termen worden vertaald. In het praktische gebruik van een testscore moet men aan deze schaaleigenschappen geen absolute betekenis toekennen. Er zijn een aantal bewerkingen van meetwaarden om een schaal van handige interpretaties te voorzien (Eggen, Kelderman, 1987). Gemiddelde en spreiding karakteristiek voor de normgroep wordt op schaal gezet. Door een bepaalde verdeling van de scores in de normgroep kan een specifieke score hierbinnen meteen geïnterpreteerd worden. Meetwaarden worden gerelateerd aan één of meer populatie-onafhankelijke referentiepunten die mogelijkheid bieden voor zinnige inhoudelijke interpretatie. Een andere bewerking is de omzetting in percentielscores en de omzetting van meetwaarden in succeskansen en daarvan afgeleide schaaltypen. Odds is de verhouding van de kans op een positief antwoord en de kans op een negatief antwoord op hetzelfde item voor een vaste meetwaarde. De laatste bewerking is het omzetten van de item-response-theorie schaal in de klassieke testtheorie schaal (schaal van de betrouwbare score).

Het is belangrijk dat zowel bij de klassieke testtheorie als bij de item-response theorie dat de onderscheiding van de scores van de personen van elkaar of van een normscore betrouwbaar is.

In de klassieke testtheorie wordt de precisie van de meting uitgedrukt in de standaardmeetfout. Uitgangspunt hierbij is dat voor een test op ieder scoreniveau deze constante standaardmeetfout gebruikt kan worden. Dit is alleen in de praktijk niet altijd zo: een test meet de psychologische eigenschap niet op de hele schaal overal even precies. Dat wil zeggen dat een test geschikter kan zijn voor de ene persoon dan voor de ander, dat de test preciezer meet voor de één dan voor de ander.

Er kan hiervan een informatiefunctie worden gemaakt. Hoe groter de informatiefunctie, hoe nauwkeuriger de meting.

Informatiefunctie

Bij Rasch en Birnbaummodellen mag een informatiefunctie wel, omdat ze aannemen dat de schattingen van persoons- en itemparameters beschikbaar zijn voor de schatting van de informatiefunctie. Ieder item uit de test levert een onafhankelijke bijdrage tot de precisie van de meting van een persoon. Men werkt hier volgens de principes van het adaptief testen. Men meet zo nauwkeurig mogelijk door aan proefpersonen die items voor te leggen die qua moeilijkheid zoveel mogelijk gelijk zijn aan zijn of haar niveau. Bij Mokken-modellen mag een informatiefunctie niet omdat zij niet uit gaan van schattingen van persoons- en itemparameters.

Praktisch gebruik van de item-responstheorie

Bezwaren tegen het gebruik van standaardtests:

Probleem van inhoudsvaliditeit. De standaardtest geeft in geringe mate een inhoudelijke kennis of vaardigheidsdomein weer
Standaardtests veronderstellen standaardpopulaties. In de praktijk zijn er veel veranderingen in de populatie.
Individualisering van het leerproces. Iedereen leert anders en in een ander tempo.
Problemen bij het meten van ontwikkelingen en veranderingen, bijvoorbeeld geheugeneffecten.
Vloer- en plafondeffecten. Een test is te gemakkelijk geworden.

De problemen van standaardtests kan men verkleinen door een groot domein van items te maken die men gebruikt om nieuwe tests te maken. Men noemt dit domein en itembank. Een itembank is 'een relatief grote verzameling van gemakkelijk toegankelijke testvragen'. Relatief groot verwijs naar het feit dat er veel meer items zijn dan in een standaardtest. Met gemakkelijk toegankelijk bedoelt men dat de items gemakkelijk te selecteren en op te nemen zijn in een test.

Van der Linden (1983) noemt het samengaan van de itembank en item-response-theorie het moderne complex van theorie en toepassing van tests. Hiertegenover staat het klassieke complex van standaardtests en klassieke testtheorie. Het samengaan van de itembank en de item-response-theorie is mogelijk door de populatie-onafhankelijkheid van metingen. populatie-onafhankelijkheid heeft tot gevolg:

Dat items uit een bank op dezelfde schaal kunnen worden afgebeeld, als ze voldoen aan het desbetreffende item-response model en bovendien kan men meetwaarden aan hen toekennen. Dit noemt men calibreren. Gecalibreerde items van verschillende tests die hetzelfde psychologische begrip meten kan men vervolgens afbeelden op een gemeenschappelijke schaal, men noemt dit equivaleren van itemkenmerken.
Dat ongeacht de keuze van de items dezelfde meetwaarde wordt geschat. De meetwaarde is populatie-onafhankelijk, maar de nauwkeurigheid of betrouwbaarheid van de schatting niet.
Dat testscores van verschillende tests met elkaar vergeleken kunnen worden. Dit noemt men ook equivalering van testscores.

Twee methoden om items in een bank op te slaan, zijn:

Items opslaan naar onderwerp of plaats in het curriculum. Nadelen: er moeten steeds weer nieuwe categorieën gemaakt worden als nieuwe items niet passen in de bestaande categorieën. Items zijn slechts per categorie oproepbaar en men kan de itemkenmerken niet onbeperkt combineren.
Items rangschikken op basis van één of meer sleutelwoorden. Deze manier van opslaan is veel flexibeler dan de eerste en men kan er meer mee.

Behalve inhoudelijke informatie kan men in een itembank ook technische informatie opnemen, zoals informatie over moeilijkheid, discriminerend vermogen en pseudokansniveau.

Metingen gebaseerd op tests uit de itembank hoeven niet beter te zijn dan die gebaseerd zijn op een standaardtest. Voor een specifieke toepassing is het vooral lastig om de geschikte items uit de itembank te selecteren. Er kunnen aan zowel aan de te selecteren items als de uiteindelijke test een aantal eisen worden gesteld als we willen dat de test zo nauwkeurig mogelijk meet:

De samenstelling van de test qua onderwerp;
Bovengrens voor het aantal te selecteren items (in verband met de testtijd).

Het is moeilijk om uit de itembank die deelverzameling items te halen die aan alle eisen voldoen, zeker als het een grote itembank betreft.

Om een preciezer beeld van het itemselectieprobleem te krijgen, kan men een testinformatiefunctie (ook wel doelinformatiecurve genoemd) construeren. Er wordt hierbij een grensscore bepaald: deze score bepaalt de grens tussen bijvoorbeeld wel of niet slagen voor toets. De test moet nauwkeurig rond de grensscore scoren met andere woorden de functiewaarden moeten in en rond de grensscore groot zijn. Degene die de test construeert moet beslissen wat de minimumwaarde van de informatiefunctie in en rond de grensscore moet zijn.

De som van de iteminformatiefuncties is gelijk aan de testinformatiefunctie. Men probeert nu bij de itemselectie, de items zó te selecteren dat het oppervlak onder de doelinformatiefunctie met zo min mogelijk iteminformatiefuncties helemaal afgedekt wordt.

Wanneer tests na elkaar geconstrueerd worden treedt het probleem op dat een item geselecteerd kan zijn voor de eerste test hoewel dit item beter in de tweede test had gepast. Dit item kan echter niet voor beide tests gebruikt worden.

Als er onnauwkeurigheden geconstateerd worden op een schaal dan kan op basis van een doelinformatiecurve een bestaande test veranderd worden door items uit de itembank te selecteren en aan de test toe te voegen.

Adaptief testen is pas mogelijk als men beschikt over een itembank. Op basis van itemparameters en persoonsparameters van een specifiek persoon kan men items voor deze persoon selecteren. Voorafgaand hieraan moet men onderzocht hebben of het antwoordgedrag van de proefpersoon op de items waaruit de adaptieve test wordt samengesteld, voldoet aan de eisen van de item-response-model.

Het kiezen van items verschilt per model. Bij het Rasch-model en het Birnbaum-model met twee itemkenmerken, zal men het item kiezen dat in moeilijkheid zo dicht mogelijk bij de geschatte persoonsparameter ligt. Bij het Birnbaum-model met drie itemkenmerken is het meest geschikte volgende item afhankelijk van een combinatie van de drie itemkenmerken tezamen. In plaats van steeds één voor één items te kiezen en berekeningen daarop te doen, kan men ook steeds twee of meer items aanbieden en dan pas berekeningen uitvoeren. Dit kan via two-stage testing, multi-stage testing etc. Deze vormen zijn minder nauwkeurig dan de item-voor-item aanpak maar ze kunnen met weinig hulpmiddelen worden uitgevoerd.

Voordelen van adaptief testen:

Een nauwkeurige meting per proefpersoon
De proefpersonen krijgen tests op hun niveau
De testprocedure is geautomatiseerd en objectief
Een korte testtijd en er is een snelle terugkoppeling van testresultaten mogelijk
Testprestaties verkregen door middel van verschillende tests kunnen met elkaar vergeleken worden.

Een groot nadeel bij het adaptief testen is dat het niet eenvoudig is grote itembanken te construeren waarvan alle items testgedrag oproepen dat met behulp van één der item-response-modellen kan worden beschreven. Als itemresponses niet passen binnen het item-response-model dan is dit geen ramp, omdat er altijd wel enig verschil bestaat tussen een model en empirische gegevens. Het is wel belangrijk te weten hoe groot het verschil is, zodat men geen erge missers maakt bij het trekken van conclusies en het nemen van beslissingen.

Als men mensen uit verschillende populaties met elkaar moet vergelijken, is het belangrijk zich af te vragen of personen uit de ene populatie systematisch bevoordeeld of benadeeld worden omdat de test in de verschillende populaties op verschillende wijzen functioneert. Het onderzoek hiernaar noemt men het onderzoek naar vraagonzuiverheid of vraagpartijdigheid. Bij vraagonzuiverheid ontstaan er verschillen in testscores tussen populaties. Deze verschillen moeten worden toegeschreven aan variatie in eigenschappen die men niet bedoelt te meten.

In de item-response theorie wordt vraagonzuiverheid als volgt gedefinieerd: 'We beschouwen twee populaties van respondenten. Meestal vertegenwoordigt een van deze populaties een meerderheidsgroep en de ander een minderheidsgroep.

Er is sprake van een goed functionerend of zuiver item als de item-karakteristieke functie van een specifiek item in beide groepen identiek is. Het item is in dit geval zuiver. Verschillen de item-karakteristieke functies van een item in beide populaties, dan is dit een aanwijzing voor vraagonzuiverheid.

Men gaat er eigenlijk vanuit dat twee personen met dezelfde O-waarde, afkomstig uit verschillende populaties, dezelfde succeskans op een specifiek item moeten hebben. Is dit niet het geval dan bepalen andere factoren de testprestatie.

Als de item-karakteristieke functie in twee groepen gelijk is, dan heeft het in beide groepen dezelfde moeilijkheid, hetzelfde discriminerende vermogen en hetzelfde pseudokansniveau. Deze drie itemparameters leiden tot verschillende vraagonzuiverheid. Als alleen de moeilijkheid verschilt, betekent dit dat de succeskansen voor personen uit de ene groep altijd groter zijn dan de succeskansen voor personen uit de andere groep. Als alleen het discriminerend vermogen verschilt dan worden in beide groepen sommige personen benadeeld.

Drie onderzoeksstrategieën voor de verklaring van vraagonzuiverheid:

Inspectie van partijdige items naar opvallende kenmerken, een adhoc strategie;
Het leggen van een verband tussen eigenschappen van personen en kritische kenmerken van partijdige items en vergelijking met onpartijdige items;
Experimenteel onderzoek naar vraagonzuiverheid.

Afwijkende scorepatronen

Voorbeelden van situaties waarin afwijkende scores te verwachten zijn:

Bij studietoetsen. Door gissen kan iemand hoog scoren en door een slechte voorbereiding kan iemand een gemakkelijker item missen. Hierdoor krijgt men een scorepatroon waarin goede en foute antwoorden gelijkmatig over gemakkelijke en moeilijke items verdeeld zijn. Ook door bedrog en fraude (afkijken en spieken) kan men een afwijkend patroon krijgen.
Het onderzoek van Van der Flier in de populatie van Tanzaniaanse en Keniaanse leerlingen met twee verbale redeneertests. Na correctie van de afwijkingen bleken de Keniaanse kinderen betere testscores te hebben.
Onderzoek naar deelvaardigheden noodzakelijk bij het oplossen van een probleem, maar die door de leerling onvoldoende worden beheerst. Door afwijkendheidsindices kunnen we de oorzaak van fouten opsporen.
Een proefpersoon die over goede vaardigheden beschikt maar weinig ervaring heeft met het invullen van antwoorden op een formulier voor automatische scoring, voorbeeld van Hulin.

De verschillende methoden die zijn voorgesteld om afwijkende scorepatronen te onderzoeken gaan uit van het principe dat als men iemands meetwaarde en de itemkenmerken van alle items in de test kent, men de kans op een specifieke score op een gegeven item kan berekenen. Vervolgens kan men de kans op een gevonden patroon van itemscores berekenen en kan men bepalen of de gevonden patronen te verwachten zijn.

Onderzoek naar vraagonzuiverheid en onderzoek naar afwijkende scorepatronen gaan hand in hand. Als het item onzuiver is, is de persoon afwijkend. Het is raadzaam onzuivere items te verwijderen en te vervangen door zuivere items. Afwijkende personen moeten dan herwaardeerd worden met betrekking tot hun prestatie.

Sommige auteurs zien klassieke testtheorie en item-response theorie als elkaars tegenovergestelde. Andere auteurs menen dat ze elkaar aanvullen.

Validiteit en betekenis - Chapter 8

Validiteit gaat om de mate waarin de test aan zijn doel beantwoordt. Afhankelijk dus van het doel moet men elke keer weer kijken of een test valide is.

Twee verschillende doelen van testonderzoek:

Het doel is het voorspellen van gedrag of een prestatie buiten de testsituatie. Het gaat om het doen van uitspraken op basis van andere met die feiten samenhangende gegevens, over de toekomst (predictie), het heden (paradictie) en het verleden (postdictie). In de theorie spreekt men van predictieve validiteit.
Het doel is het meten van begrippen zelf. Men noemt dit begripsvaliditeit. Alle gebruik van psychologische tests valt onder deze twee doelstellingen, dit houdt in dat alle variëteiten in het validiteitsbegrip binnen een van beide soorten validiteit vallen.

Onder de eerste doelstelling vallen bijvoorbeeld de toelating, de selectie, de beroepsadvisering, de classificatie en de differentiële predictie. De centrale (validiteits)vraag is hier in hoeverre een test daadwerkelijk een juiste voorspelling mogelijk maakt. Onder de tweede doelstelling vallen bijvoorbeeld de theoretische analyse van begrippen, het experiment ter toetsing van theorieën. De centrale vraag is hier in hoeverre de test het bedoelde psychologische begrip dekt.

Naast de genoemde predictieve validiteit en begripsvaliditeit, zijn er vier soorten validiteit die vanaf de eerste publicatie een belangrijke rol spelen:

Predictieve validity
Concurrent validity
Content validity of inhoudsvaliditeit
Construct validiteit

Predective validity

Er wordt nagegaan in hoeverre voorspellingen gebaseerd op testprestatie overeenkomen met gegevens en observaties die op een later tijdstip zijn verzameld. Het verschil met deze validiteit en eerder genoemde predictieve validiteit is dat bij deze validiteit de voorspelling gekoppeld is aan de resultaten in de toekomst terwijl bij de predictieve validiteit de voorspelling ook als het criterium van het heden en het verleden kan worden gebruikt.

Concurrent validity

Men vergelijkt testresultaten met een gelijktijdig beschikbaar criterium. Deze vorm van validatie komt veel voor.

Content validity of inhoudsvaliditeit

Er wordt gekeken hoezeer de inhoud van de test een universum van situaties, kennisinhouden of vaardigheden weergeeft, waarover met betrekking tot de onderzochte conclusies moeten worden getrokken. Bij inhoudsvaliditeit gaat het vooral om oordelen, niet om achterliggende correlaties. Men probeert de subjectiviteit van de oordelen te verkleinen door met verschillende beoordelaars te werken. Inhoudsvaliditeit komt dicht in de buurt van 'face-validity'. Een formele definitie van inhoudsvaliditeit zou kunnen zijn 'de sterkte van de samenhang tussen de testscore en de totaalscore op het gehele itemdomein'.

Construct validity

Men onderzoekt welke psychologische kwaliteiten door een test gemeten worden. Dit construct wordt vervolgens weergegeven in de testprestatie. Construct validity bestaat uit drie onderdelen:

De begrippen uitzoeken die kunnen worden gezien als een verklaring voor testprestatie: een logische bestudering van de test.
Vanuit de theorie waarop het construct is gebaseerd, toetsbare hypothesen afleiden: een logische operatie.
Via empirisch onderzoek deze hypothesen toetsen, een onderzoekmatig proces.

Constructvaliditeit lijkt heel veel op begripsvaliditeit, hoewel de laatste beter de eenheid in het validiteitsbegrip kan bewaren. Constructvaliditeit houdt zich bezig met de exploratieve vraag wat een test eigenlijk meet. Begripsvaliditeit houdt zich bezig met de vraag of een test daadwerkelijk kan worden opgevat als een operationalisering van een specifieke, door de onderzoeker beoogde eigenschap.

Enkele (andere) vormen van validiteit

In de loop van de jaren zijn er nieuwe vormen van validiteit bij gekomen. Er worden er vier besproken. De eerste twee zijn specifieke varianten van begripsvaliditeit en de laatste twee zijn eraan verwant:

Synthetische validiteit
Congruent validity of soortgenootvaliditeit
Face-validity of indruksvaliditeit
Incremental validity

Synthetische validiteit

Synthetische validiteit richt zich op functie-elementen in plaats van op de functie en de taak als geheel, identificeerbare en op zichzelf zinvolle onderdelen van criteriumgedrag zijn belangrijk. Op basis van de geprediceerde elementen wordt vervolgens de voorspelling van de hele functie gesynthetiseerd. Deze vorm is praktisch toepasbaar in de selectie- en beroepskeuzepsychologie.

Congruent validity of soortgenootvalditeit

Deze geeft de mate van correlatie aan tussen twee tests die dezelfde eigenschap meten.

Face-validity of indruksvaliditeit

Een leek of een psycholoog heeft de indruk dat er een relatie bestaat tussen test en criterium of de betekenis van de test, dit is alleen nog niet onderzocht door middel van empirisch onderzoek.

Incremental validity

Niet alleen de relatie tussen test en criterium, maar ook verhoging van de validiteit door verbetering van voorspellingen. Men vraagt zich af of het gerechtvaardigd is naast de reeds aanwezige informatie nog een test te gebruiken.

Een belangrijke vraag is hoe goed dit criterium valt te voorspellen. Dit wordt als volgt gedaan. Men bepaalt op grond van eerder gedaan empirisch onderzoek de relatie tussen testprestaties en criteriumprestaties, vervolgens bepaalt men op grond hiervan de testprestaties en kan men de meest waarschijnlijke criteriumscores schatten.

Het begrip criterium levert nogal wat verwarring op. Thorndike (1949) heeft een drietal type criteria onderscheiden:

Onmiddellijk (immediate) criterium: direct doel;
Tussentijds (intermediate) criterium: tussendoel;
Uiteindelijk (ultimate) criterium: einddoel.

Er treden twee problemen op bij deze onderscheiding:

De vraag in hoeverre het criterium ter beschikking staat, het te kwantificeren of te operationaliseren is
Temporeel: de vraag hoe ver verwijderd het criterium ligt.

Verduidelijking van het begrip 'criterium':

Allereerst moet bekeken worden voor welk einddoel van een organisatie/instelling een voorspelling gedaan moet worden;
Vervolgens concretiseert men dit einddoel in termen van zichtbare resultaten. Dit noemt men conceptuele criterium naar Astin (1964). Dit conceptuele criterium bevindt zich in het laagste niveau van abstractie in de rangorde van relevante doelstellingen, aldus Astin;
Van het conceptuele criterium wordt nu een criteriummaat of -score afgeleid. Deze criteriummaten zijn duidelijke, eenduidige scores of uitspraken die betrekking hebben op het door het criterium bepaalde gedrag of prestaties. Dit criteriumgedrag is relevant waarneembaar gedrag. Een aantal opmerkingen over criteriummaat en criteriumgedrag:
- Criteriummaat geeft criteriumgedrag kwantitatief weer;
- Een onbetrouwbare criteriumscore en predictorscore leidt tot een lage predictieve validiteit;
- Men kan niet door empirisch onderzoek achter de relatie tussen criteriumgedrag (c.q. criteriumscore) en het achterliggende conceptuele criterium komen.
  Bij het conceptuele criterium is nog te weinig geoperationaliseerd voor concreet empirisch onderzoek. Bij bepaling van de relatie tussen het criteriumgedrag en het conceptuele criterium gaat het om de mate van de relevantie. Deze relevantie kan eerder door rationeel oordelen dan door empirisch onderzoek bepaald worden. Als men beseft dat empirische toetsing niet nodig is dan hoeft men niet 'oneindig en frustrerend' validiteitsonderzoek te doen.
Predictieve validiteit:
Eerst zijn criteriumgedrag gekozen en criteriummaat vastgesteld. Empirisch onderzoek in de vorm van predictieve validatie wordt dan pas gedaan wanneer besloten is een bepaalde criteriumprestatie te nemen als concretisering van een conceptueel criterium.

Een gekozen criteriummaat is wél vergelijkbaar met andere criteriummaten. Men vergelijkt de relatie tussen conceptuele criteria. Als de relatie zwak is, moet men kijken welke het beste criterium is. De vraag wie de verantwoordelijkheid heeft voor de keuze van het conceptuele criterium. Hier is men van mening dat de psycholoog zich met deze keuze moet bezighouden want:

Hij heeft als taak het bewustwordingsproces over impliciete keuzes van het doel bij de opdrachtgever te stimuleren;
Hij kan onaanvaardbare elementen in de keuze van het criterium onderkennen;
Hij heeft onderzoekservaring en -gegevens.

Het is wenselijk niet alleen voor de keuze van de tests maar ook voor de criteriumscore een zo groot mogelijke betrouwbaarheid te verkrijgen. Bij de keuze van criteriumgedragingen is het vaak zo dat betrouwbaarheid van de criteriummaten omgekeerd evenredig is met hun relevantie. Een criteriummaat moet dus zó betrouwbaar zijn dat de test nog betrouwbaar is maar niet zoveel dat het geen beeld meer geeft van het conceptuele criterium.

Fases van het opzetten van een test(batterij) met predictieve validiteit

Bij het kiezen van test, samenstellen van testbatterij en bepaling van predictieve validiteit zijn zes fasen te onderscheiden.

Fase 1: Het operationaliseren van het criteriumgedrag in een exacte criteriummaat;
Fase 2: Het kiezen van mogelijke tests of de constructie van mogelijke items waaruit tests kunnen worden gemaakt. Afhankelijk van omstandigheden, verwerkingsmogelijkheden, de theoretische aanpak, de mate van rationele bestudering en de analyseerbaarheid van het te voorspellen criterium, zal de samengestelde test goed of minder goed functioneren.
Fase 3: Proefafnames op verschillende groepen proefpersonen. Deze groepen moeten zoveel mogelijk overeenkomen met de uiteindelijke populatie die getest moet worden. Afwijkingen tussen steekproef en populatie:
- Niet erg bij gemiddelden omdat betrouwbaarheid en validiteit niet veranderen bij variatie van gemiddelden;
- Wel erg bij spreiding, betrouwbaarheid en validiteit veranderen wel bij spreidingsvariatie.

De proefafnames hebben verschillende doelen:

Men doet verschillende proefafnames omdat men verschillende beslissingen moet nemen, elke beslissing wordt al verwerkt voor de volgende verse proefafname;
Eerste proefafname: Het verzamelen van informatie voor een itemanalyse, indien de test moet worden geconstrueerd (itemanalyse bestaat uit bepalen moeilijkheidsgraad en item-rest-correlatie);
Tweede proefafname: Een schatting maken van de betrouwbaarheid, juiste testlengte en beste snelheidskarakter voor de gehele test;
Indruk krijgen van de validiteit waarvoor criteriumscores uit de eerste fase gebruikt worden.

Fase 4: In deze fase vindt de echte validatie van de test plaats. Predictie gebeurt met een beschikbaar criterium in plaats van een toekomstig criterium. Criteriumscores zijn dus ook direct beschikbaar, men hoopt de gegevens te kunnen gebruiken voor het bedoelde pas in de toekomst te bepalen predictiemodel. Maar generalisatie naar de realiteit van de situatie die men wil voorspellen is niet altijd mogelijk omdat:

Tijdens de proefafname kan de motivatie van de proefpersonen minder zijn dan in de echte testsituatie.
Eigenschappen en instelling van de proefpersoon kunnen erg verschillen van de echte situatie (zoals sollicitatie, examen).

Er zijn een aantal bezwamen over de ideale validatieprocedure van tests:

Lange duur van het onderzoek;
Variatiebeperking of 'restriction of range' op de criterium- en predictorvariabele, omdat er zowel zeer geschikte als juist niet geschikte uit de aanvankelijke onderzoeksgroep verdwijnen. Hierdoor nemen zowel betrouwbaarheid als validiteit af;
Het oordeel van een latere beoordelaar kan al beïnvloed zijn door eerdere testuitslagen. Dit wordt ook wel contaminatie van het criterium genoemd. Hierdoor komt de validiteitscoëfficiënt mooier naar voren dan in werkelijkheid het geval is.

De meest gangbare methode bij het validatie-onderzoek is een schatting te maken van de (lineaire) correlatie door middel van de Pearson-product-moment-correlatie.

Fase 5: De tests waarvoor een bruikbare validiteit vastgesteld is, worden gecombineerd in een maximaal voorspellende testbatterij. Als techniek om een goede samenhang in de keuze van tests, neemt men vaak de multipele correlatie techniek.
Fase 6: De laatste fase is de kruisvalidatie ('cross-validation'). In een tweede onderzoek op een onafhankelijk steekproef vergelijkbaar met de eerste steekproef, worden de gevonden correlaties uit de eerste steekproef onderzocht of ze niet uit te veel toevallige relaties zijn ontstaan.

De resultaten van het empirisch valideringsonderzoek zijn vaak niet erg veelbelovend. Een lage correlatie en validiteit zeggen echter niet altijd dat de test slecht is. Er zijn een aantal verklaringen vaar die lage validiteit:

Door de afwijking van homoscedasticiteit en lineariteit van de relatie tussen test en criterium, zodat de gebruikelijke product-moment-correlatie een te somber beeld van de sterkte van de relatie;
Door de erg lage betrouwbaarheid van gebruikte criteria;
Externe variabelen die de correlatie tussen test en criterium beïnvloeden, worden niet genoeg onderkend;
Doordat in het validatie-onderzoek men met té heterogene groepen werkt. Men moet dan aparte subgroepen maken en per groep aparte validiteiten berekenen;
Men gaat uit van het te simpele 'predictor-enkel-criterium'. Dit criterium kan verfijnd worden door diverse aspecten van het criterium, minstens twee criteriumscores, apart voorspellen en door iedere criteriumprestatie te zien als gebonden aan het moment van de meting en niet als generaliseerbaar in de tijd.

Predictieve validiteit wordt ook wel gezien als in hoge mate situatiespecifiek en generaliseerbaar. Schmidt en Hunter (1977) hebben een methodiek ontwikkeld om te kijken of dit wel zo is:

Voor alle combinaties van een specifieke test en gedrag in een speciale functie wordt de validiteitscoëfficiënten bepaald en de daarbij horende standaarddeviatie. Conclusie van Schmidt en Hunter is dat validiteitsresultaten weinig situatie-specifiek zijn;
Het onderzoek naar validiteitsgeneralisatie waarbij een schatting gemaakt wordt van de effectiviteit. Op basis van de effectiviteit en de ondergrens van de validiteit binnen een categorie van tests en functies kunnen uitspraken gedaan worden over de te verwachten validiteiten in toekomstige selectiesituaties met dezelfde categorie tests. Conclusie van Schmidt is dat effectiviteit groot is en de validiteit vaak constant zal zijn over situaties.

De belangrijkste bezwaren tegen het onderzoek van Schmidt en Hunter zijn:

Door het gebruik van ruw geschatte criteria wordt de hypothese dat validiteit onafhankelijk van de situatie zou zijn meer bevestigd;
De correctie van de variantie van de validiteitscoëfficiënten zou te sterk zijn en er wordt alleen voor bepaalde artefacten gecorrigeerd. De hypothese dat de validiteit onafhankelijk is van de situatie wordt door deze overcorrectie bevestigd.

Beperkingen van de predictieve validiteit

De predictieve validiteit houdt zich bezig met de vraag of de test een in het concrete geval belangrijk criterium kan voorspellen. Men moet zich niet beperken tot deze predictieve validiteit, voor zowel empirische als praktische verdieping zijn begripsvaliditeit en de betekenisanalyse onmisbaar. Redenen hiervoor:

Bij begrip van de (afwezigheid) van de samenhang kunnen er hypothesen gevormd worden om de predictieve validiteit te verbeteren.

Bij extreme empirische benadering moet de validering over alle mogelijk predictoren gaan. In de praktijk echter wordt al gestart met een keuze van tests gebaseerd op een analyse van het criterium en de test. Daarvoor wordt ook al gebruik gemaakt van de betekenis- en begripsvaliditeit.
Bij een unieke of zeldzame situatie waarvoor het erg moeilijk is om een criterium vast te stellen. Er kunnen alleen hypothesen hierover geformuleerd worden.
Bij beschrijving van het psychologische beeld van de onderzochte wordt gebruik gemaakt van de betekenis en de theorie van de test.
Betekenisanalyse en begripsvaliditeit bieden de mogelijkheid de aard en de betekenis van het criterium te analyseren.

Begripsvaliditeit krijgt pas door de betekenisanalyse zin en inhoud. De betekenisanalyse onderzoekt met hypothetische begrippen wat de test meet en welk psychologisch begrip het testgedrag verklaart.

Betekenisanalyse kent dezelfde fasen als in de theorievorming en algemene toetsing:

Fase 1: Een creatieve fase.

Er wordt een theorie gecreëerd dat het testgedrag hypothetisch kan verklaren. Kenmerken van de eerste fase:

procedure en methodiek zijn niet voorgeschreven en bindend;
de voorspelling moet ondubbelzinnig te onderzoeken zijn;
er is geen bewijs dat een test wel of niet een theoretische betekenis heeft;
het is belangrijk alternatieve hypothesen te kunnen verwerpen of de oorspronkelijk theorie te bevestigen.

In deze fase zijn er twee methoden volgens Campbell (1960) om het testgedrag potentieel te verklaren:

Trekvaliditeit: verklaring door een persoonlijkheidstrek of geschiktheidsdimensie.
Nomologische validiteit: verklaring door een persoonlijkheidstrek of geschiktheidsdimensie waarbij de hele theorie ter sprake komt. 'Nomologisch netwerk' is een theoretisch kader aan begrippen en relaties hiertussen.

Fase 2: De begripsvalidering

Empirische toetsing vindt plaats om voorspellingen gebaseerd op de potentiële verklaring van het testgedrag te onderzoeken. De functies van deze voorspellingen zijn:

het bevestigen van de hypothetische verklaring (confirmerende validiteit);
het verwerpen van alternatieve verklaringen (discriminante validiteit).

Er zijn twee vormen van begripsvalidering: in een praktisch niet-experimenteel kader en in een experimenteel kader.

Betekeniszoektocht

Het zoeken naar een verklaring van testgedrag kan door middel van het analyseren van inhoudelijke of formele kenmerken van het testgedrag. Er zijn twee soorten onderzoek:

Structuuronderzoek. Ontleding van de structuurkenmerken van de test door:
- Psychologische analyses van de inhoud van de vragen en de opdrachten die leiden tot veronderstellingen die nog wel moeten worden getoetst;
- Analyses van de formele kenmerken van de test, zoals het verschil tussen twee type tests of de testscorecorrelatie op twee verschillende tijdstippen.
Relatie-onderzoek. Gegevens uit relatie-onderzoek als bron voor ideeën doen zich in vier vormen voor:
- Onderzoek van spreidings- en normgegevens. Dit is een soort vergelijkingsonderzoek waarin de relatie tussen testscore en variabelen wordt bepaald.
- Door experimenten kan men over de betekenis van het testgedrag suggesties doen.
- Factoranalytisch onderzoek. Dit is een methode om de grote hoeveelheid informatie te beperken in een aantal dimensies (factoren) zodat de inzichtelijkheid toeneemt. Factoren worden onderscheiden in:
  - specifieke factoren die zijn gekoppeld aan (een gedeelte van) een test;
  - groepsfactoren die een kleiner gedeelte van de tests vertegenwoordigen;
  - algemene factoren, waarmee vrijwel alle tests min of meer samenhangen.

Het resultaat van factoranalyse hangt af van een aantal voorwaarden en uitgangspunten:

De aard van de steekproef waarop men de analyse uitvoert. Een structuur van factoren wordt scherper door het contrast tussen hoge en lage correlaties (een heterogene steekproef levert hogere correlaties op).
De hoeveelheid en de aard van de variabelen die in de analyse worden opgenomen. Testbetekenis wordt door de betekenis van andere (test)variabelen uitgedrukt.
Door een subjectieve inhoudsanalyse van de test worden namen gegeven aan de factoren.
Mathematische en technische vooronderstellingen hebben invloed op het resultaat.
Onderzoek in wat de test kan voorspellen door een wisselwerking van betekenisanalyse en predictieve validiteit.

Een combinatie van verbeelding (creatieve ideeën) en systematische analyse (efficiënte weg) is dus belangrijk bij structuur- en relatie-onderzoek om antwoord op de betekenisvraag te krijgen.

Begripsvalidering gebeurt enerzijds door de oorspronkelijke hypothese te confirmeren en anderzijds de concurrerende hypothesen die alternatieve verklaringen voor het testgedrag geven te disconfirmeren. Het is niet altijd zinnig om deze alternatieven te verwerpen om twee redenen. De eerst is dat de waarde van het verwerpen samenhangt met de waarde van de experimentele opzet. Als tweede hangt de waarde af van de plausibiliteit van de alternatieve verklaring.

Suggesties over alternatieve verklaringen:

Het correleren van prestatie- en gedragstests met intelligentietests, waarvan de formele kenmerken op de onderzochte test lijken;
Sociale wenselijkheid vormt vooral bij persoonlijkheidsvragenlijsten een probleem. Een test die onbedoeld sociale wenselijkheid meet, functioneert niet goed. Er zijn twee vormen van sociale wenselijkheid:
- Een individuele vorm: per individu verschilt de opvatting wat sociaal wenselijke antwoorden zijn. Te onderzoeken door een individu per testvraag ook de mate van sociaal wenselijkheid te laten geven. De correlatie tussen beide gegevens geeft de mate van sociaal wenselijkheid van de test.
- Een algemene vorm: er is een algemeen aanvaarde opvatting over wat sociaal wenselijke antwoorden zijn. Te onderzoeken door een algemene sociale-wenselijkheidssleutel te construeren gebaseerd op de antwoorden over sociale wenselijkheid van testvragen gegeven door een groep proefpersonen.H
Het nagaan van de makkelijke toegankelijkheid van het testgedrag voor één of meer antwoordtendenties. Een antwoordtendentie is een tendentie tot een consistent keuzepatroon. Dit komt tot uiting in het antwoordgedrag op tests, los van de inhoud van de vragen, en dat op een betrouwbare wijzen kan verschillen tussen proefpersonen.

Er zijn verschillende antwoordtendenties:

instemtendentie: er wordt ingestemd met de richting van de vraag;
positievoorkeur: sommige posities bij antwoordmogelijkheden worden geprefereerd;
semantische interpretaties van de keuzecategorieën: de individuele interpretatie van de verbale frequentie-aanduidingen varieert;
neigingen tot bepaalde regels in de opeenvolging van de gemaakte keuzen of de verdelingen over de keuzemogelijkheden;
de neiging om te raden;
de neiging tot uitvoerigheid;
door de neiging snelheid of juist accuraatheid te benadrukken verschillen testprestaties;
de neiging om af te gaan op formele kenmerken van de keuzemogelijkheden.

Sociale wenselijkheid als antwoordtendentie hangt af van de definitie van antwoordtendentie. Bij antwoordtendentie als antwoordwijze ontstaan door de vorm van de vraag hoort sociale wenselijkheid, die ontstaat door de inhoud van de vraag, niet.

Er is een methode ontwikkeld die testen evalueert in de context van validiteits- en betrouwbaarheidsonderzoek (Campbell en Fiske, 1959), de multitrek-multimethode-matrix. Deze methode onderscheidt zowel confirmerende en discriminante validiteit als betrouwbaarheid. De evaluatieprocedure van de test moet zowel verschillende trekken (voor de betekenis van de test) als verschillende methoden (voor de discriminantie met andere testen) omvatten.

De multitrek-multimethode-matrix toont alle correlaties die uit alle combinaties van trekken en methoden ontstaan. Deze matrix toont

betrouwbaarheid door de monotrek-monomethode-overlap, correlaties voor dezelfde trekken en methoden (b-waarden);
confirmerende validiteit door de monotrek-heteromethode-overlap, correlaties voor dezelfde trekken en verschillende methoden (v-waarden);
methodevariantie door heterotrek-monomethode-overlap, correlaties voor verschillende trekken en dezelfde methode (m-waarden);
door heterotrek-heteromethode-overlap, de correlaties voor verschillende trekken en eigenschappen (d-waarden).

Validiteitsverwachtingen:

v-waarden verschillen significant van 0, ze moeten zo hoog zijn dat er met de test verder gewerkt kan worden;
v-waarden > d-waarden;
v-waarden > m-waarden;
correlatiepatroon van de m-waarden is ongeveer gelijk aan die van de d-waarden.

Door deze laatste drie verwachtingen kan de discriminante validiteit vastgesteld worden.

Het beslissingsproces - Chapter 9

Wanneer er een keuze moet worden gemaakt tussen verschillende alternatieven, vindt er voor die keuze altijd een zekere beoordeling plaats. Dit hoofdstuk zal in gaan op de vraag welke bijdrage een test aan dit beslissingsproces kan leveren.

De waarde van een test

De waarde van een test valt uiteen in twee delen. De wetenschappelijk waarde van een test wordt bepaald door de wetenschappelijk waarde van de te meten eigenschap. De praktische waarde van een test hangt af van het succes van de beslissingen die met behulp van de test kunnen worden genomen.

In een situatie zonder test is er vaak ook al redelijk wat informatie beschikbaar voor het maken van een ‘juiste’ beslissing. Daarom moet er bij het vaststellen van de praktische waarde van een test niet worden vergeleken met een random keuzeproces (aldus Cronbach en Gleser). Beter is om te vergelijken met de a-prioristrategie (het aantal voorspellingsmogelijkheden zonder de test). Dit wordt ook wel ‘incremental validity’ genoemd: de waarde van een test wordt bepaald door de toevoeging die een test geeft aan het a-prioriniveau van voorspellingsmogelijkheden. Hoe onafhankelijker de test is van de reeds beschikbare informatie, des te groter diens waarde dus is.

Overigens moet worden gesteld dat er voor een aantal (vaak zeer eenvoudige) functies de ‘antecedent probability’ / ‘base rate’ (het gehalte geschikte personen in de bevolking) zeer groot is. Een random toewijzing, dus zonder gebruik van een test, zal in deze gevallen adequaat genoeg zijn. Een test zal hier daarom van weinig toevoegende waarde zijn.

De praktische waarde van een test kan niet los worden gezien van het beslissingsproces zelf. We zullen hieronder daarom de verschillende soorten beslissingen, de meest voorkomende beslissingen in de testtheorie, en de beslissingsprocedure bij een ‘open vraag’ bespreken.

De hiërarchie van de beslissing

Een beslissing bestaat altijd uit de volgende 3 componenten:

een of meer individuen waarover de beslissing wordt genomen;
twee of meer behandelingen waar men bij de beslissing uit moet kiezen;
de informatie met behulp waarvan de beslissing kan worden genomen.

Wanneer er bepaalde vaststaande regels worden gevolgd bij het nemen van een beslissing, is er sprake van een beslissingsstrategie. Deze bestaat meestal uit de volgende cyclus: ‘nader onderzoek – tests – informatie – informatieverwerking’. Deze cyclus kan diverse malen worden herhaald, net zo lang totdat er genoeg informatie beschikbaar is voor het maken van een definitieve beslissing.

Vaak komen de normatieve en de empirische, feitelijke strategie niet met elkaar overeen. Niet alle beslissingsstrategieën worden even duidelijk en consequent toegepast. Extra informatie, gevoelsmatige ideeën, slordigheden en inconsequenties sluipen in de beslissingsstrategie en hebben invloed op de uiteindelijke beslissing.

De indeling van verschillende beslissingen

Beslissingen kunnen worden opgedeeld aan de hand van drie principes:

Onderscheid individueel en institutioneel.
De onderlinge realtie van de alternatieven.
Beslissingen die met behulp van univariate informatie.

Deze principes worden hieronder besproken.

Het onderscheid tussen individuele en institutionele beslissingen

De uitwerking van een beslissing is per persoon verschillend. De waarde van een bepaalde beslissing moet dan ook voor ieder individu apart worden bekeken. Bij individuele beslissingen, gaat het om eenmalige beslissingen waarbij volledig rekening wordt gehouden met de persoon waarvoor of waardoor de beslissing wordt genomen. Bijvoorbeeld: beroepskeuze, schoolkeuze, keuze studiepakket.

Bij institutionele beslissingen is er sprake van een waardesysteem dat voor alle te nemen beslissingen opgaat. Er is een bepaalde reeks beslissingsregels voor handen die geldend is voor meerdere beslissingen tegelijk. Er kan hierdoor in een keer een groot aantal gelijksoortige beslissingen worden genomen. Omdat het hier niet om een eenmalige beslissing gaat,maar om meerdere, kan er worden gesproken over een gemiddeld rendement. Het totale rendement van een institutionele beslissingstrategie valt samen met het gemiddelde rendement van de op zichzelf staande beslissingen. Voorbeelden van institutionele beslissingen zijn: rijexamen, toelatingsprocedures voor scholen, plaatsing bij een bedrijf, therapiekeuze in een kliniek.

De onderlinge relatie tussen de verschillende keuzemogelijkheden

De onderlinge relatie tussen de verschillende keuzemogelijkheden is van invloed op de keuze voor een bepaalde test.

Wanneer er alleen sprake is van een kwantitatief verschil (niveauverschil) tussen de mogelijkheden, en ze qua aard dus niet van elkaar verschillen, is dezelfde informatie voor beide mogelijkheden toereikend. Het variëren van de norm is dan voldoende. Deze beslissing wordt univariaat genoemd; wanneer er alleen sprake is van een niveauverschil, kan worden volstaan met één schaaldimensie. Een voorbeeld van dit type beslissing is de keuze tussen verschillende schoolniveaus.

Er wordt gesproken van multivariate informatie, als de alternatieven kwalitatief van elkaar verschillen. Naast een eventueel niveauverschil is er nu ook sprake van een structureel verschil. Bijvoorbeeld het verschil tussen opleidingen, beroepen, en stoornissen. Bij zulke kwalitatief verschillende alternatieven is een differentiële voorspelling noodzakelijk. Dit is een voorspelling die berust op een multivariate analyse. Voorbeelden van testinformatie die multivariaat van aard is, zijn profielscores, verschilscores, en scorepatronen.

Beslissingen die met behulp van univariate informatie kunnen vervolgens weer in twee subgroepen worden onderverdeeld

De keuze voor een enkele behandeling (treatment), of de keuze tussen meerdere mogelijkheden. In het eerste geval gaat het om de keuze wel/niet, deze beslissingen worden dichotoom genoemd. In het tweede geval gaat het om het indelen in verschillende klassen.

Deze driedeling brengt ons tot de volgende taxonomie van beslissingen:

Institutionele beslissingen Individuele beslissingen: zie de bijlage 'Statistiek in het kort'
Multivariate informatie

Hierbij kunnen nog een aantal onderscheidingen worden gemaakt:

In het bedrijfsleven en in de schoolse praktijk kan een beslissingen zowel univariate als multivariate gevolgen hebben: plaatsing voor een bepaald niveau heeft indirect ook gelijk een zekere selectie tot gevolg.
Er kunnen zich een tweetal complicaties voordoen inzake plaatsingsmogelijkheden. Deze kunnen er tekort zijn (numerus fixes) of te veel (lerarentekort). In zulke gevallen hangt de beslissing niet alleen af van de geschiktheid van de kandidaten, maar ook van de beschikbaarheid/vraag van de treatments.
Bij plaatsingsbeslissingen maakt het verschil of het gaat om een variabele of een vaststaande behandeling. Gaat het om een statische, van tevoren vaststaande behandeling, of is er binnen de behandeling nog mogelijkheid tot bijstellen?
Een laatste onderscheid wordt gemaakt naar de vraag of de beslissingen in een fase plaatsvindt (‘single stage’ of ‘non-sequential decisions’) of meerdere fasen in beslag neemt (‘sequential decisions’). Een veelvoorkomend voorbeeld van dit laatste is het vooronderzoek.

De meest voorkomende beslissingen in de testtheorie

Enkelvoudige selectie, ofwel het klassieke geschiktheidonderzoek. Met deze test wordt onderzocht of een individu wel of niet aan de eisen voldoet en dus wel of niet toegelaten kan worden. Deze vorm van selectie wordt ook wel het afwijzingsmodel genoemd, omdat het er eigenlijk omgaat de ongeschikte individuen uit te selecteren. Een enkelvoudige selectie is een institutionele beslissing, op basis van univariate informatie.

De resultaten van een selectieprocedure zijn onder te verdelen in 4 groepen.

Positieve missers (A) = individuen die door hun testscore als voldoende beoordeeld zijn, maar het in de praktijk, dus met hun criteriumscore niet redden.
Positieve treffers (B) = individuen die door hun testscore als voldoende beoordeeld zijn, en in de praktijk ook voldoen aan de kritische criteriumscore.
Negatieve treffers (C) = individuen die door hun testscore als onvoldoende beoordeeld zijn, en het in de praktijk, dus met hun criteriumscore ook niet redden.
Negatieve missers (D) = individuen die door hun testscore als onvoldoende beoordeeld zijn, maar in de praktijk wel een voldoende criteriumscore behalen.

De selectieratio is het percentage dat wordt aangenomen (positief bevonden kandidaten):

B + D

―————

A+B+C+D

De toevalskans (‘antcedent probability’ of ‘base rate’) is het percentage geschikte individuen wanneer de selectie random plaatsvindt, of iedereen wordt aangenomen.

A + B

—————

A+B+C+D

De succesratio is het aantal positieve treffers, ofwel het percentage succesvolle individuen binnen de geselecteerde groep.

——

B+D

De succesratio bepaalt de effectiviteit van de selectie. Het is daarom belangrijk om te weten waardoor de succesratio bepaald wordt:

De succesratio wordt bepaald door de validiteit van de test. Ofwel de correlatie van de test en het criterium. Hoe hoger de correlatie, hoe minder fouten er bij de selectieprocedure gemaakt zullen worden, en dus hoe groter de succesratio.
De succesratio is ook afhankelijk van de toevalskans. Hoe groter de toevalskans, hoe groter de succesratio. Voor de toevalskans is enerzijds de kwaliteit van het aanbod bepalend en anderzijds de strengheid van de criteriumprestaties.
Ook de selectieratio is van invloed op de succesratio. Wanneer er meer mensen kunnen worden afgewezen, wordt de succesratio groter.

Deze 3 verbanden hebben voor de daadwerkelijk beslissing en de evaluatie daarvan een aantal vervelende gevolgen. Ter verduidelijking van deze gevolgen verwijs ik naar figuur 9.4 op pagina 407 van het boek ‘Testtheorie – Inleiding in de theorie van de psychologische test en zijn toepassingen’.

Het selecteren van ongeschikte kandidaten. Dit hoeft niet aan de test te liggen, maar kan ook het gevolg zijn van een kwalitatief slecht aanbod, of een kwantitatief laag aanbod.
Er is nog een tweede reden waarom fouten in de selectie niet altijd aan de test te wijten zijn. In het beslissingsproces spelen naast de subjectiviteit van de test en de testpsycholoog,ook die van de opdrachtgever een rol. Ook hij speelt een rol bij het bepalen van de selectievoorwaarden (de kritische testscore). De volgende zaken kunnen hierbij van invloed zijn: het niveau van het aanbod, de grote van de vraag, welke succesratio nastrevenswaardig is, welke risico men wil nemen om een ongeschikte persoon aan te nemen, en de noodzaak tot het vullen van de vacatures.
Wanneer een toevalskans extreem groot is, heeft een test weinig tot geen positief effect. Omdat de meeste kandidaten aan de criteria voldoen, kan de test de succesratio nauwelijks verhogen, maar wel verlagen. Selectie met behulp van een test leiden in dit soort gevallen namelijk tot het afwijzen van een relatief groot aantal geschikte individuen (omgekeerd geldt dus dat een test bij een populatie met relatief weinig geschikte individuen relatief veel ongeschikte kandidaten afwijst).
Wanneer de selectieratio hoog is ten opzicht van de toevalskans, moet de validiteit erg groot zijn, om tot een goede selectie te kunnen komen. Voor het vaststelen van de succesratio, de toevalskans, de validiteit, en de selectieratio kan gebruik worden gemaakt van de tabbellen van Taylor en Russell, indien drie van de vier bekend zijn.
Het verhogen van de aftestgrens (er worden dan minder mensen geselecteerd) heeft een positieve invloed op de succesratio. Er worden dan namelijk minder mensen onterecht geselecteerd. Dit heeft echter ook tot gevolg dat er meer mensen onterecht worden afgewezen. Er bestaat dus een problematische relatie tussen positieve (A) en negatieve (D) missers. Het beleid inzake de aftestgrens wordt bepaald door de volgende factoren:
- Er zijn situaties waarin het aannemen van ongeschikte mensen ernstige gevolgen heeft.
- Er zijn daarentegen ook situatie waarin met het risico tot het aannemen van negatieve treffers graag genomen wordt, om de kans tot het vinden van die ene persoon met die specifieke eigenschap te vergroten. Het gaat hierbij dan om een relatief zeldzame eigenschap die vooraf moeilijk vastgesteld kan worden.
- Als laatste bestaan er situaties waarin zowel de positieve als de negatieve missers zoveel mogelijk vermeden moeten worden. Zaak is in deze om de verticale kritische testlijn zo te plaatsen dat de uitkomst van (A+D) zo laag mogelijk is. 0Het vraag en aanbodprobleem.Wanneer er relatief veel mensen zijn, kan er streng worden geselecteerd en zal dit leiden tot veel positieve missers, maar weinig negatieve missers. Omgekeerd zal er bij te weinig aandacht, afhankelijk van de ernst van de vacature, minder streng geselecteerd worden. Dit leidt tot minder positieve missers, maar wel meer negatieve missers. Ook al zijn de waarden van de verschillende beslissingsuitkomsten bekend, dan nog is het vaststellen van de beste aftestgrens erg moeilijk.
De invoering van tests bij selecties met een erg kleine toevalskans maken de beslissingsstrategie vaak niet effectiever. Meehl en Rosen stelden zelfs dat het gebruik van tests in situaties met een gemiddelde validiteit,maar lage toevalskans, het maken van fouten bij de selectie zelfs kan vergroten. Hiervan is sprake in bijvoorbeeld de klinische psychologie.

Meerdere testen tegelijkertijd gebruiken.

Zeker in gevallen wanneer het gaat om een heterogeen criterium is het niet mogelijk om een goede voorspelling te geven op basis van een enkele test. Beter is het om deze gevallen gebruik te maken van een testbatterij, een verzameling van tests die bij voorkeur allemaal zo hoog mogelijk correleren met het criterium, maar zo min mogelijk met elkaar. De verschillende test kunnen grofweg op 2 manieren worden gecombineerd om tot een goede selectie te komen.Ten eerste kan dit op een actuarische, ofwel statistische manier. Hierbij worden de successcores zorgvuldig gewogen en de succeskansen berekend. De tweede manier is niet-statistisch, maar gevoelsmatig van aard. Het gaat om een intuïtief proces van wegen en voorspellen, die per situatie erg kan verschillen. De strijd tussen deze twee methoden is na vele onderzoeken beslecht in het voordeel van de actuarische methode (Meehl kwam overigens al eerder tot deze conclusie). De actuarische methode is nauwkeuriger, zorgt voor de minste missers, en leidt dus tot de beste selectie.

De veelvoudige minimumscore (‘multiple cut-off procedure’).

Bij deze procedure wordt voor elke afzonderlijke test een kritische testscore vastgesteld. Een kandidaat wordt dus alleen geselecteerd indien hij op alle test voldoende heeft gescoord. Compensatie is hierbij dus niet mogelijk. De veelvoudige minimumscore is in tegenstelling tot de gewogen samenstelling (die is compensatorisch) conjunctief. Een combinatie van beiden is echter ook mogelijk, dan is binnen bepaalde minimumgrenzen de relatie compensatorisch.

Zie figuur 5 op de bijlage 'Statistiek in het kort'

Selectie opgesplitst in een of meerdere fasen

In het geval van een grote groep kandidaten is het vaak effectiever om trapsgewijs te testen. Er vindt dan een voorselectie plaats, die de toevalskans voor het definitieve onderzoek doet toenemen. Deze voorselectie dient valide te zijn met betrekking tot het criterium. Vooral bij een groot aanbod, is echter een middelmatig valide test vaak al voldoende voor het doen toenemen van de toevalskans. De sequentiële beslissingsmodellen kunnen ook wat ingewikkelder van aard zijn. Bij een eerste eenvoudige screening worden de meest ongeschikte en de meeste geschikte kandidaten geselecteerd. Vervolgens vinden er nog een aantal testen plaats om de minder duidelijke kandidaten al dan niet te selecteren. Het voordeel van trapsgewijs testen is dat het veel tijd en geld kan besparen, zonder dat dit ten koste gaat van het selectieproces. Cronbach en Gleser toonden aan dat er verschillende sequentiële strategieën mogelijk zijn, waarvan de effectiviteit per situatie kan variëren. Met name in het geval van complexe onderzoeken (groots, kostbaar, moeilijk of vervelend voor de betrokkenen) zijn sequentiële strategieën erg toereikend.

Plaatsingsbeslissingen met niveauverschil

Bij de tot nu toe besproken beslissingsstrategieën ging het om de keuze tussen het aannemen of afwijzen van de kandidaten. Bij plaatsing gaat het echter om de keuze tussen verschillende alternatieven. Ook hierbij kan er onderscheid worden gemaakt tussen kwantitatief en kwalitatieve verschillende mogelijkheden, en dus tussen univariate en multivariate informatie.

De besliskunde is de leer die zich bezighoud met het vinden van de meest adequate beslissingsstrategieën. Hierbij spelen twee elementen een rol. Allereerst wordt de kans berekend op het behalen van de verschillende alternatieven. Deze kans wordt bepaalt door de correlatie tussen test en criterium. Ten tweede wordt rekening gehouden met de waarden van de beslisser. Het toekennen van waarden aan de verschillende mogelijkheden is vaak erg lastig, maar noodzakelijk voor het komen tot de beste beslissing. De beste beslissing is de beslissing met het meeste rendement (E).

We beschikken nu over de volgende informatie:

P(A) = de kans op het behalen van alternatief A

P(-A) = de kans op het niet behalen van alternatief A

W(A) = de waarde voor het behalen van alternatief A

W(-A) = de waarde voor het niet behalen van alternatief A

Het optimale rendement (E) van de beslissing voor A is:

E = P(A) x W(A) + P(-A) x W(-A)

In vele gevallen is dit optimale rendement echter niet haalbaar. Soms kan slechts een beperkt aantal mensen worden opgenomen in een bepaald alternatief. Omgekeerd moeten sommige functies zo snel mogelijk worden ingevuld, omdat dit anders ernstige gevolgen heeft. Aan deze twee beperkingen kan nog worden toegevoegd, dat er vaak een bepaalde discrepantie bestaat tussen de waardesystemen van de verschillende partijen inzake de beslissing (bijv. school en leerling). Deze beperkingen leiden vaak tot niet bevredigende beslissingen. Vaak wordt in zulke gevallen de beslissing op gevoel genomen. Dit is echter niet nodig. Men hoeft zich niet perse het totale rendement ten doel te stellen, maar kan ook streven naar de maximaal mogelijke winst, of een zo klein mogelijk verlies.

Plaatsingsbeslissingen met een kwalitatief verschil

Op zich lijkt deze beslissing erg op de hiervoor besproken beslissing: de waarde van de verschillende keuzes moet worden vastgesteld, en de kans op succes moet worden berekend, waarna het verwachte rendement volgens de gegeven formule berekend kan worden.

Het verschil zit hem in de manier van testen, dus in het berekenen van de kans op succes. Bij beslissingen tussen alternatieven met een niveauverschil kan men met één test volstaan. Wanneer alternatieven kwalitatief van elkaar verschillen, is dit niet meer mogelijk. Er moet dan gebruik worden gemaakt van twee verschillende test, die elk zo goed mogelijk correleren met hun eigen criterium. Om goed te kunnen bepalen voor welk alternatief de kandidaat meer geschikt is, moet men zich richten op de verschillen die er bestaan tussen de criteria. Het gaat er dus om een differentiële voorspelling te doen.

Niet langer is voor de waarde van de test de correlatie met het te meten criterium van belang, maar ook de mate van de differentiële validiteit. Deze laatste vorm van validiteit wordt bepaald door de samenhang tussen de score van eigenschap X en het verschil van de twee criteriumscores (Y1-Y2).

De volgende formule wordt hiervan gegeven:

S (Y1) r (X,Y1) – S (Y2) r (X,Y2)

r(X, Y1 –Y2) = ————————————————

S (Y1 – Y2)

(r = correlatie ; S = standaardafwijking)

Uit deze formule is af te leiden dat r groter wordt naarmate het verschil tussen de correlaties r(X,Y1) en r(X,Y2) groter is.

Wanneer er restricties aan het aantal te plaatsen personen wordt verbonden, wordt de kwalitatieve plaatsing een moeilijke aangelegenheid. Men grijpt in dit soort gevallen dan ook vaak terug op irrationele, gevoelsmatige beslissingen. Soms lijken zulke beslissingen op de ‘cut en fit method’ van Ghiselli. Bij deze methode wordt eerst de kandidaat met de hoogste testscore op de voor hem meest adequate positie geplaatst. De overige kandidaten worden vervolgens verdeeld over de rest van de functies.

Soms worden er ogenschijnlijk onlogische beslissingen genomen bij keuzeproblemen. Dit heeft vaak alles te maken met het belang dat aan de verschillende functies wordt gehecht. Is functie A veel belangrijker dan functie B, dan zal men zich hoofdzakelijk richten op het zo optimaal mogelijk invullen van functie A, zonder zich erg druk te maken over de consequenties daarvoor voor functie B. Wanneer het niet veel haast heeft een vacature in te vullen, kan er zelfs besloten worden enige tijd te wachten met de hoop/het zicht op een ‘betere’ populatie.

De open vraag

Tot nu toe zijn er beslissingen besproken, waarbij sprake was van slechts een beperkt aantal alternatieven. Bij open vragen gaat het om een onbeperkte veelheid aan mogelijkheden. Voordat tot het beslissingsproces wordt overgaan, is het bij open vragen erg belangrijk de vraag/het probleem goed te analyseren. Soms blijkt namelijk dat het wel degelijk om een gerichte vraag gaat, of dat het probleem een heel ander gebied behelsd (bijvoorbeeld niet de psychologie maar de pedagogiek). Ook kan het zijn dat de vraag nog te vaag is om met een oplossing te kunnen komen, of dat de verwachtingen met betrekking tot de oplossing niet reëel zijn.

Het daadwerkelijke beslissingsproces kan het beste worden opgedeeld in verschillende fasen. De eerste testfase heeft tot doel het grote aantal mogelijkheden in te perken tot een beperkt aantal of een gerichte aanname. Voor deze eerste fase is een test nodig die een grote aantal mogelijkheden kan bestrijken; betrouwbaarheid is in deze nog niet heel belangrijk. Voor de tweede testfase is dit dat wel. Hierin moet namelijk gekomen worden tot een beslissing tussen de reeds beperkte keuzes, of tot toetsing van de gericht aanname.

Het verschil tussen de tests in de eerste en tweede fase is door Cornbach en Gleser uitgelegd met behulp van de informatietheorie. Het is een algemeen verschijnsel dat kwaliteit ten koste gaat van kwantiteit. Een test kan niet én over bandwijdte én over zuiverheid beschikken. Ook bij het informatieproces gaat het een ten koste van het ander. Wanneer langs een kanaal meerdere boodschappen tegelijk worden gezonden, zal men weliswaar meer horen (grote bandwijdte), maar zal hetgeen dat overkomt minder zuiver zijn. Stuurt men slechts één boodschap langs een kanaal, dus zal deze zeer zuiver ontvangen worden, maar is de bandwijdte erg klein.

Er bestaat dus een spanning tussen bandwijdte en zuiverheid. Voor het opstellen van een test betekent dit dat er telkens moet worden afgewogen wat meer nastrevenswaardig is. Voor sommige tests staat vooral de zuiverheid voorop (test omtrent een definitieve conclusie en klassieke testbenaderingen, zoals intelligentietests). Voor andere is dat juist de bandwijdte (diagnostische methoden als observatietest, open-vraaginstrumenten).

Om de zuiverheid bij tests waar de bandwijdte in eerste instantie voorop staat toch enigszins te handhaven, zijn er een aantal criteria ontwikkeld:

Het proces van afname moet goed gestandaardiseerd zijn, en het verwerkingssysteem moet in voldoende mate objectief zijn.
De test moet genoeg items bevatten om voldoende spreiding in de testprestaties op te kunnen leveren.
Van de relevante populaties moeten de specifieke normgegevens bekend zijn.
De kenmerken die worden beoordeeld moeten worden opgenomen in een theorie over een psychologisch ‘construct’. Hierin worden de kenmerken geoperationaliseerd.

De brede-bandtechniek is onmisbaar (in de eerste fase) bij een open vraag. Om tot een definitieve uitspraak (tweede fase) te kunnen komen, moet echter een gericht toetsingsonderzoek plaatsvinden.

Bij het uitvoeren van brede-bandtests voor exploratieve doeleinden is de psycholoog van grote invloed. Toch zijn er een aantal richtlijnen die een goed en efficiënt testgebruik kunnen bevorderen:

Bij het ontwikkelen van hypothesen moet maximaal worden aangesloten bij reeds beschikbare gegevens uit de literatuur of de eigen ervaring.
Bij het vormen van hypothesen wordt altijd gebruik gemaakt van impliciete en expliciete theorieën. Hierbij is het belangrijk dat men zich baseert op empirisch gegronde theorieën, en dus niet op onduidelijke metafysische theorieën.
Men moet zich niet baseren op slecht geconstrueerde projectietests, waarvan de testtechnische kwaliteit ondermaat is.

Statistiek in het kort

Zie de bijlage

Access:

Public

Click & Go to more related summaries or chapters

Studiegids voor samenvattingen bij Testtheorie: Inleiding in de theorie van de psychologische test en zijn toepassingen van Drenth en Sijtsma

Samenvatting van Testtheorie: Inleiding in de theorie van de psychologische test en zijn toepassingen van Drenth en Sijtsma - 4e druk - Exclusive

BulletPointsamenvatting van Testtheorie: Inleiding in de theorie van de psychologische test en zijn toepassingen van Drenth en Sijtsma - 4e druk

TentamenTests bij Testtheorie: Inleiding in de theorie van de psychologische test en zijn toepassingen van Drenth en Sijtsma - 4e druk

Begrippenlijst van Testtheorie: Inleiding in de theorie van de psychologische test van Drenth en Sijtsma - 4e druk - Exclusive

Samenvatting Testtheorie: inleiding in de theorie van de psychologische test van Drenth et al

Bijlage bij de samenvatting Testtheorie: inleiding in de theorie van de psychologische test van Drenth et al

Assortimentwijzer voor samenvattingen bij Psychologie Bachelor 2 Blok 1A - RUG Groningen

Assortment Pointer for summaries with Psychology Bachelor 2 Block 1A - UG Groningen

Summaries and study notes: Startup pages for studying Statistics - Bundle

Psychology and behavorial sciences - Theme

Studiematerialen bij het vak Testtheorie en testgebruik - RUG

College-aantekeningen bij Testtheorie & Testgebruik aan de Rijksuniversiteit Groningen - 2016/2017

Samenvatting Testtheorie: inleiding in de theorie van de psychologische test van Drenth et al

BulletPointsamenvatting Testtheorie: inleiding in de theorie van de psychologische test van Drenth et al

Bijlage bij de samenvatting Testtheorie: inleiding in de theorie van de psychologische test van Drenth et al

Oefenbundel Testtheorie: inleiding in de theorie van de psychologische test van Drenth et al

College-aantekeningen bij Testtheorie & Testgebruik aan de Rijksuniversiteit Groningen - 2016/2017

Samenvatting Testtheorie: inleiding in de theorie van de psychologische test van Drenth et al

BulletPointsamenvatting Testtheorie: inleiding in de theorie van de psychologische test van Drenth et al

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

This content is related to:

Bijlage bij de samenvatting Testtheorie: inleiding in de theorie van de psychologische test van Drenth et al

2076 keer gelezen

BulletPointsamenvatting Testtheorie: inleiding in de theorie van de psychologische test van Drenth et al

2499 keer gelezen

Going abroad?

Insure your way around the world

International expat insurances

Travel & Worldsupporter insurances (NL)

Study with summaries

Associate with your Field of Study

Search Summaries or Notes&

Start using Summaries

Add a Summary

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Verwarring over de verschillende drukken van dit boek sanderP contributed on 08-11-2017 15:52

Er is op internet (op Bol.com en de site van de uitgever) verwarring en onduidelijkheid over de druk van dit boek. Ik heb het even uitgezocht, in 2006 is er de 4e herziene druk verschenen, hier is de bovenstaande samenvatting van. In 2012 is er een heroplage verschenen van de 4e herziene druk, dit is verkeerd aangegeven op enkele websites als zijnde de 4e herziene druk uit 2015, maar hierin is nagenoeg niets veranderd. Kortom, deze samenvatting sluit aan bij de meest recent verschenen editie.

Add new contribution

Spotlight: topics

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams
How and why use WorldSupporter.org for your summaries and study assistance?
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
Quicklinks to fields of study for summaries and study assistance

Online access to all summaries, study notes en practice exams

Check out: Register with JoHo WorldSupporter: starting page (EN)
Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)

How and why use WorldSupporter.org for your summaries and study assistance?

For free use of many of the summaries and study aids provided or collected by your fellow students.
For free use of many of the lecture and study group notes, exam questions and practice questions.
For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
For compiling your own materials and contributions with relevant study help
For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

Use the summaries home pages for your study or field of study
Use the check and search pages for summaries and study aids by field of study, subject or faculty
Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
Check or follow authors or other WorldSupporters
Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Check out: Why and how to add a WorldSupporter contributions
JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports

Main study fields NL:

Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden

WorldSupporter: what are the features, functionalities and rules on WorldSupporter.org?

WorldSupporter NL: hoe vind je samenvattingen en studiehulp op WorldSupporter.org en JoHo.org

Summaries and Study Assistance - Start

Submenu: Summaries & Activities

Follow the author: Psychology Supporter

Psychology Supporter

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics

4110

Search a summary, study help or student organization

Select any filter and click on Search to see results