Boeksamenvatting bij Psychological Testing and Assessment van Cohen et. al. - 8e druk

Wat houdt psychologisch assessment in? - Chapter 1

Onderscheid tussen meten en testen

De eerste psychologische test werd gepubliceerd door Alfred Binet in 1905 en was bedoeld om te meten in welke klas Franse schoolkinderen het beste geplaatst konden worden. Voor rekrutering in de Tweede Wereldoorlog werden psychologische testen voor het eerst op grote schaal ingezet. Na de oorlog verschenen er steeds meer testen die de meest uiteenlopende psychologische onderwerpen konden meten. Er ontstond een heel bedrijf rondom psychologisch testen. Het begrip testen (‘testing’) werd gebruikt om de afname van een test of om de interpretatie van een testscore te beschrijven. Het begrip meting (‘assessment’) beschrijft de complete set van instrumenten waarmee iemand geëvalueerd kan worden en die gebruikt worden door professionele, getrainde testafnemers. Psychologische testen vallen hieronder. Dit begrip is eveneens ontstaan in de Tweede Wereldoorlog, waar de U.S. Office of Strategic Services mensen evalueerde om te zien of ze geschikt waren voor een bepaalde functie. Het onderscheid tussen meten en testen is van belang: een meting doen vraagt meer vaardigheid en training dan het afnemen van een test. Een psychologische meting (assessment) beschrijft het proces van het verzamelen en integreren van psychologische gegevens om iemand psychologisch te evalueren. Dit gebeurt aan de hand van verschillende instrumenten, zoals testen en observaties. Psychologisch testen beschrijft het meten van een psychologische variabele (vaak een numerieke score) aan de hand van een bepaalde procedure of met behulp van een apparaat. Het neemt een steekproef van een bepaald gedrag.

Proces van assessment

Degene over wie een bepaalde vraag of een probleem is ontstaan wordt doorverwezen naar een onderzoeker (‘assessor’). Een dergelijke vraag is bijvoorbeeld of een kind goed genoeg functioneert om in het normale onderwijs te blijven. De docent kan in dit geval de verwijzer zijn. De onderzoeker selecteert instrumenten aan de hand waarvan hij de vraag kan beantwoorden. Dit kan hij doen vanuit zijn ervaring of zijn opleiding. Soms schrijven instituten richtlijnen over welke instrumenten het beste gebruikt kunnen worden. In ieder geval informeert de tester zich over het instrument door wetenschappelijke artikelen te lezen over het gebruik ervan. Vervolgens worden de geselecteerde instrumenten toegepast om gegevens over de persoon in kwestie te verzamelen. Hierover schrijft de onderzoeker een rapport dat antwoord geeft op de vraag van de verwijzer. Dit bespreekt hij dan weer met de persoon in kwestie of met eventuele derde partijen, zoals de ouders.

Soorten assessment

Verschillende onderzoekers doen hun assessment op verschillende manieren. Bij collaboratieve psychologische assessment werken de persoon en kwestie en de onderzoeker samen het hele proces van het eerste contact tot de laatste feedback door. Als hierbij therapeutisch zelfinzicht en begrip aangemoedigd wordt, wordt het proces therapeutische psychologische assessment genoemd. Bij dynamische assessment wordt een interactieve benadering gebruikt. Eerst wordt het onderwerp van onderzoek geëvalueerd, dan volgt er een interventie en tenslotte wordt er opnieuw geëvalueerd. Dit wordt vaak toegepast in een onderwijscontext. Na de eerste evaluatie van het probleem wordt getracht een oplossing te introduceren en vervolgens wordt gekeken hoeveel vooruitgang de persoon heeft geboekt.

Instrumenten bij assessment

Psychologische testen

Een test is een procedure of een apparaat dat iets meet. Een psychologische test refereert dan aan een apparaat of procedure dat een psychologische variabele meet. Hierbij wordt gebruik gemaakt van een steekproef van een bepaald al dan niet uitgelokt gedrag. De inhoud van de test varieert per test en is afhankelijk van wat de test wil meten, door wie het ontwikkeld is en vanuit welk theoretisch perspectief het geschreven is. Het format is de vorm, de opbouw en de opmaak van een evaluatief instrument, zoals een psychologische test. Ook de manier waarop de test afgenomen wordt valt onder format; is de test digitaal of analoog en wat voor software wordt er gebruikt? Testen vragen ook verschillende afnameprocedures. Soms is het vereist dat iets wordt voorgedaan, soms is er helemaal geen aanwezigheid van een onderzoeker nodig.

Testen brengen scores voort; (meestal numerieke) samenvattingen van een prestatie op een taak of een gedraging in een test of interview. Scoren is het proces waarbij deze evaluatieve codes worden toegewezen aan het gedrag van de persoon. Een grensscore (‘cut score’ of ‘cut-off score’) is een referentiepunt op grond waarvan data geclassificeerd worden. In het Nederlandse schoolsysteem is een 5,5 bijvoorbeeld de grensscore voor een voldoende prestatie of een onvoldoende prestatie. Op grond van de grensscores worden beslissingen gemaakt over wat er gedaan moet worden; bijvoorbeeld over of een sollicitant aangenomen moet worden of over het traject dat een kind zal gaan volgen. Deze grensscores kunnen op informele of formele wijze worden vastgesteld, maar zijn hoe dan ook onderhevig aan degene die hem vaststelt. Hoe een prestatie gescoord wordt, verschilt sterk per test. Soms zijn er duidelijke richtlijnen voor, soms ontbreken concrete instructies.

Testen verschillen ook in hun technische kwaliteit. Psychometrie is een term die de wetenschap van psychologische testen beschrijft. Iemand die hiervan gebruik maakt wordt een psychometrist genoemd. Iets is ‘psychometrisch kloppend’ als het consistent en accuraat meet wat het meten moet. De bruikbaarheid van een psychologische test beschrijft de praktische waarde die het instrument heeft voor het doel ervan (zie hoofdstuk 7).

Interviews

Een interview is een methode om informatie te verzamelen door directe communicatie, waarbij zowel de interviewer als de geïnterviewde inbreng heeft. Non-verbale communicatie en observatie van bepaalde karakteristieken, zoals kleding, kunnen onderdeel uitmaken van de verzamelde informatie. Interviews kunnen echter ook over de telefoon of via andere elektronica, zoals MSN of e-mail, afgenomen worden. Interviews verschillen in lengte, doel en aard. Een personeelsselectie interview verloopt anders dan een diagnostisch interview. Bij een personeelsselectie kan ook gebruik gemaakt worden van een panel interview, ook wel board interview genoemd. Hierbij zijn er meerdere interviewers. Het voordeel hiervan is dat de subjectieve vertekening van de ene interviewer wordt gecompenseerd door de andere. Het nadeel is dat het duurder is en vaak onvoldoende profijt levert.

Portfolio

Een portfolio is een verzameling voorbeelden van de prestaties die iemand op een bepaald gebied behaald heeft. Het is een steekproef uit hun werk. Een portfolio kan gebruikt worden als een evaluatie-instrument. Op basis van vroegere prestaties kan bijvoorbeeld bepaald worden of iemand geschikt is voor een bepaalde baan of opleiding.

Case studies

Case geschiedenis data is de verzameling van archiefinformatie die iets zegt over de onderzochte persoon. Dit kan bestaan uit geschreven informatie of afbeeldingen, formele en informele gegevens, werk, informatie van scholen of justitie, etc. Een case studie kan een illustratieve functie hebben; het fungeert dan als voorbeeld van een bepaalde situatie.

Gedragsobservatie

Bij gedragsobservatie houden onderzoekers de acties van subjecten bij door visuele of elektronische middelen. Ze noteren kwalitatieve of kwantitatieve informatie over het gedrag. Dit middel wordt vaak gebruikt bij diagnostiek of bij personeelsselectie. Bij naturalistische observatie wordt het gedrag buiten het laboratorium in een natuurlijke situatie bekeken. Gedragsobservatie is nuttig bij het detecteren van problemen en het ontwikkelen van interventies. In praktijk wordt observatie nauwelijks gebruikt buiten het laboratorium of instituten waarbij onderzoekers direct toegang hebben tot hun subjecten. Dit komt doordat observatie kostbaar is in termen van tijd en geld.

Rollenspellen

Een rollenspel is het (deels) geïmproviseerd naspelen van een situatie. Een rollenspeltest is een instrument voor assessment waarbij een persoon zich moet gedragen alsof hij zich in de gesimuleerde situatie bevind. Hierbij wordt zijn gedrag geëvalueerd. Een rollenspel wordt meestal gebruikt als de situatie in het echt veel tijd en geld zou kosten. Het wordt bijvoorbeeld toegepast bij personeelsselectie om conflict oplossende of leidinggevende vermogens te meten. Ook in klinische contexten wordt het veel toegepast.

Computer

Computers kunnen dienen als testafnemers en kunnen zo mensen en materiaal vervangen. Ook kunnen ze op efficiënte wijze scoren. De informatie kan ter plekke verwerkt worden (lokale verwerking) of op een centrale plek (centrale verwerking) waarna het door telefoonlijnen (televerwerking) of via de post weer terug wordt gestuurd. De scores kunnen simpelweg op een rijtje worden gezet (simpel scoreverslag) of met statistisch analyse gepresenteerd worden (uitvoerig scoreverslag). Ook kan de computer in een interpretatieverslag een interpretatie geven bij de testscores. Bij een consultatief verslag wordt een mening gegeven aangaande de data-analyse. Bij een geïntegreerd verslag integreert de computer data van verschillende bronnen in het interpretatieverslag.

CAPA, ‘computer assisted psychological assessment,’ is de term die het gebruik van computers bij psychologische metingen samenvat. CAT staat voor ‘computer adaptive testing’ en is een vorm van CAPA waarbij de items worden aangepast aan degene die de test maakt. CAPA heeft het afnemen en scoren van testen veel gemakkelijker, sneller en goedkoper gemaakt. Computers zijn natuurlijk wel beperkt in hun interpretatief vermogen.

De afgelopen jaren wordt er steeds meer gebruik gemaakt van assessment via het internet.

De APA commissie van psychologische tests en assessment heeft de voor- en nadelen van CAPA en assessment waarbij gebruik wordt gemaakt van internet, onderzocht. Enkele voordelen ten opzichte van analoge tests: (1) degene die de tests afnemen hebben, dankzij het wereldwijde bereik van internet, meer toegang tot potentiële testgebruikers; (2) het scoren en interpreteren van testdata gaat over het algemeen sneller dan het scoren van papieren tests; (3) de kosten die komen kijken bij het testen via internet zijn over het algemeen lager; en (4) het internet zorgt ervoor dat populaties die normaal gesproken niet makkelijk bereikbaar zouden zijn, getest kunnen worden. Uiteraard zijn er ook nadelen aan het testen via internet. Een basiskwestie is de test-cliënt integriteit. Dit heeft deels betrekking op de identiteit van de testnemer wanneer een test online wordt afgenomen. Daarnaast heeft het meer algemeen betrekking op de soms variërende interesses van de testnemer versus die van de testafnemer. Afhankelijk van de omstandigheden van de testafname, kunnen testnemers – ondanks de richtlijnen voor testafname - onbeperkt toegang hebben tot aantekeningen, andere internetbronnen en andere hulpmiddelen tijdens het maken van de test. Hierdoor kan er inflatie in scores optreden. Testen via internet is dan ook echt alleen testen, geen assessment.

Overige instrumenten

Video is een belangrijk instrument dat op allerlei manieren kan worden toegepast. De interpretatie of beoordeling van een op video gepresenteerde situatie kan bijvoorbeeld fungeren als meting van de vaardigheid van de beoordelaar. Ook medische meetinstrumenten vormen een belangrijke groep instrumenten bij psychologische testen.

Praktijk van assessment

Wie zijn er betrokken bij assessment?

Ten eerste moeten meetinstrumenten ontwikkeld worden door testontwikkelaars. Ieder jaar worden 20 000 psychologische testen ontwikkeld voor een specifiek onderzoek, voor algemene wetenschappelijke publicatie of als aanpassing of verbetering van bestaande testen. Omdat testen significante invloed hebben op het leven van mensen zijn er veel ethische kwesties die in overweging genomen moeten worden. Belangrijke psychologie organisaties hebben hiervoor gezamenlijk richtlijnen geschreven, de ‘standards for educational and psychological testing.’

Ten tweede zijn er de onderzoekers die de testen bij mensen afnemen. Er bestaat flinke controverse over wanneer iemand testen af mag nemen. Ook mensen die daarvoor geen training hebben gehad willen het recht hebben om gebruik te maken van psychologische testen. Het kan zijn dat er derde partijen aanwezig zijn tijdens de testafname. Of dit moet worden toegestaan is eveneens onderwerp van debat. Volgens McCaffrey moeten derde partijen worden uitgesloten, omdat puur de aanwezigheid van een ander al invloed kan hebben op de meting. Dit effect wordt sociale facilitatie (of inhibitie) genoemd.

Mensen die voor het toestaan van derden zijn beargumenteren bijvoorbeeld dat dit de enige manier is waarop een leerling assessment kan leren of dat er soms een tolk of advocaat aanwezig moet zijn. Tegenstanders zeggen dat er alternatieven voor dergelijke situaties mogelijk moeten zijn.

Ten derde zijn er de mensen die getest worden. Factoren waar bij hen rekening mee gehouden moet worden zijn onder andere de mate van stress die ze ervaren, of ze de procedure begrijpen en ermee instemmen, de mate waarin ze bereid en in staat zijn om mee te werken, de mate waarin ze ongemak ondervinden, of ze al dan niet goed wakker zijn, de mate waarin ze geneigd zijn het overal mee eens te zijn of zich beter voor te doen en of ze eerdere oefening hebben gehad. Iedereen kan getest worden. Zelfs van overledenen kan een psychologisch profiel gereconstrueerd worden, wat psychologische autopsie genoemd wordt.

Ten vierde is er de maatschappij. Van oudsher wordt er vanuit de maatschappij gevraagd om manieren om mensen te classificeren. Wanneer is iemand schizofreen? Wanneer is iemand een heks? Hoe mensen geclassificeerd worden, wordt weer door de maatschappij (religie, beschaving) bepaald. Als de maatschappij verandert, verandert de vraag naar wat onderzocht moet worden en waarop mensen moeten worden beoordeeld. De testen die als gevolg van dergelijke vragen ontstaan, zijn weer onderhevig aan de restricties van het rechtssysteem van diezelfde maatschappij.

Tenslotte zou je nog andere partijen kunnen onderscheiden, zoals belanghebbende bedrijven die testontwikkeling sponsoren. Er zijn mensen die de testen moeten verkopen of meewerken in de ontwikkeling ervan. Weer anderen evalueren de bruikbaarheid en de werking van de test.

In wat voor situaties worden assessments gedaan?

  1. In het onderwijs worden de vaardigheden van kinderen gemeten om hun vooruitgang te evalueren. Bij schoolvaardighedentesten wordt gekeken of er kinderen zijn die extra aandacht nodig hebben. Bij een prestatietest wordt gekeken hoeveel een kind geleerd heeft en hoeveel hij of zij vooruit is gegaan. Deze testen kunnen door de leraar zelf opgesteld worden of er kan gebruik gemaakt worden van algemeen toepasbare testen, zoals SAT of de CITO. Een diagnostische test verwijst naar een assessmenttool om gebieden waar tekorten in optreden en die behandeld kunnen worden, in kaart te brengen. Denk bijvoorbeeld aan dyslexietests. Behalve deze formele toetsen wordt er ook gebruik gemaakt van informele evaluatie, een niet-systematische meting die leidt tot het vormen van een opinie of een attitude. Hoewel deze methode vaak gebruikt wordt in een onderwijssituatie kan hij ook in andere situaties toegepast worden.

  2. In een klinische setting wordt ook veel psychologisch assessment gedaan, bijvoorbeeld om de diagnose bij een persoon met psychische problemen te stellen. Een diagnose is een beschrijving of een conclusie gebaseerd op bewijs en opinie. Een diagnostische test is een meetinstrument dat kijkt op welke gebieden er problemen zijn en waar eventueel een interventie nodig is. Een test kan ook op andere manieren nuttig zijn bij de behandeling van mensen met mentale stoornissen. De meting is bijna altijd individueel. Testen worden alleen op groepsniveau afgenomen om te kijken wie er in aanmerking zou komen voor verdere diagnostische evaluatie.

  3. In een adviserende setting kunnen testen gebruikt worden om te onderzoeken voor welke taak mensen geschikt zijn of hoe hun vaardigheden op een bepaald gebied verbeterd kunnen worden.

  4. Zowel in de VS als in Europa is er sprake van vergrijzing: er zijn steeds meer ouderen die zorg nodig hebben. In deze tak van de zorg, de geriatrie, wordt ook veel gebruik gemaakt van assessment. De cognitieve en psychologische functies van ouderen worden hiermee geëvalueerd, bijvoorbeeld om te kijken voor wat voor zorg iemand in aanmerking komt. Vaak wordt gekeken of mensen een zo goed mogelijke kwaliteit van leven hebben. Dat kan kwalitatief vanuit het perspectief van de persoon zelf zijn of van een buitenstaander.

  5. In het zakenleven en in het leger worden ook veel testen gebruikt. Beslissingen over de carrière van mensen (sollicitatie, promotie) worden bijvoorbeeld vaak op testresultaten gebaseerd. Ook worden testen gebruikt om producten en omgevingen te ontwerpen en te ontwikkelen. In de consumentenpsychologie worden tenslotte tests gebruikt om te bepalen welke producten het beste zouden kunnen aanslaan.

  6. Bij het verwerven van een bepaalde titel, zoals die van psycholoog, is een soort test vaak ook vereist. Voordat je van de overheid een vergunning of certificatie krijgt, moet je bewezen hebben dat je kunt wat je zegt te kunnen. Psychologen moeten assessment ondergaan alvorens ze in aanmerking komen voor het American Board of Professional Psychology, waarbij je erkend wordt als professional. Dit geldt ook voor een diploma van het American Board of Assessment Psychology, dat je kunt ontvangen als je je verdienstelijk gemaakt hebt in de testpsychologie.

  7. Ook in rechtszaken kunnen testen nodig zijn, bijvoorbeeld voor een evaluatie van de toerekeningsvatbaarheid van de verdachte.

  8. In gezondheidspsychologie wordt gezocht naar psychologische variabelen die van belang zijn voor de fysieke gezondheid. Hier worden testen gebruikt om gezondheidsproblemen te identificeren en om die problemen na interventie te evalueren. Ook kijkt men door assessment naar de invloed van persoonlijkheid, gedrag en levensstijl op gezondheid. Er is bijvoorbeeld een test ontwikkeld die alcoholisme kan voorspellen. Assessment in gezondheidspsychologie maakt vaak gebruik van interviews.

Hoe wordt assessment verricht?

Voor de assessment moeten natuurlijk meetinstrumenten geselecteerd worden. In principe kunnen dingen op alle mogelijke manieren gemeten worden. Vaak staat de procedure redelijk vast omdat een assessment is gebaseerd op eerdere publicaties en zich moet houden aan ethische richtlijnen. De protocollen (standaards) beschrijven tamelijk gedetailleerd hoe onderzoekers verantwoordelijkheid moeten dragen voor de personen die ze onderzoeken. Tijdens de assessment zelf is rapport van belang; de communicatie tussen de onderzoeker en de onderzochte. Op die manier kan de gang van zaken uitgelegd worden en kunnen mensen op hun gemak gesteld worden. Na het onderzoek moeten de data op verantwoorde, consistente wijze gescoord, geïnterpreteerd en gepresenteerd worden.

Assessment bij mensen met een beperking

Bij mensen met een beperking is het vaak nodig dat de meetinstrumenten voor het assessment aangepast worden. Bij dove mensen kan bijvoorbeeld een vragenlijst in gebarentaal afgenomen worden. Een test, procedure of situatie kan worden aangepast of door iets anders worden vervangen. Op deze manier wordt het een persoon met een beperking mogelijk gemaakt een assessment te ondergaan. Dit proces wordt accommodatie genoemd. De resulterende alternatieve assessment is een evaluatieve of diagnostische procedure die afwijkt van het standaard proces, en, op een manier die aansluit bij de onderzochte persoon, dezelfde variabelen probeert te meten. Dit kan wel problemen opleveren. Soms hebben de methoden invloed op de resultaten, en kunnen de resultaten van mensen met een beperking vertekend zijn ten opzichte van de andere resultaten. Zijn de methoden equivalent, dat wil zeggen, meten ze wel exact hetzelfde?

De accommodatie kan op verschillende manieren plaatsvinden. De vorm waarin de test gepresenteerd wordt kan aangepast worden, bijvoorbeeld in geschreven in plaats van auditieve vorm. De manier waarop iemand respondeert op de test kan ook veranderd worden. Een stomme kan bijvoorbeeld zijn antwoorden opschrijven. Soms is accommodatie van de fysieke omgeving vereist, bijvoorbeeld bij de onderzochte thuis in plaats van in het laboratorium. Tenslotte kan de interpersoonlijke omgeving aangepast worden, bijvoorbeeld door een derde partij uit te nodigen.

Welke accommodatie wordt gemaakt hangt af van verschillende factoren. Ten eerste hangt het er natuurlijk vanaf wat de onderzochte persoon wel kan en waarin hij beperkt is. Ten tweede hangt het af van het doel van de assessment. Soms is accommodatie gepast, soms niet. Auditieve aanwijzingen geven zodat een blinde een rijexamen kan doen, gaat bijvoorbeeld wat ver. Ten derde hangt het ervan af of de accommodatie de testresultaten interpreteerbaar laat. Als de procedures worden aangepast, is het vaak maar de vraag of de resultaten op dezelfde manier kunnen worden gescoord en geïnterpreteerd. Ten vierde hangt het ervan af wat de vaardigheden van de onderzoeker zijn. Sommige testafnemers bezitten niet de vaardigheid om testen af te nemen bij bepaalde groepen of om hun testresultaten objectief te beoordelen.

Waar haal je je meetinstrumenten vandaan?

Voor het selecteren van meetinstrumenten en psychologische testen voor assessment kun je een catalogus van een uitgever van dergelijke testen doorlopen. Het nadeel hiervan is dat de beschrijving van de testen weinig technisch en kort is. Bovendien is het doel van een catalogus om de testen te verkopen en zullen kritische noten ontbreken. Als je er een testhandleiding op na slaat kom je meer gedetailleerde en technische informatie tegen. Een dergelijke handleiding kun je kopen van de testontwikkelaar, hoewel je daarvoor vaak wel moet kunnen bewijzen dat je een professional bent. Dan zijn er nog standaardwerken die beschikbare testen samenvatten, zoals de ‘Mental Measurements’ volumes of ‘Tests in Print’ van het Buros instituut. Ook vormen wetenschappelijke tijdschriften een belangrijke bron van informatie over meetinstrumenten. Publicaties kunnen reviews, evaluaties en specifieke toepassingen van testen beschrijven. Deze zijn bijvoorbeeld in online databases te vinden, zoals PsychINFO van de American Psychology Association. Het ‘Educational Resources Center’ biedt ook een online database van test gerelateerde publicaties. Er zijn ook particuliere organisaties die testen aanbieden. De grootste daarvan is de Educational Testing Service. Tenslotte hebben universiteitsbibliotheken vaak een aantal bronnen die gebruikt kunnen worden om informatie te verkrijgen over tests en test-gerelateerde onderwerpen. Twee voorbeelden zijn de Directory of Unpublished Experimental Mental Measures en Tests in Microfiche. Deze bronnen bieden niet-gepubliceerde tests en metingen.

Wat zijn ethische overwegingen bij het doen van psychologische assessments? - Chapter 2

 

Context van assessment

In het volgende gedeelte wordt de achtergrond van assessment beschreven. Eerst wordt de geschiedenis van de ontwikkeling van assessment beschreven en vervolgens assessment in de context van verschillende culturen.

Geschiedenis van assessment

Oudheid

De eerste bekende toepassing van assessment dateert uit 2200 voor Christus, toen de Chinese regering sollicitanten testten op hun vaardigheid. De maatschappelijke positie van een burger werd toen dus niet langer alleen gebaseerd op zijn afkomst, hoewel de kans dat iemand uit een lagere klasse voldoende onderwijs kreeg om een overheidsbaan te krijgen nog altijd niet groot was. Mensen werden getest op algemene kennis, zoals muziek, reken- en schrijfvaardigheid en geografie. Welke kennis vereist was varieerde ook per dynastie. Onder de Song dynastie werd kennis van klassieke literatuur bijvoorbeeld erg gewaardeerd. Als je slaagde voor een dergelijk keizerlijk examen kon je naast een baan bij de overheid allerlei privileges verwerven, zoals een titel of belastingontheffing. Later, bij de oude Grieken en Romeinen, werd getracht mensen in te delen op persoonlijkheid, die samen zou hangen met de aanwezigheid van een bepaald lichaamssap. In de Middeleeuwen werden mensen ‘getest’ op hun religiositeit: waren ze aanhangers van God of van de duivel? Pas nadat Wolff in de 18de eeuw de psychologie vestigde als een wetenschap begon men psychologische metingen te beschouwen zoals dat later werd gedaan.

19de eeuw

In 1859 publiceerde Darwin het boek ‘On the Origin of Species,’ waarin hij de theorie introduceerde dat soorten ontstaan door willekeurige variatie en natuurlijke selectie. Dit leidde ertoe dat zijn neef Galton onderzoek ging doen naar de erfelijkheid van individuele kenmerken. Om verschillen en overeenkomsten tussen familieleden te onderzoeken ontwikkelde hij allerlei meetinstrumenten, waaronder de vragenlijst. Ook ontwikkelde hij de statistische techniek van correlatie, waarbij de sterkte van het verband tussen verschillende variabelen gemeten kan worden.

Het belang van assessment werd steeds duidelijker en speelde een grote rol bij het eerste psychologielaboratorium, dat werd opgericht door Wundt aan het eind van de 19de eeuw. Wundt zocht naar een algemene beschrijving van de menselijke aard in plaats van naar individuele verschillen, zoals Galton deed. Hij probeerde de invloed van individuele verschillen die niet het onderwerp van onderzoek waren in zijn experimenten zoveel mogelijk te reduceren. Nog steeds worden experimenten zoveel mogelijk gestandaardiseerd om de invloed van externe variabelen te beperken. Eén van Wundts studenten, Cattell, was juist gefascineerd door individuele verschillen. Onder invloed van Galton introduceerde hij de term ‘mentale test.’ Andere beroemde studenten van Wundt waren bijvoorbeeld Spearman, Henri, Kraepelin, Titchener, Hall en Witmer. Spearman introduceerde factoranalyse en de Spearman correlatie. Henri deed onderzoek naar manieren waarop mentale tests gebruikt konden worden om hogere mentale processen te onderzoeken. Kraepelin introduceerde de testtechniek van woordassociatie. Witmer wordt vaak gezien als de oprichter van de klinische psychologie.

20ste eeuw

Tot de 20ste eeuw hadden mentale testen weinig praktisch nut. Toen werden er testen geïntroduceerd die intelligentie konden testen. Later konden ook onderwerpen als persoonlijkheid, waarden en meningen, mentale vermogens en interesses gemeten worden.

De eerste praktische mentale test was een intelligentietest. Al in 1895 wilde Binet testen ontwikkelen om geheugen en sociale vaardigheden te testen. In 1905 ontwikkelde hij samen met Simon een intelligentietest om zwakbegaafde kinderen op een Parijse school te kunnen identificeren. Dit zette een lange traditie van intelligentieonderzoek in. In 1939 introduceerde Wechsler een intelligentieschaal voor volwassenen, later de ‘Wechsler Adult Intelligence Scale’ genoemd. De test werd nog vaak aangepast en uitgebreid. De groeiende populariteit van psychologische testen werd veroorzaakt door de vraag vanuit het leger om grote groepen, zoals nieuwe rekruten, op intelligentie te kunnen testen. De psychologen die in het leger testen afnamen namen hun kennis mee terug de maatschappij in. Al snel werden steeds meer testen toegepast op andere gebieden. Klinische psychologie stond op een gegeven moment gelijk aan psychologisch testen en er gebeurde weinig anders binnen de psychologie.

In de oorlogen van het begin van de 20ste eeuw ontstond ook de vraag naar efficiënte testen voor de psychologische gezondheid van rekruten. Een commissie onder leiding van Woodworth ontwikkelde hiervoor bijvoorbeeld de ‘Personal Data Sheet,’ een soort psychiatrisch interview waarop mensen moesten aangeven of ze wel eens last hadden van bepaalde symptomen van mentale stoornissen.

Na de oorlog werkte Woodworth dit uit tot de ‘Psychoneurotic Inventory,’ een persoonlijkheidstest voor gebruik buiten het leger. Dit was de eerste veelgebruikte zelfrapportage, een assessment waarbij mensen zelf informatie geven over het onderzochte onderwerp. Zelfrapportage werd vanaf toen steeds vaker en grootschaliger toegepast.

Het voordeel van zelfrapportage is dat mensen zelf de meeste informatie over zichzelf kunnen geven. Het nadeel ervan is dat mensen niet altijd correcte informatie over zichzelf kunnen of willen verstrekken. Daarom werden er alternatieve methoden ontwikkeld. Een voorbeeld daarvan is de projectieve test, waarbij aangenomen wordt dat mensen hun eigen verlangens en angsten projecteren op ambigue stimuli en ze daarom op een bepaalde manier interpreteren. Een voorbeeld hiervan zou zijn als iemand die aan het lijnen is een hamburger in een inktvlek ziet. Het interpreteren van de vorm van inktvlekken wordt gebruikt in de Rorschacher Inkblot testen. In andere testen, gepopulariseerd door Murray en Morgan, moeten mensen de situatie uit een foto interpreteren.

Psychologische testen worden in beide stromingen van de psychologie, de academische en de toegepaste traditie, toegepast. In de academische traditie worden ze gebruikt om de algemene basiskennis over mensen te vergroten. In de toegepaste traditie worden ze gebruikt om praktische problemen op te lossen.

Cultuur en assessment

Cultuur is de set van sociaal doorgegeven gedragspatronen, opvattingen en creaties, die een bepaalde populatie, gemeenschap of groep mensen deelt. Cultuur is bepalend voor veel gedragingen en gedachtepatronen. Bij assessment moet dus rekening gehouden worden met deze factor. Onderzoekers zijn in toenemende mate cultureel sensitief.

Beginnende interesse in invloed van cultuur: Goddard

Kort na de introductie van de intelligentietest van Binet begonnen de Verenigde Staten asielzoekers mentaal te testen alvorens hen toe te laten. Goddard, die een belangrijke rol speelde in dit proces, zette van het begin af aan vraagtekens bij de waarde van een psychologische test voor mensen uit andere culturen. Hoewel hij tot op zekere hoogte trachtte rekening te houden met culturele achtergrond, waren de testresultaten vertekend: ongeveer 80% van de immigranten werd aangemerkt als mentaal beperkt. Goddard vroeg zich af of dit kwam door een of ander genetisch defect of door deprivatie. Waarschijnlijk werden de testresultaten vertekend door de gebrekkige test zelf.

Goddard had over het geheel genomen een controversiële carrière. Na een korte tijd als leraar in de wiskunde legde hij zich toe op de psychologie. Hij was vooral geïnteresseerd in mentaal gebrek of zwakbegaafdheid. In Europa verwierf hij kennis van de Binet-Simon test, die hij na terugkomst op grote schaal introduceerde in de Amerikaanse maatschappij. Hij zag dat deze test goed gebruikt kon worden om ‘imbecielen’ te identificeren. Hij begon te geloven dat intelligentie allesbepalend was voor alle aspecten van het leven en dat een lage intelligentie oorzaak was van allerlei maatschappelijke problematiek. Onder invloed van Davenport werd hij aanhanger van de eugenetica, een stroming die stelt dat de wetenschap zich erop moet richten om een soort (het menselijk ras) te verbeteren door selectieve voortplanting. Mensen met lage intelligentie zouden zich niet mogen voortplanten en moesten apart gehouden worden. Goddard was er namelijk van overtuigd dat intelligentie erfelijk bepaald werd, en niet, zoals hij vroeger dacht, door de omgeving. Hij publiceerde een boek over een bepaalde familielijn. Hierin werd een man beschreven die kinderen kreeg bij zowel een intelligente vrouw (‘goede erfelijkheid’) als bij een niet-intelligente vrouw (‘slechte erfelijkheid’). Mentale beperking kwam volgens Goddard alleen voor in de afstamming van de niet-intelligente vrouw. Er schortte echter het één en ander aan de gebruikte methodologie in het boek. Zo werd op grond van gegevens over delinquentie, alcoholisme of zelfs uiterlijk bepaald of iemand al dan niet mentaal beperkt was. Er ontstond nogal wat kritiek op Goddards onderzoek. Myerson stelde bijvoorbeeld dat Goddard ongefundeerde generalisaties maakte op grond van sowieso al twijfelachtige data. Na 12 jaar onderzoek in Vineland vertrok hij onder onduidelijke omstandigheden. Hij stierf op 90-jarige leeftijd.

Ondanks zijn controversiële onderzoeken leverde Goddard een substantiële bijdrage aan de psychologie. Hij introduceerde het grootschalige en ‘cultuursensitieve’ gebruik van intelligentietesten. Hij gaf de voorzet tot een lange traditie van testontwikkeling en tevens laaide onder zijn invloed een debat op over de nature-nurture kwestie. Ondanks deze prestaties is Goddard niet populair, onder andere omdat zijn werk veelal geassocieerd wordt met eugenetische opvattingen van bijvoorbeeld de nazi’s. Niettemin kan hij gezien worden als een man met goede bedoelingen wiens opvattingen simpelweg het product waren van zijn tijd.

Van cultuurspecifieke testen naar cultuursensitieve testen

Na Goddard raakte men ervan overtuigd dat testresultaten vertekend konden worden door culturele achtergrond of door taaltechnische problemen. Daarom waren de meeste testen cultuurspecifiek: ze werden alleen ontwikkeld en gebruikt voor één cultuur. De Stanford-Binet intelligentietest was bijvoorbeeld niet geschikt voor gebruik bij etnische minderheden. Volgens Wechsler konden de resultaten van zijn Wechsler-Bellevue intelligentieschaal bij etnische minderheden niet geïnterpreteerd worden en deze werden dan ook geschrapt.

Later werden wel testen gepubliceerd die cultuursensitiever moesten zijn, maar vaak scoorden mensen uit minderheden een stuk lager. Items waren vaak cultuurspecifieker dan gedacht werd. Tegenwoordig ondernemen testontwikkelaars allerlei extra stappen om een test minder cultuurspecifiek te maken. Vaak wordt een test eerst uitgeprobeerd bij mensen van verschillende achtergronden. Onderzoekers kunnen de reacties op bepaalde testitems bij deze mensen observeren en proberen te bekijken welke items vertekend zouden kunnen zijn. Een panel van onafhankelijke reviewers kan gevraagd worden om de items door te lopen en te controleren. Naar aanleiding van een dergelijke controle wordt de test vaak aangepast voor publicatie.

Communicatie in testen: taalproblemen

Het is natuurlijk van belang dat de onderzoeker en de onderzochte dezelfde taal spreken. De onderzochte persoon moet kunnen begrijpen wat er van hem gevraagd wordt. Ook al spreekt iemand de taal waarin de test geschreven is, blijft de kans op subtiele vertekening bestaan als deze taal niet zijn moedertaal is. Het kan wel zo zijn dat de persoon in kwestie niet mee wil werken en alleen maar doet alsof hij de test niet goed begrijpt. In een interview kan er bij de vertaling een deel van de subtiele betekenis van vragen verloren gaan. In een gesproken interview is dit makkelijker te zien en te ondervangen dan in een geschreven interview.

Dit soort problemen roept vragen op. Wanneer spreekt iemand de taal goed genoeg om de test te ondergaan? Kunnen de resultaten hetzelfde geïnterpreteerd worden? Bovendien is er nog het probleem dat bepaald materiaal cultureel geladen kan zijn.

Communicatie in testen: non-verbale communicatieproblemen

Mensen communiceren niet alleen door taal, maar ook door allerlei non-verbale aanwijzingen. Zo kun je informatie afleiden uit iemands lichaamshouding of gezichtsuitdrukking. Non-verbale informatie gebruiken we om mensen te beoordelen. Enthousiaste, beweeglijke sollicitanten worden eerder aangenomen; ineengedoken mensen worden eerder gezien als depressief. Volgens opvattingen uit de psychoanalyse, een persoonlijkheidstheorie en behandelmethode ontwikkeld door Sigmund Freud, kan er nog veel meer afgeleid worden uit non-verbale aanwijzingen. De eerste ‘toevallige’ acties van iemand tijdens een therapiesessie indiceerden volgens Freud allerlei motivaties. Mensen die aan hun trouwring friemelen tijdens een sessie zouden bijvoorbeeld huwelijksproblemen hebben. De psychoanalyse, die sterke nadruk legde op seksuele motivaties, is overigens een voorbeeld van hoe cultuur invloed heeft op wetenschap. De theorie ontstond in het preutse Victoriaanse tijdperk, waarin seks taboe was.

Non-verbale communicatie wordt beïnvloed door cultuur. In de ene cultuur is oogcontact maken onbeleefd, in de andere is het teken van desinteresse of angst. Een kind kan in een test weinig responsief zijn, niet uit angst, maar omdat het in zijn cultuur taboe is als een kind ongevraagd tegen volwassenen praat. Ook algemene snelheid is een cultureel bepaald non-verbaal gedrag. In het Zuiden bijvoorbeeld ligt het tempo van leven over het algemeen wat lager. Volgens Hoffman zou men dan ook vraagtekens moeten zetten bij de waarde van getimede testen bij verschillende culturele groeperingen. Het is van essentieel belang dat de testontwikkelaar en –gebruiker diepgaande kennis heeft over aspecten van de cultuur van de onderzochte persoon die relevant zijn voor de test.

Interpretatie van testen: evaluatiestandaards

Als beoordeeld moest worden welke van de uit honderd verschillende landen afkomstige soep het beste was, welke soep zou dan winnen? Dat zou afhangen van de persoonlijke voorkeur en de criteria van de beoordelaar, en die hangen af van cultuur. Ook de evaluatie van psychologische kenmerken zijn op die manier cultuur relatief. Of een bepaald kenmerk als typisch mannelijk of als typisch vrouwelijk wordt gezien, hangt bijvoorbeeld af van cultureel bepaalde stereotypen. En of een gedraging wordt gezien als pathologisch (ziek), hangt af van de heersende standaards in de betreffende cultuur. Ook of iemand wordt gezien als een goede leider en of iemand als intelligent of moedig wordt beschouwd varieert per cultuur. Ook andere psychologische variabelen zijn onderhevig aan deze variatie. Bij het ontwikkelen en gebruiken van testen moeten dus kritische vragen worden gesteld. Zijn de gebruikte evaluatiestandaards en normen, bijvoorbeeld voor wanneer je iemand ‘intelligent’ noemt, toepasbaar op mensen uit een andere cultuur?

Testen en discriminatie

Als twee groepen systematisch verschillen op een bepaalde test, kan er conflict ontstaan. In principe moeten groepen gelijke kansen krijgen, maar vaak krijgen ze dat op grond van (vermeende) verschillen niet. Testgebruikers moeten voldoen aan allerlei wettelijke en ethische eisen bij het gebruiken van test bij verschillende groepen, bijvoorbeeld voor personeelsselectie. Deze testen mogen bijvoorbeeld alleen maar vragen naar dingen die belangrijk zijn voor de betreffende baan, en niet naar andere kenmerken zoals culturele achtergrond. Toch wordt er vaak beweerd dat testen gebruikt worden om mensen te discrimineren op niet-relevante kenmerken. Er ontstaan vaak conflicten over welke criteria het dan zijn waarnaar wel en waarnaar niet gekeken mag worden. Als de Amerikaanse politie bijvoorbeeld alleen lange mensen werft, worden mensen van andere etniciteit automatisch uitgesloten, omdat zij in het algemeen minder lang zijn. Dan is de vraag: is het gerechtvaardigd om te selecteren op lengte? Is het niet discriminerend? Een ander voorbeeld is dat mensen van een bepaalde religie vaak worden uitgesloten vanuit praktische overwegingen. Joden willen uit religieuze overtuiging bijvoorbeeld niet werken in het weekend en worden zodoende uitgesloten voor veel banen.

Als er daadwerkelijk verschillen bestaan tussen groepen, bijvoorbeeld in vaardigheden van belang voor een bepaalde baan, kan daar op twee manieren over gedacht worden. Volgens de eerste opvatting is er niets mis mee dat groepen verschillen op dergelijke kenmerken. Als er geen sprake is van discriminatie hoeft er dan niets te gebeuren. Volgens de tweede opvatting moet er actie ondernomen worden om de ongelijkheid tussen de groepen tegen te gaan. Affirmatieve actie is het (vrijwillig) nemen van maatregelen van de overheid, werkgevers en scholen om discriminatie tegen te gaan en gelijke kansen te creëren. In assessment gebeurt dit bijvoorbeeld door de normen voor een bepaalde groep aan te passen. Sommigen zien dit juist als instandhouding van ongelijkheid; volgens hen staat dit gelijk aan beweren dat het onjuist is dat er verschil bestaat en dat de groep aangepast moet worden aan de meerderheid.

Wettelijke en ethische overwegingen bij assessment

Hoewel assessment in veel meer contexten wordt gebruikt is vooral het gebruik bij beslissingen over het leven van mensen bekend bij het publiek. Mensen hebben dan veel te winnen of te verliezen bij een testresultaat, bijvoorbeeld een baan. Er is dan ook veel strijd gevoerd om ervoor te zorgen dat testen op een eerlijke, ethische manier worden toegepast. Vanwege de ver strekkende implicaties van een testresultaat is een dergelijke bescherming geen overbodige luxe.

Deze bescherming bestaat bijvoorbeeld in wetten. Wetten zijn regels die individuen moeten gehoorzamen voor het grotere goed van de hele maatschappij. Sommige wetten zijn onomstreden. Mensen hebben geen moeite met het gehoorzamen van wetten die voor hun eigen veiligheid bedoeld zijn, zoals aan de rechterkant van de weg rijden. Andere wetten die sterk ingrijpen in het individuele leven, zoals het verbod op abortus, zijn controversiëler. Bepaalde wetten omtrent assessment zijn controversieel. Een andere bescherming bestaat in ethiek, een set principes over welke dingen goed en gepast zijn. Een voorbeeld daarvan is dat je mensen niet in de rug schiet. Bij een ethische beroepscode zeggen mensen in een beroep toe dat ze aan een bepaalde set ethische principes gehoorzamen.

Ontstaan van regelgeving

Geschiedenis

De angst voor testen is ontstaan na de Eerste Wereldoorlog, toen testen op grote schaal geïntroduceerd werden. Artikelen over de ‘testobsessie’ ventileerden algemeen maatschappelijk levende gevoelens van ongemak over al die testen. Voorlopend op de later geïntroduceerde standaards, pleitte Ruch in 1925 voor richtlijnen voor testontwikkeling. Zijn oproep leidde tot de ontwikkeling van standaardwerken die alle gepubliceerde testen evalueerden en vergeleken.

De Tweede Wereldoorlog had een minder groot effect op de assessmentbeweging dan een andere gebeurtenis, namelijk de lancering van de eerste satelliet door Rusland. Vanaf dat moment begonnen de VS door testen getalenteerde kinderen te identificeren. Dit leidde tot een grootschalige introductie van testen in het onderwijs, en later ook in personeelsselectie door de overheid, het leger en het zakenleven. De onrust rondom alle testen laaide weer op door het artikel van Jensen, waarin beweerd werd dat het verschil in intelligentie tussen negroïde en blanke mensen genetisch bepaald was. Dit leidde tot een hevig nature-nurture debat en tot scepticisme over de feitelijke waarde van intelligentietesten. De onrust van het publiek leidde tot introductie van allerlei nieuwe wetgevingen en bemoeienis van overheden, die belangrijke invloed hebben gehad op het assessmentproces.

Wetgeving

In de loop der tijd zijn er verschillende wetten ontstaan rondom de assessmentbeweging. In de jaren ’70 werden minimale competentie testprogramma’s geïntroduceerd. Dit zijn een soort examens die moeten bekijken of mensen voldoende vaardigheid bezitten om iets te verdienen, zoals een diploma, of dat ze extra aandacht nodig hebben. Deze wetten werden geïntroduceerd omdat meetbaar gemaakt moest worden of mensen een minimale competentie bezaten.

In de jaren ’80 werd truth-in-testing legislation geïntroduceerd. Het doel hiervan was dat mensen konden zien op welke criteria ze in een test beoordeeld werden. Er moest bijvoorbeeld een beschrijving van het doel van de test gegeven worden, men moest duidelijk maken welke vaardigheden getest werden, er moesten middelen gegeven worden waarmee mensen konden controleren of hun resultaten goed gescoord werden en of vertrouwelijkheid betracht werd. Deze regels leveren problemen op voor testontwikkelaars, voor wie geheimhouding van items soms noodzakelijk is.

Ook ontstond er wetgeving over hoe testen mochten worden toegepast bij personeelsselectie of bij toelatingseisen van opleidingsinstellingen. De ‘Equal Employment Opportunity Commission’ (EEOC) publiceerde richtlijnen over hoe personeelsselectietesten opgezet en gebruikt moesten worden. Samen met andere commissies ontwikkelde de EEOC de ‘uniforme richtlijnen voor personeelsselectieprocedures.’ In deze richtlijnen werd bijvoorbeeld vastgelegd dat procedures die onderscheid maken tussen groepen niet als discriminerend werden gezien als ze bewezen nuttig waren. Het publiek is echter snel om testen te veroordelen als discriminerend en oneerlijk. Nu is het vaak zo dat de standaards omlaag worden gegooid als aantijgingen van discriminatie problemen bij testgebruik veroorzaken. In Texas word je bijvoorbeeld toegelaten tot de universiteit als je bij de beste 10% van de scholieren hoort, ongeacht je SAT-score. Een andere veel voorkomende ‘oplossing’ in dergelijke zaken is het gebruik maken van een quotasysteem, waarbij een vast percentage van mensen van een bepaalde achtergrond wordt geselecteerd. Volgens Gottfredson geven dergelijke procedures alleen een illusie van vooruitgang, terwijl er niets verbetert als men valide testen zoals de SAT elimineert. Ze heeft daarom gepleit voor het dichten van de kloof tussen verschillende groepen in plaats van het verlagen van de standaards voor benadeelde groepen.

Procesvoering

Vaak komen zaken waarbij sprake zou kunnen zijn van discriminatie terecht bij de rechter. De interpretaties van bestaande wetten wordt vaak gevestigd in rechtszaken. Ook kan het de aandacht van wetgevers op een bepaalde zaak vestigen, waardoor er nieuwe wetten geschreven kunnen worden. Procesvoering heeft zodoende invloed op wetgeving. Rechters bepalen niet in hun eentje hoe wetten in een bepaalde zaak geïnterpreteerd moeten worden. Vaak maken ze gebruik van advies van een expert getuige, bijvoorbeeld een psycholoog. Omdat experts invloed hebben op de procesvoering, is het een belangrijke vraag wie er in aanmerking zou moeten komen voor een dergelijke rol en hoe zwaar zijn oordeel zou moeten wegen. De zaak Daubert versus Merrell Dow Pharmaceuticals is van essentieel belang geweest bij het beantwoorden van zulke vragen. Deze zaak werd aangespannen nadat een zwangere vrouw na gebruik van medicijnen van Merrell Dow kinderen met geboortedefecten kreeg. In deze zaak werd een expert oordeel opgevraagd om als bewijs te dienen dat de geboortedefecten inderdaad door de medicijnen veroorzaakt konden zijn. Op grond van dat bewijs werd Merrell Dow in het gelijk gesteld. Volgens de Frye wet geld het expertoordeel dat het meest algemeen aanvaard wordt door andere experts als geldig bewijs. Er is echter een regel die zegt dat ook experts die het niet eens zijn met de algemeen aanvaarde opvatting gehoord mogen worden in een zaak. Aangezien dat niet was gebeurd in de zaak tegen Merrell Dow ging Daubert in beroep. Hierop werd besloten dat de rechter zelf moest bepalen welk expert oordeel hij zou laten gelden als bewijs. Factoren die hij hierbij in overweging zou kunnen nemen zijn hoe goed een theorie getest is en of hij fouten zou kunnen bevatten. In een latere zaak werd zelfs bepaald dat het oordeel van iedere expert als bewijs mag gelden, ongeacht of hij een basis van wetenschappelijk onderzoek kan aantonen. Op deze manier is de rol van de expert groter geworden door procesvoering.

De American Psychology Association (APA) heeft vanaf 1895 herhaaldelijk richtlijnen voor assessment gepubliceerd. De National Educational Association heeft richtlijnen voor prestatietesten gepubliceerd. Er is een stelsel van gedetailleerde richtlijnen voor testen ontstaan die veel vraagstukken kunnen beantwoorden.

Onderwerpen die ethische problemen opleveren

Kwalificatie van testafnemers

In een APA code uit 1950 werd gesteld dat niet iedereen zomaar iedere psychologische test af mag nemen. Testen werden ingedeeld op drie niveaus. Niveau A testen kunnen worden afgenomen aan de hand van wat algemene kennis en de handleiding. Voor niveau B testen is meer technische kennis nodig over de constructie en het gebruik van de test. Voor niveau C testen is substantieel begrip en kennis nodig van testen en van psychologische achtergronden. Deze drie niveaus corresponderen met drie niveaus van training en opleiding. De codes stellen dat testen niet mogen worden afgenomen door onvoldoende gekwalificeerde personen. Sceptici stellen dat het een vorm van geldtrekkerij is om zulke hoge standaards te zetten; de APA zegt dat die standaards essentieel zijn voor het functioneren van de testindustrie. In 1987 is er een wet geschreven die voorschrijft door wie testen mogen worden afgenomen. In deze wet zijn termen als ‘psychologische testen,’ ‘assessment,’ ‘testgebruiker-kwalificaties’ en ‘assessor-kwalificaties’ onvoldoende gedefinieerd en van elkaar onderscheiden. Daardoor is het niet duidelijk wanneer wie nou wat mag doen. Assessors hebben bijvoorbeeld meer opleiding nodig dan testgebruikers (zie hoofdstuk 1). Dergelijke verwarring heeft aanleiding gegeven tot de vraag naar een herschrijving van de wet.

Testen afnemen bij mensen met een beperking

Om een test bij mensen met een beperking af te kunnen nemen moeten vaak dingen aangepast (geaccommodeerd) worden. Zo kan de test worden aangepast, kunnen de responsies van de persoon aangepast worden zodat ze gescoord kunnen worden of kan de interpretatie van de resultaten anders verlopen. Zoals gezegd in hoofdstuk 1 kan het accommoderen van een test zodat die gebruikt kan worden door mensen met een beperking problematisch zijn. Deze problemen zijn van extra belang als de test waarin de problemen optreden wordt gebruikt als indicatie of de geteste persoon in aanmerking komt voor euthanasie.

Testafname om te bepalen over leven en dood

De Amerikaanse staat Oregon is de enige in Amerika die een euthanasiewet heeft. In de ‘Organ’s Death with Dignity Act’ (ODDA) is bepaald dat mensen die nog maximaal zes maanden te leven hebben hun leven met behulp van medicijnen mogen beëindigen. In de ODDA wordt expliciet niet gesproken over ‘hulp bij zelfmoord.’ Het doel van de wet is om mensen controle te geven over hun sterfproces. Uit onderzoek blijkt dat een euthanasieaanvraag meestal voortkomt uit het verlies van zelfstandigheid, niet meer in staat zijn om aan plezierige activiteiten mee te doen, verlies van waardigheid en een oncontroleerbare hoeveelheid pijn.

Critici vragen zich af of zelfmoord in wat voor omstandigheden dan ook ooit een rationele keuze kan zijn, en ze zijn bang dat het toestaan van zelfmoord mensen er een positievere houding tegenover geeft. Tevens wordt de zorg geuit dat zogenaamde gehuurde wapens, professionals die hun cliënt een advies naar hun zin geven als ze maar genoeg betalen, ervoor zorgen dat mensen zich te snel van het leven beroven. In Nederland is er maar weinig sprake van psychologische evaluatie na een euthanasieaanvraag. Hier is het zelfs mogelijk dat mensen die een psychische stoornis hebben in plaats van een lichamelijke stoornis euthanasie plegen. Critici zijn bang dat mensen zich te snel van het leven beroven. Voorstanders stellen dat behandeling een leven vol pijn zinloos kan verlengen. Ook zijn er voorbeelden bekend van mensen die zelfmoord trachtten te plegen en daarmee hun lijden slechts verlengden. Hulp was in deze gevallen zinvol geweest.

Toestemming voor euthanasie mag gegeven worden door twee artsen, die elk mogen verzoeken om een psychologisch onderzoek om te bepalen of de patiënt wel in staat is om een rationele beslissing over zijn leven te maken. Een psycholoog die gevraagd wordt om een dergelijke assessment te doen mag zelf bepalen of hij al dan niet wil meewerken. Het blijkt dat een aanzienlijk deel van de mensen die gekwalificeerd zijn om dergelijk onderzoek uit te voeren, hiertoe niet bereid zijn. De ODDA assessment bestaat uit verschillende dingen. Eerst wordt gekeken naar de geschiedenis van de patiënt. Vervolgens wordt overlegd met de behandelende artsen. Daarna gaat de onderzoeker met de patiënt en zijn familieleden in gesprek. Er wordt gekeken of de patiënt voldoende in staat is om een rationele beslissing te nemen en eventuele psychologische stoornissen worden geïdentificeerd. Tenslotte worden de uitkomsten besproken en doet de onderzoeker zijn aanbevelingen.

Gecomputeriseerde testafname

CAPA, computer-assisted psychological assessment, levert ook ethische problemen op, zoals in hoofdstuk 1 reeds werd aangestipt. Ten eerste bestaat de kans dat de digitale test illegaal gekopieerd wordt. Ten tweede is er het probleem dat traditionele testen niet per se dezelfde resultaten voortbrengen als digitale testen en zodoende niet vergelijkbaar hoeven te zijn. Ten derde kan men vraagtekens zetten bij de waarde van een door de computer voortgebrachte interpretatie van testresultaten. Ten vierde is er het probleem dat onprofessionele psychologische testen vaak gratis online worden aangeboden. Deze testen voldoen vaak niet aan de criteria. De Internationale Testcommissie heeft richtlijnen ontwikkeld om onder andere kwaliteitsproblemen bij dergelijke testen aan te pakken.

Ethische rechten van de geteste persoon

Geïnformeerde toestemming

Mensen hebben recht op informatie die ze nodig hebben om te kunnen beslissen of ze mee willen doen aan het onderzoek. Na kennis te hebben genomen van o.a. hoe de data verwerkt wordt en wat er gebeurt met de verworven informatie, kan de persoon besluiten om geïnformeerde toestemming te geven. Als een persoon niet in staat is om geïnformeerde toestemming te geven, bijvoorbeeld vanwege leeftijd of mentale beperking, moeten ouders of een andere gerechtigde toestemming geven. Het schriftelijke geïnformeerde toestemmingsformulier bevat informatie over het algemene doel van de studie, over de specifieke reden waarom het onderzoek gedaan wordt en over de gebruikte meetinstrumenten.

Soms kan kennis uit de geïnformeerde toestemming invloed hebben op het gedrag van de persoon in het onderzoek. Daarom is er soms een bepaalde mate van ‘deceptie’ over het ware doel van het onderzoek nodig. Dit gebeurt bijvoorbeeld door een situatie te simuleren die niet vaak voorkomt. Ook kan er een specifieke sociale situatie gecreëerd worden door acteurs in te zetten. Na het onderzoek wordt dan uitgelegd dat er sprake was van bedrog. Ook hierover heeft de APA richtlijnen gepubliceerd. Daarin staat onder andere dat deceptie alleen ingezet mag worden als het absoluut noodzakelijk is, als het geen negatieve emoties oplevert en als er achteraf volledig verteld wordt wat het echte doel van het onderzoek was.

Informatie over de testresultaten

Vroeger werd testafnemers geadviseerd om de geteste persoon zo weinig mogelijk informatie over de resultaten. Vooral resultaten die negatieve gevoelens zouden kunnen oproepen moesten achtergehouden worden. Tegenwoordig hebben mensen het ethisch en wettelijk recht om realistische kennis over de testuitkomst en de daarop gebaseerde aanbevelingen te krijgen. Dit zou ook nuttig kunnen zijn vanuit therapeutisch perspectief. Informatie over het doel van de test, de betekenis van de score in vergelijking met anderen en de mogelijke beperkingen van de test moet ook gegeven worden. Als de onderzochte persoon mentaal beperkt of een kind is, wordt deze informatie verstrekt aan dezelfde persoon als die de geïnformeerde toestemming heeft gegeven. Er moet hierbij altijd iemand aanwezig zijn die eventuele vragen kan beantwoorden.

Privacy en vertrouwelijkheid

Het recht om informatie die je niet wilt delen voor jezelf te houden wordt het recht op privacy genoemd. Verdachten in een strafzaak kunnen zich bijvoorbeeld beroepen op dit recht en hun mond houden tijdens een verhoor. Het privacyrecht geldt ook in allerlei vertrouwensrelaties, zoals die tussen dokter en patiënt of therapeut en cliënt. Informatie die een cliënt achter wil houden, is wettelijk beschermd en mag niet in een rechtszaak gebruikt worden. Op deze manier wordt er vertrouwen gecreëerd, waardoor mensen meer over zichzelf durven te vertellen. Informatie die iemand verkiest achter te houden om te voorkomen dat het in een rechterlijk proces tegen hem gebruikt kan worden, wordt privileged information genoemd. Dit is niet hetzelfde als vertrouwelijkheid; het recht op privacy buiten de rechtbank. In een relatie tussen cliënt en therapeut moet de therapeut die informatie geheim houden die de cliënt geheim wil houden en die informatie delen die de cliënt gedeeld wil hebben. De enige uitzondering hierop is informatie die een bedreiging vormt voor de cliënt (bij zelfmoordplannen) of voor anderen (bij moordneigingen). Een proces waarin dit duidelijk bepaald werd was die van Tarasoff. Hierbij wist een therapeut twee maanden van te voren dat zijn cliënt een meisje zou gaan vermoorden. Er werd bepaald dat de therapeut verplicht was om dit te melden. Ook andere bedreigende informatie, zoals de seropositiviteit van een cliënt, moet doorgegeven worden aan de bedreigde persoon.

Ook testresultaten moeten vertrouwelijk behandeld worden. Ze moeten op een veilige plek bewaard worden waar derden geen toegang tot hebben. De bewaarder van de informatie moet ook een duidelijk beleid hebben over hoe lang de resultaten bewaard moeten worden en tot hoe lang ze ‘geldig’ zijn. In de Amerikaanse wet (HIPAA) is bepaald dat testresultaten en cliëntgegevens alleen voor het onderzoeksdoel gebruikt mogen worden. Ziekenhuizen mogen bijvoorbeeld geen e-mailadressen doorverkopen aan adverteerders. In de rechtszaak Jaffee werd gesteld dat dit nog extra geldt voor aantekeningen verworven in psychotherapie. De communicatie tussen cliënt en therapeut is per definitie privileged information in de rechtbank.

Respect

In de presentatie van testresultaten moeten testafnemers altijd de minst stigmatiserende benamingen gebruiken. In de zaak van Jo Ann Iverson spande de moeder van de 9-jarige Jo een zaak aan tegen een psycholoog die Jo in de testresultaten als een ‘flinke imbeciel’ had beschreven. Deze testresultaten belandden op Jo’s school. Hoewel Iverson de zaak verloor, geeft deze zaak het belang van respectvolle benadering goed weer.

Wat is statistiek? - Chapter 3

 

Meetschalen

Meten is het volgens regels vatten in nummers of symbolen van bepaalde kenmerken. Een schaal is een set nummers of andere symbolen met eigenschappen die empirische eigenschappen van wat ze meten reflecteren. Als je bijvoorbeeld een schaal van aardigheid hebt betekent een lage score op de schaal dat de persoon niet aardig was, een hoge score dat hij dat wel was. Een schaal kun je categoriseren door te kijken naar wat voor soort variabelen er worden weergegeven. Discrete variabelen zijn variabelen die maar een paar waarden aan kunnen nemen en waarbij de tussenliggende waarden geen betekenis hebben. Een voorbeeld van een discrete variabele is sekse: je hebt mannen en je hebt vrouwen en daar zit niets tussen. Een continue variabele is een variabele waarbij de tussenliggende waarden wel betekenis hebben, zoals de hoeveelheid testosteron die een lichaam aanmaakt. Hoeveel waarden er in een schaal gebruikt worden hangt echter af van het praktisch nut. Je kunt eindeloos veel waarden achter de komma zetten, of je kunt genoegen nemen met drie decimalen.

In iedere meting zit een bepaalde mate van error. Dat is de vertekenende, onbedoelde invloed op een meting van alle factoren die niet gemeten werden en geen onderdeel van de meting hadden moeten zijn. Dit kunnen allerlei factoren zijn. Bij een test kunnen dat bijvoorbeeld afleidende gebeurtenissen zijn of de onevenwichtige itemkeuze van de testontwikkelaar. Een continue schaal bevat altijd een zekere mate van error. Een score is niet oneindig precies en is te beschouwen als een benadering van de ‘werkelijke’ score.

Er worden vier meetschalen of meetniveaus onderscheiden. Nummers die toegekend worden aan metingen kunnen afhankelijk van hun meetniveau op verschillende manieren geïnterpreteerd worden en hebben hun eigen bijbehorende statistische verwerking. De vier schalen zijn nominaal, ordinaal, interval en ratio.

Nominale meetschaal

Bij het categoriseren of classificeren van metingen op bepaalde kenmerken is sprake van een nominale schaal. Mensen worden ingedeeld op een kenmerk, bijvoorbeeld sekse, zodat je een groep met het nominale label ‘man’ en een met ‘vrouw’ krijgt. Een veel gebruikte ordinale schaal is de Diagnostic and Statistical Manual of Mental Disorders, waar begrippen en classificerende getallen worden toegekend aan mentale stoornissen. Testitems zelf kunnen ook nominaal zijn, bijvoorbeeld bij ja/nee-vragen. Scores op dergelijke lijsten kun je krijgen door het aantal keer ja en het aantal keer nee te tellen.

Ordinale meetschaal

Als er bij het categoriseren en classificeren van een nominale meting sprake is van een rangorde, oftewel een volgorde in de klassen, is er sprake van een ordinale schaal. Individuele prestaties worden afgemeten tegen die van anderen en krijgen een rangscore toegekend. Je kunt scores bijvoorbeeld indelen op de categorieën klein, middel, groot. De intelligentietest van Binet was duidelijk ordinaal van aard: het doel ervan was om iemands prestatie af te zetten tegen die van anderen. Individuele metingen kunnen ook ordinaal zijn. Zo kun je op een schaal van één tot tien aangeven in welke mate iets op je van toepassing is.

Een ordinale categorie toekenning zegt alleen iets over een prestatie ten opzichte van anderen en is geen meting op zichzelf. Het verschil tussen de eerste en de tweede persoon in de rangorde hoeft niet even groot te zijn als dat tussen de tweede en de derde persoon. De ordinale schaal kent geen nulpunt. Dat wil zeggen dat niemand verondersteld wordt geen enkele mate van de geteste eigenschap te bezitten. Omdat er geen nulpunt is, is het aantal statistische analysemogelijkheden beperkt. Omdat er geen gelijke afstanden zijn tussen de categorieën hoeft het gemiddelde tussen categorie één en drie niet hetzelfde te zijn als het gemiddelde tussen categorie twee en drie.

Interval meetschaal

Bij de intervalschaal zijn de intervallen wel gelijk; iedere eenheid op de schaal is gelijk aan een andere. Dat betekent dat het verschil tussen 90 en 100 even groot is als het verschil tussen 100 en 110. Dit betekent dat rekenen met de scores zin heeft: het gemiddelde van twee scores is betekenisvol. Ook de intervalschaal heeft echter geen nulpunt. Een voorbeeld is IQ: een IQ-score van 0 is een punt op de schaal en indiceert niet de afwezigheid van IQ. Een ander voorbeeld is temperatuur: 0 C° betekent dat het koud is en niet dat er geen temperatuur is. De ordinale schaal is de meest gebruikte in de psychologie, bijvoorbeeld in persoonlijkheidstesten en intelligentietesten. Vaak wordt de ordinale data echter behandeld alsof zij van interval niveau is omdat dat meer mogelijkheden voor statistische verwerking geeft.

Ratio meetschaal

Als een interval meetschaal wel een absoluut nulpunt heeft wordt het een ratioschaal genoemd. Deze meetschaal wordt vaak toegepast bij neurologisch onderzoek. De dynamometer kan bijvoorbeeld op ratioschaal meten hoeveel kracht iemand in zijn hand heeft (met hoeveel kracht hij iets kan samendrukken). Deze schaal heeft dus wel een nulpunt, maar dit wordt in de praktijk bijna nooit bereikt; het is bijvoorbeeld niet mogelijk dat iemand een nulscore behaalt op de kracht waarmee hij iets kan samendrukken. Tijd en gewicht zijn voorbeelden van ratiovariabelen.

Descriptieve statistiek

De complete set van scores die in een bepaalde meting zijn verkregen wordt de verdeling genoemd. Een ruwe (raw) score is een (meestal numerieke) score in zijn originele, onaangepaste vorm. Deze scores kunnen later in scores veranderd worden die meer informatie geven. In descriptieve statistiek worden onbewerkte scores georganiseerd, samengevat en gepresenteerd, zodat ze gemakkelijk te interpreteren zijn.

Frequentieverdelingen

Een manier om data te organiseren is om ze weer te geven in een (simpele) frequentieverdeling, waarbij achter iedere score staat hoe vaak ze voorkomen. Bij een gegroepeerde frequentieverdeling worden de scores in klassen verdeeld om een overzichtelijkere weergave te krijgen. De klassenbreedte (de grootte van het interval dat als klasse wordt beschouwd) wordt door de onderzoeker bepaald. Hij maakt een afweging tussen hoe belangrijk het is om de scores kort samen te vatten en hoe belangrijk het is om gedetailleerde scores te hebben.

Grafische weergave

Frequentieverdelingen kunnen ook grafisch weergegeven worden in een diagram (grafiek), die bestaat uit symbolen (lijnen, punten) die data weergeven. Een voorbeeld is een histogram, waarbij een balk uitgezet wordt tussen twee klassengrenzen, meestal op de x-as. De lengte van de balk geeft een frequentie aan (meestal op de y-as). De balken staan tegen elkaar aan. Bij een staafdiagram (bar graph) worden de balken boven een bepaalde categorie uitgezet. Deze categorieën zijn vaak nominaal of ordinaal; het zijn geen klassen met scores. De lengte van de balk geeft weer de frequentie aan. De balken staan hier niet tegen elkaar aan. In een frequentiepolygoon wordt de frequentie met een punt uitgezet boven het klassemidden op de x-as. De verschillende punten worden door een doorgetrokken lijn met elkaar verbonden.

De grafische representatie van data kan soms een vertekend beeld van de werkelijkheid geven. Stel dat scores hevig fluctueren tussen de 90 en de 100. Als je een y-as met een bereik van 90-100 neemt, krijg je dus het idee dat de scores veranderlijk zijn. Neem je een y-as met een bereik van 0-200, dat lijken de scores heel stabiel; een bijna rechte lijn tussen de 90 en de 100. Hoewel beide grafieken accuraat op dezelfde data zijn gebaseerd, geven ze een heel andere indruk. Dat een dergelijke vertekening in het spel is, kun je zien als de y-as op een ander punt begint dan 0. Het is gebruikelijk en aan te raden om de y-as bij 0 te laten beginnen.

Centrale tendentie

Bij meting van centrale tendentie wordt er één statistiek berekend die de meest representatieve score uit de verdeling weergeeft. Dit is het midden van de distributie; de gemiddelde score. Het meest gebruikt is het (rekenkundig) gemiddelde, waarbij alle scores worden meegenomen in de berekening. Als het gemiddelde vertekend wordt door een paar extreme scores kunnen andere maten worden gebruikt, zoals de mediaan of de modus.

Rekenkundig gemiddelde

De som (‘∑’) van de observaties gedeeld door het aantal observaties (‘n’) staat gelijk aan het rekenkundig gemiddelde, aangegeven met x met een streepje erboven. Het gemiddelde wordt vaak gebruikt bij scores van interval- of rationiveau, maar ook bij ordinale scores waarvan men gelooft dat ze ongeveer normaal verdeeld zijn (zie later dit hoofdstuk). Het gemiddelde kan ook berekend worden aan de hand van een frequentieverdeling, waarbij ∑ verkregen wordt door iedere score te vermenigvuldigen met de frequentie en dat bij elkaar op te tellen. Bij een gegroepeerde frequentieverdeling neem je het klassemidden als score die je met de frequentie vermenigvuldigt. Hierbij kan er wel een ander gemiddelde uitkomen dan bij het berekenen aan de hand van de onbewerkte scores.

Mediaan

De mediaan is de middelste score in een verdeling. Deze kun je vaststellen door alle scores op een rijtje te zetten en de middelste te nemen. Als er twee getallen in het midden staan geldt het rekenkundig gemiddelde van die twee getallen als mediaan. Deze meting kan gebruikt worden bij data van ordinaal, interval en ratio meetniveau en wordt vaak gebruikt als er extreme scores zijn die het rekenkundig gemiddelde kunnen vertekenen. Als er heel veel scores zijn of als er sprake is van complexere verdelingen, zijn er andere manieren om de mediaan te vinden dan door simpelweg alle scores op volgorde te zetten. De mediaan is ordinaal van aard en kan zodoende niet gebruikt worden voor verdere statistische berekening.

Modus

De meest voorkomende score in een verdeling (de score met de hoogste frequentie) is de modus. De modus kan afwijken van het gemiddelde. Stel dat iemand per ongeluk twee keer een hoge score had, maar voor de rest alleen maar verschillende lage scores. Dan komt de hoge score het vaakst voor, maar is het gemiddelde een stuk lager dan de modus. Op die manier is het dus mogelijk dat de modus niet representatief is voor de hele verdeling. De modus wordt daarom vaak alleen gebruikt bij nominale data, waarbij een andere centrale tendentiemeting niet berekend kan worden. Ook kan er sprake zijn van een bimodale verdeling, waarbij er in de verdeling twee modi zijn. De modus kan wel zinvol zijn in aanvulling op het rekenkundig gemiddelde. Je kunt je bijvoorbeeld afvragen hoeveel artikelen een klinisch psycholoog gemiddeld per jaar publiceert. Je kunt dan het rekenkundig gemiddelde uitrekenen. Aan dit gemiddelde kun je echter niet zien dat het merendeel van de klinisch psychologen helemaal niet publiceert. De modus is dus 0 en kan deze aanvullende informatie verschaffen. De modus is nominaal van aard en kan niet gebruikt worden voor verdere statistische berekening.

Variabiliteit

Hoezeer de scores uiteenlopen wordt beschreven door variabiliteit. Twee verdelingen kunnen hetzelfde gemiddelde hebben, maar een totaal verschillende spreiding hebben. Statistieken die deze variabiliteit beschrijven worden spreidingsmaten of variabiliteitsmaten genoemd.

Bereik

Het verschil tussen de laagste en de hoogste score is het bereik van de verdeling. Als de scores bijvoorbeeld uiteenlopen van 20 tot 50, is het bereik 30. Het bereik is heel gevoelig voor extreme scores: het kan veel groter worden als er één iemand een extreem hoge of lage score heeft gehaald. De bruikbaarheid van het bereik als spreidingsmaat is zodoende beperkt. Om dit effect te verkleinen, kunnen interkwartiele en semi-interkwartiele bereiken uitgerekend worden. Als je een scoreverdeling in vieren verdeelt, zijn de drie grenspunten waarop je dat doet de kwartielen. Het tweede kwart valt bijvoorbeeld tussen het eerste kwartiel (Q1) en het tweede kwartiel (Q2). Het kwart is dus een interval en het kwartiel is een punt in de verdeling. Q2 is gelijk aan de mediaan. De drie kwartielen kunnen aan de hand van formules berekend worden. Het interkwartiele bereik is het verschil tussen Q1 en Q3 en kan fungeren als (ordinale) spreidingsmaat. Het semi-interkwartiele bereik is het interkwartiele bereik gedeeld door twee. In een symmetrische verdeling geeft dit bereik de afstand tussen de mediaan en de andere kwartielen aan.

Afwijking

De gemiddelde afwijking is een spreidingsmaat waarbij het gemiddelde wordt berekend van de mate waarin iedere score afwijkt van het gemiddelde van de verdeling. Hierbij wordt de absolute afwijking genomen, ongeacht of de afwijking positief of negatief is. Een score van 80 en een score van 90 hebben een even grote absolute afwijking van het gemiddelde 85. Alle absolute afwijkingen worden bij elkaar opgeteld en vervolgens gedeeld door het totaal aantal scores. Als je de tekens niet zou negeren (dus niet de absolute afwijking zou nemen), zou je altijd op een gemiddelde van 0 uitkomen. De gemiddelde afwijking wordt vrijwel nooit gebruikt als spreidingsmaat, omdat hij nutteloos is voor verdere statistische verwerking.

Bij de standaardafwijking worden de negatieve afwijkingen van het gemiddelde ook positief gemaakt, maar nu door iedere afwijking te kwadrateren. De standaardafwijking (s) is de wortel van de variantie en de variantie (s²) is het gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde van de verdeling. Bij het berekenen van het gemiddelde van de gekwadrateerde afwijkingen deel je door het aantal observaties (n). Als een complete populatie is gemeten, gebruik je n. Als er een steekproef is genomen, gebruik je n-1. Dit laatste zou vertekening tegengaan. De standaardafwijking is een veel gebruikte spreidingsmaat, maar heeft alleen betekenis bij een normale verdeling. De maat wordt ook wel standaarddeviatie genoemd en wordt afgekort door s, S, SD of σ. s wordt vaak gebruikt voor de standaardafwijking van een steekproef en σ voor die van een populatie.

Normaalverdeling

Scheefheid en steilheid

Een verdeling kan gekarakteriseerd worden door zijn scheefheid, oftewel de mate waarin symmetrie ontbreekt. Een verdeling die positief scheef is betekent dat er relatief weinig hoge scores zijn. Hierbij hebben veel mensen dus een score gehaald die aan het linkereind van de distributie valt. Als een verdeling negatief scheef is, hebben weinig mensen laag gescoord. Hierbij hebben veel mensen dus een score gehaald die aan het rechtereind van de distributie valt. Dit zou kunnen betekenen dat een test te gemakkelijk was. De scheefheid van een verdeling zegt niets over de waarde ervan. Soms zijn scores nu eenmaal scheef verdeeld en soms is dat ook de bedoeling. Bij bijvoorbeeld het screenen van mariniers verwacht je en wil je zelfs dat er maar weinig mensen hoog scoren; je wilt dus een positief scheve verdeling. Hoe scheef een verdeling is kun je zien aan de interkwartiel afstand. In een positief scheve verdeling zal de afstand tussen Q2 en Q3 groter zijn dan die tussen Q1 en Q2, in een negatief scheve verdeling is dat andersom.

Hoe steil een verdeling in het midden is wordt kurtosis genoemd. Een platykurtische verdeling is relatief plat, een leptokurtische is scherp en alles wat daar tussen in zit wordt mesokurtisch genoemd. Deze kurtoses zijn weergeven in fig. 3.6 op pag. 92.

Normale verdeling

De normale verdeling werd door verschillende wetenschappers ontwikkeld, o.a. door DeMoivre, LaPlace en Gauss. Aanvankelijk werd de verdeling ‘LaPlace-Gaussiaans’ genoemd. Person introduceerde de term ‘normale curve.’ Dit is een klokvormige, glooiende verdeling met het hoogste punt in het midden. Vanaf dat midden glijdt de curve naar beide zijden asymptotisch af (hij nadert de x-as tot in het oneindige, maar bereikt hem nooit). De verdeling is volmaakt symmetrisch (niet scheef), waardoor het gemiddelde, de mediaan en de modus op hetzelfde punt in het midden vallen.

Het gebied onder de curve (de scoreverdeling) kan in gelijke gebieden verdeeld worden in termen van standaardafwijking. 50% van de scores vallen onder het gemiddelde en 50% daarboven. 34% valt tot één standaardafwijking boven het gemiddelde en 34% daaronder. 95% van de scores vallen tussen 2 standaardafwijkingen onder en boven het gemiddelde. De gebieden aan beide zijden die tussen de 2 en 3 standaardafwijkingen van het gemiddelde af liggen, worden de staarten genoemd. 2,5% van de scores ligt in de ene staart en 2,5% in de andere. In welk gebied iemand scoort, zegt veel over zijn positie in vergelijking met die van anderen. Een IQ-score in één van de twee staarten van de IQ-verdeling zegt bijvoorbeeld veel over degene die deze score behaald heeft.

Scores op veel psychologische testen blijken normaal verdeeld. Hoe meer mensen getest worden en hoe meer vaardigheden op de test gemeten worden, hoe sterker de scoreverdeling een normale verdeling zal benaderen. Heel veel kenmerken zijn normaal verdeeld, van rechtshandigheid tot de intelligentie van mensen met psychologische stoornissen. Weten dat een verdeling een normale verdeling benadert geeft veel voordelen. Het zegt bijvoorbeeld iets over hoeveel mensen in bepaalde mate van het gemiddelde zullen afwijken.

Standaardscores

Een standaardscore is een onbewerkte score die naar een gestandaardiseerde schaal is getransformeerd. Aan deze score kun je direct de relatieve positieve van de observatie aflezen. Er zijn verschillende standaardscores.

Z-scores

Een score kan weergegeven worden in termen van het aantal, dat hij van het gemiddelde afligt. Dit is een z-score. Logischerwijs hebben de z-scores een gemiddelde van 0 en een standaardafwijking van 1. Als het gemiddelde op een test 40 is en de standaardafwijking 6, geeft een onbewerkte score van 34 een z-score van -1.00. Aan de hand van de z-scores kun je de scores op een test met elkaar vergelijken. Als je een z-score van -2.00 hebt, heb je slecht gescoord in vergelijking met anderen. Ook kun je de scores op verschillende testen vergelijken. Heb je 1.00 gescoord op een taaltest, maar -2.00 op een rekentoets, dan weet je dat je beter bent dan anderen in taal, maar slechter in rekenen.

T-scores

De schaal van T-scores heeft een gemiddelde van 50 en een standaarddeviatie van 10. Dat betekent dat een onbewerkte score van 5 standaardafwijkingen onder het gemiddelde een T-score van 0 geeft, een gemiddelde score geeft een T van 50 en een score van 5 standaardafwijkingen boven het gemiddelde geeft een T van 100. Het voordeel van deze schaal is dat er geen negatieve getallen in voorkomen.

Andere standaardscores

Bij stanines wordt de normale verdeling in negen stukjes verdeeld, waardoor een gemiddelde van 5 ontstaat met een standaardafwijking van 2. Ieder stukje is een halve standaarddeviatie wijd. 20% van de scores valt in het 5de stanine, 17% valt in het 4de en in het 6de, etc. Een andere gestandaardiseerde score, hier de A-score genoemd, wordt gebruikt bij de SAT en de GRE test. Hierbij hoort een gemiddelde van 500 en een standaardafwijking van 100. Bij de IQ-test is het gemiddelde 100 en de standaardafwijking 15. Als je een onbewerkte score van 1 standaardafwijking boven het gemiddelde hebt, kun je die op drie manieren standaardiseren. Je krijgt een z-score van 1.00, een T-score van 60, een A-score van 600 en een IQ-score van 115.

Genormaliseerde standaardscores

Bij een lineaire transformatie blijft er een directe numerieke relatie met de oorspronkelijke onbewerkte score bestaan. De verschillen tussen standaardscores lopen dan exact parallel aan de verschillen tussen de oorspronkelijke scores. Soms ondergaan scores meer dan één lineaire transformatie. Bij een non-lineaire transformatie worden scores uit een niet normale verdeling gestandaardiseerd. De verdeling wordt op deze manier ‘genormaliseerd.’ De standaardscores hebben dan niet per se een directe numerieke relatie met de onbewerkte scores. De verdeling wordt in een normale curve getrokken en een corresponderende genormaliseerde standaardscore-schaal wordt ontwikkeld. Dit mag alleen als er een goede reden is om te geloven dat de steekproef groot en representatief genoeg was om aan te nemen dat het gebrek aan een normale verdeling aan het instrument ligt. Het voordeel van het normaliseren van een scheve verdeling is dat de verkregen standaardscores gemakkelijk vergeleken kunnen worden met standaardscores van andere testen. Dit kan echter alleen als de vergeleken standaardscores van ongeveer dezelfde verdeling komen. Een z-score van 1.00 in een scheve verdeling zegt iets anders dan die in een normale verdeling. Daarom is de beste procedure nog altijd om een gebalanceerde test te maken waarbij de kans groot is dat er vanzelf een normale verdeling ontstaat.

Correlatie

Een correlatie is een uitdrukking van de mate en de richting van een verband tussen twee variabelen. Het geeft aan met wat voor verandering in de tweede variabele een verandering in de eerste gepaard zal gaan, hoe de variabelen ‘co-variëren.’ Een correlatiecoëfficiënt is een getal dat de sterkte van het correlationeel verband aangeeft. Het teken (+ of -) geeft de richting van het verband aan en de grootte (ergens tussen de 0 en de 1 of -1) geeft de sterkte van het verband. 0 betekent dat er geen correlatie tussen de variabelen bestaat. Een correlatie van -1.00 is een perfecte (dus zelden voorkomende) negatieve correlatie en correlatie van +1.00 een perfecte positieve correlatie. Een negatieve correlatie betekent dat een toename in de ene variabele een afname in de andere tot gevolg heeft en andersom. Een positieve correlatie betekent dat een afname in de ene variabele ook een afname in de andere veroorzaakt, hetzelfde geldt voor een toename. Correlatie impliceert overigens geen oorzakelijkheid. Lengte voorspelt bijvoorbeeld intelligentie, maar dit komt doordat een derde factor, leeftijd, zowel intelligentie als lengte veroorzaakt. Dit gevonden effect wordt dus niet veroorzaakt door lengte op zich.

Correlatiecoëfficiënten

De meest gebruikte correlatiecoëfficiënt is Pearson’s r. Deze kan de sterkte en richting van een correlatie meten als er sprake is van continue variabelen en een lineaire relatie. Bij non-lineaire relaties of discrete variabelen kunnen andere coëfficiënten gebruikt worden. Bij de berekening van r worden de onbewerkte scores getransformeerd tot standaardscores. Die worden met elkaar vermenigvuldigd. De producten worden opgeteld en hiervan wordt het gemiddelde berekend. Dit is r. Hieruit kun je bijvoorbeeld afleiden dat als de negatieve x-scores altijd gepaard gaan met negatieve y-scores, je een positieve r krijgt. Of r significant van 0 verschilt kun je opzoeken in een tabel. Wanneer r significant is bij 0,05 betekent dat dat de kans dat de gevonden relatie toevallig veroorzaakt was, kleiner is dan 5%. Als je de r kwadrateert en met 100 vermenigvuldigt, krijg je de coëfficiënt van determinatie (r²). Dit getal indiceert hoeveel procent van de variantie in de ene variabele veroorzaakt wordt door de andere variabele. Als de steekproef klein is of als de data ordinaal is, kan ook de Spearman correlatie gebruikt worden. Dit wordt ook wel de rangorde correlatiecoëfficiënt genoemd. Spearman’s ρ (‘rho’) heeft eigen tabellen aan de hand waarvan je kunt bepalen of de relatie significant is.

Grafische presentatie van correlatie

Een correlatie kan grafisch gepresenteerd worden door alle observaties uit te zetten tussen een x- en een y-as. Ieder punt representeert de x-waarde met de bijbehorende y-waarde. Een dergelijk diagram wordt een spreidingsdiagram (scatterplot) of een bivariaat-verdeling genoemd. Aan de ligging van de punten kun je in één oogopslag zien wat de correlatie ongeveer zal zijn. Als de punten dichtbij elkaar rond één rechte lijn liggen, dan is er een sterk verband. Als de lijn van linksboven naar rechtsonder loopt, is er een negatief verband, als hij van linksonder naar rechtsboven loopt, is er een positief verband. Ook kun je de curve-lineairiteit zien, oftewel hoe gekromd de lijn is. Als de lijn namelijk niet recht, maar krom is, is er geen lineaire relatie en kan r niet berekend worden. Daarnaast kun je makkelijk uitbijters zien; scores die extreem zijn en ver verwijderd liggen van de rest van de puntenwolk. Uitbijters kunnen veroorzaakt worden door een kleine steekproef. Het is ook mogelijk dat er een hele groep is die extreem hoog of laag scoort, maar dat er maar één persoon uit die groep in de steekproef zit. Ook kan het komen doordat de testmaker de instructies om de één of andere reden niet volgde. Tenslotte is het ook mogelijk dat er iets in de test of in de scoringsprocedure mis is. Een ander probleem met de interpretatie van spreidingsdiagrammen is het beperken van het bereik. Als je maar een klein deel van een puntenwolk neemt, kan het zijn dat een voorheen duidelijk lineaire relatie nu onzichtbaar is geworden.

Meta-analyse

De betrouwbaarste conclusies kun je trekken op basis van meerdere studies tegelijk. Bij meta-analyse gebruik je technieken om de resultaten van meerdere studies te combineren. De resultaten die worden gevonden, welke de effectgrootte worden genoemd, kunnen verschillende vormen aannemen. In de meeste meta-analytische studies wordt de effectgrootte voornamelijk vermeld als een correlatiecoëfficiënt. Een groot voordeel van meta-analyse ten opzichte van het simpelweg rapporteren van een reeks bevindingen, is dat je in meta-analyses de resultaten van studies met grotere steekproeven zwaarder kunt laten wegen. Andere voordelen van meta-analyses: (1) meta-analyses kunnen worden gerepliceerd; (2) de conclusies zijn vaak meer betrouwbaar en exact dan de conclusies van enkele, op zichzelf staande onderzoeken; (3) er wordt meer gefocust op effectgrootte dan op enkel de statistische significantie; en (4) meta-analyses bevorderen evidence-based werken. Evidence-based werken is een professionele manier van werken die gebaseerd is op klinische en onderzoeksuitkomsten. Ondanks deze voordelen, is meta-analyse in zekere zin ook slechts een vorm van kunst. De waarde van een meta-analytisch onderzoek is erg afhankelijk van de vaardigheden en kunde van de meta-analyticus.

Bij het trekken van conclusies moet rekening gehouden worden met de culturele en historische achtergrond van de testmakers of van degenen naar wie de resultaten worden gegeneraliseerd.

Welke soorten psychologische testen zijn er? - Chapter 4

 

Aannames over testen

Psychologische trekken en staten bestaan

Een belangrijke aanname voor psychologische testen is dat wat gemeten wordt, namelijk psychologische trekken en staten, ook daadwerkelijk bestaan. Een trek is een onderscheidbaar, relatief stabiele manier waarop een individu verschilt van een ander. Trekken kunnen geobserveerd worden door een steekproef van gedrag te onderzoeken. Een staat is ook een kenmerk dat mensen van elkaar onderscheidt, maar is in tegenstelling tot een trek tijdelijk van aard. Psychologische trekken zijn psychologische kenmerken die bijvoorbeeld cognitieve capaciteiten, persoonlijkheid of attitudes beschrijven. Er zijn zeer veel woorden die trekken beschrijven en de kans is aanwezig dat er nog nieuwe bij zullen komen. Er bestaat enige controverse over de aard van psychologische kenmerken. Zijn ze fysiek van aard of zijn het slechts constructen? Hier wordt aangenomen dat het constructen zijn, wetenschappelijke concepten die gedrag kunnen beschrijven of uitleggen. Constructen zelf zijn niet observeerbaar, maar ze leiden wel tot overt gedrag; observeerbare acties of het product daarvan. Hieronder vallen ook test gerelateerde responsies. Psychologische trekken zijn relatief stabiel, maar de situatie waarin het gedrag zich voordoet speelt ook een rol. Hoe een bepaalde trek tot uitdrukking komt hangt af van de situatie. Ook is de context belangrijk om vast te stellen hoe een gedraging geïnterpreteerd moet worden; er moet bijvoorbeeld bekeken worden of het gedrag gepast is in de gegeven situatie. Ook de vergelijkingsgroep is belangrijk. Of iemand als verlegen of als erg verlegen wordt gezien, hangt er van af hoe verlegen andere, vergelijkbare mensen in dezelfde situatie zou zijn. Wat als vergelijkingsgroep wordt gebruikt (bijvoorbeeld mensen van dezelfde sekse of mensen van dezelfde leeftijd) is dus belangrijk voor de interpretatie van de mate waarin een trek aanwezig is.

Psychologische trekken en staten kunnen gemeten worden

Een tweede aanname is dat deze kenmerken ook meetbaar gemaakt kunnen worden. De eerste stap hierin is het definiëren van de trekken die je wilt meten. Welke gedragingen vind je kenmerkend voor een bepaalde trek, zoals agressie? Als deze gedragingen gedefinieerd zijn, kunnen er testitems uit gecreëerd worden. Naar welke specifieke gedragingen ga je vragen om de trek te meten? Op een intelligentietest kun je bijvoorbeeld iemands kennis meten of zijn sociaal beslissingsvermogen. Welke items neem je, en moeten die allemaal even zwaar wegen? Antwoorden op deze vragen worden gevormd op basis van veel verschillende factoren, waaronder technische en maatschappelijke overwegingen. Na de testafname moeten de responsies gescoord en geïnterpreteerd worden. Dit gebeurt vaak door cumulatieve scoring, waarbij het aantal responsies dat in een bepaalde richting gegeven wordt opgeteld wordt. Het idee is dat als iemand vaak in overeenstemming met een bepaalde trek antwoordt, de kans groot is dat hij die trek bezit.

Responsies op een test reflecteren gedrag in het dagelijks leven

Het idee van een test is dat het gedrag dat de testafnemer wil meten nagebootst wordt en op die manier gemeten kan worden. Daarom zouden testresultaten toekomstig gedrag moeten kunnen voorspellen of gedrag uit het verleden kunnen uitleggen (zoals in rechtszaken).

Testen hebben sterke en zwakke punten

Het is essentieel dat de testafnemers de testen kennen en op de hoogte zijn van de beperkingen. Ze weten hoe de testen ontwikkeld zijn, in welke omstandigheden ze afgenomen kunnen worden, hoe en bij wie dat moet gebeuren en hoe de resultaten geïnterpreteerd moeten worden. Ze kennen de beperkingen van de test en weten hoe ze die eventueel kunnen compenseren.

Testen bevatten een bepaalde mate van error

‘Error’ is de mate waarin factoren die niet zijn meegenomen in het onderzoek invloed hebben op de resultaten. In iedere test is sprake van error en men moet zich altijd afvragen in welke mate de resultaten erdoor vertekend zijn. Errorvariantie is de component van de resultaten die aan error toe te schrijven zijn. Error kan door veel verschillende factoren veroorzaakt worden. Error kan voortkomen uit de persoon die de test ondergaat, bijvoorbeeld als hij slecht geslapen heeft, of uit de persoon die de test afneemt, bijvoorbeeld of hij zich aan het protocol houdt. Ook de gebruikte instrumenten kunnen error veroorzaken. Volgens de klassieke of de ware scoretheorie heeft iedereen een ware, niet-vertekende score die hij zou krijgen als er geen error was.

Testen kunnen op eerlijke en niet vertekende wijze afgenomen worden

Een test moet zo eerlijk mogelijk zijn. Regelmatig ontstaat er discussie over rechtvaardigheid van de test, bijvoorbeeld als de test bij een andere groep wordt afgenomen dan waarvoor hij was ontwikkeld. Controverse is vaak politiek van aard. Men vraagt zich niet zozeer af of de test (het instrument) eerlijk is, maar wat de maatschappij wil bereiken met een test en wat de gedachte erachter precies is.

Testen is zinvol voor de maatschappij

Testen is van essentieel belang voor de maatschappij. Zonder zouden we bijvoorbeeld niet kunnen bepalen of iemand geschikt is voor een bepaalde taak en zouden we niet kunnen diagnosticeren.

Kenmerken van een goede test

Of een test goed is hangt af van allerlei kenmerken, waaronder de technische criteria van validiteit en betrouwbaarheid.

Betrouwbaarheid

Een meetinstrument is betrouwbaar als hij consistent hetzelfde resultaat geeft als je herhaaldelijk hetzelfde meet. Stel dat instrument A voortdurend hetzelfde resultaat krijgt; dat maakt hem betrouwbaar. Instrument C krijgt de hele tijd verschillende resultaten en is dat dus niet. Instrument B krijgt de hele tijd een verkeerd resultaat, maar daarin is hij wel consistent. Hij geeft bijvoorbeeld standaard drie punten te hoog aan. Omdat hij consistent is in zijn meting, is hij niettemin betrouwbaar.

Validiteit

Een test is valide als hij meet wat hij moet meten. Instrument B, hoewel consistent, kreeg steeds een verkeerd resultaat en is dus niet valide. Bij controversiële onderwerpen is validiteit meer discutabel. Wanneer is een intelligentietest bijvoorbeeld valide? Welke definitie van intelligentie moet dan aangehouden worden? Bij het meten van validiteit wordt gekeken naar de testitems: dekken zij bijvoorbeeld de gehele lading van het gemeten construct? Ook wordt gekeken naar de interpretatie van de testscores: zeggen zij bijvoorbeeld echt iets over het construct? Vragen over de validiteit van een test worden in het hele proces dat de test ondergaat gesteld. In hoofdstuk 6 wordt het concept validiteit uitvoeriger behandeld.

Overige criteria

Een test moet verder makkelijk te gebruiken en van nut zijn voor de persoon die de test afneemt of voor de maatschappij als geheel. Een voor de hand liggend maar belangrijk criterium is dat de test aansluit op wat jij wilt gaan meten en op welke manier je dat wilt doen. Wat is het doel van de test, hoe is het construct gedefinieerd en voor wie is de test bedoeld? Of de test aansluit bij jouw doelen kun je onderzoeken door er standaardwerken, handleidingen of reviews op na te slaan. Een ander criterium is of er richtlijnen gepubliceerd zijn met betrekking tot het gebruik van de test. Soms stellen richtlijnen dat er naast de test in kwestie nog andere testen toegepast moeten worden. Vaak wordt in dergelijke richtlijnen ook vastgesteld of de test voldoet aan vastgestelde standaards, bijvoorbeeld aan de Daubert-standaards in de rechtsgang. Een derde criterium is al eerder genoemd, namelijk betrouwbaarheid. Of een test betrouwbaar is kun je ook weer afleiden uit eerdere publicaties en handleidingen. Ook kun je het meten door test-hertest betrouwbaarheidsmetingen, waarbij je kijkt of je bij herhaaldelijke metingen hetzelfde resultaat krijgt. Dit kan problematisch zijn. In de BPS moet een kind bijvoorbeeld aangeven hoe hij zijn ouders beschouwt. Als je dezelfde test later nog eens afneemt en je krijgt andere resultaten, dan kan dat zijn omdat de test niet betrouwbaar is, maar het kan natuurlijk ook zijn dat de mening van het kind veranderd is. Betrouwbaarheid kan dus niet altijd gemeten worden. Validiteit is ook een criterium. Ook dit kan lastig zijn om vast te stellen. Vaak wordt er gekeken welke combinatie van instrumenten het beste meet wat er gemeten moet worden. Een volgend criterium is hoe kosteneffectief een test is. Is het de moeite waard om een kostbare test af te nemen? In de Tweede Wereldoorlog werd bijvoorbeeld overgegaan op groepsintelligentietesten, omdat individuele testen simpelweg niet zinvol en erg duur waren. Tenslotte is het van belang welke conclusies er uit testen getrokken kunnen worden. Zal het afdoende antwoord geven op de onderzoeksvraag? En zullen de resultaten algemeen geldig zijn? Of resultaten generaliseerbaar zijn, hangt af van de populatie op basis waarvan de test ontwikkeld is, voor welke groepen de test begrijpelijk is en hoe hij afgenomen wordt.

Evaluatie van testscores: normen

Testen en assessment met normreferenties kun je definiëren als het evalueren van testscores door die te vergelijken met scores van andere personen die de test gemaakt hebben. Op deze manier wordt er relatieve betekenis toegekend aan een score. Een norm is een standaard, verwachte gedraging. De term normen wordt in de psychometrie gebruikt om de testresultaten aan te geven die gebruikt worden om individuele scores aan af te meten. Normen dienen als vergelijkingsmateriaal. Een normatieve steekproef is de groep mensen wiens testscores worden gebruikt als normen. Dit kan een brede groep zijn (de Nederlandse bevolking) of een heel smalle (vrouwen tussen de 20-25 met een bepaalde vorm van reuma van een ziekenhuisafdeling). De scores van deze groep zijn allemaal typisch en representatief voor de populatie die onderwerp van onderzoek is.

Normeren

Normeren is het vaststellen van een norm. Bij rasnormering, wat vroeger legaal was, werden voor verschillende rassen verschillende normen gesteld. Een minderheidsgroep moest bijvoorbeeld beter scoren voordat hij werd aangenomen voor een baan. Het op formele wijze vaststellen van normen kan behoorlijk duur uitpakken. Daarom zijn er gebruikersnormen, ook wel programmanormen genoemd, die bestaan uit descriptieve statistieken (gegevens) over een bepaalde groep mensen. Als er geen gebruik gemaakt wordt van dergelijke normen, moeten normen vastgesteld worden via formele standaardisatie.

Standaardisatie

Standaardisatie of test standaardisatie is het afnemen van een test bij een representatieve steekproef teneinde standaard normen vast te stellen aan de hand waarvan latere testscores geëvalueerd kunnen worden. Je kunt ook meeteenheden standaardiseren, zoals vaststellen wanneer iets een ‘een glas’ alcohol genoemd kan worden. Definities kunnen ook gestandaardiseerd worden; bijvoorbeeld bij het vaststellen van de definitie van de term agressie. Dan zijn er nog standaardscores, namelijk z-scores (zie hoofdstuk 3). Deze zijn niet hetzelfde als gestandaardiseerde scores, die naar een schaal met een willekeurig gemiddelde en standaardafwijking overgezet zijn. Een gestandaardiseerde test is volgens de traditionele definitie een test met specifiek geformuleerde gestandaardiseerde test- en scoringsprocedures en gestandaardiseerde normen. Tegenwoordig wordt de term ook wel gebruikt voor een test met alleen gestandaardiseerde normreferenties. Hoe gaat het standaardiseren van normreferenties precies in zijn werk?

Steekproeftrekken voor standaardiseren

Om een test te kunnen standaardiseren, moet je dus een normgroep hebben. Die kan bestaan uit de complete populatie van mensen voor wie de test ontwikkeld is. Als die populatie echter groot is, kan het onmogelijk, onpraktisch of te duur zijn om dat te doen. Dan wordt er een steekproef genomen, een deel van een populatie die representatief is voor die populatie. Dit proces wordt steekproeftrekking genoemd. De steekproef is meestal groter dan één persoon, omdat de kans op error afneemt naarmate de steekproef groter wordt. Soms kan het wenselijk zijn om alle subgroepen (strata) in een populatie in gelijke proporties voor te laten komen in de steekproef. Als 80% van de populatie christen is en religie is belangrijk voor het gemeten construct, is het handig om een steekproef te hebben waarvan eveneens 80% christen is. Een op die manier ontstane steekproef wordt een gestratificeerde steekproef genoemd. Als ieder lid van de populatie een even grote kans heeft om in de steekproef terecht te komen, wordt de steekproef een aselecte (willekeurige) gestratificeerde steekproef genoemd. Soms worden bepaalde groepen juist uitgesloten van de steekproef. Bij het nemen van een normatieve steekproef voor een intelligentietest worden bijvoorbeeld mensen uitgesloten die de taal niet volledig meester zijn of die een lichamelijk of ernstig psychiatrisch probleem hebben. Als we willekeurig een steekproef nemen waarvan we denken dat die wel representatief zal zijn, wordt dat een doelgerichte steekproef genoemd. Een voorbeeld is het openen van één winkel, om aan de hand van het functioneren daarvan te bepalen of andere winkels nationaal succes zullen hebben. Bij een incidentele steekproef, ook wel gemakssteekproef genoemd, bestaat de steekproef uit een groep mensen die het gemakkelijkst beschikbaar is. Psychologiestudenten zijn bijvoorbeeld vaak lid van een steekproef omdat zij het eerst voor handen zijn. Het is mogelijk dat een doelgerichte of incidentele steekproef niettemin niet representatief is en dat de resultaten niet generaliseerbaar zijn. Onderzoekers moeten dus altijd een afweging maken tussen wat praktisch is en wat de ideale testsituatie is.

Vaststellen van normen voor gestandaardiseerde testen

Nadat de steekproef is getrokken, wordt de test afgenomen. Hierbij wordt een standaard set van instructies vastgesteld betreffende de omstandigheden waaronder de test afgenomen moet worden. Als de test later nog eens afgenomen wordt, worden dezelfde omstandigheden gecreëerd. Op die manier kunnen eventuele verschillen met de normatieve steekproef niet veroorzaakt zijn door de omstandigheden waarin de test afgenomen is. Als de test is afgenomen, beschrijft de onderzoeker in een publicatie op welke manier zijn steekproef representatief was, hoe hij die genomen heeft, welke data verzameld zijn en welke conclusies daaruit getrokken kunnen worden. In de praktijk blijkt dat testontwikkelaars terughoudend zijn in het beschrijven van de tekortkomingen van de normatieve steekproef. Daarom moet een testgebruiker altijd kritisch zijn bij het bepalen of de normatieve steekproef voldoende representatief is om te gebruiken als normgroep. Soms wordt voor een gestandaardiseerde test later opnieuw normatieve informatie verzameld, bijvoorbeeld omdat de oorspronkelijke standaardisatiesteekproef belangrijke subgroepen uitsloot. Een standaardisatiesteekproef is dan de aanvankelijke steekproef die gebruikt wordt om de test te standaardiseren. Een normatieve steekproef kan ook op een later tijdstip genomen worden.

Verschillende typen normen

Percentiele normen

Eén norm aan de hand waarvan je score geëvalueerd kan worden is het percentiel waarop je score viel. Een percentiel is een uitdrukking van het percentage mensen dat onder een bepaalde score vielen op een test. Een score die valt op het 15de percentiel betekent dat 15% van de mensen lager scoorde dan dat punt. Een voordeel van percentiele normen is dat ze makkelijk berekenbaar zijn. Een nadeel is dat de verschillen tussen scores in het midden van de verdeling veel groter lijken dan die aan de uiteinden van de verdeling. Een andere, gerelateerde manier waarop je een score kan evalueren is door te kijken naar het percentage correct, de proportie antwoorden op een test die goed beantwoord werden.

Ontwikkelingsnormen

Ontwikkelingsnormen zijn normen die gebaseerd zijn op iedere vaardigheid die verandert over de tijd. Welke kenmerken zou je moeten bezitten in een bepaalde ontwikkelingsfase? Leeftijdsnormen en klasnormen vallen hieronder. Piaget heeft bijvoorbeeld veel normen vastgesteld betreffende de vaardigheden die op bepaalde leeftijden beheerst moeten worden. Bij leeftijdequivalente scores, ook wel leeftijdsnormen genoemd, wordt een prestatie vergeleken met de prestatie die normaal is voor iedere leeftijdsgroep. Dit gebeurt bijvoorbeeld bij de Stanford-Binet intelligentietest. Hierbij wordt de ‘mentale leeftijd’ van een kind berekend: bij welke leeftijdsnormen sluit zijn prestatie het beste aan? Het probleem van dit concept is dat de mentale leeftijd nog niets zegt over andere mentale leeftijden (een kind kan bijvoorbeeld qua intelligentie ouder zijn dan zijn werkelijke leeftijd, maar jonger qua sociale vaardigheden). Het is dus een misleidend concept en wordt niet veel meer gebruikt. Bij klas (grade) normen worden individuele prestaties vergeleken met de prestatie die normaal is voor kinderen in een bepaalde klas. Als iemand op een bepaalde test hetzelfde scoort als de gemiddelde persoon uit groep 6, wil dit nog niet zeggen dat hij dezelfde capaciteiten heeft als de gemiddelde persoon uit groep 6. Je weet niet op welke items hij goed en op welke slecht scoorde. Een ander nadeel van klasnormen is dat ze alleen van toepassing zijn op schoolkinderen.

Nationale en plaatselijke normen

Als individuele scores worden vergeleken met die van een normatieve steekproef die op alle belangrijke terreinen representatief is voor het hele land, is er sprake van nationale normen. De normatieve steekproef moet representatief zijn, bijvoorbeeld in termen van etniciteit, leeftijd en locatie. Op welke terreinen de steekproef precies gelijk moet zijn aan de populatie hangt af van het doel van het onderzoek. Als je educatieonderzoek doet moet je normatieve steekproef representatieve scholing hebben. Testontwikkelaars zijn geneigd om snel te beweren dat hun standaardisatie steekproef nationaal representatief was. Testgebruikers doen er goed aan om te bekijken hoe representatief dat is.

Bij lokale normen wordt een individuele score vergeleken met de scores van een plaatselijke populatie. Dit kan bijvoorbeeld zinvol zijn als een lokale bevolking op een bepaald punt verschilt van de nationale bevolking. Iemand kan in zijn eigen plaats bijvoorbeeld relatief eigenwijs zijn, maar doordat de hele plaats in het algemeen relatief meegaand is, valt dat in het niet bij de nationale normen.

Nationale ankernormen

Als je twee verschillende testen die hetzelfde meten met elkaar wilt vergelijken moet je twee testen hebben met dezelfde scoringsprocedure. Je kunt echter ook een equivalentietabel gebruiken, waarin staat welke scores aan elkaar gelijk staan. Dit worden nationale ankernormen genoemd. Vanwege technische overwegingen kunnen de testen niettemin nooit als volledig aan elkaar gelijk worden beschouwd. Om te bepalen welke scores gelijk zijn, wordt gebruik gemaakt van de equipercentiele methode. Hierbij wordt gekeken naar welke scores horen bij welk percentiel. Als het 96ste percentiel op de ene test 5 is en het 96ste percentiel op de andere test 10, dan staan de scores 5 en 10 aan elkaar gelijk. Strikt genomen moet één steekproef beide testen maken om ankernormen vast te kunnen stellen.

Subgroep normen

Op basis van de criteria waarop aanvankelijk een normatieve steekproef genomen werd, kan de steekproef in subgroepen verdeeld worden. Voor elk van die subgroepen kunnen dan eigen normen worden berekend; de subgroep normen. Een testgebruiker kan dan zelf bepalen welke normreferentie hij het meest zeggend vindt.

Vaste referentiegroep scoringssysteem

Bij een scoringssysteem met vaste referentiegroep vormen de scores van één groep testmakers de basis voor het later berekenen van scores. De beroemde SAT-test maakt gebruik van een dergelijk systeem. De referentiegroep wordt eens in de zoveel tijd vervangen door een nieuwe. De scores worden steeds aangepast aan de moeilijkheid van de test. Ieder nieuw item op een nieuwe versie van de test wordt onderworpen aan een procedure (‘ankering’) om de scores in vaste referentiegroepscores te veranderen. Vaak gebruiken instellingen hun eigen vaste referentiegroepen. Zo vergelijkt een school de SAT-scores van een klas van dit jaar met die de klas van vorig jaar.

Criteriumreferentie evaluatie

Een individuele testscore kun je dus evalueren door hem te vergelijken met de resultaten van een normgroep. Een andere manier om scores te evalueren is door ze af te meten aan een bepaald criterium; een standaard waarop een beslissing of beoordeling gebaseerd kan worden. Testen die gebruik maken van dergelijke evaluatiemethoden, vallen onder testen en assessment met criteriumreferentie. Dit wordt ook wel testen en assessment met domein- of inhoudreferentie genoemd. Een criterium is een vaste standaard die onafhankelijk is van de scores van anderen. Je haalt bijvoorbeeld alleen je rijbewijs als je aan alle punten van het CBR voldoet, ongeacht hoe andere mensen gereden hebben. Testen die gebruik maken van criteriumreferenties richten zich vaak op het leren van vaardigheden. Ze zetten een criterium vanaf welk punt iemand de vaardigheden goed genoeg kent. Als die criteriumscore 85% is, maakt het niet uit of iemand een score van 84% of van 20% heeft; hij is in beide gevallen afgewezen. Kritiek op criteriumreferentie is dat belangrijke informatie over hoe iemand scoort ten opzichte van anderen verloren gaat. Ook is deze evaluatiemethode niet geschikt om extreme scorers te identificeren; daarvoor zijn normreferenties zinniger. Criteriumreferentie deelt alle mensen in twee groepen in: mensen die wel voldoen aan het criterium en mensen die dat niet doen. Criteriumreferentie en normreferentie sluiten elkaar overigens niet uit.

Wat houden projectieve methoden in? - Chapter 5

 

Projectieve methoden worden ook wel projectietests, kwalitatieve methoden of indirecte methoden genoemd. Met indirecte methoden wordt geprobeerd gegevens te achterhalen die niet bereikt kunnen worden met behulp van zelfrapportage of directe gedragsobservatie.

Kenmerken van indirecte methoden

Het eerste kenmerk van projectieve methoden is dat ze gebruik maken van ongestructureerde taken waarbij het aan de cliënt is om deze te interpreteren of er structuur aan te geven. De manier waarop de cliënt dit doet wordt gezien als een uiting van de voorkeuren, persoonlijkheidstrekken en reactiewijzen van de cliënt. Vooral de psychodynamische stroming heeft sterk bijgedragen aan de populariteit die projectieve methoden ooit hadden. Ook de naam projectieve methoden komt voort uit de psychodynamica waar wordt gesteld dat de manier waarop een cliënt reageert op het materiaal een projectie is van onderliggende, onbewuste verlangens, angsten en conflicten. Ook fenomenologen gebruiken projectieve tests, maar dan met het idee dat het een soort natuurlijk experiment is. De onderzochte wordt geconfronteerd met een zogenaamde, vreemde Umwelt en de omgang met deze Umwelt zou hetzelfde zijn als de omgang met dagelijkse gebeurtenissen. Door de tests krijgt de fenomenoloog een beeld van hoe de cliënt zijn wereld construeert en beleeft. Een beeld van de ‘persoonlijkheid’ wordt dan verkregen.

De bedoeling van een projectieve test is voor de cliënt vaak niet duidelijk, hij weet niet hoe de test gebruikt gaat worden en waar de hulpverlener op zal letten. Hoewel er voor bepaalde projectieve tests wel scoringsnormen op ordinaal en nominaal niveau bestaan, worden deze tests in de praktijk vaak niet gescoord omdat dit een erg tijdrovend karwei is. Dit is het tweede kenmerk van projectieve testen. In plaats daarvan worden de antwoorden van de cliënt op basis van intuïtie geïnterpreteerd. Voorheen waren projectieve tests er altijd op gericht om een beeld te krijgen van de gehele persoonlijkheid, maar tegenwoordig zijn er ook schalen ontwikkeld die specifieke aspecten van de ontwikkeling van de persoonlijkheid in kaart brengen of bepaalde psychische verwerkingsprocessen onderzoeken.

Westen en collega’s hebben een opsomming gemaakt van de toegevoegde waarde van projectieve tests:

  1. Projectieve tests kunnen informatie geven over processen waar de cliënt zelf wellicht geen inzicht in heeft, maar die een goed getrainde hulpverlener wel op kan merken.

  2. Indirecte technieken (projectieve tests) zijn minder gevoelig voor de menselijke tendens om zichzelf (beter) te doen presenteren, doordat niet duidelijk is wat het doel is. Op deze manier kunnen onbewuste psychische processen achterhaald worden.

  3. Een mogelijke toegevoegde waarde van een projectieve test is dat het ook functionele diagnostiek toestaat. Hiermee wordt bedoeld dat je diagnostiek toe kunt passen op hoe mensen op dat moment reageren en zich gedragen.

  4. Onderzoek heeft aangetoond dat er onderscheid gemaakt moet worden tussen impliciete en expliciete processen in perceptie, geheugen, affectie, emotie en cognitie. Indirecte methoden kunnen helpen om de impliciete processen zo goed mogelijk in kaart te brengen.

  5. Als laatste kan het gebruik van meerdere verschillende methoden, dus ook projectieve methoden, de validiteit verhogen.

Soorten indirecte methoden

Er zijn heel veel verschillende projectieve tests beschikbaar. Grofweg kunnen ze ingedeeld worden in de volgende categorieën:

  1. Afmaakmethoden: onderzochte moet een incomplete taak afmaken.

  2. Expressieve methoden: onderzochte moet iets tekenen.

  3. Associatiemethoden: een cliënt moet met het eerste woord of de eerste waarneming die hem te binnen schiet reageren op een stimulus.

  4. Keuze of ordeningsmethoden: gekozen wordt uit een aantal alternatieven (naar eigen voorkeuren), of er worden een aantal stimuli geordend.

  5. Constructiemethoden: de taak hierbij is om iets te produceren, zoals een verhaal.

De meest beroemde projectieve test is de Rorschach test, beter bekend als de inktvlekkentest. Bij deze associatiemethode krijgt de cliënt platen met inktvlekken erop te zien en moet hij daarbij vertellen wat hij in de inktvlek ziet. De helft van de tien platen zijn zwart-wit, de andere helft bevat kleur. De testleider dient de antwoorden van de cliënt zo letterlijk mogelijk op te schrijven en na afloop eventueel uit te vragen om de antwoorden goed te kunnen scoren. Er zijn verschillende systemen om de antwoorden op de Rorschachtest te scoren. Het Comprehensive System van Exner combineert een aantal andere systemen en lijkt goede psychometrische kwaliteiten te bezitten. De antwoorden worden middels dit systeem gescoord met behulp van 9 hoofdcategorieën:

  1. De inhoud van het antwoord.

  2. Hoe populair het antwoord is

  3. De aanwezigheid van bijzonderheden zoals perseveratie

  4. De locatie: het deel van de plaat waarop het antwoord betrekking heeft

  5. De ontwikkelingskwaliteit: dus de mate van differentiatie van het antwoord

  6. De determinant: de kenmerken van de inktvlek die het antwoord beïnvloed hebben.

  7. Het al dan niet aanwezig zijn van meerdere determinanten

  8. De organisatieactiviteit: de mate van betekenisvolle integratie van delen van de plaat.

  9. De vormkwaliteit: de mate waarin het antwoord past bij de vormkenmerken van de inktvlek.

Na de scoring per antwoord worden er totaalfrequenties berekend en vinden er allerlei berekeningen tussen de scores plaats. Dit wordt uiteindelijk de structurele samenvatting. De interpretatie van de scores is lastig en veelomvattend. De fenomenologische interpretatiewijze stoelt ook op de ideeën van Rorschach zelf en richt zich op het waarnemingsproces en de vormkenmerken van de antwoorden. De psychodynamische interpretatie legt meer de nadruk op de verbale inhoud van de antwoorden. Er is de laatste jaren veel kritiek op de inhoudelijk-interpretatieve en de kwantitatieve benaderingen van de Rorschach test. Er wordt met name aan de validiteit van de test getwijfeld. Ook op deze kritiek kwam weer veel kritiek die stelt dat bepaalde Rorschach-schalen en scoringssystemen wel degelijk valide zijn. Met name de Mutuality of Autonomy Scale, de Differentiation-Relatedness Scale en de Developmental Analysis of the Concept of the Object Scale lijken een goede validiteit te bezitten. Voor de Rorschach test geldt dat het belangrijk is dat de persoon die de test afneemt goed getraind is in de afname, interpretatie en scoring van deze test.

De Thematische Apperceptie Test (TAT) is een constructiemethode waarbij de cliënt een aantal platen krijgt waarbij hij/zij een verhaal dient te vertellen. Dit verhaal dient niet alleen te gaan over wat er op dat moment gebeurt, maar ook over wat er vooraf ging aan de plaat en hoe het verhaal afloopt. De platen zijn zwart-wit en er zijn verschillende combinaties van de platen mogelijk afhankelijk van de leeftijd en het geslacht van de cliënt. Er bestaan in totaal 31 platen, maar er worden er maar 20 per cliënt gebruikt. De hulpverlener dient de verhalen van de cliënt zo compleet mogelijk op te schrijven en door te vragen bij eventuele ontbrekende elementen (verleden, heden of toekomst). Er zijn vele scoringssystemen beschikbaar, maar meestal wordt er gekozen voor een kwalitatieve interpretatie van de verhalen. Het idee hierachter is dat de elementen uit het verhaal van de cliënt op de cliënt zelf van toepassing zijn. Tegenwoordig bestaan er de Social Cognition and Object Relations Scales (SCORS), die verschillende theorieën combineren en dimensies van het interpersoonlijke functioneren meet. Dit systeem heeft goede psychometrische kwaliteiten, is gemakkelijk te gebruiken en heeft verschillende praktische toepassingen. Een test die sterk lijkt op de TAT is de Vier Platen Test. De gekleurde platen hebben onderling niets met elkaar te maken. Nadat de cliënt even naar de platen heeft kunnen kijken worden de platen weggenomen en moet de cliënt een verhaal vertellen waarin alle vier de platen terugkomen. Interpretatie gebeurt op dezelfde manier als bij de inhoudelijk-interpretatieve benadering van de TAT.

De Zinaanvultest (ZAT) is een afmaakmethode waarbij de cliënt gevraagd wordt openingswoorden of stammen af te maken. Er zijn veel verschillende versies van de zinaanvultest en er bestaan verschillende scoringssystemen. Interpretatie vindt meestal plaats door de antwoorden te categoriseren in betekenisvolle en nietszeggende antwoorden om vervolgens de betekenisvolle antwoorden onder te verdelen in categorieën. Met deze categorieën kan de hulpverlener een beeld krijgen over positieve en negatieve aspecten. De betekenisvolle antwoorden kunnen bijvoorbeeld gebruikt worden als basis voor een interview met de cliënt. Er zijn ook wel scoringssystemen voor de zinaanvultest ontwikkeld die behoorlijk goede psychometrische kwaliteiten hebben zoals de Zinnenaanvullijst Curium (ZALC).

Bij expressieve methoden wordt vaak gebruik gemaakt van tekeningen. De cliënt krijgt dan simpelweg de opdracht een tekening van iets te maken. Vaak moet een cliënt een persoon of een boom tekenen. Hoewel er wel verschillende scoringssystemen bestaan voor het beoordelen van tekeningen, worden ze meestal intuïtief geïnterpreteerd. Het idee hierbij is dat de details van de tekening een psychologische, symbolische betekenis hebben.

Interpreteren van indirecte tests

Bij interpretatie wordt er een presentatie van een beschrijving opnieuw gedefinieerd of gestructureerd. Interpretatie gebeurt eigenlijk altijd op basis van een bepaald referentiekader of een bepaalde theorie. De regels voor een gestructureerde interpretatie kun je halen uit de hermeneutiek (uitlegkunde). Twee basisregels staan daarin centraal: (1) een dialectiek tussen enerzijds het te interpreteren element en anderzijds de context van het element, (2) convergentie en geen divergentie van betekenissen. Een interpretatie is sterker wanneer zij vanuit verschillende oogpunten binnen het materiaal of vanuit verschillende materialen wordt ondersteund (convergentie) en niet wordt tegengesproken door andere betekenisvolle elementen (divergentie). Voor de projectieve methoden betekent dit dat een hulpverlener die met deze methoden wil werken zich goed zal moeten inlezen in de onderliggende theorieën, in de referentiekaders die bij de diagnostiek gebruikt worden, het interpretatieproces en ander beschikbaar materiaal over de cliënt. Projectieve methoden kunnen vooral interessant zijn als het gaat om diagnostiek bij persoonlijkheidsstoornissen. Deze methoden zijn echter alleen bruikbaar als er gebruik gemaakt wordt van valide en betrouwbare instrumenten voor de afname en de scoring. Zoals al in een eerder hoofdstuk is besproken is de kwalitatieve interpretatie van een diagnosticus niet altijd even betrouwbaar en dat geldt zeker voor de interpretatie van projectief materiaal.

Evaluatie en gebruik van indirecte methoden

Je moet nooit conclusies trekken op basis van alleen projectief materiaal, het is beter om de resultaten van deze methoden te vergelijken met de resultaten van andere, meer directe methoden en op basis daarvan conclusies te trekken. Nadelen van de projectieve tests zijn dat er vaak geen gestandaardiseerde instructies bestaan en ook de aanbieding van het materiaal is vaak niet of niet volledig gestandaardiseerd. Dit kan invloed hebben op de antwoorden van de cliënt waardoor onderlinge vergelijking van cliënten niet goed mogelijk is. Er is nog veel onderzoek nodig naar de validiteit en betrouwbaarheid van projectieve tests en de bijbehorende scoringssystemen. Hoewel er de nodige nadelen en problemen zijn met projectieve tests, worden ze niet zomaar afgedaan.

Hoe kun je de betrouwbaarheid van een (psychologisch) onderzoek waarborgen? - Chapter 6

 

In de psychometrie wordt betrouwbaarheid gedefinieerd als consistentie in metingen. Een betrouwbaar meetinstrument hoeft niet per se positief te zijn: een instrument kan ook betrouwbaar consistent het verkeerde antwoord aangeven. Betrouwbaarheid is iets relatiefs. Een test kan in de ene context betrouwbaar zijn en in de andere niet. Testen kunnen in verschillende maten en op verschillende manieren betrouwbaar zijn. Er zijn dan ook verschillende betrouwbaarheidscoëfficiënten. Deze getallen geven een indicatie van betrouwbaarheid door de verhouding tussen ‘ware score’-variantie en de totale variantie aan te geven. Een deel van de variantie (s²) in iedere score wordt bepaald door de ware variantie, veroorzaakt door echte verschillen, en door error variantie, veroorzaakt door willekeurige, niet gecontroleerde factoren. De betrouwbaarheid is de proportie van de totale variantie die veroorzaakt wordt door ware variantie. Hoe groter die proportie, hoe groter de consistentie. Dat komt doordat ware variantie stabiel is en iedere meting hetzelfde zal zijn, terwijl errorvariantie willekeurig en veranderlijk is. Een systematische fout heeft dus geen invloed op de betrouwbaarheid: het maakt de variantie niet groter en de consistentie niet minder.

Error variantie

Er zijn verschillende bronnen van errorvariantie te onderscheiden in verschillende testfases. Hieronder staan dergelijke bronnen per testfase opgesomd.

  1. Testconstructie: tijdens het ontwikkelen van de test kan error ontstaan door itemselectie of inhoudselectie. Als er toevallig alleen items bedacht zijn die goed aansluiten bij de kennis van de testmaker, dan scoort hij hoger dan als er andere items geselecteerd waren. Ook de exacte vormgeving of bewoording van items heeft op die manier invloed. Dit zorgt voor errorvariantie binnen de items of tussen de items op verschillende testen.

  2. Testafname: er zijn verschillende factoren die de aandacht of motivatie van de testmaker kunnen beïnvloeden. Er kunnen allerlei storende factoren in de ‘testomgeving’ zijn. Ook kunnen de storende factoren voortkomen uit de testmaker zelf. Een voorbeeld hiervan is als iemand niet goed geslapen heeft en hierdoor alle antwoorden op de verkeerde regel invult. Tenslotte kunnen deze factoren voortkomen uit de testafnemer; bijvoorbeeld als hij per ongeluk teveel informatie laat doorschemeren of wanneer zijn aanwezigheid op zich al storend is.

  3. Testscoring en interpretatie: hoewel veel testen objectief gescoord kunnen worden door de computer, zijn er nog steeds veel testen die met de hand gedaan worden. De meeste testen geven zeer specifieke criteria aan de hand waarvan gedragingen gescoord kunnen worden, maar een bepaalde mate van subjectiviteit is niet uit te sluiten. Bij bijvoorbeeld projectieve metingen wordt het helemaal aan de testafnemer overgelaten hoe prestaties gescoord en geïnterpreteerd worden. Als er sprake is van subjectiviteit is het altijd mogelijk dat de resultaten vertekend worden door de scorer. Het intensief trainen van scorers zou dit moeten voorkomen.

  4. Overig: in speciale gevallen weet je nooit in welke mate er sprake is van errorvariantie. In een huwelijk waar sprake is van mishandeling zou er sprake kunnen zijn van onsystematische error, waaronder het vergeten van de mishandeling, of van systematische error, zoals het consequent doen alsof er niks aan de hand is. Omdat er in een dergelijke situatie maar twee mensen zijn die weten wat er aan de hand is, weet je nooit in welke mate er sprake is van error.

Test-hertest-betrouwbaarheidsschattingen

Betrouwbaarheid is de consistentie van een meting. Of iets betrouwbaar is kun je dus meten door te kijken of je bij herhaalde metingen steeds hetzelfde resultaat krijgt. Dit heet test-hertest-betrouwbaarheid. Er wordt een correlatie berekend tussen de resultaten die verkregen zijn bij herhaalde afname van de test bij dezelfde personen. Hoe langere tijd zit tussen de afnamen van de test, hoe lager de betrouwbaarheid. Immers, mensen veranderen over de tijd heen. De tijd die verstrijkt treedt dan op als error. Als betrouwbaarheid over een tijdsinterval langer dan zes maanden wordt berekend, wordt het de stabiliteitscoëfficiënt genoemd. Er zijn factoren waardoor de test-hertest betrouwbaarheid ook op een kort interval laag kan zijn, zonder dat er iets mis is met de test. Het kan bijvoorbeeld zijn dat er een grote verandering plaats heeft gevonden in het leven van de participant. Zelfs bij stabiele variabelen, zoals reactiesnelheid, kunnen vermoeidheid, oefening en geheugen als error optreden. Dergelijke factoren moeten meegenomen worden in de beoordeling van de betrouwbaarheid van een test.

Parallelle vormen en verschillende vormen van betrouwbaarheid

Soms wordt dezelfde test in verschillende vormen afgenomen, zoals het geval is bij een herkansing van een tentamen. Bij parallelle vormen zijn de geobserveerde gemiddelden en varianties van de verschillende versies gelijk. Bij alternatieve vormen zijn de versies van de testen ontworpen om ongeveer parallel te zijn. Ze zijn equivalent op bijvoorbeeld testlengte en niveau. In welke mate de versies van test gelijk zijn, wordt beschreven door de equivalentiecoëfficiënt. Om de betrouwbaarheid van parallelle of alternatieve testen te meten, is het nodig om beide testen bij dezelfde groep mensen af te nemen en de overeenkomsten tussen de scores te bekijken. Dat is een dure en tijdrovende procedure. Er moeten met dezelfde bronnen van error rekening gehouden worden als bij andere betrouwbaarheidsmetingen.

Interne consistentie betrouwbaarheid

Betrouwbaarheid kan ook gemeten worden zonder de test twee keer af te hoeven nemen of een parallelle vorm te ontwikkelen. Hierbij wordt de test intern op consistentie beoordeeld. Dergelijke betrouwbaarheidsschattingen worden interne consistentie betrouwbaarheidsschattingen of tussen-items-consistentie genoemd. Betrouwbaarheidsschattingen zijn schattingen en kunnen onderwerp van error zijn, bijvoorbeeld door de steekproeftrekking. Er bestaan verschillende betrouwbaarheidsschattingen:

Bij split-half betrouwbaarheid wordt de correlatie tussen het ene deel van de items en een daaraan gelijk ander deel van de items berekend. Het is hierbij niet handig om de eerste helft en de tweede helft van de test te nemen, aangezien vermoeidheid of oefening de resultaten op de tweede helft van de test kunnen beïnvloeden. Beter is het om de items willekeurig te verdelen over de twee helften, of om alle even vragen en alle oneven vragen met elkaar te vergelijken (‘even-oneven betrouwbaarheid’). Ook kun je items matchen; hierbij probeer je ervoor te zorgen dat beide helften equivalente items bevatten. Over deze helften wordt Pearson’s r berekend. Vervolgens wordt er een Spearman-Brown formule toegepast. In deze formule wordt de lengte van de test meegenomen, een factor die de betrouwbaarheid beïnvloedt. De formule gebruikt bij een verlengde test is rSB=nrxy1+(n-1)rxy. rSB staat voor de Spearman-Brown betrouwbaarheidscoëfficiënt, rxy is de correlatie tussen de helften, en n is het aantal items van de nieuwe versie gedeeld door het originele aantal items. De hele test bij een split-half test is twee keer zo lang als de originele, eerste helft van de test. N is dus 2. Dit geeft rSB=2rhh1+rhh, waarbij rhh staat voor de Pearson correlaties van de twee helften. Het verlengen van de test geeft meestal een grotere betrouwbaarheid. Als testontwikkelaars een test willen inkorten, bijvoorbeeld omdat er te weinig tijd is of omdat het een saaie test is, kan de Spearman-Brown formule gebruikt worden om te berekenen hoeveel dit af zou doen aan de betrouwbaarheid van de test. Ook kun je de formule gebruiken om te bekijken hoeveel items je moet ontwikkelen voordat je het gewenste betrouwbaarheidsniveau bereikt. Dit wil niet zeggen dat het zinvol is om iedere onbetrouwbare test net zo lang te verlengen tot hij betrouwbaar is. Soms is het beter om de betrouwbaarheid op een andere manier te vergroten (bijv. door errorfactoren te beperken) of om een alternatieve test te gebruiken.

  1. De simpele correlaties tussen de items op een test, de inter-item consistentie, geldt ook als meting van de betrouwbaarheid. Deze consistentie geeft aan hoe homogeen een test is. Dat wil zeggen: in welke mate hij één en hetzelfde kenmerk meet. Een heterogene test meet dus meer dan één kenmerk. Hoe homogeen een test is hangt af van hoe specifiek het onderzochte onderwerp is. Sommige dingen hebben meer subkenmerken dan andere. Hoe homogener de test, hoe hoger de inter-item consistentie. Hoe homogener de test, hoe gemakkelijker interpreteerbaar het resultaat. Het nadeel is dat weinig psychologische trekken zo ‘smal’ zijn dat ze aan een homogene test onderworpen kunnen worden. Dit probleem kun je omzeilen door een trek op te delen in een aantal smalle, specifieke onderwerpen en die vervolgens in een homogene test te onderzoeken.

  2. Een andere methode aan de hand waarvan de interne consistentie berekend kan worden is de Kuder-Richardson formule (KR 20), ontwikkeld voor testen met dichotome items (items met twee mogelijke antwoorden). Als de test heterogeen is, zal de formule een lagere betrouwbaarheid geven dan de split-half methode. De formule luidt rKR 20 =kk-1∑pqσ2, waarin k het aantal testitems is, σ² de variantie van alle testscores, p de proportie mensen die het testitem goed maken en q de proportie die het verkeerd maken. De KR 21 formule is een eenvoudigere formule die een schatting kan geven van de betrouwbaarheid berekend met KR 20. Het resultaat klopt alleen als alle items even moeilijk zijn. Aangezien dit slechts zelden het geval is, wordt de KR 21 gezien als schatting. Aangezien eenvoudige formules een overbodige luxe zijn in een geautomatiseerd tijdperk, wordt de KR 21 nauwelijks meer toegepast.

  3. Cronbach’s alfa coëfficiënt zou je kunnen zien als het gemiddelde van alle mogelijke split-half en test-hertest correlaties, gecorrigeerd door de Spearman-Brown. De alfa is ook bruikbaar bij niet-dichotome testitems. De formule luidt ra=kk-11-∑σi²σ2, waarbij σ² de variantie voor alle testitems en σi² de variantie voor één item is. De coëfficiënt is de meest gebruikte betrouwbaarheidsschatting. Alfa meet hoe betrouwbaar een test is door te kijken hoe sterk vergeleken datasets op elkaar lijken. Het is een getal van 0 (geen overeenkomst) tot 1 (perfecte overeenkomst). De coëfficiënt kan dus niet negatief zijn. Betrouwbaarheidsschattingen die gebruik maken van Pearson’s r kunnen dat wel, maar in de praktijk is het zelden het geval dat items echt tegengesteld aan elkaar zijn. Een al te hoge alpha kan onwenselijk zijn. De test is dan sterk homogeen en kan worden ingekort.

  4. De score op een test mag niet afhangen van degene die de test gescoord heeft. Om dit te voorkomen wordt gebruik gemaakt van tussen-scorers-betrouwbaarheid (inter-scorer reliability), oftewel de mate van overeenstemming of consistentie in de beoordeling van twee of meer scorers. Deze wordt gemeten in termen van een correlatie tussen de beoordelingen: de coëfficiënt van tussen-scorers-betrouwbaarheid. Als deze betrouwbaarheid hoog is, dan weet een testgebruiker dat er een systematische, consistente manier is om de test in kwestie te scoren.

  5. Een relatief nieuwe methode voor het evalueren van de interne consistentie van een test, is de gemiddelde proportionele afstand (average proportional distance; APD) methode. De APD methode wordt gedefinieerd als een maat die gebruikt wordt om de interne consistentie van een test te evalueren, en welke is gericht op de mate van verschillen tussen testscores in plaats van de mate van overeenkomsten. De algemene vuistregel voor het interpreteren van APD, is dat een verkregen waarde van .2 of lager een indicatie is voor uitmuntende interne consistentie. Een waarde van .25 tot .2 ligt is acceptabel. Een APD van .25 geeft aan dat de interne consistentie twijfelachtig is. Deze richtlijnen zijn gebaseerd op de assumptie dat items die een enkel construct meten, zoals bijvoorbeeld extraversie, idealiter aan elkaar gecorreleerd met waarden van .6 tot .7. De verwachte inter-item correlatie is afhankelijk van de variabelen die gemeten worden. De ideale correlatiewaarden verschillen daarom ook per variabele.

Gebruik van de betrouwbaarheidsschattingen

Doel van de betrouwbaarheidsschattingen

Welke betrouwbaarheidsschatting gebruikt moet worden hangt af van het doel van de test. Bij een test die herhaaldelijk wordt afgenomen, bijvoorbeeld naar het functioneren van een werknemer, mag consistentie door de tijd heen verwacht worden en kan een test-hertest-betrouwbaarheidsschatting gemaakt worden. Bij een test die maar één keer wordt afgenomen, is interne consistentie belangrijker. Als het doel is om te kijken welke scorevariantie waardoor veroorzaakt wordt moeten meerdere schattingen gemaakt worden. Niet iedere schatting zegt namelijk iets over de hele test. Een tussen-scorers-schatting zegt bijvoorbeeld meer over het scoringsproces, interne consistentie-schattingen meer over de opbouw van de test, alternatieve vormen meer over de opbouw of de afname en test-hertest meer over de afname.

Aard van de test

Het gebruik van schattingen hangt ook af van het type test. Sommige types testen hebben eigen problemen. Test-hertest-betrouwbaarheid kan bijvoorbeeld vertekend worden in onderzoek bij kinderen omdat hun vaardigheden snel veranderen door de tijd heen. Er zijn verschillende kenmerken in de aard van de test die invloed hebben op de keuze voor en interpretatie van een betrouwbaarheidsschatting:

  • Zijn de testitems homogeen of heterogeen? Er moet rekening gehouden worden met het feit dat homogene testen hogere betrouwbaarheidscoëfficiënten hebben dan heterogene.

  • Is het testonderwerp dynamisch of statisch? Een dynamisch kenmerk is voortdurend onderhevig aan verandering door situationele of cognitieve ervaringen. Een test-hertest schatting zou dan ook laag uitkomen. Een interne consistentie schatting is dan zinvoller. Bij een statisch kenmerk, dat vrij onveranderlijk is, is de test-hertest methode wel gepast

  • Is er sprake van restrictie of inflatie van het bereik? Bij het beperken van het bereik of het beperken van de variantie lijken correlaties meestal lager dan als alle data in overweging zouden zijn genomen. Bij de inflatie van het bereik of inflatie van de variantie is het omgekeerde het geval. Hierbij moet rekening gehouden worden met de interpretatie van betrouwbaarheidscorrelaties.

  • Is de test een krachttest of een snelheidstest? Bij een krachttest hebben deelnemers alle tijd om alle items te proberen. Sommige items in de test zijn zo moeilijk dat geen deelnemer hem kan invullen. Bij een snelheidstest is er een tijdslimiet waarbinnen iedere deelnemer allemaal even moeilijke items in moeten vullen. Nadien wordt gekeken hoe ver iedere deelnemer is gekomen. Omdat je bij een snelheidstest wilt kijken naar de consistentie van de responssnelheid, zijn schattingen uit test-hertest, alternatieve vormen en split-half van op verschillende tijden afgenomen helften gepast. Bij een gewone split-half correlatie krijg je een extreem hoge schatting, aangezien die berekend wordt aan de hand van het aantal items correct. Bij een snelheidstest is het aantal items correct namelijk standaard tamelijk hoog, waardoor de consistentie ook hoog uit zal komen. Ook de KR 20 gaat uit van het aantal correcte en incorrecte items.

  • Is de test een criteriumreferentietest? Bij een test die ontworpen is om te beoordelen of iemand aan een bepaald criterium voldoet of dat hij iets voldoende geleerd heeft, is er sprake van een criteriumreferentietest. Bij een dergelijke test is het niet zinvol om betrouwbaarheid te berekenen op grond van alle scores in de test. Je hoeft helemaal niet te weten hoe verschillend scores van elkaar zijn; je hoeft alleen te weten of iemand de test gehaald heeft of niet. Vaak zijn de individuele verschillen in prestatie bovendien klein, zoals het geval is bij een snelheidstest. Als individuele verschillen afnemen doet de betrouwbaarheid dat ook, ongeacht de stabiliteit van de individuele prestatie. Het is dan niet zinvol om traditionele betrouwbaarheidsschattingen te berekenen.

Voorbeeld van toepassing van betrouwbaarheid: de blaastest

De blaastest wordt gebruikt om verdachten te testen op de hoeveelheid gedronken alcohol, meestal in het verkeer. In Amerika verschilt het per staat vanaf welk alcoholniveau je ‘wettelijk dronken’ bent en wat voor sancties daarop staan. Test-hertest betrouwbaarheidsschattingen indiceren dat de gemeten alcoholniveaus op een honderdste procent nauwkeurig gemeten worden. De meting is het meest betrouwbaar als deze tijdens de arrestatie gedaan wordt. Vroeger werd achteraf teruggerekend naar het alcoholniveau ten tijde van de arrestatie, maar deze methode was niet onfeilbaar. Over het algemeen is de tussen-scorers-betrouwbaarheid van blaastestscores hoog, hoewel er politieagenten zijn die om de één of andere reden onjuiste scores noteren.

Alternatieven voor het ware score model

Het ware scoremodel is het meest gebruikte en geaccepteerde model in de psychometrie. Er bestaan echter alternatieven voor. Waar de ware scoretheorie probeert de proportie van de errorvariantie te identificeren, tracht de domein-steekproeftheorie de mate waarin specifieke bronnen van variatie bijdragen aan de testscore te identificeren. In de domein-steekproeftheorie geldt de betrouwbaarheidsschatting als de mate waarin de testscore in staat is de steekproef van gedrag uit het domein in kwestie te meten. Een domein is een set aan elkaar gerelateerde concepten waarop items gebaseerd zijn. Interne consistentiebetrouwbaarheid sluit het beste aan bij dit model.

Generaliseerbaarheidstheorie

Volgens Cronbach’s generaliseerbaarheidstheorie variëren de testscores van personen per testafname doordat de situatie waarin de test wordt afgenomen varieert. Het is niet nodig om deze variatie als error te beschouwen. Het volstaat om het universum, de complete testsituatie, te beschrijven. Hierbij moeten alle facetten (details) belicht worden. Als iemand een test twee keer maakt in exact hetzelfde universum, moet hij twee keer dezelfde score krijgen, een universumscore. Volgens Cronbach heeft ieder universum dus een eigen ‘ware score.’ Als de verkregen scores overeenkomen met de universumscores, zijn ze generaliseerbaar. Ieder universum heeft een eigen mate van generaliseerbaarheid. Een generaliseerbaarheidsstudie kan bekijken in welke mate de scores die op een bepaalde test zijn afgenomen in verschillende situaties generaliseerbaar zijn. Er wordt dus gekeken hoeveel invloed verschillende facetten in testsituaties hebben op de score. Deze invloed wordt weergegeven in de generaliseerbaarheidscoëfficiënt, die gelijk staat aan betrouwbaarheidscoëfficiënten in het ware scoremodel. Volgend op de generaliseerbaarheidsstudie wordt vaak een beslissingsstudie gedaan, waarbij gekeken wordt hoe nuttig de testresultaten zijn om aan de hand ervan beslissingen te maken. Het vertelt de testgebruiker hoe de testscores gebruikt moeten worden en of ze betrouwbaar genoeg zijn om er een beslissing op te baseren.

Item responstheorie

Een ander alternatief voor de ware score theorie, is de item responstheorie (IRT), waarbij procedures worden gegeven om de kans dat iemand met kenmerk X een score van Y zal halen op de test. Bij persoonlijkheid en andere psychologische testen zijn het vaak onzichtbare kenmerken die gemeten worden, waardoor de item responstheorie ook wel latente trektheorie wordt genoemd. IRT heeft veel voordelen, maar wordt veel minder gebruikt dan traditionele meetinstrumenten vanwege de complexiteit van het model.

Er zijn zeker honderd variaties van het IRT-model bekend. IRT-items kunnen variëren in hun moeilijkheid, oftewel de moeite die het kost om iets op te lossen of te begrijpen. Een antwoord op moeilijkere items kan bij IRT, in tegenstelling tot traditionele testen, zwaarder meetellen dan een antwoord op een makkelijker item. IRT-items kunnen ook variëren in de mate van discriminatie, hoe sterk een item differentieert tussen mensen die hoog scoren op het onderwerp van onderzoek en mensen die laag scoren. Er is een speciaal items responsmodel voor testen met dichotome testitems; items waarop maar twee antwoorden mogelijk zijn (bijv. ja-nee vragen). Ook testen met polytome testitems, waarop drie of meer antwoordmogelijkheden zijn waarvan er één correct is, hebben een eigen IRT-model. De meeste andere types data hebben eveneens hun eigen IRT-model. Sommige IRT-modellen maken specifieke aannames over de onderliggende scoreverdeling. De IRT-modellen van Rasch gaan bijvoorbeeld uit van een equivalente relatie tussen de verdeling van de testitems en het gemeten construct.

Er bestaan drie belangrijke aannames bij het gebruik van IRT’s:

  1. Unidimensionaliteit: de items meten één construct, aangegeven met θ (Griekse letter thèta). Een item kan alleen vanuit dat construct beantwoord worden. Dat betekent niet dat er geen subschalen kunnen zijn, alleen dat er één dominant construct is.

  2. Lokale onafhankelijkheid: er bestaat een systematische relatie tussen de items, en die relatie heeft alleen te maken met θ. Als items lokaal afhankelijk zijn, wil dat zeggen dat ze allemaal afhankelijk zijn van een andere factor dan θ. Als je bijvoorbeeld een begrijpend-lezen-test hebt, kan het zijn dat iemand veel beter scoort op de items die over gitaar spelen gaan omdat hij daar toevallig veel vanaf weet, en dus niet omdat hij zo goed is in begrijpend lezen. Lokaal afhankelijke items hebben een hogere tussen-item-correlatie.

  3. Monotonie: als iemand een itemrespons kiest die een hogere mate van θ indiceert, zou dit gepaard moeten gaan met een hogere mate van θ.

In werkelijkheid voldoen de data bijna nooit perfect aan deze drie aannames. Echter, IRT modellen zijn bestand tegen kleine afwijkingen.

In een item-kenmerkcurve (IKC, Eng. ICC) kan de waarschijnlijke relatie tussen het niveau van het latente construct en de itemrespons gemeten worden. Het gemeten construct θ wordt uitgezet op de x-as en de waarschijnlijkheid van een bepaalde itemrespons op de y-as. Op de x-as staan z-scores die aangeven hoeveel standaardafwijkingen θ verwijderd is van het gemiddelde. Op de y-as staan kansen tussen de 0 en de 1. Het kan zo zijn dat als iemand twee standaardafwijkingen boven een gemiddelde θ scoort, er een kleine kans bestaat dat hij hoog scoort op een testitem.

In een informatiecurve (of informatiefunctie) kun je zien hoeveel informatie een testitem waarover geeft in een IRT-test. Op de x-as staat weer de θ, op de y-as staat hoe informatief het item is, dat wil zeggen: hoe precies het θ meet en hoeveel gewicht het heeft. Het item ‘het maakt me niet uit wat er met me gebeurt’ is heel informatief voor een hoog niveau van θ. Dit item geeft dus een scherpe curve boven meerdere standaarddeviaties boven θ. Een informatiecurve is een handig hulpmiddel bij het inkorten van een test. Je kunt bijvoorbeeld alleen de meest informatieve items voor een hoog niveau van θ selecteren. Ook kan uit een informatiecurve blijken dat er bepaalde items een zodanig lage informatiewaarde hebben, dat ze beter geschrapt kunnen worden. Dit kan komen doordat het item niet past bij het construct, doordat het slecht geformuleerd is, te complex, irrelevant in de context of cultureel niet universeel geldig is. Het item ‘ik huil makkelijk’ is bijvoorbeeld in Ethiopië niet informatief voor depressie, omdat huilen daar cultureel onacceptabel is. Een informatiefunctie kan een totaalbeeld van alle items geven met daarbij de betrouwbaarheid genoteerd. Dit geeft een beeld van hoe informatief en hoe betrouwbaar de test over het geheel genomen is. Ook kun je zien hoe de betrouwbaarheid en informatieve inhoud afhangen van de mate van θ. Een depressieschaal kan bijvoorbeeld betrouwbaar hoge niveaus van depressie meten, maar het er slecht afbrengen bij mensen met lage niveaus van depressie. Bij een algemenere betrouwbaarheidsschatting, zoals alfa, is niet te zien bij welke mensen de test betrouwbaar is en bij welke niet.

Betrouwbaarheid en individuele scores

Interpretatie van betrouwbaarheidsschattingen: standaardfouten

De standaardfout van de meting (SEM) geeft een indicatie van hoe precies de testscore is. Het geeft een schatting van hoeveel error er in de meting was. Hoe groter de standaardfout, hoe lager de betrouwbaarheid en andersom. Als we willen weten wat iemands ware score is, kunnen we het gemiddelde berekenen van meerdere scores van diegene. We weten dan niet hoeveel van die ware score vertekend is door error. De standaardfout van de meting geeft hiervan een schatting door de mate weer te geven waarin iedere geobserveerde score van de ware score af zal wijken. Dit is zogezegd de standaardafwijking in een normale verdeling van scores van één persoon op meerdere equivalente testen. De SEM wordt ook wel de standaardfout van een score (σmeas). De SEM meet de mate van variatie in scores van een persoon op parallelle testen. Als een individu de test herhaaldelijk zou maken, zou een normale verdeling ontstaan. De kans is groot dat hij tussen het gemiddelde en één standaardafwijking daarboven of daaronder scoort. De standaardafwijking in deze distributie is de SEM en kan berekend worden als de standaardafwijking en de betrouwbaarheid van de testscores bekend zijn. De formule hiervoor is σmeas= σ√1-rxx, waarbij σ de standaardafwijking van de testscores en rxx de betrouwbaarheid ervan representeren. De σmeas fungeert nu dus als standaardafwijking in de normale verdeling van alle mogelijke scores die een persoon op parallelle testen zou kunnen halen. Aan de hand van deze statistiek kan dus bijvoorbeeld gezegd worden dat de kans 68% is dat de score tussen één σmeas onder het gemiddelde en één σmeas boven het gemiddelde zal liggen. De kans dat een bepaalde score tussen twee bepaalde waarden (hier uitgedrukt in standaardafwijkingen) zal liggen, kan worden berekend. Het interval tussen die twee scores wordt het betrouwbaarheidsinterval genoemd. Als je bijvoorbeeld een betrouwbaarheidsinterval van 95% kiest, liggen de grenswaarden op een z-score van 1.96. Deze waarde vermenigvuldig je met de standaardfout en dat getal trek je af van en tel je op bij het gemiddelde om de grenswaarden te krijgen. Preciezere scores hebben een lagere SEM en dus een smaller betrouwbaarheidsinterval.

De standaardfout van het verschil

Met de SEM bereken je de mate van error in een score. Aan de hand van de standaardfout van het verschil kun je verschillen tussen scores evalueren, bijvoorbeeld als je twee groepen vergelijkt waarvan de ene een andere behandeling ondergaan heeft dan de andere. Aan de hand van deze standaardfout kun je vaststellen hoe groot het verschil tussen scores moet zijn voordat het statistisch significant is, dat wil zeggen, niet door toeval veroorzaakt. De standaardfout van het verschil bereken je door σverschil= (σ meting 1²+σ meting 2²). Als de standaardafwijking voor beide metingen hetzelfde is en betrouwbaarheidscoëfficiënten bekend zijn, kan ook de formule σverschil= (2-r1-r2 ) gebruikt worden. De σverschil wordt op dezelfde manier gebruikt als andere standaardafwijkingen. Er kan bijvoorbeeld een betrouwbaarheidsinterval berekend worden om te bekijken hoe groot de kans is dat het verschil tussen scores door toeval veroorzaakt is.

Hoe kun je de bruikbaarheid van een (psychologisch) onderzoek waarborgen? - Chapter 7

 

De bruikbaarheid van een test is het nut of de praktische waarde van een test om de efficiëntie van de assessment te vergroten. Deze term kan iets zeggen over een individuele test, over een programma met een hele testbatterij of over een trainingsprogramma of interventie. De beoordeling van de bruikbaarheid van de test hangt onder andere af van de betrouwbaarheid en validiteitsschattingen (de psychometrische ‘juistheid’ van de test). Als een test consistent meet wat hij moet meten is hij bruikbaar bij het maken van betere (kosteneffectieve) beslissingen. Zoals bekend is een test die valide is automatisch ook betrouwbaar. Maar is een valide test ook per definitie bruikbaar? In het algemeen kan men zeggen dat hoe hoger de criteriumvaliditeit is, hoe groter de bruikbaarheid zal zijn. Er zijn echter zoveel factoren die meespelen in het bepalen van de bruikbaarheid en dit kan op zoveel manieren gebeuren, dat dit zeker geen algemeen geldende regel is. Een voorbeeld is een instrument dat de hoeveelheid gebruikte cocaïne bij afkickende drugsverslaafden moest meten. Dit instrument bleek erg valide. Echter, weinig van de verslaafden gebruikten het instrument op een zodanig manier dat er zinvolle resultaten verkregen werden. Het instrument was dus nauwelijks bruikbaar.

Kosten-baten

Een fundamenteel element voor de bruikbaarheid van de test zijn de kosten. Het kopen en afnemen van een test kost een hoop geld. In sommige settings worden deze kosten door de testmakers zelf (of hun verzekering) betaald. In andere settings worden ze betaald uit de fondsen van de testgebruiker, bijvoorbeeld door sponsors, opdrachtgevers of subsidiërende overheden. Andere kosten zijn minder gemakkelijk te berekenen. Wat kost het bijvoorbeeld om niet te testen? Als je bijvoorbeeld om de kosten van een ziekenhuisscan uit te sparen niet naar de dokter gaat met een gebroken been, dan zal het niet genezen en zit je de rest van je leven met pijn. Die ‘kosten’ wegen op tegen de financiële kosten van een scan. Er zijn meer niet-financiële kosten te bedenken. Als een bedrijf op onorthodoxe wijze heel veel personeel ontslaat om te bezuinigen, gaat ze dat geld kosten omdat ze klanten verliezen vanwege hun verslechterde imago. Een verslechterd imago is een niet-financiële kostenpost. Als er op veiligheid bezuinigd wordt kan letsel bij klanten ook een hoop kosten in niet-financiële zin. In een minder extreem voorbeeld kan gekozen worden voor hogere financiële kosten om hoge immateriële schade te voorkomen. Zo kiest men voor een duurdere procedure om kindermishandeling vast te stellen. Of een test bruikbaar is, hangt ervan af of de baten opwegen tegen de kosten. De baten van een test zijn die dingen die ze opleveren, oftewel de winst die ze leveren in financiële en niet-financiële termen. Een personeelsselectie-testprocedure kan bijvoorbeeld op de lange termijn zeer veel geldelijke winst geven, maar het kan ook de werkomgeving verbeteren of het aantal ongelukken op de werkvloer reduceren. Onderwijsinstellingen trachten op een zodanige manier studenten te selecteren voor hun opleidingen dat ze er vrij zeker van kunnen zijn dat hun studenten (economisch) succes zullen hebben. Dit kan tevens leiden tot minder uitval en een betere leeromgeving tijdens de opleiding. Een test die moet bepalen of mensen gedwongen opgenomen moeten worden in een psychiatrische instelling heeft het niet-economische voordeel dat mensen die een gevaar voor zichzelf of de maatschappij zijn, uit de maatschappij verwijderd worden.

Bruikbaarheidsanalyse

De technieken die kosten-batenanalyses uitvoeren om de bruikbaarheid of praktische waarde van een instrument te evalueren vallen onder de bruikbaarheidsanalyse. Dit zijn verschillende technieken die verschillende data behandelen en verschillende informatie verschaffen over de bruikbaarheid. Dergelijke evaluaties kunnen helpen beslissen welke test (programma, interventie) te verkiezen is boven de andere, en hoe die afgenomen moet worden.

Illustratie bruikbaarheidsanalyse

In een voorbeeld werd een kosten-batenanalyse uitgevoerd over een testprocedure om vrachtwagenbestuurders te werven. In de vroegere testprocedure (OTJSR) werden de bestuurders in een testperiode van 3 maanden iedere dag beoordeeld door hun leidinggevenden. Als ze aan het eind voldoende scoorden, mochten ze blijven. De nieuwe test is een soort rijexamen van een uur (de FERT). In de bruikbaarheidsanalyse moeten werknemers zowel de oude als de nieuwe test doen, met de oude als criterium en de nieuwe als voorspeller. Bij top-down selectie krijgen de beste scorers een aanstelling, net zoveel tot de beschikbare posities bezet zijn. Dit kan wel onbedoeld discriminerend zijn. Daarom stelde men in het voorbeeld een grensscore met behulp van een computerprogramma (ontwikkeld voor bruikbaarheidsanalyse). Er zijn allerlei verschillende grensscores mogelijk. Voor uitleg van de gebruikte terminologie, zie hoofdstuk 7 of tabel 1 op pag. 221. Welke grensscore gebruikt wordt hangt af van het doel van de test. In dit geval zijn er vier opties:

  1. Men kan ervoor kiezen om geen grensscore te gebruiken (of zelfs om de hele test niet af te nemen) om kosten uit te sparen. Dit kan bijvoorbeeld als het aantal sollicitanten even groot is als het aantal vacatures.

  2. Als je er zeker van wilt zijn dat gekwalificeerde kandidaten niet afgewezen worden (laag false negative), kun je de grensscore laag zetten.

  3. Als je er zeker van wilt zijn dat je geen ongekwalificeerde mensen aanneemt, kun je de grensscore hoog stellen (laag false positive). Zo selecteer je alleen de meest geschikte kandidaten.

  4. Als je er zoveel mogelijk van verzekerd wilt zijn dat de gekwalificeerde kandidaten geselecteerd worden en de niet-gekwalificeerde kandidaten afgewezen, kun je het beste een grensscore stellen waarbij mensen die goed scoorden op OTJSR meer kans hebben dan mensen die slecht scoorden en waarbij de ‘miss-rate’ zo laag mogelijk is. De misses kunnen dan zowel false positive als false negative zijn.

De uitvoerder van de bruikbaarheidsanalyse bekijkt iedere optie voor een grensscore nauwkeurig. De base-rate, de proportie aangenomen sollicitanten die gekwalificeerd bevonden werden op grond van de OTJSR (ongeacht de FERT), was 0.50. Zonder de FERT was de miss-rate echter ook 0.50. Dat is tamelijk hoog. Optie 1 werd dus verworpen. Bij optie twee werd een lage grensscore gesteld. Hierbij is de selectieratio hoog (veel van de sollicitanten worden geselecteerd). De false negative is ongeveer gelijk aan 0, maar de miss-rate is nog steeds 45%. De base-rate van gekwalificeerde sollicitanten is nu 0.526. Aangezien de miss-rate nog zo hoog is en er maar zo weinig gekwalificeerde sollicitanten bijkomen, wordt ook deze optie verlaten. Bij optie drie is de grensscore zo hoog, dat de miss-rate nog maar 40% is, de base-rate 1.00 en de selectieratio 10%. Er is geen fase positive meer. Iedere geselecteerde sollicitant is in dit scenario ook echt geschikt voor de baan. Het grote nadeel is dat de selectieratio maar 10% is. Dat betekent dat voor iedere 10 vacatures 100 sollicitanten geworven moeten worden. Dit kost een hoop geld. Het bedrijf zou geen partij meer zijn voor de concurrent. Bovendien komt deze strategie op hetzelfde neer als top-down selectie, en dat moest net voorkomen worden. Ook is het zo dat veel gekwalificeerde sollicitanten niet doorgelaten worden. Bij optie 4 tenslotte is de miss-rate nog maar 15%, zijn de false negatives en false positives beiden laag, is de base-rate 0,839 en de selectieratio 51,7%. Dit is een optimale oplossing, bijvoorbeeld vanwege het niet extreem hoge aantal benodigde sollicitanten. De kosten-batenverhouding is bevredigend: er is een voldoende ‘return on investment.’ Voor een grafische weergave voor iedere optie: zie pag. 220-223.

Uitvoering van een bruikbaarheidsanalyse

Er zijn veel verschillende algemene methoden te onderscheiden.

Verwachtingsdata

Zoals uitgelegd in hoofdstuk 6 kan gebruik gemaakt worden van verwachtingsdata. Als iemand op een criterium scoort zoals verwacht werd op grond van een andere testscore, dan weet je dat de test werkt en dat hij bruikbaar is.

De Taylor-Russell-tabellen geven een schatting van de mate waarin een test die gebruikt wordt bij een personeelsselectieprocedure de selectie zal verbeteren. Ze geven een schatting van het percentage werknemers dat op grond van de test aangenomen wordt, daadwerkelijk succesvol zal zijn. Hierbij wordt uitgegaan van een combinatie van drie variabelen: de validiteit van de test, de gebruikte selectieratio en base-rate-informatie. De selectieratio is de verhouding tussen het aantal sollicitanten voor wie plek is en het aantal sollicitanten dat beschikbaar is. De base-rate is hier het percentage reeds onder het bestaande systeem aangenomen mensen dat succesvol is op de huidige baan. Tabel 7.1 (pag. 227) is een voorbeeld van een Taylor-Russell tabel met een base-rate van 60%. Links staan validiteitscoëfficiënten van testen die gebruikt zouden kunnen worden. Boven staan mogelijke selectieratio’s. Als je een test gebruikt met een validiteit van 0.55 en een selectieratio van 0.2, dan krijg je een base-rate van 0.88. Dat betekent dat nu 88% van de aangenomen werknemers goed zal presteren in plaats van slechts 60%. Een nadeel van de Taylor-Russell tabellen is dat de relatie tussen de voorspellende factor (de test) en het criterium (werkprestatie) lineair moet zijn. Een ander nadeel is dat de tabellen geen score identificeren die de grens tussen een goede en een slechte werknemer aanduidt. Vanwege deze nadelen zijn de Naylor-Shine tabellen ontwikkeld, die het verschil in criteriumscores tussen de geselecteerde groep en de originele groep bekijkt. Een specifiek nadeel van de Naylor-Shine tabellen is wel weer dat het de bruikbaarheid overschat.

Uiteraard worden er nog veel meer variabelen bekeken op grond waarvan een sollicitant al dan niet wordt aangenomen, zoals een drugsverslaving. De publicatie van de hierboven beschreven tabellen leidde tot meer onderzoek over wanneer testen zinvol waren en wanneer ze tot de beste beslissingen zouden leiden.

Brogden-Cronbach-Gleser formule

Voor de analyse van de kosten en baten van een test kan gebruik gemaakt worden van de Brogden-Cronbach-Gleser formule (BCG). Hierbij wordt de bruikbaarheidswinst berekend, de baten van het gebruik van een instrument in bepaalde omstandigheden, aan de hand van de volgende formule: bruikbaarheidswinst=(N)(T)(rxy)(SDy)(Zm) – (N)(C). Het eerste deel van de formule (tot de -) zijn de baten van de test. Hierin is N het aantal geselecteerde sollicitanten per jaar, T is de duur van de periode waarin iemand zijn functie bekleedt, rxy de (criterium)validiteitscoëfficiënt, SDy de standaarddeviatie in prestatie van werknemers en Zm is de gemiddelde (standaard) score. - (N)(C) staat voor de kosten van het aantal sollicitanten maal de kosten voor iedere sollicitant (C). SD is een schatting en wordt vaak vastgesteld op 40% van het gemiddelde inkomen. De bruikbaarheidswinst is dus de return on investment; het is de baten min de kosten. Als de testgebruiker geen kosten-batenanalyse in termen van geld wil doen, kan hij de productiviteitswinst in plaats van de bruikbaarheidswinst berekenen. Dit is de geschatte toename in productiviteit van de werknemers. Hierbij wordt SDy vervangen door de standaarddeviatie van productiviteit. Verder blijft de formule hetzelfde.

Beslissingstheorie

De beslissingstheorie is een set (statistische) procedures aan de hand waarvan een optimale beslissing omtrent een probleem gemaakt kan worden. Cronbach en Gleser ontwikkelden voor personeelsselectie een classificatie van beslissingsproblemen, verschillende selectiestrategieën, een kwantitatieve analyse van de relatie tussen testbruikbaarheid, de selectieratio en de kosten-batenanalyse, en een aanbeveling om soms de baan op maat te maken voor de sollicitant in plaats van andersom (‘adaptieve behandeling’). Voor het begrijpen van hun beslissingstheorie, moeten eerst een aantal begrippen worden uitgelegd. In deze context betekent base-rate de mate waarin een bepaald kenmerk voorkomt in een populatie. De hit-rate is de proportie mensen die een test accuraat identificeert als in het bezit zijnde van het onderzochte kenmerk. Een hit-rate zou het percentage mensen kunnen zijn waarvan een test correct voorspeld heeft dat ze goed zouden presteren op het werk. De miss-rate is dan de proportie mensen die de test niet heeft kunnen identificeren als in het bezit zijnde van het kenmerk. Er zijn twee soorten miss-rates. Bij false positive voorspelde de test dat de persoon het kenmerk wel zou bezitten, terwijl dat niet het geval was. Bij false negative voorspelde de test dat de persoon het kenmerk niet bezat, terwijl dat wel het geval was. Stel dat van een groep sollicitanten op grond van een personeelsselectietest voorspeld werd dat ze het goed zouden doen op de werkvloer. Een deel van die mensen zal het slechter doen dan voorspeld. Dat zijn false positives. Een andere groep mensen wordt op grond van de test afgewezen. Een deel van die mensen zal het beter doen dan voorspeld werd. Dat zijn false negatives. Een zeer hoge selectieratio betekent dat de criteriumscore op grond waarvan je wordt aangenomen, lager gesteld wordt. Immers, als negen van de tien sollicitanten aangenomen worden, worden de eisen lager. Dat betekent ook dat het aantal false positives zal toenemen. Als de selectieratio juist laag is, zullen er meer false negatives zijn. Immers, er zullen meer mensen hoog scoren dan kunnen worden toegelaten.

De beslissingstheorie helpt om de optimale grensscore te ontwikkelen. Er wordt hierbij een afweging gemaakt over hoe erg het is om false negatives of false positives te hebben. Bij het werven van piloten is het slimmer om een hoge grensscore te stellen. Dan neemt de kans op false negatives weliswaar toe, maar de kans dat je een onvoldoende gekwalificeerd persoon een vliegtuig laat besturen (false positive) neemt af. Dat is in dit geval belangrijker. Beslissingstheorie kan de productiviteit van een bedrijf enorm vergroten. Een voorbeeld is een onderzoek van Schmidt. Hierbij werd de selectieratio aangepast en hadden de gebruikte testen hogere validiteit. Dit leidde tot miljoenenwinst. Ondanks deze enorme voordelen twijfelen werkgevers om de beslissingstheorie te gebruiken bij personeelsselectie vanwege de complexiteit van de toepassing en de angst voor een rechtszaak.

Praktische overwegingen

Er is een aantal factoren dat in overweging moet worden genomen met betrekking tot de bruikbaarheid van testen. Een extreem hoge of extreem lage base-rate kan de bruikbaarheid bijvoorbeeld ernstig beperken. Hieronder staan dergelijke praktische overwegingen opgesomd.

De hoeveelheid sollicitanten en de complexiteit van de baan

Bruikbaarheidstesten gaan er zonder meer vanuit dat er altijd voldoende sollicitanten zijn voor de vacature in kwestie. Er zijn natuurlijk posities te bedenken waarvoor maar heel weinig mensen solliciteren. Ook varieert het aantal sollicitanten met het economische klimaat. Bovendien wordt ervan uitgegaan dat iedere geschikt bevonden sollicitant ook daadwerkelijk de baan accepteert. Vooral bij hoge scorers blijkt dit nogal eens niet het geval te zijn, omdat zij ook elders gewild zijn. De bruikbaarheid van de test wordt op deze manier ernstig overschat. Als een baan erg complex is verschillen mensen sterker in of ze het goed of slecht doen. Of dit invloed heeft op de bruikbaarheidsanalyse is onderwerp van debat.

Grensscores

Types grensscores

De herhaaldelijk genoemde grensscore (cut-score) is het referentiepunt op basis waarvan een dataset in twee of meer classificaties wordt ingedeeld. Soms is er sprake van een relatieve grensscore, een referentiepunt dat is vastgesteld op grond van normreferenties in plaats van de relaties tussen de scores en een criterium. Deze score wordt ook wel de normreferentie-grensscore genoemd. Een voorbeeld is dat de 10% best scorende studenten een 10 krijgen voor hun toets, zonder gebruik te maken van een absoluut criterium (bijvoorbeeld van 0 fout). Het tegenovergestelde hiervan is een vaste grensscore, waarbij er een absoluut punt is dat de minimumscore voor de classificaties weergeeft. Dit wordt ook wel een absolute grensscore genoemd. Dit wordt bijvoorbeeld gebruikt bij het rijexamen: iedereen moet aan een bepaald niveau voldoen voor hij slaagt. Bij multipele grensscores worden twee of meer grensscores gebruikt voor één gemeten factor.

Multipele hordes-selectieprocedure

Bij een multipele hordes-selectieprocedure moeten mensen voor iedere factor die gemeten wordt aan een bepaalde grensscore voldoen voordat ze door mogen naar de volgende fase van het selectieproces. Een eerste horde die genomen moet worden, zou bijvoorbeeld een goede sollicitatiebrief zijn. Iedere fase heeft eigen eisen en eigen grensscores waaraan je moet voldoen voor je verder mag met de procedure. Het nadeel van deze procedure is dat het mensen uitsluit die slecht scoren op de ene horde, terwijl het zou kunnen dat ze op een latere horde veel beter zouden presteren. Volgens het compensatoir model van selectie kunnen hoge scores in de ene fase lage scores in de andere fase compenseren. Op later tijdstip kan dan nog gewerkt worden aan de mindere vaardigheden. In dit model worden verschillende vaardigheden verschillend gewogen. Bij een rijexamen zou je het bijvoorbeeld belangrijker kunnen vinden dat iemand kan invoegen op de snelweg dan dat hij achteruit kan inparkeren.

Vaststellen van de grensscore

Er zijn verschillende methoden aan de hand waarvan de grensscore vastgesteld kan worden. Bij de Angoff-methode beoordelen experts op wat voor manier iemand met een bepaald kenmerk of vaardigheid zou moeten antwoorden op testitems. Het gemiddelde van deze beoordelingen wordt genomen en geldt als grensscore. Het nadeel van deze methode is dat als er grote onenigheid is, de grensscore niet veel zegt. In dat geval kan bijvoorbeeld de methode van contrasterende groepen gebruikt worden. Bij deze methode worden een groep die een bepaald kenmerk wel bezit en een groep die dat niet doet met elkaar vergeleken. De score die het onderscheid tussen de twee groepen het beste weergeeft, geldt als grensscore. Bij het vaststellen van een grensscore voor wie wel en wie geen wiskundebijles nodig heeft, worden bijvoorbeeld studenten die hun wiskunde wel hebben gehaald en studenten die dat niet hebben vergeleken. Het punt waarop de studenten het minst van elkaar verschillen, geldt als grensscore. Als bijvoorbeeld 10 studenten in de ene groep een 6 haalden voor de cursus en 10 studenten uit de andere groep ook, dan wordt de grensscore een 6. Het nadeel van deze methode is dat er geen regels zijn voor de samenstelling van de contrasterende groepen.

Bij een IRT-test moeten testmakers een bepaald aantal items van een minimum moeilijkheidsgraad goed beantwoorden. De minimum moeilijkheidsgraad kan worden vastgesteld door de item-mapping-methode, waarbij experts wordt gevraagd of items van een bepaald niveau meer dan de helft van de keren goed beantwoord zouden moeten worden door minimaal voldoende gekwalificeerde mensen. Zo ja, dan geldt dat niveau als grensscore. Een andere methode is de bladwijzermethode. Hierbij krijgt een getrainde expert een boek met alle items, één per bladzijde, oplopend in moeilijkheidsgraad. Hij moet dan de bladwijzer leggen tussen de items die volgens hem gelden als de grens.

Er zijn nog veel andere methoden om grensscores vast te stellen. Bij discriminante analyse bijvoorbeeld wordt gezocht naar de relatie tussen variabelen en twee natuurlijk voorkomende groepen. Deze methode kan ook gebruikt worden voor het vaststellen van grensscores. Bij de methode van voorspellende opbrengst van Thorndike wordt de grensscore gebaseerd op het aantal te vullen posities/vacatures.

Hoe kun je een psychologische test ontwikkelen? - Chapter 8

 

Testontwikkeling valt uiteen in verschillende fases. Eerst wordt het idee voor de test ontwikkeld (testconceptualisering). Daarna worden de items ontworpen (testconstructie) en wordt er in een try-out data verzameld. Die data wordt geanalyseerd in een itemanalyse en op grond daarvan wordt de test indien nodig herzien. Van de herziene versie wordt vervolgens weer data verzameld en geanalyseerd.

Testconceptualisering

Een test wordt ontwikkeld in antwoord op een bepaalde vraag. Een vraag kan ontstaan uit eerder onderzoek, maar ook uit nieuwe problemen. Als er nieuwe beroepen ontstaan, moeten er bijvoorbeeld testen ontwikkeld worden die kunnen meten of mensen geschikt zijn voor een dergelijk beroep. Bij het ontwerpen van een test moet men met allerlei factoren rekening houden. Er wordt bekeken wat een test meet, wat het doel is, of de test nodig is, wie hem zal gaan gebruiken, bij wie hij zal worden afgenomen, wat de inhoud, de vorm en het format zullen zijn, hoe de test afgenomen en geïnterpreteerd zal worden, welke expertise er nodig is om de test af te nemen of te scoren en wat de baten en kosten zijn van de test.

Criterium– of normreferenties

Voor testen met criterium- of normreferenties zijn verschillende benaderingen van itemontwikkeling benodigd. Voor criteriumreferenties maakt het niet uit wat de relatieve score is. Al is een score de beste van de dataset, als hij niet aan het gezette criterium voldoet maakt dit geen verschil. Criteriumreferenties worden vaak gebruikt bij een vaardigheidstest, zoals bij examens. Bij het ontwikkelen van een dergelijke test wordt een steekproef genomen uit de vereiste criteriumkennis. Deze kennis kan dan getest worden bij twee groepen waarvan bekend is dat de ene de vereiste vaardigheid bezit en de andere groep niet. De items die dan het beste onderscheid maken tussen twee groepen kunnen beschouwd worden als bruikbaar.

Toetsen in schoolsettings

Voorbeelden van testen met criteriumreferenties zijn toetsen, tentamens en examens. Ook deze testen moeten valide en betrouwbaar zijn. Een docent wil dat zijn vragen helder, relevant en representatief voor het geleerde materiaal zijn. Ook moet de test van de juiste lengte zijn. In deze setting is het niet praktisch om uitgebreide psychometrische evaluaties van de testen te doen, maar op informele wijze kunnen betrouwbaarheid en validiteit niettemin betracht worden. Inhoudvaliditeit zou je bijvoorbeeld kunnen bewerkstelligen door proportioneel items te kiezen uit het lesmateriaal. Criteriumvaliditeit is moeilijk vast te stellen. Als een student met een hoge score in een gesprekje niets blijkt te begrijpen van de stof is het natuurlijk duidelijk dat deze validiteit te wensen over laat. Constructvaliditeit zou je bijvoorbeeld kunnen bekijken door te kijken of de prestatie van de mensen die normaal hoog scoren ook nu hoog is. Betrouwbaarheid zou gemeten kunnen worden door studenten te vragen naar de interne consistentie en te bekijken of verschillende mensen tot dezelfde beoordeling van de prestatie zouden komen. Ook door antwoorden op individuele vragen van een student aan alle studenten kenbaar te maken wordt de betrouwbaarheid vergroot.

Pilotstudie

Een pilot is een studie vooraf om te kijken of de test gaat werken. Een prototype van de test wordt afgenomen. Ruwe items worden geëvalueerd om te kijken of ze opgenomen moeten worden in de uiteindelijke versie. Op grond hiervan worden bepaalde items meegenomen in de testconstructie. Ook later in het proces kunnen pilotstudies uitgevoerd worden om te kijken of de test verdere aanpassing nodig heeft.

Testconstructieschalen

Het proces waarbij regels gesteld worden aan de hand waarvan nummers toegewezen kunnen worden aan metingen, wordt schalen genoemd. Vooral Thurstone heeft methoden ontwikkeld aan de hand waarvan schalen opgesteld kunnen worden.

Typen schalen

Schalen kunnen op veel verschillende manieren gecategoriseerd worden. Zo kun je ze indelen naar meetniveau (nominaal of ratio). Een schaal kan zowel leeftijd- of prestatiegebaseerd zijn. Bij een stanineschaal wordt gerefereerd aan de standaardiseringprocedure (zie hoofdstuk 3). Je kunt ook verwijzen naar het aantal gebruikte dimensies. Omdat er zoveel verschillende types schalen zijn, zijn er ook verschillende schalingprocedures, waarvan de één niet per se beter is dan de ander.

Schalingprocedure

Bij een veel gebruikte schalingprocedure wordt een ratingschaal gebruikt, waarbij je op een schaal kunt aangeven in welke mate je het eens bent met een stelling. Je geeft bijvoorbeeld op een schaal van één tot tien weer hoe assertief je jezelf acht. Je ratings worden dan bij elkaar opgeteld tot een eindscore. Dit wordt een summatieve schaal genoemd. Een voorbeeld van een schaal die deze procedures gebruikt is de Likert schaal. Hierbij moet je op een (meestal vijf punts-) schaal aangeven in welke mate je iets goed- of afkeurt of hoezeer je het ergens mee eens bent. Likert schalen zijn populair, onder andere vanwege hun betrouwbaarheid. Als je rangscores aan dergelijke ratings wilt toekennen moet je er wel rekening mee houden dat het verschil tussen mensen die een 1 of een 2 toekennen aan een karakteristiek, niet even groot hoeft te zijn als het verschil tussen mensen die een 3 of een 4 toekennen. Ratingsschalen kunnen unidimensionaal of multidimensionaal zijn. Bij een multidimensionale beoordeling zijn er meerdere dimensies die het antwoord van de respondent kunnen bepalen. Bij een beoordeling van een niet-vastomlijnd concept, zoals de morele juistheid van marihuana gebruik, spelen onder andere factoren als wettelijke verordeningen en medisch gebruik een rol.

Items kunnen ook op ordinale wijze gescoord worden. Er worden dan rangscores aan toegekend. Dat kan op verschillende manieren. Bij de methode van gepaarde vergelijkingen moeten respondenten steeds kiezen tussen twee items. Ze moeten bijvoorbeeld de meest gewenste kiezen, of de bewering die het beste bij hen past. Een prestatie zou men dan bijvoorbeeld kunnen scoren door te kijken naar hoe vaak de keuze van de respondent overeen komt met die van een vergelijkingsgroep (gestandaardiseerde steekproef) of van experts. Een tweede ordinale schalingsmethode is de comparatieve schaal, waarbij respondenten de testitems moeten rangschikken. Ze moeten ze bijvoorbeeld op volgorde leggen van wenselijkheid of er rangscores aan toekennen. Bij een categorische schaal moeten mensen items indelen in een categorie van hoeveelheid. Helemaal niet wenselijke items zouden bijvoorbeeld in de laagste categorie terechtkomen. Bij een Guttman-schaal zijn er extremere en mildere verwoordingen van een attitude. Als je het met een extreem item eens bent, zou je dat ook met de mildere versie moeten zijn. Andersom hoeft dat niet het geval te zijn. De resulterende data wordt door een scalogram-analyse geëvalueerd. Hierbij worden responsies grafisch in beeld gebracht, zodat je kunt zien in welke mate iemand een positie inneemt.

Thurstones methode van gelijke intervallen kan gebruikt worden voor intervaldata. Hierbij wordt eerst een groot aantal beweringen verzameld die als items in aanmerking zouden kunnen komen. Deze items worden beoordeeld in termen van hoe sterk ze een bepaalde positie verdedigen. Er wordt dus een puntenaantal aan iedere bewering toegekend. Vervolgens worden de gewenste items geselecteerd en wordt de test afgenomen en gescoord aan de hand van die eerdere beoordelingen. Dit is een voorbeeld van een directe schatting, waarbij de respons van het subject direct de score is en niet nog naar een andere schaal getransformeerd hoeft te worden.

Items

Inhoud

Bij het kiezen van testitems zijn verschillende dingen belangrijk. Welke inhoud zouden de items bijvoorbeeld moeten dekken? Alle mogelijke items die voor een test geselecteerd zouden kunnen worden, worden verzameld in de item pool. De inhoud wordt verzameld door de testontwikkelaar, bijvoorbeeld vanuit de literatuur of uit het oordeel van collega’s en experts. De eerste steekproef van items die voor een test gebruikt zou kunnen gaan worden, zou twee keer zoveel items moeten bedragen als uiteindelijk gebruikt gaan worden. Als er twee vormen van een test afgenomen worden is dit aantal nog eens twee keer zo groot. Een zorgvuldige itemselectie waarbij de items representatief zijn geeft een basis voor de inhoudvaliditeit van de latere test.

Format

De vorm, structuur, rangschikking en lay-out van individuele testitems vallen onder de term item format. Bij een geconstrueerde responsformat moeten testmakers hun antwoord zelf bedenken en formuleren. In een geselecteerde responsformat moeten testmakers hun antwoord uit een set alternatieve, voorgeformuleerde antwoorden kiezen. Er zijn drie types geselecteerde responsformats. Bij een meerkeuzeformat is er een stam (de vraag/bewering), een correcte optie en meerdere incorrecte alternatieve opties. Alle alternatieven moeten van gelijke lengte en grammatica zijn en ieder antwoord zou een logisch antwoord kunnen zijn op de stam. Een ander geselecteerd responsformat is de methode van gematchte items, waarbij een item uit de eerste kolom gekoppeld moet worden aan de bijbehorende respons uit de tweede kolom. Je kunt bijvoorbeeld een lijn trekken tussen de bij elkaar horende stimuli. Vaak is het aantal items in beide kolommen niet gelijk, zodat je de antwoorden niet kunt afleiden uit welke er over blijven. Het is van belang om de items kort te houden en de lijsten overzichtelijk. Ook zouden beide kolommen homogeen moeten zijn (elk item meet hetzelfde type construct). Een laatste geselecteerde itemformat is een format met binaire keuze-items, een multiple-choice format met twee alternatieven. Het meest gebruikt hierbij zijn goed-fout-items, waarbij er twee antwoordmogelijkheden zijn waarvan er één correct is. Een goed binair keuze-item is kort en het antwoord is geen onderwerp van debat. Het nadeel van dit format is dat de kans dat je een antwoord toevallig goed hebt al 50% is.

Een voorbeeld van een geconstrueerde responsformat is een format met aanvul-items. Hierbij moet iemand een zin afmaken met een woord of zinsdeel (een standaarddeviatie is een meting van ... ). Een dergelijke vraag kan ook anders opgebouwd worden (wat is een standaarddeviatie?). Nu heet het item een kort-antwoord-item. Op een dergelijke vraag kan kort (met een term) geantwoord worden. Een essayitem is een item waarop je met een opstel, een langer stuk tekst, moet antwoorden. Dit demonstreert vaak of je iets begrepen of onthouden hebt en hoe je het analyseert of interpreteert. Het vergt reproductie van het geleerde materiaal, organisatie, planning en schrijfvaardigheid. Het nadeel is dat het tevens veel tijd kost. Een ander nadeel is dat de scoringsprocedure eerder onderhevig is aan subjectiviteit. Voor- en nadelen van ieder format staan weergegeven in tabel 8.1 op pag. 249.

Itembank

Vaak worden bruikbare testitems verzameld en opgeslagen in een makkelijk toegankelijke itembank. Aan een verzameling items kunnen nieuwe worden toegevoegd en oude items kunnen worden weggehaald of aangepast. Er treden allerlei vragen op bij het ontwikkelen van een itembank. Essentiële vragen zijn bijvoorbeeld:

  1. Ontwikkelen van items: gebruik je je eigen items of die van een ander? Wat voor soort items moeten gebruikt worden (bijv. meerkeuze- of essay items)? Hoeveel items zijn er nodig? Welke bewerking- en evaluatieprocedures zullen worden toegepast?

  2. Classificatie van items: hoe zullen items geclassificeerd worden? Welke andere informatie over de items moet in de itembank? Welke informatie over de berekening van een itemmeting moet in de itembank?

  3. Management van items: zullen de classificatie en de items geüpdate worden, en zo ja: hoe? Hoe zal men omgaan met items die plaatjes of iets dergelijks bevatten, of met items die bij andere items horen?

  4. Assemblage: welke specifieke items moeten afgenomen worden? Worden die door de computer geselecteerd? Welke item- of test parameters kunnen verzameld worden?

  5. Afname, score en rapportage: zal de test online worden afgenomen? Zal het systeem ook scoren? Zal de computer assisteren bij de rapportage?

  6. Evaluatie: zullen betrouwbaarheids- en validiteitsmetingen gedaan worden? Zullen er normreferenties zijn?

  7. Systeem: hoe zal het systeem ontwikkeld worden? Zal er gebruik gemaakt worden van een computer? Zal er een microcomputer gebruikt worden? Zullen de items als één verzameling opgeslagen worden? Hoe zal de itembank gestructureerd worden? Welke uitrusting is nodig om dit alles te verzorgen? Hoe gebruiksvriendelijk zullen de gebruikte systemen zijn?

  8. Toezichthouding en training: wat zal er als data gelden (waarop wordt toezicht gehouden)? Wie zal het systeem beheren en gebruikers trainen en ondersteunen?

  9. Beveiliging en toegang: wie zal er toegang hebben tot de itembank? Hoe zullen items beschermd worden? Zijn de scorerapporten vrij toegankelijk?

  10. Gebruik: wie beslist waarvoor de bank gebruikt mag worden? Wie ontwikkelt de test en wie krijgt toegang tot het systeem? Zal het systeem het aantal gebruikers aankunnen?

  11. Onderwijs: wordt de itembank gebruikt als test of als onderwijsmiddel? Welke lesmaterialen zouden er aan de itembank moeten worden toegevoegd? Mogen items ook als oefening worden gepresenteerd?

  12. Adaptief testen: hoe zal dit gerealiseerd worden? Welke criteria worden gebruikt en wat is de scoringsprocedure?

  13. Competentie: zal de itembank de competentie in kwestie voldoende dekken? Hoe vaak mag je de test herkansen?

  14. Programma- of curriculum evaluatie: geeft het systeem een betrouwbare weergave van prestatie? Dekken de items alle relevante aspecten?

  15. Kosten: wat zijn de kosten en kunnen die opgebracht worden? Zijn de kosten net zo hoog als die van alternatieve testsystemen? Wegen de baten op tegen de kosten?

Digitale testafname

Als een test op de computer wordt afgenomen wordt vaak op grond van de antwoorden op de vorige items bepaald welke items nu aangeboden worden. Dit wordt computerized adaptive testing (CAT) genoemd. Vaak moeten mensen eerst een aantal oefenitems correct beantwoorden voordat ze de test kunnen maken. Als de test in de loop van de procedure steeds wordt aangepast op de prestatie van de testmaker, ondergaat iedere respondent dus feitelijk een andere test. Dit wordt itemvertakking genoemd. Iedereen krijgt een eigen selectie uit de itempool. Items waarvan vrij zeker is dat de respondent die toch wel goed beantwoordt worden overgeslagen. Dat betekent dat testen in minder tijd kunnen worden afgenomen. De computer gebruikt hierbij algoritmes, bijvoorbeeld dat hij de test moet stoppen als de respondent vijf foute antwoorden achter elkaar geeft. Op deze manier kan ook ingespeeld worden op antwoorden. Als een respondent herhaaldelijk depressieve symptomen rapporteert, kan de computer automatisch meer items daarover genereren. Tenslotte kan CAT doelloze responsies herkennen. Als iemand de ene keer een ander antwoord geeft op een item dan de andere keer, is hij inconsistent bezig. Ook als hij onwaarschijnlijke antwoorden geeft op vragen kan getwijfeld worden aan de waarde van de responsies.

Een ander voordeel van CAT is dat het plafond- en bodemeffecten reduceert. Bij bodemeffecten is een test niet geschikt om de prestatie van mensen aan het lage eind van het construct in kwestie te meten. Er is een minimumscore waaronder je niet kunt scoren. Bij een plafondeffect kunnen mensen aan het hoge eind van het construct niet gemeten worden. Er is een maximumscore waarboven de test niet kan meten. Als alle testmakers alle items goed hebben, kun je de individuele verschillen in vaardigheid niet meer meten.

Scoren

Er zijn verschillende scoringsprocedures. De meest gebruikelijke is het cumulatieve model, waarbij de itemscores bij elkaar opgeteld worden. Hoe hoger de testscore, hoe sterker iemand in het bezit is van de trek of vaardigheid die gemeten wordt. Een andere procedure is categoriescoring, waarbij de respondent zich door bepaalde antwoorden te geven kwalificeert voor een bepaalde categorie. Deze methode wordt bijvoorbeeld gebruikt bij klinische diagnostiek. Bij een ipsatieve scoringsprocedure wordt iemands score op de ene schaal van de test vergeleken met die op een andere schaal van dezelfde test. Op die manier kun je zien waarop iemand relatief hoog of laag scoort. Je kunt bijvoorbeeld zeggen dat hij hoger scoort op behoefte aan vriendschappelijkheid dan op prestatiedrang. Een ipsatieve testscore kan niet vergeleken worden met scores van anderen.

Try-out

De eerste versie van de test wordt uit de item-pool samengesteld. Deze test wordt uitgeprobeerd bij een steekproef uit de populatie waarvoor hij ontwikkeld was. Deze steekproef moet in ieder geval vijf personen voor ieder item tellen, aangezien een kleine steekproef de resultaten aanzienlijk kan vertekenen. In de try-out worden de omstandigheden zoveel mogelijk gelijk gehouden aan de omstandigheden van de uiteindelijke standaardtest.

Itemanalyse

Een goed item is betrouwbaar en valide. Tevens is het in staat om onderscheid te maken tussen goede scorers en slechte scorers. Dat wil zeggen dat hoge scorers ook hoog scoren op het item en lage scorers niet. Door itemanalyse kan bepaald worden welke items goed zijn en behouden moeten worden en welke niet. Itemanalyse is een set statistische procedures aan de hand waarvan items beoordeeld kunnen worden. Wat als het beste item wordt beschouwd hangt af van het doel van de test. Soms is betrouwbaarheid bijvoorbeeld belangrijker dan validiteit. Er zijn vier indices aan de hand waarvan je een item kunt evalueren: moeilijkheidsgraad, betrouwbaarheid, validiteit en discriminatie.

Moeilijkheidsgraad

Als iedereen een item op een test goed beantwoordt, is het item te gemakkelijk. Als iedereen hem fout heeft, is hij te moeilijk. Een uitzondering is een ‘weggevertje,’ een makkelijk item aan het begin van de test dat bedoeld is om mensen te motiveren en hun zenuwachtigheid te verminderen. De itemmoeilijkheidsindex (p-item)wordt berekend door te kijken naar de proportie van de testmakers die het item correct beantwoordden. Hoe hoger p, hoe makkelijker het item. In andere (niet prestatiegerichte) contexten wordt deze index de item-ondersteuningsindex genoemd, waarbij het aangeeft hoe grote proportie van de testmakers een bepaald antwoord beaamden. De moeilijkheidsgraad van de hele test kan benaderd worden door het gemiddelde van iedere item-moeilijkheidsindex te berekenen. In het algemeen is een index van 0.5 het beste; op deze manier kan de test het beste discrimineren tussen hoge scorers en lage scorers. Bij geselecteerde respons-formats kunnen items echter puur door toeval goed beantwoord worden. Om dit uit te sluiten wordt er vaak gekozen voor een moeilijkheidsindex van halverwege het kansniveau en 1.

Bij een goed/fout-item is de kans 0.5 dat je het antwoord toevallig goed hebt. Dus wordt er gekozen voor een moeilijkheidsgraad van 0.75 om deze kans te verkleinen.

Betrouwbaarheid

De item-betrouwbaarheidsindex geeft een schatting van de interne consistentie van de test weer. Hij wordt berekend door de standaarddeviatie van de itemscore te vermenigvuldigen met de correlatie tussen de itemscore en de totale testscore. Consistentie tussen items kan ook berekend worden door factoranalyse. Hierbij wordt gekeken of de items allemaal een sterke factorlading op dezelfde factor hebben. Factoranalyse is ook zinvol voor de interpretatie van de test. Soms is het bijvoorbeeld het geval dat voor de ene groep testmakers items op een andere factor laden dan voor een andere groep testmakers.

Validiteit

De item-validiteitsindex is een statistiek die een indicatie geeft van de mate waarin een test meet wat hij moet meten. Hoe groter de index, hoe groter de criteriumvaliditeit. De index kan berekend worden door de correlatie tussen een itemscore en een criteriumscore te vermenigvuldigen met de standaarddeviatie van het item. Deze standaarddeviatie is te berekenen als de moeilijkheidsindex bekend is.

Discriminatie

Een item kan ook geëvalueerd worden in termen van hoe goed het onderscheid maakt tussen hoge scorers en lage scorers. Een item moet in principe goed beantwoord worden door hoge testscorers en fout door slechte scorers. De item-discriminatie-index (d) vergelijkt een prestatie op een item met prestaties in de hoge en de lage gedeeltes van de scoreverdeling. In een normale verdeling geldt het hoge gedeelte als de bovenste 27% en het lage gedeelte als de onderste 27%. Bij een plattere distributie kan dat percentage oplopen tot 33%. De index geeft het verschil tussen de proportie hoge scorers die het item correct beantwoordden en de proportie lage scorers die het item correct beantwoordden. Hoe hoger d, hoe meer hoge scorers het item goed beantwoordden, en dus hoe beter het item discrimineert tussen hoge en lage scorers. Een negatieve score betekent dat er meer lage scorers waren die het item goed beantwoordden dan hoge scorers. Een d van 1 betekent dat alle hoge scorers en geen van de lage scorers het item goed hadden. Als d 0 is, betekent dat evenveel hoge scorers als lage scorers het item goed hadden en het item dus geen discriminante waarde heeft.

Analyse van itemalternatieven bij meerkeuzetesten

De kwaliteit van ieder alternatief incorrect antwoord bij een meerkeuzetest kan geëvalueerd worden door te kijken hoeveel hoge en lage scorers voor die alternatieven hebben gekozen. Als het meer hoge scorers dan lage scorers het goede alternatief kozen en de rest van de mensen zich gelijk verdeelde over de alternatieven, is het item goed. Als veel hoge scorers kiezen voor een incorrect alternatief, moet gekeken worden of dit wel een goed itemalternatief is. Als heel weinig hoge scorers het item goed hebben is het een moeilijk item. Als niemand voor een bepaald alternatief kiest, is dat geen goed alternatief. En, zoals gezegd, als meer lage scorers dan hoge scorers een item goed hadden, moet het item heroverwogen worden.

Beoordeling: item-kenmerkcurves

Een item-kenmerkcurve (ICC) is een grafische representatie van de moeilijkheidsgraad en discriminerende waarde van een item. Een ICC kan een rol spelen in het beslissen welk item goed werkt en welke niet. In deze grafiek staat de moeilijkheidsgraad op de y-as en de vaardigheid van de respondent (is het een hoge of een lage scorer?) op de x-as. De curve die hiertegen afgezet wordt, geeft dus de discriminante waarde aan. Als een hoge scorer bijvoorbeeld een grote kans heeft om hoog te scoren op het item, dan is het een goed item met grote discriminante waarde.

Een curve die van linksboven naar rechtsonder loopt geeft een lage discriminante waarde aan. Immers, iemand met een laag vermogen (een lage scorer) heeft een grote kans om hoog te scoren op het item. Een lijn van linksonder naar rechtsboven zou dus een goed item representeren. Een item met zeer hoge discriminante waarde zou een curve kunnen produceren die op een bepaald punt van de x-as opeens de hoogte in schiet. Dan zou er een soort grensscore zijn. Als iemand een bepaalde vaardigheid heeft bereikt, wordt de kans zeer groot dat hij een item goed beantwoordt.

Andere beoordelingen

Behalve moeilijkheidsgraad, betrouwbaarheid en validiteit zijn er nog andere overwegingen in itemanalyse.

Gokken

Er zijn geen universeel geaccepteerde manieren voor het omgaan met de mogelijkheid dat iemand de antwoorden op een test simpelweg gegokt heeft. Dit komt doordat er ingewikkelde problemen optreden. Een gok is meestal niet helemaal willekeurig en wel voor een deel gebaseerd op de kennis van de respondent. Soms zijn items ook helemaal niet ingevuld. Hoe moeten die geanalyseerd worden? En als je een algemeen geldende correctie voor gegokte antwoorden gebruikt, is de kans dan niet groot dat je voor sommigen (die niet veel geluk hadden) te streng bent en voor anderen (mensen die wel veel geluk hadden) te mild? Een manier om gokken te voorkomen, is door simpelweg te zeggen dat mensen alleen de items waarvan ze zeker zijn mogen invullen. Het nadeel hiervan is natuurlijk dat sommige mensen niettemin de gok willen nemen. Er is echter geen bevredigender methode om gokken aan te pakken. Vaak publiceert een testontwikkelaar wel specifieke richtlijnen om missende items te scoren.

Eerlijkheid

Een vertekend item is een item dat makkelijker te beantwoorden is voor de ene dan voor de andere groep. Vertekende items kunnen geïdentificeerd worden door een ICC. Als de ene groep veel slechter op een item presteert dan een andere groep terwijl de groepen niet verschillen op de totale testscore, is het item vertekend (‘differentieel’). Als sommige items de ene groep bevoordelen en andere items de andere groep bevoordelen, weet je niet zeker of de test wel dezelfde vaardigheden meet bij beide groepen.

Problemen met snelheidstesten

Als er een tijdslimiet is, kan de moeilijkheidsindex van items aan het einde van de test opeens veel hoger zijn, simpelweg omdat mensen niet goed aan die laatste items toekomen. Ook de discriminante waarde van de laatste items is opeens heel hoog, omdat mensen die het materiaal beter beheersen ook sneller werken. Een oplossing zou zijn om alleen die items in overweging te nemen die de testmaker af had. Hieraan kleven duidelijke nadelen. Latere testitems zouden geanalyseerd worden op grond van een kleinere en bovendien selecte steekproef en waarschijnlijk vertekend en onbetrouwbaar zijn. Items aan het eind zouden makkelijker lijken. Een betere oplossing zou dus zijn om mensen simpelweg meer tijd te geven om de test te maken.

Kwalitatieve itemanalyse

Alle tot nu toe besproken itemanalyses waren kwantitatief; ze baseerden zich op mathematische of statistische procedures. Er zijn echter ook kwalitatieve methoden, die zich voornamelijk op verbaal materiaal baseren. Je kunt mensen bijvoorbeeld vragen naar hun testervaringen, zoals naar de integriteit van de testafnemer, de oppervlakte validiteit, de testomgeving en of de testmaker gegokt heeft. Kwalitatieve itemanalyse is een set niet-statistische procedures die dergelijke data evalueren en kijken hoe individuele testitems het doen. Individuele testitems worden onderling en met de totale test vergeleken. Een nadeel van een kwalitatieve analyse is dat respondenten er gemakkelijk misbruik van kunnen maken. Als ze de test bijvoorbeeld slechter gemaakt hadden dan verwacht, is het mogelijk dat ze daar in de evaluatie iedereen behalve zichzelf de schuld van geven.

Hardop denken

Bij assessment wordt respondenten wel eens gevraagd om hun gedachten hardop te verwoorden. Zo kunnen testafnemers bijvoorbeeld onderscheiden hoe iemand tot een oplossing komt bij een taak. ‘Denk hardop’ testafname is een kwalitatieve methode om duidelijk te maken wat de testmaker denkt tijdens de testafname. Zo kun je bijvoorbeeld ontdekken waarom een bepaald item steeds fout beantwoord werd; misschien werd de vraag verkeerd geïnterpreteerd.

Expertpanels

Ook expertpanels, groepen beoordelaars met verstand van zaken, kunnen een kwalitatieve analyse van testitems geven. Een sensitiviteitsreview is een beoordeling van de eerlijkheid van testitems. Er wordt gekeken of er offensief taalgebruik is en of er stereotypische items zijn. Komen bepaalde groeperingen bijvoorbeeld alleen in lagere status voorbeelden voor? En is er een kans dat de ene groep testmakers bekender is met de items dan de andere groep?

Test herziening

Nadat de test geconceptualiseerd, geconstrueerd, uitgeprobeerd en zowel kwantitatief als kwalitatief geanalyseerd is, kan de definitieve test ontworpen worden. Op grond van alle itemanalyses kan er worden besloten om items aan te passen, te vervangen of te verwijderen. Ook de test als geheel kan steeds aangepast worden, bijvoorbeeld aan een nieuwe groep testmakers. Deze aanpassingsprocessen worden testherziening (revisie) genoemd.

Test herziening tijdens ontwikkelingsfase

Voor de definitieve versie van de test moeten items geselecteerd worden. De testontwikkelaar kan de goede en zwakke punten van ieder item die in de itemanalyse naar voren zijn gekomen op een rijtje zetten. Als een item veel zwakke punten heeft kan hij geëlimineerd worden. Het hangt af van het doel van de test welke criteria het belangrijkst zijn voor testitems. Voor een test die de meest vaardige mensen eruit moet pikken, is discriminerende waarde van items belangrijker dan voor andere testen. Zwakke items die wel belangrijk zijn kunnen gecompenseerd worden door andere items. Als de items goed zijn, maar wel een beetje gemakkelijk, kan de testontwikkelaar wat moeilijkere items toevoegen. Bij het verwijderen van items moet wel rekening gehouden worden met het feit dat de testitems het hele onderzochte domein moeten blijven representeren. Als de items op deze manier gebalanceerd zijn, wordt de herziene test nog eens bij een nieuwe steekproef afgenomen. Als alles goed gaat, is dit de definitieve vorm van de test. Daarna kan de test gestandaardiseerd worden (zie hoofdstuk 4). Als de test nog niet optimaal is, wordt het proces van revisie, try-out en item-analyse net zo lang herhaald tot dit wel het geval is.

Herziening van een bestaande test

Bijna alle testen worden ooit een keer herzien. Als er nieuwe kennis of nieuwe testprocedures verzameld worden, raakt een test achterhaald en moet hij aangepast worden. Ook kunnen het taalgebruik en het uiterlijk van de test gedateerd raken. De normgroep kan eveneens niet langer relevant zijn. Tenslotte kunnen betrouwbaarheid, validiteit en effectiviteit van testitems sterk toenemen door een test te herzien.

Herzieningsprocedure

De herziening gaat hetzelfde in zijn werk als het ontwikkelen van een nieuwe test. Eerst worden de veranderingen geconceptualiseerd, vervolgens geconstrueerd, uitgeprobeerd, geanalyseerd en weer herzien. Testherziening kan ingewikkelder zijn dan het klinkt.

Na de herziening kunnen scores bovendien niet zonder meer gelijk gesteld worden aan scores op de oude versie van de test. Zelfs als de items hetzelfde zijn gebleven is de context van de items aanzienlijk veranderd. Als mensen consequent hoger scoren op de nieuwe versie van de test, hoeft dat niet te betekenen dat mensen in de loop der tijd beter zijn geworden.

Cross-validatie

Het opnieuw valideren van een test op grond van een andere steekproef dan die waarvan de prestatie eerst als criterium werd genomen, wordt cross-validatie genoemd. We verwachten dat de itemvaliditeit bij deze tweede steekproef afneemt na cross-validatie, een effect dat validiteit krimping wordt genoemd. Cross-validiteitschattingen moeten samen met betrouwbaarheidsschattingen en andere technische gegevens gepresenteerd worden in de testhandleiding.

Co-validatie

Als een test gevalideerd wordt op grond van de afname van twee testen bij dezelfde steekproef, is er sprake van co-validatie. Als op grond hiervan normen gecreëerd of herzien worden, wordt dat co-normering genoemd. Het voordeel van co-validatie is dat er maar één steekproef nodig is. Dat is goedkoper en kost minder tijd. Een ander voordeel is dat als twee testen bij dezelfde steekproef afgenomen worden, de verschillen in scores in ieder geval niet kunnen liggen aan steekproef-error. Die alternatieve verklaring kan dus uitgesloten worden. De testscores zijn bovendien beter vergelijkbaar.

Kwaliteitswaarborging

Er zijn verschillende procedures aan de hand waarvan kwaliteit gewaarborgd kan worden in het proces van test ontwerpen en herzien. Ten eerste moeten de testafnemers voldoende gekwalificeerd zijn. Ze moeten bijvoorbeeld allemaal een bepaalde opleiding hebben, een zekere training ondergaan en getest worden op hun kennis. Ten tweede moeten testafnemers tijdens de procedures op de hoogte gehouden worden van waar allemaal rekening mee gehouden moet worden bij de testafname. Ten derde moeten degenen die de resultaten scoren en interpreteren hiervoor getraind worden, zodat ze zo min mogelijk invloed hebben op de resultaten. Men zou bijvoorbeeld ook gebruik kunnen maken van meerdere scorers. Als zij het oneens zijn, kan een derde scorer besluiten welke score aangehouden zal worden. Ten vierde kan er gebruik gemaakt worden van een ankerprotocol, waarbij de scores van een zeer vaardige scorer aangehouden worden als model en als manier om discrepanties op te lossen. Een discrepantie tussen een ankerprotocol en de scoring van een ander protocol wordt scoring drift (‘drijvende scoring’) genoemd. Ten vijfde kan er een computerprogramma gebruikt worden dat eventuele onregelmatigheden in de ingevoerde data kan opsporen.

IRT en testherziening

IRT is een nuttig hulpmiddel bij het opbouwen en herzien van testen. Zo kan het laten zien hoe goed de items of de test als geheel functioneert. Tevens kan het gebruikt worden om differentiële itemfunctionering (DIF) te identificeren. Hierbij werken items anders in de ene groep dan in de andere groep testmakers. In DIF-analyse worden deze items (DIF items) geïdentificeerd door naar IRT-curves te kijken. Op deze manier kunnen items die in aanmerking komen voor herziening worden gemarkeerd.

Ontwikkelen van itembanken

Het ontwikkelen van een itembank bestaat niet simpelweg uit het verzamelen van een groot aantal items. Ieder item wat deel uitmaakt van een itembank heeft strenge kwalitatieve en kwantitatieve evaluaties ondergaan. Vaak begint het proces van itembankeren met het verzamelen van geschikte items afkomstig uit bestaande instrumenten. Ook kunnen nieuwe items gecreëerd worden, bijvoorbeeld wanneer bestaande items niet beschikbaar zijn of niet de bedoelde aspecten van het construct aankaarten wat gemeten wordt. Alle items die geschikt zijn voor de itembank, vormen de itempool. Vervolgens wordt deze itempool geëvalueerd. De items die deze grondige evaluatie doorstaan, vormen de preliminaire itembank. De volgende stap in het creëren van een definitieve itembank, is de afname van alle items bij een grote en representatieve steekproef. Na de afname van de preliminaire itembank bij de gehele steekproef, worden de responsen op de items geëvalueerd met betrekking tot verschillende variabelen, zoals validiteit, betrouwbaarheid, domeinbereik en differentieel itemfunctioneren. De uiteindelijke itembank bestaat dan uit een grote verzameling items die allen een enkel domein meten. Een testontwikkelaar kan dan gebruik maken van de items om een of meerdere tests te creëren met een vast aantal items. Zie figuur 8.7 op pagina 283 voor een grafisch overzicht.

Hoe kun je intelligentie meten? - Chapter 9

 

Intelligentie is de capaciteit van mensen met betrekking tot veel verschillende facetten, zoals het verwerven en toepassen van kennis, logisch redeneren en conclusies trekken en aandacht richten en aanpassen aan de eisen van de situatie. Deze definitie is niet onomstreden. Er is geen definitie waarover de gehele wetenschappelijke wereld het eens is. Het definiëren van intelligentie is op verschillende manieren benaderd.

Definitie van intelligentie

Sternberg trachtte in een studie te achterhalen hoe de gemiddelde Amerikaan intelligentie zou beschrijven en hoe de expert dat zou doen. Hij stelde grote groepen mensen vragen over academische en alledaagse intelligentie en niet-intelligentie. Intelligentie werd over het algemeen gezien als het hebben van een goed probleemoplossend vermogen, verbale vaardigheid en sociale vaardigheid. Experts en non-experts waren het in opvallend grote mate eens, hoewel experts meer waarde hechtten aan motivatie en non-experts aan de sociale aspecten van intelligentie. In een andere studie moesten studenten aangeven wat zij in iedere ontwikkelingsfase als intelligent gedrag beschouwden. Bij baby’s werd fysieke coördinatie, bewustzijn van anderen, hechting en verbale output als indicatie van intelligentie gezien. In de kindertijd zou verbale vaardigheid, begrip en leervermogen belangrijk zijn. Op volwassen leeftijd zou het gebruik van logica, verbale vaardigheid en het probleemoplossend vermogen essentieel zijn voor intelligentie. Kinderen zelf hebben ook een mening over intelligentie. Jonge kinderen denken dat vooral sociale vaardigheden van belang zijn, terwijl oudere kinderen meer nadruk leggen op academische vaardigheden.

Historische ideeën over de definitie van intelligentie

Geen twee psychologen zijn het eens geweest over de definitie van intelligentie. Het debat hierover is dan ook steeds verhit en vol ergernis geweest. Hieronder volgen verschillende opvattingen van beroemde psychologen en experts.

Galton

Galton (19de eeuw) was de eerste die publiceerde over de erfelijkheid van intelligentie en gaf op deze manier stof voor het nature-nurture debat. Hij geloofde dat intelligentie samenhing met waarnemend vermogen en dacht daarom dat testen van gezichts- en gehoorvermogen gelijk stond aan het testen van intelligentie. Hij legde met deze ideeën de basis voor latere neurocognitieve testen van intelligentie (reactiesnelheid).

Binet

Binet, de ontwikkelaar van de allereerste intelligentietest, hanteerde geen vastomlijnde definitie van intelligentie. Wel onderscheidde hij duidelijk de verschillende componenten ervan. Volgens hem waren dat redeneren, beoordelen, herinneren en abstract denken. Galton dacht dat intelligentie gemeten kon worden door losse vaardigheden op verschillende testen te meten. Binet daarentegen dacht dat de verschillende componenten die een rol speelden bij het oplossen van een bepaald probleem op een ingewikkelde manier interacteerden en daarom niet van elkaar gescheiden konden worden. Hij ontwikkelde daarom een complexere, meer integratieve intelligentietest.

Wechsler

Volgens Wechsler is intelligentie de totale, globale capaciteit van een individu om doelgericht te handelen, rationeel te denken en op effectieve manier om te gaan met de situatie. Hoewel intelligentie de totale capaciteit is kan intelligentie alleen gemeten worden door naar afzonderlijke vermogens te kijken.

Hij onderscheidde verbale en ‘prestatie’-vermogens, hoewel in de jaren ’50 al vaststond dat er meer factoren meegenomen konden worden. Uit factoranalyse bleek dat latere versies van de Wechslertest vier factoren mat; namelijk verbaal begrip, werkgeheugen, waarneming en verwerkingssnelheid. Er konden dus vier scores afgeleid worden uit deze test.

Piaget

De beroemde ontwikkelingspsycholoog Piaget geloofde dat kinderen intelligentie ontwikkelen naarmate ze zich steeds beter aanpassen aan hun omgeving. Cognitieve ontwikkeling voltrekt zich via vier vaststaande, universele fases die bepaald zijn door biologie en omgeving. Volgens Piaget leidt iedere ervaring tot de vorming van een schema; een mentale structuur of actie die gebruikt wordt om kennis te organiseren en dingen in de wereld te begrijpen. Kinderen worden geboren met een paar schemata, waaronder het idee dat dingen begrepen kunnen worden door ze in je mond te stoppen. Naarmate de cognitieve ontwikkeling vordert vertrouwen kinderen meer op mentale transformaties dan op openlijk gedrag. Piaget dacht dat leren verliep via assimilatie (het inpassen van ervaringen in bestaande schema’s) en accommodatie (het aanpassen van oude schema’s om nieuwe informatie te kunnen verwerken). De staat waarin het kind overgaat tot assimilatie of accommodatie, disequilibrium, wordt gefaciliteerd door fysieke en sociale activiteit. In zowel de theorie van Piaget, Binet als Wechsler speelt interactionisme een belangrijke rol. Dit is het idee dat erfelijkheid en omgeving met elkaar interacteren en de ontwikkeling van intelligentie beïnvloeden.

Het factor-analytisch perspectief op de definitie van intelligentie

Twee-factorentheorie van intelligentie

Factoranalyse is een statistische techniek die, gebruik makend van correlationeel onderzoek, de onderliggende factoren in een dataset kan identificeren. Factoranalyse wordt gebruikt om te zoeken naar de gemeenschappelijke factor die iedere intelligentiescore bepaalt. Spearman vond dat alle metingen van intelligentie met elkaar correleerden. Hij dacht dat er een gemeenschappelijke en algemene intellectueel vermogenfactor (g) moest zijn die het fundament vormde voor al deze scores. Dit idee wordt de twee-factorentheorie van intelligentie genoemd, waarbij g de proportievariantie is die alle intelligentiescores gemeen hebben en waarbij de rest van de variantie bepaald wordt door specifieke componenten (s) of door error componenten (e) van g. Hoe groter de waarde van g, hoe beter de test in staat was intelligentie te meten. Het was dus vooral g en niet s die intelligentie zou voorspellen. Abstracte redenering zou de beste manier zijn om g te testen. Later onderscheidde Spearman nog een andere klasse die minder algemeen was dan g en minder specifiek was dan s. Hij noemde factoren uit deze klasse groepsfactoren. Technische of wiskundige vaardigheden vielen hieronder. Hieruit blijkt wel dat de definitie van intelligentie gebaseerd op factoranalyse voor een aanzienlijk deel afhangt van hoe specifiek verschillende cognitieve vaardigheden onderscheiden worden. Het is niet per se het meest specifieke model dat aangenomen wordt; de keuze voor het model is vooral afhankelijk van de praktische waarde, de intuïtieve aantrekkingskracht en het empirische bewijs van en voor het model.

Mutipele intelligenties

G is geen onomstreden concept. Onderzoekers zoals Guilford hebben gezocht naar een model waarbij g zo veel mogelijk vermeden werd. Veel onderzoekers hebben echter moeten toegeven dat het moeilijk is om g te elimineren, aangezien verschillende intelligenties sterk met elkaar correleren. Gardner ontwikkelde een theorie van meerdere intelligenties, namelijk logisch-wiskundige, lichamelijke, linguïstische, muzikale, ruimtelijke, interpersoonlijke en intrapersoonlijke intelligenties. Interpersoonlijke intelligentie is het vermogen om anderen te begrijpen en met hen om te gaan. Intrapersoonlijke intelligentie is het vermogen om een accuraat beeld van jezelf te vormen. Dit zijn onderdelen van de emotionele intelligentie.

Gekristalliseerde en vloeibare intelligentie

Cattell en Horn introduceerden het idee van gekristalliseerde en vloeibare intelligentie. Onder gekristalliseerde intelligentie vallen vaardigheden en kennis die verworven zijn door middel van onderwijs en cultuur. Vloeibare intelligentie is non-verbaal en onafhankelijk van cultuur en onderwijs. Horn heeft nog aanvullende factoren voorgesteld, zoals visuele, auditieve en kwantitatieve informatieverwerking, de snelheid van informatieverwerking, schrijven en lezen, korte termijngeheugen en lange termijngeheugen. Sommige hiervan vallen onder de kwetsbare vaardigheden, die met de leeftijd verslechteren en niet terugkeren na hersenschade. Andere vallen onder de behouden vaardigheden, die behouden worden in de ouderdom en na hersenschade.

Drie-stratum theorie van cognitieve vaardigheden

In dit hiërarchische model van Carroll zijn er drie ‘strata’ (lagen) in intelligentie. De bovenste laag is g. Daaronder vallen de volgende vermogens: vloeibare en gekristalliseerde intelligentie, geheugen en leren, visuele en auditieve perceptie, lange termijngeheugen, cognitieve snelheid en verwerkings- en beslissingssnelheid. Daaronder vallen dan weer niveaufactoren of snelheidsfactoren. Een snelheidsfactor die onder vloeibare intelligentie valt is bijvoorbeeld redeneringssnelheid.

Cattell-Horn-Carroll model

Tenslotte zijn er factoranalyses uitgevoerd om van bestaande modellen één allesomvattend geheel te maken. Het Cattell-Horn-Carroll-model (CHC-model) is een samenvatting van de twee hierboven besproken modellen. De twee modellen zijn gelijk in het feit dat ze een soort hiërarchie hebben in algemene en specifieke vaardigheden. Een verschil is dat Cattell en Horn geen g onderkennen, waar Carroll dat wel doet. Een ander verschil is dat sommige vaardigheden op een ander niveau staan of anders gedefinieerd worden. McGrew en Flanagan integreerden deze twee modellen om de procedures die bij psychoeducatie-assessment gebruikt worden te verbeteren. Er werden tien vermogens in het bovenste stratum gesteld waaronder meer dan zeventig specifiekere vaardigheden vielen. G werd geschrapt omdat het praktische nut ervan nihil werd geacht. Op grond van de ontwikkelde test adviseren McGrew en Flanagan dat er gebruik wordt gemaakt van cross-batterij-assessment, waarbij testen uit verschillende testbatterijen worden gebruikt. Het CHC model is in ieder geval vanuit heuristisch standpunt nuttig.

Informatieverwerkingsperspectief op de definitie van intelligentie

De informatieverwerkingsbenadering bekijkt welke mechanismen betrokken zijn bij de verwerking van informatie. Er zijn twee verwerkingsstijlen. Bij parallelle verwerking (ook wel: simultane verwerking) wordt alle informatie in één keer, als één geheel verwerkt. Een voorbeeld is het verwerken van een plaatje.

Zo zien mensen bij een plaatje van een roze rondje met daarin twee zwarte gaten en een ronde streep, een gezicht in plaats van de losse onderdelen. Bij seriële verwerking (ook wel: successieve verwerking) wordt de informatie stukje bij beetje, om de beurt behandeld. Dit is een meer analytische benadering van de informatie. Veel testen baseren zich op deze benadering. In het PASS model wordt intellectueel functioneren gemeten door te kijken naar Planning, Aandacht, Simultane en Successieve verwerking. Planning is het ontwerpen van strategieën om problemen op te lossen. Aandacht is hoezeer je in staat bent informatie te ontvangen en simultaan-successief verwijst naar de manier waarop die verwerkt wordt. Ook Sternberg ontwikkelde een model vanuit dit perspectief. Volgens hem bestond intelligentie uit metacomponenten (planning, monitoring en evaluatie), prestatiecomponenten (uitvoeren van instructies van de metacomponenten) en uit kennisverwervingscomponenten (leren). Sternberg introduceerde de term succesvolle intelligentie, wat betrekking heeft op de mate waarin men op effectieve wijze omgevingen deelt, vormt, selecteert en zich hieraan aanpast, zodat deze in overeenstemming zijn met zowel persoonlijke als maatschappelijke succesnormen. Het behalen van succes wordt in bijna iedere cultuur gezien als afhankelijk van iemands analytische, creatieve en praktische mogelijkheden, als ook als een algemeen vermogen om te kunnen profiteren van je sterke kanten en te kunnen compenseren voor je zwakke kanten.

Meten van intelligentie

Bij het meten van intelligentie wordt een prestatie van mensen op verschillende taken gemeten en die wordt vergeleken met het ontwikkelingsniveau.

Intelligentietesten bij verschillende leeftijden

Intelligentie bij baby’s wordt gemeten door sensomotorische vaardigheden, bijvoorbeeld het imiteren van gebaren. Bij wat oudere kinderen worden meer verbale en prestatievaardigheden gemeten, zoals vocabulaire, taal, redenering en aandacht. Voorheen maakten veel testen gebruik van het concept van mentale leeftijd; de leeftijd die hoort bij een bepaald prestatieniveau. Bij het afnemen van een test bij kinderen kan ook geobserveerd worden waarop ze vastlopen, hoe ze omgaan met succes of falen en hoe ze items interpreteren. Bij volwassenen worden vaardigheden zoals het terughalen van algemene kennis, redenering, taal en sociale beoordeling gemeten. Bij de Wechsler-intelligentietest voor volwassenen wordt vaak dezelfde soort taken gebruikt als voor kinderen, maar dan met een andere inhoud. Hierop is wel kritiek geweest. Bij kinderen wordt informatie uit intelligentietesten vaak gebruikt voor educatiedoeleinden. Bij volwassenen wordt intelligentie vooral gemeten in een klinische setting of bij een personeelsselectieprocedure.

Theorie achter de test

Welke dingen gemeten worden op een intelligentietest hangt voor een groot gedeelte af van hoe de testontwikkelaar intelligentie definieert. Galton mat bijvoorbeeld sensorische vaardigheden omdat hij geloofde dat intelligentie daarmee te maken had. Dit is echter niet altijd het geval. Wechsler gelooft niet dat intelligentie in twee factoren uiteen valt, maar maakt vanuit praktische overwegingen gebruik van een tweedeling in verbale en prestatievaardigheden. Uit factoranalyse blijkt dat de Wechsler meer factoren meet. Hoeveel dat er zijn en welke is echter onderwerp van debat. Het is waarschijnlijk dat onderzoekers vaak die factoren vinden die ze verwachten of hopen te vinden. Een test hangt dus sterk af van de onderliggende theorie. Een test gebaseerd op de ideeën van Thorndike (namelijk dat g bestaat uit sociale, concrete en abstracte intelligentie) zal er anders uitzien dan een test gebaseerd op de ideeën van Wechsler. Hieronder staan enkele theoretische problemen omtrent het concept intelligentie.

Nature-nurture

In de Middeleeuwen dacht men dat ieder organisme bij zijn geboorte al helemaal ‘klaar’ was; alle eigenschappen en vaardigheden liggen hierbij al vast en er is geen verbetering mogelijk. Deze opvatting heet performationisme en werd bevestigd door ‘bewijs’ dat in het sperma van een paard al een compleet, klein paardje te zien was onder de microscoop. Uiteindelijk kwam er steeds meer bewijs dat in tegenspraak was met het performationisme, waardoor een nieuwe opvatting ontstond: determinisme. Hierbij gelooft men dat alle vaardigheden al vastliggen in de genen en dat er niets is waardoor je beter kunt worden dan in je genen ligt besloten. Deze opvatting werd bijvoorbeeld ondersteund door de vondst dat kinderen met veel oefening niet eerder gaan lopen dan kinderen met weinig oefening. Volgens Gesell verloopt iedere ontwikkeling door ‘rijping’ van alles wat al vast ligt. Een ander voorbeeld is Galton, die geloofde dat intelligentie volledig door erfelijkheid bepaald werd. Dugdale trok dit in het negatieve door te stellen dat armoede, hoererij en luiheid eveneens erfelijk waren. Goddard stelde dat zwakbegaafdheid besloten lag in een enkel, recessief gen. Terman dacht dat mensen uit andere culturen genetisch inferieur en daarmee minder intelligent waren. Al deze ideeën waren onder andere gebaseerd op de bevinding dat apart opgevoede tweelingen een opvallend gelijk IQ hadden. Tegenwoordig geloven verschillende onderzoekers nog steeds dat intelligentie een sterk erfelijke basis heeft. De grondlegger van het verbale, perceptuele en beeldrotatie-model, Wendy Johnson, gelooft hier bijvoorbeeld sterk in. Uit dit model is gebleken dat een grote hoeveelheid van de variantie in deze vaardigheden verklaard wordt door erfelijkheid.

Tegenwoordig legt men meer nadruk op de omgeving, bijvoorbeeld op de prenatale en postnatale omgeving, de sociaal-economische status, onderwijs en opvoeding.

Volgens het interactionistisch perspectief is het IQ het resultaat van een complexe interactie tussen genen en omgeving. Mensen hebben een bepaalde genetische predispositie voor een intelligentieniveau, maar of en hoe die tot uitdrukking komt hangt af van de omgeving. Deze opvatting is een stuk optimistischer en positiever dan het deterministische perspectief.

Stabiliteit van intelligentie

Intelligentie lijkt in ieder geval in de volwassenheid tamelijk onveranderlijk te zijn. Vocabulaire neemt wel iets toe en wiskundige en andere nonverbale vaardigheden nemen iets af. Longitudinaal onderzoek naar de stabiliteit van IQ kan problematisch zijn in die zin dat er allerlei veranderingen op kunnen treden die invloed op het IQ kunnen hebben. Ook kan het zijn dat de algehele IQ-score gelijk blijft, terwijl er op de subschalen substantiële verschuivingen op kunnen treden. Volgens Ivnik wordt de stabiliteit van intelligentie overschat omdat er te weinig gekeken wordt naar tussen-subjectenvariatie op individuele cognitieve vaardigheden. Uit dergelijk onderzoek is gebleken dat veel vaardigheden zeker niet absoluut stabiel zijn, hoewel sommige wel stabieler zijn dan andere. Bovendien nemen cognitieve vaardigheden af met ouderdom. Vroeger dacht men dat kinderen die al vroeg intelligent waren, later snel achteruit zouden gaan. Uit een longitudinaal onderzoek van Terman naar begaafde kinderen bleek dat dat niet het geval was. Hoogbegaafde kinderen bleven hoog intelligent in hun volwassenheid, hoewel ze hun motivatie wat leken te verliezen.

Constructvaliditeit

Zoals gezegd hangt de inhoud van een test af van de achterliggende theorie. Als je de constructvaliditeit van een test wil bepalen is het noodzakelijk te weten welke theorie aan de test ten grondslag ligt. Immers, je moet weten op wat voor factor de items moeten laden en waarop niet. Volgens Spearman zouden de items bijvoorbeeld moeten laden op factor g, terwijl volgens Guilford de items niet samen onder één factor zouden moeten vallen. Thorndike valt hier tussenin: items zouden moeten laden op g en/of drie andere factoren (sociale, concrete en abstracte intelligentie).

Begaafdheid

Begaafdheid is consistent superieur functioneren, bijvoorbeeld op intellectueel gebied of op het gebied van creatief denken, leiderschapskwaliteiten of kunstzinnigheid. De oorsprong van begaafdheid is niet bekend, maar er wordt gesuggereerd dat het met erfelijkheid, een abnormale hersenorganisatie en omgevingsinvloeden te maken heeft. Begaafdheid wordt vaak geïdentificeerd aan de hand van een intelligentietest, meestal aan de hand van een algehele IQ-score van de Wechsler-test. Het nadeel hiervan is dat het op deze manier gemakkelijk over het hoofd gezien kan worden als iemand superieur scoort op een subschaal, maar een gemiddelde algehele IQ-score heeft. Ook is het zo dat niet iedere subtest evenveel bijdraagt aan intelligentie. Dan bestaat er nog de kans op een plafondeffect, waarbij het grootste gedeelte van de scores aan het hoge eind van de schaal vallen waardoor individuele verschillen niet meer waar te nemen zijn. Tenslotte moet begaafdheid op een bepaald gebied niet alleen geïdentificeerd worden op grond van een intelligentietest, maar ook op grond van een test van het talent in kwestie. Ook kan er bij de identificatie van begaafdheid gebruik gemaakt worden van case studies of gedragsobservatie. Een nominerende techniek is een methode waarbij bekenden, bijvoorbeeld klasgenoten of leraren, mensen moeten selecteren die het meest begaafd zijn.

Ze moeten bijvoorbeeld de beste leider van de klas aanwijzen. Selectie door leraren is niet altijd het beste; het waarnemen van begaafdheid kan bijvoorbeeld bemoeilijkt worden door gedragsproblemen van een begaafd kind. Begaafdheid heeft duidelijke voordelen, maar er zijn ook nadelen. Begaafde mensen zijn vaak niet gelukkig; ze kunnen bijvoorbeeld voortdurend sterke prestatiedruk ervaren.

Factoren die invloed hebben op intelligentie

Flynn-effect

Er zijn veel verschillende factoren naast intelligentie die invloed kunnen hebben op de intelligentiescore. Een voorbeeld hiervan is de tijd waarin je opgroeit. Volgens het Flynn-effect neemt de IQ-score in de gehele populatie ieder jaar wat toe. Dit fenomeen treedt in veel verschillende landen op. Er moet dus gelet worden op welke normen een intelligentietest gebaseerd is. Een recent genormeerde test zal lagere scores voortbrengen dan een test die een tijd geleden genormeerd is.

Persoonlijkheid

Binet en Wechsler namen al aan dat intelligentie en persoonlijkheid sterk overlappen en dat hun testen ook persoonlijkheidstrekken zoals motivatie, energie, doorzettingsvermogen en doelgerichtheid meten. Factoren die ervoor kunnen zorgen dat intelligentiescores bij kinderen toenemen zijn bijvoorbeeld agressie, nieuwsgierigheid, zelfvertrouwen, prestatiedrang en emotionele stabiliteit. Passiviteit, afhankelijkheid en slechte aanpassing worden geassocieerd met een gelijkblijvend IQ. Temperament speelt zelfs al bij kleine kinderen een rol. Actievere kinderen krijgen bijvoorbeeld meer (sensorische) stimulatie en sociale kinderen krijgen meer kans om van anderen te leren.

Sekse

Er is veel controversieel onderzoek verricht naar sekseverschillen in intelligentie. Sommige resultaten indiceren dat mannen hoger scoren op factor g en ruimtelijk vermogen en dat vrouwen verbaal wat sterker zijn. Ook blijkt dat motorische ontwikkeling bij beide seksen een eigen ontwikkelingspatroon volgt.

Familie

De invloeden van de familieomgeving worden vertroebeld door genetica. De nature-nurture invloeden in een gezinssituatie zijn moeilijk van elkaar los te koppelen. Duidelijk is dat kinderen zich het beste ontwikkelen in een veilig, liefdevol gezin waar voldoende kansen worden geboden tot ontwikkeling. Ook het taalgebruik van de ouders en hun aanmoediging hebben invloed, net als de uitleg van hun regels.

Cultuur

Omdat culturen verschillen in wat adaptief en gewenst is, verschillen ze ook in hoe ze intelligentie definiëren. Intelligente mensen scoren het beste op die vaardigheden die in hun maatschappij gewaardeerd worden. Dat betekent dat mensen van een culturele minderheid lager zullen scoren op een intelligentietest van de culturele meerderheid. Dit komt bijvoorbeeld ook doordat mensen van de meerderheidscultuur bekender zijn met de gebruikte instrumentatie. Het blijkt inderdaad dat leden uit een minderheidscultuur, bijvoorbeeld zwarten, slechter scoren op intelligentietesten van de meerderheidscultuur. Al vanaf Binet tracht men testen te ontwikkelen die zo min mogelijk vertekend worden door culturele factoren, een zogeheten cultuurvrije intelligentietest. Hiermee zou het verschil in scores verdwijnen. Men heeft geprobeerd om een intelligentietest te ontwikkelen zonder verbale items, maar bij deze test ontbrak om onbekende redenen predictieve validiteit. Ook andere pogingen om cultuurvrije testen te ontwikkelen zijn op niets uitgelopen. Iedere test heeft op de één of andere manier wel een bepaalde mate van culturele lading. Vocabulaire, concepten, tradities, kennis en gevoelens bij een test zijn altijd geassocieerd met cultuur. Een cultuurvrije test is dus onmogelijk te ontwerpen.

Een cultuur-faire intelligentietest daarentegen kon wel ontwikkeld worden. Hierbij werd de culturele invloed met betrekking tot evaluatieprocedures zoals instructies, iteminhoud, typerespons en interpretaties zoveel mogelijk geminimaliseerd. Om dit te bewerkstelligen werden alleen items gebruikt die ervaringen, kennis en vaardigheden vereisten die iedere cultuur gemeen had. De taken moesten voor alle groepen motiverend zijn. Tevens werd getracht het verbale karakter van intelligentietesten te beperken.

Helaas bleken cultuur-faire testen te weinig voorspellende validiteit te hebben. Bovendien scoorden minderheden nog altijd lager. Een mogelijke verklaring hiervoor is dat de items toch nog cultureel beladen waarden representeerden. Allochtone minderheden in Amerika staan bijvoorbeeld minder positief tegenover individuele prestatie en hechten meer waarde aan de relatieve bijdrage aan de groep.

Omdat cultuur-faire testen beperkte waarde bleken te hebben werden er cultuurspecifieke testen ontwikkeld die speciaal op de minderheden gericht waren. Een voorbeeld hiervan was de ‘black intelligence test of cultural homogeneity’ (BITCH). Deze test bevatte bijvoorbeeld de vraag wat ‘moederdag’ betekent, een concept dat in andere culturen een andere betekenis heeft. De vraag ontstond of deze test wel intelligentie mat en hij werd dan ook niet erg serieus genomen. Inderdaad bleek dat zwarten die hoog scoorden op een westerse intelligentietest, laag scoorden op de BITCH en vice versa. Blijkbaar mat de BITCH iets anders dan intelligentie, bijvoorbeeld straatwijsheid. Hoewel minderheden beter scoren op de voor hen ontwikkelde testen dan meerderheden, ontbreekt het bij deze testen aan voorspellende validiteit en praktische waarde.

Tenslotte kan men dus maar het beste in de bestaande testen zoveel mogelijk vertekening voorkomen. Dat kan bijvoorbeeld door minder nadruk te leggen op verbale vaardigheid of door de inhoud te laten herzien door experts of door try-outs. Als een test zo vrij mogelijk is van vertekening wordt hij in gebruik genomen.

Welke tests om intelligentie te meten zijn er? - Chapter 10

 

De ontwikkeling van een intelligentietest begint en eindigt met de ideeën die de ontwikkelaar over intelligentie heeft. Van de iteminhoud tot de interpretatie van scores: alles hangt af van de achterliggende theorie. Thurstone geloofde bijvoorbeeld in meerdere facetten van intelligentie en ontwierp een test die meerdere aspecten van intelligentie kon meten. Testen kunnen overigens ontwikkeld worden op grond van de ene theorie, maar herzien worden op basis van een andere. In de geschiedenis werden testen ook wel uit pure noodzaak ontwikkeld, waarbij een onderliggende theorie vaak ontbrak. Binet’s test werd bijvoorbeeld ontwikkeld om zwakbegaafde kinderen te identificeren, met als doel het stroomlijnen van het onderwijs.

Stanford-Binet Intelligentieschaal

In 1916 werd de Binet-test al aangepast door Terman. De eerste editie van de Stanford-Binet bevatte enkele flinke fouten, maar ook belangrijke innovaties. Het was de eerste Amerikaanse IQ-test en het was de eerste test met duidelijke afname- en scoringsinstructies. Ook werd in de test het afwisselende item geïntroduceerd, een item dat alleen onder bepaalde omstandigheden gebruikt moet worden. Het kan bijvoorbeeld fungeren als vervanger als het oorspronkelijke item niet goed werd afgenomen. Terman en Merill maakten er hun levenswerk van om deze test regelmatig aan te passen. Zo schreven ze twee equivalente vormen en nieuwe taken voor jonge kinderen en volwassenen. De standaardisering werd verbeterd en zowel de betrouwbaarheid als de validiteit namen toe. Bij iedere herziening werden verbeteringen doorgevoerd, maar er bleef kritiek bestaan op de standaardiseringssteekproef. Deze zou te weinig mensen uit minderheden bevatten.

Lange tijd werd er gebruik gemaakt van een ratio-IQ; de verhouding tussen mentale leeftijd en chronologische leeftijd. Hiervan komt de afkorting IQ; intelligentiequotiënt. Het werd berekend door mentale leeftijd door chronologische leeftijd te delen, en dat met honderd te vermenigvuldigen. Een herziening van de Stanford-Binet uit 1960 introduceerde het gebruik van afwijking-IQ. Dit is de vergelijking van een individuele score met de gemiddelde score van leeftijdsgenoten in de standaardiseringssteekproef.

De prestatie wordt gestandaardiseerd op een schaal met een gemiddelde van 100 en een standaardafwijking van 16. Als iemand dus op het niveau presteert dat gemiddeld is voor zijn leeftijd zal hij een IQ-score van 100 hebben.

Tot de vierde editie van de Stanford-Binet (SB: FE) werd er gebruik gemaakt van een leeftijdsschaal, waarbij items gegroepeerd werden op leeftijd waarop je in staat moest zijn die items goed te beantwoorden. De vierde editie introduceerde de puntenschaal, waarbij subtesten gegroepeerd werden op itemcategorie. De vierde editie was gebaseerd op het Cattell-Horn-model van intelligentie. Aan de hand van deze test kon je testsamenstellingen verkrijgen; een testscore die wordt afgeleid uit een combinatie van één of meer subtestscores of een wiskundige transformatie daarvan.

Vijfde en huidige editie van de Stanford-Binet

De vijfde editie van de Stanford-Binet (SB5) bestaat uit verschillende testsamenstellingen, waaronder een algehele IQ-score die bestaat uit de scores op tien subschalen. Subtestscores hebben elk een gemiddelde van 10 en de algehele IQ-score heeft een gemiddelde van 100. Andere testsamenstellingen zijn de verkorte batterij-IQ-score, de verbale IQ-score en de nonverbale IQ-score.

Iedere samengestelde IQ-score heeft een gemiddelde van 100 en een standaardafwijking van 15. Tenslotte zijn er nog vijf factor-indexscores voor vloeibare intelligentie, gekristalliseerde intelligentie, kwantitatieve kennis, ruimtelijk-visuele verwerking en werkgeheugen. Deze factoren zijn gebaseerd op de Cattell-Horn-Carroll-theorie van intelligentie (zie hoofdstuk 9). In de SB5 is getracht een balans te vinden tussen verbale en non-verbale vaardigheden.

Standaardisatie

Na vijf jaar itemanalyse en uitgebreide overwegingen werd de SB5 gestandaardiseerd. Hiervoor werd een representatieve standaardisatiesteekproef gebruikt, gestratificeerd op leeftijd, etniciteit, woonplaats en sociaal-economische status. Er waren geen accommodaties voor mensen met beperkingen, hoewel die later wel in andere studies werden getest.

Psychometrische juistheid

De interne consistentie, test-hertest en tussen-scorers-betrouwbaarheidscoëfficiënten van de SB5 zijn steeds hoog (rond de 0.9) gebleken. Items met lagere tussen-scorers-betrouwbaarheid zijn in de loop van de tijd uit de test verwijderd. Voorspellende validiteit werd bekeken door de SB5 met de SB: FE en de Wechsler-intelligentietest te correleren. De eerste twee correleerden sterk, de SB5 en de Wechsler zoals verwacht minder. Ook werden hoge correlaties gevonden tussen de SB5 en testen die prestatieniveau maten.

Testafname

Bij adaptief testen wordt de test aangepast op het niveau van de testmaker. Een test begint met een gemiddeld moeilijk item. Als de persoon fout antwoordt, volgt een minder moeilijk item. Op deze manier hoeven er minder items afgenomen te worden en voelt de testmaker zich precies voldoende uitgedaagd. Bij een richtinggevende test wordt geprobeerd om de testmaker naar een optimaal moeilijkheidsniveau van vragen te leiden. Deze bevatten vaak leeritems; items die de te maken taak illustreren en ervoor zorgen dat de testmaker beter begrijpt wat de bedoeling is.

Scores op dit item worden niet meegenomen in de uiteindelijke beoordeling. Met richtinggevende items wordt vastgesteld wat de optimale moeilijkheidsgraad voor de testmaker is. Testitems staan weergegeven in drie itemboeken. In het eerste boek staan items voor de eerste twee subschalen, waaronder voor de richtinggevende testen. De items voor de volgende vier verbale subschalen staan in itemboek 2, items voor de laatste vier non-verbale schalen in boek 3. De laatste 8 subschalen hebben steeds bijna dezelfde naam, maar hebben verschillende taken die verbaal dan wel non-verbaal zijn.

Het laagste niveau van moeilijkheid van items op een subtest wordt de bodem genoemd. Het hoogste niveau is het plafond. Veel subtesten hebben een basaal niveau waaraan een testmaker moet voldoen voordat hij verder mag gaan met de subtest. Dit is een minimaal criterium, zoals het correct beantwoorden van twee achtereenvolgende items. Als hij te veel fouten maakt volgens het criterium, is het plafondniveau bereikt en wordt de test afgebroken. Een uitzondering hierop is het testen van grenzen, waarbij de testafnemer er voor kiest om door te gaan met items boven het niveau van de testmaker. Dit zou hij kunnen doen als hij vermoedt dat de testmaker het niveau wel aan kan, maar om de één of andere reden dat tot nog toe niet heeft kunnen bewijzen. Voor elke subtest zijn er specifieke instructies over wanneer je begint, wanneer je opnieuw moet beginnen en wanneer je moet stoppen. De meeste items van SB5 hebben geen tijdslimiet, zodat er geen problemen ontstaan met de accommodatie voor mensen met beperkingen of met IRT (zie hoofdstuk 5).

Scoring en interpretatie

Er zijn specifieke instructies voor de scoringsprocedure van de SB5. Iedere onbewerkte score van een subschaal kan aan de hand van tabellen gestandaardiseerd worden en hieruit kunnen samengestelde scores afgeleid worden. Er zijn verschillende manieren om uit al deze resultaten een intelligentieprofiel te extraheren. Meestal worden verschillen tussen subtestscores geanalyseerd om zo duidelijk te maken waar iemands sterke en waar zijn zwakke punten liggen. Tenslotte kun je kijken in welke categorie de algehele IQ-score van een individu valt. Vanaf een IQ van 130 is iemand bijvoorbeeld hoogbegaafd.

Intelligentietesten geven echter meer informatie dan alleen IQ-scores. Het geeft rijke, gedetailleerde informatie over de verschillende cognitieve vaardigheden van de testmaker. Tevens kan er rapport gegeven worden van extratest-gedrag, observeerbaar gedrag tijdens de testafname dat niet door de test gemeten wordt. Hoe iemand omgaat met frustratie als hij een item niet begrijpt kan bijvoorbeeld heel informatief zijn. Vaak zijn er checklijsten waarop dergelijk gedrag bijgehouden kan worden. Ook kenmerken zoals medicijngebruik of schijnbaar energieniveau van de geteste persoon kan bijgehouden worden. Tenslotte kunnen opvallende, specifieke observaties genoteerd worden.

Wechsler test

Wechsler ontwikkelde verschillende, onafhankelijke testen voor verschillende leeftijdsgroepen. Sinds een tijdje brengen alle Wechsler-testen een algehele, een verbale en een prestatie-IQ-score voort. Deze ontwikkeling is echter alweer omgedraaid na de herziening van de kinderschaal van 2003, die geen onderscheid meer maakt tussen verbale en prestatiescores. De Wechsler-testen zijn allemaal puntenschalen met een gemiddelde van 100 en een standaarddeviatie van 15. De testen hebben veel instructies met elkaar gemeen betreffende de afname, scoring en interpretatie van de test. Over het algemeen hebben de Wechsler-testen bevredigende betrouwbaarheidscoëfficiënten en validiteitscoëfficiënten.

Wechsler Adult Intelligence Scale (WAIS)

Ontwikkeling van de WAIS

In de jaren ’30 kreeg Wechsler de opdracht van het Bellevue Hospital om een instrument te ontwikkelen om de intellectuele vermogens van cliënten te evalueren. De eerste versie die Wechsler creëerde baseerde zich qua lay-out op bestaande testen, maar had een andere inhoud. Dit was de Wechsler-Bellevue I (W-B). De W-B was in tegenstelling tot de Stanford-Binet van die tijd een puntenschaal in plaats van een leeftijdsschaal. De test was georganiseerd in zes verbale subtesten en vijf prestatie-subtesten en de items waren oplopend in moeilijkheid. De test bevatte nog wel een aantal problemen. Zo was de standaardisatiesteekproef niet representatief, hadden sommige subtesten onvoldoende tussen-item-betrouwbaarheid, waren sommige subtesten te gemakkelijk en waren scoringscriteria te ambigu. De WAIS bevatte al veel minder problemen. In 1981 werd een herziening (de WAIS-R) gepubliceerd met nieuwe normen, vernieuwd materiaal en de instructie dat verbale en prestatie-items afwisselend afgenomen moesten worden. De derde editie, de WAIS-III, was meer gebruiksvriendelijk, was ook geschikt om bij mensen met mentale beperkingen en bij de oudste leeftijdsgroep af te nemen en bevatte minder door cultuur vertekende items.

Hij werd samen genormeerd met de Wechsler geheugenschaal, waardoor intellectueel functioneren en geheugen makkelijker met elkaar vergeleken konden worden. De WAIS-III leverde vijf scores op: één algehele IQ-score en aparte scores voor verbaal begrip, perceptuele organisatie, werkgeheugen en verwerkingssnelheid.

Vierde editie: WAIS-IV

De meest recente editie van de WAIS bevat essentiële en aanvullende subtesten. Een kern-subtest is een essentieel onderdeel van de samengestelde testscore. Een aanvullende (optionele) subtest kan bijvoorbeeld aanvullende klinische informatie geven of het aantal gemeten vaardigheden of processen uitbreiden. Een aanvullende test kan onder bepaalde omstandigheden zelfs gebruikt worden in plaats van een kern-subtest, bijvoorbeeld als die laatste op incorrecte wijze is afgenomen. De WAIS-IV bevat tien kern-subtesten en vijf aanvullende testen. Een voorbeeld van een aanvullende test is een visuele puzzel, waarbij de delen waaruit een figuur is opgebouwd geïdentificeerd moeten worden.

Verbeteringen die zijn doorgevoerd in de WAIS-IV zijn bijvoorbeeld meer expliciete afname-instructies en uitgebreidere demonstratie van en oefening met items. Ook zijn alle items onderzocht op culturele vertekening. De bodemscore van de test werd met vijf punten verlaagd en de plafondscore werd met vijf punten verhoogd. Tevens werd de test geschikt gemaakt voor de oudste bevolkingsgroep. De WAIS-IV brengt geen verbale, prestatie- en algehele IQ-scores meer voort. Uit factoranalyse is gebleken dat de items laadden op vier andere factoren, namelijk verbaal begrip, werkgeheugen, perceptuele redenering en verwerkingssnelheid. Subtesten die minder op deze factoren laadden werden gezien als aanvullend voor deze schalen. Een vijfde schaal is een samenstelling van verbaal begrip en perceptuele redenering en wordt het algemeen vermogen-index genoemd.

Standaardisatie

De standaardisatiesteekproef was groot en gestratificeerd op alle relevante geografische kenmerken. De scores werden getransformeerd tot percentielen en gestandaardiseerd op een schaal met een gemiddelde van 10 en een standaarddeviatie van 3. Voor de WAIS-III werd er gebruik gemaakt van een referentiegroep van tussen de 20 en 34 jaar oud, omdat deze groep optimaal zou presteren. Dit gebeurt sinds de WAIS-III niet meer.

Psychometrische juistheid

Zowel betrouwbaarheid als validiteit zijn bij deze test herhaaldelijk gemeten. Hieruit bleek onder andere dat de test een hoge interne consistentie heeft. De concurrente, convergente en discriminante validiteit staan eveneens vast. Ook zijn er kwalitatieve studies uitgevoerd om te kijken of mensen inderdaad die strategieën gebruikten die de testitems probeerden te meten.

Wechsler Intelligence Scale for Children (WISC)

De Wechsler-intelligentieschaal voor kinderen werd het eerst gepubliceerd in 1949 en was een uitbreiding van de W-B. Deze versie bevatte wel een aantal problemen. Zo waren er bij de standaardisatie alleen blanke kinderen betrokken, bevatten bepaalde items stereotypen en waren de instructies onduidelijk. In de herziening (WISC-R) werden deze problemen opgelost. Ook werd het taalgebruik gemoderniseerd en meer geschikt gemaakt voor kinderen. Hierna werd de WISC-III ontwikkeld, die verbeterde testitems en normen had.

Vierde editie: WISC-IV

De WISC-IV vertoont veel overeenkomsten met het Cattell-Horn-Carroll-model. Volgens Carroll biedt de test bewijs voor het bestaan van g, omdat alle items met elkaar correleren. Critici zeggen echter dat dit komt doordat de subschalen niet volledig onafhankelijk van elkaar zijn en ook andere vaardigheden meten. De WISC-IV brengt daarom zowel een algemene score als subscores (verbaal begrip, perceptuele redenering, werkgeheugen en verwerkingssnelheid) voort, net als de WAIS. Tenslotte is er nog een vijfde score, namelijk de verwerkingsscore; een index van de manier waarop iemand bepaalde types informatie verwerkt. Veranderingen in de vierde editie zijn bijvoorbeeld de verwijdering van sommige subtesten, de toevoeging van aparte normen voor bepaalde taken en het verworden van kern-subtesten tot aanvullende subtesten.

Ook de WISC-IV is door middel van een representatieve, gestratificeerde steekproef gestandaardiseerd. De kwaliteit werd gewaarborgd door instructies voor de kwalificatie van testafnemers, scoringsprocedures en data-invoering. Items werden uitvoerig onderzocht op eventuele vertekening. Er is bewijs voor de (interne consistentie, test-hertest en tussen-scorers)betrouwbaarheid van de test en de validiteit is vastgesteld door middel van verschillende factoranalyses en correlationele studies.

WISC vergeleken met de SB5

Hoewel de SB5 ook geschikt is voor andere leeftijden, zijn de WISC en SB5 alleen vergeleken bij kinderen. De gebruikte afnameprocedures zijn veelal hetzelfde. Beide testen genereren een algehele IQ-score op grond van tien subtesten, hoewel de WISC vijf aanvullende schalen bevat en de SB5 niet. Een ander verschil is dat de WISC geen officiële verkorte vormen heeft en de SB5 wel. De standaardiseringssteekproeven waren bijna hetzelfde, hoewel de testen op iets andere kenmerken stratificeerden. Bovendien baseerden beide modellen B zich op het CHC-model van intelligentie, waarbij g een rol speelt.

Wechsler Preschool and Primary Scale of Intelligence (WPPSI)

Project Head Start was een project voor uitzonderlijke (beperkte of begaafde) kinderen. Deze en andere projecten deden de behoefte ontstaan aan intelligentietesten. Voor kinderen onder de zes jaar moest een nieuwe test ontwikkeld worden. De nieuwe WPPSI kon afgenomen worden bij kinderen vanaf 4 jaar. Een herziening uit 1989 kon al gebruikt worden bij kinderen van 3 tot 7 en de WPPSI-III al vanaf 2 jaar. In de WPPSI-III werd in tegenstelling tot in de nieuwste edities van andere Wechsler-testen het nut van een aparte verbale en prestatie score bevestigd.

In de derde editie van de WPPSI werden verschillende veranderingen doorgevoerd. Sommige subtesten werden geschrapt, andere toegevoegd. ‘Vloeibaar redeneren’ en verwerkingssnelheid werden bijvoorbeeld gemeten door nieuwe subtesten. Sommige subtesten waren aanvullend, andere waren kerntesten en weer andere waren voor de ene leeftijdsgroep aanvullend en voor de andere essentieel. Dan zijn er nog optionele subtesten, die in feite hetzelfde zijn als aanvullende subtesten maar niet gebruikt mogen worden ter vervanging van de kerntesten. Een andere verandering was de verlaging van de bodem en de verhoging van het plafond van de test, zodat de test geschikter werd om af te nemen bij extreem hoge en extreem lage scorers. Ook bij deze test werden de gebruikelijke procedures toegepast om een goede normering, een goede kwaliteitswaarborging en psychometrische juistheid te garanderen.

Verkorte vormen

Intelligentietesten worden soms in een verkorte vorm afgenomen; een minder lange versie van de test die tijd moet besparen. Deze vormen zijn bijvoorbeeld handig voor mensen met een minder grote aandachtsspanne. De verkorte WAIS-III lijkt betrouwbaar en valide te zijn. Wechsler zelf was bang dat verkorte vormen misbruikt zouden worden en raadde het gebruik ervan af. Bij latere beoordelingen worden dan ook vraagtekens gezet bij de validiteit van verkorte vormen. Het verkorten van een test heeft automatisch verminderde betrouwbaarheid tot gevolg, wat weer leidt tot lagere validiteit. Silverstein heeft methoden voorgesteld aan de hand waarvan valide verkorte vormen ontwikkeld kunnen worden. Anderen hebben gesteld dat een score van een verkorte vorm altijd als een schatting gepresenteerd moet worden.

Een voorbeeld van een verkorte test is de Wechsler Abbreviated Scale of Intelligence (WASI). Voor de publicatie van deze verkorte vorm verkortten veel testgebruikers hun testen zelf ‘op gevoel.’ De WASI moest deze praktijken verminderen. Het heeft twee subschalen; namelijk een verbale en een prestatieschaal. Er bestaat ook een versie met vier subschalen, die nog beter correleert met de algehele IQ-score op de totale test. De WASI is voldoende betrouwbaar en valide.

Naast de WASI zijn er nog een aantal andere verkorte intelligentietests ontwikkeld. Voorbeelden hiervan zijn de Kaufman Brief Intelligence Scale-Second Edition (KBIT-@) en de Wide Range Intelligence Test (WRIT). De convergente validiteit van deze tests is hoog. Verkorte intelligentietests lijken een geschikt alternatief voor volledige tests wanneer men te kampen heeft met tijdsbeperkingen of andere verzachtende factoren.

Factoranalyse

In de psychologie is het belangrijk om consensus te bereiken over welke constructen gemeten moeten worden en welke dimensies daaronder vallen. Dit gebeurt door middel van factoranalyse. Het uitgangspunt is dat dingen die vaak samen voorkomen (correleren) een gemeenschappelijke oorzaak zouden kunnen hebben. Bij factoranalyse worden dus correlaties berekend tussen allerlei losse items. De dingen die samen voorkomen (correleren) worden gezien als één factor. Als je vier items meet, en ze correleren onderling niet met elkaar, dan worden er dus vier verschillende factoren gemeten. Als je vier items meet en twee paren items correleren onderling, maar niet met elkaar, dan worden er twee factoren gemeten. Op deze manier kun je grote hoeveelheden items samenvatten in een paar factoren. Je kunt daarnaast bij ieder afzonderlijk item kijken hoe sterk die correleert met de onderliggende factor. Deze correlatie wordt de factorlading genoemd. Factoranalyse geeft nog geen aanwijzingen over de interpretatie van de factoren en de naam die ze moeten krijgen. Dat is aan de onderzoeker. Er kan ook een factoranalyse tussen factoren worden gedaan. Als factoren met elkaar correleren, kunnen ze geschaard worden onder een gezamenlijke factor (‘second-order factor). G is een voorbeeld van een derde ordefactor.

Bij ontdekkende factoranalyse wordt data samengevat waarvan nog niet zeker is of er factoren zijn, hoeveel er zijn en welke items op welke factoren laden. Als er specifieke hypotheses over factoren zijn, kan er bevestigende factoranalyse uitgevoerd worden. Deze factoranalyse kan als een soort evaluatie van een test gebruikt worden: correleren de items inderdaad met de veronderstelde factor? Er zijn drie uitkomsten mogelijk. Het kan zijn dat de items één en dezelfde vaardigheid meten waaronder beide veronderstelde factoren vallen. Ook kan het zijn dat de items één van de twee factoren meten, maar de andere niet. Tenslotte kan het dat de items de veronderstelde verschillende factoren meten. Uit bevestigende factoranalyse komen zogeheten ‘passendheidsstatistieken,’ die indiceren of de geteste hypothese of het geteste model in overeenstemming was met de data.

Andere metingen van intelligentie

Er zijn nog verschillende alternatieve intelligentietesten. Het echtpaar Kaufman heeft verschillende intelligentietesten ontwikkeld, waaronder de K-ABC voor kinderen. Deze test is gebaseerd op informatieverwerkingstheorieën en meet seriële en parallelle informatieverwerking. Een andere manier om volgens sommigen intelligentie te testen is om iemand een figuur te laten tekenen. Via het ‘Goodenough-Harris’ scoringssysteem kan op basis hiervan intelligentie geschat worden. Deze methode en haar validiteit is controversieel.

Intelligentietesten voor groepen

Intelligentietesten voor groepen in het leger

De vraag naar intelligentietesten voor groepen ontstond in het leger ten tijde van de Eerste Wereldoorlog. Binnen enkele weken ontwikkelde een APA-commissie een intelligentietest om rekruten mee te kunnen beoordelen. De Army Alpha test was een test voor rekruten die konden lezen en testte kennis en verbale vaardigheden. De Army Beta test was een test voor analfabeten en mat non-verbale vaardigheden. Rekruten werden toegewezen aan een post op basis van de scores op deze testen. De betrouwbaarheid van de testen was voldoende en testscores correleerden voldoende met externe criteria. Volgens Yerkes mat de test vooral het vermogen om te leren, om snel en accuraat na te denken en om instructies te begrijpen. Het mat dus niet per se of iemand een goede soldaat zou worden. De militaire testen werden ook voor de meeste mensen in de maatschappij beschikbaar. De test was gemakkelijker en goedkoper af te nemen dan de Stanford-Binet. De testen werden helaas misbruikt en door ongekwalificeerde mensen afgenomen. In de Tweede Wereldoorlog ontstond hernieuwde interesse in intelligentietesten voor groepen, naar aanleiding waarvan de Army General Classification Test (AGCT) ontwikkeld werd. Er werden ook andere testen ontwikkeld, waaronder eentje om spionnen te kunnen beoordelen.

Nog altijd gebruikt het leger intelligentietesten bij het rekruteren van nieuwe troepen. Testen worden veelal gebruikt als screening instrument; een procedure om bepaalde trekken op een grove manier te identificeren of in te schatten. Data uit deze procedures worden ook gebruikt om het niveau van trainingsprocedures aan te passen aan het niveau van de rekruten.

Een voorbeeld van een test die in het leger gebruikt wordt om te kijken naar de vooruitzichten van een rekruut is de Armed Services Vocational Aptitude Battery (ASVAB). Deze test wordt ook veel in de maatschappij toegepast om te kijken naar de vaardigheden en interesses van mensen en om hen te helpen bij beroepskeuze. De test wordt dan ook veel gebruik op scholen. Op de test worden behalve rekenkundig redeneren, numerieke operaties, woordkennis en tekstbegrip (de Armed Force Qualification Test) nog tien andere vaardigheden gemeten, waaronder technische en wetenschappelijke. De construct-, inhoud- en criteriumvaliditeit van de ASVAB blijken voldoende te zijn.

Intelligentietesten voor groepen op school

Vroeger onderging 90% van alle leerlingen een intelligentietest voor groepen (de schoolvaardigheidstest). Tegenwoordig is het verboden om op grond van testscores iemand toe te wijzen aan een klas, maar testscores worden nog steeds gebruikt door leraren voor het maken van beslissingen betreffende hun leerlingen. Komt een kind bijvoorbeeld in aanmerking voor extra aandacht of bijles? Dergelijke testen worden al voor de schoolleeftijd bij kinderen afgenomen. Een veel gebruikte test op school is de Otis-Lennon School Ability Test, die vooral abstract denken meet en een verbale en een non-verbale score en een schoolvaardigheidsindex geeft.

Groepstesten zijn vooral zinvol wanneer een grote hoeveelheid mensen geëvalueerd moet worden in weinig tijd.

Testen voor specifieke mentale vermogens

Er zijn nog allerlei andere vermogens die van belang zijn die niet op intelligentietesten gemeten worden. Er zijn bijvoorbeeld tests beschikbaar om specifieke vermogens zoals kritisch denken, muziek- of kunstwaardering te meten. Ook is er een ontwikkelende kennisbasis met betrekking tot zogenaamde cognitieve stijlen. Een cognitieve stijl is een psychologische dimensie die de consistentie waarmee men informatie verwerft en verwerkt. Een ander voorbeeld van een vermogen wat niet door een intelligentietest gemeten wordt, is creativiteit. Het blijkt dat hoewel intelligentietesten geen creativiteit meten, creativiteitstesten wel aan intelligentie gerelateerde variabelen meten. Op creativiteitstesten worden originaliteit, vloeiendheid (gemak waarmee responsies gegeven worden), flexibiliteit en uitwerking (gedetailleerdheid van de respons) gemeten. Een belangrijk punt van kritiek op intelligentietesten is dat ze dergelijke vaardigheden niet meenemen in de scoring en alleen focussen op het aantal correcte antwoorden. Intelligentietesten leggen de nadruk op convergent denken; oftewel deductief redeneren waarbij men door logisch na te denken een afweging moet maken tussen verschillende oplossingen.

Divergent denken daarentegen is een vrije manier van denken waarbij iedere oplossing mogelijk is. Deze manier van denken vergt originaliteit, flexibiliteit en verbeeldingskracht. Dit wordt verwaarloosd in de meeste testen. Creativiteit kan volgens Guilford bijvoorbeeld gemeten worden door mensen op een ongebruikelijke manier na te laten denken over het gebruik van objecten of door ze zich voor te laten stellen wat er zou gebeuren in een bepaalde situatie. In de Remote Associate Test moeten mensen een woord bedenken dat geassocieerd is met de gepresenteerde woorden. In de Torrance Test moeten mensen gedachten associëren met geluiden. Helaas ontberen de meeste creativiteitstesten validiteit en betrouwbaarheid.

Hoe worden psychologische assessments in het onderwijs uitgevoerd? - Chapter 11

 

Respons tot interventie (RtI)

Specifieke leerbeperking

Aan de scores van de prestatietest in vergelijking met scores van andere testen kan men zien of er een discrepantie bestaat tussen het prestatieniveau en het werkelijke intellectuele niveau. Vroeger gold deze discrepantie als het criterium voor de specifieke leerbeperking (SLD), tegenwoordig wordt deze afwijking gedefinieerd als een stoornis in één of meer fundamentele psychologische processen die betrokken zijn bij het begrip en het gebruik van taal. In de IDEA wet van 2006 staat dat een SLD niet op grond van één test gediagnosticeerd mag worden.

Het RtI-model is een preventiekader bestaande uit meerdere niveaus welke wordt toegepast in onderwijssettings. Het model is ontworpen om de prestaties van leerlingen te optimaliseren. Dit wordt gedaan door middel van het gebruik van data die leerlingen die risico lopen op slechte leerprestaties te identificeren, gecombineerd met een evidence-based interventie en onderwijs dat is aangepast aan de mogelijkheden van de leerling. Het model bestaat uit tenminste drie interventieniveaus: (1) de klassenomgeving waarin alle leerlingen leren wat de leerkracht hen aanreikt; (2) de klassenomgeving waarin een kleine groep leerlingen niet de juiste progressie maken, is gescheiden van de rest en aangepaste instructies krijgt; (3) individueel op maat aangepaste en toegediende instructies voor leerlingen die niet reageren op het tweede interventieniveau. Het doel van RtI is het leerproces van alle leerlingen te optimaliseren.

Er heersen nog onduidelijkheden met betrekking tot de implementatie van RtI. Sommige scholen passen een probleemoplossingsmodel toe. Dit model maakt gebruik van interventies die op maat gemaakt zijn voor de individuele behoeften van de leerlingen, welke door een multidisciplinair team van onderwijsprofessionals geselecteerd worden. Toch worden er nog veel kritische vragen gesteld over hoe RtI ingevoerd dient te worden. Enkele belangrijke punten die naar voren komen door IDEA: geen enkel meetinstrument kan gebruikt worden als een enkel criterium om te bepalen of een leerling een beperking heeft. Er moet altijd een verscheidenheid aan assessmentinstrumenten en –strategieën aangewend worden. Daarnaast wordt aangeraden om advies te vragen aan verschillende personeelsleden op school en daarnaast ook aan de ouders en andere relevantie informatiebronnen. Deze multidisciplinaire benadering van de evaluatie afkomstig van diverse relevante bronnen wordt ook wel integratieve assessment genoemd.

Dynamische assessment

RtI is een dynamisch model. Dynamische assessment omvat een benadering tot het exploreren van het leerpotentieel. Deze benadering is gebaseerd op het test-interventie-hertest model. Dynamische assessment kan worden toegepast bij iedere leeftijdsgroep. Hierbij wordt iemand getest, waarop een interventie volgt om de testscores te verbeteren. Hierop volgt weer een hertest. Deze methode stoelt op het werk van Budoff, Feuerstein en Vygotsky. Budoff onderzocht het verschil tussen beperking door gebrekkig onderwijs en beperking door mentale problematiek. Hij deed dit door te kijken of prestatie zou verbeteren door training. Feuerstein onderzocht hetzelfde. Tevens ontwikkelde hij een test waarmee vastgesteld kan worden of en welke interventie een kind nodig zou hebben, de Learning Potential Assessment Device (LPAD). Vygotsky introduceerde het concept van zone van nabije ontwikkeling, oftewel de ontwikkeling waartoe een persoon in staat is en wat hij kan leren. Bij dynamisch testen wordt het potentieel van mensen geïdentificeerd en de testafnemer tracht vervolgens mensen tot verwezenlijking daarvan te brengen.

De testafnemer is dus bepaald niet neutraal, zoals bij andere vormen van testen het geval is. Er wordt hierbij een grote hoeveelheid technieken toegepast, waardoor validiteit van deze benadering als geheel moeilijk is vast te stellen.

Assessment in het onderwijs: testen

Prestatietesten

Testen die meten wat je bereikt of gepresteerd hebt worden prestatietesten (achievement tests) genoemd. Toetsen en tentamens vallen hieronder. Een goede prestatietest is een gebalanceerde steekproef uit het te leren materiaal en meet op een betrouwbare manier of het subject het materiaal geleerd heeft. Prestatietesten kunnen helpen bij plaatsingsprocedures; bijvoorbeeld bij de overgang naar een hogere klas, toelating tot een bepaald programma of een speciale klas. Ook kunnen ze een indicatie geven van de kwaliteit van het gegeven onderwijs.

Meten van algemene prestatie

Prestatiebatterijen zijn tests bestaande uit subtesten die meerdere academische gebieden testen. Sommige batterijen zijn geschikt voor kinderen van alle leeftijden, sommigen zijn specifiek voor één leeftijdsgroep. Sommige testen hebben zowel normreferenties als criteriumreferenties.

Er zijn ook batterijen met richtinggevende testen (locator tests; zie hoofdstuk 10); testen die vóór de eigenlijke test worden afgenomen om te bepalen welk testniveau iemand aan zal kunnen. Testen variëren dus op allerlei aspecten. Welke test gebruikt wordt hangt af van het doel van de leraar of de school die het instrument gebruikt. Een populair instrument is de Wechsler Individual Achievement Test – III (WIAT-III). Deze wordt naast het meten van prestatie ook gebruikt om hypothesen te ontwikkelen over de verhouding tussen prestatie en vermogen. Oorspronkelijk werd hij ontwikkeld om probleemoplossingsstrategieën te identificeren. Een nadeel van deze algemene, grote testen is dat het veel tijd kost om ze te ontwikkelen.

Meten van specifieke prestaties

In plaats van algemene testen kunnen er ook specifiekere toetsen worden gebruikt. In de praktijk van het onderwijs gebruiken leraren vaak speciaal voor een gelegenheid zelfontwikkelde toetsen, hoewel hiervoor ook testbatterijen gebruikt kunnen worden. Een specifiek gebied dat veel getest wordt is leesvaardigheid. Dit kan op verschillende manieren. Een test presenteert woorden, zinnen of alinea’s die ofwel stil ofwel hardop gelezen moeten worden. Leesvaardigheid wordt hierbij gemeten in termen van begrip, vocabulaire of uitspraak. Een groot testbatterij dat specifieke vaardigheden meet is de Coöperatieve Achievement Test, die gebieden zoals taal, wiskunde en sociale en algemene wetenschap test. Er gaan stemmen op voor een specifieke prestatietest voor op universiteiten en hogescholen in de vorm van een eindexamen om te testen of mensen inderdaad geleerd hebben wat ze zeggen geleerd te hebben.

Ook deze testen kunnen gebruikt worden om beslissingen te maken over plaatsing. Een voorbeeld is het testen van de vaardigheid in een tweede taal zoals Engels. Hiermee zou je je kunnen plaatsen voor bepaalde programma’s. Met de hoeveelheid immigranten in Amerika kunnen deze testen overigens ook op andere manieren worden toegepast. Prestatietesten kunnen ook gebruikt worden om te meten wat iemand buiten zijn opleiding geleerd en gepresteerd heeft. Curriculumgebaseerd assessment (CBA) meet alleen die informatie die op school geleerd is. Een curriculumgebaseerde meting (CBM) gebruikt gestandaardiseerde procedures om locale normen af te leiden aan de hand waarvan de prestatie op de taak geëvalueerd kan worden.

Bij prestatie testen kunnen twee soorten items worden onderscheiden. Het ene type is helemaal afhankelijk van uit het hoofd geleerde kennis, meestal feitenkennis. Het andere type is conceptueel en vergt niet alleen het hebben van bepaalde kennis, maar ook het toepassen van die kennis op een bepaald concept.

Geschiktheidstesten

Prestatietesten benadrukken het vermogen tot het gestructureerd uit het hoofd leren van materiaal. Geschiktheidstesten (aptitude tests) richten zich vooral op informeel leren of levenservaring. Het zijn de vermogens die je opdoet in de loop van je leven die getest worden. Sommige items kunnen zowel gelden als prestatietest en als geschiktheidstest. Hoe dit geïnterpreteerd wordt hangt af van de context en van het doel van de test. Geschiktheidstesten worden ook wel prognostische testen genoemd en worden meestal gebruikt om voorspellingen te doen, bijvoorbeeld of een kind in staat is om naar groep 1 te gaan. Prestatietesten kunnen overigens ook gebruikt worden om voorspellingen te doen. Bij prestatietesten zijn deze voorspellingen echter veel specifieker en hangen ze meer af van formele leerervaringen. Iemand moet bijvoorbeeld eerst in staat zijn tot het één voordat hij door mag om het andere te leren. Bij geschiktheidstesten zijn deze voorspellingen algemener.

Voorschoolse assessment

Vanaf de jaren zeventig werden steeds meer kinderen in de voorschoolse periode (in Amerika jonger dan vijf jaar) getest. Volgens vanaf die tijd gepubliceerde Public Laws moesten kinderen vanaf 3 jaar met fysieke of mentale beperkingen geïdentificeerd worden om vast te kunnen stellen wat voor onderwijs ze nodig hadden. Later gold dit ook voor jongere kinderen. In 1999 werd ADHD toegevoegd aan de lijst beperkingen waarmee een kind voor speciale aandacht in aanmerking komt. Dit leidde ook tot een toename in voorschoolse assessment.

Instrumenten

Checklists en rating schalen

Bij voorschoolse assessment kan bijvoorbeeld gebruik gemaakt worden van een checklist, waarop aangevinkt moet worden van welk gedrag, welke gedachte, gebeurtenis of omstandigheid sprake is. Dit kan gedaan worden door een expert, een observator of door de persoon in kwestie zelf. Een ander meetinstrument dat hier sterk op lijkt is de ratingschaal, waarop je iemands positie op een schaal met betrekking tot een bepaalde variabele moet weergeven.

Veel gebruikte checklists en ratingschalen zijn bijvoorbeeld de Achenbach Child Behavior Checklist (CBCL), de Connors Rating Scales-Revised (CRS-R) en de Behavior Assessment System for Children-2 (BASC-2). Bekenden van het kind geven informatie over de activiteiten, sociale relaties en schoolprestaties van dit kind.

Veel checklists bevatten ook items die emotionele en gedragsproblemen identificeren. De CRS-R is bijvoorbeeld geschikt om te screenen op ADHD en andere problemen. De CBCL meet 8 syndromen, waaronder angstig-depressief syndroom en aandachtsproblematiek. Een syndroom is een set van samen voorkomende emotionele en gedragsproblemen. De meeste checklists en ratingschalen zijn geschikt om mensen ergens op te screenen.

Dit kan bijvoorbeeld gebruikt worden om een risicogroep te identificeren. Kinderen die risico lopen hebben moeilijkheden op psychologisch, sociaal of academisch gebied en interventie kan voor hen gewenst zijn.

Psychologische tests

Ook bij heel jonge kinderen kunnen al testen als de WPPSI-III en de SB5 worden afgenomen. Hierbij moet wel rekening gehouden worden met de leeftijd van de subjecten. Een test moet de aandacht vasthouden en leuk zijn. Tevens moet hij zeker niet te lang zijn. De motivatie van kinderen kan per testmoment variëren en daarmee moet rekening gehouden worden. Een intelligentietest bij zeer jonge kinderen kan nuttig zijn voor het identificeren van bepaalde beperkingen, vooral als het gecombineerd wordt met andere gegevens over bijvoorbeeld de gezinssituatie en gezondheidsdossiers. Op deze manier kan gekeken worden of een kind in aanmerking komt voor interventie. Verder is de waarde van intelligentietesten bij baby’s beperkt: ze voorspellen latere intelligentiescores nauwelijks. Baby’s die zich traag ontwikkelen kunnen dat later zomaar ruimschoots inhalen. Echter, als de scores extreem (laag of hoog) zijn, wordt hun voorspellende waarde sterker.

Andere meetinstrumenten

Naast de genoemde meetinstrumenten bestaan er nog andere methoden die kunnen gebruikt worden om kinderen onder de 6 jaar te testen, zoals interviews, case studies, portfolio-evaluatie of rollenspelmethoden. Ook kan de gezinssituatie en het temperament van een kind onderzocht worden. Sommige methoden zijn zeer specifiek, zoals een vragenlijst om vast te stellen of een kind misbruikt wordt.

Basisschool

In de VS verschilt de leeftijd waarop een kind voor het eerst naar school mag. Een voorbeeld van een geschiktheidstest is een gereedheidstest, een test om te bekijken of een kind in staat is om naar school te gaan.

Hoewel het in de strikte zin van het woord hetzelfde is, wordt de overgang naar latere klassen weer gewoon geschiktheidstest genoemd. Een voorbeeld van een gereedheidstest is de zesde editie van de Metropolitan Readiness Test (MRT6). Hiervan bestaan twee niveaus, één voor jonge peuterspeelzaalbezoekers en één voor oudere peuterspeelzaalbezoekers en kinderen uit groep één. Van tevoren kan een oefentest afgenomen worden. De MRT werd op een grote, representatief gestratificeerde steekproef gestandaardiseerd. De split-half en interne consistentie betrouwbaarheid waren hoog. Ook inhouds- en voorspellende validiteit waren relatief hoog. Tenslotte werd de etnische vertekening van de items zoveel mogelijk gereduceerd.

Voortgezet onderwijs

De meest gebruikte test is de SAT, de Scholastic Aptitude Test. De test fungeert als leidraad bij het nemen van allerlei beslissingen. De SAT bestaat uit de SAT-redeneringstest en de SAT-onderwerptest. De eerste bevat een kritisch-lezen-test (taalbegrip), een wiskundige test en een schrijftest. De onderwerptest meet prestatie op bepaalde gebieden, zoals geschiedenis of taal. Een andere veelgebruikte test is de ACT, die curriculum-gebaseerd is, met vragen die direct afgeleid zijn uit typische schoolonderwerpen. SAT- en ACT-scores blijken sterk met elkaar te correleren en beiden correleren met algemene intelligentie. Vervolgopleidingen wegen vaak SAT- en ACT-scores mee bij de toelating van een student. Echter, deze scores kunnen gecompenseerd worden door andere factoren, zoals interesse en motivatie.

Hoger onderwijs

Ook binnen het hoger onderwijs wordt nog gebruik gemaakt van geschiktheidstesten, bijvoorbeeld als toelatingscriterium voor een master. De Graduate Record Examinations (GRE) wordt gebruikt als selectieprocedure bij de toelating voor een masteropleiding (‘graduate school’). De algemene test bestaat uit een verbaal (tekstanalyse), kwantitatief (wiskundig en numeriek redeneren) en een analytisch schrijven- (kritisch denken en uitdrukken) gedeelte. De GRE is een valide voorspeller van verschillende criteria. Een andere veelgebruikte test in het hoger onderwijs is de Miller Analogies Test (MAT). Deze meerkeuze-analogieëntest onderzoekt het vermogen van een persoon om verbanden te zien, zijn algehele intelligentie, vocabulaire en academische vaardigheid. Een item zou de vorm hebben van ‘x is voor y zoals a is voor ...’ Deze test is het meest kosteneffectief, maar het gebruik ervan is niet oncontroversieel.

Overig

Er bestaan nog veel andere geschiktheidstesten om bijvoorbeeld academische of beroepsvaardigheden te meten. Soms gelden deze testen als toelatingscriterium voor bepaalde beroepen. Zo bestaat er een Medical College Admission Test (MCAT) voor studenten die een medisch beroep nastreven. De MCAT bestaat uit een fysisch, biologisch, verbaal redeneren en schrijfvaardigheidgedeelte. Minder bekende testen zijn bijvoorbeeld testen die muzikaal of artistiek vermogen kunnen meten.

Diagnostisch testen

De meeste testen die tot nu toe behandeld zijn, zijn evaluatief; ze geven beoordelingen van mensen. Testen kunnen ook diagnostisch zijn; als ze bijvoorbeeld de moeilijkheden van een leerling proberen vast te stellen. Subtesten kunnen specifieke problemen vaststellen. Overigens is de scheiding evaluatief/diagnostisch niet absoluut: evaluatieve testen kunnen ook als diagnostisch hulpmiddel gebruikt worden en andersom. Diagnostische testen geven overigens geen antwoord op de vraag waarom deze moeilijkheden bestaan, ze identificeren ze slechts.

Leestesten

Lezen is een centrale vaardigheid in het onderwijs. Er bestaan dan ook veel diagnostische leesvaardigheidstesten, zoals de Stanford Diagnostic Reading Test, de Metropolitan Reading Instructional Tests, de Diagnostic Reading Scales, de Durrell Analysis Reading Test en de Woodcock Reading Mastery Tests – Revised (WRMT-III).

De WRMT-III is geschikt voor kinderen van 4½ tot volwassenen van 80 en bevat 8 subtesten: letteridentificatie (benoemen van letters), woordidentificatie (hardop lezen van moeilijke woorden), woordaanval (uitspreken van niet bestaande woorden), woordbegrip (betekenis identificeren) en tekstbegrip (uit context opmaken hoe een zin afgemaakt moet worden), fonologisch bewustzijn, luisterbegrip en mondelinge leesvloeiendheid.

Alle subtesten samen geven zowel een beeld van de leesgerelateerde sterke en zwakke punten, als een handelingsplan voor leeshulp indien nodig.

Wiskundetesten

Er bestaan tevens veel diagnostische testen om problemen in wiskundige en rekenkundige vaardigheden te identificeren, bijvoorbeeld de vierde editie van de Stanford Diagnostic Mathematics Test (SDMT-4) of de KeyMath 3 Diagnostic System (KeyMath3-DA). Die laatste bevat 10 subtesten en is geschikt voor kinderen vanaf 4½ en volwassenen tot 21 jaar. De scores op de verschillende subtesten vormen samen een profiel met sterke en zwakke punten. Voor ieder item staat in de handleiding welk gedrag die precies meet, zodat de testgebruiker aanwijzingen heeft voor het interventieprogramma.

De SDMT-4 is een gestandaardiseerde test die kan voorzien van nuttige diagnostische inzichten met betrekking tot de rekenkundige mogelijkheden van kinderen die net beginnen met school.

Psychoeducatie-testbatterijen

Sets van testen die academisch succes en onderwijsprestaties meten vallen onder psychoeducatie-testbatterijen. Deze batterijen geven normvergelijkingen en een evaluatie van iemands sterke en zwakke punten.

Kaufman Assessment Battery for Children (K-ABC)

De K-ABC is ontwikkeld voor kinderen van 2 ½ tot 12 1/2 jaar. De test meet zowel intelligentie als prestatie. De intelligentie wordt gemeten door mentale informatieverwerkingsvaardigheid. Deze vaardigheid valt uiteen in seriële en parallelle verwerking (zie hoofdstuk 9). Deze factoren zijn inderdaad gevonden bij factoranalyse van de resultaten.

Een mogelijke derde factor is prestatie, maar wat hiervan precies de aard zou zijn is onduidelijk. De uitkomst van deze test zou meegenomen kunnen worden in het bepalen van de aard van het onderwijs die iemand ontvangt. De verwerkingskracht (processing strength) van een individu, bijvoorbeeld seriële verwerking, zou als basis kunnen fungeren voor het onderwijs dat diegene krijgt. Onderzoek heeft echter niet uitgewezen dat dit ten goede komt aan de kwaliteit van het onderwijs.

De herziening van de test, de KABC-II, is geschikt voor een grotere leeftijdsgroep. Er zijn tien nieuwe subtesten gecreëerd en de helft van de vroegere subtesten zijn geschrapt. Tevens werd de theorie waarop de test gebaseerd was uitgebreid met het CHC-model. Nu heeft de testgebruiker de keuze om de testscores te interpreteren in termen van informatieverwerking of in termen van (algemene) intelligentie. Welke keuze de testgebruiker maakt hangt af van zijn doel. Beide modellen geven een valide en betrouwbare score. Wel bestaat er kritiek op de nieuwe, tweeledige theoretische basis. Hoe kan één test twee verschillende sets processen en vermogen meten?

Woodcock-Johnson III (WJ III)

De WJ III is een pakket van twee samen genormeerde testbatterijen, namelijk prestatietesten en cognitieve vaardigheidstesten, beiden gebaseerd op de CHC. De WJ III genereert een g-score, specifieke cognitieve scores, prestatiescores en gesproken-taalscores. De testbatterijen kunnen gebruikt worden als diagnostische test of als evaluatieve test. De prestatietest bestaat uit twee parallelle vormen met elk een standaardbatterij en een aanvullende batterij. De cognitieve vaardighedentest heeft ook een standaardbatterij en een aanvullende batterij. De betrouwbaarheid en de validiteit van de subtesten zijn goed. Voor de scoring is een computerprogramma beschikbaar, waarin ook checklists geïntegreerd kunnen worden.

Andere methoden voor assessment in het onderwijs

Naast prestatie-, geschiktheids- en diagnostische testen zijn er nog andere instrumenten en assessmenttechnieken die gebruikt kunnen worden.

Prestatie, portfolio en authentieke assessment

Voorheen werd de term performance (prestatie) assessment gebruikt voor iedere assessment waarbij het subject meer moest doen dan het beste antwoord uit een kleine set alternatieven kiezen. Tegenwoordig wordt ‘performance’ meer gebruikt in de zin van de kennis en de vaardigheden in een bepaald domein die het subject moet bezitten. Een performance taak is een taak die representatieve kennis en vaardigheden in een bepaald domein moet bewijzen. Performance assessment is de evaluatie van deze taken aan de hand van door experts in het domein vastgestelde criteria. In veel onderwijssituaties geeft men tegenwoordig de voorkeur aan performance assessment. Een voorbeeld van performance assessment is een portfolio-assessment; de evaluatie van een werkstuk (portfolio) bestaande uit een steekproef van de producten die iemand maakt of de vaardigheden die iemand bezit. Een leerling kan zelf bepalen wat de inhoud van zijn portfolio wordt en kan op allerlei manieren proberen te bewijzen dat hij de vaardigheid in kwestie bezit. Het voordeel van een portfolio is dat leerlingen aangemoedigd worden om na te denken over hun eigen leerproces en dat ze actief deelnemen aan de assessment. Nadelen zijn dat minder creatieve studenten benadeeld worden, dat het veel tijd kost om portfolio’s te beoordelen en dat het moeilijk is om betrouwbare criteria vast te stellen voor de beoordeling. Een methode die uitgaat van dezelfde principes is authentieke assessment. Hierbij worden relevante taken afgenomen die demonstreren dat een student een bepaalde academische vaardigheid in een alledaagse situatie kan toepassen. Leesvaardigheid zou bijvoorbeeld gemeten worden door iemand een stuk (bijvoorbeeld een krantenartikel) te laten lezen. In traditionelere testen zou misschien een meerkeuzetoets worden afgenomen.

Het voordeel van authentieke assessment is dat de student de taak interessanter zou gaan vinden en dat de kennis buiten de onderwijssetting wordt getest. Een nadeel is dat de assessment beïnvloed zou kunnen worden door kennis die de persoon al had voordat hij een bepaalde vaardigheid op school leerde en door andere vaardigheden dan de geteste.

Peer waardering technieken

Een methode om informatie over iemand te krijgen, is om ernaar te vragen bij zijn ‘peers’ (gelijken, leeftijdsgenoten of groepsgenoten). Dit worden peer-waarderingsmethoden genoemd. Peers hebben vaak toegang tot informatie die buitenstaanders niet hebben. Ook kunnen ze informatie verschaffen over de groepsdynamiek. Vooral als de groep al wat langer samen is, is deze methode zinvol. Een methode is de ‘Guess Who?’-techniek, waarbij leerlingen moeten beoordelen wie in de groep bijvoorbeeld het vriendelijkst is. Bij de nominerende techniek moeten mensen anderen selecteren voor bepaalde activiteiten. Wie zou je uitkiezen om mee naar een onbewoond eiland te gaan? Wie zou geschikt zijn om de baas te spelen? De resultaten van peer-waarderingen kunnen grafisch weergegeven worden, bijvoorbeeld in een sociogram. Dit is een soort model waarin individuen staan weergegeven en hun interactie door pijlen en lijnen wordt gerepresenteerd. Peer-waarderingsmethoden blijken erg betrouwbaar en valide te zijn, hoewel er rekening mee gehouden moet worden dat de waarderingen steeds veranderen.

Andere metingen dan vaardigheden en potenties

Behalve vaardigheid zijn er nog andere factoren die meespelen in het onderwijs. Zo zijn er testen die kijken naar gewoontes, zoals de Study Habits Checklist. Hierop kun je aanvinken welke goede en welke slechte studiegewoonten je erop nahoudt. De items op deze test zijn door studenten beoordeeld op hun behulpzaamheid bij het leren. Een ander construct dat gemeten kan worden in het onderwijs is de interesse van leerlingen. Daarop kunnen docenten dan inspelen. Tenslotte kunnen ook attitudes tegenover school gemeten worden. Mensen die positiever staan tegenover school, zullen hun schoolcarrière succesvoller doorlopen. De Survey of Study Habits and Attitudes (SSHA) bestudeert zowel studiegewoontes als attitudes.

Wat houdt een persoonlijkheidsassessment in? - Chapter 12

 

Er bestaan veel verschillende definities en opvattingen van persoonlijkheid. Menninger definieerde het als alles wat een persoon is en wat hij probeert te worden. Sommige definities focussen meer op bepaalde aspecten van het individu. Andere wetenschappers vermijden überhaupt iedere definitie en stellen dat persoonlijkheid niet algemeen definieerbaar is. Het meten en evalueren van onder andere psychologische trekken, staten, waarden, interesses, attitudes, cultuur, identiteit, humor, cognitieve stijlen en gedragsstijlen valt onder persoonlijkheidsassessment.

Persoonlijkheid

De definitie van persoonlijkheid die gehanteerd wordt in het boek is algemeen en simpel gehouden. Persoonlijkheid is de unieke samenstelling van psychologische trekken en staten van een individu. Hieronder zullen definities van deze trekken, staten en van verschillende types gegeven worden.

Persoonlijkheidstrekken

Ook over de definitie van het begrip persoonlijkheidstrek bestaat weinig consensus. Allport definieerde het bijvoorbeeld als fysieke eenheden die mentale structuren vormden binnen een individu.

Volgens Holt waren deze structuren terug te vinden in het functioneren van het brein. Ook Cattell hield de definitie van mentale structuur aan, alleen geloofde hij niet in de fysieke aard van deze structuur. Guilford definieerde persoonlijkheidstrek als een onderscheidbare, relatief stabiele manier waarop het ene individu verschilt van het andere. De context waarin het gedrag dat betrekking heeft op de trek zich manifesteert is van groot belang. In de ene context kan een gedraging iets anders betekenen dan in de andere. Relatief stabiel wil zeggen dat hoe een bepaalde trek zich manifesteert afhangt van deze context. Uit onderzoek van Roberts en DelVecchio blijkt dat de consistentie van persoonlijkheidstrekken toeneemt tot men tussen de 50 en 59 jaar is. Overigens is een persoonlijkheidstrek altijd relatief: het geeft aan op wat voor manier mensen van elkaar verschillen. Als gezegd wordt dat iemand erg patriottistisch is, wordt daarmee bedoeld dat hij patriottistisch is in vergelijking met anderen. Er is wel kritiek gekomen op het concept persoonlijkheidstrek, onder andere van Mishel. Uit verschillende studies blijkt de kracht van de situatie zo sterk, dat het de consistentie van persoonlijkheidstrekken teniet doet. Gedrag zou meer door maatschappelijke verwachtingen dan door persoonlijkheid worden bepaald.

Persoonlijkheidstypen

Als er een categorie van trekken en staten worden geïdentificeerd binnen een persoonlijkheidstaxonomie waaraan een bepaalde groep individuen voldoet, heet dat een persoonlijkheidstype. Een type is een complete beschrijving van een persoon, terwijl persoonlijkheidstrekken alleen kenmerken van die persoon weergeven. De eerste die persoonlijkheidstypes onderscheidde was Hippocrates. Een latere typologie van Carl Jung vormde de basis voor de Myers-Brigg Type Indicator, een test die mensen indeelt in verschillende types. Deze test gaat er vanuit dat mensen bepaalde voorkeuren vertonen in hoe ze dingen waarnemen en beoordelen. Dit zou doorwerken in alles wat ze denken, doen en willen. Zo bleken schaakspelers introverter, intuïtiever en bedachtzamer dan anderen. Een andere typologie is die van John Holland, waarin de types artistiek, ondernemend, onderzoekend, sociaal, realistisch en conventioneel onderscheiden worden.

Friedman en Rosenman onderscheidden type A en type B persoonlijkheid. Type A beslaat de trekken competitiviteit, haast, rusteloosheid, ongeduld, prestatiedrang en dominantie. Type B bestaat uit de tegenovergestelde trekken. Deze types kunnen geïdentificeerd worden door de Jenkins Activity Survey. De bekendste persoonlijkheidstest is de MMPI. Deze genereert een profiel; een representatie van de mate waarin een persoon scoort op kenmerken volgens een bepaalde assessment. Bij een persoonlijkheidsprofiel gaat het dan uiteraard om persoonlijkheidstrekken en staten. Verschillende profielen worden geassocieerd met verschillende gedragspatronen.

Persoonlijkheidsstaten

Het woord staat wordt in twee betekenissen gebruikt. In de psychodynamica is een staat de dynamische kwaliteit van de eeuwig conflicterende ego, id en superego. Tegenwoordig wordt een staat gedefinieerd als een relatief tijdelijke, situatiespecifieke toestand; oftewel een uitdrukking van een trek. Slechts weinig testen maken onderscheid tussen trekken die zich tijdelijk uitdrukken en stabielere trekken. Spielberger maakte in zijn State-Trait Anxiety Inventory (STAI) wel onderscheid tussen tijdelijke angstigheid en een algemene neiging tot angst. Op de STAI wordt mensen gevraagd aan te geven hoe ze zich specifiek op dat moment voelen en hoe ze zich over het algemeen voelen.

Persoonlijkheidsassessment: methoden

Persoonlijkheid kan op veel manieren een rol spelen: het maakt je bijvoorbeeld al dan niet geschikt voor een bepaald beroep. Daarom is het zinvol om persoonlijkheid te kunnen meten. Hieronder staat uitgewerkt bij wie persoonlijkheid gemeten wordt, wat er gemeten wordt, waar dat gebeurt en hoe dat gebeurt.

Wie?

Bij wie wordt persoonlijkheid gemeten en wie ondergaat de test? Soms is dat één en dezelfde persoon, soms maakt iemand een test over een ander persoon.

Zelfrapportage

In het eerste geval is er sprake van zelfrapportage, waarbij de onderzochte persoon zelf de benodigde informatie geeft voor de assessment. Vaak is de gegeven informatie alleen beschikbaar voor de persoon zelf en zou de onderzoeker die niet op een andere manier kunnen verkrijgen dan door hem ernaar te vragen.

Bij onderzoek naar het zelfconcept, de attitudes, opvattingen, meningen en gedachten die mensen over zichzelf hebben, wordt vaak gebruik gemaakt van zelfrapportage. In dit geval is er sprake van een zelfconceptmeting. Mensen moeten zichzelf bijvoorbeeld vergelijken met anderen op bepaalde karakteristieken. Er zijn ook zelfconceptmetingen voor kinderen ontwikkeld, zoals de Tennessee Self-Concept Scale en de Piers-Harris Self-Concept Scale. Uit factoranalyse blijkt het bestaan van zes gebieden: gedrag, intellectuele status, uiterlijk, angstigheid, populariteit en tevredenheid. Tevens is gebleken dat mensen variëren op zelfconceptdifferentiatie; de mate waarin een persoon hetzelfde zelfconcept heeft in verschillende rollen en situaties. Iemand met een zeer gedifferentieerd zelfconcept vindt dat hij zich in verschillende situaties zeer verschillend gedraagt. Iemand met een minder gedifferentieerd zelfconcept vindt dat hij zich in verschillende situaties redelijk consistent gedraagt. Volgens Donahue is een minder gedifferentieerd zelfconcept gezonder.

Als een testmaker op een eerlijke en accurate wijze zelfrapportage levert is deze methode zinvol. Mensen zijn echter niet altijd eerlijk. Ze kunnen zich bijvoorbeeld beter voordoen dan ze zijn (‘faking good’) om aan de toelatingseisen voor een bepaalde baan te voldoen. Mensen kunnen zich ook slechter voordoen dan ze zijn (‘faking bad’), bijvoorbeeld om verminderde toerekeningsvatbaarheid aan te kunnen dragen bij de verdediging in een rechtszaak.

Rapportage door een ander

Soms is het raadzaam om een test bij een ander af te nemen dan bij de onderzochte persoon zelf. Iemand die zichzelf niet accuraat kan beschrijven kan zich laten beschrijven door bijvoorbeeld een ouder of een leraar. De Personality Inventory for Children is bijvoorbeeld een gestandaardiseerde test die gemaakt wordt door een ouder over zijn of haar kind. De test bestaat over een aantal goed/fout-items. Er zijn wel een aantal kanttekeningen te plaatsen bij deze benaderingswijze. Zo kan het zijn dat een persoon te mild beoordeeld wordt (mildheiderror), te streng (strengheiderror), overdreven gemiddeld (centrale tendentie-error) of overdreven positief (halo effect). Er zijn talloze bronnen van dergelijke vertekening aan te wijzen. Misschien heeft de beoordelaar affiniteit met het subject, misschien juist niet. Misschien is de beoordelaar onvoldoende getraind voor zijn taak. Misschien is hij onvoldoende bereid tijd en aandacht te besteden aan zijn taak. Bij de beoordeling door een ander persoon moet rekening gehouden worden met de context van de assessment en met het perspectief van waaruit de beoordelaar naar de persoon kijkt. Van een docent kan een andere beoordeling verwacht worden dan van een ouder. Deze verschillen komen door de verschillende contexten waarin het gedrag plaatsvindt. In plaats van dit te zien als error, kan men er ook toe overgaan om de evaluatie en interventie af te stemmen op deze contextspecifieke gedragingen.

Culturele achtergrond

Bij het afnemen van testen moet altijd rekening gehouden worden met de culturele achtergrond van het subject. Dat geldt zeker ook voor persoonlijkheidstesten. Hoe eerlijk of generaliseerbaarheid is een instrument voor de groep in kwestie?

Wat?

Wat wordt er precies gemeten bij een persoonlijkheidsassessment? De items worden gevormd uit een steekproef van het onderzochte gedrag, de trek of de staat. Vaak bevatten testen nog extra schalen die meten hoe eerlijk een persoon de test heeft ingevuld. Dit is een zogeheten responsstijl, oftewel de neiging om op een bepaalde manier te antwoorden die losstaat van de inhoud van het item. De neiging om het overal mee eens te zijn wordt bijvoorbeeld meegaandheid (acquiescent) genoemd. De poging om indruk te maken door alleen selectieve positieve informatie te verschaffen wordt indrukbeheer genoemd. Dit kan door positieve trekken te benadrukken of te overdrijven door negatieve trekken te ontkennen en door zelfdeceptie (als datgene wat je over jezelf gelooft niet klopt). Testen kunnen items bevatten die responsstijlen kunnen detecteren. Als iemand op een onwaarschijnlijke vraag ‘ja’ antwoordt, kan men vermoeden dat er sprake was van een responsstijl. Omdat responsstijlen de validiteit van een test in het geding kunnen brengen bestaan er speciale validiteitsschalen, die moeten meten hoe eerlijk de persoon antwoordde en of zijn antwoorden een gevolg waren van een responsstijl, van onzorgvuldigheid, bedrog of onbegrip. Sommige testen bevatten meerdere validiteitsschalen. Sommige onderzoekers stellen dat een responsstijl juist veel kan zeggen over persoonlijkheid en dus niet als error gezien hoeft te worden. Costa en McCrea, de ontwikkelaars van de NEO Personality Inventory, stellen dat validiteitsschalen maar beter buiten testen gelaten kunnen worden. Ze stellen dat de items op validiteitsschalen ook gewoon oprechte, accurate zelfbeschrijvingen kunnen representeren. Volgens hen kunnen de antwoorden op een test voldoende gevalideerd worden door externe bronnen. Hierbij ontstaat wel de kans op vertekening, die tegengegaan moet worden door de training van de beoordelaars.

Waar?

Waar worden persoonlijkheidsassessments afgenomen? Scholen, klinieken, ziekenhuizen, laboratoria en organisaties voor beroepsadvies zijn voorbeelden van klassieke settings voor dergelijk onderzoek. Tegenwoordig wordt onderzoek ook wel in de natuurlijke omgeving van het subject gedaan, bijvoorbeeld bij diegene thuis.

Hoe?

Hoe worden persoonlijkheidsassessments opgebouwd en afgenomen?

Focus

Een persoonlijkheidstest kan een heel brede focus hebben en allerlei aspecten van persoonlijkheid meten. De California Psychological Inventory (CPI 434) is een test met een dergelijke brede focus. Bij een smallere focus wordt een aspect van persoonlijkheid gemeten. Een voorbeeld hiervan is een test naar de plaats van controle (locus of control) van iemand. Iemand heeft een interne plaats van controle als hij gelooft dat hij zelf controle heeft over zijn leven. Iemand met een externe plaats van controle gelooft dat de controle over zijn leven grotendeels buiten hemzelf ligt.

Theoretische basis

Sommige testen zijn volledig gefundeerd in een specifieke theorie, andere zijn niet-theoretisch. Een voorbeeld van de eerste is de Blacky Pictures Test, waarbij mensen cartoons moeten interpreteren. De plaatjes zijn ontworpen om bepaalde psychoanalytische concepten te activeren. Een voorbeeld van een niet-theoretische test is de populaire MMPI. Het voordeel van een niet-theoretische test is dat de testgebruiker de resultaten kan interpreteren zoals hij dat wil.

Procedure

Persoonlijkheidsassessment kan op veel verschillende manieren afgenomen worden, bijvoorbeeld door middel van pen-en-papier-tests, interviews, gecomputeriseerde testen, gedragsobservatie, case studies, portfoliodata of fysiologische data.

Methoden kunnen variëren in hun gestructureerdheid. In een gestructureerd interview mag de interviewer alleen de voorgeschreven vragen stellen en daarvan niet te veel afwijken. Taken in assessments kunnen heel duidelijk, gestructureerd en eenduidig zijn. Soms zijn taken juist ambigu en is er weinig structuur. Een voorbeeld hiervan is de Rorsach Test, waarbij deelnemers de vorm van een inktvlek moeten interpreteren. Dezelfde persoonlijkheidstrek kan op verschillende manieren en met verschillende instrumenten gemeten worden. Voor iedere methode geldt dat er een eigen operationele definitie van de gemeten trek gedefinieerd moet worden.

Itemformats

Hieronder staan verschillende veel gebruikte itemformats opgesomd.

  1. Goed/fout-item: hierbij moeten deelnemers aangeven of een bepaalde bewering (over henzelf) al dan niet klopt.

  2. Tweekeuze-item: hierbij moeten deelnemers kiezen of ze iets leuk of niet leuk vinden.

  3. Semantisch differentieel item: hierbij moeten deelnemers op een puntenschaal aangeven waar ze staan ten opzichte van een bipolair item (bijvoorbeeld warm ****** koud).

  4. Gedwongen keuze-format: hierbij moeten deelnemers een keuze maken tussen twee (beiden even sociaal wenselijke) items.

  5. Adjectievenchecklist: hierbij moeten deelnemers aangeven welke woorden wel en welke niet op hen van toepassing zijn.

  6. Zinnen afmaken: hierbij moeten deelnemers open plekken in een bewering invullen (‘ik voel me alsof...’).

  7. Ingebedde figuren: hierbij gaat het om het herkennen van een klein figuur dat ‘verstopt’ is in een groot figuur. Dit format meet veldafhankelijk of veldonafhankelijk denken.

  8. Inktvlek: hierbij moeten deelnemers de ambigue vorm van een inktvlek interpreteren.

  9. Handtest: hierbij moeten deelnemers ambigue handgebaren interpreteren.

Referentiekader

De contextuele aspecten van het onderzochte onderwerp, zoals tijd, relevante gebeurtenissen, mensen en plaatsen, vallen onder het referentiekader. Het meest gemeten referentiekader is hoe iemand zichzelf op het moment ziet. Zelfrapportage over deze referentiekaders is een manier om informatie over staten en trekken te verkrijgen. Een voorbeeld van een test die referentiekaders meet is de Q-sort. Bij deze door Stephenson ontwikkelde test moeten mensen kaarten met bepaalde items op volgorde leggen van welke het meest op hen van toepassing zijn. Deze test kan gebruikt worden om te bekijken hoe mensen zichzelf zien of hoe ze zouden willen zijn. Carl Rogers gebruikte de Q-sort om de discrepantie tussen hoe mensen zichzelf zien en hoe ze zouden willen zijn te identificeren. In zijn therapievorm trachtte hij deze discrepantie te verkleinen. Andere meer specialistische Q-sorts zijn de Leadership Q-test, waarbij mensen hun leiderschapskwaliteiten moeten aangeven, en de Tyler Vocational Classification System, waarbij mensen moeten aangeven welke beroepen hen het meeste aanspreken. Het voordeel van de Q-sort is dat het aangepast kan worden voor gebruik voor veel verschillende doeleinden populaties. Andere manieren om referentiekaders te meten zijn de checklist en het format waarbij zinnen afgemaakt moeten worden. Bij een adjectievenchecklist moeten mensen aangeven welke woorden op hen van toepassing zijn.

Scoring en interpretatie

Hoe bepaalde data verkregen wordt hangt af van de gebruikte methode. Soms worden resultaten met de hand gescoord en soms door de computer.

Soms wordt de data nomothetisch benaderd en soms idiografisch. Bij de nomothetische benadering wordt getracht om een vast aantal persoonlijkheidstrekken op iedereen toe te passen. Testresultaten zullen geïnterpreteerd worden in termen van die vaststaande trekken. Bij de idiografische benadering wordt een individuele, unieke constellatie van trekken geïdentificeerd, zonder die te veralgemeniseren. Deze benadering is flexibeler en kan indien nodig nieuwe trekken benoemen. De scores kunnen op interindividueel of intra-individueel niveau worden geïnterpreteerd. In het eerste geval wordt een individuele score vergeleken met scores van anderen (normatieve benadering). In het tweede geval is er sprake van een ipsatieve benadering en wordt de aanwezigheid van een trek afgemeten aan de aanwezigheid van andere trekken in het individu.

Kwesties in de ontwikkeling en het gebruik van persoonlijkheidstests

Persoonlijkheidsassessment die enkel berust op zelfrapportage kent twee kanten van de medaille. Aan de ene kant is de informatie afkomstig van ‘de bron’ zelf. Respondenten kennen zich over het algemeen beter dan anderen in hun omgeving en zouden om die reden onderzoekers van juiste informatie over zichzelf moeten voorzien. Echter, de onderzoeker die de informatie vervolgens gebruikt, weet nooit zeker of de zelfgerapporteerde informatie geheel, deels, niet echt of helemaal niet waar is. Door het inbouwen van valditeitsschalen in zelfrapportage tests hebben testontwikkelaars geprobeerd om te gaan met dit potentiële probleem. Het toepassen van deze valditeitsschalen in persoonlijkheidsvragenlijsten is echter niet volgens iedereen een gewenste methode.

Taal en cultuur

Ook als de persoon uit een andere cultuur afkomstig is dan de cultuur waarin de test ontwikkeld is kunnen er problemen ontstaan. Als de test vertaald is meten de items in de vertaalde versie mogelijk andere dingen dan in de originele versie. Sommige concepten laten zich nu eenmaal moeilijk vertalen. Ook kan de persoonlijkheidstrek die gemeten wordt in een andere cultuur een andere inhoud hebben. Bij de interpretatieprocedure moet men zich afvragen of de normen ook toepasbaar zijn op de persoon uit de andere cultuur. Als culturele minderheden niet zijn meegenomen in de standaardiseringsprocedure betekent dit niet automatisch dat de test niet generaliseerbaar is. Er moet wel reden zijn om aan te nemen dat dit het geval is.

Het ontwikkelen van instrumenten voor persoonlijkheidassessment

Er zijn verschillende methoden die gebruikt worden bij het ontwikkelen van instrumenten bij persoonlijkheidsassessment. Zo wordt er gebruik gemaakt van logica, theorie, data reduceringsmethoden en van criteriumgroepen.

Logica

Testitems worden vaak ontwikkeld door logisch denken. Dit wordt wel een inhoud-georiënteerde benadering van testontwikkeling genoemd. Bij een diagnostische test zou je bijvoorbeeld kunnen kijken naar de DSM criteria en daar simpelweg vragen over formuleren. Een dergelijke benadering van testontwikkeling werd al gebruikt in de Eerste Wereldoorlog toen rekruten onderzocht werden op psychische problemen door middel van de Personal Data Sheet (zie ook hoofdstuk 2). De voordelen van een op een dergelijke manier opgezette test zijn dat de ontwikkeling ervan goedkoop en snel is, dat er geen getrainde professional nodig is voor de afname en dat de scoringsprocedure gemakkelijk gecomputeriseerd kan worden. Dergelijke instrumenten zijn nuttig in klinische settings, waar bezuinigingen deel uitmaken van het beleid. Items die op grond van logica gevormd worden vergen ervaring van de testontwikkelaar en achtergrondkennis van het gemeten construct of de psychologische theorie erachter.

Theorie

Zoals eerder gezegd is de ene test sterker gefundeerd in een theorie dan de andere. Iteminhoud kan afhangen van een theorie. Een psychoanalyticus zou andere vragen stellen om anorexia te meten dan een cognitieve gedragstherapeut. Een ander voorbeeld van een test die duidelijk gebaseerd is op een specifieke theorie is de Self-Directed Search, gebaseerd op de theorie van Holland over beroepspersoonlijkheid. De test meet welke persoonlijkheid je hebt en hieruit volgt welk beroep het beste bij je past.

Data-reductiemethoden

Data-reductiemethoden zijn statistische technieken zoals factoranalyse. Hierbij wordt het minimum aantal variabelen (factoren) geïdentificeerd waaronder de geobserveerde fenomenen vallen. Dit is vergelijkbaar met het onderbrengen van alle kleuren in drie primaire kleuren. Bij persoonlijkheidsonderzoek wordt getracht om alle persoonlijkheidstrekken te reduceren tot een aantal primaire trekken.

Maar hoeveel moeten dat er zijn? Cattell kwam uit op een totaal van 16 factoren. In zijn onderzoek identificeerde hij eerst alle woorden voor persoonlijkheidstrekken uit de Engelse taal. Hierover voerde hij een aantal factoranalyses uit, waardoor hij uitkwam op 36 oppervlaktetrekken. Deze vielen volgens hem onder 16 basisdimensies, zogezegd de bronnen van de oppervlaktetrekken. Op basis van deze theorie ontwikkelde Cattell de 16 Personality Factor Questionnaire.

Uit onderzoek bleek echter dat deze zestien factoren onderling nog sterk correleerden, en daarom tot minder gereduceerd konden worden. Eysenck reduceerde het aantal trekken tot drie. Anderen kwamen uit op vier tot zeven trekken. Op dit moment zijn de vijf-factormodellen het meest in gebruik. Hoewel Cattell zelf ook vijf factoren extraheerde uit zijn 16 factoren, is het vijf-factormodel van Costa en McCrae het meest gebruikte.

Big Five

Het vijf-factormodel van Costa en McCrae, het ‘Big Five’ model, wordt gemeten door middel van de Revised NEO Personality Inventory (NEO PI-R). NEO staat voor de eerste drie gemeten dimensies: neuroticisme (emotionele stabiliteit), extraversie (sociabiliteit en assertiviteit) en openheid (voor ervaring, verbeelding en intellect). De laatste twee dimensies zijn gemoedelijkheid (sympathie en altruïsme) en consciëntieusheid (georganiseerdheid).

Criteriumgroepen

Een criterium is een standaard op grond waarvan iemand beoordeeld kan worden of op grond waarvan een beslissing genomen kan worden. Een criteriumgroep is een groep waarvan de score geldt als criterium op grond waarvan items al dan niet in de uiteindelijke versie van de schaal worden opgenomen. Het gebruiken van een criteriumgroep bij testontwikkeling wordt empirische criteriumscoring genoemd, omdat itemscores empirisch bewezen onderscheid kunnen maken tussen groepen testmakers. Het proces van empirische criteriumscoring bestaat uit verschillende stappen. Ten eerste wordt er een itempool gecreëerd. Deze hoeft niet eens op logica of theorie gebaseerd te zijn: later zal blijken of de items zinvol zijn. Deze items worden afgenomen bij twee groepen: een criteriumgroep waarvan bekend is dat die het gemeten construct bezit en een willekeurige steekproef. Vervolgens wordt een itemanalyse uitgevoerd. De items die het beste onderscheid maken tussen de criteriumgroep en de andere groep worden opgenomen in de uiteindelijke versie van de test. Tenslotte worden de scores van de willekeurig geselecteerde groep gestandaardiseerd en als normreferenties gebruikt voor toekomstige testmakers.

Voorbeeld van een test met criteriumgroepen: de MMPI

In de jaren ’30 wilde men een test ontwikkelen die de betrouwbaarheid van de psychiatrische diagnose zou verbeteren. Hiervoor werd een empirische criteriumscoringsprocedure gebruikt. Eerst werden items verzameld en die werden afgenomen bij groepen mensen van wie de psychiatrische diagnose vaststond en bij een controlegroep (bij wie geen psychiatrische diagnose was vastgesteld). De items die het beste onderscheidden tussen deze groepen werden opgenomen in de test. De uiteindelijke versie werd de Medical and Psychiatric Inventory genoemd. Dat veranderde later in de Minnesota Multiphasic Personality Inventory (MMPI). Hoewel er aanvankelijk weinig belangstelling was voor deze test wordt hij tot op heden gezien als één van de meest gebruikte en populaire testen ooit. Hieronder wordt deze eerste versie van de MMPI behandeld en daarna verschillende herzieningen en nieuwe versies.

MMPI

De eerste versie van de MMPI werd ontwikkeld door Hathaway en McKinley voor psychiatrisch-diagnostische doeleinden. De klinische schalen die gemeten werden waren onder andere hypochondrie, depressie, hysterie, psychopathische afwijking en paranoia.

De items werden zoals gezegd afgenomen bij een psychiatrische groep en een normale controlegroep; een groep die niet in het bezit was van de onafhankelijke variabele (zoals in een experiment de controlegroep de behandeling niet ondergaat). Deze groep van 1500 personen werd ook als standaardiseringssteekproef gebruikt. De gediagnosticeerde groepen in de criteriumgroep waren veelal klein en bij sommige schalen waren het niet eens psychiatrische patiënten. Bij de schaal sociale introversie werden introverte studenten gebruikt. De masculiene-feminiene schaal was ontworpen om homoseksualiteit of heteroseksualiteit te meten, maar bleek uiteindelijk mannelijkheid of vrouwelijkheid te meten.

De MMPI bestond uit een grote hoeveelheid goed/fout-items. De test bevatte ook verschillende validiteitsschalen om te controleren voor responsstijlen. De leugenschaal bevatte items die enigszins negatief waren, maar voor alle mensen golden. Een voorbeeld hiervan is bijvoorbeeld ‘ik lieg wel eens.’ Als mensen een dergelijke vraag ontkennend beantwoorden kan worden vermoed dat ze liegen. De frequentieschaal stelt vragen over dingen die zelden voorkomen. Als iemand stelt dat alle wetten het beste maar overboord gezet kunnen worden, kan verwacht worden dat hij de test niet serieus heeft genomen en de vragen willekeurig aan het beantwoorden is. De correctieschaal meet of mensen aan indrukbeheer doen of zich defensief gedragen. Een lage score indiceert overdreven zelfkritiek of “faking bad”. De ‘weet-niet’-schaal meet hoe vaak iemand het ‘weet-niet’ alternatief heeft ingevuld of de hele vraag heeft overgeslagen. Dit zou onzorgvuldigheid, onverschilligheid of besluiteloosheid kunnen indiceren. Als een groot aantal items onbeantwoord is gebleven is de test niet interpreteerbaar.

De MMPI genereert gestandaardiseerde scores (met een gemiddelde van 50 en een standaarddeviatie van 10) op verschillende schalen. Er zijn inhoudschalen, bestaande uit groepen items met gelijke inhoud, bijvoorbeeld ‘depressie.’ Dan zijn er nog honderden aanvullende schalen ontwikkeld, bijvoorbeeld voor alcoholisme of ego. Voorbeelden zijn de Harris-Lingoes subschalen, die ontwikkeld werden om een grotere interne consistentie te hebben dan de grote schalen waarvan ze afgeleid waren. Hoewel de afname op verschillende manieren kan gebeuren wordt het scoren bijna altijd met de computer gedaan. De computer kan numerieke of grafische weergaves van de scores genereren.

Een moeilijkheid met de MMPI was dat als iemand op twee pathologische schalen hoog scoorde, er geen duidelijke richtlijnen waren om te besluiten welke diagnose hij dan moest krijgen. Hathaway en McKinley stelden voor om de scores ‘geconfigureerd’ te interpreteren, dat wil zeggen dat de het hele scoringspatroon meegenomen moest worden. De procedures hiervoor waren echter erg ingewikkeld. Meehl stelde een makkelijkere methode voor, namelijk om de score tweeledig te laten. Er zou een code gegeven worden met als eerste het schaalnummer waar het hoogst op gescoord werd en als tweede het schaalnummer waar daarna het hoogst op gescoord werd. Een ‘hoge’ score werd gedefinieerd als twee standaarddeviaties boven het gemiddelde. Als iemand daar niet aan voldeed werd zijn score in de code van Meehl aangegeven met een accentteken (‘). Een andere scoringmethode was de Welsh-code, die informatie geeft over de MMPI score op de klinische en validiteitschalen.

MMPI-2

De MMPI werd herzien in de MMPI-2. 14% van de items werden herschreven, bijvoorbeeld om het taalgebruik aan te passen. Er werden nieuwe items toegevoegd die onderwerpen zoals drugsmisbruik, suïcidaliteit en huwelijkstevredenheid besloegen. De MMPI-2 is geschikt voor gebruik vanaf 18 jaar (de MMPI kon al vanaf 14 jaar). De tien klinische schalen bleven hetzelfde, maar er werden nieuwe inhoud componenten toegevoegd. Behalve de drie bestaande validiteitsschalen werden er nog drie toegevoegd. De Back-Page Infrequency Scale moet inconsistente responsstijlen aan het einde van de test meten, als iemands aandachtsspanne aan zijn eind is gekomen.

De True Response Inconsistency Scale meet of iemand hetzelfde item twee keer hetzelfde beantwoordt, bijvoorbeeld als een item andersom verwoord wordt. Als iemand de eerste keer ‘ja’ antwoordde, moet hij nu ‘nee’ antwoorden. De Variable Response Inconsistency Scale werkt op een vergelijkbare manier. De items zijn hierbij echter niet omgekeerd geformuleerd, maar zijn hetzelfde of bijna hetzelfde. De Superlatieve schaal meet of mensen zich beter voordoen dan ze zijn. De scoringsprocedure werd ook iets aangepast. De meeste schalen behielden dezelfde lineaire T-scoring, maar acht klinische schalen werden gestandaardiseerd met uniforme T-scores. Hiermee werden T-scores getransformeerd tot ze aansloten bij percentielen. De belangrijkste hervorming in de MMPI-2 was echter de introductie van een nieuwe normgroep. Er was veel kritiek gekomen op de representativiteit van de aanvankelijke standaardiseringssteekproef. De nieuwe steekproef werd gestratificeerd op alle relevante kenmerken en bevatte dus ook niet-blanken. De leeftijdsgroep strekte zich uit van 18 tot 85 jaar.

MMPI-2-RF

De test bevatte op dit punt nog steeds problemen. Een belangrijk probleem was dat veel items elkaar overlapten. Dit reduceerde de onderscheidbaarheid en de discriminante validiteit van de items en gaf moeilijkheden met het interpreteren van een hoge score op een schaal. Tevens bleken de klinische schalen elkaar te overlappen. Ze correleerden en leken allemaal onder één enkele factor te vallen, die wisselend wanhoop, malaise, angstigheid, verstoordheid of demoralisatie werd genoemd. Demoralisatie is kenmerkend voor iedere psychopathologie. Tellegen stelde dat het deze factor was die de correlaties tussen verschillende klinische vragenlijsten te groot deed lijken. Tellegen en zijn collega’s stelden zich daarom het doel om de klinische schalen te herstructureren. Ze trachtten de kerncomponenten van iedere schaal te identificeren en de schaal zo aan te passen dat die alleen die componenten mat. Op die manier werd een nieuwe set van herziene schalen gevormd. Tevens werd geprobeerd om alle demoralisatie-items uit de schalen te halen en er een nieuwe schaal van te vormen. Ook werden er andere nieuwe schalen gevormd die niet gemeten werden in de bestaande schalen, zoals suïcidaliteit. Ook werden er drie overkoepelende schalen geformuleerd om te helpen bij de interpretatie: disfunctioneren in emoties, gedachten en gedrag. De herstructurering bleek psychometrisch kloppend en had zowel de convergente als de discriminante validiteit verbeterd.

Er is wel kritiek gekomen op de herstructurering van de populaire MMPI-2. Nichols stelde bijvoorbeeld dat Tellegen te ver was gegaan door de demoralisatiefactor uit de klinische schalen te extraheren. Hij stelde dat deze factor essentieel (een kerncomponent) was voor bijvoorbeeld de depressieschaal en dat deze door de herstructurering veel minder valide was geworden. Deze kritiek is bijvoorbeeld beantwoord met de opmerking dat de depressieschaal helemaal niet bedoeld is om alle depressiesymptomen te dekken.

MMPI-A

Het bleek al snel dat adolescenten als groep hoger scoorden op de eerste versie van de MMPI dan volwassenen. In eerste instantie werden er aparte normen voor adolescenten ontwikkeld, maar ten tijde van de ontwikkeling van de MMPI-2 besloot men om een aparte versie voor adolescenten te creëren. Dit werd de MMPI-A. Deze schaal loopt grotendeels parallel aan de MMPI-2, hoewel enkele items zijn verworpen, herschreven of toegevoegd. De test is geschikt voor mensen van 14 tot 18 jaar. De test bevat dezelfde tien klinische schalen en zes validiteitsschalen als de MMPI-2. Daar zijn nog zes aanvullende schalen (voor onder andere drugsgebruik), vijftien inhoudschalen (waaronder gedragsproblematiek), achtentwintig Harris-Lingoes-schalen en drie sociale introversieschalen aan toegevoegd. Ook voor deze test zijn normen ontwikkeld aan de hand van een gestratificeerde steekproef. Er werd echter geen moeite gedaan om een representatieve klinische steekproef te verkrijgen.

Toekomst van de MMPI

Weinig psychologische tests zijn bekender dan de MMPI. Veel zwakheden in de test zijn ontdekt en opgelost, en dit proces is nog steeds gaande. De MMPI zal nog herhaaldelijk gestructureerd en vernieuwd worden om ervoor te zorgen dat hij gebruikt kan blijven worden. Op dit moment bestaat er controverse over het gebruik van de MMPI bij minderheden. Hoewel de MMPI-2 geschikt bleek voor bepaalde minderheden, bleek ook dat pathologie bij Afrikaanse Amerikanen onderschat werd. Over de MMPI-2-RF is nog geen data beschikbaar.

Persoonlijkheidsassessment en cultuur

Zoals al vaker gesteld in het boek, is niet iedere test zomaar toepasbaar op mensen uit andere culturen. Zeker als in de standaardiseringssteekproef geen rekening gehouden wordt met minderheden kan men zich afvragen of de test bruikbaar is voor deze groepen. Het is dan ook van essentieel belang om acculturatie, identiteit, waarden, wereldvisie en taal van tevoren te onderzoeken. Deze informatie is van belang voor de assessment, maar kan ook al informatie verschaffen over de persoonlijkheid van een persoon.

Acculturatie

Een groot aantal vragenlijsten is ontwikkeld om de mate van acculturatie aan de minderheids- of meerderheidscultuur te meten. Het proces waarbij iemands gedachten, gedragingen, waarden, wereldvisie en identiteit zich vormen naar die van een culturele groep wordt acculturatie genoemd. Dit proces begint bij de geboorte of bij migratie naar een andere cultuur. Door acculturatie ontwikkelt men langzamerhand een cultureel geaccepteerde manier van denken, voelen en gedragen. Als je iemands acculturatie wilt meten kun je vragen naar zijn waarden (welke tradities zijn belangrijk, wat zou de maatschappelijke rolverdeling moeten zijn, welke religieuze gedachten houdt iemand erop na), naar zijn identiteit (met welke culturele groep identificeert iemand zich) en naar zijn wereldvisie (hoe ziet iemand de wereld).

Waarden

Waarden zijn die dingen die iemand goedkeurt of de idealen waarin iemand gelooft. Volgens Rokeach zijn er instrumentele waarden en terminale waarden. Instrumentele waarden zijn principes die iemand helpen om iets te bereiken. Ambitie en eerlijkheid vallen hieronder. Terminale waarden zijn principes en gedragingen die een doel op zich vormden. Voorbeelden hiervan zijn zelfrespect of een opwindend leven. Andere manieren om waarden te categoriseren is door te kijken naar waarden in specifieke contexten, zoals de werkvloer. Volgens Kluckhohn zijn waarden de antwoorden op de belangrijkste vragen van een beschaving. Deze antwoorden kunnen op verschillende manieren gegeven worden, waardoor verschillende waarden ontstaan in culturen.

Identiteit en wereldvisie

De cognitieve en gedragskenmerken aan de hand waarvan iemand zichzelf identificeert als lid van een bepaalde groep wordt in deze context identiteit genoemd. Identificatie is het proces waarbij iemand gedragspatronen overneemt die kenmerkend zijn voor andere mensen, bijvoorbeeld voor de meerderheidscultuur. Identiteit kan gemeten worden door iemand te vragen naar zijn etnische achtergrond. Het is bijvoorbeeld veelzeggend als iemand zich op defensieve wijze identificeert als lid van de meerderheidscultuur. Wereldvisie staat voor de unieke manier waarop mensen hun wereld interpreteren als consequentie van hun culturele achtergrond en leerervaringen.

Welke technieken zijn er om persoonlijkheidsassessments uit te voeren? - Chapter 13

 

In dit hoofdstuk worden methoden en technieken beschreven aan de hand waarvan persoonlijkheid gemeten kan worden.

Objectieve methoden

Objectieve methoden voor persoonlijkheidsassessment bevatten meestal items met korte meerkeuze-antwoorden. De scoring vergt geen oordeel van de scorer en verloopt via vaste voorschriften. Bij een vaardigheidstest wordt een item als correct of incorrect gescoord, bij een persoonlijkheidstest als indicatief voor de aanwezigheid van een bepaalde persoonlijkheidstrek of als niet-indicatief. Als de respondent ‘waar’ heeft geantwoord op elkaar tegensprekende items en op frequentie-items, kan de validiteit van het responspatroon in twijfel getrokken worden. Objectieve persoonlijkheidstesten hebben dezelfde voordelen als objectieve vaardigheidstesten: ze zijn gemakkelijk en snel af te nemen en te scoren en ze laten weinig ruimte voor interpretatie van de scorer. In die zin zijn dergelijke testen dus objectief. Echter, in de zin dat testen gebaseerd kunnen zijn op invalide constructen kan een objectieve test net zo goed subjectief zijn. Ook is het maar de vraag of de respondent ook objectief antwoord geeft. Het is mogelijk dat iemand gebrekkig zelfinzicht heeft of probeert hij zichzelf in een beter of slechter licht te plaatsen. Een ‘objectieve methode’ refereert dus eerder aan een testformat dan aan de validiteit van de methode.

Projectieve methoden

De projectieve hypothese stelt dat een individu structuur projecteert op een ongestructureerde stimulus op een manier die in overeenstemming is met zijn bewuste en onbewuste behoeften, angsten, verlangens, impulsen, conflicten en waarnemingen. Iemand interpreteert een ambigue stimulus dus op een manier die in overeenstemming is met zijn persoonlijkheid. De projectieve methode is een methode waarbij iemands persoonlijkheid gemeten wordt door te kijken naar de manier waarop hij ongestructureerde stimuli interpreteert. Deze ambigue stimulus kan vele vormen aannemen. Bij deze methode worden onder anderen wolken, inktvlekken, plaatjes, woorden en tekeningen gebruikt als stimuli.

Voordelen van projectieve methoden

De projectieve methode heeft veel voordelen. De meting van persoonlijkheid is indirect en er is een verminderde mogelijkheid en wil om onechte responsies te geven. Er zijn slechts minimale taalvaardigheden nodig voor de afname van projectieve testen, wat ze geschikter maakt voor afname bij verschillende culturele groepen dan objectieve testen. Een ander belangrijk voordeel is dat projectieve testen ook iets zeggen over de inhoud van het onbewuste, terwijl objectieve testen alleen de inhoud van het bewuste representeren. Projectieve testen ontstonden uit protest tegen normatieve data en de pogingen van onderzoekers om persoonlijkheid op te delen in algemene componenten. Projectieve testen richten zich op de unieke aspecten van het individu en benaderen hem vanuit een klinisch perspectief. Niettemin worden responsies op projectieve testen in toenemende mate via normreferenties geïnterpreteerd.

Inktvlekken als projectieve stimuli

Rorschach ontwikkelde begin 20ste eeuw een ‘vorm-interpretatietest,’ waarbij hij inktvlekken als de te interpreteren vorm introduceerde. In zijn publicatie suggereerde hij dat deze test gebruikt kon worden bij persoonlijkheidsassessment. Hij deed case studies naar gezonde mensen en psychiatrische patiënten om zijn test te illustreren.

Of de Rorschach echt een test genoemd mag worden is controversieel. Onderzoekers stelden bijvoorbeeld dat het een gestructureerd interview was. Exner stelde dat de Rorschach in ieder geval geen projectieve test was, omdat de stimuli niet ambigu genoeg waren en niet per definitie projectie afdwingen.

Afnameprocedure

De Rorschach bestaat uit tien symmetrische inktvlekken die elk op een aparte kaart staan. Vijf hiervan zijn zwart-wit, twee zwart-wit met rood en drie zijn in kleur. Er worden geen instructies voor afname, scoring of interpretatie bij de test geleverd. De kaarten worden eerst één voor één aan de persoon laten zijn. De persoon moet dan zeggen wat hij erin ziet. De testgebruiker heeft veel vrijheid, hij mag bijvoorbeeld de kaarten roteren en de lengte van de responsies variëren. Hij noteert alle relevante informatie, waaronder de verbale en non-verbale responsies en de tijd die het iemand kost om een interpretatie te bedenken. De testgebruiker gaat niet in op de responsie, zodat de persoon zoveel mogelijk ruimte gegeven wordt om zonder afleiding zijn gedachten op de stimulus te projecteren. Na deze eerste afname volgt een vraaggesprek (inquiry) waarbij de onderzoeker tracht te achterhalen wat maakte dat het subject zijn waarneming (percept) op deze manier formuleerde. Het is een poging om te verduidelijken welke aspecten van de inktvlek een rol speelden bij de waarneming. Dit geeft extra informatie die meegenomen kan worden in de scoring en interpretatie. Na het vraaggesprek kan er nog een derde procedure volgen: grenzen testen. Hierbij kan nog extra aanvullende informatie verkregen worden. Er kan vastgesteld worden of er iets onduidelijk was voor het subject. Ook kan gekeken worden of het subject dezelfde waarneming heeft als de onderzoeker een nieuw referentiekader verschaft. Ook wordt gekeken of het verschaffen van structuur het subject kan helpen.

Scoring

Rorschach-testen kunnen worden gescoord op basis van een aantal variabelen, zoals responstijd, locatie, determinanten, inhoud, populariteit en vorm. De locatie refereert aan het deel van de tekening op grond waarvan de waarneming wordt gevormd. De determinanten zijn die kenmerken die maken dat iemand tot een bepaalde waarneming komt.

De inhoud is de aard van de interpretatie (bijvoorbeeld een dier of bloed). De populariteit van de respons is de mate waarin het figuur vaker op deze manier geïnterpreteerd wordt. De vorm is de mate waarin iemands waarneming adequaat overeenkomt met aspecten van de inktvlek. Deze scoringscategorieën zouden verschillende aspecten van persoonlijkheid weerspiegelen. Het aantal volledige responsies zou staan voor iemands conceptuele denkvermogen en de vorm voor psychoticisme. Een inhoud van menselijke beweging staat bijvoorbeeld voor creativiteit. Responspatronen, terugkerende thema's en relaties tussen verschillende scoringscategorieën worden allemaal meegenomen in de uiteindelijke beschrijving van de persoon.

Betrouwbaarheid en validiteit

Rorschach stierf kort na zijn publicatie van zijn test, die toen nog in de kinderschoenen stond. Vanaf dat moment werd de test door iedere gebruiker op zijn eigen manier toegepast en geïnterpreteerd. 'De' Rorschach bestond niet: er waren verschillende criteriasystemen in omloop waarvan iedere onderzoeker gebruikte wat hij nodig had. Vanwege deze feiten is het moeilijk om betrouwbaarheid en validiteit van de test te berekenen. Exner trachtte een integratieve 'comprehensieve methode' te ontwikkelen waarmee de Rorschach benaderd kon worden. Dit systeem wordt tot op heden het meest gebruikt bij de Rorschach. Ondanks deze grotere uniformiteit is het nog steeds moeilijk om betrouwbaarheid- en validiteitsschattingen te maken. Split-half-betrouwbaarheid is bijvoorbeeld ongepast vanwege de unieke kwaliteit van iedere stimulus. Test-hertest is ook geen zinvolle methode, aangezien iemand de tweede keer bekend zou zijn met de stimuli.

Bovendien zou de Rorschach staten kunnen meten in plaats van trekken, waardoor er lage betrouwbaarheidscoëfficiënten verkregen zouden worden. De tussen-scorers-betrouwbaarheid is wel sterk verbeterd door het systeem van Exner. Echter, vanwege de complexe aard van de Rorschach blijft het ingewikkeld om standaardprocedures te ontwikkelen en toe te passen. Uit een meta-analyse bleek dat de Rorschach ongeveer even goed werkte als de MMPI als ze voor de juiste doelen ingezet wordt. Of een test valide is, hangt maar net af van het doel van de testgebruiker. De Rorschach blijft één van de meest gebruikte psychologische testen, maar ontvangt nog altijd niet het academische respect dat veel andere, objectieve testen krijgen.

Plaatjes als projectieve stimuli

In plaats van inktvlekken kunnen in projectieve testen ook plaatjes (foto's, tekeningen, schilderijen) gebruikt worden. Aan het begin van de vorige eeuw gebruikte men plaatjes om sekseverschillen in persoonlijkheid te onderzoeken. Meisjes bleken bijvoorbeeld meer geïnteresseerd in religieuze en morele thema's. Ook werden projectieve testen met plaatjes gebruikt om de verbeelding van kinderen te onderzoeken.

Thematic Apperception Test (TAT)

De TAT van Morgen en Murray werd in eerste instantie ontwikkeld om materiaal los te krijgen voor psychoanalyse. De test bevat 30 kaarten met ambigue plaatjes, meestal met mensen erop. Sommige plaatjes zijn zo realistisch als foto's, andere zijn surrealistische tekeningen. Het subject moet een verhaal vertellen over de gebeurtenissen die geleid hebben tot de scene in het plaatje en moeten vertellen hoe het gaat aflopen. Tevens moeten de gevoelens en gedachten van de personen in het plaatje beschreven worden. Er is ook één lege kaart, waarvoor de proefpersonen zelf een plaatje met een bijbehorend verhaal mogen bedenken. 'Apperceptie' betekent waarnemen in termen van verleden waarnemingen.

Iemands waarneming is dus gebaseerd op vroegere ervaring. De testgebruiker kan proberen die vroegere ervaringen te achterhalen.

De testgebruiker heeft een aantal vrijheden bij de testafname, -scoring en -interpretatie. Zo kan hij zoveel kaarten gebruiken als hij nodig acht en zelf de gebruikte kaarten selecteren. Sommige kaarten worden aangeraden voor gebruik bij volwassen mannen, volwassen vrouwen of kinderen, maar de testgebruiker kan iedere kaart selecteren die hij wil. Op grond van de verhalen die het subject vertelt, de aantekeningen over hoe het subject tot zijn antwoorden kwam en de aantekeningen over het extra-testgedrag worden conclusies gevormd.

Analyse van de verhalen van het subject vereist speciale training van de onderzoeker. Er bestaan verschillende systemen aan de hand waarvan verhalen geïnterpreteerd kunnen worden. De meeste daarvan gaan uit van Murray's theorie over behoeften (determinanten van gedrag vanuit de persoon zelf), druk (determinanten van gedrag van buiten de persoon) en thema (een interactie tussen behoeften en druk). Het idee van de TAT is dat mensen hun eigen behoeften projecteren op de personen in de plaatjes en dat deze behoeften zodoende geïdentificeerd kunnen worden. William Henry onderzocht alle kaarten op variabelen zoals manifeste stimulusvereisten (van welke elementen uitleg in ieder geval nodig is), vormvereisten (welke details in het verhaal geïntegreerd moeten worden), latente stimulusvereisten (welke elementen in de interpretatie aanwezig zouden moeten zijn), frequente uitleggen (hoe de meeste mensen het plaatje interpreteren) en significante variaties (welke afwijkingen van de frequente uitleg als opvallend gelden).

Vanwege het gebrek aan standaardisering van de afname, scoring en interpretatie van de TAT kan er niet veel gezegd worden over de validiteit en betrouwbaarheid van de test. Situationele factoren en interne staten kunnen bovendien invloed hebben op de testscores. Ook blijkt dat kaarten verschillende latente stimulusvereisten hebben: de ene kaart stuurt het subject in een andere richting dan de andere. De kaarten zijn dus niet helemaal ambigu en neutraal.

Dat maakt het onmogelijk om tussen-item-betrouwbaarheid uit te rekenen. Wel blijkt de tussen-scorers-betrouwbaarheid vaak groot te zijn. Het bleek dat de TAT scores nauwelijks correleerden met scores op vragenlijsten over motieven en behoeften. Dit zou niet door gebrekkige validiteit van de TAT komen, maar doordat de TAT impliciete motieven meet en een vragenlijst expliciete motieven. Een impliciet motief is een onbewuste invloed op gedrag. Een studie van Peterson ondersteunde de projectieve hypothese en het gebruik van de TAT. Het bleek dat een bepaalde persoonlijkheidstrek suïcidale motieven in TAT verhalen voorspelde. Mensen met deze trek reageerden ook sterker op liedjes met zelfmoordmotieven in de songtekst. Ook bleek dat deze liedjes voor gemoedelijke mensen meer prosociale motieven losmaakten in de TAT verhalen. Hoewel er dus geen bewijs is voor de psychometrische juistheid van de test, wordt de test veel gebruikt vanwege zijn nut in het klinische veld.

Andere projectieve testen met plaatjes als ambigue stimuli

In de Handtest moeten proefpersonen plaatjes van handen interpreteren. De proefpersoon moet dus aangeven wat de handen op de plaatjes doen. Antwoorden worden geïnterpreteerd met behulp van 24 categorieën, waaronder affectie en agressie. In de Rosenzweig Picture-Frustration Study worden plaatjes aangeboden met mensen in een frustrerende situatie. Het subject moet vertellen hoe de persoon om zal gaan met de situatie. De responsies worden geïnterpreteerd in termen van de hoeveelheid en de richting van de uitgedrukte agressie.

De agressie kan intropunitief (op zichzelf gericht), extrapunitief (naar buiten gericht) of inpunitief (agressie wordt vermeden). Reacties worden ondergebracht in categorieën als obstakeldominantie (waarbij de respons gericht is op het obstakel), egoverdediging (verdediging van de gefrustreerde persoon) of behoefte-doorzetting (aandacht gericht op oplossen van het probleem). Er wordt een indicatie gegeven in welke mate de respons van het object in overeenstemming is met die van de standaardiseringsgroep.

De Apperceptive Personality Test (APT) tracht belangrijke punten van kritiek op de TAT weg te nemen. Zo representeren de stimuli realistische situaties uit het dagelijks leven, waarbij personen van alle groepen (bijvoorbeeld vrouwen of minderheden) gelijkelijk gerepresenteerd worden. Ook is de emotionele toon neutraler dan die van de TAT, die meer uitnodigt tot negatieve interpretaties. Na ieder verhaaltje moeten meerkeuzevragen ingevuld worden om de respons aan te vullen.

Woorden als projectieve stimuli

Bij projectieve testen kunnen behalve inktvlekken en plaatjes ook woorden gebruikt worden. In dit geval wordt gerefereerd aan semigestructureerde testen omdat er weliswaar ruimte is voor een variëteit aan responsies, maar er ook een duidelijk kader aanwezig is waarbinnen die gegeven moet worden.

Woordassociatietest

Bij een woordassociatietest moet iemand vertellen welke associaties in hem opkomen bij een bepaald woord. Galton introduceerde deze methode. Cattell en Bryant waren de eersten die kaarten gebruikten met de woorden erop. Kraepelin bestudeerde het effect van fysieke staten op woordassociatie. Er kwam steeds meer bewijs voor het feit dat woordassociatie het resultaat was van een interactie tussen levenservaringen, attitudes en persoonlijkheidskenmerken.

Jung stelde dat associaties bij bepaalde woorden iets konden zeggen over mogelijke conflicten of psychische problemen. Dit idee was het uitgangspunt bij de Word Association Test van Rapaport, Gill en Schafer. Hierbij moeten mensen hun eerste associatie bij een woord noemen. De test bestaat uit zowel neutrale als traumatische woorden. De reactietijd wordt opgenomen. In de tweede ronde krijgen mensen dezelfde woorden nog een keer gepresenteerd.

Ze moeten dan hun originele antwoord herhalen. Afwijkingen van eerdere responsies worden genoteerd. In de derde ronde volgt het vraaggesprek waarbij het subject zijn responsies moet toelichten. Responsies werden geëvalueerd in termen van inhoud, populariteit, reactietijd en test-hertest-respons. De scores werden vergeleken met normatieve data, namelijk met een normgroep normale studenten en een normgroep met schizofreniepatiënten. De woordassociatietest wordt niet veel meer gebruikt in klinische settings.

De Kent-Rosanoff Free Association Test bestond uit 100 veelgebruikte, neutrale stimuluswoorden. Op grond van een standaardiseringssteekproef werden frequentietabellen opgesteld aan de hand waarvan psychopathologie geïdentificeerd kon worden. Het bleek bijvoorbeeld dat psychiatrische patiënten minder vaak voor de populaire responsies kozen. Het bleek echter dat responsies door veel meer factoren werden gedetermineerd dan alleen door psychopathologie. Ook bleek dat scores op de vrije associatietest nauwelijks correleerden met scores op andere testen.

Zinnenaanvultest

Bij de zinnenaanvultest moeten lege plekken in zinnen ingevuld of aangevuld worden. Sommige items zijn algemeen en geschikt voor allerlei settings, andere worden ontwikkeld voor specifieke situaties en doelen. Soms is een test volledig gebaseerd op een theorie, soms is hij dat niet. De zinnenaanvultest van Loevinger was gebaseerd op het idee dat mensen een steeds realistischer en persoonlijker zelfconcept ontwikkelen. De validiteit van deze test kon gemeten worden door de scores te vergelijken met die op een andere test. Tussen-scorers-betrouwbaarheid, interne consistente en test-hertest-betrouwbaarheid konden ook gemeten worden en bleken tamelijk hoog te zijn.

Een populaire gestandaardiseerde zinnenaanvultest is de Rotter Incomplete Sentences Blank. Responsies zouden in termen van familiegerelateerde, seksuele, sociale en algemene attitudes en karaktertrekken geïnterpreteerd moeten worden. Iedere respons wordt op een schaal van 'therapie nodig' tot 'zeer goed aangepast' aangegeven. In de handleiding zijn normen opgenomen (overigens alleen voor studenten) en steekproeven van responsies van leden van speciale groepen. De Rotter-test blijkt zowel betrouwbaar als valide. Een belangrijk nadeel is de doorzichtigheid van de test, waardoor hij gevoelig is voor onechte responsies.

Geluiden als projectieve stimuli

Opvallend genoeg was de ontwikkelaar van een projectieve test met auditieve stimuli de beroemde behaviorist Skinner. Hij was geïnteresseerd in het loskrijgen van 'Freudiaans' onbewust materiaal aan de hand van geluiden. Dit waren ambigue spraakgeluiden gegenereerd door een 'verbale summator,' door Rosenzweig later tautofoon genoemd. Later bleek dat de projectieve test nauwelijks onderscheid kon maken tussen een klinische groep en een normale controlegroep. Niettemin werden er verschillende auditieve projectieve testen ontwikkeld, zoals de Auditory Apperception Test. In deze test moesten subjecten verhaaltjes bedenken rondom drie gepresenteerde geluiden. In de Azzageddi test werden gesproken teksten gepresenteerd. Aangezien de responsies niet zo rijk en complex waren als bij andere projectieve testen en omdat er geen bevredigend algemeen scoringssysteem ontwikkeld kon worden werden auditieve projectieve testen steeds minder gebruikt.

Tekenen van figuren

Een snel en gemakkelijk af te nemen projectieve techniek is de analyse van een tekening van het subject, de figuur-tekening-methode. Tekeningen kunnen een grote hoeveelheid hypothesen over het subject opleveren. Ze zouden als bron kunnen fungeren voor onderzoek naar persoonlijkheid, intelligentie, neurologisch functioneren, hand-oogcoördinatie, cognitieve ontwikkeling en leermoeilijkheden.

Draw A Person test (DAP)

Bij deze test moet het subject een tekening produceren die wordt geanalyseerd op inhoud en gerelateerde variabelen. Machover schreef hierover dat mensen min of meer zichzelf tekenen: de figuur is een afspiegeling van hun angsten, conflicten en compensaties. De afname is simpel: iemand wordt gevraagd een persoon te tekenen. Nadat hij dit gedaan heeft, moet hij een figuur van de andere sekse tekenen. Vervolgens worden er vragen over de tekeningen gesteld. In dit proces worden verschillende variabelen geanalyseerd, bijvoorbeeld de tijd die het de persoon kostte om de figuur te tekenen, de plaatsing en de grootte van de figuren, de druk waarmee het potlood gebruikt is, symmetrie, schaduwen, gezichtsuitdrukkingen, houding, verschijning en kleding. De plaatsing van de figuur op het papier zou iets zeggen over hoe de persoon in zijn omgeving functioneert.

Een klein figuurtje aan de onderkant van de tekening zou duiden op een onderontwikkeld zelfconcept. De linkerkant van het papier zou duiden op een gerichtheid op het verleden, de rechterkant op de toekomst. Ook wordt er gekeken naar de kenmerken van de getekende figuur. Grote oren en ogen duiden bijvoorbeeld op paranoïde kenmerken. Een variatie op de DAP-test is de House-Tree-Person test, waarbij mensen een huis, een boom en een persoon moeten tekenen. De manier waarop iemand dit doet zou een symbolische waarde hebben.

Kinetische Familietekening

Een projectieve test die iets zegt over de relatie die iemand heeft met zijn familie is de Kinetic Family Drawing. Hierbij moet iemand zijn gezin tekenen terwijl ieder gezinslid iets aan het doen is. In het vraaggesprek moet het subject de relaties tussen de personen in de tekening toelichten en vertellen wat iedereen aan het doen is. Er bestaan meerdere officiële scoringssystemen voor deze test. Er bestaan variaties op deze test, bijvoorbeeld de Kinetic School Drawing of de Collaborative Drawing Technique, waarbij familieleden de tekening samen moeten maken.

Validiteit van figuur-teken-testen

Machover heeft zelf herhaaldelijk aangegeven dat haar test niet geschikt is voor diagnostische doeleinden. Uit bijvoorbeeld evaluaties van de DAP: SPED bleek dat projectieve testen in veel gevallen onjuist diagnosticeren. Volgens anderen, waaronder Waehler, zijn deze testen wel degelijk nuttig, maar zijn de testen vatbaar voor onechte repsonsies.

Projectieve methoden in perspectief

Hoewel projectieve methoden nog altijd veel worden toegepast, bestaat er zoals gezegd veel kritiek. Lilienfeld et al. concludeerden bijvoorbeeld dat er voor slechts een paar Rorschach- en TAT-indices empirisch bewijs bestaat. Voor figuur-teken-testen werd nog minder bewijs gevonden. Hieronder worden drie belangrijke gebieden van kritiek behandeld: de onderliggende aannames, de situationele variabelen en de psychometrische overwegingen.

Aannames

Murstein had kritiek op veel aannames die ten grondslag liggen aan projectieve testen. Hieronder staan aannames waarop Murstein kritiek heeft geuit.

  • Hoe meer ambigu de stimuli, hoe meer subjecten over hun persoonlijkheid onthullen. Volgens Murstein zijn er situationele variabelen, responsstijlen en allerlei andere factoren die invloed hebben op de respons die alleen maar een grotere rol spelen naarmate de stimuli meer ambigu worden.

  • De gebruikte stimuli zijn volkomen ambigu. Volgens Murstein blijkt uit de overeenstemmingen in (populaire) responsies dat de stimuli niet volledig ambigu zijn en het subject wel degelijk in een bepaalde richting sturen.

  • Projectie wordt groter naarmate het stimulusmateriaal beter afgestemd is op het subject. Deze aanname wordt niet ondersteund door bewijs.

  • Iedere responsie heeft waarde voor persoonlijkheidsanalyse. Volgens Murstein spelen er ook andere factoren mee bij het bepalen van een respons.

  • Er bestaat een relatie tussen de prominentie van een behoefte en de manifestatie daarvan op een projectieve test. Deze aanname wordt niet ondersteund door bewijs.

  • Subjecten zijn zich niet bewust van wat ze over zichzelf vertellen door hun responsies. Het is echter gebleken dat mensen wel degelijk onechte responsies kunnen geven.

  • De resultaten van een projectieve test zegt voldoende over persoonlijkheid om er conclusies aan te kunnen verbinden. Deze aanname wordt niet ondersteund door bewijs.

  • Er is een relatie tussen prestatie op projectieve testen en gedrag in situaties in het dagelijks leven. Deze aanname wordt niet ondersteund door bewijs.

  • Het bewustzijn bestaat en heeft de aard zoals omschreven in de psychodynamica. Over deze aanname is veel discussie geweest.

Situationele variabelen

Volgens voorstanders van de projectieve test zou de test persoonlijkheid meten zonder invloed te hebben op de meting, zoals bij een röntgenapparaat. Situationele variabelen blijken echter wel degelijk invloed te hebben. TAT-verhalen die zonder de aanwezigheid van een onderzoeker zijn geschreven blijken bijvoorbeeld minder optimistisch en meer affectief. Ook de leeftijd van de onderzoeker, de instructies en de subtiele cues die de onderzoeker geeft blijken effect te hebben op projectieve protocollen. Volgens Masling bestaat er stevig bewijs voor de invloed van situationele variabelen op een projectieve test. Tevens stelt hij dat de onderzoeker ook op situationele cues vertrouwt en dat de interpretatie afhangt van de verwachtingen en subjectieve staten van de onderzoeker. In een klinische setting kunnen nog extra variabelen worden toegevoegd, zoals de training van de testgebruiker en de neiging tot indrukbeheer van de onderzochte persoon.

Psychometrische juistheid

Zoals bij iedere projectieve test afzonderlijk al is gebleken moeten betrouwbaarheid en validiteit in de meeste gevallen nog uitgewezen worden. Critici stellen dat de enkele hoge schattingen die naar voren zijn gekomen bepaald zijn door ongecontroleerde variatie, inadequate steekproeven en controlegroepen en slechte externe criteria. Het blijkt moeilijk om betrouwbaarheid vast te stellen; split-half en test-hertest-betrouwbaarheid zijn bijvoorbeeld ongepast om te berekenen. Voorstanders van de methode stellen dat projectieve testen persoonlijkheid als proces meten, waardoor psychometrische juistheid inderdaad niet vast te stellen is.

Objectieve tests, projectieve tests en de betekenis van dichotomie

Zogenaamde objectieve tests worden beïnvloed door verschillende vormen van testbias en zijn daarom lang niet altijd objectief. Tegelijkertijd zijn projectieve tests vaak lang niet zo projectief als wordt gepretendeerd, aangezien er de antwoorden die een persoon geeft toch objectief gecodeerd dienen te worden. De vraag hoe betekenisvol de objectieve versus projectieve dichotomie is, doemt dan ook op. Volgens Weiner gaat het niet om de objectief versus projectief, maar om gestructureerd versus ongestructureerd. Hoe meer gestructureerd een test, hoe groter de kans is dat het relatief bewuste persoonlijkheidsaspecten meet. Ongestructureerde of ambigue tests, daarentegen, meten eerder aspecten buiten het onmiddellijke, bewuste bewustzijn.

Gedragsassessment-methoden

Traditioneel gebruikt men testen onder andere om data te verzamelen over een bepaalde trek bij iemand. De responsies worden dan gezien als signalen voor de aanwezigheid van de trek. In plaats van deze ‘signaalbenadering’ kan men ook direct kijken naar een steekproef van gedrag. Hierbij wordt het gedrag niet gezien als een signaal van iets onderliggends, maar als een op zichzelf staand kenmerk.

In gedragsassessment kijkt men naar wat iemand in een bepaalde situatie doet in plaats van wat voor kenmerken hij in het algemeen heeft. Bij gedragsobservatie kan de persoon in kwestie zelf de observator zijn. De persoon kan bijvoorbeeld een dagboek bijhouden van hoe vaak een bepaalde gedraging zich voordoet. In andere gevallen is er wel een aparte gedragsobservator. In de traditionele signaalbenadering kan men trachten een gedraging te interpreteren op een dieper niveau, oftewel in termen van een onderliggend onbewust motief. In gedragsassessment kijkt men puur naar de context van het gedrag en naar het gedrag zelf. Extra factoren worden er niet zonder meer bijgehaald. Gedragsassessment is daarom empirisch en wetenschappelijk. Het baseert zich op valide methodiek. Een belangrijk verschil tussen de traditionele en de gedragsassessment-benadering is dat traditionele assessment data gebruikt om dingen te beschrijven, classificeren of te diagnosticeren, terwijl gedragsassessment zich meer richt op interventiegerelateerde informatie. Meer verschillen zijn terug te vinden in tabel 13.5 op pag. 455. Er is behoefte aan de integratie van de traditionele en de gedragsbenadering. Gedragstherapeuten zouden bijvoorbeeld gebruik moeten kunnen maken van psychologische testen.

Wie? Wat? Wanneer? Waar? Waarom? Hoe?

Gedragsassessment wordt in allerlei settings gebruikt, bijvoorbeeld in een klinische of onderzoekssituatie. Het individu wordt intensief bestudeerd; minder normatief dan bij traditionelere benaderingen. De testafnemer is in sommige gevallen een gekwalificeerde professional, maar soms is het een assistent die alleen is getraind voor een bepaald aspect van assessment. Een leraar kan bijvoorbeeld geïnstrueerd worden bij te houden hoe vaak een bepaalde gedraging zich voordoet. Tenslotte kan ook de onderzochte persoon zelf zijn gedrag bijhouden, bijvoorbeeld in een dagboek of een checklist. Wat er gemeten wordt, hangt natuurlijk af van het onderzoek. Wat alle gedragsassessments met elkaar gemeen hebben is dat het gedrag op een bepaalde manier in nummers te vatten moet zijn. Vaak is dat het aantal keer dat een gedraging zich voordoet.

Een gedragsobservatie wordt gedaan op die momenten dat de kans groot is dat het onderzochte gedrag zich voor zal doen. Hierbij kijkt men dan naar de frequentie waarmee het gedrag zich voordoet. Bij intervalopname wordt gekeken hoe vaak het gedrag in een bepaald tijdsbestek (bijvoorbeeld 24 uur of 3 maanden) voorkomt. Daarbij kan ook gekeken worden naar de intensiteit van het gedrag, die gemeten kan worden aan de hand van de (relatieve) duur van het gedrag. De frequentie en intensiteit van gedrag kunnen bijvoorbeeld gemeten worden in de timeline followback (TLFB) methodologie. Gedragsassessment kan in principe overal plaatsvinden. Meestal wordt de voorkeur gegeven aan de natuurlijke omgeving of een zo echt mogelijke omgeving. Bij obsessief-compulsief gedrag is het bijvoorbeeld het beste om bij de persoon zelf thuis te gaan kijken, waar de kans het grootst is dat iemand zich op natuurlijke wijze gedraagt. In sommige gevallen is een gesimuleerde werkelijkheid (virtual reality) een uitkomst.

Data verkregen uit gedragsassessment heeft verschillende voordelen. Het kan bijvoorbeeld gebruikt worden als vergelijkingsmateriaal voor en na een interventie, het kan vaststellen welke omgevingen gedragingen uitlokken en welke gedragspatronen in aanmerking zouden komen voor interventie. Een ander voordeel is dat zorgverzekeringen eerder geneigd zijn om gedragsassessment te vergoeden dan traditionele assessment.

Er bestaat controverse over het meten van psychometrische juistheid van gedragsassessment. Volgens sommigen zijn dezelfde betrouwbaarheids- en validiteitsschattingen ook toepasbaar op gedragsassessment. Volgens anderen is dit volstrekt onmogelijk, omdat iedere observatie een op zichzelf staand experiment is. Hoewel het meetinstrument hetzelfde blijft verandert het gedrag, wat test-hertest-betrouwbaarheid ongeschikt maakt.

Methoden van gedragsassessment

Er bestaan verschillende methoden die gebruik kunnen worden bij gedragsassessment. Hieronder staan verschillende behandeld.

Gedragsobservatie en ratingschalen

Gedragsobservatie is het bekijken van het subject in actie en zijn activiteiten bijhouden. De onderzoeker, zijn assistent, bekenden van het subject of het subject zelf kunnen als observator fungeren. Soms wordt er gebruik gemaakt van mechanische middelen, zoals een camera, om de observator te ontzien. Gedragsobservatie kan verschillende vormen aannemen. Men kan bijvoorbeeld gebruik maken van ratingschalen, waarop een observator de frequentie en intensiteit van gedragingen kan bijhouden. Meestal gebruikt men hierbij codes. Hiervoor zijn vaak hele systemen ontwikkeld. Een ratingschaal kan bijvoorbeeld bestaan uit een continuüm tussen ‘direct’ en ‘indirect.’ Hoe sterker de situatie op een situatie uit de werkelijkheid lijkt, hoe directer de gedragsobservatie een representatie van de werkelijkheid is. Een instrument kan een breed bereik hebben (broad band), waarbij veel verschillende gedragingen worden gemeten of een smal bereik (smal band), waarbij specifieke gedragingen worden gemeten.

In een kliniek in Amerika heeft men de gewoonte om het gedrag van patiënten te observeren en uitgebreid bij te houden op een gedragsobservatielijst die de CDR wordt genoemd. Hierop worden activiteiten, sociale vaardigheden en disfunctioneel gedrag genoteerd. Deze informatie is van grote invloed op het leven van de patiënten. Gedragsobservatie kan heel confronterend zijn en een voortdurend gevoel van zelfbewustzijn veroorzaken. In de kliniek zijn er dan ook regelmatig protesten van de patiënten te horen. In veel gevallen blijkt zelfbewustzijn echter net te zijn wat een patiënt nodig heeft om vooruitgang te boeken.

Zelf-monitoren

Zoals gezegd kan het subject zelf ook als observator van zijn eigen gedrag optreden. Als iemand zijn eigen gedrag (gedachten, gevoelens) en/of gebeurtenissen gerelateerd aan dat gedrag systematisch observeert en bijhoudt, is er sprake van zelf-monitoren. Dit werkt alleen als het subject voldoende gemotiveerd en competent is. Vaak treedt zelf-monitoren al op als interventie: als je bijhoudt hoeveel je rookt, ga je automatisch minder roken. Dit effect valt onder de term reactiviteit, het effect dat het gedrag verandert doordat je weet dat je geobserveerd of geëvalueerd wordt. Reactiviteit kan ook negatief zijn omdat het de observatie kan vertekenen. Training kan deze effecten tegengaan.

Analoge studies

Je zou gedragsobservatie als een onderzoek kunnen zien met het gedrag als de afhankelijke variabele en de factoren die eraan ten grondslag liggen als de onafhankelijke. In functionele analyse van gedrag wordt getracht deze onafhankelijke en afhankelijke variabelen te identificeren. Dit moet soms gebeuren in een analoge studie. Dat is een onderzoek waarbij de onderzochte variabelen nagebootst worden.

Deze brede term wordt bijvoorbeeld gebruikt voor dieronderzoek dat wordt uitgevoerd om meer over mensen te weten te komen. Bij analoge gedragsobservatie wordt de omgeving waar het gedrag meestal plaatsvindt nagebootst om de kans dat de observator het gedrag te zien krijgt te vergroten.

Situationele performale metingen

Een procedure aan de hand waarvan een individu geobserveerd en geëvalueerd kan worden onder bepaalde omstandigheden wordt een situationele performale meting genoemd. Meestal moet men een bepaalde taak verrichten in een echte of een gesimuleerde situatie. Het rijexamen is een voorbeeld van een situationele performale meting. Dergelijke testen worden gebruikt omdat de meting een meer accuraat beeld geeft dan zelfrapportage.

In sommige gevallen zijn subjecten bijvoorbeeld gemotiveerd om zich beter of slechter voor te doen of weten ze zelf niet hoe ze in een situatie zouden reageren. Bij de leiderloze groepstechniek moet een groep mensen een bepaalde taak verrichten terwijl een observator variabelen zoals initiatief, samenwerking en leiderschap bijhoudt. De instructies zijn opzettelijk vaag en er wordt geen leider aangewezen. De groep moet zelf bepalen wie wat doet. Deze test wordt bijvoorbeeld gebruikt in het leger en in industriële settings om mensen met leiderschapskwaliteiten te identificeren of om de groepscohesie te versterken. Een groep leert zogezegd zichzelf te managen. Dit kan uitdagend zijn als er later leiding gegeven moet worden aan de groep.

Rollenspel

Een rollenspel is een (deels) geïmproviseerd gesprek in een gesimuleerde situatie en wordt gebruikt in het onderwijs, in therapie en bij assessment. Het wordt bijvoorbeeld gebruikt op de politieacademie om agenten te leren omgaan met crisissituaties. Rollenspellen zijn goedkoop en in iedere situatie toepasbaar om gedrag te meten. Men kan er echter niet zeker van zijn dat het gedrag in een gesimuleerde situatie ook gerelateerd is aan gedrag in een situatie in de werkelijkheid. Deze criteriumvaliditeit is moeilijk vast te stellen; dit zou namelijk onopvallende observatie in een variëteit aan situaties in de werkelijkheid vergen.

Psychofysiologische metingen

Herhaaldelijk is gebleken dat fysiologische activiteit samen kan gaan met psychologische processen. In de psychofysiologie worden dergelijke activiteiten gemeten. Overigens is het controversieel om psychofysiologie te beschouwen als onderdeel van gedragsassessment. Een belangrijke psychofysiologische methode is biofeedback, waarbij fysiologische activiteit zoals hartslag en bloeddruk gemeten wordt. De gegevens worden vervolgens teruggekoppeld naar het subject. Het is gebleken dat mensen met behulp van deze kennis hun fysiologische activiteit kunnen beïnvloeden. Deze vondst was gebaseerd op experimenten waaruit bleek dat dieren hun fysiologie konden aanpassen als ze daarvoor beloond werden en dat mensen op commando hun hersengolven konden veranderen. Een ander instrument is de plethysmograaf, die de bloedtoevoer naar bepaalde lichaamsdelen meet. Uit onderzoek met dit instrument blijkt bijvoorbeeld dat angstige mensen een grotere bloedtoevoer hebben. De peniele plethysmograaf meet de bloedtoevoer naar de penis en kan seksuele opwinding meten. De data over deze bloedtoevoer wordt fallometrische data genoemd en kan gebruikt worden bij onderzoek naar zedendelinquenten. Misschien wel het bekendste psychofysiologisch instrument is de polygraaf, de leugendetector. Dit apparaat meet fysiologische tekenen die wijzen op opwinding op het moment dat het subject antwoord geeft op vragen. Het idee is dat als iemand liegt, hij grotere fysiologische opwinding zal vertonen.

De betrouwbaarheid van dit apparaat is controversieel. Er blijkt een hoge false positive. Tevens zijn de polygrafers (de bedieners van het apparaat) vaak slechts minimaal getraind.

Onopvallende metingen

Om reactiviteit te voorkomen kan gebruik gemaakt worden van onopvallende (unobtrusive) metingen. Dit is meestal een fysieke aanwijzing voor een bepaald gedrag. Je zou bijvoorbeeld naar afval kunnen kijken om iemands eetpatroon te onderzoeken, of naar de slijtage van de vloer om de populariteit van een plek te bekijken. Deze metingen vergen niet altijd de aanwezigheid of medewerking van subjecten. Een voorbeeld van een onderzoek dat gebruik maakte van onopvallende metingen was dat van Harker en Keltner. Zij voorspelden dat positieve emotionele gezichtsuitdrukkingen samen zouden hangen met later levenssucces. Gezichtsuitdrukkingen maten ze onopvallend door naar jaarboekfoto’s te kijken. Deze foto’s voorspelden inderdaad, in ieder geval voor vrouwen, succes en welzijn.

Betrouwbaarheid en validiteit

Hoe betrouwbaarheid gemeten moet worden is onderwerp van discussie. In de generaliseerbaarheidstheorie (zie hoofdstuk 5) wordt in overweging genomen hoe testscores variëren door veranderingen in het gemeten construct. Dit zou een geschikter uitgangspunt kunnen zijn bij gedragsassessment dan het ware-score-model, dat uitgaat van stabiele trekken. Dit zou betekenen dat test-hertest-betrouwbaarheid niet zinvol is om te berekenen. Tussen-scorers-betrouwbaarheid blijft echter belangrijk. Zo moet er rekening gehouden worden met het contrasteffect, waarbij de beoordeling overdreven positief uitvalt omdat de vorige beoordeling erg negatief was of andersom. Contrasteffecten kunnen worden tegengegaan door training van de observatoren. Tussen-scorers-betrouwbaarheid kan verder verbeterd worden door gebruik te maken van samengestelde beoordeling, waarbij het gemiddelde genomen wordt van meerdere beoordelingen. Soms kan een bepaalde mate van vertekening niet worden tegengegaan. Het zou bijvoorbeeld raadzaam zijn om meerdere cameraperspectieven mee te nemen bij gedragsobservatie door video. Dit zou in de praktijk echter zeer kostbaar zijn in termen van geld en tijd.

Een ander probleem in gedragsassessment is reactiviteit. Mensen reageren allemaal verschillend op het feit dat ze geobserveerd worden. Een oplossing zou kunnen zijn om onopgemerkt te observeren, maar dit levert allerlei ethische problemen op. Daarom wordt er vaak gekozen om de deelnemer eerst een tijdje te laten wennen aan het feit dat hij geobserveerd wordt. Meestal neemt de reactiviteit daarna af.

Klinische en objectieve benadering

In dit hoofdstuk is opnieuw duidelijk geworden hoezeer in de psychologie de nadruk wordt gelegd op objectieve metingen, standaardisatie, normen en algemeen geldende regels. De klinische benadering werd voorheen toegepast in situaties waarop geen regels van toepassing waren, maar nu worden zelfs klinische methoden zoals projectieve testen onderworpen aan standaardisering. Hoewel de klinische methode als minder wetenschappelijk zou kunnen worden gezien, heeft het wel degelijk aanvullende waarde.

Welke assessments kunnen worden gebruikt in de klinische en couseling setting binnen de psychologie? - Chapter 14

 

Klinische psychologie is de tak van de psychologie die zich bezighoudt met de preventie, diagnostisering en behandeling van abnormaal gedrag. Bij counselingpsychologie gebeurt hetzelfde. Counseling is echter meer laagdrempelig en houdt zich met minder ernstige pathologie bezig dan klinische psychologie. Het richt zich meer op alledaagse problemen. Alle testen die tot nu toe in het boek behandeld zijn, zijn geschikt voor deze settings. In dit hoofdstuk ligt de nadruk op een aantal toepassingen van assessment in deze settings.

Assessment in klinische en counseling settings

In een klinische setting wordt assessment gebruikt voor verheldering van een probleem, diagnostisering en het ontwerpen van een behandelplan. Voorbeelden van vragen die door middel van assessment beantwoord kunnen worden, zijn: kloppen de in het klinisch interview gestelde hypothesen over het probleem van de cliënt? Wat is het niveau van functioneren van de cliënt? Hoe staat dat in verhouding tot het functioneren van mensen van dezelfde leeftijd of het premorbide functioneren (het functioneren voordat er een stoornis of ziekte ontstond)? Wat voor behandeling is gepast voor deze cliënt? Welke baan past bij de cliënt? Welke behandeling is het meest effectief? Assessment wordt ook gebruikt in onderzoek naar welke behandeling het beste aansluit bij een stoornis of een persoonlijkheid.

Diagnose van mentale stoornissen

Een belangrijk onderdeel van assessment is diagnostisering. Dat gebeurt aan de hand van de (vijfde editie en tekstherziening) van de Diagnostic and Statistical Manual (DSM-IV-TR). De DSM beschrijft alle bekende mentale stoornissen en geeft daarover uitgebreide beschrijvende informatie. Er is wel kritiek op dit instrument. Zo zou het bijvoorbeeld te sterk gefundeerd zijn in het medisch ziektebeeldsysteem. Voorstanders van de DSM brengen hier tegenin dat het diagnostisch systeem nuttig is, of diagnoses nu worden gezien als ziektes of niet. Ook zou het relatief onbetrouwbaar zijn. Voorstanders stellen echter dat dit inherent is aan diagnostisering. Tenslotte zou de DSM te weinig rekening gehouden hebben met bepaalde culturen.

De DSM bestaat uit vijf assen. Op de eerste as worden algemene mentale stoornissen geplaatst, op de tweede as zwakbegaafdheid en persoonlijkheidsstoornissen, op de derde as fysieke omstandigheden die invloed hebben op het mentale functioneren, op de vierde as problemen en bronnen van stress in het leven van de cliënt en op de vijfde as een indicatie van het algehele niveau van functioneren van de cliënt. De eerste twee assen geven dus de diagnose(s) en de volgende drie bieden aanvullende informatie.

Definitie van mentale stoornissen

De DSM-IV heeft een definitie geboden van mentale stoornissen, maar daarop is veel kritiek geleverd. Een alternatieve definitie is die van Wakefield, waarbij een stoornis gezien wordt als een schadelijk disfunctioneren van een evolutionair adaptief intern mechanisme. Zijn definitie gaat uit van het evolutionaire perspectief op mentale stoornissen; namelijk dat stoornissen verstoorde, door evolutie verkregen mechanismen zijn. Ook op deze definitie is een hoop kritiek te geven. Volgens Klein kan men bijvoorbeeld niet weten wat het evolutionair juiste functioneren inhoudt. Andere kritiek legt de nadruk op aspecten zoals cultuur of onderliggende neurale mechanismen.

De DSM-V

Tussen 2004 en 2008 is men bezig geweest met het aankaarten van diverse diagnostische vraagstukken en onderzoeken voor de DSM-V. De DSM-V biedt enkele veranderingen ten opzichte van de DSM-IV-TR. Tijdens het onderzoek naar iedere stoornis werd er gebruik gemaakt van continue in plaats van categorische criteria. De DSM-IV is destijds ontwikkeld op basis van categorische criteria; iemand had een bepaalde stoornis wel of niet. De DSM-V voegt een continu (dimensionaal) criterium toe, namelijk de ernst van de stoornis. Deze aanpassing is gebaseerd op het idee dat mentale stoornissen beter kunnen worden begrepen als bestaande binnen een continuüm met betrekking tot de ernst in plaats van een alles-of-niets benadering. Zie tabel 14-1 op pagina 493 voor enkele veranderingen in stoornissen.

Veel van de veranderingen in de DSM-V werden voorgesteld op basis van de kritiek die heerste rondom de DSM-IV dat deze niet voldoende rekening hield met biopsychosociale factoren. Om vat te krijgen op die kritiek, is er meer algemene kennis van biopsychosociale assessment noodzakelijk.

Biopsychosociaal assessment

De multidisciplinaire assessment-benadering waarbij zowel biologische, psychologische, sociale, culturele en situationele variabelen in overweging genomen worden, wordt biopsychosociale assessment genoemd.

Alle relevante input wordt hierbij in overweging genomen. Er zijn veel vondsten die ondersteuning bieden voor de bruikbaarheid van deze benadering. Zo blijkt de psychotische trek fatalisme (het gevoel dat je geen controle hebt over je leven) invloed te hebben op biologische ziekten en cognitieve afwijkingen later in het leven. Tevens blijkt dat self-efficacy (de mate van gevoel van controle over het leven) en sociale steun (de mate van ondersteuning door de sociale omgeving) invloed te hebben op gezondheid. Ook onderzoeken waaruit blijkt dat een combinatie van psychologische en biologische behandelingen het beste werkt, geven ondersteuning voor de biopsychosociale benadering.

Interview

In een klinische setting is het interview bijna altijd onderdeel van het (diagnostische) proces. In een counselingsetting kan het de cliënt helpen meer informatie over zichzelf te verkrijgen. Een interview dient ook als indicator van welke assessments verder moeten worden gedaan. Het geeft richting aan het proces. Vaak wordt op grond van een interview een behandelplan (ook wel: therapeutisch contract) opgesteld, een overeenkomst tussen de cliënt en de therapeut om doelen, verwachtingen en wederzijdse plichten in de therapie vast te stellen. Interviewers kijken niet alleen naar het verbale, maar ook naar het non-verbale gedrag. Ze beginnen vaak met open vragen en eindigen met specifieke vragen om extra informatie te verkrijgen. Ze stellen zich aandachtig en warm op. Aanmoedigingen (knikken, ‘hm’ zeggen) kunnen de cliënt helpen om dingen te vertellen, maar kunnen er ook toe leiden dat iemand meer nadruk op iets legt dan hij zelf van plan was.

Soorten interviews

Interviews kunnen op een aantal variabelen verschillen. Sommige interviews hebben een heel brede, andere een heel specifieke inhoud. Sommige interviews zijn gestructureerd (voor geformuleerde vragen), andere ongestructureerd. Het voordeel van een gestructureerd interview is dat de resultaten makkelijker gebruikt kunnen worden voor objectieve evaluatie. Er zijn veel gestructureerde interviews beschikbaar voor professionals. Interviews kunnen ook verschillen in ‘toon.’ Bij het stress interview probeert de interviewer bijvoorbeeld de cliënt gestrest te maken, zodat hij een bepaalde daaraan gerelateerd variabele (zoals agressie) kan observeren. Een andere variabele is de staat van bewustzijn. De meeste interviews worden in een normale staat van bewustzijn afgenomen; een uitzondering hierop is het hypnotisch interview. Hierbij wordt de cliënt onder hypnose gebracht om zich makkelijker dingen te kunnen herinneren. Mensen zijn onder hypnose echter vatbaarder voor suggestie en voor het vormen van valse herinneringen. Tevens zijn ze zekerder van hun herinneringen, of die nu correct zijn of niet. Daarom is het alternatieve cognitieve interview ontwikkeld. Hierbij wordt het subject niet gehypnotiseerd, maar wordt hij wel aangemoedigd om de situatie zo gedetailleerd en gevisualiseerd mogelijk terug te halen. Er worden open vragen gesteld waar de cliënt ononderbroken op kan antwoorden. In een collaboratief interview werken de interviewer en de cliënt op gelijke voet samen om een gezamenlijk doel te bereiken, zoals een verklaring, ontdekking of opheldering van iets. De grenzen tussen interviewer en cliënt vervagen en de cliënt is een actieve deelnemer in zijn eigen assessmentproces.

In ieder interview wordt een aantal standaardvragen gesteld betreffende demografische gegevens (naam, sekse e.d.), reden voor verwijzing, medische geschiedenis en psychologische geschiedenis. In het interview kunnen allerlei algemene indrukken bijgehouden worden, zoals het uiterlijk, de persoonlijkheid, humeur, spraak en gedachtepatronen van de cliënt. In een mentale statusonderzoeking worden hiernaast nog andere aspecten gemeten. Het is erop gericht om een zo volledig beeld te krijgen van intellectuele, emotionele en neurologische gebreken. Er wordt hierbij gekeken naar gedrag, uiterlijk, oriëntatie (bewust van interviewer, tijd, plaats: ‘oriented x 3’), geheugen, sensorium (waarneming), psychomotorische activiteit (beweging), staat van bewustzijn, affect, humeur, persoonlijkheid, inhoud van gedachten, gedachteprocessen (veel of juist weinig gedachten), intellectuele vermogens, inzicht in de eigen situatie en beoordelingsvermogen.

Psychometrische aspecten van het interview

Ook bij interviews kunnen betrouwbaarheid en validiteit geëvalueerd worden. Tussen-scorers-betrouwbaarheid zou zich vertalen naar overeenstemming in conclusies van verschillende diagnostici bij afname van een interview bij een cliënt. Deze betrouwbaarheid blijkt hoger bij gestructureerde interviews en kan verbeterd worden door toepassing van een ratingschaal aan het eind van ieder interview. Betrouwbaarheid en validiteit kunnen ook verbeterd worden door verregaande specificatie van diagnostische criteria in de DSM. Vanaf de DSM-III zijn criteria waaraan men moet voldoen alvorens een stoornis gediagnosticeerd wordt steeds duidelijker en specifieker geworden. Test-hertest-betrouwbaarheid kan gemeten worden door hetzelfde interview op twee of meer tijdstippen af te nemen. Voor sommige stoornissen is deze betrouwbaarheid groter dan voor andere. Criteriumvaliditeit kan gemeten worden door te kijken hoe accuraat het interview het criterium voorspelt. In sommige gevallen blijken interviews criteria accurater te voorspellen dan testen, in andere gevallen is het andersom.

Case geschiedenisdata

Case geschiedenisdata kunnen allerlei biografische data omvatten. Het biedt een soms onontbeerlijke context op grond waarvan de interviewer andere data kan interpreteren. Het geeft een dieper begrip van de cliënt.

Psychologische testen

In klinische assessment maakt men natuurlijk ook gebruik van psychologische testen. Soms worden algemene testen gebruikt om persoonlijkheid, attitudes of intellectueel functioneren te meten. Er zijn echter ook diagnostische testen, zoals de algemene Millon Clinical Miltiaxial Inventory–III, die allerlei symptomen kan identificeren. Er zijn ook specifiekere diagnostische testen, zoals de Beck Depression Inventory, ontworpen om symptomen van depressie te identificeren. Deze test is overigens tamelijk transparant en bevat geen validiteitsschaal, waardoor hij alleen geschikt is als de diagnosticus zeker weet dat de persoon de test naar waarheid zal invullen.

Testbatterijen

Een testbatterij is een groep testen die samen wordt afgenomen om een variatie aan informatie over een persoon te verkrijgen. Een standaardbatterij of een ongespecificeerde batterij bevat meestal een persoonlijkheidstest, een intelligentietest en een neurologische test. Het idee dat meerdere testen gebruikt moesten worden bij één assessment stamt van Rapaport (’45-46).

Cultuur en assessment in een klinische setting

Cultureel geïnformeerde psychologische assessment zou gedefinieerd kunnen worden als een benadering die rekening houdt met acculturatie, waarden, identiteit, wereldvisie, taal en andere cultuurgerelateerde variabelen die invloed kunnen hebben op de assessment. Bij de assessment bij iemand van een andere cultuur kan dus gebruikt gemaakt worden van case geschiedenisdata om de factoren waarmee rekening gehouden moet worden te identificeren. Bekenden van het subject kunnen aanvullende cultuurgerelateerde informatie verschaffen. Professionals zijn het vaak oneens over cultureel sensitief testgebruik. Er bestaat vaak onenigheid over welke test nu het meest cultureel sensitief is. Het is echter niet erg realistisch om te kijken naar welke testen geschikt zijn voor culturele minderheden. Beter kan er gekeken worden met welke mogelijke vertekeningen (bijvoorbeeld een overschatting van pathologie bij minderheden) rekening gehouden moet worden.

Bij een cultureel sensitieve testafname houdt de onderzoeker alle case geschiedenisdata in het achterhoofd en houdt hij rekening met de gebruiken en manieren van de cliënt. Na de assessment kan hij zijn data goed nalopen op door cultuur vertekende factoren. Als er een vertaler gebruikt wordt moet gelet worden op zowel de gebruikte woorden als op de intensiteit van wat er gezegd wordt. Als een familielid als tolk gebruikt wordt moet rekening gehouden worden met het feit dat het in sommige culturen ongepast is om persoonlijke informatie door een jonger persoon te laten vertalen. De verkregen informatie moet in de juiste culturele en historische context geïnterpreteerd worden. In tabel 14.1 op pag. 484 is een uitgebreide beschrijving te vinden van hoe cultureel sensitief assessment in zijn werk zou moeten gaan. Men moet voldoende basiskennis hebben van assessment en van culturele kwesties in assessment en men moet voldoende getraind en ervaren zijn. Een belangrijke component hiervan is het ‘verwisselen van culturele lenzen.’ De betekenis hiervan wordt door Lopez uitgelegd als het interpreteren van een knipperlichtsignaal bij een auto. De betekenis van het signaal hangt af van de context. In een assessment moet men door de ‘bril’ van de set mogelijke betekenissen uit de ene cultuur en die van de set uit de andere cultuur naar het individu kijken. Er wordt hierbij informatie verzameld om beide perspectieven te kunnen onderzoeken. Uiteindelijk wordt het meest gepaste perspectief gekozen.

Culturele aspecten in het interview

In het interview kan het zinvol zijn om cultuurgerelateerde vragen te stellen, zoals of de persoon zich anders of gediscrimineerd voelt. Ook kan het zinvol zijn om te vragen naar fysieke symptomen, omdat mensen in sommige culturen hun emotionele problemen vaker uitdrukken in fysieke klachten. De letters ADRESSING staan voor de verschillende bronnen van culturele invloed: age, disability, religion, ethnicity, social status, sexual orientation, indigenous heritage (cultureel erfgoed), national origin en gender. Deze factoren kunnen een leidraad vormen bij een interview. Welke factoren zijn van belang? In het interview (alsook in andere aspecten van assessment) moet rekening gehouden worden met het feit dat sommige beschreven onderdelen van psychopathologie cultureel bepaald zijn. Indianen noemen bijvoorbeeld vaak de invloed van geesten bij depressie.

Managed Care

Managed care wordt gedefinieerd als een zorgstelsel waarbij de relatie tussen de cliënt en de zorgverlener bemiddeld wordt door een zorgverzekering. Vanwege stijgende kosten wordt er steeds meer bezuinigd, onder andere op cultureel gevoelig psychologisch assessment. Zorginstanties kunnen zich gedwongen voelen om hun beroepscodes te overschrijden teneinde meer vergoeding te krijgen van de verzekering, bijvoorbeeld door onjuiste diagnoses te stellen. Dit gaat ten koste van de waarde van de diagnose en de geloofwaardigheid van de zorginstanties. Een andere negatieve consequentie is dat veel clinici alleen maar onder het managed care systeem blijven werken tot ze voldoende op eigen benen kunnen staan om een onafhankelijke praktijk op te starten. Dit leidt tot een leegloop van ervaren professionals bij instanties die wel vergoed worden. Managed care systemen staan bekend om hun gebrekkige culturele sensitiviteit.

Speciale toepassingen van klinische metingen

Verslaving en drugsmisbruik

Assessment voor drugs- en alcoholmisbruik wordt veel toegepast in allerlei settings. De assessment kan biologisch of psychologisch van aard zijn. Psychologische metingen zijn alleen zinvol als er opgepast wordt voor effecten van onware antwoorden en indrukbeheer. Een voorbeeld van een alcoholismeschaal is de MacAndrew Alcoholism Scale (MAC-R), onderdeel van de MMPI-2-RF. Deze meet psychologische trekken die leiden tot alcoholisme. De Addiction Acknowledgment Scale meet op directere wijze of iemand toegeeft verslaafd te zijn (AAS).

De Addiction Severity Index (ASI) is een schaal waarbij beoordelaars op verschillende gebieden aangeven (o.a. disfunctioneren op het werk, gebruik) hoe ernstig de verslaving is. Drugsmisbruik kan ook door analoge methoden gemeten worden, zoals rollenspellen. In de Cocaine Risk Response test moeten cocaïneverslaafden bijvoorbeeld aangeven wat ze zouden doen in een bepaalde situatie waarvan bekend is dat die meestal gebruik uitlokt. Deze test is vooral geschikt voor mensen die zelf hulp hebben gezocht. Bij mensen van andere culturen moeten speciale factoren in overweging genomen worden (culturele waarden, religie) en is cultureel geïnformeerde interventie gepast. Herstellen van een verslaving wordt wel re-acculturatie genoemd, oftewel het herbevestigen van je culturele identiteit. Een belangrijke ethische overweging bij drugsmisbruik-assessment is geïnformeerde toestemming. Als het subject onder invloed is, is zijn geïnformeerde toestemming twijfelachtig. Ook is het mogelijk dat het subject zich gedwongen voelt om mee te doen of uit financiële overwegingen deelneemt.

Forensisch assessment

Forensisch psychologisch assessment is assessment in een juridische context. Een crimineel kan bijvoorbeeld beoordeeld worden op toerekeningsvatbaarheid en een ouder op ouderschapskwaliteit. Een belangrijk verschil met de algemene klinische praktijk is dat de onderzoeker vaak in dienst staat van een derde, meestal de rechtbank. De cliënt moet van dit gegeven en de implicaties ervan voor bijvoorbeeld vertrouwelijkheid op de hoogte worden gesteld. Een ander verschil is dat de cliënt de assessment soms gedwongen ondergaat. Het is hierbij mogelijk dat iemand minder gemotiveerd is om de waarheid te vertellen. Een laatste verschil is dat forensisch psychologen soms uitspraken moeten doen over mensen die ze nooit persoonlijk geïnterviewd of geobserveerd hebben. Soms is de rol van forensisch psychologen groot en hebben ze veel invloed op de rechtspraak. Hier is wel kritiek op geleverd; is assessment wel betrouwbaar genoeg om er dergelijke beslissingen op te baseren? In het algemeen wordt deze vraag door de maatschappij echter bevestigend beantwoord.

Gevaar voor zichzelf of anderen

Een van de taken van een forensisch psycholoog is om te beoordelen of iemand een gevaar vormt voor zichzelf of anderen. Als dat het geval is, is dat een reden om hem zijn vrijheid te ontnemen. Het mogelijke gevaar dat de persoon in kwestie vormt wordt vastgesteld op grond van meerdere databronnen, zoals interviewdata en case geschiedenisdata. Er worden risicofactoren geïdentificeerd, zoals drugsmisbruik en eerdere pogingen. Er wordt onderzocht of de cliënt risicovolle plannen heeft en hoe realistisch of gedetailleerd die zijn. Tevens wordt gekeken of zijn omgeving in staat is om een gewelddadige uitbarsting te voorkomen. Als de onderzoeker denkt dat moord een reële mogelijkheid is heeft hij waarschuwingsplicht, wat betekent dat de in gevaar verkerende derde partij op de hoogte gesteld moet worden. In het verleden is gebleken dat gevaarlijkheid maar moeilijk accuraat voorspeld kan worden, maar er wordt op dit punt wel vooruitgang geboekt.

De geheime dienst in Amerika richt zich op de identificatie van mogelijk gevaarlijke individuen om misdaad te voorkomen. De persoon die een bedreiging vormt wordt geïdentificeerd, het risiconiveau wordt geanalyseerd en gepaste actie wordt ondernomen. Om deze doelen te kunnen behalen heeft de geheime dienst een eigen gedragsonderzoeksprogramma. Dit programma bestudeert hoe risicofactoren gemeten kunnen worden, hoe agenten beslissingen maken en hoe bedreigingen gecommuniceerd moeten worden naar zorginstanties en de bedreigde persoon. De case studie is een nuttig hulpmiddel in assessment en onderzoek. Zo loopt er een case studie-project om risicofactoren bij mensen te ontdekken die een bedreiging vormen voor anderen. Uit dit onderzoek is onder andere gebleken dat de kans groter is dat iemand een gevaar vormt als hij eerder iets heeft gedaan dan wanneer hij alleen maar bedreigingen uit.

Competentie om terecht te staan

Het vermogen van een verdachte om te begrijpen waarom hij terecht staat en om zijn eigen verdediging te verzorgen wordt competentie om terecht te staan genoemd. Dit concept is een uitbreiding van de verordening dat iemand zowel fysiek als mentaal aanwezig moet zijn bij zijn eigen veroordeling. Deze regel beschermt het recht van de verdachte om assistentie te kunnen verzorgen, om op te treden als zijn eigen getuige en om de getuigenis van anderen te weerspreken. Psychotische of zwak begaafde mensen zouden overigens wel terecht kunnen staan als ze blijk gaven van voldoende begrip van de rechtsgang. Dit begrip kan gemeten worden door verschillende vragenlijsten. Die testen bijvoorbeeld de vereiste dat iemand weet wat de rol van een advocaat, rechter, aanklager of jury is. Tevens moet hij weten waarom hij terecht staat. In de Competency Screening Test moet de verdachte een aantal zinnen afmaken. Een goede respons krijgt twee punten, een minder goede 1 en een slechte 0. Volgens Lipsitt is de tussen-scorers-betrouwbaarheid van deze schaal groot. Ook stelde hij dat de test goed in staat is om te discrimineren tussen ernstig verstoorde en gezondere mensen.

Toerekeningsvatbaarheid

In Amerika kan de verdediging als verzachtende omstandigheid aanvoeren dat de verdachte ‘insane’ (verstoord) is. In Nederland spreken we over verminderde toerekeningsvatbaarheid. Deze concepten zijn geworteld in het (16e-eeuwse) idee dat alleen mensen met een besef van goed en kwaad verantwoordelijk gehouden kunnen worden voor hun daden. In 1843 vond een belangrijke rechtszaak plaats. Hierin werd M’Naghten vrijgesproken voor moord op grond van verminderde toerekeningsvatbaarheid. Volgens de rechtbank wist hij niet wat hij deed, en als hij dat wel wist, wist hij niet dat het fout was. Dit uitgangspunt werd de M’Naghten-standaard genoemd en wordt nog steeds gebruikt bij het beoordelen van een verdachte. De standaard zegt echter niets over mensen die wel het verschil tussen goed en kwaad weten, maar onvoldoende impulscontrole hebben. In de Durham-standaard wordt gesteld dat iemand verminderd toerekeningsvatbaar is als zijn daad het resultaat was van een mentale stoornis of ziekte. In de ALI-standaard wordt hieraan toegevoegd dat als iemand niet in staat is om aan de wet te voldoen, hij ook verminderd toerekeningsvatbaar is. Om te beoordelen of iemand aan de ALI-standaard voldoet kunnen vragenlijsten als de Rogers Criminal Responsibility Assessment Scale worden afgenomen. Deze vragenlijst meet betrouwbaarheid (doet iemand net alsof?), psychopathologie, organische factoren, cognitieve controle en gedragscontrole. De discriminante validiteit van deze schaal is met behulp van validiteitsonderzoek vastgesteld.

Verlof of vervroegde vrijlating

Het is moeilijk gebleken om te voorspellen wie geschikt is voor verlof of vervroegde vrijlating. Een belangrijke factor is of de gevangene al dan niet psychopaat is, aangezien psychopaten een vier keer zo grote kans hebben om niet vrijgelaten te worden. Psychopaten zijn mensen met weinig remmingen die genot of geld nastreven zonder rekening te houden met het welzijn van anderen. Op basis van een factoranalyse van de beroemde beschrijving van Cleckley ontwikkelde Hare de Psychopathology Checklist (PCL). De PCL blijkt 80% van de gewelddadige veelplegers te kunnen identificeren en heeft ook op andere gebieden een goede criteriumvaliditeit.

Evaluatie van emotionele schade

Psychologische verwonding of emotionele schade staat voor de mentale pijn die de verdachte veroorzaakt heeft. In een rechtszaak kan een psycholoog gevraagd worden deze schade te evalueren zodat die meegenomen kan worden in het eindoordeel van de rechter. Hiervoor kunnen verschillende instrumenten gebruikt worden, zoals een interview, case geschiedenisdata en psychologische testen. Iedere onderzoeker is vrij om eigen testen te kiezen en het blijkt dat geen twee psychologen dezelfde testen gebruiken. Het zou echter wenselijk zijn als alle psychologen dezelfde test zouden gebruiken.

Dit zou bereikt kunnen worden als voor iedere test de incrementele validiteit berekend werd.

Profilering

In sommige misdaadzaken kan men ertoe overgaan om de dader te profileren. Hierbij wordt een psychologisch profiel van de dader geschetst aan de hand van aanwijzingen uit de plaats delict, interviews en case geschiedenisdata. Er worden hypotheses opgesteld over de planvaardigheden, de mate van zelfcontrole, emotie en risico van de verdachte. Er bestaat controverse of profilering de taak van de psycholoog of van de criminoloog is. De hele praktijk wordt soms met scepticisme bekeken vanwege methodologische en theoretische problemen en vanwege de vraag of het wel helpt bij het oplossen van de misdaad.

Voogdij

Met het stijgende aantal scheidingen neemt ook het aantal voogdijzaken in de rechtbank toe. Tot de jaren twintig was het gebruikelijk om de voogdij aan de vader toe te wijzen. Daarna werd de moeder vaker in het voordeel gesteld. Omdat het tegenwoordig vaak voorkomt dat beide ouders een baan hebben wordt er geen voorkeur meer gegeven aan één van de ouders. In voogdijevaluatie wordt een psychologische assessment gedaan om de ouderschapskwaliteiten van de beide ouders en de voorkeur van de kinderen te onderzoeken. In het ideale geval is er één expert die het hele gezin onderzoekt, maar in de praktijk staan vader en moeder vaak beide met een eigen expert tegenover elkaar.

Evaluatie ouders

Bij de evaluatie van de ouderschapskwaliteiten van beide ouders wordt een gedetailleerd interview afgenomen. Hierna kunnen indien nodig psychologische testen naar persoonlijkheid, intelligentie of aanpassing volgen. In het interview wordt bijvoorbeeld gevraagd naar wat de persoon zelf van zijn ouderschapskwaliteiten vindt, maar ook hoeveel tijd hij aan zijn kind besteedt, hoe gedisciplineerd hij is in zijn zorg en hoe zijn eigen jeugd eruit zag. In het interview kan naar voren komen dat de ouder eigenlijk geen voogdij wil, maar de strijd met de partner om andere redenen is aangegaan (wraak, bang toe te geven geen voogdij te willen). Deze intenties moeten door de psycholoog aan het licht gebracht worden. Soms is het wenselijk om extra variabelen te meten die gerelateerd zijn aan het huwelijk en gezinsleven.

Evaluatie kind

De voorkeur van het kind wordt ook in overweging genomen. Als het kind jonger is dan 5 worden zijn wensen niet als betrouwbaar geacht. De voorkeur van het kind wordt vaak indirect gemeten door rollenspellen met poppen, tekeningen van het gezin en verhalen daarover en door projectieve testen zoals de TAT. Ook kunnen er zin-aanvulitems gebruikt worden (bijvoorbeeld ‘ik knuffel graag met...,’ ‘moeders...’). Soms uit het kind wel expliciet een voorkeur. Dan moet gekeken worden waar die voorkeur op gebaseerd is en hoe realistisch die is. In het hele proces wordt gekeken naar de interactie tussen de ouders en het kind. Ook kunnen er vragen gesteld worden over hoe het dagelijks leven van het kind eruit ziet en hoe de kwaliteit van de relatie met de ouders is.

Kindermishandeling en verwaarlozing

Mishandeling is het kwaad doen van kinderen voor wie de persoon in kwestie zorg draagt. Dit kan de vorm aannemen van het toestaan of veroorzaken van fysieke of emotionele beschadiging, het creëren of toestaan van een groot risico op dergelijke beschadiging of (het toestaan van) seksueel misbruik. Verwaarlozing is het niet zorgen voor het kind (onvoldoende voedsel, kleding, onderwijs e.d.). Er bestaan veel hulpmiddelen die gebruikt kunnen worden bij het herkennen van misbruik en verwaarlozing.

Fysieke signalen

Fysieke signalen van mishandeling zijn verwondingen die moeilijk per ongeluk veroorzaakt kunnen zijn. Een voorbeeld is de beschadiging van het gezicht aan beide kanten in plaats van aan één zijde, zoals bij een ongeluk eerder het geval zou zijn. Het type beschadiging kan ook onthullend zijn. Brandwonden die veroorzaakt zijn door een sigaret zijn bijvoorbeeld moeilijk per ongeluk op te lopen. Andere fysieke tekenen van verwaarlozing zijn bijvoorbeeld een trage ontwikkeling, slechte hygiëne of ongepaste kleding voor het seizoen. Seksueel misbruik is vaak niet zichtbaar.

Emotionele en gedragssignalen

Emotionele en gedragssignalen kunnen indicatoren zijn van mishandeling en verwaarlozing, maar ook van iets anders. Mogelijke tekenen van mishandeling zijn angst om naar huis te gaan, ongebruikelijke, extreme of ongepaste emoties, lage eigenwaarde, agressie, sociale terugtrekking of tics zoals nagelbijten. Tekenen van verwaarlozing zijn bijvoorbeeld herhaaldelijk te laat komen of afwezig zijn op school, chronische vermoeidheid, honger of te volwassen of te kinderlijk gedrag. Tekenen van seksueel misbruik bij jonge kinderen zijn onder andere eetstoornissen, seksueel gedrag, suïcidaliteit of verdriet. Bij oudere kinderen komen daar geheugenproblemen, emotionele vlakheid, automutilatie en seksuele zorgen bij. Mishandeling zou geïdentificeerd kunnen worden door anatomisch gedetailleerde poppen (ADDs), met realistisch gerepresenteerde genitaliën. Misbruikte kinderen zouden meer seksueel gedrag uitbeelden. Echter, ook niet misbruikte kinderen blijken op seksuele wijze te spelen. Ook een figuur-tekentest of verschillende vragenlijsten zijn niet bewezen valide om mishandelde kinderen te identificeren. Men moet voorzichtig zijn met het uiten van beschuldigingen op grond van deze tests. Het is mogelijk dat een persoon vals beschuldigd wordt en dit heeft een zeer grote impact op zijn leven. Er moet rekening gehouden worden met het feit dat kinderen vaak erg vatbaar zijn voor suggestie en gemakkelijk valse herinneringen kunnen vormen.

Kwesties rondom het rapporteren van kindermishandeling en verwaarlozing

Kindermishandeling is uiteraard verschrikkelijk. Echter, een onterechte beschuldiging van kindermishandeling is ook vreselijk. Professionals moeten er voor waken dat ze geen sturende vragen stellen aan het kind. Vooral kinderen van 2 tot 7 jaar zijn erg beïnvloedbaar en hun geheugen is ook nog niet zo goed ontwikkeld als dat van oudere kinderen. Het is dan ook mogelijk dat het kind de gebeurtenissen waar in het therapeutische gesprek naar wordt gevraagd, gaat verwarren met wat er echt is gebeurd. Men dient rekening te houden met de rechten van alle partijen in een kindermishandelingszaak vormt een cruciaal onderdeel tijdens het maken van een beslissing.

Risico assessment

Er zijn testen ontwikkeld om ouders te identificeren die risico lopen om hun kind te mishandelen, zoals de Child Abuse Potential Inventory (CAP. Een andere test is de Parenting Stress Index (PSI), die meet hoeveel stress geassocieerd wordt met het ouderschap. Ouders die hun kinderen mishandelen scoren consequent hoger op ouderschapsstress. Testresultaten kunnen echter niet gebruikt worden om ouders te beschuldigen. Omdat mishandeling zo weinig voorkomt, is de kans op een valse beschuldiging groot. Wel kan op basis van de testresultaten besloten worden om het gezin extra goed in de gaten te houden. Hoge scorers kunnen bovendien doorverwezen worden naar programma’s om het risico te verminderen.

Psychologisch rapport

Het afnemen van een test is zinloos als de resultaten vervolgens niet op een duidelijke, georganiseerde manier gepresenteerd worden in een psychologisch rapport. Er bestaat geen algemeen format voor een rapport, maar er zijn wel wat vaste onderdelen die in ieder rapport terugkomen. In het rapport worden als eerste demografische data genoemd. Wat volgt is de reden van verwijzing, al dan niet inclusief relevante achtergrondinformatie. Daarna worden de afgenomen testen en assessments genoemd, met daarachter de datum van afname. Eventueel kunnen ook in het verleden afgenomen testen genoemd worden. Dan worden de vondsten en de extratest-observaties genoemd. Behalve testscores wordt er vaak een uitgebreide beschrijving gegeven van het subject en zijn gedrag tijdens het maken van de test. Tevens worden eventuele confounds benoemd. Hieruit volgen de aanbevelingen, bijvoorbeeld voor een behandeling. Er wordt afgesloten met een samenvatting.

Barnum-effect

Het Barnum-effect is het feit dat mensen geneigd zijn om erg algemene opmerkingen die zo’n beetje van iedereen op toepassing kunnen zijn, te aanvaarden als een accurate beschrijving van zichzelf. Dit is bijvoorbeeld het geval bij veel horoscopen. Men moet rekening houden met dit effect bij het schrijven van een psychologisch rapport.

Klinische versus acturiale assessment

Zoals eerder gezegd bestaat er discussie over of assessment op klinische wijze dan wel statistische wijze gedaan moet worden. Bij acturiale assessment wordt er gebruik gemaakt van statistische regels en waarschijnlijkheden bij het maken van klinische beslissingen. Dit staat niet gelijk aan gecomputeriseerde assessment, die ook niet-statistische output kan genereren. Klinische voorspelling is het toepassen van de eigen training en ervaring van de onderzoeker als doorslaggevende factor in klinische beslissingen. Deze methode is dus subjectiever en informeler. Mechanische voorspelling is gebaseerd op de acturiale benadering en past statistische regels en waarschijnlijkheden toe op de door de computer gegenereerde vondsten. Sommige studies stellen dat klinische en mechanische voorspellingen even accuraat zijn, terwijl volgens andere studies mechanische voorspellingen iets accurater zijn. De mechanische methode is bovendien goedkoper. Klinische voorspelling is echter gedetailleerder en kan meer informatie bevatten dan mechanische.

Welke neuropsychologische assessements bestaan er? - Chapter 15

 

Neurologie is een onderdeel van geneeskunde dat zich focust op het zenuwstelsel en de daarbij horende stoornissen. Neuropsychologie is een tak van de psychologie en richt zich op de relatie tussen hersenfunctioneren en gedrag. Hieronder vallen bijvoorbeeld geriatrische (ouderen-) neuropsychologie, forensische- en onderwijsneuropsychologie. Onder de neurologie valt gedragsneurologie, dat zich ook richt op de relatie tussen de hersenen en het gedrag. Ook neurotologie, de studie naar gehoor, evenwicht en gezichtsspieren valt onder de neurologie.

Zenuwstelsel

Het zenuwstelsel bestaat uit neuronen (zenuwstellen) en kan opgedeeld worden in het centrale zenuwstelsel (hersenen en ruggengraat) en het perifere zenuwstelsel (de neuronen in de rest van het lichaam). De hersenen bestaan uit twee helften, die hemisferen worden genoemd. Deze hebben contralaterale controle: ze controleren het tegenoverliggende gedeelte van het lichaam en ontvangen ook input van dat gedeelte. De helften communiceren met elkaar via het corpus callosum. Meestal is de linker hersenhelft bij mensen dominant. De linkerhelft is belangrijk voor taal, de rechter voor non-verbale en ruimtelijke taken.

Neurologische beschadiging

In de neuropsychologie worden behalve de klassieke (test)instrumenten nog veel meer biologische instrumenten gebruikt, zoals brain imaging of dierproeven. Een neurologische beschadiging kan de vorm aannemen van een laesie, een pathologische verandering van weefsel. Dit kan bijvoorbeeld veroorzaakt worden door verwonding of infectie en kan zowel fysiek als chemisch zijn. Het kan focaal (op één plek geconcentreerd) of diffuus (door meerdere gebieden verspreid). Het kan zijn dat een focale beschadiging zich op een diffuse manier uit en andersom kan een diffuse beschadiging zo prominent zijn op één aspect, dat men een focale beschadiging verwacht. Een neurologische beschadiging is niet hetzelfde als hersenschade: het omvat ook schade aan andere delen van het zenuwstelsel.

In de Tweede Wereldoorlog onderzocht Goldstein soldaten met hersenbeschadiging. Hij ontdekte dat alle soldaten hetzelfde patroon van beperking in abstract denkvermogen, redeneringsvermogen en flexibel probleemoplossend vermogen vertoonde. Deze conditie noemde hij organiciteit en hij ontwikkelde een test om deze conditie vast te kunnen stellen. In later onderzoek van Werner en Strauss werd een vergelijkbaar patroon vastgesteld bij mentaal beperkte kinderen. Ieder beperkt kind werd verondersteld dezelfde set beperkingen te hebben. Tegenwoordig gelooft men niet meer dat iedere hersenbeschadiging gelijk is, ook al zijn er veel overeenkomsten tussen de symptomen. Dezelfde symptomen kunnen veroorzaakt worden door verschillende beschadigingen en zelfs door andere condities dan hersenschade. In veel gevallen verschillen de symptomen echter wel. In sommige gevallen kunnen andere hersengebieden compenseren voor de schade, in andere gevallen niet. Er is dus grote diversiteit in beschadiging en de daarbij horende symptomen en het bestaan van een algemeen patroon zoals geïndiceerd door organiciteit wordt zodoende tegenwoordig van de hand gewezen.

Neuropsychologisch onderzoek

Als er signalen zijn die doen vermoeden dat er iets met iemand aan de hand is, wordt hij ofwel naar de neuroloog of naar de neuropsycholoog verwezen. Harde signalen zijn indicatoren van een duidelijk neurologisch gebrek. Niet werkende reflexen zijn hiervan een voorbeeld. Zachte signalen zijn indicaties die een neurologisch gebrek suggereren. Een discrepantie op verbale en non-verbale prestatie zou een zacht signaal kunnen zijn. Het doel van het neuropsychologisch onderzoek is om deze signalen in ogenschouw te nemen en eruit af te leiden wat de gesteldheid van de hersenen is. Soms is de cliënt doorverwezen door een psycholoog die uit klinisch onderzoek neurologische gebreken vermoedt. Soms wordt de cliënt ook doorverwezen door de neuroloog, die bijvoorbeeld wil weten wat de consequenties voor gedrag zijn van een bepaalde laesie. Het onderzoek begint meestal met een beschouwing van case geschiedenisdata. De rest van het onderzoek is afhankelijk van de gesteldheid van de cliënt. Vaak worden er eerst verkennende cognitieve en perceptuele testen afgenomen om te kijken wat de persoon aankan en op welk terrein er mogelijk problemen zijn. Hierna kunnen dan specifiekere en uitgebreidere onderzoeken volgen. Het onderzoek bevat bijna altijd een case geschiedenisstudie, een mentale status-onderzoeking en een aantal specifieke testen. Bij het hele proces is het van groot belang dat de psycholoog kennis heeft van neurologische processen.

Case geschiedenisonderzoek

Een onderzoek begint zoals gezegd meestal met het bestuderen van de case geschiedenisdata en de geschiedenis van de cliënt zoals hij hem zelf vertelt. Daarna worden dingen onderzocht als de medische geschiedenis van de cliënt en zijn familie, of de cliënt mijlpalen in zijn ontwikkeling (zoals lopen, praten, cognitieve vermogens) op tijd heeft bereikt, zijn psychosociale geschiedenis en ten slotte de aard, ernst en geschiedenis van de klachten. Een dergelijke geschiedenis kan uitsluitsel geven over of iets een neurologische stoornis is (zoals dementie) of eigenlijk een functionele stoornis met dezelfde symptomen (‘pseudodementie’). Ook kan het duidelijk maken of iemand slechts doet alsof of dat er echt iets aan de hand is. Bovendien kan aan de hand van de geschiedenis vastgesteld worden of de conditie progressief is (steeds erger wordt) of non-progressief. Ook van belang is te weten of iemand medicijnen slikt. Medicijnen kunnen neuropsychologische problemen veroorzaken of juist verzachten, waardoor ze niet te herkennen zijn. Case geschiedenisonderzoek is ten slotte essentieel om de huidige conditie te kunnen vergelijken met het premorbide functioneren. Naast de case geschiedenisdata van de huidige patiënt kan eerder onderzoek naar patiënten met dezelfde problematiek gebruikt worden als bron van informatie en vergelijking.

Interview

Er zijn verschillende gestructureerde interviews beschikbaar als hulpmiddel bij neuropsychologisch onderzoek. Zo zijn er een aantal screening vragenlijsten en checklists om richting te geven aan het verdere onderzoek. Sommige worden ingevuld door de onderzoeker, andere zijn zelfrapportagemethoden. Een voorbeeld van een screening instrument is het Mini-Mental State Exam, waarmee cognitieve beperking kan worden geïdentificeerd. Factoranalyse heeft uitgewezen dat de vragenlijst vooral concentratie, taal, oriëntatie, geheugen en aandacht meet. Een ander voorbeeld is de 7 Minute Screen, een test die onderzoekt op symptomen van Alzheimer. Deze testen hebben het doel om oppervlakkig te screenen en mogen niet gebruikt worden voor diagnostiek.

Neurologische mentale status-onderzoek

Bij een algemene mentale status-onderzoeking kijkt men naar bewustzijn, emotionele staat, inhoud en duidelijkheid van gedachten, geheugen, waarneming, actie, taal, spraak, handschrift en handvoorkeur. In de neurologische mentale status-onderzoeking kunnen deze testen nog extra uitgebreid worden op gebieden die relevant zijn voor het specifieke geval. Tijdens de onderzoeking is de onderzoeker vooral ook bezig de patiënt te observeren. Alle aspecten die betrekking hebben op het neuropsychologisch functioneren, zoals motorische of sensorische problematiek, worden bijgehouden.

Fysiek onderzoek

De meeste neuropsychologen doen ook fysiek onderzoek, maar de mate waarin ze dat doen verschilt per psycholoog. Competente neuropsychologen voeren veel van dezelfde niet-invasieve procedures (niet belastend voor de patiënt) uit als de neuroloog. In het fysieke onderzoek kan bijvoorbeeld gekeken worden naar abnormaliteiten in de schedel, maar ook naar de spanning, kracht en grootte van de spieren. Vondsten moeten altijd vanuit het perspectief van case geschiedenis geïnterpreteerd worden. Een ander onderdeel is het testen van reflexen. Dit zijn onvrijwillige motorische responsies op bepaalde stimulatie. Het ontbreken van reflexen of het behoud van reflexen uit de tijd na de geboorte kunnen duiden op neurologische problemen. Ook andere organen en systemen kunnen onderzocht worden. Zo bestaan er allerlei procedures om het functioneren van de belangrijkste zenuwen te onderzoeken. Het functioneren van de gezichtszenuw wordt bijvoorbeeld getest door in het gezicht te prikken of door te kijken of temperatuur gevoeld kan worden.

Neuropsychologische Testen

Er bestaat een grote variëteit aan neuropsychologische testen om het functioneren van de patiënt te objectiveren. Hieronder staan een aantal belangrijke types testen toegelicht.

Testen voor intellectuele vermogens

De variëteit aan subtesten op de Wechsler intelligentietest maakt de Wechsler een geschikt instrument om te screenen voor mogelijke neuropsychologische problemen. Bepaalde responspatronen kunnen bekeken worden in een patroonanalyse. Deze patronen kunnen bepaalde gebreken indiceren. Een lage score op performale taken in combinatie met een hoge score op verbale taken kan bijvoorbeeld schade in de rechterhersenhelft suggereren. Een aantal onderzoekers heeft getracht speciale scores te berekenen op grond van de Wechsler scores. Wechsler zelf ontwikkelde bijvoorbeeld de detoriatiequotiënt. Echter, geen van deze indices is voldoende valide gebleken om hersenschade zonder meer te diagnosticeren. Hoewel de meeste assessment-psychologen zich moeten houden aan de instructies in de testhandleiding, heeft een neuropsycholoog de vrijheid om de testafname aan te passen aan de behoeften van de cliënt. Iemand die snel vermoeid is kan de testen bijvoorbeeld in een andere volgorde gepresenteerd krijgen, met de moeilijkere onderdelen eerst.

Testen voor abstract denkvermogen

Een gebruikelijk symptoom van neuropsychologische gebreken is een verminderd abstract denkvermogen. Er bestaan dan ook verschillende testen om abstract denkvermogen te testen. Een voorbeeld is de Wechsler Similarities subtest, waarbij mensen de overeenkomsten tussen verschillende objecten moeten benoemen. In de Proverb Test moeten mensen spreekwoorden interpreteren, ofwel in een open vraag ofwel in een multiple choice-item. Hoe minder letterlijk en concreet de interpretatie, hoe beter het abstract denkvermogen. Deze test is gestandaardiseerd en kent normreferenties. Non-verbale testen van abstract denkvermogen zijn sorteertaken. In de Object Sorting Test moeten mensen objecten die bij elkaar horen onderscheiden. In de Color-Form Sorting Test moeten objecten gesorteerd worden op kleur of vorm. Een andere manier om abstract denkvermogen te testen is om objecten te groeperen en de cliënt te vragen waarom ze bij elkaar horen of welk object er niet tussen hoort. In de Wisconsin Card Sorting Test moeten kaarten met geometrische vormen in verschillende kleuren gegroepeerd worden volgens een bepaalde regel. Om deze taak succesvol af te ronden is een goed functioneren van de frontale kwab essentieel. Dit hersengebied is belangrijk voor planning, concentratie, organisatie, werkgeheugen, cognitieve flexibiliteit en impulscontrole. Een slechte prestatie op de Wisconsin indiceert beschadiging van dit hersengebied, maar er zijn alternatieve verklaringen mogelijk. Mensen met schizofrenie presteren bijvoorbeeld ongeveer hetzelfde op de test. Deze alternatieve verklaringen moeten uitgesloten worden.

Testen voor executief functioneren

De taken waarvoor de frontale kwab verantwoordelijk is (planning, organisatie, cognitieve flexibiliteit en impulscontrole) vallen onder het executief functioneren. Hieronder staan een aantal testen die dit functioneren meten.

  1. De puzzel van de Toren van Hanoi: hierbij moeten ringen van de ene naar de andere plaats in afnemende grootte op elkaar worden gestapeld.
  2. Het vermogen om de weg door een doolhof te vinden. Porteus introduceerde deze test voor het testen van allerlei vermogens, zoals aandacht, persoonlijkheid en sociaal functioneren. Tegenwoordig wordt de test alleen nog gebruikt om executief functioneren te meten. Het is overigens gebleken dat deze test niet geschikt is voor afname bij kinderen.
  3. De klok teken-test is een test waarbij mensen een klok moeten tekenen waarbij de wijzers een bepaalde tijd aangeven. Een slechte prestatie op deze taak indiceert cognitieve beperkingen (bijvoorbeeld door dementie) en een beperkt visueel geheugen.
  4. Een spoor trekken-test is een test waarbij mensen objecten (bijvoorbeeld getallen en letters) op een logische manier aan elkaar moeten verbinden. Deze taak meet visueel-conceptueel, visueel-motorisch, planning en ander cognitief vermogen. De Trail Making Test is één van de meest gebruikte neuropsychologische testen.
  5. Een zoekveldtest is een test waarbij een bepaald item teruggevonden moet worden in een veld vol daarop lijkende andere items. Meestal moet dat binnen een bepaalde tijd. Mensen met laesies in de rechterhemisfeer hebben moeite met deze taak. De taak heeft overigens nog veel meer toepassingen gevonden, bijvoorbeeld in het ontwikkelen van beter inzicht in taken zoals het besturen van een auto.
  6. Confrontatiebenoeming wordt gemeten door de Boston Naming Test. Hierbij moet een figuur, bijvoorbeeld een hond, benoemd worden. Deze taak meet drie vermogens: perceptueel, semantisch (betekenis toekennen) en lexicaal (in woorden vatten).
  7. In een absurde plaatjes-test moet aangegeven worden wat er niet klopt aan een plaatje. Deze items worden ook gebruik op de Stanford-Binet intelligentietest en meten sociaal begrip en redeneringsvermogen.

Testen voor perceptueel en motorisch functioneren

Een perceptuele test meet sensorisch functioneren, waaronder zicht, gehoor, reuk, aanraking, smaak en balans. Een motorische test meet het vermogen om lichaamsdelen te bewegen of zich voort te bewegen. Een perceptueel-motorische test meet de integratie en de coördinatie van perceptuele en motorische vermogens, bijvoorbeeld oog-handcoördinatie. Een voorbeeld van een perceptuele test is de Ishihara, die op kleurenblindheid screent. Een voorbeeld van een auditief-perceptuele test is de Wepman Auditory Discrimination Test. Hierbij leest de onderzoeker steeds twee onzinwoorden voor zonder dat zijn mond te zien is. De cliënt moet dan zeggen of het twee keer hetzelfde woord was of niet. Omdat niet iedere onderzoeker even duidelijk articuleert is het niet duidelijk of deze test betrouwbaar en valide is. Een voorbeeld van een motorische test is de Bruininks-Oseretsky Test of Motor Proficiency. Deze test is ontworpen voor kinderen en meet rensnelheid, behendigheid, evenwicht, kracht en responssnelheid. Een behendigheidstest is bijvoorbeeld de Purdue Pegboard Test, waarbij mensen staven zo snel mogelijk in de daarvoor bedoelde gaten moeten stoppen; eerst met de ene hand, dan met de andere en dan met beide.

Een voorbeeld van een perceptueel-motorische test is de Bender Visual-Motor Gestalt Test, ontwikkeld door Bender. Hierbij moeten door Gestalpsycholoog Wertheimer ontwikkelde vormen nagetekend worden. Hoewel er bij deze test geen tijdslimiet werd gesteld, werd een lange duur gezien als diagnostisch significant.

Bender bood geen scoringsprocedures bij de test en vond dat prestaties op klinische wijze gescoord en geïnterpreteerd moesten worden. Vanwege de populariteit van de test werden er echter al snel procedures en normreferenties ontwikkeld. Zo werden er vaste begrippen voorgesteld waarmee verschillende responsietypes konden worden omschreven, zoals een geroteerde, vertekende of disproportionele kopie. Ook werden er aanpassingen geïntroduceerd. Gobetz stelde een taak voor waarbij subjecten zo veel mogelijk van de getekende figuren op een later moment moesten reproduceren. Deze geheugentaak zou iets zeggen over de persoonlijkheidstrek neuroticisme. De geheugentaak wordt nog steeds veel gebruikt, maar dan om meer neurologische informatie te verschaffen. Max Hutt geloofde dat de prestatie op de Bender-taak ook iets zei over onbewuste ontwikkelingsconflicten. Hij pleitte dan ook voor het gebruik van de Bender als projectieve test. In de tweede versie van de test werden zeven nieuwe items toegevoegd waarvan er vier geschikt waren voor kinderen van 4 tot 7 en drie voor kinderen ouder dan 8. Ook werd er een geheugentaak toegevoegd. Tenslotte werden er een motorische en een perceptuele test toegevoegd, om duidelijk te krijgen of het disfunctioneren op de taak door één van deze vermogens veroorzaakt werd. De kwaliteit van de kopie wordt beoordeeld op een schaal van 0 tot 4. Scores zijn gestandaardiseerd op grond van een grote gestratificeerde steekproef waarin subgroepen (zoals mensen met mentale beperkingen, ADHD, autisme, Alzheimer en hoogbegaafdheid) goed gerepresenteerd waren. Er is ondersteuning gevonden voor test-hertest-, interne consistentie- en tussen-scorers-betrouwbaarheid. Vroeger dacht men dat het motorisch-perceptueel vermogen in de kindertijd steeds toenam en na de adolescentie stabiel bleef, maar tegenwoordig zijn er ook vondsten die suggereren dat deze vermogens met de leeftijd snel weer afnemen.

Testen voor verbaal functioneren

Verbale vloeiendheid kan beperkt worden door neurologische beschadiging. In de Controlled Word Association Test wordt dergelijke schade opgenomen. In de test noemt de onderzoeker een letter. De patiënt moet zoveel mogelijk woorden bedenken die met die letter beginnen. De score bestaat uit het aantal correct gedefinieerde woorden. Hoewel deze test slecht gemaakt wordt door dementiepatiënten in vergelijking met normale controlegroepen, is de test niet goed genoeg om gebruikt te worden bij de diagnose van dementie.

Afasie is het verlies van het vermogen om jezelf in gesproken of geschreven taal uit te drukken als gevolg van een neurologische beschadiging. Om deze beperking te identificeren zijn verschillende testen ontwikkeld, zoals de Reitan-Indiana Aphasia Screening Test. Deze test is geschikt voor volwassenen en kinderen. De test bestaat uit verschillende taken, zoals het benoemen van objecten, het opvolgen van verbale instructies en het opschrijven van woorden. Factoranalyse heeft twee belangrijke vermogens aangewezen die door de test gemeten worden; namelijk taalvermogen en de coördinatie die nodig is om woorden op te schrijven of om te tekenen. Voor mensen uit een culturele minderheid kan overigens een meer cultureel relevant instrument worden gebruikt, zoals de Multilingual Aphasia Examination.

Testen voor geheugen

Het geheugen is complex en bestaat uit veel componenten. Binnenkomende informatie wordt tijdelijk vastgehouden in het korte termijngeheugen. Hier wordt de informatie gebruikt voor het uitvoeren van allerlei taken (het wordt daarom ook wel het werkgeheugen wordt genoemd). Het bewustzijn staat in contact met het werkgeheugen en deze componenten verschaffen elkaar informatie. Informatie uit het werkgeheugen kan overgebracht worden naar het lange termijngeheugen. Het lange termijngeheugen bestaat uit het procedurele geheugen; het geheugen voor bewegingen en procedures zoals het besturen van een auto. Dingen terughalen uit dit geheugen kost over het algemeen weinig inspanning. Het declaratieve geheugen is voor feitelijke informatie.

Het declaratieve geheugen bestaat weer uit het semantisch geheugen voor feitenkennis en het episodisch geheugen voor herinneringen gevormd in de eigen context en het eigen verleden. Informatie uit dit lange termijngeheugen kan vervolgens weer teruggehaald worden naar het werkgeheugen en in het bewustzijn. Een andere vorm van geheugen speelt zich op onbewust niveau af. Dit is het impliciete geheugen.

Een veel gebruikte geheugentest is de California Verbal Learning Test-II (CVLT-II). Hierbij moeten subjecten woorden onthouden en reproduceren of herkennen. De test heeft scores voor herinnering, herkenning, leersnelheid, type fouten en encoderingstrategieën. Er zijn verschillende vormen van de test beschikbaar, bijvoorbeeld voor mensen die moeite hebben met aandacht, voor kinderen en een alternatieve vorm voor hertest-doeleinden. Een andere geheugentest is de Wechsler Memory Scale (WMS). Hiervan zijn veel herzieningen gepubliceerd. De vierde herziening (WMS-IV) maakte mogelijk dat de test in minder tijd afgenomen kon worden, dat die ook bij ouderen afgenomen kon worden en duidelijker gescoord kon worden.

Er zijn ook specifiekere, minder gebruikelijke geheugentesten. Eén type geheugentesten richt zich op het tactiele geheugen; het geheugen voor aanraking. In de Milner-test moeten mensen vormen voelen en die onthouden. In de Seguin-Goddard Formboard moeten mensen op gevoel figuren in de daarvoor bestemde sparingen stoppen. Een ander type geheugentesten tracht het geheugen realistischer te meten door meer real life situaties in de items te gebruiken. Een voorbeeld hiervan is de testbatterij van Crook en Hostetler.

Neurologische testbatterijen

Neuropsychologen kunnen ervoor kiezen om een vaste batterij af te nemen; een voorgestructureerde batterij die bij iedere cliënt op dezelfde wijze wordt afgenomen. Ook kan men kiezen voor een flexibele batterij; een set instrumenten die speciaal zijn geselecteerd voor de assessment van de cliënt in kwestie. In het laatste geval heeft de testafnemer meer verantwoordelijkheid en kennis nodig, bijvoorbeeld om verschillende testresultaten te integreren. Een nadeel van een flexibele batterij is dat de testen vaak wat overlappen. Het nadeel van een vaste batterij is dat de specifieke beperking van de cliënt invloed kan hebben op de testresultaten. Een voordeel van de vaste batterij daarentegen is dat de scores ervan zwaarder wegen in de rechtbank dan die van een flexibele batterij, zoals bleek in de rechtszaak Chapple. Hierbij onderzochten drie neuropsychologen of het slachtoffer van een auto-ongeluk blijvende hersenschade had opgelopen. Twee daarvan kwamen tot de conclusie dat er sprake was van blijvend letsel, beiden op grond van een flexibele batterij. De derde echter concludeerde op grond van een vaste batterij dat er geen blijvend letsel was. Deze laatste conclusie woog zwaarder in het oordeel van de rechtbank. Dus hoewel flexibele batterijen in de wetenschappelijke wereld geaccepteerd worden, worden ze in de rechtbank als inferieur beschouwd.

Een veelgebruikte vaste batterij is de Halstead-Reitan Neuropsychological Battery. Halstead onderzocht meer dan 10 000 patiënten met hersenschade. Op grond van zijn observaties ontwikkelde hij 27 testen om hersenschade te identificeren, die samen werden gevoegd tot de batterij. Later werd zijn werk uitgebreid door zijn leerling Reitan. De afname en interpretatie van de batterij vergt veel training van de testafnemer en een hoop tijd. De test meet onder andere categorisering, tactiele prestatie, ritmegevoel, spraakperceptie en tijdsbesef. De test genereert een Halstead Impairment Index, die bij 0.5 of hoger een neurologische beperking indiceert. De test wordt gezien als betrouwbaar en er is ondersteuning gevonden voor discriminante validiteit. Een andere vaste batterij is de Luria-Nebraska Neuropsychological Battery (LNNB). Deze meet cognitieve vermogens en beperkingen en indiceert of en waar er sprake zou kunnen zijn van hersenschade. Afname van de LNNB kost minder tijd dan afname van de Halstead, maar niettemin gaat de voorkeur uit naar de laatste.

Andere batterijen zijn specifieker gericht op één gebied van neurologisch functioneren in plaats van het algehele functioneren. Er zijn bijvoorbeeld batterijen voor visuele, sensorische, geheugen- en communicatieproblemen. Ook bestaat er een batterij specifiek gericht op mensen waarbij normale testafname niet mogelijk is vanwege hun beperking, de zogeheten Severe Impairment Battery.

Andere instrumenten

Tot nu toe zijn de instrumenten die ingezet worden bij neuropsychologisch onderzoek case geschiedenisdata, het interview, fysiek onderzoek en testen besproken. Er zijn nog andere instrumenten. Zo zijn er allerlei apparaten waarmee hersenschade letterlijk bekeken kan worden. Plaatjes van de hersenen kunnen aanvullende informatie bieden bij het identificeren van het neurologische probleem. Met röntgen kan de dichtheid van het weefsel bekeken worden. Op die manier kan hersenschade ontdekt worden. Bij een cerebraal angiogram wordt er voor de röntgenfoto eerst een stof in het bloed geïnjecteerd, waardoor het bloed gevolgd kan worden. Bij een CAT (computerized axial tomography) scan wordt een driedimensionaal plaatje van de hersenen gevormd. Bij een PET (positron emission tomography) scan kunnen ook biochemische abnormaliteiten in de hersenen worden opgespoord. Bij SPECT (single photon emission computed tomography) wordt een radioactieve stof gevolgd, waardoor gedetailleerde plaatjes van organen en weefsel gevormd kunnen worden. Een hersenscan is een scan die gemaakt wordt aan de hand van een geïnjecteerde radioactieve stof waardoor veranderingen in de bloedspiegel gemeten kunnen worden. Een elektro-encefalograaf (EEG) is een apparaat dat de elektrische activiteit in de hersenen meet door elektroden op de schedel. EEG varieert met leeftijd, mate van alertheid en andere factoren. Zenuwschade kan ook geïdentificeerd worden door te kijken naar spieractiviteit. De elektrische activiteit van een spier kan door de elektromyograaf (EMG), die in verbinding staat met een elektrode in de spier, gemeten worden. Bij de echoencephalograaf wordt energie vertaald naar geluidsgolven die door het lichaam worden uitgezonden. De echo's van deze golven worden terugvertaald naar een plaatje. Behalve brain imaging technieken kunnen ook andere medische procedures worden toegepast. Zo kan gekeken worden naar chemische stofjes in lichaamsvloeistoffen. Bij een lumbale punctie wordt vloeistof uit de ruggengraat geanalyseerd.

Een laatste instrument dat erg nuttig is gebleken binnen de neuropsychologische praktijk en onderzoek, is de fMRI (functional magnetic respons imaging). fMRI creëert bewegende live-beelden van het intern functioneren van het lichaam en de hersenen, en is vooral geschikt bij het identificeren van de delen van de hersenen die actief zijn op verschillende momenten en tijdens verschillende taken.

Welke methoden van assesment in het beroeps- en zakenleven zijn er ontwikkeld? - Chapter 16

 

In loopbaanbegeleiding en beroepskeuzecounseling wordt veel gebruik gemaakt van assessment. Ook door de werkgever zelf kunnen allerlei testen afgenomen worden. In dit hoofdstuk wordt dergelijk gebruik van assessment behandeld.

Beroepskeuze en personeelsselectie

Er zijn verschillende manieren waarop men het beroep dat het beste bij je past kan identificeren. Je kunt onder andere kijken naar interesses, vaardigheden en talenten, attitudes tegenover werk en zelfverzekerdheid. Het is gebleken dat bij kinderen van 15 al interessetesten afgenomen kunnen worden die zinvol zijn voor beroepskeuze. Interesses zijn tamelijk stabiel door de tijd heen.

Interessetesten

De afname van interessetesten bij werknemers berust op de aanname dat geïnteresseerdheid zorgt voor betere prestatie, productiviteit en tevredenheid. Werkgevers kunnen ook informatie over de interesses van hun huidige werknemers gebruiken om nieuwe werknemers aan te trekken. De eerste interessetest was bedoeld voor kinderen en werd ontwikkeld door Hall. Pas lange tijd daarna ontwikkelde Strong de Strong Vocational Interest Blank (SVIB). Aanvankelijk bestond er een aparte vorm voor mannen en vrouwen. De Strong-Campbell versie uit ’74 van de test was echter voor beide seksen bedoeld. De nieuwste herziening dateert uit 2004, en de test wordt nu Strong Interest Inventory, Revised Edition (SII) genoemd. Dit is de meest gebruikte interessetest van het moment. Strong ontwikkelde de test door eerst honderden interesse-items te bedenken, die af te nemen bij verschillende beroepsgroepen, vervolgens te kijken welke items het beste discrimineerden tussen verschillende groepen en op grond daarvan een uiteindelijke versie ontwikkelen die zou kunnen aangeven of iemands interesses bij de typische interesses van een bepaalde beroepsgroep aansluiten. De test bevat items over interesses op gebieden van werk, schoolonderwerpen en activiteiten. Ook zijn er items met persoonskenmerken. Er bestaan nog andere interessetesten, zoals de Self-Directed Search (SDS), gebaseerd op de beroepspersoonlijkheden van Holland (realistisch, onderzoekend, artistiek, sociaal, ondernemend of conventioneel). Een andere test is de Minnesota Vocational Interest Inventory. Deze test kijkt hoe goed jouw interesses aansluiten op die van mensen met een niet-professionele baan. Nog weer andere testen richten zich op mensen met een beperking of handicap.

In hoeverre zeggen interessetesten nu inderdaad iets over het latere beroepsleven? Uit een onderzoek bleek dat interesse en daadwerkelijke vaardigheid gemiddeld correleerden. Ook bleek dat een goede match tussen iemands vaardigheid en het niveau van zijn werk zorgde voor betere prestaties. Echter, de tevredenheid van de werknemer hing hier niet vanaf. Ook bleek dat interesse zoals gemeten op de middelbare school noch prestatie op het werk noch tevredenheid met het werk voorspelde. Men moet dus niet te veel vertrouwen op intelligentietestscores (van de middelbare school) bij de beroepskeuze. Het is overigens gebleken dat de predictieve validiteit van deze instrumenten vergroot kan worden door ze in combinatie met andere instrumenten te gebruiken.

Vaardigheidstesten

Bij beroepskeuze is het ook zinvol om te bekijken wat iemand kan. Men kan bijvoorbeeld gebruik maken van prestatie- of aptitudetesten. Een aptitudetest meet ook informeel geleerde informatie. Er bestaan verschillende vaardigheidstesten voor gebruik bij beroepskeuze. Bij de Wonderlic Personnel Test worden mentale vermogens in algemene zin gemeten. Er zijn ook specifiekere testen, zoals de Bennet Mechanical Comprehension Test, die inzicht in de invloed van fysieke processen op objecten meet. Bij beroepen waar veel behendigheid voor vereist is kan men behendigheid en coördinatie meten.

General Aptitude Test Battery

De door de overheid ontwikkelde General Aptitude Test Battery (GATB) wordt veel gebruikt om (werkloze) mensen te ondersteunen bij hun beroepskeuze. Soms wordt maar een deel van de test afgenomen. Bij de Special Aptitude Battery (SATB) wordt alleen de vaardigheid in een specifiek werkgebied gemeten. De test bestaat uit twaalf taken die 8 vaardigheden meten (waaronder ruimtelijk, verbaal en motorisch). Deze worden weer samengevat in drie samengestelde scores: een cognitieve, perceptuele en psychomotore score.

Voorheen werd iedere score afgemeten aan de gemiddelde score van de specifieke beroepsgroep. Tegenwoordig baseert men zich op algemenere, overkoepelende beroepstypes, zoals een analyserend of een ondernemend beroep. Rond de jaren ‘80 werd de GATB onderwerp van hevige controverse toen bleek dat het rassennormen hanteerde. Dat betekent dat er voor andere rassen andere normen worden gebruikt. De National Academy of Science (NAS) deed hiernaar onderzoek. Het bleek dat de test zowel een helling- als een interceptvertekening (zie hoofdstuk zes) bevatte. Door de hellingvertekening correleerde testscores meer met criteria voor blanken dan voor zwarten en door de interceptvertekening zouden scores van zwarten te hoog uitvallen. Daarom achtte de NAS het gerechtvaardigd dat er rassennormen gebruikt werden om voor deze vertekeningen te compenseren. Uit het onderzoek bleek overigens ook dat de criteriumvaliditeit niet hoger was dan 0.20, maar dat zou ook kunnen komen door de onbetrouwbaarheid van het criterium (het oordeel van de leidinggevende). De test bleef daarom gebruikt worden. Vanwege de rassennormering bleef hij echter wel controversieel. In 1991 werd rassennormering verboden, waarna deze procedure uit de GATB werd verwijderd. De GATB wordt nog altijd gebruikt.

In de GATB is gebruik gemaakt van validatiegeneralisatie. Hierbij wordt validiteitsevidentie die in een situatie is verkregen toegepast op andere situaties. Bij de GATB houdt dat in dat testscores aptitude in meerdere beroepen kunnen voorspellen. Als er geen gebruik gemaakt kon worden van deze techniek, moest voor ieder van de 12 000 bekende beroepen (in de VS) een dergelijke validiteitsstudie uitgevoerd worden. Het is gebleken dat de drie samengestelde scores van de GATB werkprestatie voor alle beroepen op valide wijze voorspelt. De aptitude die voor ieder van de vijf beroepstypes nodig is kan beschreven worden in termen van de benodigde hoeveelheid vaardigheid in de drie GATB scores. Van ondernemende beroepen bijvoorbeeld is 59% cognitief, 30% perceptueel en 11% psychomotorisch. Validatiegeneralisatie heeft een groot aantal voordelen. Zo hoeft er geen gebruik gemaakt te worden van grensscores. Ook is gebleken dat aptitudescores lineair samenhangen met prestatie op het werk. Een ander voordeel is dat er preciezere informatie over de relatieve vermogens van een persoon verschaft wordt. Tenslotte blijkt dat deze techniek werkgevers helpt om gekwalificeerde werknemers aan te nemen. Er zijn echter ook punten van kritiek op validatiegeneralisatie en de GATB. In de ontwikkeling van de validatiegeneralisatie, waarbij gebruik gemaakt werd van meta-analyse, schijnen een aantal technische complicaties op te treden. Tevens kan men zich afvragen hoe valide het is om 12 000 beroepen samen te vatten in vijf clusters. Tenslotte is het moeilijk gebleken om validatiegeneralisatie te evalueren, onder andere door maatschappelijke factoren zoals de status van een beroep en de economische vooruitgang.

Persoonlijkheidstesten

Men neemt aan dat persoonlijkheid belangrijk is voor allerlei beroepsgerelateerde factoren. Zo is gebleken dat het temperament van zeer jonge kinderen de tevredenheid met een baan 50 jaar later voorspelde. Het gebruik van persoonlijkheidstesten in beroepskeuze is echter controversieel. Zo zouden er vaak onware antwoorden worden gegeven om een positief beeld van zichzelf te creëren. Voorstanders van de test zeggen dat het op zich nog niet gemakkelijk is te doen alsof op een persoonlijkheidstest en dat de verzamelde data nog wel bruikbaar zijn. Zij stellen dat persoonlijkheidsdata bruikbaarder zijn dan cognitieve data. Hoewel alle persoonlijkheidstesten gebruikt kunnen worden zijn sommige geschikter dan andere. Een klinische test is minder geschikt dan een kortere, algemenere test. Veelgebruikte tests zijn de NEO PI-R en de Myers-Briggs Type Indicator (MBTI). De NEO PI-R wordt gebruikt om persoonlijkheidstrekken te meten, die vervolgens gerelateerd worden aan bepaalde beroepsgerelateerde variabelen. Tot nu toe is er nog maar weinig onderzoek geweest naar hoe persoonlijkheid aansluit op een bepaalde organisatie van cultuur.

Integriteitstest

Een specifiekere persoonlijkheidstest is een integriteitstest, waarmee trekken gerelateerd aan diefstal, ongehoorzaamheid en gewelddadigheid op de werkvloer worden gemeten. Een integriteitstest is een voorbeeld van een ‘criterion-focused occupational personality scale,’ afgekort COPS. Het gebruik van de integriteitstesten is sterk toegenomen sinds gebruik van de polygraaf verboden is. Items op deze testen zouden in twee categorieën vallen: openlijke integriteit en op persoonlijkheid gebaseerde testen. De laatste categorie meet integriteit op een subtieler niveau. De validiteit van integriteitstesten staat niet vast: studies hebben gemengd dan wel positief bewijs geleverd. Veel van de kwesties rondom integriteitstesten worden beschreven en opgelost in de ‘Model Guidelines for Preemployment Integrity Testing Programs.’ Integriteitstesten kunnen namelijk veel vragen oproepen. Wordt de privacy van de werknemer niet geschonden? Tevens lijkt er bewijs te zijn dat integriteitstesten negatievere attitudes tegenover werk voorspelden.

Myers-Briggs Type Indicator (MBTI)

De MBTI is ontwikkeld door een moeder en dochter, beiden leken in de psychologie. Hun inspiratie was het werk van Carl Jung over persoonlijkheidstypen. Hoewel de test intern consistent en stabiel over tijd lijkt te zijn, zijn er ook een aantal punten van kritiek op de test. Niettemin wordt hij zeer veel toegepast, vooral bij personeelsselectie en beroepskeuze. De MBTI heeft velerlei toepassingen gevonden op allerlei gebieden.

De relatie tussen persoonlijkheid en werkprestaties

Het blijkt niet eenvoudig om een relatie tussen persoonlijkheid en werkprestaties vast te stellen. Dit heeft onder andere te maken met de definitie van werkprestatie. Er is geen objectieve maatstaaf die voor alle beroepen kan worden gebruikt. Daarnaast zijn er kwesties met betrekking tot welk persoonlijkheidsaspect gemeten moet worden. Verschillende persoonlijkheidsaspecten hebben namelijk een verschillende betekenis en weging voor verschillende beroepen. Echter, het bestuderen van werkprestaties met betrekking tot Big Five trekken heeft tot enkele nuttige bevindingen geleid. Barrick e.a. hebben een second-order meta-analyse (een meta-analyse die andere meta-analyses samenvat) uitgevoerd en kwamen tot de conclusie dat over het algemeen hoge conscientieusheidsscores gecorreleerd waren met goede prestaties, en dat hoge neuroticismescores gecorreleerd waren met slechte werkprestaties. Ook werd er een positieve correlatie gevonden tussen extraversie en werkprestaties.

Andere testen

Er worden nog veel meer testen gebruikt in een beroepssetting, waarvan een deel oorspronkelijk niet eens voor dat doel bedoeld was. De Checklist of Adaptive Living Skills (CALS) kijkt bijvoorbeeld of mensen de vaardigheden hebben om een succesvolle overgang van school naar werk te maken. Iemand wordt als onafhankelijk gezien in een bepaalde vaardigheid als hij een taak 75% van de keren zonder hulp of herinnering goed volbrengt. Een andere alternatieve meting is de Cross-Cultural Adaptability Inventory (CCAI), die meet in hoeverre iemand in staat is om zich aan te passen aan andere culturen. De test geeft informatie over de factoren emotionele veerkrachtigheid, flexibiliteit/openheid, perceptuele scherpzinnigheid en persoonlijke autonomie. Een volgende alternatieve meting is informeler. Volgens Laker moeten studenten op een rijtje zetten wat zij denken en verwachten van een bepaalde carrière. Vervolgens zoeken zij contact met iemand die deze carrière heeft en controleren ze bij deze persoon of hun opvattingen kloppen. Een test die kan assisteren bij carrièreverandering is de Career Transitions Inventory. Deze test onderscheidt taakverandering (ander takenpakket, dezelfde baan), positieverandering (andere positie, dezelfde werkgever) en occupatieverandering (andere plichten en andere werkomgeving). In de test wordt gekeken of iemand psychologisch voldoende is voorbereid op een verandering. Ook als iemand met (vervroegd) pensioen wil kan gebruik gemaakt worden van testen. Men moet kijken naar tevredenheid met het werk, algemene tevredenheid met het leven, doelgerichtheid en sociale steun. Hiervoor bestaan verschillende testen. Tenslotte is er nog een test die meet hoe goed iemand zich aanpast aan zijn pensioen.

Personeelsselectie

Bij personeelsselectie kan ten eerste gebruik gemaakt worden van screening. Hierbij worden mensen op globale wijze getest op een aantal minimale criteria waaraan voldaan moet worden voordat iemand in aanmerking komt voor verdere assessment. Selectie is het proces waarbij sommige werknemers aangenomen worden en andere verworpen op grond van criteria. Bij classificatie worden mensen niet verworpen of aangenomen, maar geëvalueerd op twee of meer criteria. Op grond hiervan kan bepaald worden voor wat voor positie iemand in aanmerking komt. Plaatsing is het toewijzen aan een groep of categorie, soms op basis van één criterium. Een voorbeeld is een toelatingsexamen voor een opleiding. In al deze personeelsselectieprocedures kunnen alle tot nu toe behandelde testen gebruikt worden.

Curriculum Vitae en sollicitatie documenten

Op het curriculum vitae geeft men een samenvatting van kwalificaties, opleiding en ervaring die een individu bezit. Het CV wordt meegestuurd met een sollicitatiebrief, waarin men motivatie, zakelijke schrijfstijl en persoonlijkheid kan demonstreren. Een sollicitatiebrief of CV zijn nooit voldoende om iemand aan te nemen. Wel kan een brief aanleiding zijn om iemand uit te nodigen voor gesprek of verdere assessment. Het tegenovergestelde geldt wel: iemand kan wel afgewezen worden voor een baan op grond van zijn brief en CV. Naast een sollicitatiebrief kan een sollicitant ook een sollicitatieformulier invullen. Hierop wordt gevraagd naar demografische informatie, opleiding, werkervaring en contactgegevens. Een formulier is geschikter voor snelle screening door een werkgever dan een brief. Een ander sollicitatiedocument dat de werkgever in overweging kan nemen is een aanbevelingsbrief. Een dergelijke brief kan een bron vormen van gedetailleerde informatie, bijvoorbeeld over iemands prestaties en zijn omgang met collega’s. Een nadeel is dat de sollicitant alleen de positieve aanbevelingsbrieven selecteert. Tevens blijkt dat de schrijvers niet allemaal even objectief observeren en het vaak niet met elkaar eens zijn. Tussen de jaren ’20 en ’50 werden Joodse sollicitanten bijvoorbeeld veelal stereotypisch en negatief beschreven. Om dergelijke vertekening te voorkomen zijn er objectievere, gestructureerde vragenlijsten ontwikkeld.

Sollicitatiegesprek

Net als andere interviews kan het sollicitatiegesprek variëren van zeer gestructureerd tot ongestructureerd. Bij interviews is er altijd kans op vertekening. Het is bijvoorbeeld mogelijk dat iemand beter geëvalueerd wordt omdat zijn voorganger het slecht deed. Andere factoren die invloed kunnen hebben zijn achtergrond, attitudes, motivaties, percepties, verwachtingen, kennis van het beroep en gedrag van de sollicitant.

Portfolio-assessment

Bij portfolio-assessment bij personeelsselectie wordt werk van de sollicitant bekeken om hem op grond daarvan te screenen, selecteren, classificeren of te plaatsen. Bij portfolio-assessment kan de werkgever kijken wat de vaardigheden van de sollicitant zijn en wat de gedachtenprocessen en gewoontes zijn waarmee de sollicitant tot zijn werk komt. Dit geeft een completer plaatje van hoe de sollicitant zou werken.

Prestatie testen

Uiteraard wordt bij personeelsselectie ook vaardigheidstesten afgenomen. In dergelijke metingen wordt getracht een steekproef te nemen van werkgerelateerde prestaties. Deze testen kunnen heel specifiek zijn. Zo is er een test die stenografische competentie meet. De Minnesota Clerical Test (MCT) meet kantoorgerelateerde vaardigheden. In deze test moeten sollicitanten steeds kiezen of een paar numerieke of verbale items bij elkaar hoort of niet. De test meet de accuratesse en de snelheid van responsies. Een gebruikelijke methode bij assessment van leiderschapscapaciteit is de leiderloze groeptechniek.

Mensen moeten gezamenlijk een probleem oplossen, zonder dat er duidelijke aanwijzingen gegeven worden over hoe dat moet gebeuren. Hierbij worden onder andere communicatieve vaardigheden, probleemoplossend vermogen en omgaan met stress gemeten. Na de test wordt de groep gevraagd wie optrad als leider en wat de anderen voor rol hadden in het proces. Een andere test die wordt gebruikt om managementkwaliteiten te meten is de in-basket techniek. Hierbij krijgt een sollicitant een envelop (‘mandje’) met memo’s, aankondigingen, post, etc. De opdracht is om deze in een beperkt tijdsbestek zo efficiënt mogelijk te behandelen. Hierbij wordt organisatie, planning, probleemoplossend vermogen, beslissen, creativiteit, leiderschap en schrijfvaardigheid gemeten.

Testen voor piloten en astronauten

Al snel na de uitvinding van vliegtuigen ontstond er onderzoek naar welke fysieke en psychische factoren een piloot zou moeten bezitten. Eén van de eersten die zich hierover boog was de fysicus Anderson, die tijdens de WOI op een vliegbasis gestationeerd was. Later werd er gekeken of piloten de vaardigheden bezaten om een vliegtuig te besturen, de persoonlijkheidstrekken hadden die nodig waren voor een specifieke missie en de psychische gezondheid die nodig was voor een optimale prestatie.

Tevens ontstond de vraag naar assessment voor astronauten. Astronauten komen voor veel uitdagingen te staan tijdens een missie, zoals gewichtloosheid, isolatie en een onmogelijkheid om te ontsnappen. De NASA gebruikte allerlei testen om operationele capaciteiten, motivatie, sociale vaardigheden en stress tolerantie te meten. Later raakten meer cultureel diverse mensen en vrouwen geïnteresseerd voor het beroep van astronaut. Veranderingen in sociale dynamiek moesten daarom in overweging genomen worden. Er is wel kritiek op de selectieprocedures van de NASA. Volgens Santy wordt er bijvoorbeeld te weinig waarde gehecht aan het expertoordeel van de psycholoog of psychiater. Zowel bij het testen van piloten als van astronauten kan overigens gebruik gemaakt worden van computersimulaties.

Assessment centrum

Een assessment centrum is een organisationeel gestandaardiseerde evaluatieprocedure die gebruik maakt van meerdere assessmenttechnieken. De eerste keer dat het werd toegepast was in de Management Progress Study (’65). Hier werd een interview, vragenlijsten en verschillende oefeningen en taken afgenomen. De data werden geïntegreerd en beoordeeld op een aantal dimensies, zoals administratieve, sociale en cognitieve vaardigheden.

Fysieke testen

Voor veel banen zijn bepaalde fysieke kenmerken vereist. Blindheid is bijvoorbeeld uitgesloten bij veel beroepen. Sensorische testen worden vaak afgenomen bij fabrieksarbeiders. Fitheid is vaak een vereiste. Testen om fysieke fitheid te meten kunnen een compleet fysiek onderzoek, een krachttest en een ren-test bevatten. Fysieke testen zijn niet altijd zonder meer gerechtvaardigd. Over het algemeen staat de wet echter testen toe die niet discriminerend zijn en te maken hebben met de taken die bij het beroep horen.

Drugstesten

Het aannemen van iemand die drugs of alcohol gebruikt kan de werkgever veel geld kosten. Gebruikers zijn vaker afwezig, kunnen (gevaarlijke) fouten maken en zijn minder productief. Daarom is het zinvol om mensen op drugsgebruik te testen. Dit gebeurt overigens meestal alleen bij sollicitanten van wie vermoed wordt dat ze gebruiken, hoewel de overheid en het leger iedereen testen. Bij de Immunoassay Test wordt de urine onderzocht. Hiermee kan men zien of er drugs zijn gebruikt, maar niet welke drugs dat waren en hoeveel of wanneer er is gebruikt. Met de Gas Chromatography/ Mass Spectrometry test kan wel een indicatie gegeven van het type drugs. Veel werknemers protesteren tegen de afname van een drugstest, bijvoorbeeld omdat het indruist tegen hun recht op privacy. Tevens zijn de negatieve gevolgen van een false positive (vals beschuldigd worden van drugsmisbruik) of een false negative (een gebruiker wordt over het hoofd gezien) groot. Het blijkt dat er slechts 2% fouten worden gemaakt. Echter, 93% van de laboratoria voldoet niet aan de standaards om de invloed van menselijke vertekening te verminderen. Ook bestaat het risico dat gewone medicijnen voor illegale drugs worden aangezien. Niet iedere sollicitant wil of kan aangeven welke medicijnen hij gebruikt. Dan is er nog het probleem dat sommige soorten voedsel stoffen in de urine brengen die sterk lijken op drugs. Tenslotte blijkt dat sommige drugs heel lang in het lichaam blijven (zoals marijuana) terwijl andere binnen korte tijd verdwijnen (zoals cocaïne). In het laatste geval kan iemand die cocaïne gebruikt toch niet geïdentificeerd worden omdat hij de laatste drie dagen niet gebruikt heeft. Een alternatief voor het testen van urine is het testen van prestatie, bijvoorbeeld reactietijd, coördinatie en beoordeling van stimuli. Dit geeft een directe meting en neemt ethische problemen weg.

Cognitieve vermogens

Bij personeelsselectie wordt vaak gebruik gemaakt van testen van cognitieve vermogens. Deze vermogens blijken inderdaad toekomstige werkprestaties accuraat te voorspellen. Het gebruik van cognitieve testen is echter controversieel omdat verschillende groeperingen verschillend blijken te presteren. Zo presteren Aziaten standaard hoger op wiskundige testen. Dit vormt een gevaar voor de diversiteit in beroepsbezetting, iets waaraan veel waarde wordt gehecht in de maatschappij. Om dit recht te trekken heeft men verschillende grensscores voor verschillende groepen vastgesteld. Deze praktijk is echter sinds ’91 verboden. Men zoekt nog naar een manier om niettemin diversiteit te handhaven. Men zou bijvoorbeeld minder nadruk kunnen leggen op verbale metingen en meer op relevante werk- en levenservaring kunnen letten.

Overige toepassingen van assessment op de werkvloer

Assessment wordt niet alleen gebruikt bij beroepskeuze en personeelsselectie. Andere toepassingen worden hieronder behandeld.

Productiviteit

Productiviteit is de vruchtbaarheid van de inspanning en tijd die ergens aan besteed wordt. Het is de kwaliteit- en kwantiteitoutput die werknemers voortbrengen. Analyses van productiviteit kunnen duidelijk maken welke groepen minder doen in meer tijd en aan welke factoren dat precies ligt. Bij een dergelijke analyse kunnen beoordelingen van de leidinggevende, interviews met werknemers en beoordelingen van undercoverwerknemers gebruikt worden. Een veelgebruikte methode bij beoordeling door leidinggevenden is de gedwongen verdelingstechniek. Hierbij moet een vast percentage werknemers worden ingedeeld in iedere categorie (zoals ‘uitstekend’ of ‘matig’). Een andere methode is door te kijken naar het percentage van afwezigheid. Ook kan gebruik gemaakt worden van de kritische incidententechniek, waarbij de leidinggevende een periode lang positieve en negatieve gedragingen noteert. Deze techniek wordt vaak pas toegepast nadat de werknemer drie maanden in dienst is omdat de resultaten dan meer valide zijn. Een tweede methode om productiviteit te meten is beoordeling door collega’s. Hoewel collega’s prestaties over het algemeen hoger inschatten dan leidinggevenden blijkt deze beoordeling meer valide te zijn. Het grote nadeel is dat collega’s elkaar op verkeerde (persoonlijke) gronden kunnen beoordelen. Ze kunnen bijvoorbeeld denken dat een ander hen negatief beoordeelt en daarom die ander ook negatief beoordelen. Dan is er nog het speciale geval van de productiviteit van een team, twee of meer mensen die onafhankelijk interacteren en naar een gezamenlijk doel toewerken. Er wordt bijvoorbeeld gekeken wat het team weet en hoe dat verschilt van de kennis van ieder individu in het team. Ook wordt er gekeken naar het functioneren van de teamleider. Wat zijn diens leiderschapskwaliteiten?

Motivatie

Hoe iemand presteert op het werk en hoezeer hij zijn best doet, hangt af van zijn motivatie. Wat maakt dat iemand gemotiveerd is voor een baan? Uit een onderzoek van Champagne bij onopgeleide mensen bleek dat zij vooral gemotiveerd waren voor beroepen die stabiel waren. De onderzoeker waarschuwde dat de onderzochte factoren motiverend waren om een baan te nemen, maar niet per se om productief te blijven werken. Een andere benadering van motivatie is om te kijken naar de behoeften die werknemers op hun werk proberen te vervullen. Volgens Vroom investeren mensen meer energie in een taak als ze een bepaalde uitkomst verwachten. Als Maslow als uitgangspunt genomen wordt kan gekeken worden naar het niveau van behoefte dat de werknemer probeert te behalen en op welk niveau hij zich nu bevindt. Alderfer stelde voor om het hiërarchische aspect uit Maslows model te verwijderen. Als een behoefte bevredigd is kan een werknemer er bijvoorbeeld ook voor kiezen om op dat niveau te blijven en de behoefte verder te bevredigen. Als het op het ene niveau niet lukt, kan hij er bovendien voor kiezen om op een ander niveau verder te gaan. Weer een andere manier om motivatie te benaderen is via de behoeften zoals genoemd door McClelland en zoals gemeten door de TAT. Een hoge prestatiedrang wordt bijvoorbeeld gekenmerkt door een behoefte aan taken die uitdagend, maar wel haalbaar zijn met een gemiddeld niveau van risico. Op deze manier krijgt de persoon de optimale kans om goed te presteren. Met TAT kunnen ook motivaties als faalangst en angst voor succes gemeten worden. Motivatie kan ook benaderd worden als intern of extern. Intrinsieke motivatie is motivatie die voortkomt uit de persoon zelf. Bij extrinsieke motivatie wordt iemand gemotiveerd door een externe factor, zoals het salaris. De Work Preference Inventory meet de mate van intrinsieke en extrinsieke motivatie van een individu. Intrinsieke motivatie bestaat uit de mate waarin iemand zich uitgedaagd voelt en hoeveel plezier hij heeft in zijn werk. Extrinsieke motivatie bestaat uit de compensatie en erkenning die men voor het werk krijgt.

Burn-out

Een conditie die funest is voor de motivatie voor werk is een burn-out, veroorzaakt door een opeenstapeling van stress. Het is een syndroom van emotionele uitputting, depersonalisatie en verminderde prestatie op het werk. Depersonalisatie staat voor het zich afstandelijk opstellen naar andere mensen. De meest gebruikte test om een burn-out te identificeren is de Maslach Burnout Inventory (MBI). In sommige beroepen, zoals zorgberoepen, bestaat er grotere kans op een burn-out dan in andere.

Attitudes

Een attitude is een (geleerde) dispositie om op een bepaalde manier te reageren op een stimulus. Het is je houding tegenover iets; oftewel je mening erover. Hoewel attitudes gedrag niet per se voorspellen is het nuttig gebleken om ze te meten.

Tevredenheid

Tevreden werknemers zijn productiever, consistenter in hun werk en minder geneigd tot klagen en afwezigheid. Werktevredenheid wordt gedefinieerd als een positieve emotionele staat veroorzaakt door waardering van je baan of werkervaring. Een manier om tevredenheid te meten is om een werkdag op te nemen en de werknemer aan te laten geven welke situaties onprettig waren. Over die situaties worden dan allerlei vragen gesteld. Ook kan gefocust worden op cognitieve beoordelingen, het werkrooster, stress en de match tussen culturele achtergrond en de organisationele cultuur.

Organisationele toewijding

Het gevoel van loyaliteit aan, identificatie met en betrokkenheid bij de organisatie wordt organisationele toewijding genoemd. Een hoge toewijding geeft hogere productiviteit. De Organizational Commitment Questionnaire is ontworpen om deze toewijding te meten.

Organisationele cultuur

Een organisationele cultuur is de sociaal overgedragen gedragspatronen die kenmerkend zijn voor een bepaalde organisatie of bedrijf. Hieronder vallen de organisatiestructuur, de leiderschapsstijl, normen en waarden, tradities en typische manier van interacteren met verschillende groepen mensen. Het zijn kleine culturen op zich met eigen ceremoniën, rechten en privileges. Elke organisationele cultuur gaat op zijn eigen manier om met uitdagingen. Conflicten kunnen ontstaan als de ene bedrijfscultuur botst met de andere. Organisationele cultuur kan gemeten worden door de Discussion of Organizational Culture, waarbij vragen gesteld worden naar onder andere algemene kenmerken van de bedrijfscultuur, de fysieke ruimte en de organisatiestructuur.

Consumentenpsychologie

De tak van sociale psychologie die zich bezighoudt met de ontwikkeling en promotie van producten en diensten wordt consumentenpsychologie genoemd. Vragen waar consumentenpsychologie zich mee bezighoudt zijn bijvoorbeeld of er een markt voor een product bestaat, wie het product zou kopen en hoe mensen overtuigd kunnen worden om het product te kopen. In deze tak van psychologie wordt veel gebruik gemaakt van attitudemetingen.

Attitudes

Attitudes worden meestal gemeten door zelfrapportage, hoewel men zich kan afvragen of mensen wel voldoende in staat of bereid zijn tot zelfreflectie. Een manier om een meetinstrument te ontwikkelen is om beweringen die in overeenstemming zijn met bepaalde attitudes op een rijtje te zetten. Deze worden dan beoordeeld door verschillende groepen en de items die het beste discrimineren worden opgenomen in de uiteindelijke versie. Metingen van attitudes hebben veel toepassingen in real-life settings. De Self-Help Agency Satisfaction meet de tevredenheid van consumenten met de service die ze krijgen. Attitudemetingen worden ook toegepast in het onderwijs.

Impliciete meting van attitudes

Een onbewuste, onvrijwillige en automatische associatie, mening of reactie is een impliciete attitude. Deze kan gemeten worden door de Implicit Attitude Test (IAT), die er vanuit gaat dat het langere reactietijden oplevert als iemand een associatie moet maken die niet in overeenstemming is met zijn impliciete attitudes. Bewijs voor de validiteit van deze test is gevonden in de overeenstemming tussen bekende attitudes en die gemeten door de test. Rokers blijken uit de IAT bijvoorbeeld inderdaad positiever te staan tegenover roken. Impliciete attitudetesten hebben veel potentie voor de consumentpsychologie. Er bestaat echter wel kritiek. Wat is de theorie die ten grondslag ligt aan impliciete attitudetesten? Wat is de fysieke correlatie van deze attitudes en hoe weet je of testen inderdaad deze attitudes meten?

Enquêtes

Een enquête (survey) is een vaste vragenlijst die wordt afgenomen bij een geselecteerde groep mensen om attitudes, opvattingen en gedrag van consumenten ten opzichte van een product, een dienst of een advertentie te meten. Een voorbeeld van een enquête is een poll, een vragenlijst met korte antwoorden waarbij je voor of tegen iets kunt stemmen. Enquêtes kunnen face-to-face worden afgenomen. Het voordeel is dat vragen dan verduidelijkt en uitgelegd kunnen worden. Het kan echter ook leiden tot vertekening, bijvoorbeeld omdat de testafnemer zijn verwachtingen communiceert.

Enquêtes worden vaak face-to-face afgenomen in een winkelcentrum, een techniek die ‘mall intercept studie’ genoemd wordt. Ook kan men de deuren langs gaan en iedere buurtbewoner aan een enquête onderwerpen. Enquêtes kunnen echter ook digitaal, telefonisch of over de post worden afgenomen. Dit is vaak goedkoper en reduceert de kans op vertekening. Iedere methode heeft echter zijn nadelen. Bij digitale afname bestaat het probleem dat mensen de mails zien als spam en dat mensen zich anders voor kunnen doen. Bij telefonische enquête kan minder informatie verkregen worden. Mensen zien telefoontjes bovendien als storend. Dan bestaat er nog een bel-me-niet-register en heel veel geheime nummers, wat de kans op non-respons vertekening vergroot. Het nadeel van geschreven enquêtes is een grote kans op non-respons vertekening. Ook kan het zijn dat iemand anders dan de geadresseerde de enquête invult. Tenslotte sturen mensen hun ingevulde enquête vaak te laat terug. Deze nadelen kunnen vaak verminderd worden als een combinatie van verschillende methoden gebruikt wordt (bellen als iemand zijn geschreven enquête niet terugstuurt). Ook kan er gebruik gemaakt worden van een consumentenpanel, een groep mensen die (tegen beloning) heeft toegezegd iedere enquête in te vullen. Ook kan het zijn dat ze hun eigen gedrag moeten monitoren en doorgeven. Items voor enquêtes kunnen via de semantische differentiële techniek opgesteld worden. Hierbij moet iemand op een continuüm tussen twee tegengestelde begrippen (goed-fout) zijn positie aangeven. Nadelen van enquêtes kunnen zijn dat consumenten zich soms niet bewust zijn van hun eigen keuzes en motivaties. Soms willen ze die ook niet toegeven, of willen ze een vraag überhaupt niet beantwoorden.

Motivatieonderzoek

Met motivatieonderzoekmethoden proberen consumentenpsychologen de motieven voor consumentengedrag en -attitudes te identificeren. Deze methoden bestaan meestal uit interviews en focusgroepen, beide kwalitatieve methoden met weinig subjecten en zonder statistische data-analyse. Ook kan er gebruik gemaakt worden van gedragsobservatie en andere methoden.

Focus groep

Een focus groep is een interview bij een groepje mensen om te kijken hoe zij tegenover een bepaald product staan. Een groep bestaat uit zo’n 6 tot 12 participanten die allemaal gebruik maken van het onderzochte product. Het interview kan gestructureerd dan wel ongestructureerd zijn. Het begint bijvoorbeeld met het tonen van een reclame. Daarover kunnen vragen gesteld worden die een bespreking op gang moeten brengen. De taak van de interviewer bestaat hierin dat hij de discussie gaande moet houden, dat hij ervoor moet zorgen dat iedereen gehoord wordt, en dat hij een rapport schrijft over de dingen die gezegd zijn. Focus groepen worden gebruikt om meer informatie over het product te krijgen en hypotheses te ontwikkelen die met kwantitatieve methoden getest kunnen worden. Er bestaan echter ook nadelen. Er zijn maar weinig respondenten, dus de focusgroep is niet per definitie representatief voor de consumenten populatie. Een ander nadeel is het gebrek aan systeem en overzicht van de responses. Cohen stelde een dimensionele benadering van kwalitatief onderzoek voor. Bij dimensioneel kwalitatief onderzoek wordt ervoor gezorgd dat een kwalitatieve studie comprehensie bezit en systematisch is. Het moet de dimensies gedrag, affect, sensatie, verbeelding, cognitie, relaties, drugsgebruik en socioculturele omgeving omvatten.

Gedragsobservatie

Soms kunnen methoden leiden tot een vertekend beeld van wat eigenlijk de motivatie is van de consument. Toen de verkoop van een bepaalde pijnstiller toenam, kwam dat niet door succesvol adverteren, maar doordat een andere veelgebruikte pijnstiller van de markt verdween. Gedragsobservatoren hadden deze oorzaak kunnen registreren. Gedragsobservatie wordt bijvoorbeeld ook in supermarkten gebruikt om te kijken wat voor personen een product kopen en waarom ze dat doen

Andere methoden

Er zijn nog tal van andere methoden die gebruikt worden in de consumentenpsychologie. Zo gebruikt men projectieve metingen of psychofysiologische instrumenten. Ook zijn er speciale computerprogramma’s die merknamen kunnen genereren. Men kan uit de onderzoeksliteratuur bovendien een hoop aanwijzingen vinden over welke advertenties zullen werken en welke niet. Zo is gebleken dat in de namen van succesvolle merken de letter ‘k’ zes keer vaker voorkomt dan op grond van toeval verwacht kon worden.

Psychological testing and assessment - Cohen et al. - Begrippenlijst

 

Begrippen hoofdstuk 1

  
  • Accommodation

De aanpassing in een test/procedure/situatie, zodat de test meer passend is aan de persoon met uitzonderlijke behoeftes.

  • Alternate assessment

Een evaluatieve of diagnostische procedure of proces die afwijkt van de gestandaardiseerde manier.

  • Behavioral observation

Het observeren van acties bij anderen of zichzelf.

  • Case history

Een rapport over een persoon of situatie

  • Case study

Zie case history.

  • Collaborative psychological assessment

Proces waarin de onderzoeker en de onderzochte samen werken door wederzijdse feedback.

  • Cut score

Een referentiepunt, die data verdeeld in twee of meer classificaties.

  • Diagnostic test

Instrument om een diagnose te kunnen stellen.

  • Dynamic assessment

Proces om leerpotentieel te meten op basis van een test-interventie-hertest methode.

  • Integrative report

Een interpretatie rapport waarin data van gedrags-, medisch, administratieve, en/of andere bronnen zijn geïntergreerd.

  • Interpretive report

Een formeel of officieel computer gegenereerd account van een testuitvoering gepresenteerd in numerieke en verhalende vorm inclusief een uitleg van de bevindingen.

  • Interview

Instrument waarmee informatie verkregen wordt d.m.v. directe communicatie.

  • Panel interview

Interview waarbij één geïnterviewde door meerdere interviewers wordt ondervraagd.

  • Psychological assessment

Het verzamelen en intergreren van psychologische data voor psychologische evaluatie.

  • Psychological test

Een meetapparaat of procedure voor het meten van psychologisch-gerelateerde variabelen.

  • Psychometric soundness

De technische kwaliteit van een test of ander onderzoeksinstrument.

  • Test

Een meetapparaat.

  • Therapeutic psychological assessment

Een aanpak waarbij samengewerkt wordt en therapeutische inzichten over menzelf aangemoedigd en actief gepromoot wordt door de onderzoeker.

  • Naturalistic observation

Gedragsobservatie die plaatsvindt in een natuurlijke setting.

Begrippen hoofdstuk 2

  
  • Affirmative action

Vrijwillige en verplichte inspanningen ondernomen door autoriteiten om discriminatie tegen te gaan en gelijke behandeling te promoten.

  • Code of professional ethics

Richtlijnen die een standaard vormen voor de zorg die verwacht wordt van een professional.

  • Culture-specific test

Een test die gericht is op een bepaalde cultuur.

  • Informed consent

Toestemming voor het uitvoeren van een diagnose, evaluatie of therapeutische service op basis van informatie over deze service en de kosten/baten.

  • Minimum competency testing programs

Evaluatie programma waarmee basisvaardigheden, zoals lezen en schrijven, worden gemeten.

  • Privacy right

De vrijheid om zelf te kiezen wanneer en onder welke omstandigheden men informatie wilt delen met anderen.

  • Privileged information

Data door de wet beschermd voor openbaring.

  • Projective test

Test waarin structuur moet worden aangebracht in ongestructureerde of incomplete stimuli.

  • Self-repor

Het proces waarin iemand persoonlijke informatie over zichzelf rapporteert.

Begrippen hoofdstuk 3

  
  • Arithmetic mean

Het gemiddelde.

  • Average deviation

Een meting van de variabiliteit.

  • Bimodal distribution

Een verdeling waarin het gemiddelde uit twee scores bestaat.

  • Bivariate distribution

Een grafische representatie van een correlatie.

  • Coefficient of correlation

r, geeft de index van de sterkte van de lineaire relatie tussen twee continue variabelen.

  • Coefficient of determination

Waarde die een indicatie geeft van de hoeveelheid variantie.

  • Correlation

Samenhang tussen twee variabelen.

  • Curvilinearity

De mate waarin een grafiek gekarakteriseerd wordt door kromming.

  • Distribution

Een set van testscores gebruikt voor een studie.

  • Effect size

De mate van sterkte van een relatie in data.

  • Error

Ruis die door andere factoren veroorzaakt wordt dan wat de test wil meten.

  • Evidence based practice

Methoden, protocollen, techinieken en procedures met een basis in klinische en onderzoeksbevindingen.

  • Frequency distribution

Een type verdeling waarin de scores in tabelvorm zijn weergegeven.

  • Grouped frequency distribution

Een type verdeling waarin de scores in tabelvorm zijn weergegeven, waarin de testscores gegroepeerd zijn in intervallen.

  • Interquartile range

Een ordinale statistiek van variabiliteit gelijk aan het verschil tussen het derde en eerste kwartiel.

  • Mean

Gemiddelde.

  • Median

De middelste score.

  • Mode

De meest voorkomende score.

  • Meta-analysis

Het combineren van verschillende studies om tot één meting van het gemeten construct te komen.

  • Negative skew

De verdeling waarin de meeste scores rechts vallen.

  • Nominal scale

Categorisatie op basis van één kenmerk.

  • Ordinal scale

Categorisatie op basis van rangorde.

  • Outlier

Een extreem datapunt.

  • Pearson r

Aanduiding voor de correlatie tussen variabelen.

  • Positive skew

De verdeling waarin de meeste scores links vallen.

  • Range

De variabiliteit gemeten door het verschil tussen de hoogste en laagste score.

  • Ratio scale

Categorisatie op basis van intervallen.

  • Spearman’s rho

Aanduiding voor de correlatie coefficient.

  • Standard deviation

Meting van variabiliteit.

  • Stanine

Schaalverdeling met een gemiddelde van 5 en een standaardeviatie van 2.

  • T score

Het aantal standaarddeviaties wat een score van het gemiddelde ligt.

  • Variability

Een indicatie van de spreiding van de scores.

  • Variance

Een maat van variabiliteit.

  • z score

Het aantal standaarddeviaties wat een score van het gemiddelde ligt.

Begrippen hoofdstuk 4

  
  • Age norms

Normen gebaseerd op leeftijd.

  • Classical test theory (CTT)

Theorie met de assumptie dat de testscore bestaat uit de ware score en een error.

  • Content-referenced testing/assessment

Evaluatie van scores a.d.h.v. vooraf vastgestelde criteria.

  • Convenience sample

Een steekproef die snel beschikbaar is.

  • Criterion-referenced testing/assessment

Zie content-referenced testing.

  • Developmental norms

Normen gebaseerd op ontwikkelende karakteristieken.

  • Domain-referenced testing/assessment

Zie content-referenced testing.

  • Error variance

De variantie die te wijten is aan willekeurige factoren.

  • Fixed reference group scoring system

Een scoringssysteem waarin de scoreverdeling van één groep als referentie wordt gebruikt.

  • Grade norms

Normen gebaseerd op cijfers.

  • Incidental sample

Zie convenience sample.

  • Local norms

Normen gebaseerd op een gelimiteerde groep.

  • National anchor norms

Een equivalentie tabel voor scores op twee nationaal gestandaardiseerde tests die hetzelfde meten.

  • National norms

Normen gebaseerd op een nationaal representatieve groep.

  • Norm-referenced testing/assessment

Evaluatie van scores a.d.h.v. een normgroep.

  • Overt behavior

Gedrag dat zichtbaar is.

  • Percentile

Één van de 99 punten in een verdeling van 100 stukjes.

  • Purposive sampling

Een steekproef met mensen die doelgericht zijn geselecteerd.

  • Race norming

Normen gebaseerd op etnische achtergrond.

  • Standardisation

Standaardisatie voor representiviteit.

  • Stratified-random sampling

Steekproef representatief voor specifieke subgroepen van een populatie waarin ieder lid evenveel kans heeft om hier in te komen.

  • Stratified sampling

Steekproef representatief voor specifieke subgroepen van een populatie.

Begrippen hoofdstuk 5

  
  • Alternate-forms reliability

Betrouwbaarheid geschat d.m.v. het vergelijken van de resultaten op twee versies van één test.

  • Assumption of local independence

Assumptie dat de geobserveerde variabelen een systematische relatie hebben die te maken heeft met de latente trek.

  • Assumption of monotonicity

Assumptie dat de waarschijnlijkheid van een antwoord indicatief voor de latente trek toeneemt als de onderliggende oorzaak voor de latente trek toeneemt.

  • Assumption of unidimensionality

Assumptie dat een set items één construct meet.

  • Average proportional distance

Manier om de interne consistentie van een test te meten.

  • Confidence interval

Interval waarin waarschijnlijk de “echte score” valt.

  • Content sampling

De variëteit van de inhoud van de items.

  • Dichotomous test item

Test item die met twee opties beantwoord kan worden (bijv. goed/fout, ja/nee).

  • Inter-item consistency

De consistentie tussen de items onderling.

  • Inter-scorer reliability

De betrouwbaarheid bepaald door overeenkomsten tussen de observaties van verschillende beoordelaars.

  • Odd-even reliability

Betrouwbaarheid bepaald a.d.h.v. vergelijking van de even genummerde en oneven genummerde items.

  • Parallel-forms reliability

Betrouwbaarheid bepaald a.d.h.v. vergelijking van parallelle tests.

  • Polytomous test item

Test item met drie of meer antwoordmogelijkheden.

  
  • Random error

Ruis die niet door een vaste factor wordt.

veroorzaakt

  • Split-half reliability

Betrouwbaarheid bepaald a.d.h.v. vergelijking van twee delen van dezelfde test

  • Systematic error

Ruis die door een vaste factor wordt veroorzaakt

  • Test-retest reliability

Betrouwbaarheid bepaald a.d.h.v. vergelijking van twee testmomenten

  • True score

De “echte score”, dus wat de test wilt meten

Begrippen hoofdstuk 6

  
  • Base rate

De 0-lijn, dus basismeting waarmee je vergelijkt.

  • Central tendency error

Vertekening door teveel gemiddelde scores te geven en extremen uit de weg te gaan.

  • Construct validity

Een uitgebreide analyse van hoe scores op de test gerelateerd zijn aan andere test scores en metingen, en hoe scores begrepen kunnen worden in een theoretisch framework.

  • Convergent validity

De data geven aan dat de test hetzelfde construct als een andere test die ook dat construct wilt meten.

  • Criterion-related validity

Evalueren van de relatie tussen scores die behaald zijn en andere testen of metingen.

  • Expectancy data

Handig voor het evalueren van criterion-related validiteit van een test. Scores van 1 test kunnen gebruikt worden voor waarschijnlijkheid die de testafnemer wilt scoren binnen een bepaald interval van scores op een bepaalde criterion.

  • Exploratory factor analysis

Een klasse mathematische procedures voor het schatten van factoren/bepalen van factoren/beslissen welk aantal factoren behouden wordt.

  • Face validity

Dit is meer gerelateerd aan wat een test lijkt te meten bij de persoon die getest wordt, dan wat een test écht meet.

  • False negative

Onterecht negatief beoordeeld.

  • False positive

Onterecht positief beoordeeld.

  • Generosity error

Vertekening ontstaan doordat er te soepel beoordeeld wordt.

  • Halo effect

Neiging om sommige mensen als zeer positief te beoordelen, zonder kritische benadering.

  • Hit rate

De verhouding mensen die juist beoordeeld zijn.

  • Homogeneity

Hoe uniform een test is in het meten van één concept.

  • Incremental validity

De mate waarin de ene toegevoegde predictor iets verklaart van het criterion wat nog niet is verklaard door andere predictors die al gebruikt worden.

  • Leniency error

Zie generosity error.

  • Miss rate

Het aantal onjuist beoordeelde.

  • Predictive validity

Mate waarin een testscore een bepaald criterium voorspelt.

Begrippen hoofdstuk 7

  
  • Bookmark method

Methode om een cut-score te bepalen, waarbij steeds een moeilijker item wordt aangeboden.

  • Benefit

De economische en niet-economische voordelen van een test.

  • Cost

De economische en niet-economische nadelen van een test.

  • Absolute cut score

Een referentiepunt in een verdeling van testscores om de dataset te verdelen in twee of meer classificaties. Hierbij wordt rekening gehouden met een absoluut minimumpunt.

  • Fixed cut score

Zie absolute cut score.

  • Item-mapping method

Voorbeeld van de methode waarbij een item is geassocieerd met een bepaalde moeilijkheidsgraad. Om te slagen voor de test moet je boven een minimumlevel van moeilijkheid komen.

  • Known-groups method

Methode waarbij een cut-score wordt bepaald waar het beste gediscrimineerd wordt tussen twee groepen.

  • Method of contrasting groups

Zie known-groups method.

  • Method of predictive yield

Methode waarbij een cut-score wordt bepaald gebaseerd op het aantal posities die ingevuld moet worden.

  • Norm-referenced cut score

Cut-score is meer gebaseerd op norm-gerelateerde overwegingen dan op de relatie tussen test score en criterium. Wordt relatief gesteld aan performance van een groep.

  • Productivity gain

De toename van productiviteit die geschat kan worden m.b.v. tests of evaluerende procedures.

  • Top-down selection

Manier van selectie waarbij de persoon met de hoogste score de eerste positie krijgt, de persoon met de een-na-hoogste score de twee positie etc.

  • Utility

De bruikbaarheid van een test.

Begrippen hoofdstuk 8

  
  • Anchor protocol

Een antwoordmodel ontwikkeld door een testuitgever om de accuratesse van een scoring na te gaan.

  • Biased test item

Een test item die een vertekening in de resultaten veroorzaakt.

  • Binary-choice item

Een item waarbij twee antwoordmogelijkheden zijn gegeven.

  • Categorical scaling

Een manier van schalen waarbij stimuli verdeeld worden over twee of meer categorieën die kwantitatief van elkaar verschillen.

  • Ceiling effect

Beperkte bruikbaarheid van een test, doordat er te weinig onderscheid kan worden gemaakt in de hoge scores.

  • Class scoring

Zie categorical scaling.

  • Comparative scaling

Een manier van schalen waarbij stimuli verdeel worden op basis van vergelijking met elkaar.

  • Computerized adaptive testing

Een interactieve, computer test afname, waarbij items worden voorgelegd op basis van de prestatie op voorgaande items.

  • Co-norming

Het test validatie proces wat toegepast wordt bij twee of meer testen die dezelfde sample van testtakers gebruiken.

  • Co-validation

Zie co-norming.

  • Cross-validation

Revalidatie van een test op een sample van testtakers anders dan de personen waarbij test performance in eerste instantie een valide predictor bleek te zijn bij een criterion.

  • Differential item functioning

Fenomeen waarbij dezelfde test item opbrengsten een ander resultaat geven bij twee verschillende groepen.

  • Floor effect

Beperkte bruikbaarheid van een test, doordat er weinig onderscheid kan worden gemaakt in de lage scores.

  • Completion item

Item waarbij enkele woorden missen die aangevuld moeten worden.

  • Essay item

Item waarbij een uitgebreid, zelf-geproduceerd antwoord moet worden gegeven.

  • Giveaway item

Item die altijd goed beantwoord wordt, om zelfvertrouwen te geven of om te motiveren.

  • Ipsative scoring

Vergelijken van test score van iemand op een schaal binnen een test met een andere schaal binnen diezelfde test.

  • Short-answer item

Item waarbij een kort, zelf-geproduceerd antwoord moet worden gegeven.

  • Matching item

Item waarbij twee rijtjes antwoorden worden gegeven, die met elkaar moeten worden gecombineerd.

  • “think aloud” test administration

Test waarbij de beredenatie achter een item hardop moet worden verteld.

  • True-false item

Item die met waar of niet waar moet worden beantwoord.

Begrippen hoofdstuk 9

  
  • Crystallized intelligence

Intelligentie afhankelijk van formele en informele educatie (dus geleerd).

  • Culture-fair intelligence test

Test waarin de invloed van cultuur geminimaliseerd is.

  • Culture-free intelligence test

De ideale test waarin de invloed van cultuur afwezig is.

  • Emotional intelligence

Bestaat uit interpersoonlijke en intrapersoonlijke intelligentie.

  • Fluid intelligence

Non-verbale intelligentie onafhankelijk van cultuur en formele educatie.

  • Flynn effect

De inflatie van intelligentie over de jaren heen.

  • g (factor of intelligence)

De algemene factor van intelligentie, dit wordt in meerdere of mindere mate gemeten in intelligentietests.

  • Hierarchical model

Theoretisch model waarin twee of meer lagen zijn en elke laag ondergebracht of opgenomen is in de voorgaande laag.

  • Interactionism

De opvatting dat erfelijkheid en omgeving interacteren en zo de ontwikkeling van iemands mentale capacteit en vaardigheden beïnvloedt.

  • Interpersonal intelligence

Het vermogen om anderen te begrijpen.

  • Intrapersonal intelligence

Het vermogen om een accuraat zelfbeeld te kunnen vormen.

  • Maintained abilities

Cognitieve vaardigheden die niet afnemen met leeftijd.

  • Mental age

Een index die verwijst naar de chronologische leeftijd equivalent aan de prestaties op een test.

  • Parallel processing

Informatieverwerking waarbij informatie geïntergreerd wordt en tot een geheel wordt gebracht.

  • Predeterminism

Overtuiging dat iemands vaardigheden door genetische aanleg bepaald is.

  • Preformationism

Overtuiging dat alle organismes voorgevormd zijn bij geboorte en intelligentie niet beïnvloed wordt door de omgeving.

  • Schema

Een mentale structuur die toegepast kan worden op de wereld en leidt tot begrip en kennis.

  • Sequential processing

Informatie verwerking waarbij informatie na elkaar verwerkt wordt.

  • Simultaneous processing

Zie parallel processing.

  • Successive processing

Zie sequential processing.

  • Temperament

De onderscheidende manier waarop een kind zich gedraagt en hoe een kind reageert.

  • Vulnerable abilities

Cognitieve vaardigheden die verslechteren als men ouder wordt.

Begrippen hoofdstuk 10

  
  • Adaptive testing

Methode of procedure waarbij de aangeboden items aan het individu aangepast worden.

  • Age scale

Een test met items gebaseerd op leeftijd.

  • Alternate item

Een test item die alleen onder bepaalde condities een bestaand item vervangt.

  • Basal level

Een bepaald niveau in een test die behaald wordt door de voldoen aan vooraf bepaalde criteria.

  • Ceiling level

Het hoogst behaalde niveau in een test.

  • Convergent thinking

Een deductief rederingsproces dat uiteindelijk tot één oplossing leidt.

  • Divergent thinking

Een redeneringsproces dat leidt tot verschillende oplossingen, door flexibiliteit, originaliteit en verbeelding.

  • Point scale

Een test met items die verdeeld zijn in subtests op basis van categorieën.

  • Short form

De verkorte vorm van een test.

  • Teaching item

Een voorbeeld item.

Begrippen hoofdstuk 11

  
  • Achievement test

Evaluatie van de voltooiing of mate van leren.

  • Aptitude test

Test die meer op informeel dan formeel leren gericht is en zowel leren als aangeboren potentieel meet met het doel om voorspellingen te maken over de toekomstige prestaties.

  • Authentic assessment

Evaluatie van relevante, betekenisvolle taken die het leren onderzoeken.

  • Curriculum-based assessment

Algemene term voor school-gebaseerde evaluaties die duidelijk weergeven wat geleerd is.

  • Diagnostic test

Hulpmiddel voor het stellen van een diagnose.

  • Informal evaluation

Niet-systematisch, relatief kort onderzoek dat leidt tot een mening of houding.

  • Integrative assessment

Een multidisciplinaire aanpak voor evaluatie, waarbij verschillende bronnen informatie worden gebruikt.

  • Locator test

Een pretest, meestal gebruikt voor het onderzoeken van het meest gebruikte niveau van een test.

  • Peer appraisal

Een methode om evaluatie-gerelateerde informatie over een individu te verkrijgen via leeftijdsgenoten.

  • Performance assessment

De evaluatie van een prestatie aan de hand van criteria.

  • Portfolio assessment

Een hulpmiddel voor evaluatie of een diagnostisch proces waarbij gebruik wordt gemaakt van een verzameling van werken.

  • Prognostic test

Een hulpmiddel voor beoordeling die gebruikt wordt om te voorspellen.

  • Readiness test

Een hulpmiddel voor beoordeling die gebruikt wordt om te evalueren of een individu een bepaald programma of taak aan kan.

  • Sociogram

Een grafische weergave van peer appraisel data of andere inerpersoonlijke informatie.

  • Zone of proximal development

Het gebied tussen van iemand kan en wat iemand zou kunnen met instructie (Vygotsky).

Begrippen hoofdstuk 12

  
  • Acculturation

Het proces van de gedachten, gedragingen, waarden, identiteit en wereldvisie van een individu in relatie tot deze van een bepaalde culturele groep.

  • Big Five

Theorie die beweert dat persoonlijkheid te beoordelen is op basis van: consciëntieusheid, altruïsme, openheid, extraversie en neuroticisme.

  • Control group

In een experiment is dit de onbehandelde groep.

  • Criterion group

Een referentiegroep of proefpersonen van wie de antwoorden op items als standaard worden genomen.

  • Error of central tendency

Inaccurate meting of evaluatie doordat er te veel beoordeeld wordt rond het gemiddelde (extremen worden vermeden).

  • Forced-choice format

Type item waarbij van tevoren is bepaald welke keuze zal worden gemaakt met oog op sociale wenselijkheid.

  • Frame of reference

Referentiekader.

  • Generosity error

Inaccurate meting of evaluatie doordat er te soepel beoordeeld wordt.

  • Graphology

Handgeschreven analyse om inzicht te kunnen verwerven in persoonlijkheid.

  • Halo effect

Inaccurate meting of evaluatie doordat eigenschappen beoordeeld worden op een algemene indruk.

  • Idiographic approach

Aanpak waarbij de traits van een individu als uniek worden beschouwd en niet ondergebracht worden onder een set van traits.

  • Leniency error

Zie generosity error.

  • Locus of control

De subjectief ervaren bron vanwaar iemand denkt wat met hem gebeurt.

  • Nomothetic approach

Aanpak waarbij een beperkt aantal traits toegepast kan worden op alle individuen.

  • Self-concept

Iemands houding, overtuigingen, opinies, en gedachten over zichzelf.

  • Self-report

Het proces waarin persoonlijke informatie wordt verzameld.

  • Severity error

Inaccurate meting of evaluatie doordat er te kritisch wordt beoordeeld.

  • Structured interview

Interview waarbij de lijn van de vragen vaststaat.

  • Type A personality

Een persoonlijkheid gekarakteriseerd door competitviteit, haast, rusteloosheid, ongeduld, gevoelens van tijdsdruk, en de drang voor prestatie en dominantie.

  • Type B personality

Een persoonlijkheid gekarakteriseerd door traits tegenovergesteld aan die van type A.

Begrippen hoofdstuk 13

  
  • Analogue behavioral observation

Onderzoek waarin variabelen worden gemeten in een gesimuleerde setting.

  • Behavioral assessment

Aanpak van evaluatie gebaseerd op de analyse van gedrag.

  • Behavioral observation

Vastleggen van acties van anderen of zichzelf, waarbij kwantitatieve/kwalitatief info wordt vastgelegd.

  • Composite judgment

Het gemiddelde nemen van verschillende metingen, om de rater error te verkleinen.

  • Contrast effect

Een vertekening om bepaald gedrag extremer te beoordelen, na het zien van tegengesteld gedrag, dan zonder het zien van tegengesteld gedrag.

  • Ecological momentary assessment

Een methode waarbij gedrag in een dagboek wordt bijgehouden, waardoor probleemgedrag handmatig wordt vastgelegd.

  • Figure drawing test

Type test waarbij de taak is om mensen of andere figuren te tekenen, dit zegt iets over de mogelijkheden, persoonlijkheid en/of neurologische intactheid.

  • Free association

Techniek waarbij alle associaties die in de cliënt opkomen, verteld worden.

  • Functional analysis of behavior

Het proces waarin afhankelijke en onafhankelijke variabelen worden geïdentificeerd.

  • Implicit motive

Een onbewuste invloed op gedrag.

  • Penile plethysmograph

Meetinstrument waarbij de erectie van de penis wordt gemeten tijdens het tonen van bepaalde stimuli, dit wordt gebruikt bij behandeling van zedendelinquenten.

  • Polygraph

Instrument bekend als leugendetector.

  • Projective method

Techniek voor het meten van persoonlijkheid m.b.v. een taak waarbij structuur moet worden aangebracht in relatief ongestructureerde of incomplete stimuli.

  • Reactivity

Veranderingen in gedrag/manier van denken/prestatie door bewustwording van observatie/meting/evaluatie.

  • Role play

Taak waarbij een bepaalde situatie wordt nagespeeld.

  • Rorschach test

Test waarbij een vage plaat geïnterpreteerd moet worden.

  • Self-monitoring

Systematische observatie en vastlegging van het eigen gedrag en/of gebeurtenissen gerelateerd aan dit gedrag.

  • Sentence completion test

Taak waarbij een incomplete zin afgemaakt moet worden met een of meerdere woorden.

  • Situational performance measure

Een taak waarbij een prestatie moet worden geleverd onder echte of gesimuleerde condities, terwijl de uitvoerder geobserveerd en geëvalueerd wordt.

  • Unobtrusive measure

Type meting waarbij de aanwezigheid van of samenwerking met een respondent niet noodzakelijk is.

  • Word association test

Een projectieve test waarbij direct een associatie moet worden genoemd of opgeschreven bij een gegeven woord.

Begrippen hoofdstuk 14

  
  • Actuarial assessment

Een aanpak van evaluatie waarbij gebruik wordt gemaakt van empirisch onderbouwde statistische regels.

  • Barnum effect

Het effect dat iemand zichzelf herkent in een vage persoonsbeschrijving, terwijl deze beschrijving op iedereen van toepassing zou kunnen zijn.

  • Biopsychosocial assessment

Een multidisciplinaire aanpak van beoordeling waarin relevante biologische, psychologische, sociale, culturele en omgevingsvariabelen worden onderzocht, met als doel te onderzoeken hoe deze variabelen bijdragen aan de ontwikkeling en instandhouding van een probleem.

  • Clinical prediction

Het toepassen van de training en klinische ervaring van de clinicus om tto een oordeel te komen.

  • Cognitive interview

Een type hypnotic interview zonder hypnotic inductie.

  • Collaborative interview

Een interview met een open einde, waarin beide partijen samenwerken met een gezamenlijke missie.

  • Culturally informed psychological assessment

Een aanpak van evaluatie waarbij rekening wordt gehouden met acculturatie, waarden, identiteit, wereldvisie, taal en andere cultuur-gerelateerde variabelen die het evaluatieproces of de interpretatie van data kunnen beinvloeden.

  • Custody evaluation

Psychologische beoordeling voor ouders of verzorgers en hun oudercapacteiten en/of van kinderen en hun behoeftes en verlangens van ouders.

  • Emotional injury

Een term waarmee psychologische schade wordt aangeduid.

  • Fatalism

De overtuiging dat wat gebeurt in het leven totaal buiten de controle van een persoon ligt.

  • Forensic psychological assessment

De theorie en toepassing van psychologische evaluatie in een legale context.

  • Hypnotic interview

Een interview die wordt afgenomen na een hypnotiserende staat.

  • Premorbid functioning

Het niveau van psychologische en fysieke prestatie voor de ontwikkeling van een stoornis, ziekte of beperking.

  • self-efficacy

Het vertrouwen dat iemand zelf een taak kan vervullen.

  • Stress interview

Een interview waarin druk of stress wordt gebruikt om de reactie op deze stress op te roepen.

Begrippen hoofdstuk 15

  
  • Aphagia

Een conditie van verminderde of verdwenen eetlust.

  • Aphasia

Het verlies om je uit te drukken of om gesproken of geschreven taal te begrijpen, wat toegeschreven kan worden aan een neurologische beperking.

  • Brain damage

Elke fysieke of functionele beperking in het centrale zenuwstelsel met zintuiglijke, motorische, cognitieve, emotionele of gerelateerde beperkingen tot gevolg.

  • Central nervous system

Alle neuronen of zenuwcellen in het brein en de ruggegraat.

  • Cerebral angiogram

Een diagnostische procedure in de neurologie waarbij een injectie met indicatorstof in de bloedbaan wordt gegeven voor het maken van een X-ray.

  • Confrontation naming

Het identificeren van plaatjes in een neuropsychologische context.

  • Contralateral control

Fenomeen onstaan doordat allebei de twee cerebrale hemisferen zintuiglijke informatie van de tegengestelde kant van het lichaam ontvangen.

  • Declarative memory

Geheugen van feitenmateriaal.

  • Developmental milestone

Belangrijke gebeurtenis gedurende iemands leven die gemarkeerd wordt door de aanwezigheid/groei of afname/beperking van bepaalde vaardigheden.

  • Echoencephalograph

Een machine die elektrische energie transformeert in geluid energie voor diagnostische studies van breinleasies of afwijkingen.

  • Electroencephalograph (EEG)

Een machine die elektrische activiteit in het brein registreert.

  • Electromyograph (EMG)

Een machine die elektrische activiteit van spieren registreert.

  • Episodic memory

Geheugen voor feiten, maar alleen in een bepaalde context of situatie.

  • Executive function

Functies voor organiseren, plannen, cognitieve flexibiliteit, inhibitie van impulsen, en andere activiteiten waarbij de frontale en prefrontale lobes van het brein een rol spelen.

  • Fixed battery

Een test die uit een aantal gestandaardiseerde tests bestaat.

  • Flexible battery

Een groep van tests gekozen door de testafnemer om een antwoord op de betreffende vraag te vinden.

  • fMRI

Een beeldende techniek die real-time, bewegende afbeeldingen van interne functies laat zien.

  • Functional deficit

Een zintuiglijke, motorische of cognitieve beperking die psychologisch is of zonder een bekende fysieke oorzaak.

  • Implicit memory

Geheugen die buiten bewuste controle valt en alleen meetbaar is met indirecte meettechnieken.

  • Lesion

Een pathologische verandering van weefsel die veroorzaakt kan zijn door schade of infectie.

  • Neuropsychological assessment

De evaluatie van het functioneren van het brein en zenuwstelsel gerelateerd aan gedrag.

  • Noninvasive procedure

Een methode van evaluatie of behandeling zonder operatie.

  • Organic deficit

Elke zintuiglijke, motorische of cognitieve beperking met een structurele of fysieke oorzaak.

  • Peripheral nervous system

Alle zenuwcellen die neurale berichten naar en van het lichaam brengen, behalve de zenuwcellen van het brein en ruggegraat.

  • PET scan

Een hulpmiddel uit de nucleaire geneeskunde, voornamelijk bruikbaar voor het diagnosticeren van biochemische laesies in het brein.

  • Procedural memory

Geheugen voor het uitvoeren van bepaalde functies.

  • Semantic memory

Geheugen voor feiten.

Begrippen hoofdstuk 16

  
  • Attitude

Een vermoedelijk aangeleerde dispositie van waaruit op een bepaalde manier wordt gereageerd op stimuli.

  • Burnout

Een psychologisch syndroom van emotionele uitputting, depersonalisatie, en verminderde persoonlijke voldoening.

  • Classification

Het categoriseren a.d.h.v minstens twee criteria.

  • Critical incidents technique

Deze techniek wordt gebruikt door werkgevers om het gedrag van de werknemer als positief of negatief te beoordelen.

  • Diary panel

Een samengestelde groep waarin de deelnemers toestemmen om een dagboek over hun gedachten/gedrag bij te houden.

  • Extrinsic motivation

De primaire drijfveer komt van externe bronnen of beperkingen (bijvoorbeeld salaris of ontslag).

  • False negative

Hierbij wordt iets als negatief beoordeeld, terwijl deze in werkelijkheid positief is.

  • False positive

Hierbij wordt iets als positief beoordeeld, terwijl deze in werkelijkheid negatief is.

  • Forced distribution technique

Techniek waarbij de verdeling van een vooraf bepaald aantal of percentage in verschillende categorieën de prestatie wordt beschreven.

  • Implicit attitude

Een onbewuste, automatische associatie in het geheugen dat voor een dispositie zorgt om op een bepaalde manier op stimuli te reageren.

  • In-basket technique

Een meettechniek om de leidinggevende en organisatie vaardigheden te meten.

  • Integrity test

Een screening instrument om te voorspellen wie wel of niet een eerlijke werknemer zal zijn.

  • Interest measure

Een screening instrument om de interesses te meten met als doel een vergelijking te kunnen maken met andere groepsleden.

  • Intrinsic motivation

De primaire drijfveer komt vanuit de persoon zelf.

  • Leaderless group technique

Een test waarbij leiderschap, initiatief en samenwerking wordt gemeten.

  • Placement

Een dispositie t.o.v. een groep of categorie die gebaseerd is op één criterium.

  • Second-order meta-analysis

Een meta-analyse waarbij twee of meer andere meta-analyses worden samengevat.

  • Semantic differential technique

Een item format met bipolaire woorden, verdeeld in een zeven-puntsschaal, waarbij één punt gekozen moet worden.

Psychological testing and assessment - Cohen et al. - Oefenvragen

 

Oefenvragen

1) Wie beschouwde individuele verschillen als een bron van fouten in onderzoek?

a) Darwin

b) Wundt

c) Galton

d) Witmer.

2) De geschiedenis van de diagnostiek gaat vooral over

a) tests voor plaatsing en selectie

b) hulpverlening aan cliënten die een gedragsstoornis vertonen

c) theorievorming over de genetische basis van verschillen in intelligentie en persoonlijkheid

d) het foutloos meten van cognities, emoties, en gedrag.

3) Een geteste heeft recht op “informed consent”. Dat betekent dat de geteste het recht heeft

a) bepaalde informatie niet te delen met de diagnosticus

b) op de hoogte gebracht te worden van de testgegevens

c) te weten waarom hij of zij wordt geëvalueerd en hoe de gegevens zullen worden gebruikt

d) elk van bovenstaande.

4) Het hypothese-toetsend model voor het diagnostisch proces heeft als bedoeling en functie

a) voor te schrijven hoe diagnostiek systematisch dient te verlopen

b) de diagnostiek te verwetenschappelijken

c) een verklaring te vinden voor het onderzochte probleemgedrag

d) elk van bovenstaande.

5) De Bruijn e.a. hanteren de begrippen therapeutische cyclus, klinische cyclus en diagnostische cyclus. Welke van onderstaande uitspraken is juist?

a) De diagnostische en therapeutische cyclus zijn beide onderdeel van de klinische cyclus.

b) De klinische cyclus en de diagnostische cyclus zijn beide onderdeel van de therapeutische cyclus.

c) De klinische cyclus is hetzelfde als de diagnostische cyclus, maar dan inclusief een evaluatiemoment.

d) De klinische cyclus is hetzelfde als de therapeutische cyclus, maar dan met een evaluatiemoment.

6) Beoordeel de volgende twee uitspraken over de schatting van de betrouwbaarheid:

I Bij de test-hertest methode kan de betrouwbaarheidscoëfficiënt te hoog uitvallen omdat mensen zich nog items van de test herinneren.

II Bij de paralleltestmethode kan de betrouwbaarheidscoëfficiënt te hoog uitvallen omdat de testen niet parallel zijn.

a) I is juist, II is juist

b) I is juist, II is niet juist

c) I is niet juist, II is juist

d) I is niet juist, II is niet juist.

7) De bepaling van de validiteit van een test heeft als doel iets te kunnen zeggen over:

a) de mate waarin items hetzelfde meten

b) de gemaakte systematische meetfout

c) de gemaakte toevallige meetfout

d) de reproduceerbaarheid van de resultaten.

8) Voor een onderzoek naar de meningen van Nederlandse studenten over internationale verhoudingen is een factoranalyse uitgevoerd. De ladingen van de acht items in een 1-factoroplossing zijn hieronder weergegeven. De items X1 tot en met X4 gaan over Rusland en de items X5 t/m X8 gaan over de Verenigde Staten (VS). Voor alle items betekent een lage score op dat item een negatieve mening en een hoge score op dat item een positieve mening.

F1

X1 .8

X2 .4

X3 .5

X4 .8

X5 -.7

X6 -.4

X7 -.5

X8 -.9

Uit de factorladingen blijkt dat personen met een hoge factorscore:

a) negatief staan tegenover de VS en tegelijk positief tegenover Rusland.

b) positief staan tegenover de VS en tegelijk negatief tegenover Rusland.

c) positief staan tegenover VS; over de houding tegenover Rusland zegt deze factor niets.

d) negatief staan tegenover VS; over de houding tegenover Rusland zegt deze factor niets.

9) Bij een maximum performance test voor het meten van hebberigheid kunnen de items met het oog op een zo hoog mogelijke betrouwbaarheid het beste worden geselecteerd aan de hand van:

a) de moeilijkheid van de items

b) de item-covarianties

c) de item-varianties

d) de item-restcorrelaties

10) De dichotome items g en h zijn voorgelegd aan een steekproef uit de doelpopulatie. In de tabel staat de frequentieverdeling van de antwoorden.

 

 Item g 1Item g 0
Item h 1

5

45

Item h 0

15

35

Hoe groot is de proportie in de steekproef met een foutenpatroon?

a) .05

b) .15

c) .35

d) .45

11) Twee dichotome items voor het beoordelen van oog-handcoördinatie van volwassenen worden beoordeeld op het Mokken model met dubbele monotonie. De twee items voldoen niet aan de aannames van dit model.

Wat is dan voor de twee items het geval?

a) De itemkarakteristieke curven snijden elkaar

b) De moeilijkheidsparameters van de itemkarakteristieke curven verschillen

c) De foutenpatronen van de items verschillen

d) De gokkansen voor de items verschillen

12) In de onderstaande figuur zijn de item-karakteristieke curves van item g en h gegeven.

Beoordeel de volgende twee uitspraken.

I. De succeskans voor item h is voor iemand met een vaardigheid 1 kleiner dan de succeskans voor item g.

II. De discriminatieparameter van item h is even groot als de discriminatieparameter

van item g.

a) I is juist, II is juist.

b) I is juist, II is niet juist.

c) I is niet juist, II is juist.

d) I is niet juist, II is niet juist

13) Problematische sociale weerbaarheid komt bij 2% van de basisschoolleerlingen voor. Van een test voor het meten van sociale weerbaarheid is het volgende bekend:

sensitiviteit = 0.95

specificiteit = 0.80

selectieratio = 0.22

predictieve accuratesse = 0.09

Bij een willekeurig kind uit de populatie wordt een test afgenomen voor het meten van sociale weerbaarheid. De testuitslag wijst op problematische sociale weerbaarheid.

Hoe waarschijnlijk is het dat van het geteste kind de sociale weerbaarheid daadwerkelijk problematisch is?

a) .02

b) .95

c) .22

d) .09

14) Welke persoon ontwikkelde een serie intelligentietests waarvan wordt gezegd dat die de periode “van de wieg tot het graf” beslaat?

a) Thurstone

b) Wechsler

c) Sternberg

d) Kevorkian.

15) Theorieën over intelligentie zijn in te delen naar soort theorie, zoals bijvoorbeeld de interactionistische theorieën en de informatieverwerkingstheorieën. Volgens theorieën behorende tot het interactionistische perspectief

a) is intelligentie een latent, unidimensioneel construct

b) kan de meeste variantie die nu wordt toegeschreven aan “intelligentie” eigenlijk beter worden toegeschreven aan sociale interactie

c) is er een aangeboren intellectueel potentieel en is de omgeving er voor verantwoordelijk of dit potentieel ook wordt gerealiseerd

d) is er een aangeboren intellectueel potentieel en hangt het deels van omgevingsinvloeden af in hoeverre dit potentieel ook wordt gerealiseerd.

16) Een diagnosticus maakt gebruik van een persoonlijkheidstest waarin de geteste persoon voor elke uitspraak aangeeft of deze op hem of haar van toepassing is. De diagnosticus heeft deze test voorgelegd aan een kind van 11 (waarvoor de test ook geschikt was). Toch twijfelt hij of de antwoorden op de testvragen de persoonlijkheid van het kind wel goed representeren. Wat kan de diagnosticus het beste doen?

a) De antwoorden voorleggen aan een onderzoeker die onderzoek doet naar de test.

b) De antwoorden nog een keer nalopen om eventuele fouten er uit te halen.

c) De ouders en een leerkracht van het kind een test laten invullen voor het vaststellen van de persoonlijkheid van het kind.

d) De diagnosticus moet niets doen. Hij kan er vanuit gaan dat het resultaat klopt en dat zijn twijfel voorkomt uit een vooroordeel.

17) Sommige projectieve tests maken gebruik van beeldmateriaal. De Rorschach test bestaat uit inktvlekken. Andere tests (zoals o.a. de TAT), bestaan uit afbeeldingen van situaties, geschikt om te stellen bij een afbeelding van mensen of omgevingen. Welke vraag gaat niet over situaties, mensen of omgevingen?

a) “Kunt u een verhaal vertellen bij dit plaatje?”

b) “Kunt u vertellen hoe dit verhaal afloop?”

c) “Kunt u iets vertellen over wat hier gebeurt?”

d) “Kunt u vertellen wat u hier ziet?

18) Een aptitudetest verschilt van een intelligentietest doordat de eerste ten opzichte van de tweede

a) verworven kennis vaststelt

b) beter schoolprestaties in het algemeen voorspelt

c) bedoeld is om geschiktheid voor het verwerven van kennis te voorspellen

d) elk van bovenstaande.

19) Welke van onderstaande alternatieven is niet juist?

a) De mate waarin burn-out voorkomt is niet gelijk verdeeld over de verschillende beroepsgroepen.

b) Een werknemer met een lage mate van toewijding aan de organisatie waar hij/zij werkt is vaker afwezig van het werk.

c) De mate van toewijding die de werknemer heeft aan de organisatie waar hij/zij werkt wordt niet bepaald door het aantal jaren dat de werknemer bij deze organisatie werkzaam is.

d) Het meten van persoonlijkheid heeft in een selectiesituatie zin omdat sommige persoonlijkheidskenmerken tevens een indicatie zijn voor intelligentie.

20) De controverse tussen klinische versus statistische predictie (clinical versus mechanical prediction) heeft vooral betrekking op

a) de verschillen tussen wat theoretici op de universiteiten als werkwijze hanteren en wat in de praktijk werkzame psychologen doen.

b) twee verschillende manieren van informatie verzamelen en combineren van gegevens van een (groep) cliënt(en) .

c) de verschillen tussen predictie door klinisch psychologen op basis van projectieve methoden en interviews versus de predictie door statistici op basis van gestandaardiseerde tests.

d) elk van bovenstaande.

21) Wat is het verschil tussen een test en een assessment?

a) Een test maakt gebruik van instrumenten, een assessment is het meetinstrument zelf.

b) Een test beschrijft het meten van een psychologische variabele, een assessment is het verzamelen van gegevens voor een psychologische evaluatie.

c) Alleen geregistreerde psychologen mogen een test uitvoeren, voor een assessment is dit geen eis.

d) Een test wordt alleen bij volwassenen afgenomen, een assessment wordt ook gebruikt bij kinderen.

22) Bij een collaboratieve psychologische assessment

  1. wordt zelfinzicht aangemoedigd door de onderzoeker
  2. wordt gebruik gemaakt van een interactieve benadering
  3. werken de onderzoeker en de deelnemer samen
  4. werken twee onderzoekers samen tijdens het onderzoek

23) Welke begrippen hebben een aandeel bij de psychometrische juistheid van een test?

  1. Betrouwbaarheid en validiteit
  2. Correlatie en betrouwbaarheid
  3. Correlatie en validiteit
  4. Bruikbaarheid en betrouwbaarheid

24) Wat is een cut-off score?

  1. Het verschil tussen een hoge score en een lage score
  2. Het verschil tussen een voldoende en onvoldoende
  3. Een referentiepunt voor de classificatie van data
  4. Een referentiepunt om te kijken of een test wel of niet betrouwbaar is

25) Welke vorm van informatie verzamelen wordt vooral gebruikt voor personeelselectie?

  1. Rollenspel
  2. Panel interview
  3. WAISS
  4. Case study

26) Welke uitspraak is juist?

1. CAT is een vorm van CAPA, hierbij worden items aangepast aan degene die de test maakt

2. Computers kunnen met CAT interpretatie geven aan scores

  1. 1 is juist, 2 is onjuist
  2. 1 is onjuist, 2 is juist
  3. Beide zijn juist
  4. Beide zijn onjuist

27) Bij een consultatief verslag

  1. wordt interpretatie gegeven bij de testscores
  2. integreert de computer data van verschillende bronnen
  3. wordt een statistisch analyse gepresenteerd
  4. wordt een mening gegeven over de data-analyse

28) Waar zijn de ‘Standards’ voor bedoeld?

  1. Regels voor hoe een test in elkaar moet zitten
  2. Richtlijnen over ethische kwesties.
  3. Hier staat in beschreven wat de gewenste waarden van betrouwbaarheid en validiteit zijn voor een test.
  4. De rechten van een deelnemer tijdens de test

29) Volgens McCaffrey moeten derde partijen tijdens een onderzoek worden uitgesloten. Waarom?

  1. Vanwege sociale facilitatie
  2. Vanwege afleidende factoren
  3. Doordat ruis het onderzoek kan verstoren
  4. Doordat op die manier de betrouwbaarheid kan worden aangetast

30) Welke uitspraak is juist?

1. Psychologische autopsie betekent dat men tijdens een autopsie gaat kijken naar hersenafwijkingen

2. Psychologische autopsie betekent dat men een psychologisch profiel schetst van iemand die overleden is

  1. 1 is juist, 2 is onjuist
  2. 1 is onjuist, 2 is juist
  3. Beide zijn juist
  4. Beide zijn onjuist

31) Assessments kunnen in verschillende situaties worden uitgevoerd. Noem vijf van die situaties.

32) Wat is accommodatie?

a) Het aanpassen van de normering bij iemand die gehandicapt is

b) Het aanpassen van bijvoorbeeld de testsituatie voor iemand die gehandicapt is; bijvoorbeeld als de test in plaats van in een lab bij iemand thuis afgenomen wordt.

c) Zorgen dat een gehandicapt iemand zich op zijn gemak voelt tijdens het testen

d) Een regel die stelt dat gehandicapten niet gediscrimineerd mogen worden in een testsituatie.

33) Wie was de eerste die de psychologie in de 18e eeuw als wetenschap vestigde?

  1. Wolff
  2. Wundt
  3. Galton
  4. Spearman

34) Wat was de eerste mentale test?

  1. Wechsler intelligentieschaal
  2. Projectieve test
  3. Personal Data Sheet
  4. Intelligentie test van Binet en Simon

35) Wat is het voordeel van zelfrapportage?

  1. Mensen zijn er altijd toe bereid om correcte informatie over zichzelf met anderen te delen
  2. Je hebt geen last van bias
  3. Mensen kennen zichzelf het best dus weten meer over zichzelf dan anderen
  4. Mensen kunnen zo uitgebreid antwoord geven als ze zelf willen

36) Goddard had een controversiële carrière. Hij werd een aanhanger van eugenetica. Deze stroming is

  1. Gericht op de studie naar ziekten en genetische aanleg
  2. Gericht op de studie naar de invloed van genen op psychologisch onderzoek
  3. Gericht op manieren waarop kinderen zich het beste kunnen ontwikkelen waarbij rekening wordt gehouden met genetisch aanleg via de ouders.
  4. Gericht op het verbeteren van het menselijke ras door selectieve voortplanting

37) Welke uitspraak is juist?

1. Cultuurspecifieke testen zijn testen die ontwikkelt zijn voor een bepaalde cultuur

2. Bij cultuursensitieve testen wordt rekening gehouden met mensen uit verschillende culturen

  1. 1 is juist, 2 is onjuist
  2. 1 is onjuist, 2 is juist
  3. Beiden zijn juist
  4. Beiden zijn onjuist

38) Welk statistisch begrip hoort niet bij centrale tendentie?

  1. Modus
  2. Gemiddelde
  3. Mediaan
  4. Bereik

39) De mediaan is vooral handig om te gebruiken wanneer:

  1. Er sprake is van nominale data
  2. Er extreme waarden zijn in de data
  3. Er veel data zijn met een lage waarde
  4. Er veel data zijn met een hoge waarde

40) Als een verdeling negatief scheef is betekent dit dat:

  1. De test te moeilijk was
  2. De test gemiddeld gemaakt is
  3. Een scheve verdeling zegt niets over de moeilijkheidsgraad van de test
  4. De test te makkelijk was

41) Door welke factoren kan error ontstaan in een test?

  1. De deelnemer heeft slecht geslapen
  2. De testomgeving is onrustig
  3. De proefleider heeft invloed op de deelnemer
  4. Alle bovenstaande factoren kunnen een oorzaak zijn van error

42) Een instrument dat consistent een verkeerd resultaat geeft

  1. kan best betrouwbaar zijn
  2. kan best valide zijn
  3. kan aan toeval liggen
  4. wordt verkeerd gebruikt door de proefleider

43) Wat is een gestratificeerde steekproef?

  1. Een streekproef waarin ieder lid van de populatie een even grote kans heeft om in de steekproef terecht te komen.
  2. Voor een populatie waarin 30% katholiek is, wordt een steekproef gekozen waarin 30% van de deelnemers katholiek is
  3. Bepaalde groepen worden uitgesloten van de steekproef
  4. Steekproef die bestaat uit mensen die het makkelijkst beschikbaar waren

44) Welke uitspraak over test-hertest-betrouwbaarheid is waar?

1. Hoe langer de tijd is tussen de afnamen van de test, hoe lager de betrouwbaarheid

2. Als betrouwbaarheid over een tijdsinterval van langer dan 12 maanden wordt berekend, wordt het de stabiliteitscoefficient genoemd.

  1. 1 is juist, 2 is onjuist
  2. 1 is onjuist, 2 is juist
  3. beide zijn juist
  4. beide zijn onjuist

45) Bij parallele vormen van een test:

  1. zijn testlengte en -niveau van de verschillende versies gelijk
  2. kan de betrouwbaarheid berekend worden met verschillende groepen mensen
  3. zijn de gemiddelden en varianties van de verschillende versies gelijk
  4. a, b en c zijn allen juist

46) Betrouwbaarheid onder andere gemeten worden door interne consistentie betrouwbaarheidsschattingen. Bij wat voor soort test is dit een handige manier om betrouwbaarheid te meten?

  1. Homogene test
  2. Heterogene test
  3. Bijvoorbeeld bij herkansingen van tentamens
  4. Geen van de bovenstaande testen

47) Voor testen met dichotome items kan de interne consistentie worden berekend aan de hand van:

  1. Spearman-Brown
  2. Cronbach’s alfa
  3. Kuder-Richardson
  4. Geen van de bovenstaande antwoorden

48) Bij de keuze van een betrouwbaarheidsschatting is het belangrijk om rekening te houden met of het testonderwerp dynamisch is of statisch. Welk antwoord is juist?

  1. Bij een dynamisch testonderwerp zou een test-hertestschatting zinvol zijn
  2. Bij een statisch testonderwerp is een interne consistentie schatting zinvol
  3. Bij een statisch testonderwerp zou een test-hertestschatting zinvol zijn
  4. Bij een dynamische test is zowel een test-hertest als interne consistentiemeting zinvol

49) Welke uitspraak is juist?

1. Bij een criteriumreferentietest is het niet nuttig om betrouwbaarheid te berekenen op grond van alle scores in de test

2. Bij een criteriumreferentietest neemt de betrouwbaarheid af als de individuele verschillen ook afnemen.

  1. 1 is juist, 2 is onjuist
  2. 1 is onjuist, 2 is juist
  3. Beiden zijn juist
  4. Beiden zijn onjuist

50) Wat stelt de generaliseerbaarheidstheorie van Cronbach?

  1. Een test is betrouwbaar als een test gegeneraliseerd is naar een bevolking
  2. Een test is betrouwbaar als het getest is in verschillende omgevingen waarbij alle facetten gelijk waren
  3. Betrouwbaarheid is de mate waarin de testscore in staat is de steekproef van gedrag uit een domein te meten
  4. Een test gemaakt in hetzelfde universum levert dezelfde score en deze is dan generaliseerbaar.

51) Wat houdt de item responstheorie in?

  1. Het kijkt naar hoe deelnemers reageren op items
  2. Het meet de kans dat iemand met een bepaald kenmerk een bepaalde score zal halen
  3. Het houdt rekening met het feit dat proefleiders invloed kunnen uitoefenen op de deelnemers
  4. Het meet de kans dat iemand met een bepaalde zichtbare trek een bepaalde score zal laten zien.

52) Wat zijn de drie belangrijke aannames bij het gebruik van de item responstheorie?

53) Wat is oppervlaktevaliditeit?

  1. Hoe adequaat een test een steekproef neemt uit algemeen gedrag dat representatief is voor het gedrag dat door de test gemeten moet worden
  2. Hoe valide de test er op het eerste gezicht lijkt
  3. Hoe valide de test voor een deelnemer lijkt
  4. Validiteit van een test op grond van een testblauwdruk

54) Waar kan voorspellende validiteit mee worden berekend?

  1. Pearson r
  2. Met een verwachtingstabel
  3. Met de Taylor-Russell tabellen
  4. Door middel van de beslissingstheorie

55) De neiging om extreme scores te vermijden en iedereen als gemiddeld te beoordelen heet:

  1. Mildheiderror
  2. Centrale tendentie-error
  3. Halo-effect
  4. Strengheiderror

56) Het bepalen van een grensscore hangt af van het doel van de test. Welk antwoord is juist?

  1. Voor weinig false negative uitkomsten moet de grensscore omhoog
  2. Voor weinig false positive uitkomsten moet de grensscore omlaag
  3. Voor weinig false positive moet de grensscore omhoog
  4. Er moet geen grensscore gebruikt worden als er meer sollicitanten zijn dan vacatures

57) Er zijn verschillende typen grensscores. Zo is er een type grensscore waarbij er een absoluut punt is dat de minimumscore voor de classificaties weergeeft. Hoe wordt dit type genoemd?

  1. Relatieve grensscore
  2. Normreferentie grensscore
  3. Multipele grensscores
  4. Absolute grensscore

58) Er zijn verschillende manieren om een grensscore vast te stellen. Een nadeel is soms dat wanneer dit door middel van beoordelingen gebeurt er soms grote onenigheden zijn tussen de verschillende beoordelaars. Met welke methode kan dit probleem ontweken worden?

  1. Angoff methode
  2. Item-mapping methode
  3. Methode van contrasterende groepen
  4. Bladwijzermethode

59) De ontwikkeling van een test bestaat uit verschillende stappen. In een van die stappen wordt een prototype van de test afgenomen. Hoe heet deze stap?

  1. Pilotstudie
  2. Testconseptualisering
  3. Scoring
  4. Criteriumreferenties

60) Hoe heet de methode waarbij deelnemers steeds moeten kiezen tussen twee items?

  1. Comparatieve schaal
  2. Categorische schaal
  3. Guttman schaal
  4. Methode van gepaarde vergelijkingen

61) Waarmee moet rekening gehouden worden bij de format?

  1. Vorm van items
  2. Structuur van de items
  3. Rangschikking van de items
  4. Al het bovenstaande

62) Met welk type item kan goed getest worden of een deelnemer echt iets begrepen en onthouden heeft?

  1. Essay
  2. Kort-antwoord-item
  3. Meerkeuzeitem
  4. Goed/fout-item

63) Bij computer adaptief testen komt itemvertakking voor. Wat betekent dit?

  1. Items splitsen zich af per onderwerp
  2. Doordat de test zich aanpast op de prestatie van de deelnemer, ondergaat iedere deelnemer feitelijk een andere test
  3. Aan de hand van de computer kan worden gekeken of items nog deugen of niet
  4. Het goede antwoord staat er niet bij

64) Om testen te scoren kan iemands score op de ene schaal van de test vergeleken worden met die op een andere schaal van dezelfde test. Hoe noem je deze scoringsprocedure?

  1. Ipsatieve scoringsprocedure
  2. Categoriescoring
  3. Cumulatieve model
  4. Normprocedure

65) Wat is over het algemeen de beste hoogte voor een moeilijkheidsindex?

  1. .70
  2. .75
  3. .50
  4. .30

66) Items moeten een goed onderscheid kunnen maken tussen hoge en lage scoorders. Hoe wordt dit genoemd?

  1. Plafondeffect
  2. Bodemeffect
  3. Itemdiscriminatie
  4. Itemkenmerk

67) Welke uitspraak is juist?

1. Een item-kenmerkcurve die van linksboven naar rechtsonder loopt geeft een lage discirminante waarde aan.

2. Een lijn die van linksonder naar rechtsboven loopt geeft een lage discriminante waarde aan

  1. 1 is juist, 2 is onjuist
  2. 1 is onjuist, 2 is juist
  3. beide zijn juist
  4. beide zijn onjuist

68) Wat is cross-validatie?

  1. Een test die gevalideerd wordt op grond van de afname van twee testen bij dezelfde steekproef
  2. Een test opnieuw valideren op grond van een andere steekproef
  3. Een test valideren op grond van oordelen van verschillende experts
  4. Een test aanpassen aan een normgroep zodat de test valide blijft

69) Hoeveel componenten onderscheidde Binet in zijn intelligentietest?

  1. 5
  2. 3
  3. 6
  4. 4

70) Uit factoranalyse bleek dat de Wechsler-test 4 factoren mat. Welke factoren zijn dit?

  1. Verbaal begrip, werkgeheugen, waarneming en verwerkingssnelheid
  2. Redeneren, beoordelen, waarneming en verwerkingssnelheid
  3. Redeneren beoordelen, herinneren en abstract denken
  4. Verbaal begrip, werkgeheugen, herinneren en abstract denken

71) In welke intelligentiemodel wordt geen g onderkend?

  1. Drie stratum-theorie van Carroll
  2. Het intelligentiemodel van Cattell en Horn
  3. De twee factoren-theorie van intelligentie
  4. Alle bovenstaande antwoorden zijn juist

72) Hoe heet de methode waarbij bekenden, zoals klasgenoten of leraren, mensen moeten selecteren die het meest begaafd zijn?

  1. Nominerende techniek
  2. Normerende techniek
  3. Case-studie-techniek
  4. Referentietechniek

73) Wat is het Flynn-effect?

  1. Intelligentie is in de volwassenheid tamelijk stabiel
  2. Cognitieve vaardigheden nemen af met ouderdom
  3. IQ-score neemt jaarlijks in de hele populatie toe
  4. IQ-score neemt jaarlijks in de hele populatie af

74) Door welke intelligentietest werd het afwisselende item geïntroduceerd?

  1. WAIS
  2. WAIS IV
  3. Wechsler-Bellevue
  4. Stanford-Binet

75) Met welk model vertoont de WISC IV veel overeenkomsten?

  1. Het model van Carroll
  2. Het model van Cattell en Horn
  3. Het model van Cattell-Horn-Carroll
  4. Het model van Binet

76) Welke uitspraak is juist?

1. Bij factoranalyse worden correlaties berekend tussen losse items

2. Factoranalyse geeft aanwijzingen over de interpretatie van de factoren

  1. 1 is juist, 2 is onjuist
  2. 1 is onjuist, 2 is juist
  3. Beiden zijn juist
  4. Beiden zijn onjuist

77) Welke test wordt in het leger gebruikt?

  1. ASVAB
  2. Stanford-Binet
  3. AGCT
  4. Alle bovenstaande antwoorden zijn juist

78) Een vrije manier van denken waarbij iedere oplossing mogelijk is heet

  1. Creativiteit
  2. Convergent denken
  3. Deductief redeneren
  4. Divergent denken

79) Welke uitspraak is juist?

1. Baby’s die zich traag ontwikkelen kunnen dit later niet zomaar inhalen

2. Als de scores bij baby’s extreem laag zijn wordt hun voorspellende waarde sterker

  1. 1 is juist, 2 is onjuist
  2. 1 is onjuist, 2 is juist
  3. beiden zijn juist
  4. beiden zijn onjuist

80) Om in het onderwijs algemene prestatie te meten kan gebruik gemaakt worden van

  1. Cooperative Achievement Test
  2. WAIS
  3. WIAT
  4. CBA

81) Sommige testen richten zich vooral op informeel leren of levenservaringen. Welke van de volgende testen hoort niet bij dit soort testen?

  1. Leestesten
  2. Apitudetesten
  3. Prognostische testen
  4. Gereedheidtest

82) Voor wie is de K-ABC ontwikkeld?

  1. Voor volwassenen vanaf 18 jaar tot 30
  2. Voor volwassenen vanaf 50 tot 80 jaar
  3. Voor kinderen vanaf 5 tot 12 jaar
  4. Voor kinderen van 2 tot 12 jaar

83) Friedman en Rosenman onderscheidden type A en type B persoonlijkheid. Welke uitspraak is juist?

  1. Type A beslaat de trekken competitiviteit, haast en ongeduld
  2. Type B bestaat uit tegenovergestelde eigenschappen van type A
  1. 1 is juist, 2 is onjuist
  2. 1 is onjuist, 2 is juist
  3. Beide zijn juist
  4. Beide zijn onjuist

84) Wat is de belangrijkste persoonlijkheidstest?

  1. MMPI
  2. WAIS
  3. Stanford-Binet
  4. Personal-Data-Sheet

85) Wat is een responsstijl?

  1. De neiging van de deelnemer om op een bepaalde manier te antwoorden
  2. De mogelijkheden van antwoorden op een bepaald item
  3. Bijvoorbeeld of een item multiple choice is of een essay is
  4. Overdreven gemiddeld scoren (centrale tendentie error)

86) Waar dienen validiteitsschalen voor?

  1. Het vaststellen van de validiteit van een test
  2. Het meten van de mate waarin iemand de test eerlijk heeft ingevuld
  3. Het meten van de consistentie van de test
  4. Alle bovenstaande antwoorden zijn juist

87) Bij welke test hoort het volgende plaatje?

  1. MMPI
  2. Projectieve methode
  3. Blacky picture test
  4. WAIS

88) Bij welke test is het de bedoeling een verhaal te vertellen over de gebeurtenissen die geleid hebben tot een bepaalde situatie die gepresenteerd wordt op een kaart?

  1. TAT
  2. APT
  3. Handtest
  4. Rosenzweig Picture Frustration study

89) Welke uitspraak is juist?

  1. Betrouwbaarheid en validiteit zijn bij projectieve testen moeilijk vast te stellen
  2. Door middel van de split-half-methode kan redelijk goed de betrouwbaarheid van projectieve testen worden vast gesteld
  1. 1 is juist, 2 is onjuist
  2. 1 is onjuist, 2 is juist
  3. Beiden zijn juist
  4. Beiden zijn onjuist

90) Wat is een therapeutisch contract?

  1. Therapeuten moeten iedere cliënt met respect behandelen
  2. Therapeuten mogen cliënten geen hulp weigeren
  3. Een afspraak tussen cliënt en therapeut
  4. Het arbeidscontract van een therapeut

91) Wat kan worden getest met de Toren van Hanoi?

  1. Abstract denkvermogen
  2. Intellectuele vermogens
  3. Mentale status
  4. Executief functioneren

Antwoorden

1. B

2. A

3. C

4. D

5. A

6. B

7. B

8. A

9. D

10. B

11. A

12. A

13. D

14. B

15. D

16. C

17. D

18. C

19. D

20. B

21. B

22. C

23. A

24. C

25. B

26. A

27. D

28. B

29. A

30. B

31. In het onderwijs worden vaardigheden van kinderen gemeten om hun vooruitgang te kunnen evalueren. In een klinische setting om bijvoorbeeld een diagnose bij iemand te kunnen stellen. In een adviserende setting om te kijken voor welke taken mensen geschikt zijn. In het leger, in rechtszaken, bij het verwerven van een bepaalde titel en in de gezondheidspsychologie.

32. B

33. A

34. D

35. C

36. D

37. C

38. D

39. B

40. C

41. D

42. A

43. B

44. A

45. C

46. A

47. C

48. C

49. C

50. D

51. B

52. Unidimensionaliteit, de items meten 1) construct. 2) Lokale afhankelijkheid: er bestaat een systematische relatie tussen de items en die relatie heeft alleen te maken met het gemeten construct. 3) monotonie: als iemand een itemrespons kiest die een hoge mate van de eigenschap indiceert, zou dit gepaard moeten gaan met een hogere mate van die eigenschap.

53. B

54. A

55. B

56. C

57. D

58. C

59. A

60. D

61. D

62. A

63. B

64. A

65. C

66. C

67. A

68. B

69. D

70. A

71. B

72. A

73. C

74. D

75. C

76. A

77. D

78. D

79. B

80. C

81. A

82. D

83. C

84. A

85. A

86. B

87. C

88. A

89. A

90. C

91. D

 

Image

Check summaries and supporting content in teasers:
Samenvatting bij Psychological Testing and Assessment van Cohen et al. - 9e druk

Samenvatting bij Psychological Testing and Assessment van Cohen et al. - 9e druk

Wat zijn de belangrijkste mijlpalen in de geschiedenis van psychologisch testen? - Appendix A

 

2200 B.C.

2200 B.C.

Chinezen beginnen met onderzoeken voor civiele dienst.

1800-1899

1838

Jean Esquirol maakt onderscheid tussen mentale ziekte en mentale retardatie.

1862

Wilhelm Wundt gebruikt een gekalibreerde slinger om de “snelheid van denken” te meten.

1866

O. Eduard Seguin schrijft het eerste belangrijke boek over de beoordeling en behandeling van mentale retardatie.

1869

Wundt richt het eerste experimentele laboratorium voor de psychologie op in Leipzig, Duitsland.

1884

Francis Galton voert de

.........Read more
Access: 
Public
Access: 
Public

Image

Join WorldSupporter!
This content is related to:
Samenvatting bij Psychological Testing and Assessment van Cohen et al. - 9e druk
Search a summary

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Check the related and most recent topics and summaries:
Activity abroad, study field of working area:

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Follow the author: Vintage Supporter
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
3780 1