Samenvatting verplichte stof - in 3 delen

Deze samenvatting is gebaseerd op het studiejaar 2013-2014.

Hoofdstuk 1. Introductie op psychologisch testen
Hoofdstuk 2. Basisstatistieken voor metingen
Hoofdstuk 3. De betekenis van testscores
Hoofdstuk 4. Betrouwbaarheid
Hoofdstuk 5. Validiteit
Hoofdstuk 6. Itemontwikkeling
Hoofdstuk 7. Itemanalyse
Hoofdstuk 8. Prestatietests
Hoofdstuk 9. Het meten van intelligentie
Hoofdstuk 10. Het meten van persoonlijkheid
11. Gedragsdiagnostiek
12. Beroepentests
13. Neuropsychologische diagnostiek
14. Forensische toepassingen van psychologische diagnostiek
15. Het probleem van bias in psychologische diagnostiek
15. Aangepaste diagnostiek
16. Wettelijke en ethische problemen
17. Het ontwikkelen van een psychologische test

Hoofdstuk 1. Introductie op psychologisch testen

In dit hoofdstuk wordt uitgelegd waarom psychologisch testen en meten in elke tak van de psychologie belangrijk is.

Een korte geschiedenis

Al in 2200 voor Christus ontwikkelden Chinezen psychologische testen. Waarschijnlijk waren de Chinezen hiermee de eersten die psychologische testen ontwikkelden. Hieronder worden enkele voorbeelden van tests gegeven die in de loop van de afgelopen eeuwen zijn ontstaan.

In de 18^e en 19^e eeuw ontwikkelden psychiaters in Engeland en de Verenigde Staten classificatie systemen om mentale problemen te groeperen. Ook werd de vrije associatie test geïntroduceerd, waarbij een persoon aan de hand van een stimulus de eerste respons die hij/zij daarmee associeert moet geven die naar boven komt. Er zijn een aantal psychologen die een belangrijke bijdrage hebben geleverd aan psychologisch testen in deze periode. Galton was de grondlegger van mentale tests. Hij was de eerste die op grootschalig niveau fysieke, sensorische en motorische data van individuen verzamelde en deze data met elkaar vergeleek. Samen met Cattell ontwikkelde Galton gestandaardiseerde vragenlijsten die werden gebruikt om persoonlijkheid te meten.

Ook in de 20^e eeuw werden veel tests ontwikkeld. Zo kwamen Binet en Simon aan het begin van de 20^e eeuw met de Binet-Simon scale. Deze schaal mat intelligentie onder andere aan de hand van beredenering, begrip en het korte termijn geheugen van een persoon. De Binet-Simon scale was een goede voorspeller voor academisch succes. Verder ontwikkelde Woodworth in 1918 de Personal Data Sheet. Dit was de eerste formele persoonlijkheidstest. In de jaren ’30 ontwikkelde Wechsler een intelligentietest die zowel verbale als non-verbale intelligentie mat. De Wechsler-Bellevue I wordt tegenwoordig nog steeds gebruikt.

De taal van assessment

De termen test, measurement en assessment worden vaak door elkaar gebruikt. Toch is er een wezenlijk verschil tussen de drie.

Een test is een procedure waarin het gedrag van een individu als voorbeeld wordt genomen voor gedrag wat een grotere groep mensen vertoont. Het gedrag van dit individu wordt geëvalueerd en moet generaliseerbaar zijn naar het gedrag waarin de onderzoeker geïnteresseerd is.

Measurement wordt letterlijk vertaald als meting. In deze samenvatting zal het woord measurement echter gebruikt worden. Bij measurement worden kenmerken, gedrag en attributen van personen becijferd.

Assessment wordt letterlijk vertaald als vaststelling. Omdat deze vertaling die lading van het woord niet dekt, zal in het vervolg het woord assessment worden gebruikt. Assessment is elke manier waarop informatie wordt verzameld om karakteristieken van mensen of objecten te kunnen begrijpen. Bij assessment worden meerdere scores en tests gebruikt om informatie te verzamelen.

Assessment is de term die meestal wordt gebruikt om het testen en meten van personen weer te geven. Measurement en testing worden minder vaak gebruikt omdat ze een negatieve lading hebben.

Verschillende soorten tests en scoring

Cronbach deelde in 1990 tests op in maximale prestatie tests en typische respons tests.

● Maximale prestatie tests worden gebruikt om het maximale kunnen van een persoon te meten. Een voorbeeld hiervan is een intelligentietest. Maximale prestatie tests zijn er in verschillende vormen:

- Ten eerste is er sprake van een prestatietest of bekwaamheidstest. Een prestatietest meet kennis van een persoon in een specifiek domein. Hierbij wordt gekeken welke kennis een persoon heeft verworven. Een bekwaamheidstest meet kennis met betrekking tot levenservaring. Bekwaamheidstests zijn goede voorspellers voor toekomstig succes.

- Ten tweede wordt er gesproken van een objectieve en subjectieve test. Een objectieve test kan door een computer nagekeken worden omdat een vastgestelde sleutel wordt gebruikt, waardoor de manier van beoordelen altijd gelijk is. Een subjectieve test moet worden nagekeken door een persoon.

- Als laatste moeten maximale prestatie tests worden ingedeeld in speed of power tests. Een speed test bevat relatief makkelijke items en meet de snelheid waarmee een persoon de test doorloopt. Bij een power test gaat het om de moeilijkheidsgraad van de vragen die de persoon juist beantwoordt. De tijd waarin de test doorlopen wordt, is hierbij niet van belang. De meeste tests zijn echter een combinatie van een speed en power test.

● Typische respons tests worden meestal gebruikt om persoonlijkheid te meten. Ook typische respons tests zijn er in verschillende vormen:

- Bij objectieve persoonlijkheidstests worden items op een objectieve manier beoordeeld door middel van een vastgestelde antwoordsleutel. Over de interpretatie van het antwoord kan niet worden gediscussieerd.

- Bij projectieve persoonlijkheidstests krijgt de persoon een onduidelijke stimulus te zien, waarop hij de eerste respons moet geven die in hem naar boven kwam. Onderzoekers denken dat op deze manier onbewuste driften naar boven komen.

Bij alle soorten tests kan nog onderscheid gemaakt worden tussen gestandaardiseerde en niet-gestandaardiseerde tests. Bij een gestandaardiseerde test zijn de testcondities zoveel mogelijk hetzelfde voor alle personen die de test ondergaan. Een niet-gestandaardiseerde test is minder formeel. Verder kunnen alle tests ook nog onderverdeeld worden in individuele tests of groepstests. Individuele tests zijn ontwikkeld om af te nemen bij 1 persoon per keer. Groepstests kunnen worden afgenomen bij meer dan 1 persoon per keer.

Scores op een test kunnen op verschillende manier geïnterpreteerd worden. Normgerichte scores worden relatief geïnterpreteerd. Dit betekent dat de scores worden vergeleken met de scores van andere mensen. Criteriumgerichte scores worden vergeleken met een absolute standaard, waarbij het criterium van te voren is vastgesteld en los staat van prestaties van andere mensen.

Aannames van assessment

● Psychologische constructen, zoals intelligentie en depressie, bestaan.

● Psychologische constructen kunnen gemeten worden.

● Het meten van constructen gebeurt nooit perfect. Er is altijd een mate van error aanwezig. Dit geldt voor metingen in alle vakgebieden.

● Elk construct kan op verschillende manieren gemeten worden. Angst kan bijvoorbeeld het best gemeten worden door een combinatie van interviews en observaties.

● Alle test methodes hebben sterke en zwakke kanten.

● Belangrijke beslissingen moeten genomen worden op basis van meerdere testen. Een diagnose moet accuraat vastgesteld worden. Hier zijn meerdere testen voor nodig.

● Uitkomsten op testen moeten generaliseerbaar zijn.

● Testen geven informatie waardoor psychologen betere professionele beslissingen kunnen maken.

● Testen kunnen op een eerlijke manier afgenomen worden, maar er is niet 1 test die geheel eerlijk is voor alle participanten.

● Testen kunnen vooroordelen opleveren voor individuen en maatschappijen.

Toepassingen van assessment

Elk jaar worden er zo’n 20.000 nieuwe psychologische testen ontwikkeld. Hierbij moet rekening gehouden worden met richtlijnen van The Standard for Educational and Psychological Testing. Door middel van deze richtlijnen hebben participanten die deelnemen aan tests rechten met betrekking tot vertrouwelijkheid en de informatie die ze krijgen.

Assessment ontwikkelt zich steeds verder in de 21^e eeuw. Een nieuwe vorm van testen in Computerized Adaptive Testing (CAT). Hierin selecteert de computer items met een bepaalde moeilijkheidsgraad voor de participant. Deze items worden geselecteerd op basis van de prestatie van de participant op eerdere items.

Hoofdstuk 2. Basisstatistieken voor metingen

Meetschalen

In hoofdstuk A werd de term measurement al behandeld. Het is een set regels waarmee getallen kunnen worden toegekend aan kenmerken, attributen en gedrag. Het aantal items waarop een persoon positief scoort op een depressie test, is bijvoorbeeld belangrijk voor de diagnose.

Als een meting wordt gedaan, kunnen de eenheden van de meting op een schaal worden ingedeeld. Stevens bedacht in 1946 een taxonomie voor verschillende meetschalen, namelijk nominaal, ordinaal, interval en ratio:

- De nominale schaal is de simpelste meetschaal. Mensen of objecten worden hier ingedeeld in categorieën, klassen of groepen. Een voorbeeld van een nominale schaal is ‘geslacht’ of ‘niveau middelbare school’. De groepen waarin de personen worden ingedeeld zijn niet geordend. Ze staan dus niet op alfabetische volgorde, of van hoog naar laag. Als er nummers worden gebruikt bij de nominale schaal, is dat om de categorieën een naam te geven.

- De ordinale schaal bevat meer informatie dan de nominale schaal. De ordinale schaal bevat verschillende categorieën die geordend kunnen worden, bijvoorbeeld van laag naar hoog. De intervallen tussen de categorieën hoeven echter niet gelijk te zijn. Als de ordinale schaal bijvoorbeeld lengte van mensen bevat, hoeft het verschil tussen groepen 1 en 2 niet even groot te zijn als tussen groepen 3 en 4. Een ander voorbeeld van een ordinale schaal is een mening; mee eens – een beetje mee eens – mee oneens.

- De interval schaal is een ordinale schaal waarbij de afstand tussen twee categorieën gelijk is. Dit wil echter niet zeggen dat een score van 100 het dubbele is van een score van 50, zoals bij IQ. De interval schaal heeft namelijk geen absoluut 0-punt. Dit houdt in dat een score van 0 op de interval schaal niet wil zeggen dat de persoon die een intelligentietest gemaakt heeft niet intelligent is. Het zou namelijk zo kunnen zijn dat de persoon niet in staat was antwoord te geven op de vragen omdat hij de vragen niet begreep. Temperatuur en IQ-scores kunnen op een interval schaal ingedeeld worden.

- De ratio schaal is vergelijkbaar met de interval schaal, maar heeft wel een absoluut 0-punt. Met het 0-punt kan met de ratio schaal de complete afwezigheid van een kenmerk worden weergegeven. Voorbeelden zijn gewicht, lengte en kilometer per uur. Omdat de ratio schaal een 0-punt heeft, kan de afstand tussen twee scores geïnterpreteerd worden. Een score van 100 is in dit geval twee keer zo groot als een score van 50.

Zoals je misschien wel is opgevallen, geven bovenstaande schalen opeenvolgend steeds meer informatie over een meting. Dit wil echter niet zeggen dat de lagere schalen, zoals de nominale en ordinale schaal, minder goed in gebruik zijn. Per meting is het belangrijk om te kijken welke schaal het beste past.

De beschrijving van testscores

Om testscores te kunnen interpreteren, is een referentiekader nodig. Hieronder wordt informatie gegeven over verdelingen van scores en statistieken die worden gebruikt om scores te beschrijven.

Distributies

Een distributie of verdeling is een set van scores. Dit kunnen scores zijn op intelligentietests, maar ook op fysieke karakteristieken. Distributies kunnen worden weergegeven in tabellen of grafieken. Als er teveel scores zijn om individueel weer te geven, worden de scores gegroepeerd in een grouped frequency distribution. Een distributie kan ook worden weergegeven in een frequentietabel. Hierin staan de scores over het algemeen op de x-as en de frequenties van de scores op de y-as. Als scores niet symmetrisch verdeeld zijn, wordt dit een scheve verdeling genoemd. Een scheve verdeling kan positief of negatief zijn.

Bij een negatieve scheve verdeling zijn er relatief veel hoge scores en relatief weinig lage scores. Bij een positieve scheve verdeling is dit precies andersom.

Metingen van central tendency

Central tendency is een belangrijke manier om verdelingen te beschrijven. De term central tendency wordt gebruikt omdat de scores in een verdeling vaak geconcentreerd zijn in een centraal punt. Central tendency wordt beschreven aan de hand van het gemiddelde, de mediaan en de modus:

- Het gemiddelde is het rekenkundige midden van een verdeling. Deze wordt berekend door de som van de scores, dat wil zeggen alle uitkomsten van scores bij elkaar, te delen door het aantal scores. Het gemiddelde kan toegepast worden op scores uit een interval of ratio schaal. Een nadeel van het gemiddelde is dat het beïnvloedbaar is door extreme scores. Extreme scores zijn relatief hoog of laag in vergelijking met de rest van de verdeling, de zogenaamde uitschieters. De extreme score zorgt er zo voor dat het gemiddelde in zijn richting wordt getrokken.

- De mediaan is de score uit de verdeling die de verdeling opdeelt in tweeën. Als het aantal scores in een verdeling oneven is, volgt de mediaan uit de score in het midden van de verdeling. De mediaan kan berekend worden voor scores in ratio, interval of ordinale schalen. Het voordeel van de mediaan is dat hij ongevoelig is voor extreme scores.

- De modus is de score in de verdeling die het meest voorkomt. De modus kan op alle verschillende meetschalen worden toegepast. Maar de modus heeft veel nadelen en wordt daarom niet vaak gebruikt om central tendency te meten. De modus is bijvoorbeeld geen goede beschrijving van central tendency bij een bimodale verdeling. Een bimodale verdeling bevat twee gelijke en relatief hoge scores.

Maar wanneer wordt welke meting om central tendency te beschrijven, gebruikt? Dat hangt erg van de situatie af. Het is belangrijk om te kijken hoe scores verdeeld zijn. Bij verkeerd gebruik van het gemiddelde, de mediaan of de modus kunnen misverstanden ontstaan met verstrekkende gevolgen.

Variabiliteit is ook een belangrijke manier om verdelingen te beschrijven. Door middel van variabiliteit wordt duidelijk hoe de scores buiten het gemiddelde, de mediaan en de modus verdeeld zijn. Variabiliteit wordt beschreven aan de hand van bereik, standaarddeviatie en variatie:

- Het bereik wordt berekend door de grootste score van de laagste score af te trekken. Het bereik betreft buiten deze extreme scores geen informatie over de verdeling van de rest van de scores. De standaarddeviatie en variatie geven wel informatie over de spreiding van scores.

- De standaarddeviatie of standaardafwijking geeft de gemiddelde afstand weer tussen scores en het midden van een verdeling. Hoe groter de standaarddeviatie, hoe meer de scores verschillen van het gemiddelde en hoe groter de spreiding van de verdeling is. De standaarddeviatie van een steekproef wordt aangegeven met SD of S. De standaarddeviatie van een populatie wordt aangegeven met sigma (σ). Het is een maat die veel gebruikt wordt in het beschrijven van verdelingen en interpreteren van scores.

- Variantie meet ook variabiliteit van scores. Deze meetmethode wordt gebruikt in theorieën en statistieken, niet bij het interpreteren van individuele scores. Variantie meet namelijk de gemiddelde kwadratische afwijking van een verdeling. Verder wordt variant uitgedrukt in gekwadrateerde meeteenheden, wat het interpreteren lastig maakt.

De normale verdeling

De normale verdeling is een bel-vormige verdeling die belangrijk is bij het interpreteren van verschijnselen. Lengte van individuen is een voorbeeld van een variabele die normaal is verdeeld. Mensen van een bepaald geslacht en een bepaalde leeftijd zijn over het algemeen ongeveer even lang. Dit zorgt voor een piek in de normale verdeling. Er zijn echter altijd mensen die door omstandigheden (veel) langer of (veel) korter zijn. Daarom loopt de normale verdeling vanaf het midden naar zowel rechts als links af. De normale verdeling is verder oneindig en valt daarom nooit samen met zijn assen. Er moet echter wel rekening mee gehouden worden dat niet alle psychologische en gedragsverschijnselen te verklaren zijn aan de hand van de normale verdeling.

In de normale verdeling zijn het gemiddelde, de modus en de mediaan gelijk aan elkaar. Het is verder een symmetrische verdeling; beide helften kunnen aan elkaar gespiegeld worden. Figuur 2-8 is belangrijk om goed te begrijpen, omdat hierin wordt aangegeven welke percentages horen bij de afstand tussen het gemiddelde en de standaarddeviaties.

Correlatie coëfficiënten

Correlatie beschrijft de relatie tussen twee variabelen. Dit kan gaan om een relatie tussen bijvoorbeeld fysieke op psychologische variabelen. Een correlatie coëfficiënt is de kwantitatieve manier waarop de lineaire relatie tussen twee variabelen kan worden beschreven. De correlatie coëfficiënt is een getal tussen de -1.0 en +1.0 en wordt aangegeven door de Pearson coëfficiënt r. Bij het interpreteren van r wordt gekeken naar het teken en de grootte:

- Het teken is een min (negatief) of plus (positief). Een positieve r geeft aan dat een toename in de ene variabele ook zorgt voor een toename in de andere variabele. Een voorbeeld hiervan is de positieve correlatie tussen lengte en gewicht. Een negatieve r geeft aan dat een toename in de ene variabele zorgt voor een afname in de andere variabele.

- Om de grootte van r te bepalen, kijkt men naar het getal achter het teken. Een r van 0 geeft afwezigheid van een correlatie aan. Een r van -1.0 of +1.0 geeft een perfecte correlatie aan. Van een perfecte correlatie is echter bijna nooit sprake, met uitzondering van erg kleine steekproeven.

Verder zijn er richtlijnen om de sterke van een correlatie aan te geven:

r 0.30-0.70: gemiddelde correlatie

r > 0.70: sterke correlatie

Een correlatie kan ook worden beschreven aan de hand van de coëfficiënt van verklaarde variantie (coëfficiënt of determination). De verklaarde variantie wordt aangegeven door r². Deze coëfficiënt meet de proportie van de variabiliteit van een variabele die verklaard kan worden door de relatie met de andere variabele. r²geeft de sterkte van de relatie tussen de twee variabelen aan.

Een spreidingsdiagram geeft de relatie tussen twee variabelen visueel weer. Bij een correlatie van -1.0 of +1.0 liggen de punten op één lijn. Bij een zwakke correlatie zijn de punten verdeeld en is er sprake van een puntenwolk.

Bij scores op interval of rationiveau wordt de Pearson r gebruikt. De manier waarop deze berekend wordt, is af te lezen in tabel 2-6 op bladzijde 60. Bij scores op ordinaal niveau wordt de Spearman coëfficiënt gebruikt. Wanneer de ene variabele uit numerieke waarden bestaat en de andere variabele uit slechts twee waarden, wordt een punt-biseriële correlatie coëfficiënt gebruikt. Een variabele die uit slechts twee waarden bestaat, heet een dichotome variabele. Een voorbeeld hiervan is een vraag waar iemand ‘juist’/‘onjuist’ of ‘goed’/’fout’ op kan antwoorden.

Bij een curvilineaire relatie tussen twee variabelen neemt de relatie eerst positief toe tot het toppunt, waarna de relatie afneemt. Als bij het beschrijven van deze relatie een Pearson of Spearman coëfficiënt gebruikt wordt, komt een lage correlatie naar voren.

De mate van variabiliteit in een steekproef heeft veel invloed op de correlatie coëfficiënten. Een steekproef met grote variabiliteit wordt ook wel een heterogene steekproef genoemd. Een steekproef met kleine variabiliteit wordt ook wel een homogene steekproef genoemd. Heterogene steekproeven hebben een hogere correlatie dan homogene steekproeven. Bij het interpreteren van correlatie coëfficiënten is het belangrijk om te kijken naar de beperkingen van het bereik van de variabelen. Stel je vergelijkt twee variabelen onder studenten van één universiteit of onder studenten van meerdere opleidingniveaus. Bij het onderzoek onder studenten van meerdere opleidingniveaus worden hogere correlatie coëfficiënten gevonden omdat de variabiliteit groter is.

Correlatie versus oorzakelijkheid

Als twee variabelen correleren, betekent dat niet dat de ene variabele de oorzaak is van de andere variabele. Het zou wel kunnen dat de twee variabelen een causaal verband hebben, maar er kan ook een derde variabele zijn die zorgt voor een verandering in één van de twee variabelen.

Lineaire regressie

Lineaire regressie is een statistische techniek waarbij waarden van de ene variabele worden voorspeld aan de hand van de andere variabele. De vergelijking waarmee regressie wordt berekend is:

Y = a + bX

In deze vergelijking is a de constante of Y-intercept. Met a wordt het beginpunt aangegeven van de lijn op de y-as wanneer X = 0. Verder is b de regressiecoëfficiënt. Het geeft aan met hoeveel Y verandert (positief of negatief) als X met één stap toeneemt.

Standaard schattingsfout

Bij een perfecte correlatie van plus of min 1.0 is de voorspelling van de lijn perfect. Dit is echter nooit het geval omdat perfecte correlaties in psychologische testen niet voorkomen. De standaard schattingsfout geeft de gemiddelde schattingsfout tussen de regressielijn en de data aan. Aan de hand van de standaard schattingsfout kan gezegd worden hoe goed Y kan worden voorspeld aan de hand van X. Hoe de standaard schattingsfout wordt berekend is af te lezen in tabel 2-8 op bladzijde 66.

Hoofdstuk 3. De betekenis van testscores

Testscores zijn belangrijk bij het interpreteren en begrijpen van de prestatie van een participant in een test. Er zijn verschillende soorten testscores, maar de ruwe score is het meest simpel. De ruwe score is het aantal gescoorde items van een participant op een specifieke manier. Een voorbeeld van een ruwe score is het aantal items dat een participant in een rekentest correct heeft beantwoord. Een nadeel van ruwe scores is dat ze niet te interpreteren zijn omdat het referentiekader ontbreekt. Om interpretatie mogelijk te maken, moeten ruwe scores getransformeerd worden in afgeleide scores. Afgeleide scores worden meestal onderverdeeld in normgerichte scores en criteriumgerichte scores. Deze afgeleide scores zijn al even aan bod gekomen in hoofstuk A, maar worden hier verder behandeld.

Normgerichte en criteriumgerichte score interpretaties

Bij normgerichte score interpretaties wordt de score van een participant vergeleken met de scores van andere participanten. Voorbeelden testen die normgerichte worden geïnterpreteerd zijn IQ-testen en persoonlijkheidstesten. Bij criteriumgerichte score interpretaties wordt de score van een participant vergeleken met een absolute standaard. Een voorbeeld hiervan is het percentage correcte antwoorden van een participant in een schoolexamen.

Normgerichte interpretaties

Bij normgerichte interpretaties wordt de prestatie van een participant vergeleken met de prestatie van een relevante groep. Bij een academische prestatietest moet de groep waarmee de participant vergeleken wordt dezelfde leeftijd en educatieve achtergrond hebben. Als een geschikte en relevante populatie is gevonden om de participant mee te vergelijken, wordt een willekeurige steekproef uit deze populatie getrokken. Steekproeven worden zodanig geselecteerd dat ze generaliseerbaar zijn naar de populatie. Na het standaardiseren en testen van de steekproef, worden tabellen met afgeleide scores ontwikkeld. Deze tabellen worden ook wel normatieve tabellen of normen genoemd.

Er zijn enkele voorwaarden aan gestandaardiseerde steekproeven. Een steekproef moet representatief zijn met de groep waarmee vergeleken wordt. Verder moet een steekproef actueel zijn omdat gedrag en attitudes van mensen veranderen over tijd. Als laatste moet een steekproef groot genoeg zijn om te kunnen generaliseren naar de populatie.

Standaard scores

Omdat ruwe scores niet interpreteerbaar zijn, worden afgeleide scores gebruikt die wel interpreteerbaar zijn. Standaard scores zijn transformaties van ruwe scores naar een gewenste schaal met een vooraf vastgesteld gemiddelde en standaarddeviatie. Deze transformaties worden lineaire transformaties genoemd. Bij lineaire transformaties bestaat er een directe relatie tussen de ruwe scores en de standaard scores. Ook behoudt de verdeling zijn originele vorm.

Standaardscores kunnen worden gemaakt aan de hand van elk gemiddelde en standaarddeviatie. Onderzoekers zijn bij het beschrijven van scores vaak onduidelijk welke specifieke standaard score ze gebruikt hebben. Het weten van de specifieke standaard score is echter belangrijk bij het correct interpreteren van de scores. Hieronder worden de meest gebruikte vormen van standaard scores behandeld:

- Z-scores zijn de simpelste standaard scores. Z-scores geven aan hoe ver een ruwe score boven of onder het gemiddelde van een verdeling ligt. Deze afstand wordt aangegeven in standaarddeviaties. Z-scores hebben een gemiddelde van 0, een standaarddeviatie van 1 en kunnen in decimalen gegeven worden. Een voordeel van z-scores is dat ze ervoor zorgen dat statistische formules makkelijker te berekenen zijn.

- T-scores hebben een gemiddelde van 50 en een standaarddeviatie van 10. Een voordeel van t-scores in vergelijking met z-scores is dat t-scores altijd positief zijn en geen decimalen hebben.

- IQ en andere prestatietests hebben een gemiddelde van 100 en een standaarddeviatie van 15. Net als bij t-scores zijn er geen negatieve waarden of waarden in decimalen.

- CEEB scores hebben een gemiddelde van 500 en een standaarddeviatie van 100. CEEB scores worden gebruikt voor onder andere de Scholastic Assessment Test (SAT) en de Graduate Record Examination (GRE).

Zie tabel 3-3 op pagina 84 voor het transformeren van standaard scores van de ene vorm naar de andere, bijvoorbeeld van een z-score naar een t-score.

Genormaliseerde standaardscores zijn standaard scores die gebaseerd zijn op verdelingen die eigenlijk niet normaal verdeeld waren, maar die zijn getransformeerd tot normale verdelingen. De transformaties die zijn toegepast betreffen vaak non-lineaire transformaties. Door de non-lineaire transformaties wordt de vorm van de verdeling veranderd. Hieronder worden de meest gebruikte vormen van genormaliseerde standaardscores behandeld:

- Bij stanine scores wordt de verdeling in negen even grote groepen verdeeld. Stanines zijn echter niet precies omdat een score een klasse vertegenwoordigt. Omdat stanines discutabel zijn worden ze door veel onderzoekers vermeden.

- De Wechsler geschaalde score heeft een gemiddelde van 10 en een standaarddeviatie van 3. Deze score was ontworpen om subtesten te kunnen vergelijken, hoewel ze onderling van elkaar verschillen.

- De normal curve equivalent (NCE) worden gebruikt voor testen op educatief gebied. Het gemiddelde van de NCE is 50 en de standaarddeviatie is 21.06.

- Een percentiel rank geeft de relatieve prestatie van een participant op een test weer. Het geeft het percentage individuen aan dat onder een bepaald punt op de verdeling scoort. Een percentiel van 80 geeft dus aan dat 80% van de steekproef hieronder scoorde. Een nadeel van percentielen is dat ze niet overal op de verdeling even groot zijn. In het midden van de verdeling liggen de meeste percentielen, in vergelijking met de uiteinden van de verdeling. Een percentielverschil van een paar punten in het midden van de verdeling is dus relatief groot vergeleken met een percentielverschil van een paar punten aan het uiteinden van de verdeling.

- Een graad equivalent geeft de academische prestatie van een participant weer, zoals bijvoorbeeld een 6.5 voor wiskunde. Graad equivalenten lijken makkelijk interpreteerbaar en zijn daarom populair. Maar er zijn veel nadelen aan, waardoor wordt afgeraden om ze te gebruiken. Een nadeel is bijvoorbeeld dat graad equivalenten niet vergelijkbaar zijn tussen testen. Een 6.5 voor wiskunde geeft bijvoorbeeld niet aan hoe goed iemand is in lezen. Verder worden ze op ordinale schaal gegeven, waardoor de eenheden op de schaal geen gelijke tussenstappen hebben.

Criteriumgerichte interpretaties

Bij criteriumgerichte interpretaties wordt de prestatie van een participant vergeleken met een absolute waarde of criterium groep. Het absolute niveau van prestatie van een persoon wordt dus bekeken. Een voorbeeld van een criteriumgerichte interpretatie is het percentage van items in een test dat een participant juist beantwoordt. Een ander voorbeeld van criteriumgerichte interpretatie is mastery testing. Bij mastery testing wordt aan de hand van een geslaagd/gezakt systeem bepaald of een persoon een specifiek niveau van bekwaamheid heeft bepaald. Het is een alles of niets principe. Voorbeelden van mastery testing zijn een rijexamen en een test waarbij minimaal 85% van de items correct moet worden beantwoord om te slagen. Een laatste voorbeeld van criteriumgerichte interpretatie is de standaardgebaseerde interpretatie. Hierbij wordt de prestatie van een persoon ingedeeld in categorieën zoals basis, bekwaam of gevorderd.

Normgericht, criteriumgericht, of beide?

Het is niet juist om een test normgericht of criteriumgericht te noemen. Het is de interpretatie van de scores op de test die normgericht of criteriumgericht zijn, niet de test zelf. Normgerichte interpretaties kunnen op meer soorten tests worden toegepast dan criteriumgerichte interpretaties. Er wordt onderscheid gemaakt tussen maximale prestatie tests en typische respons tests. Maximale prestatie tests meten aanleg en bekwaamheid, terwijl typische respons tests interesses en gedrag meten. Normgerichte interpretaties kunnen worden toegepast op beide soorten tests. Criteriumgerichte interpretaties kunnen alleen op maximale prestaties tests worden toegepast.

Testontwikkelaars houden bij het maken van tests rekening met de manier waarop hun test geïnterpreteerd gaat worden. Tests ontworpen voor criteriumgerichte interpretaties hebben een kleinere focus vergeleken met tests ontworpen voor normgerichte interpretaties. Door deze kleine focus meten relatief veel items de scores op afzonderlijke vaardigheden. Testontwikkelaars selecteren dan ook de items waarvan de moeilijkheid is gekoppeld aan de kennis die voor een vaardigheidsdomein is vereist. Tests ontworpen voor normgerichte interpretaties hebben een bredere focus. Voor het meten van één vaardigheid zijn minder items beschikbaar. Testontwikkelaars selecteren hierbij items van gemiddelde moeilijkheidsgraad. De moeilijkste en makkelijkste items worden verwijderd. Waarom dit zo is, wordt verder uitgelegd in hoofdstuk F.

Hoewel de meeste tests zijn ontworpen voor ofwel een normgerichte interpretatie ofwel een criteriumgerichte interpretatie, is een combinatie van de twee ook mogelijk. Een voorbeeld hiervan is dat een student niet alleen een cijfer voor een examen krijgt, maar ook de percentiel rank.

Scores gebaseerd op de item respons theorie

De item respons theorie (IRT) maakt het berekenen van scores mogelijk die niet door middel van een criteriumgerichte of normgerichte manier kunnen worden geïnterpreteerd. De IRT is een moderne manier van mentale meting. De antwoorden op items in een test verklaren latente kenmerken. Een latent kenmerk is een karakteristiek die niet direct kan worden bepaald, maar waarvan het bestaan wordt gebaseerd op gedragstheorieën. Een voorbeeld van een latent kenmerk is intelligentie. In hoofdstuk G komt de IRT uitgebreider aan bod.

Rasch-type scores zijn IRT-gebaseerde scores en worden ook wel W-scores genoemd. Ze meten veranderingen in scores op cognitieve vaardigheden over tijd. Een voordeel van Rasch-type scores is dat de afstand tussen twee scores gelijk is en dat de standaarddeviaties tussen leeftijdsgroepen stabiel zijn. Het verschil met ruwe scores is dat Rasch scores op een gelijke interval schaal meten, ruwe scores doen dat niet.

Verschillende types testscores beantwoorden verschillende vragen. Welke type van scores wanneer wordt gebruikt hangt af van welke type informatie nodig is.

Hoofdstuk 4. Betrouwbaarheid

Betrouwbaarheid wordt in de context van metingen beschreven als de nauwkeurigheid, stabiliteit of samenhang met meetresultaten. Betrouwbaarheid is een karakteristiek van scores op een test, niet als een karakteristiek van de test zelf. Er zijn veel factoren die invloed hebben op betrouwbaarheid. Voorbeelden van deze factoren zijn de tijd waarop de test wordt afgenomen en externe gebeurtenissen die zich bij afname voordoen.

Klassieke testtheorie en meetfouten

In elke vorm van meten is een meetfout (measurement error) aanwezig. De klassieke testtheorie (CTT), ook wel de true score theory genoemd, helpt willekeurige meetfouten te begrijpen en de betrouwbaarheid van testscores te berekenen. Aan de hand van de CTT wordt elke score op een mentale test in twee delen opgesplitst, namelijk de ware score en de error score. De vergelijking hiervan is als volgt:

X_i= T + E

X_istaat voor de behaalde of geobserveerde score (X) van een individu (i) in een test. T staat voor de ware score van de participant als deze perfect kon worden gemeten. E staat voor de meetfout. Tim moet bijvoorbeeld een meerkeuzetoets maken met 100 items. Hij weet het antwoord op 80 items (T), en hij gokt 5 vragen goed (E). Zijn geobserveerde score is dan 85 (X). Als Tim 5 vragen fout had beantwoord, was zijn geobserveerde score 75 geweest. Een meetfout kan dus tot een toename of afname van de geobserveerde score leiden. Vandaar dat de CTT willekeurige meetfouten helpt te begrijpen.

Bronnen van meetfouten

Er zijn verschillende bronnen die van invloed zijn op meetfouten in tests. De twee belangrijkste zijn content sampling en time sampling.

Content sampling error

Voor het meten van een vaardigheid wordt altijd een steekproef getrokken uit alle mogelijke vragen om die vaardigheid te meten. Deze vragen zijn misschien niet representatief voor het domein waar informatie over nodig is. De mate van error tussen de steekproef van items en alle mogelijke items, heet de content sampling error. Als de items in een test een goede steekproef voor het benodigde domein zijn, is de mate van meetfout door content sampling relatief klein.

Time sampling error

Meetfouten die worden veroorzaakt door time sampling error zijn moeilijk generaliseerbaar naar verschillende situaties. Verschillen in tijden en situaties waarin een test wordt afgenomen, zijn cruciaal voor de resultaten van de test. Als Jose niet heeft ontbeten en een test moet maken rond 11:00u, kan zijn prestatie minder zijn omdat hij gehaast en afgeleid is tijdens het maken van de test. Sommigen noemen de time sampling error daarom ook wel tijdinstabiel.

Betrouwbaarheidscoëfficiënten

De absolute betrouwbaarheid van een test is nooit precies duidelijk. Daarom wordt betrouwbaarheid altijd als een schatting gegeven. Betrouwbaarheid wordt door de volgende formule berekend:

r_XX= σ²_T / σ²_X

In bovenstaande formule is r_XX het betrouwbaarheidscoëfficiënt. Hiermee wordt het percentage variantie van de testscore aangegeven dat daadwerkelijk komt door de ware variantie.

Een r van 0.90 geeft bijvoorbeeld aan dat 90% van de variantie van de testscore te herleiden is naar de ware variantie. De overige 10% is error variantie. Verder staat σ²_Tvoor de variantie van de ware score en σ²_Xvoor de variantie van de totale test.

Betrouwbaarheidscoëfficiënten kunnen in drie brede categorieën worden opgesplitst. In tabel 1 op bladzijde 122 wordt een duidelijk overzicht gegeven van de kenmerken van de verschillende categorieën. Hieronder worden ze ook één voor één behandeld.

Test-Hertest betrouwbaarheid

Bij een test-hertest krijgt eenzelfde groep individuen dezelfde test op twee verschillende tijden. Het betrouwbaarheidscoëfficiënt wordt hierbij berekend door de correlatie tussen de uitkomsten op de twee testen te berekenen. De test-hertest is vooral gevoelig voor meetfouten door time sampling. Verder laat het test-hertest betrouwbaarheidscoëfficiënt wel zien of testscores generaliseerbaar zijn naar verschillende situaties over tijd. Over welk tijdsinterval gebruikt moet worden tussen de test en hertest, bestaat discussie. Bij het kiezen van een geschikt tijdsinterval is de manier waarop de testscores gebruikt gaan worden van belang. Bij de ene test is lange termijn stabiliteit bijvoorbeeld minder van belang dan bij de andere test.

Afwisselende-vorm betrouwbaarheid

Een andere manier om betrouwbaarheid te berekenen is de afwisselende-vorm betrouwbaarheid. Hierbij worden twee tests afgenomen met een inhoud en moeilijkheidsgraad die parallel aan elkaar lopen. Beide tests worden bij eenzelfde groep individuen afgenomen. Hierna wordt de correlatie tussen de scores op beide tests berekend.

Er zijn twee manieren om afwisselende-vorm betrouwbaarheid vast te stellen. Bij afwisselende-vorm betrouwbaarheid gebaseerd op gelijktijdige afname worden de twee tests afgenomen in eenzelfde situatie. Deze vorm van afname is gevoelig voor meetfouten door content sampling. Bij afwisselende-vorm betrouwbaarheid gebaseerd op verlate afname worden de twee tests in een andere situatie afgenomen. Deze vorm van afname is gevoelig voor meetfouten door zowel content als time sampling.

Interne consequentheid betrouwbaarheid

Bij interne consequentheid betrouwbaarheid wordt betrouwbaarheid berekend na één testafname. Hierdoor ontstaan vooral meetfouten door content sampling. Bij interne consequentheid betrouwbaarheid wordt de relatie tussen test items bekeken. De test wordt na afname opgesplitst in twee delen, split half reliability. In de ene helft komen bijvoorbeeld de even items, terwijl in de andere helft de oneven items terecht komen. Scores op de ene helft van de test worden daarna gecorreleerd met scores op de andere helft van de test. Omdat de correlatie van de twee helften wordt berekend, zegt deze correlatie niets over de betrouwbaarheid van de testscores als de twee helften waren gecombineerd. Om de betrouwbaarheid van de totale test toch te berekenen, wordt de Spearman-Brown formule gebruikt.

Betrouwbaarheid van scores op de totale test = (2 x betrouwbaarheid van scores op de halve test) / (1 + betrouwbaarheid van de scores op de halve test)

Als de correlatie tussen de twee helften van de test bijvoorbeeld 0.74 was, zit de formule er zo uit:

Betrouwbaarheid van scores op de totale test = (2 x 0.74) / (1 + 0.74) = 0.85

De betrouwbaarheidscoëfficiënt van de totale test is 0.85 en de correlatie tussen de twee helften van de test is 0.74. Dit geeft aan dat de betrouwbaarheidscoëfficiënt van de twee helften de betrouwbaarheid van de totale test onderschat.

Er zijn nog andere manieren om betrouwbaarheid te meten door middel van één testafname. Een voorbeeld daarvan is de Kuder-Richardson formule 20 (KR20). De KR20 wordt gebruikt bij dichotome items zoals juist/onjuist. Ook de coëfficiënt alpha meet betrouwbaarheid aan de hand van één testafname en wordt gebruikt bij items met meer dan twee opties. De coëfficiënt alpha is ontwikkeld door Cronbach in 1951 en wordt veel gebruikt voor het meten van interne consequentheid.

Tussen-beoordelaar betrouwbaarheid

Tussen-beoordelaar betrouwbaarheid houdt in dat de subjectieve beoordeling op een test moet overeenkomen tussen verschillende beoordelaars. Om de tussen-beoordelaar betrouwbaarheid te bepalen, wordt de correlatie tussen de scores berekend die verschillende beoordelaars hebben gegeven. Ook kan het percentage worden berekend van de keren waarin twee individuen dezelfde score toegewezen hebben gekregen. Dit wordt de tussen-beoordelaar overeenstemming of percentage overeenstemming genoemd. Cohen’s kappa wordt vaker gebruikt om tussen-beoordelaar betrouwbaarheid te berekenen omdat het een meer handzame manier is. Cohen’s kappa neemt in zijn berekening namelijk het aantal overeenstemming tussen de beoordelaars mee dat veroorzaakt is door toeval.

Tussen-beoordelaar betrouwbaarheid is een discussiepunt bij examens met open vragen, niet bij meerkeuze examens. De voorkeuren en het humeur van een beoordelaar kunnen bij open vragen invloed hebben op de manier waarop de test van een participant wordt beoordeeld. Voor meerkeuzevragen is een gestandaardiseerde antwoordsleutel verkrijgbaar en is over het algemeen geen discussie mogelijk over het juiste antwoord op de vragen.

Betrouwbaarheid van samengestelde scores is over het algemeen groter dan de betrouwbaarheid van de metingen die bijdragen aan de samenstelling. Want uit hoe meer scores een samenstelling bestaat, hoe hoger de correlatie tussen die scores is. En hoe hoger de individuele betrouwbaarheid, hoe hoger de betrouwbaarheid van de samenstelling is.

Betrouwbaarheid van verschil scores

Als onderzoekers het verschil tussen twee scores willen bekijken, wordt dit de verschil score genoemd. De verschil score wordt als volgt berekend:

D = X – Y

Hierin is X de score op de ene test en Y de score op een andere test.

De betrouwbaarheid van verschil scores is lager dan de betrouwbaarheid van individuele scores. Een algemene regel is dat de verschil score hoger is als de originele metingen een hoge betrouwbaarheid hebben, maar een lage onderlinge correlatie.

Selectie van een betrouwbaarheidscoëfficiënt

Verschillende situaties vragen om verschillende berekeningen van betrouwbaarheid. Onder andere de manier waarop de resultaten van een test gebruikt gaan worden, bepaalt het geschikte betrouwbaarheidscoëfficiënt. En wanneer is een betrouwbaarheidscoëfficiënt hoog genoeg om een score betrouwbaar te kunnen noemen? Een betrouwbaarheidscoëfficiënt is nooit 1.0, want dat zou betekenen dat 100% van de testscore variantie toe te schrijven is aan ware verschillen tussen individuen. Er is altijd een mate van error aanwezig. Hieronder worden enkele andere factoren genoemd die van invloed zijn op de keuze van een geschikt betrouwbaarheidscoëfficiënt:

- Sommige constructen zijn moeilijker te meten dan andere constructen. Persoonlijkheid is bijvoorbeeld moeilijker te meten dan cognitieve vaardigheden.

- De tijd die beschikbaar is voor de meting heeft ook invloed op de betrouwbaarheid van een test. Het is onredelijk om hetzelfde niveau van betrouwbaarheid te verwachten bij een intelligentietest die in 15 minuten wordt afgenomen als bij een intelligentietest die in twee uur wordt afgenomen.

- Als het doel van de testscores is om een diagnose te geven aan een individu, is de betrouwbaarheid van de test belangrijker dan dat het doel van de testscores is om de leesvaardigheid van een groot aantal individuen te meten. Met een diagnose hangen grotere en meer belangrijke beslissingen samen.

- Bij het evalueren en vergelijken van de betrouwbaarheid van verschillende tests is het belangrijk om te kijken naar de methode waarmee betrouwbaarheid berekend is. Sommige methoden geven bijvoorbeeld een kleinere betrouwbaarheidscoëfficiënt dan andere methoden.

- Er zijn ook vaste regels bij het evalueren van een betrouwbaarheidscoëfficiënt. Zo moet het betrouwbaarheidscoëfficiënt dat een grote impact kan hebben op een individu soms minimaal 0.90 of zelfs 0.95 zijn. Voor veel persoonlijkheids- en vaardigheidstests geldt echter een betrouwbaarheidscoëfficiënt van minimaal 0.80. Over het algemeen geldt dat tests met een betrouwbaarheidscoëfficiënt van kleiner dan 0.70 niet gebruikt worden. Een betrouwbaarheidscoëfficiënt van 0.70 houdt namelijk al in dat 30% van de variantie veroorzaakt wordt door meetfouten.

Het verbeteren van betrouwbaarheid

De makkelijkste manier om betrouwbaarheid te verbeteren is door meer items met dezelfde kwaliteit als de andere items in een test op te nemen. Een variatie op de Spearman-Brown formule wordt gebruikt om te voorspellen wat het effect is op de betrouwbaarheid van de scores als items worden toegevoegd. Het gaat om deze formule:

r = n x r_XX / 1 + (n – 1) r_XX

Hierin is r de betrouwbaarheid na toevoeging van nieuwe items, n de factor waarmee het aantal items is toegenomen en r_XXde betrouwbaarheid van de originele testscores. Als een originele test bijvoorbeeld 25 items bevatte en een nieuwe test 30 items, n = 1.2.

Problemen bij het berekenen van betrouwbaarheid

- Een speed test reflecteert de snelheid waarmee een participant een test aflegt. De betrouwbaarheid van de scores op een speed test kan het best worden berekend door middel van een test-hertest of afwisselende-vorm betrouwbaarheid.

- Als een test wordt gemaakt door individuen die in de extremen van de verdeling vallen, zijn de resultaten niet zo nauwkeurig als het betrouwbaarheidscoëfficiënt aangeeft.

- Betrouwbaarheid moet berekend worden met gebruikt van een steekproef die representatief is voor de populatie waarmee de participanten in de test vergeleken moeten worden.

- De berekeningen voor betrouwbaarheid in dit hoofdstuk zijn ongeschikt om de betrouwbaarheid van mastery testing (zie hoofdstuk C) te berekenen. Om betrouwbaarheid van mastery testing te berekenen, wordt een index aangeraden die de consequentheid van classificatie aangeeft.

De standaard meetfout

Uit het voorgaande bleek dat het betrouwbaarheidscoëfficiënt wordt gebruikt bij het vergelijken van betrouwbaarheid van scores van verschillende testprocedures. De standaard meetfout (SEM) is een statistiek die wordt gebruikt bij het interpreteren van testscores van individuen. De SEM is de standaarddeviatie van de verdeling van error scores.

De SEM berekenen

De formule om de SEM te berekenen is :

SEM = SD √(1- r_XX)

Hierin is SD de standaarddeviatie van de scores in de verdeling en r_XXde betrouwbaarheid van de testscores. Hoe lager de betrouwbaarheid van de testscores, hoe hoger de SEM en hoe minder het vertrouwen is in de precisie van de test. Deze regel geldt ook omgekeerd.

Betrouwbaarheidsintervallen

Een betrouwbaarheidsinterval geeft een bereik van scores weer waar binnen de ware score van een individu met grote waarschijnlijkheid valt. De SEM wordt gebruikt om het betrouwbaarheidsinterval te berekenen. Als de betrouwbaarheid van testscores toeneemt, wordt het betrouwbaarheidsinterval kleiner. Betrouwbaarheidsintervallen zorgen ervoor dat testscores een mate van error bevatten. Ook zorgen ze ervoor dat testscores voorzichtiger worden geïnterpreteerd.

Moderne testtheorieën

Tot nu toe is het in dit hoofdstuk vooral gegaan over de klassieke testtheorie (CTT). Er zijn echter nog twee grote en belangrijke test theorieën:

- De generaliseerbaarheidstheorie is een uitbreiding van de CTT en is ontwikkeld door onder andere Cronbach. De generaliseerbaarheidstheorie geeft onderzoekers de kans om onderzoeken te ontwerpen waarin de hoeveelheid variantie in verschillende soorten error naar voren komt. Om het betrouwbaarheidscoëfficiënt te berekenen, gebruikt de generaliseerbaarheidstheorie ANOVA via SPSS. Deze theorie geeft een flexibele en meer informatieve kijk op betrouwbaarheid dan de CTT.

- De item respons theorie (IRT) heeft weer een andere kijk op het meten van betrouwbaarheid. Bij IRT wordt informatie over betrouwbaarheid van testscores als een test informatie functie (TIF) gegeven. Een TIF geeft de betrouwbaarheid van metingen op verschillende punten van de verdeling weer. Hiermee wordt duidelijk dat betrouwbaarheid niet constant is over de hele verdeling. Volgende de TIF is de meest betrouwbare informatie uit het midden van de verdeling te halen. In de uiteinden van de verdeling zijn meer meetfouten te vinden. Het verschil met de CTT en IRT is dus dat de IRT informatie over betrouwbaarheid op verschillende punten van de verdeling geeft, terwijl de CTT maar één berekening van betrouwbaarheid geeft. Meer over de IRT volgt in hoofdstuk G.

Hoofdstuk 5. Validiteit

Reynolds (1998) zei dat validiteit een constant bewegend doel is naar nauwkeurigheid en geschiktheid van de interpretatie van testscores. Als testscores bijvoorbeeld laten zien dat een individu depressief is, verwijzen deze testscores dan ook daadwerkelijk naar het niveau van depressie van dit individu? Valide interpretaties zorgen ervoor dat betere beslissingen gemaakt kunnen worden. Het is echter niet correct om te verwijzen naar een valide test. Het zijn de interpretaties op tests die wel of niet valide zijn. Wanneer test scores voor interpretaties op verschillende gebied worden gebruikt, moet voor elke interpretatie afzonderlijk worden gekeken op de testscores valide zijn. Verder ligt validiteit op een continuüm en is het geen alles of niets principe.

Bedreigingen voor validiteit

De twee grootste bedreiging voor validiteit zijn construct onderrepresentatie en construct-irrelevantie spreiding. Construct onderrepresentatie houdt in dat een test minder meet dan hij zou moeten meten. Deze onderrepresentatie is het geval als een test belangrijke aspecten van een construct niet meet. Construct-irrelevantie spreiding houdt in dat een test meer meet dan hij zou moeten meten. Dit is het geval als een test karakteristieken meet die niet aan het construct gerelateerd zijn. Ook zijn er externe factoren die kunnen bijdragen aan een verminderde validiteit van de interpretatie van testscores:

- Karakteristieken van de participant, zoals angstigheid of eerlijkheid, kunnen de validiteit van testscores ondermijnen. Persoonlijke factoren kunnen een grote invloed hebben op de prestatie van een participant op een test.

- Verkeerde testafnames kunnen zorgen voor een gebrek aan de juiste instructies waardoor de validiteit wordt ondermijnd. Ook onbetrouwbare en bevooroordeeld scoren heeft een negatieve invloed op de validiteit.

- De validiteit wordt kleiner als een participant voorafgaand aan de test instructie en coaching heeft gehad.

Betrouwbaarheid en validiteit

Zoals in het hoofdstuk D is besproken, wordt betrouwbaarheid gedefinieerd als de stabiliteit, consistentie en nauwkeurigheid van testscores. Zonder betrouwbaarheid kan er geen validiteit zijn. Maar een hoge betrouwbaarheid van testscores garandeert niet per definitie dat ze valide zijn. Testscores met een hoge betrouwbaarheid worden door sommigen als sterk valide geïnterpreteerd, terwijl anderen vinden dat er bij dezelfde testscores een gebrek is aan validiteit.

‘Types validiteit’ en ‘types validiteitsbewijzen’

De Standards for Educational and Psychological Testing uit 1999, simpelweg de Standards genoemd, bevat richtlijnen voor de ontwikkeling en het gebruikt van tests. Veel testontwikkelaars en uitgevers gebruiken de Standards vanwege ethische redenen. Voordat de uitgave van de Standards uit 1999 werd geschreven, werd validiteit door Messick in 1989 gegeven in types validiteit:

- Content validiteit kijkt of de inhoud van een test relevant en representatief is voor het inhoudsdomein.

- Criteriumgerichte validiteit benadrukt de relatie tussen de test en externe variabelen waarvan wordt gedacht dat deze direct door het construct worden gemeten.

- Construct validiteit verwijst naar betekenis of interpretatie van testscores.

In de jaren ’70 en ’80 werd het idee van verschillende types van validiteit vervangen door het idee dat validiteit een samenhangend concept was. De verschillende types van validiteit die hierboven gegeven zijn, zouden enkel verschillende manieren zijn om steun te vinden voor de validiteit van interpretaties van testscores.

In de Standards van 1985 werd dan ook naar types validiteitsbewijzen verwezen, zoals bijvoorbeeld content-gerelateerd bewijs voor validiteit en construct-gerelateerd bewijs voor validiteit.

In de Standards van 1999 worden vijf categorieën van validiteitsbewijs gegeven:

- Bewijs gebaseerd op testinhoud gaat over de soort vragen of taken die in de testafname naar voren komen.

- Bewijs gebaseerd op relaties tot andere variabelen gaat over het bewijs van de relatie tussen de prestatie op de test en externe variabelen.

- Bewijs gebaseerd op de interne structuur gaat over de relatie tussen testitems en testonderdelen onderling.

- Bewijs gebaseerd op respons processen gaat over bewijs dat verworven is over de test door analyse van een onderzoeken

- Bewijs gebaseerd op gevolgen van de test gaat over bewijs gebaseerd op onderzoek naar zowel de bedoelde als onbedoelde gevolgen van de test.

De relevantie van bovenstaande validiteitsbewijzen hangt van het construct, gebruikt en populatie van een test af.

Bronnen van validiteitsbewijs

In dit onderdeel van het hoofdstuk wordt dieper ingegaan op de vijf categorieën voor validiteitsbewijs.

Bewijs gebaseerd op testinhoud

Testinhoud gaat over de thema’s, items, taken en richtlijnen van een test. Voordat de testinhoud kan worden bepaald, moet het construct dat gemeten gaat worden in de test duidelijk zijn. Nadat het construct gekozen en duidelijk gedefinieerd is, wordt een tabel met specificaties opgesteld. Hierna wordt de test geschreven. Om de validiteit van de testinhoud te waarborgen, wordt de test herhaaldelijk herzien en geëvalueerd door experts. De experts kijken naar de item relevantie en inhoud relevantie van de test. Item relevantie houdt in dat wordt gekeken of elk item afzonderlijk essentieel is voor het testen van het construct in een specifiek domein. Bij inhoud relevantie wordt gekeken of de items representatief zijn voor het gehele inhoudsdomein.

Validiteitsbewijs gebaseerd op testinhoud wordt het meest gebruikt om de validiteit van vaardigheidstests vast te stellen. Ook wordt deze vorm van validiteitsbewijs voor het selecteren van nieuwe werknemers in een bedrijf.

Gezichtsvaliditeit is de mate waarin een test lijkt te meten wat het hoort te meten. Als ongetrainde individuen een test bekijken, willen ze zien of de items van de test zo zijn als ze verwacht hadden. Gezichtsvaliditeit draait alleen om de verschijning van de test, niet om de systematische en technische analyse ervan. Toch is gezichtsvaliditeit belangrijk, omdat het ervoor zorgt dat een test beter wordt ontvangen door een publiek. Als een test lijkt te meten wat het hoort te meten, zijn er meer participanten die gemotiveerd zijn om de test te maken. Door deze motivatie kan de prestatie van participanten op de test zelfs toenemen.

Bewijs gebaseerd op relaties tot andere variabelen

Validiteit kan ook worden bekeken door de relatie tussen testscores en andere variabelen. Er zijn verschillende toepassingen voor deze vorm van validiteitsbewijs:

- Testcriterium bewijs

Bij testcriterium bewijs wordt de prestatie van een participant vergeleken met een criterium. Om testcriterium bewijs te vinden, kan gebruik worden gemaakt van een voorspellend onderzoek of concurrent onderzoek. Voorspellend onderzoek wordt de test afgenomen, waarna een tijdsinterval volgt en uiteindelijk de meting van het criterium. Deze vorm van onderzoek neemt veel tijd in beslag en is erg duur. In een concurrent onderzoek vinden de afname van de test en de meting van het criterium op ongeveer dezelfde tijd plaats. Voorspellend onderzoek is vanuit een technisch perspectief meer geliefd dan concurrent onderzoek, maar onderzoekers maken vanuit een praktisch perspectief vaker gebruik van concurrent onderzoek.

Na zowel voorspellend als concurrent onderzoek volgt een validiteitscoëfficiënt. Er is geen algemene regel voor hoe groot een validiteitscoëfficiënt moet zijn voordat testscores valide genoemd mogen worden. Dit scheelt namelijk per vorm van meting. Als een test namelijk betere informatie geeft dan elke andere test op eenzelfde gebied, is deze soms bruikbaar terwijl het validiteitscoëfficiënt relatief klein is. Er zijn wel statistische procedures om te kijken op voorspellende tests bruikbaar zijn. Bij lineaire regressie bepaalt de standaard meetfout de grootte van de fout in de voorspelling. De standaard meetfout is de standaarddeviatie van voorspellingsfouten rond de voorspelde scores.

- Convergent validiteitsbewijs

Convergent validiteitsbewijs wordt verkregen wanneer twee tests met dezelfde constructen worden gecorreleerd. Discriminant validiteitsbewijs wordt verkregen wanneer twee tests met tegenovergestelde constructen worden gecorreleerd. De multitrait-multimethod matrix combineert convergente en discriminante strategieën. Deze matrix zorgt ervoor dat iemand kan bepalen waarmee een gegeven test wel of niet mee correleert, en hoe de meetmethode deze relaties beïnvloedt.

- Contrasterende groepsstudies

Validiteitsbewijs kan ook verkregen worden door de test te laten maken door meerdere groepen waarvan verwacht wordt dat ze andere uitkomsten op een test hebben. Deze vorm van validiteitsbewijs werd vroeger geplaatst onder construct validiteit.

Bewijs gebaseerd op de interne structuur

Door de interne structuur van een test te bekijken, wordt bepaald of deze structuur gelijk is aan de verwachte structuur van het construct dat de test meet. Factor analyse is een benadering om validiteitsbewijs op basis van de interne structuur van een test te bepalen. Reynolds en Kamphaus definiëren factor analyse als een manier om de aanwezigheid en structuur van latente constructen in een set variabelen te evalueren. De variabelen die in deze definitie genoemd worden, kunnen bijvoorbeeld de individuele items van een test zijn.

Factor analyse begint met een correlatie matrix waarin de correlatie tussen de verschillende variabelen wordt weergegeven. Daarna wordt een factor techniek gekozen en toegepast op de data. Bevestigende factor analyse houdt in dat de onderzoeker een factor structuur verwacht, waarna hij de data onderzoekt om te kijken of zijn verwachtingen voldoen aan de eigenlijke data set. Een positieve uitkomst hierop betekent niet dat de verwachte structuur optimaal is, maar alleen dat de data niet compleet in tegenstelling is tot de verwachtingen.

Bewijs gebaseerd op respons processen

Bij deze vorm van validiteitsbewijs wordt gekeken of de prestaties en acties van een participant meehelpen aan het construct dat wordt gemeten. De redernatie van analyses in een wiskundetest zijn bijvoorbeeld belangrijk voor een leraar om te weten of zijn leerling de opgaven begrepen heeft. Deze vorm van validiteitsbewijs kan onder andere verkregen worden door een interview.

Bewijs gebaseerd op gevolgen van de test

Vaak wordt het gebruik van een test geassocieerd met de aanname dat de resultaten voor een voordeel zullen zorgen. Maar worden deze voordelen wel behaald? Deze vorm van validiteitsbewijs is toepasbaar op tests die voor selectie en promotie zijn ontworpen. De Standards maken onderscheid tussen het daadwerkelijke gevolg van een test en de gevolgen van sociaal beleid.

Het samenvoegen van bewijs voor validiteit

De meeste types van validiteit zijn toepasbaar op veel tests. Voordat de validiteit van interpretaties van testscores wordt bepaald, moet over het bewijs voor de technische kwaliteit van een test worden nagedacht. Heeft de test bijvoorbeeld betrouwbare resultaten en is de gestandaardiseerde steekproef representatief? Oftewel, is het een goed ontwikkeld en technisch instrument om het construct te meten?

Hoofdstuk 6. Itemontwikkeling

Item formaten

Een manier om items te classificeren is door ze objectief of subjectief te noemen. Bij objectieve items zijn veel onderzoekers samen tot de beslissing gekomen wat het correcte antwoord op een item is. Dit is het geval bij een meerkeuze test. Bij subjectieve items is minder overeenstemming tussen verschillende onderzoekers aanwezig. Een voorbeeld hiervan is de beoordeling op een paper of mondeling examen. Van sommige items is het moeilijk te zeggen of ze objectief of subjectief zijn. Daarom wordt onderscheid gemaakt tussen geselecteerde respons items en geconstrueerde respons items.

Geselecteerde respons items zijn bijvoorbeeld meerkeuze- en juist/onjuist vragen. Een voordeel van dit item formaat is dat de participant relatief veel vragen in een korte tijd kan beantwoorden. Want hoe groter het aantal items, hoe groter de betrouwbaarheid dat de steekproef van items daadwerkelijk het geselecteerde domein meet. Een ander voordeel van geselecteerde respons items is dat de vragen vaak door een computer nagekeken kunnen worden. Een nadeel is dat geselecteerde respons items tijdrovend en moeilijk zijn om te maken. Verder kunnen een construct als muzikaliteit niet gemeten worden aan de hand van dit item formaat.

Geconstrueerde respons items zijn bijvoorbeeld prestatietests en projectieve technieken. Een voordeel van dit item formaat is dat de items makkelijker te ontwikkelen zijn dan geselecteerde respons items. Verder kunnen ze cognitieve vaardigheden van hogere orde meten, zoals probleemoplossend vermogen en het opstellen van een brief. Een nadeel is dat participanten er langer over doen om de vragen te beantwoorden. Verder is het scoren van de items een subjectiever proces.

Algemene richtlijnen voor het ontwikkelen van items

Het doel van het ontwikkelen van items is om een specifiek gekozen construct te meten. Hiervoor zijn enkele richtlijnen opgesteld:

- Er moeten altijd duidelijke aanwijzingen gegeven worden voor de manier waarop de test ingevuld moet worden. Sommige testontwikkelaars gaan ervan uit dat participanten weten hoe ze een test moeten invullen, maar dit is niet altijd het geval.

- Woorden als geen en nooit moeten vermeden worden, net als ambigue woorden. Door het gebruik van deze woorden kunnen irrelevante antwoorden gegeven worden die niets te maken hebben met het construct dat gemeten wordt.

- Zorg voor een duidelijke manier om de items te scoren. Het scoren van items kan zelfs een uitdaging zijn als een test alleen correcte antwoorden bevat.

- Cues in items moeten vermeden worden. Door cues kan het antwoord op vragen makkelijker herleid worden, waardoor niet duidelijk is of de participant het juiste antwoord wel gaf omdat hij de juiste kennis paraat had.

- Rangschik de items op een systematische manier. Zet bijvoorbeeld alle open vragen samen en alle meerkeuze vragen samen. Begin de test verder met makkelijke items, en introduceer de moeilijkere items later pas. Op deze manier wordt faalangst verminderd en neemt de motivatie van participanten toe.

- Laat mannen en vrouwen van verschillende etniciteiten feedback geven. Items mogen niet bevooroordeeld zijn of aanstootgevende taal bevatten.

Maximale prestatie tests

Maximale prestatie tests en geselecteerde respons items

In maximale prestatie tests kunnen geselecteerde respons items gebruikt worden. Meerkeuze tests zijn hier het meest populair van omdat ze in veel verschillende gevallen gebruikt kunnen worden. Verder kunnen meerkeuze tests zowel moeilijke als makkelijke onderwerpen bevragen. De vraag of stelling van een meerkeuze items heet de stam. Het is belangrijk dat de stam alle belangrijke informatie voor het beantwoorden van de informatie bevat. Verder moeten de alternatieven in een efficiënte volgorde geplaatst worden, bijvoorbeeld op alfabetische volgorde. Dubbele ontkenningen kunnen beter vermeden worden omdat ze bij de meeste participanten voor veel onduidelijkheid zorgen.

Het nadeel van meerkeuze tests is dat ze moeilijk te ontwikkelen zijn.

Een andere manier om geselecteerde respons items te gebruiken bij maximale prestatie tests zijn juist/onjuist items. Met de term ‘juist/onjuist items’ worden ook de andere tests bedoeld waarin items uit twee opties bestaan. Bij dit item formaat is het belangrijk om maar één centraal idee te bevragen. Bij het bevragen van meerdere ideeën ontstaat onduidelijkheid. Verder vinden itemontwikkelaars het makkelijker om juiste items in de test op te nemen dan onjuiste. Hier moet rekening mee gehouden worden bij het bedenken van de items. Juist/onjuist tests zijn gevoeliger voor gokken en zijn daarom minder populair dan meerkeuze tests.

De derde manier op geselecteerde respons items te gebruiken bij maximale prestatie tests zijn passende items. Hierbij moet een participant vooronderstellingen combineren met een antwoord. Links staan de vooronderstellingen en rechts staan de antwoorden. Om gokkende participanten voor te zijn, is het handig om rechts meer antwoorden neer te zetten zodat een participant geen antwoorden weg kan strepen totdat hij niets meer over heeft. Om gokken uit de weg te gaan kan bij de instructie ook toegevoegd worden dat elk antwoord éénmaal, meer dan één keer, of helemaal niet gebruikt moet worden.

Maximale prestatie tests en geconstrueerde respons items

Ook kunnen in maximale prestatie tests geconstrueerde respons items worden gebruikt. Een voorbeeld hiervan is een essay, waarin de participant antwoord geeft op open vragen. Bij een essay is het belangrijk dat meer beperkte respons items worden gebruikt dan uitgebreide respons items. Bij beperkte respons items moet de participant iets beschrijven of definiëren, terwijl de participant bij uitgebreide respons items meer vrijheid heeft om de vraag te interpreteren. Omdat het toekennen van punten op een essay vooral subjectief is, wordt aangeraden om de essay items te beperken tot de items die niet kunnen worden gemeten door middel van geselecteerde respons items.

Korte antwoord items hebben strengere grenzen met betrekking tot de lengte van antwoorden dan essay items. Bij korte antwoord items is het de bedoeling dat de participant een woord, nummer of symbool op de gevraagde plek in het item zet. Er moet bij het ontwikkelen van dit soort items wel voor gezorgd worden dat er maar één correct antwoord op de vraag is. Het voordeel van korte antwoord items in vergelijking met essay items is dat ze makkelijker te bedenken zijn.

Typische respons items

Typische respons gaat over zelfrapportage. Voor zelfrapportage wordt gebruikt gemaakt van juist/onjuist items en beoordelingsschalen. Beoordelingsschalen hebben vier tot vijf alternatieven. Beoordelingsschalen met frequenties geven meer informatie dan juist/onjuist items. Beoordelingsschalen met frequenties geven meer betrouwbare scores en zijn makkelijker voor participanten om te beoordelen. Likert items zijn beoordelingsschalen waarin de mate van overeenstemming met de vooronderstelling klopt. Is de participant het eens of niet eens met de stelling? Likert items zijn het meest populair geworden om gedrag vast te stellen.

Om onduidelijkheid te voorkomen, is het belangrijk om bij typische respons items te focussen op één soort gevoel of gedrag. Verder is het handig om de items bij kinderen af te nemen in de vorm van een interview.

Hoofdstuk 7. Itemanalyse

Itemanalyse kijkt naar de kwaliteit van afzonderlijke items in een test, niet naar de totale test. De betrouwbaarheid en validiteit van een test hangen af van de kwaliteit en kwantiteit van de items in de test. Door middel van itemanalyse kunnen minder geschikte items worden verwijderd en andere items verbeterd. Hierdoor kan een kleinere test ontstaan die meer betrouwbare resultaten geeft en meer valide interpretaties.

Dit hoofdstuk begint met de grote kwantitatieve itemanalyses. Ook hier geldt weer dat verschillende types items en tests verschillende itemanalyses eisen.

Item moeilijkheidsindex

Item moeilijkheid is het percentage van de participanten die het correcte antwoord geven op een item in de test. De item moeilijkheidsindex kan alleen worden toegepast op maximale prestatie tests waarvan de items worden gescoord op basis van juist/onjuist. Item moeilijkheid wordt berekend door deze formule:

p = Aantal participanten dat het item correct beantwoord / Aantal participanten.

De item moeilijkheid (p) is een getal tussen de 0.0 en 1.0. Een item waarop alle participanten het correcte antwoord geven, heeft een p van 1.0. Een item waarop alle participanten het verkeerde antwoord geven, heeft een p van 0.0. Om de variabiliteit van de test te vergroten, is het optimale niveau van item moeilijkheid 0.50. Dit houdt in dat de helft van de participanten het item juist heeft beantwoord. Het is echter niet de bedoeling dat elk item een p van 0.50 heeft, maar dat de gemiddelde p van de test 0.50 is.

Het bovenstaande geldt vooral voor normgerichte interpretaties van testscores. Bij criteriumgerichte interpretaties van tests, zoals mastery tests, wordt item moeilijkheid anders geëvalueerd. Bij mastery tests wordt verwacht dat het overgrote merendeel van de participanten slaagt, waardoor p met gemak 0.90 kan zijn. De waarde van p is steekproef afhankelijk en kan verschillen tussen verschillende steekproeven.

De percent endorsement statistic geeft het percentage participanten aan dat op een bepaalde manier op een item heeft geantwoord. Een voorbeeld hiervan is dat 15% van de participanten het eens is met de stelling ‘Ik voel me vaak verdrietig’.

Itemdiscriminatie

Itemdiscriminatie kijkt hoe nauwkeurig een item onderscheid kan maken tussen participanten die verschillen in het gemeten construct. Als een item bijvoorbeeld woordenschat hoort te meten, geeft itemdiscriminatie aan of een item onderscheid maakt tussen mensen met een hoge en lage woordenschat. In de loop der jaren zijn meer dan vijftig verschillende manieren ontwikkeld om itemdiscriminatie te meten. Hier wordt gefocust op de twee belangrijkste indexen.

Discriminatie index

De discriminatie index meet het verschil (D) in prestatie tussen groepen. Het verschil wordt als volgt berekend:

D = p_T- p_B

p_Tstaat voor de proportie participanten in de hoogste groep met het correcte antwoord.

p_Bstaat voor de proportie participanten in de laagste groep met het correcte antwoord.

Er zijn richtlijnen met betrekking tot het evalueren van waarden van D. Een D van 0.40 of hoger wordt bijvoorbeeld als uitstekend gezien. Een D tussen de 0.00 en 0.10 is extreem laag. Over het algemeen geldt dat waarden van D boven de 0.30 acceptabel zijn. Waarden van D onder de 0.30 moeten herzien of verwijderd worden. Zie tabel 7-2 op bladzijde 227 voor de verdere richtlijnen over de interpretatie van D. De richtlijnen uit deze tabel moeten op een redelijk flexibele manier worden gehandhaafd.

Itemdiscriminatie in mastery tests

Zoals eerder in dit hoofdstuk werd gezegd, is de item moeilijkheidsindex op een mastery test meestal groter dan op tests met normgerichte interpretaties. Er zijn meerdere manieren om itemdiscriminatie voor mastery tests te bepalen. Deze formule is daar één van:

D = p_instruction– p_no_instruction

Hierin staat p_instructionvoor de proportie participanten die het antwoord correct had na instructie en p_no_instructionvoor de proportie participanten die het antwoord correct had zonder instructie. Deze formule is technisch geschikt. Het nadeel is echter dat het moeilijk is om een geschikte groep te vinden die geen instructie of training heeft gehad over het relevante onderwerp. De andere formule om itemdiscriminatie voor mastery tests te bepalen is:

D = p_posttest– p_pretest

Hierin staat p_posttestvoor de proportie participanten die het antwoord correct had in de posttest en p_pretest voor de proportie participanten die het antwoord correct had in de pretest. Aan deze benadering zitten meer nadelen dan aan de eerste benadering. Een nadeel is bijvoorbeeld dat participanten zich in de posttest nog items of concepten herinneren van de pretest. Hierdoor kunnen de resultaten vertekenen.

Item totaal correlaties

Een andere manier om itemdiscriminatie te bepalen is door middel van een item totaal correlatie. Hierbij wordt de prestatie op items gecorreleerd met de totale testscore. Een hoge item totaal correlatie laat zien dat een item hetzelfde construct meet als de testmetingen in totaal. Ook laat deze hoge waarde zien dat het item onderscheid maakt tussen individuen die hoog en laag op een construct scoren.

Afleideranalyse

Afleideranalyse laat zien hoeveel participanten in de top- en bodemgroepen elke optie op een meerkeuze item geselecteerd hebben. Een afleider is een alternatief op een meerkeuze item dat een participant afleidt van het correcte antwoord. Verwacht wordt dat meer participanten in de bodemgroep een afleider selecteren dan participanten in de topgroep. De selectie van afleiders kan een grote invloed hebben op de moeilijkheidsgraad van een item en daarmee op de itemdiscriminatie.

Kwalitatieve itemanalyse

Tot nu toe zijn in dit hoofdstuk alleen maar kwantitatieve itemanalyses besproken om tests te verbeteren. Popham kwam in 2000 met kwalitatieve itemanalyses. Een voorbeeld hiervan is een paar dagen afstand nemen van de ontwikkelde test en een paar dagen later met een frisse blik de test herzien. Op deze manier worden fouten eerder ontdekt. Een andere manier van kwalitatieve itemanalyse is een college de test laten zien en vragen of alle items het gewenste construct dekken. Ook is het verstandig om participanten in de test feedback te laten geven door middel van bijvoorbeeld een evaluatieformulier.

Een combinatie van zowel kwantitatieve als kwalitatieve benaderingen werkt het beste om tests te verbeteren.

Item karakteristieke curves en de item respons theorie

De item karakteristieke curve (ICC) geeft informatie over item moeilijkheid en itemdiscriminatie. De ICC geeft vaardigheid aan op de horizontale as en waarschijnlijkheid (op een correct antwoord) op de verticale as. Elk item heeft zijn eigen specifieke ICC. Een item met een goede discriminatie heeft een typische ICC in de vorm flauwe S en is een asymptoot.

Vormen van de IRT

Er zijn drie grote vormen van de IRT. De simpelste vorm is het Rasch model of één-parameter model. Dit model gaat ervan uit dat items alleen door moeilijkheidsgraad van elkaar verschillen. Alle items hebben gelijke discriminatie en dezelfde ICC. Een meer complexe vorm van de IRT is het twee-parameter model. Deze gaat ervan uit dat items van elkaar verschillen in zowel moeilijkheid als in discriminatie. Het twee-parameter model geeft een betere weergave van testontwikkeling dan het één-parameter model. De laatste grote vorm van de IRT is het drie-parameter model. Het drie-parameter model gaat ervan uit dat een participant die niet beschikt over de benodigde vaardigheden, een item toch correct kan beantwoorden door toeval. Dit gebeurt vaak bij geselecteerde respons items zoals meerkeuze items. Het drie-parameter model is statistisch gezien zeer ingewikkeld, waardoor het niet breed wordt toegepast.

Invariantie van itemparameters

Item moeilijkheid en itemdiscriminatie zijn gebaseerd op de CTT. Deze item statistieken zijn afhankelijk van de steekproef waarvan ze zijn afgeleid. Parameters van de IRT zijn steekproef-onafhankelijk of steekproef-vrij. Dit wordt ook wel een invariantie van itemparameters genoemd. Hierdoor kunnen antwoorden op verschillende sets van items met elkaar vergeleken worden.

Hoofdstuk 8. Prestatietests

Een gestandaardiseerde test is een test die is afgenomen, gescoord en geïnterpreteerd op een vastgestelde manier. Het doel hiervan is dat de testcondities voor alle participanten hetzelfde zijn. Een prestatietest is een test die de kennis of vaardigheden van een participant binnen een vooraf bepaald construct meet. In dit hoofdstuk wordt ingegaan op gestandaardiseerde prestatietests. Gestandaardiseerde prestatietests bevatten items die door zowel kwantitatieve als kwalitatieve itemanalyses zijn verworven. Verder hebben ze zowel normgerichte als criteriumgerichte interpretaties. Prestatietests worden vooral gebruikt op scholen, maar dat is niet hun enige toepassing. Een rijexamen is een voorbeeld van een prestatietest buiten de school om.

Gestandaardiseerde prestatietests hebben verschillende toepassingen. De meest gebruikte toepassing is de vaardigheden van studenten over tijd te meten, of om de vaardigheden tussen klassen en scholen te vergelijken. Gestandaardiseerde prestatietests kunnen echter ook buiten scholen toegepast worden. Zo zijn ze ook nuttig bij het bepalen of een sollicitant geschikt is voor een bepaalde baan.

Tegenwoordig wordt in scholen steeds vaker gebruik gemaakt van gestandaardiseerde prestatietests binnen scholen. Deze toename is ontstaan door wetgeving die de nadruk legde op meer test afnames.

Groepsafname prestatietests

Groepsafname prestatietests kunnen worden afgenomen bij meer dan één participant per keer. Deze vorm van afname is populair omdat het minder tijd kost dan individuele afname. Een ander voordeel van groepsafname is dat de testcondities meer hetzelfde zijn voor alle participanten dan bij individuele afname. Verder kunnen items van groepsafname vaker objectief beoordeeld worden en zijn de steekproeven groter. Een nadeel van groepsafname is dat er geen persoonlijke interactie is en dat de tests minder flexibel zijn. Hieronder worden enkele gestandaardiseerde groepsafname prestatietests genoemd.

Commerciële gestandaardiseerde prestatietests

Commerciële gestandaardiseerde prestatietests zijn tests die ontwikkeld zijn voor scholen door het hele land en die kunnen worden gekocht door instituties. Hieronder worden de drie uitgevers genoemd die de meest gebruikte groepsafname prestatietests hebben ontwikkeld. Deze tests worden continue herzien.

- CTB McGraw-Hill:

● California Prestatietest – Vijfde editie (CAT/5). De CAT/5 is een traditionele prestatietest. De CAT/5 meet leesvaardigheid, spelling, taal, wiskunde, studie vaardigheden, scheikunde en kennis over sociale studies.

● TerraNova CTBS. Deze test combineert geselecteerde en geconstrueerde respons items en meet hiermee lees- en taalvaardigheden, wiskunde, scheikunde en kennis over sociale studies.

● TerraNova – Tweede editie (CAT/6). De CAT/6 is een allesomvattende prestatietest die behalve lees- en taalvaardigheden, wiskunde, scheikunde en kennis over sociale studies ook vocabulaire, spelling en woorden analyse meet.

- Pearson assessments:

● Stanford Prestatietest series – Tiende editie (Stanford 10). Deze meet leesvaardigheden, wiskunde, taal, spelling, luistervaardigheden, scheikunde en kennis over sociale studies.

● Metropolitan prestatietests – Achtste editie (MAT8). Deze meet hetzelfde als de Stanford 10, behalve luistervaardigheden. Verder is er geen tijd verbonden aan de MAT8, maar zijn er wel richtlijnen voor het maken van de test.

- Riverside publishing:

● Iowa Tests of Basic Skills (ITBS). De ITBS meet fundementele academische vaardigheden.

● Iowa Tests of Educational Development (ITED). De ITED meet lange-termijn effecten van educatie op het gebied van onder andere taal, spelling en wiskunde.

Staatontwikkelde prestatietests

Prestatietests worden steeds vaker gebruikt bij het maken van high-stakes beslissingen op het niveau van de staat, bijvoorbeeld de kwestie of een student een diploma krijgt of niet. Veel staten hebben hun eigen prestatietests ontwikkeld, met vooral criteriumgerichte interpretaties van testscores. Er bestaan echter enkele controversen rondom prestatietests op staat niveau. Zo worden ze gezien als een manier om academische prestaties te vergroten

Voorbereiding op een gestandaardiseerde test

Sommige critici vinden dat er teveel tijd wordt besteed aan het geven van instructies aan studenten in plaats van het daadwerkelijk leren van de vaardigheden die studenten nodig hebben. Want welke test voorbereidingsmanieren zijn acceptabel, en welke manieren zijn niet ethisch? Hier moet over nagedacht worden, alvorens de test af te nemen. Als test voorbereidingsmanieren testscores toe laten nemen zonder dat het prestatieniveau toeneemt, is de validiteit van een test verkleind.

Een voorbeeld van een voorbereidingsmanier is studenten te laten oefenen met de vorm van de test. Ook kan een leraar de studenten huiswerk geven met vragen die de vorm hebben van de items in de test. Een slechte voorbereidingsmanier is om studenten te benadrukken welke inhoud en vaardigheden de test vooral zal gaan meten. Op deze manier wordt de complexe leerstof verwaarloosd, terwijl deze juist zo belangrijk is.

Individuele prestatietests

Individuele prestatietests worden vaak gebruikt bij participanten met speciale behoeftes. Een student met een mogelijke vorm van dyslexie krijgt bijvoorbeeld een individuele prestatietest om te kijken of hij ook daadwerkelijk dyslexie heeft. De manier waarop de vragen in een individuele test afgenomen worden, kan binnen de test verschillen. Er kunnen zowel mondelinge als schriftelijke vragen tussen zitten. Omdat bij een individuele test één op één contact is met degene die de test afneemt, is observatie van de participant mogelijk. Vergeleken met de groepsafname prestatietest geeft de individuele prestatietest een beter beeld van de vaardigheden waarover een student beschikt.

Selectie van een prestatietest

Verschillende factoren dragen bij aan de geschikte prestatietest. Bij afname van een test voor een grote groep studenten is groepsafname meer geschikt dan individuele afname. Elke potentiële testbatterij zou bekeken moeten worden als de inhoud overeenkomt met het onderwijsprogramma van de school en staat. De technische geschiktheid van een test is ook belangrijk. Verder zijn praktische factoren zoals de kosten, tijd en materialen ook van belang bij de selectie van een geschikte prestatietest.

Prestatietests gemaakt door docenten

Vanaf de basisschool krijgt een persoon te maken met testafnames. Hier zitten tests tussen die goed ontwikkeld zijn en waarvan de items het specifieke kennisdomein dekken. Ook zitten er tests tussen die minder goed ontwikkeld zijn. Maar waar moet een docent precies op letten bij het ontwikkelen van een test? Een docent moet doelen specificeren zodat hier geen onduidelijkheid over ontstaan bij de leerlingen. Verder moet bepaald worden hoe de scores geïnterpreteerd gaan worden. Zullen de testscores normgericht of criteriumgericht geïnterpreteerd worden? Meestal wordt een criteriumgerichte interpretatie toegepast op klassikale prestatietests. Ook met de docent weten welk item formaat hij gaat handhaven.

Het toewijzen van cijfers

Het toewijzen van cijfers aan studenten geeft voordelen en nadelen. Een voordeel is dat cijfers niet geassocieerd worden met irrelevante karakteristieken als geslacht en etniciteit. Een nadeel is dat een cijfer een korte samenvatting is van de prestatie van een student, en dat het geen specifieke informatie geeft over de sterke en zwakke kanten van een student. Toch zijn cijfers een onmisbaar onderdeel van het leerproces.

Hoofdstuk 9. Het meten van intelligentie

In hoofdstuk A werd al gezegd dat maximale prestatietests worden ingedeeld in prestatietests en bekwaamheidstests. Simpelweg meten prestatietests de kennis van een student in een specifiek domein en meten bekwaamheidstests kennis die een student in zijn totale leven heeft opgedaan. Om algemene intelligentie te meten zijn bekwaamheidstests breder dan prestatietests. Bekwaamheidstests laten de cumulatieve impact van levenservaringen op vaardigheden zien. Bekwaamheidsscores laten zien hoe goed een persoon op een specifiek moment in de tijd scoort op een bepaalde vaardigheid. Deze scores kunnen toekomstige prestaties voorspellen, maar deze voorspellingen zijn zeker niet perfect.

Veel testexperts zien zowel intelligentie- al bekwaamheidstests als tests die de ontwikkeling van cognitieve vaardigheden meten op een continuüm. Dit continuüm laat de mate zien waarin de gemeten vaardigheden in de buurt van specifieke leerervaringen liggen. Links op het continuüm liggen de zeer specifieke tests en rechts op het continuüm liggen de zeer algemene tests. Links zijn de tests te vinden die door leraren voor een klas gemaakt worden. Rechts zijn de intelligentietests te vinden die cross-cultureel worden gemeten. Algemene intelligentietests zijn de meest populaire en gebruikte tests in de psychologie.

Een korte geschiedenis

Het is moeilijk om een definitie te vinden voor intelligentie waar iedereen zich in kan vinden. De meeste definities van intelligentie omvatten vaardigheden als probleem oplossend vermogen, abstracte redenatie en de vaardigheid om kennis te verwerven. In het onderzoek naar intelligentie wordt een IQ score verkregen. Dit is de meest gebruikte operationele definitie van intelligentie in onderzoek.

Intelligentietests begonnen in school. Aan het begin van 1900 wilde Frankrijk leerprogramma’s ontwikkelen voor kinderen die niet over de cognitieve vaardigheden beschikten waar de meeste kinderen wel over beschikten. In 1905 werd de Binet-Simon schaal ontwikkeld op verzoek van de Franse overheid. Deze nadruk van deze schaal lag op verbale items, waarmee begrip, redenatie en korte-termijn geheugen kon worden gemeten. De Binet-Simon schaal werd een aantal keer herzien, waarna uiteindelijk de Stanford-Binet Intelligentie Schaal ontstond. De SB5 wordt tegenwoordig nog steeds gebruikt. IQ wordt in deze schaal op een ordinaal niveau gemeten. Het ontwikkelen van de SB5 zorgde ervoor dat meer testexperts hun eigen intelligentietests ontwikkelden. De ene test legde meer nadruk op verbale en kwantitatieve vaardigheden, terwijl de andere test meer nadruk lag over visuele en oplossend vermogen vaardigheden.

Na de Eerste Wereldoorlog ontwikkelde vaardigheidstests zich in rap tempo in de Verenigde Staten. Het leger had een manier nodig om mensen als geschikt of ongeschikt in te delen. Hieruit ontstond uiteindelijk de Scholastic Assessment Test (SAT). De SAT geeft objectieve criteria voor het toekennen van plekken op onder andere scholen.

In de jaren ’30 ontwikkelde Wechsler een intelligentietest die verbale en non-verbale vaardigheden in dezelfde test mat. Voor deze tijd bestonden alleen tests die ofwel verbale ofwel non-verbale vaardigheden maten. Wechsler mat intelligentie op een interval schaal.

Het gebruik van begaafdheids- en intelligentietests in scholen

Intelligentie- en bekwaamheidstests hebben verschillende toepassingen. Zo laten deze tests de zwakke en sterke kanten van een student zien. Studenten die laag scoren op deze tests hebben misschien een cognitieve stoornis. Verder kunnen intelligentie- en bekwaamheidstests helpen in het selecteren van studenten voor moeilijkere schoolprogramma’s.

De discrepantie tussen bekwaamheid en prestatie

De discrepantie tussen bekwaamheid en prestatie vergelijkt de prestatie van een persoon op een bekwaamheidstest met de prestatie op een prestatietest. Deze discrepantie kan leerproblemen aanduiden bij een persoon. Als de prestatiescores significant hoger zijn dan de bekwaamheidsscores, suggereert dit dat de persoon moeite heeft met het oplossen van nieuwe problemen en het toepassen van vaardigheden in nieuwe situaties. Deze persoon kan profijt hebben van activiteiten die nadruk leggen op creativiteit en veralgemenisering. Als de prestatiescores significant lager zijn dan de bekwaamheidsscores, kan dit op academische onderprestatie duiden. Te weinig motivatie of inadequate mogelijkheden om te leren zijn factoren die kunnen leiden tot academische onderprestatie. Ook kunnen medische factoren zoals een verminder zicht en psychologische factoren zoals ADHD een rol spelen.

Maar wanneer is er sprake van een significante discrepantie tussen bekwaamheid en prestatie? Om deze vraag te kunnen beantwoorden worden prestatie- en bekwaamheidstests gekoppeld of geconformeerd aan een gestandaardiseerde prestatietest.

Respons op interventie (RTI)

De RTI is een manier om specifieke leerbelemmeringen te meten. Bij RTI krijgen studenten eerst een algemene instructie over de test van hun leraar. Daarna wordt toezicht gehouden op de vooruitgang van de studenten. Degenen die niet reageren krijgen een andere taak of meer taken van een leraar of iemand anders. Daarna wordt weer toezicht gehouden op de vooruitgang. Degenen die weer niet reageren krijgen speciale leerprogramma’s toegewezen.

RTI identificeert studenten met leerbelemmeringen eerder dan dat deze worden geïdentificeerd door de discrepantie tussen bekwaamheid en prestatie. Verder maakt de RTI onderscheid tussen studenten met ware belemmeringen en studenten die de instructie simpelweg niet begrepen hebben.

Er bestaat discussie of de RTI gebruikt mag worden voor het vaststellen van diagnoses. Het is namelijk moeilijk om objectief vast te stellen hoe een persoon heeft gereageerd op een instructie. Verschillende methoden om een respons vast te stellen resulteren in identificatie van studenten met verschillende belemmeringen. Het is belangrijk om hier voorzichtig mee om te gaan. Daarom wordt de RTI tegenwoordig alleen nog gebruikt om leesbelemmeringen bij studenten vast te stellen.

Diagnose van mentale retardatie/intellectuele onbekwaamheid

Mentale retardatie wordt vooral gediagnosticeerd op scholen. Een IQ van tussen de 55 en 70 duidt op milde mentale retardatie. Milde mentale retardatie wordt soms pas duidelijk als een kind naar school gaat en moeite heeft met leren en contact maken met leeftijdsgenoten. Hoewel intelligentie niet de enige factor is die mentale retardatie bepaalt, moet de diagnose niet worden gesteld zonder dat een intelligentietest is afgenomen. Zwaardere vormen van mentale retardatie worden vaker rond de leeftijd van 5 jaar gediagnosticeerd. De terminologie voor mentale retardatie wordt tegenwoordig herzien. Het is voorgesteld om mentale retardatie voortaan intellectuele onbekwaamheid te noemen.

Het gebruik van begaafdheids- en intelligentietests in een klinische omgeving

Begaafdheids- en intelligentietests hebben meerdere toepassingen in een klinische omgeving. Zo evalueren de tests of een bepaalde vorm van psychologische interventie past bij een patiënt, hoe het herstel na een hersenoperatie verloopt en wat de juiste zorgprogramma’s zijn bij intellectuele afname. Intelligentietests kunnen ook worden gebruikt bij phenylketonuria. Bij deze stoornis is een phenylalanine-vrij dieet verplicht. Als niet aan het dieet wordt gehouden, kan intelligentie sterk afnemen. Door middel van herhaalde intelligentietests wordt in de gaten gehouden of intelligentie afneemt.

Grote begaafdheids- en intelligentietests

Begaafdheids- en intelligentietests voor groepen

Groepstests worden vooral afgenomen in scholen, maar ook in andere grote instituties zoals gevangenissen en jeugdfaciliteiten. Hieronder worden enkele vaak gebruikte begaafdheids- en intelligentietests voor groepen genoemd:

- De Tests of Cognitive Skills – Tweede editie (TCS/2) meet verbale, non-verbale en geheugen vaardigheden die belangrijk geacht worden in academisch succes.

- De Primary Test of Cognitive Skills (PTCS) heeft vier subtests, namelijk Verbaal, Ruimtelijke Oriëntatie, Geheugen en Concepten.

- De InView is de nieuwe versie van de PTCS en meet cognitieve vaardigheden op verbaal, non-verbaal en kwantitatief gebied.

- De Otins-Lennon School Ability Test – Achtste editie (OLSAT-8) meet verbale en non-verbale processen die gerelateerd zijn aan schoolsucces. Voorbeelden van taken uit de OLSAT-8 zijn het definiëren en herinneren van woorden, het oplossen van wiskundige problemen en het groeperen van woorden.

- De Cognitive Abilities Test (CogAT) meet ook verbale en non-verbale processen die gerelateerd zijn aan schoolsucces. Jongere kinderen krijgen echter andere subtests dan oudere kinderen.

- College admission tests voorspellen de academische prestatie van een persoon. Toelatingen voor scholen in het hoger onderwijs worden bepaald aan de hand van college admission tests. Voorbeelden van college admission tests zijn de Scholastic Assessment Test (SAT) en American College Test (ACT). Voordat deze tests bestonden, was toelating tot veel scholen een subjectief proces waarbij status en achtergrond belangrijk was.

Begaafdheids- en intelligentietests voor individuen

Individuele tests worden vaak herzien, waardoor onderstaande lijst intussen al veranderd kan zijn. De informatie is echter gebaseerd op de meest recente informatie over de tests:

- De Wechsler Intelligence Scale for Children – Vierde editie (WISC-IV) is de meest populaire individuele test voor intellectuele vaardigheden van kinderen. De WISC-IV wordt zowel op scholen als in klinische omgevingen toegepast. Wechsler schalen worden elke tien tot twaalf jaar herzien. Ze nemen ongeveer twee tot drie uur in beslag en kunnen worden gebruikt bij kinderen tussen de zes en zestien jaar. Voor jongere of oudere kinderen moeten andere versies van de schaal worden afgenomen. Subtests van de WISC-IV zijn Woord redenatie en Rekenen. De WISC-IV geeft vier scores, namelijk de Verbal Comprehension Index, Perceptual Reasoning Index, Working Memory Index en Processing Speed Index.

Op basis van deze scores kan veel gezegd worden over het intellect van een kind.

- De Stanford-Binet Intelligence Scale – Vijfde editie (SB5) is een ander voorbeeld van een individuele test. De SB5 kan gebruikt worden door participanten van 2 tot 85 jaar oud. De SB5 bestaat uit tien subschalen, die gecombineerd worden in vijf scores. Deze vijf scores zijn Vloeiende redenatie, Kennis, Kwantitatieve redenatie, Visueel-Ruimtelijke verwerking en Werkgeheugen. Verder volgt uit de SB5 een IQ score.

- De Reynolds Intellectual Assessment Scales (RIAS) is relatief nieuw onder de intelligentietests. De RIAS kan worden gebruikt door participanten tussen de 3 en 94 jaar. De RIAS maakt het mogelijk om intelligentie betrouwbaar en valide te meten. De meting bevat zowel verbale als non—verbale aspecten en wordt in een relatief korte periode afgenomen, namelijk tussen de 20 en 25 minuten. De meeste andere intelligentietests kosten meer tijd.

Het selecteren van een begaafdheids- of intelligentietests

Ook voor het selecteren van een begaafdheids- of intelligentietest is het belangrijk om te kijken naar de manier waarop de informatie gebruikt gaat worden. Ook speelt de beschikbare tijd een rol. Verder vragen sommige situaties op een groepsafname, terwijl een individuele afname in een andere situatie meer geschikt is.

Hoofdstuk 10. Het meten van persoonlijkheid

Gray (1999) definieerde persoonlijkheid als een consistent patroon van gevoelens, gedachten en gedrag dat ieder persoon op een andere manier karakteriseert. Het meten van persoonlijkheid was vroeger alleen gebaseerd op introspectie. Tegenwoordig wordt persoonlijkheid alleen objectief gemeten.

Zoals in hoofdstuk A al naar voren kwam, kunnen tests worden ingedeeld in twee groepen. Maximale prestatie tests meten de hoogst mogelijke prestatie van een persoon. Items worden meestal als juist/onjuist gescoord. Een voorbeeld van een maximale prestatie test is een intelligentietest. Typische respons tests meten constructen als persoonlijkheid, gedrag en interesses.

Het meten van persoonlijkheid

Iedereen kent in het dagelijks leven persoonlijkheidseigenschappen toe aan andere mensen. In 1918 ontwikkelde Robert Woodworth de eerste manier om persoonlijkheid te meten. Het doel van de Woodworth Personal Data Sheet was om persoonlijke karakteristieken van onszelf en anderen te begrijpen. Persoonlijkheidstests worden tegenwoordig voor verschillende doeleinden gebruikt. Ze vergemakkelijken onder andere het stellen van diagnoses en het bedenken van een plan van aanpak. Uit het herhalen van de metingen blijkt wat de patiënt kan helpen en wat niet. Verder worden persoonlijkheidstests bijvoorbeeld gebruikt om te kijken welke sollicitant geschikt is voor een baan.

Persoonlijkheid is een complex construct en wordt daarom gemeten door middel van meerdere meetschalen. Er zijn verschillende manieren om deze meetschalen te ontwikkelen.

Responssets

Responssets en dissimilatie zijn antwoorden op tests die de ware persoonlijkheidskenmerken van een persoon verkeerd weergeven. Er is echter een onderscheid tussen responssets en dissimilatie. Een responsset is het (onbewust) positief of negatief beantwoorden van items op een test. Als iemand bij een sollicitatie bijvoorbeeld alle vragen op een sociaal wenselijke manier beantwoordt, is er sprake van een verkeerde weergave van de eigenlijke persoonlijkheidskenmerken. Dissimilatie houdt in dat een persoon zich met opzet anders voordoet dan hij eigenlijk is. Als een persoon bijvoorbeeld een rechtszaak wil winnen, kan hij zijn verdriet met opzet versterken om de zaak te winnen. Ook hiermee worden de ware persoonlijkheidskenmerken van een persoon verkeerd weergegeven.

De validiteit van een test kan gevaar lopen als er sprake is van responssets of dissimilatie. De resultaten van de test zijn namelijk irrelevant met het construct dat gemeten wordt. Om te voorkomen dat de validiteit een gevaar loopt, zijn validiteitschalen ontwikkeld. Validiteitschalen laten zien welke individuen niet accuraat hebben geantwoord.

Factoren die invloed hebben op betrouwbaarheid en validiteit

Het ontwikkelen en gebruiken van persoonlijkheidstests is erg uitdagend. Constructen die bij persoonlijkheidstests worden gemeten zijn minder stabiel dan constructen die bij maximale prestatie tests worden gemeten. Er wordt een onderscheid gemaakt tussen persoonlijkheidskenmerken en persoonlijkheidstoestanden. Persoonlijkheidskenmerken zijn stabiele, interne karakteristieken zoals introversie en extraversie. Persoonlijkheidstoestanden wisselen meer over tijd. De test-hertest betrouwbaarheidscoëfficiënten van constructen die persoonlijkheidskenmerken meten zullen dan ook hoger zijn dan de betrouwbaarheidscoëfficiënten die persoonlijkheidstoestanden meten. De test-hertest betrouwbaarheidscoëfficiënten van resultaten van persoonlijkheidstests moeten over het algemeen voorzichtig worden geïnterpreteerd. Het is namelijk lastig te zeggen of een meting op een bepaald moment het onderliggende attribuut meet.

Objectieve persoonlijkheidstests

De meest gebruikte manier om persoonlijkheid te meten zijn objectieve zelfrapportage metingen en projectieve technieken. Bij objectieve zelfrapportage metingen beoordeelt een persoon geselecteerde respons items om zijn karakteristieken met betrekking tot gedrag, gevoelens en gedachten te bepalen. Antwoord op items kan vaak gegeven worden in de vorm van juist/onjuist of op een schaal van nooit-soms-vaak-bijna altijd. Bij projectieve technieken krijgt een persoon een onduidelijke stimulus te zien, waarop hij de eerste gedachten moet uitspreken die naar boven komen. Een voorbeeld van een projectieve techniek is dat een persoon een inktvlek te zien krijgt en moet vertellen wat hij hier in ziet.

Er zijn verschillende manieren om objectieve persoonlijkheidsschalen te ontwikkelen. Hieronder worden vier verschillende manieren besproken. Hoewel deze manieren apart worden behandeld, worden ze vaak gecombineerd door testontwikkelaars.

Inhoud rationele benadering

De inhoud rationele benadering was de eerste benadering om objectieve persoonlijkheidsschalen te ontwikkelen. Vanuit de inhoud rationele benadering werden items ontwikkeld die een duidelijke relevantie hadden met het te meten construct. De empirische analyse van de items speelt hierin een minder grote rol dan het idee dat de testontwikkelaar over het te meten construct heeft. Een voorbeeld van de inhoud rationele benadering is dat bij het meten van het construct depressie, items worden ontwikkeld die bedroefdheid, eenzaamheid en hopeloosheid meten. De Woodworth Personal Data Sheeth is een voorbeeld van een persoonlijkheidstests die wordt gebruikt vanuit de inhoud rationele benadering. Een nadeel van deze benadering is dat participanten zichzelf op een andere manier kunnen voordoen, waardoor de resultaten worden vertekend.

Empirische benadering (empirical criterion keying)

Bij de empirische benadering wordt een grote hoeveelheid items toegewezen aan twee groepen. De ene groep is een klinische groep met een specifieke diagnose, de andere groep is een controle groep die representatief is aan de populatie. Daarna wordt gekeken welke items verschillen tussen de groepen. Een voorbeeld van een test vanuit de empirische benadering is de Minnesota Multiphasic Personality Inventory (MMPI). De originele MMPI was in de jaren ’40 ontwikkeld om psychiatrische stoornissen te onderzoeken. De herziene versie, de MMPI-2, werd ontwikkeld in 1989 en was een moderne versie van de MMPI. De structuur van de MMPI en MMPI-2 komen sterk overeen. De MMPI-2 bestaat uit tien Klinische Schalen.

Voorbeelden van deze schalen zijn depressie, schizofrenie en paranoia. De rest van de schalen staan in tabel 10-1 op bladzijde 333. De twee schalen waar een participant het hoogst op scoort, worden nauwkeuriger bekeken en gemeten. Het voordeel van de MMPI en MMPI-2 is dat ze validiteitschalen kunnen toepassen. Op deze manier kunnen responssets gevonden worden. De betrouwbaarheid van de MMPI-2 is adequaat vergeleken met andere persoonlijkheidstests. Omdat de structuur van de MMPI en MMPI-2 sterk overeen komen, is de validiteit van de MMPI-2 nagenoeg hetzelfde als voor de MMPI.

Factoranalyse

In hoofdstuk E kwam al naar voren dat factoranalyse een manier van validiteitsbewijs is op basis van de interne structuur van een test. Factoranalyse speelt echter ook een belangrijke rol in de ontwikkeling van persoonlijkheidstests. Raymond Cattell publiceerde de 16 Personality Factor Questionnaire (16 PF) waarin 16 persoonlijkheidskenmerken worden gemeten zoals emotionele stabiliteit, dominantie en gevoeligheid. Een nadeel van de 16 PF is dat de factoren statistisch niet onafhankelijk van elkaar zijn. Toch is de 16 PF een populaire manier om persoonlijkheid te meten.

Het vijf factor model van persoonlijkheid (FFM) wordt steeds meer gebruikt in de afgelopen jaren. Het FFM stelt dat er vijf grote factoren zijn die aan persoonlijkheid ten grondslag liggen. Hieronder worden deze vijf factoren besproken.

- Neuroticisme: Individuen die hoog op neuroticisme scoren, voelen zich relatief vaak depressief, angstig en boos. Individuen die laag op neuroticisme scoren, zijn emotioneel stabieler.

- Extraversie: Individuen met een hoge score op extraversie zijn actief en houden van gezelschap. Individuen met een lage score op extraversie zijn meer gereserveerd en zijn liever alleen.

- Openheid: Individuen die hoog scoren op openheid zijn nieuwsgierig en vaak op zoek naar uitdagingen. Individuen met een lage score op openheid bevinden zich liever in bekende en gebruikelijke situaties.

- Vriendelijkheid: Individuen met een hoge score op vriendelijkheid zijn relatief tolerant, meelevend en beleefd. Individuen met een lage score op vriendelijkheid zijn vaker egocentrisch, vijandig en slecht gehumeurd.

- Consciëntieusheid: Individuen die hoog scoren op consciëntieusheid hebben relatief veel discipline en verantwoordelijkheid. Individuen die laag scoren op consciëntieusheid zijn minder betrouwbaar en hebben minder zelfdiscipline.

De NEO Personality Inventory-Revised (NEO PI-R) bestaat uit 240 items die resulteren in de bovenstaande vijf domeinen. Elk domein heeft zes subscores. Deze subscores zijn te zien in tabel 10-3 op bladzijde 340. De NEO PI-R heeft een hoge betrouwbaarheid en is hiermee een goede manier om persoonlijkheidsontwikkelingen te meten. Het is niet bewezen dat de NEO PI-R gebruikt kan worden in klinische of andere toegepaste situaties.

Theoretische benadering

Als een objectieve persoonlijkheidsschaal wordt ontwikkeld op basis van een specifieke theorie over persoonlijkheid, wordt gesproken van de theoretische benadering. Hieronder worden twee voorbeelden van deze benadering gegeven.

Myers-Briggs Type Indicator

Een voorbeeld van een persoonlijkheidsschaal vanuit de theoretische benadering is de Myers-Briggs Type Indicator (MBTI). Tegenwoordig is de MBTI de meest gebruikte persoonlijkheidstest. De MBTI was gebaseerd op de theorie dat dichotomieën van persoonlijkheid bestaan. Een dichotomie is een persoonlijkheidstype dat opgesplitst kan worden in twee delen. De dichotomieën die de MBTI meet zijn:

● Introversie – Extraversie. Iemand die introvert is, geeft voorkeur aan gedachten en gevoelens terwijl iemand die extravert is voorkeur geeft aan de externe wereld van mensen en objecten.

● Voelen – Intuïtie. Een gevoelsmens richt zich vooral op waarnemingen die gedaan worden aan de hand van de vijf zintuigen, terwijl iemand die afgaat op zijn intuïtie zich vooral bezig houdt met complexe relaties en patronen.

● Denken – Voelen. Denken verwijst naar de voorkeur om beslissingen te maken aan de hand van logische feitenanalyses, terwijl Voelen verwijst naar de voorkeur om beslissingen te maken aan de hand van persoonlijke waarden en omgevingsfactoren.

● Oordelen – Waarnemen. Oordelen verwijst naar de voorkeur naar structuur en vastberadenheid, terwijl Waarnemen verwijst naar de voorkeur voor flexibiliteit en aanpassing.

De scores die iemand op bovenstaande dichotomieën heeft, vormen samen een code zoals IVDO. IVDO geeft aan dat een persoon voorkeuren heeft met betrekking tot introversie, voelen, denken en oordelen. De handleiding van de MBTI beschrijft persoonlijkheidskarakteristieken voor elke code. Het IVDO type is bijvoorbeeld verantwoordelijk, realistisch en praktisch. Een voordeel van de MBTI is dat de meeste onderzoekers vinden dat de test gebruikt kan worden voor klinische doeleinden. Een nadeel van de MBTI is dat participanten die dezelfde code van dichotomieën toegeschreven krijgen, nog veel van elkaar kunnen verschillen in allerlei opzichten. Twee personen die bijvoorbeeld de code IVDO toegewezen krijgen, kunnen verschillen in de sterkte waarin ze bepaalde voorkeuren hebben. Ook is er kritiek op de stabiliteit van de MBTI codes.

Millon Clinical Multixial Inventory – Third Edition

Een ander voorbeeld van een persoonlijkheidsschaal die ontwikkeld is vanuit de theoretische benadering, is de Millon Clinical Multixial Inventory – Third Edition (MCMI-III). De MCMI-III werd net als de MMPI-2 ontwikkeld om het meten en diagnosticeren van persoonlijkheidsstoornissen makkelijker te maken. De MCMI-III bestaat uit 175 items die een participant door middel van zelfrapportage moet beantwoorden met juist of onjuist. De schalen waarin de resultaten van de MCMI-III kunnen worden opgedeeld zijn 14 Klinische Persoonlijkheidspatronen, 3 Ernstige Persoonlijkheidspathologie schalen, 7 Klinische Syndroom schalen en 3 Ernstige Klinische Syndroom schalen. De diagnostische schalen waarin elke schaal van de MCMI-III is opgedeeld, zijn terug te vinden in tabel 10-4 op bladzijde 343.

Scores op de MCMI-III hebben een hoge betrouwbaarheid en validiteit. Een nadeel is dat scores, net als bij de MMPI-2, onderling een hoge correlatie hebben. Dit maakt het moeilijk om de test voor diagnoses te gebruiken.

Persoonlijkheidstests bij kinderen en adolescenten

Het meten van persoonlijkheid wordt bij kinderen en adolescenten met meer voorzichtigheid gedaan dan bij volwassenen. Persoonlijkheid is bij kinderen en adolescenten namelijk minder stabiel dan bij volwassenen. Persoonlijkheid moet bij kinderen en adolescenten meer gezien worden als iets wat zich nog ontwikkelt en wat daarom veranderlijk is. Eerst werden geen objectieve persoonlijkheidsmetingen gedaan bij kinderen omdat men dacht dat kinderen niet tot zelfrapportage in staat waren. Tegenwoordig zijn veel succesvolle zelfrapportage persoonlijkheidstests ontwikkeld voor kinderen en adolescenten. Hieronder worden twee voorbeelden van deze tests gegeven.

Self-Report of Personality

De Self-Report of Personality (SRP) is de meest populaire zelfrapportage test voor kinderen op scholen. Als men twijfelt over de lees- en begrijpvaardigheid van een kind, kan de SRP auditief worden afgenomen. De SRP bestaat uit korte, beschrijvende items die het kind moet beantwoorden met juist/onjuist of nooit-soms-vaak. Dit hangt van het type item af. De SRP meet verschillende subschalen zoals angstigheid, depressie, sociale stress en hyperactiviteit.

Single-Domain Self-Report Measures

De meeste tests meten persoonlijkheid in de brede zin van het woord. Er zijn ook kortere tests die meer specifieke aspecten van persoonlijkheid meten. Meestal wordt bij psychologisch meten begonnen met een brede test zoals de MMPI-2. Op deze manier krijgt de clinicus een idee waar de problemen van de cliënt liggen. Hierna volgt een domein specifieke test, bijvoorbeeld de Beck Depression Inventory – Second Edition (BDI-II). De BDI-II is een zelfrapportage test voor mensen tussen de 13 en 80 jaar oud. De test bestaat uit 21 items. De resultaten op de BDI-II hebben een hoge test-hertest betrouwbaarheid en het is daarmee de meest gebruikte zelfrapportage test voor depressie.

Projectieve persoonlijkheidstests

Bij projectieve technieken krijgt de participant een ongestructureerde of onduidelijke stimulus te zien die op een oneindig mogelijke manieren geïnterpreteerd kan worden. De centrale hypothese van projectieve technieken houdt in dat bij het interpreteren van onduidelijke stimuli onbewuste aspecten van psychologisch functioneren naar voren komen.

Er is al decennia een debat gaande over het gebruik van projectieve technieken. Projectieve technieken zijn erg populair onder clinici en educatieve instellingen. Zo wordt beweerd dat ze noodzakelijk zijn om een individu door en door te kunnen begrijpen. Bij zelfrapportage geeft een cliënt namelijk alleen de informatie die hij zelf wil geven. Verder is er bij projectieve technieken nauwelijks sprake van responssets omdat de participant niet kan weten welk antwoord sociaal gewenst is. Bij het meten van persoonlijkheid is er echter meer discussie over het gebruik van projectieve technieken. Er is namelijk relatief weinig empirisch bewijs voor het nut ervan. Daarom is het belangrijk projectieve technieken met veel voorzichtigheid te gebruiken. Hieronder worden enkele voorbeelden van de meest gebruikte projectieve technieken gegeven.

Projectieve tekentechnieken

Bij projectieve tekentechnieken moet een participant zelf een tekening maken. Het gebruik hiervan is vooral populair onder kinderen omdat er bij deze test minimale of geen verbale vaardigheden nodig zijn. Verder wordt deze test niet als bedreigend gezien door kinderen omdat ze het meestal leuk vinden om te tekenen. Verschillende projectieve tekentechnieken zijn de Draw-A-Person (DAP) Test, de House-Tree-Person (HTP) Test en de Kinetic Family Drawing (KFD). Bij de DAP wordt gevraagd om een geheel persoon te tekenen. Afhankelijk van de persoon die de participant tekent, kunnen uitspraken gedaan worden over hoe het kind zichzelf ziet. Bij de HTP moet de participant een huis, boom en persoon op afzonderlijke papieren tekenen. De clinicus stelt daarna over elke tekening enkele vragen. Aan de hand van de antwoorden van het kind kunnen onbewuste gevoelens duidelijk worden. Bij de KFD moet een participant een tekening maken van elke persoon in zijn gezin, inclusief zichzelf. Elke persoon in de tekening moet ergens mee bezig zijn. Na het tekenen vertelt het kind wie en wat hij heeft getekend. Aan de hand hiervan komt naar voren hoe de participant tegenover zijn familie en hun interacties staat.

Het aanvullen van zinnen

Een andere vorm van een projectieve techniek is een test waarin de participant onvolledige zinnen moet aanvullen. Bij deze techniek komt meer structuur kijken dan bij het maken van een tekening of het interpreteren van een inktvlek. Daarom vinden sommige critici dat het aanvullen van zinnen onder een gestructureerd interview valt in plaats van onder een projectieve techniek.

Apperceptie tests

Een andere vorm van projectieve technieken is een apperceptie test. Met deze techniek moet de participant een verhaal bedenken bij een gegeven plaatje. De Thematic Apperception Test (TAT) is de meest populaire apperceptie test. Net als voor de meeste projectieve technieken is er weinig empirische ondersteuning voor de apperceptie test.

Inktvlektests

Het interpreteren van onduidelijke inktvlekken is een andere vorm van projectieve technieken. De Rorschach is de meest gebruikte inktvlektest. De Rorschach werd in de jaren ’20 ontwikkeld, waarna er nog veel aan werd toegevoegd.

11. Gedragsdiagnostiek

Gedrags- en persoonlijkheidsdiagnostiek

Het toeschrijven van gedrag aan andere mensen is een informele evaluatie die automatisch gebeurt. Door middel van deze evaluatie weet iemand met wie hij wel of niet wil omgaan.

Bij gedragsdiagnostiek wordt gekeken naar de typische respons van een persoon in een bepaalde situatie. Gedragsdiagnostiek gaat ervan uit dat observeerbaar gedrag de gevoelens en gedachten van een persoon omvat. Deze observaties worden vervolgens gegeneraliseerd naar het alledaags leven van een persoon. Aan de hand hiervan kan naar voren komen of iemand een probleem heeft met bijvoorbeeld angsten, agressie of hyperactiviteit. Het verschil tussen gedrags- en persoonlijkheidsdiagnostiek is dat persoonlijkheidsdiagnostiek kijkt naar welke attributen of gerapporteerde gevoelens een persoon heeft. Zelfrapportage wordt echter niet als een objectieve manier van meten gezien. Gedragsdiagnostiek wordt objectiever bevonden omdat gedragsbeoordelingsschalen over het algemeen niet om interpretatie vragen. Gedrags- en persoonlijkheidsdiagnostiek hebben echter ook overlap. Bij diagnostiek is het namelijk belangrijk om het typische gedrag van een persoon te weten en hoe iemand denkt over zichzelf en anderen.

Responssets

In hoofdstuk J kwam al naar voren dat een responsset een (onbewust) positief of negatief gegeven antwoord op een item is. Hierdoor kunnen de ware karakteristieken van een persoon verkeerd worden geïnterpreteerd. Responssets komen ook in gedragsdiagnostiek voor en kunnen voor een verkleining van de validiteit zorgen. De resultaten op een test geven door responssets namelijk niet meer het construct weer dat de test eigenlijk meet. Om een verkleining van de validiteit te voorkomen, bevatten gedragstests validiteitschalen die de aanwezigheid van responssets kunnen opsporen. Later in dit hoofdstuk en in hoofdstuk R zal dieper op responssets worden ingegaan.

Gedragsdiagnostiek op scholen

Gedrag en persoonlijkheid wordt op scholen gemeten door middel van verschillende instrumenten. Van de top 10 instrumenten die schoolpsychologen gebruiken zijn er 5 gedragsbeoordelingsschalen, 4 projectieve technieken en 1 instrument gebaseerd op zelfrapportage. Deze verdeling is representatief voor de instrumenten die schoolpsychologen gebruiken bij een kind waarvan wordt gedacht dat het een emotionele- of gedragsstoornis heeft. Gedragsdiagnostiek op scholen wordt vaak door een deskundige gedaan in samenwerking met leraren. Leraren hebben zicht op de consistentheid van het gedrag van een kind. Ook zien leraren het gedrag van het kinder in verschillende omstandigheden, zoals op academisch en sociaal gebied.

Interviews

Een traditioneel klinisch interview begint met een brede vraag zoals ‘Hoe kan ik u helpen?’ of ‘Waarom bent u hier’? Hierna probeert de clinicus de psychodynamische kenmerken van de geïnterviewde te begrijpen. Een gedragsinterview heeft een andere nadruk en bestaat uit zes stappen:

1. Het probleem wordt beschreven en gedefinieerd in termen van gedrag.

2. Mogelijke gebeurtenissen die het betreffende gedrag bekrachtigen, worden geëvalueerd. Ook wordt gekeken welke stappen naar verandering al gezet zijn.

3. Een plan wordt ontwikkeld om deze mogelijke gebeurtenissen en bekrachtigers te veranderen. Aan de hand hiervan kan het gedrag aangepast worden.

4. De geïnterviewde voert het plan uit.

5. De uitkomsten van de behandeling worden geëvalueerd.

6. De behandeling wordt aangepast als het gedrag niet veranderd is. Daarna worden de uitkomsten van deze veranderingen geëvalueerd.

Gedragsbeoordelingsschalen

Gedragsbeoordelingsschalen zijn in de laatste twintig jaar steeds populairder geworden. Bij een gedragsbeoordelingsschaal wordt een persoon beoordeeld op verschillende domeinen. Een kind of adolescent wordt over het algemeen beoordeeld door een ouder of leraar. Een volwassene wordt meestal beoordeeld door een partner of adolescent kind. De beoordelaar moet aangeven hoe goed bepaalde zinnen passen bij de persoon die beoordeeld wordt. Een voorbeeld is dat een moeder moet aangeven of haar zoon 0 – zelden of nooit, 1 – soms, 2 – vaak, of 3 – bijna altijd leugens vertelt.

Een voordeel van gedragsbeoordelingsschalen bij kinderen is dat ouders het gedrag van hun kind in verschillende omstandigheden kennen. Als een clinicus informatie vanuit verschillende perspectieven wil verzamelen, laat hij de gedragsbeoordelingsschaal invullen door zowel ouders als leraren. Op deze manier wordt het gedrag van een kind vanuit verschillende perspectieven belicht. Ook kan door middel van gedragsbeoordelingsschalen de aanwezigheid van zeldzaam gedrag, zoals brandstichting en dierenmishandeling, naar voren komen. De aanwezigheid van dit gedrag kan over het hoofd gezien worden in een klinisch interview.

Een nadeel van gedragsbeoordelingsschalen is dat ze gevoelig zijn voor responssets. Een leraar kan het problematische gedrag van een leerling bijvoorbeeld overdrijven om ervoor te zorgen dat de leerling speciaal onderwijs krijgt. Verder kunnen gedragsbeoordelingsschalen geen internaliserende problemen als depressie en angst meten omdat deze niet direct observeerbaar zijn.

De items op gedragsbeoordelingsschalen zijn op meerdere manieren interpreteerbaar. Opties waar een beoordelaar uit kan kiezen bij een item zoals zelden, soms, vaak of bijna altijd, kunnen door verschillende mensen op verschillende manieren worden geïnterpreteerd. Uit onderzoek naar de betrouwbaarheid van gedragsbeoordelingsschalen blijkt echter dat ze een goede voorspeller van toekomstig gedrag en leerproblemen zijn. Ook kunnen veranderingen in gedrag goed onderzocht worden en kan de beste interventie bepaald worden om gedrag te veranderen. Hieronder worden de meest populaire gedragsbeoordelingsschalen voor kinderen en adolescenten behandeld.

Behavior Assessment System for Children – Second Edition

De Behavior Assessment System for Children – Second Edition (BASC-2) is een instrument dat kan worden gebruikt voor kinderen tussen de 2 en 21 jaar oud. De BASC-2 bestaat uit een Teacher Rating Scale (TRS), een Parent Rating Scale (PRS), zelfrapportage, een klassikaal observatiesysteem, een Parenting Relationship Questionnaire en een gestructureerde geschiedenis van de ontwikkeling van het kind. De BASC-2 bestaat uit 16 subschalen die onder andere agressie, angst, depressie, leiderschap, sociale vaardigheden en studievaardigheden meten.

Tegenwoordig zijn de TRS en PRS de meest gebruikte gedragsbeoordelingsschalen op scholen. De TRS geeft een duidelijke weergave van het schoolgerelateerde gedrag van het kind, terwijl de PRS het gedrag van het kind thuis en in de maatschappij weergeeft.

De TRS en PRS bevatten karakteristieken waardoor ze uniek in gebruik zijn. Zo bevatten ze onder andere validiteitschalen waarmee de aanwezigheid van responssets gevonden kan worden. Een andere karakteristiek is dat de TRS en PRS zowel negatief als positief en adaptief gedrag meten. Voordat de BASC was ontwikkeld, werden gedragsbeoordelingsschalen vaak bekritiseerd op het feit dat ze vooral negatief gedrag en pathologie maten.

Achenbach System of Empirically Based Assessment

De Achenbach System of Empirically Based Assessment (ASEBA) bestaat uit de Child Behavior Checklist (CBCL), de Teacher Report Form (TRF), zelfrapportage en een direct observatiesysteem.

Er zijn twee vormen van de CBCL, één voor kinderen van 2 tot 3 jaar en één voor kinderen van 4 tot 18 jaar oud. De TRF is geschikt voor kinderen van 5 tot 18 jaar oud. De CBCL en TRF behoren tot de meest gebruikte psychologische tests op scholen en bestaan uit twee basisonderdelen. Het eerste onderdeel gaat over activiteiten en competenties van het kind op het gebied van recreatie, sociaal functioneren en school. Het tweede onderdeel bestaat uit items over probleemgedrag waarop een beoordelaar van een kind zijn mening moet geven. De subschalen van de CBCL en TRF meten onder andere sociale problemen, aandachtsproblemen, delinquent gedrag en somatische klachten. Voordelen van de CBCL en TRF zijn dat ze makkelijk in gebruik zijn en veel gebruikt worden op klinisch- en onderzoeksgebied.

Omnibus en enkel-domein beoordelingsschalen

De TRS, PRS, CBCL en TRF worden omnibus beoordelingsschalen genoemd. Dit houdt in dat ze een groot bereik aan symptomen en gedrag meten die worden geassocieerd met verschillende emotionele- en gedragsstoornissen. De meest ideale omnibus beoordelingsschaal meet zowel internalisering (angst, depressie) als externalisering (hyperactiviteit, agressie). Het meten van zowel internalisering als externalisering is vooral belangrijk bij kinderen en adolescenten omdat in deze populatie veel comorbiditeit speelt. Comorbiditeit houdt in dat een persoon (meer dan) twee stoornissen tegelijkertijd heeft. Als een schaal alleen internaliserend gedrag meet, wordt externaliserend gedrag niet opgemerkt en is de diagnose niet compleet. Een onvolledige diagnose leidt vervolgens tot een onnauwkeurige behandeling.

Enkel-domein beoordelingsschalen zijn gericht op een specifieke stoornis of gedragsdimensie. Enkel-domein beoordelingsschalen geven een meer diepgaande diagnose van een bepaald domein dan omnibus schalen en kunnen goed gebruikt worden in de diagnose van onder andere ADHD en depressie. Hieronder worden een paar enkel-domein beoordelingsschalen kort besproken:

- De Childhood Autism Rating Scale (CARS) is geschikt om autisme te diagnosticeren bij kinderen vanaf 2 jaar. De schaal bestaat uit 15 items en de resultaten op de items geven ook de mate van autisme aan.

- De BASC Monitor for ADHD is ontwikkeld voor kinderen en adolescenten tussen de 4 en 18 jaar met ADHA. De BASC Monitor is bedoeld om de behandeling van ADHD makkelijker te maken. De test bestaat uit twee onderdelen met elk 45 items. Het ene onderdeel wordt door de leraar ingevuld, het andere onderdeel door de ouders. De subschalen die uit de BASC Monitor komen zijn Aandachtsproblemen, Hyperactiviteit, Internaliserende problemen en Adaptieve vaardigheden.

- De Pediatric Behavior Rating Scale (PBRS) is bedoeld om de eerste symptomen van een bipolaire stoornis te identificeren en stoornissen met gelijke aspecten uit te sluiten. De PBRS bestaat uit een schaal voor leraren (95 items) en een schaal voor ouders (102 items) en is geschikt voor kinderen tussen de 3 en 18 jaar oud. De PBRS resulteert in subschalen als Affect, Impulsiviteit, Agressie en Grootsheid.

Categorische en dimensionale benadering

Individuen kunnen op verschillende manieren gegroepeerd worden. Bij diagnose worden mensen ingedeeld op basis van het wel of niet hebben van een stoornis. De categorische benadering van diagnose onderzoekt de aanwezigheid van bepaalde symptomen of gedrag op basis van observaties en interviews. Een symptoom kan pas als stoornis worden aangeduid als het een negatief effect heeft op het leven van de cliënt. De dimensionale benadering van diagnose gaat ervan uit dat veel verschillende kenmerken tegelijkertijd in grote of kleine mate bijdragen aan diagnose. Vooral in de psychologie groeit het gebruik van de dimensionale benadering.

Gedragsbeoordelingsschalen voor volwassenen

Tot nu toe zijn alleen gedragsbeoordelingsschalen voor kinderen en adolescenten behandeld omdat deze meer voorkomen op scholen en klinisch gebied dan gedragsbeoordelingsschalen voor volwassenen. Verwacht wordt echter dat deze schalen voor volwassenen toe zullen nemen. De Clinical Assessment Scales for the Eldery (CASE) is een voorbeeld van zo’n schaal. Het is een omnibus beoordelingsschaal voor mensen tussen de 55 en 90 jaar oud. De beoordelaar is een volwassen kind of partner van de beoordeelde.

Er zijn vooral veel verschillen tussen beoordelingsschalen voor volwassenen en beoordelingsschalen voor kinderen en adolescenten. Een verschil is dat de CASE onder andere een Fear of Aging schaal bevat die depressieve symptomen bij volwassenen meet. Ook bevat de CASE een Cognitive Competency schaal die intelligentie en gerelateerde neuropsychologische vaardigheden evalueert. Een andere schaal die meestal niet bij kinderen en adolescenten wordt gemeten, is de Substance Abuse schaal. De Substance Abuse schaal meet het misbruik van middelen en voorgeschreven medicijnen omdat dit vaak voorkomt in de populatie van volwassenen. Maar waarom hebben de meeste beoordelingsschalen voor kinderen en adolescenten eigenlijk geen schaal met betrekking tot middelenmisbruik? Adolescenten tussen de 13 en 18 jaar misbruiken veel psychoactieve middelen, maar doen dit vaak in het geheim. Een beoordelaar weet vaak niets van het misbruik af, waardoor de uitkomst van de schaal aangeeft dat de beoordeelde adolescent geen middelen misbruikt. Clinici kunnen hierdoor de verkeerde conclusie trekken dat er geen sprake is van middelenmisbruik.

Directe observatie

Directe observatie van gedrag is de oudste manier van gedragsdiagnostiek en wordt nog steeds wereldwijd toegepast. Bij directe observatie wordt een individu in zijn natuurlijke omgeving, zoals op school of thuis, geobserveerd. Meestal weet het individu niet dat hij geobserveerd wordt. Toch is het moeilijk om een nauwkeurige steekproef van typisch gedrag te krijgen, omdat het observeren altijd zorgt voor een mate van verandering van gedrag. Bij directe observatie is het belangrijk dat de observator objectief is en het gedrag nauwkeurig telt en noteert.

Het meeste gebruikte en populaire systeem voor directe observatie is de Student Observation System (SOS). De SOS is een onderdeel van de BASC-2 en meet 14 gestandaardiseerde dimensies van gedrag. De SOS meet zowel negatief als positief gedrag en is bruikbaar in elke gestructureerde leeromgeving. De 14 dimensies van gedrag hebben een hoge tussenbeoordelaar betrouwbaarheid.

Continue prestatietests

Continue prestatietests (CPTs) zijn specifieke gedragstests die origineel ontwikkeld zijn om oplettendheid, vaste en selectieve aandacht en executieve controle te meten. Een CPT wordt afgenomen met een computer. Het individu krijgt de instructie om op bepaalde stimuli te reageren die op het beeld verschijnen en bepaalde stimuli te negeren. De taken zijn simpel zodat factoren als algemene intelligentie geen invloed hebben op de resultaten. CPTs kunnen stoornissen met betrekking tot aandacht en concentratie (zoals ADHD) goed identificeren.

Psychofysiologische diagnostiek

Psychofysiologische diagnostiek is een manier van gedragsdiagnostiek waarbij fysieke veranderingen in het lichaam tijdens een bepaalde gebeurtenis worden gemeten. Een leugendetector is een voorbeeld van een psychofysiologische test. Een leugendetector meet hartslag, ademhaling en transpiratie. Veel psychofysiologische tests zijn niet nauwkeurig gestandaardiseerd en daardoor niet geschikt voor klinisch gebruik. De EEG is echter een veel gebruikte en valide vorm van psychofysiologisch testen. Verwacht wordt dat psychofysiologische diagnostiek veel te bieden heeft in de toekomst.

12. Beroepentests

Onder andere vragenlijsten worden gebruikt in werkomgevingen. Beroepentests meten onder andere vaardigheden, attitudes, meningen, interesses en kennis. In dit hoofdstuk wordt een overzicht gegeven van instrumenten die worden toegepast in werkomgevingen. Eerst volgt een kort overzicht van de geschiedenis achter personeelselectie tests.

Industrieelorganisatorische (I-O) psychologie

Al aan het begin van 1900 werd psychologie toegepast in bedrijven. De nadruk lag vooral op de vaardigheden die nodig waren voor het uitvoeren van een bepaalde baan. De I-O psychologie groeide door de economische omgeving van kapitalisme en industrialisatie op dat moment. Vooral de Eerste Wereldoorlog had een grote invloed op de groei van de I-O psychologie. Na de Eerste Wereldoorlog werden belangrijke psychologische organisaties opgericht. De I-O psychologie heeft vanaf dat moment bijgedragen in veel bekende onderzoeken op wetenschappelijk gebied. Na de Tweede Wereldoorlog groeide de I-O psychologie nog verder, doordat honderden psychologen werkzaam werden bij leger- en burgerinstanties.

Benaderingen voor personeelselectie

Personeelselectie tests zijn bedoeld om werknemers in te huren die succesvol zullen zijn in hun werk. Het doel hiervan is voor organisaties om geld te besparen doordat werknemers worden ingehuurd die productief zijn en goede prestaties leveren. Hieronder worden de meest gebruikte methoden behandeld voor het selecteren van personeel.

Cognitieve vaardigheidstests

Cognitieve vaardigheidstests worden als sinds de Eerste Wereldoorlog toegepast. Ze meten onder andere beredenering, perceptie en probleemoplossend vermogen. Het gebruik ervan heeft geleid tot veel discussie in de toegepaste psychologie, terwijl onderzoek heeft aangetoond dat resultaten op cognitieve vaardigheidstests een goede voorspeller zijn voor werkprestaties. John Hunter en Frank Schmidt deden verschillende meta-analyses en kwamen tot onder andere deze conclusies:

- Cognitieve vaardigheid is over het algemeen een goede voorspeller voor werkprestatie. Het validiteitscoëfficiënt tussen cognitieve vaardigheid en werkprestatie is namelijk r = 0.53.

- De mogelijkheid van cognitieve vaardigheidstests om werkprestatie te voorspellen, kan verbeterd worden door andere variabelen in test toe te voegen.

Volgens Wagner (1997) zorgde meta-analyse voor een nieuwe dimensie van cognitieve vaardigheidstests. Doordat een grote hoeveelheid cognitieve vaardigheidstests werd samengevoegd, ontstond een hoge betrouwbaarheid en daarmee een goede toepassing op nieuwe werknemers.

Een nadeel van cognitieve vaardigheidstests is dat prestatie sterk verschilt tussen verschillende etnische groepen. Zo scoren minderheidsgroepen tot één standaarddeviatie onder scores van meerderheidsgroepen. Om deze prestatieverschillen te vermijden, hebben Sackett en collega’s een aantal strategieën bedacht:

- Het combineren van cognitieve vaardigheidstests met niet-cognitieve, valide voorspellers voor werkprestatie.

- Het verwijderen van testitems die cultureel bevooroordeeld zijn.

- Presenteer testitems zodanig dat verbale- en leesvaardigheden de resultaten niet kunnen vertekenen. Gebruik bijvoorbeeld een auditieve of visuele presentatie van de items.

- Een motiverende instructie zorgt voor het compleet invullen van de vaardigheidstest.

De meest gebruikte cognitieve vaardigheidstest is de Wonderlic Personnel Test (WPT). De WPT bestaat uit 50 meerkeuze items die onder andere gaan over rekenen, vocabulaire en probleemoplossend vermogen. De participant heeft twaalf minuten om de test in te vullen. De WPT heeft verschillende toepassingen.

Interviews

Werknemerinterviews zijn één van de meest gebruikte methoden om kandidaten voor een baan te evalueren. De interviewer gebruikt een ongestructureerde of gestructureerde benadering in het gesprek. Bij een ongestructureerde benadering past de interviewer zijn vragen aan de sollicitant of op de inhoud van het gesprek aan. De resultaten op een ongestructureerd interview zijn subjectief en kunnen moeilijk vergelijkbaar zijn. Bij de gestructureerde benadering worden de vragen voorafgaand aan het interview bedacht. Alle sollicitanten krijgen dezelfde vragen en de antwoorden hierop kunnen objectief gescoord worden.

De mate waarin interviews werkprestatie kunnen voorspellen, is nog onduidelijk. Verschillende onderzoeken tonen verschillende validiteitcoëfficiënten tussen interviews en werkprestatie. Gestructureerde interviews hebben over het algemeen een hoger validiteitcoëfficiënt dan ongestructureerde interviews. De oorzaak hiervan kan zijn dat gestructureerde interviews een hogere betrouwbaarheid hebben.

Persoonlijkheidstests

Persoonlijkheid beschrijft de unieke karakteristieken van een persoon. Voorbeelden van deze karakteristieken zijn flexibiliteit, intuïtie en agressie. Persoonlijkheid wordt in werkomgevingen meestal gemeten door middel van zelfrapportage vragenlijsten. Persoonlijkheidstests die geen informatie geven over de mentale gezondheid van een persoon worden over het algemeen geschikt bevonden voor werkomstandigheden. Op deze manier wordt geen inbreuk gepleegd op de privacy van de persoon.

Uit meta-analytisch onderzoek van Barrick en Mount in 1991 blijkt dat persoonlijkheidstests een goede voorspeller zijn van werkprestatie. Zo blijkt dat personen die hoog scoren op consciëntieusheid, verantwoordelijk en georganiseerd zijn. Deze mensen leveren over het algemeen een betere werkprestatie dan mensen die laag op consciëntieusheid scoren. Verder bleek uit het onderzoek dat extraversie een valide voorspeller was voor banen als managers en verkopers. Openheid voor nieuwe ervaringen was een significante voorspeller voor personen die trainingen op hun werk ondergingen, terwijl emotionele stabiliteit en vriendelijkheid geen valide voorspellers waren voor werkprestatie.

Een veel gebruikte, niet klinische persoonlijkheidstest die veel in werkomgevingen wordt gebruikt is de Hogan Personality Inventory – Revised (HPI-R). De HPI-R is gebaseerd op het vijf-factor model van persoonlijkheid en bestaat uit 206 juist/onjuist items. De resultaten op de HPI-R meten Aanpassing (Adjustment), Ambitie (Ambition), Sociale vaardigheden (Sociability), Interpersoonlijke gevoeligheid (Interpersonal Sensitivity), Voorzichtigheid (Prudence), Creativiteit (Inquisitive) en Leerbenadering (Learning Approach). Verder laten de resultaten de sterke en zwakke punten van de persoon zien. Ook komen karakteristieken die relevant zijn voor succes in werkomstandigheden naar voren en wordt duidelijk of de persoon de juiste kandidaat is voor de werkpositie.

Integriteitstests

Integriteitstests zijn zelfrapportage tests die meten of iemand geneigd is niet eerlijk te antwoorden. Integriteit gaat over het adequaat uitoefenen van een functie. Integriteitstests hebben een validiteitscoëfficiënt van r = 0.41 met werkprestatie. Er zijn twee verschillende soorten integriteitstests. Open integriteitstests bestaan uit vragen met betrekking tot algemene aannames tegenover onder andere diefstal en overtredingen. Persoonlijkheid-georiënteerde integriteitstests bestaan uit vragen over persoonlijkheidskenmerken die gerelateerd zijn aan diefstal en sensatiezoekend gedrag.

Sackett en collega’s analyseerden integriteitstests. Dit zijn een aantal conclusies die zij hieruit trokken:

- Integriteit heeft sterke correlaties met cognitieve vaardigheden.

- Criteriumgerelateerde onderzoeken laten positieve correlaties zien tussen integriteit testscores en werkprestatie.

- Het is nog onduidelijk wel effect responssets hebben op integriteit testscores.

De Personnel Selection Inventory (PSI) is één van de meest gebruikte integriteitstests. De PSI bestaat uit een groot aantal werkgerelateerde domeinen. Elk antwoord op een item heeft een waarde, en alle waarden opgeteld resulteren in een totale schaalscore voor eerlijkheid.

Assessment centers

Een assessment center is een samenstelling van taken of oefeningen waarin een werkomgeving wordt gesimuleerd. Voorbeelden van assessment centers zijn groepsdiscussies, mondelinge presentatie oefeningen en rollenspellen. De participanten worden geobserveerd en beoordeeld op verschillende dimensies zoals communicatie, motivatie en stress tolerantie. Onderzoek toont aan dat de relatie tussen dimensies op een assessment center en cognitieve vaardigheden en persoonlijkheid maar r = 0.30 of kleiner is. Dit toont aan dat verder onderzoek nodig is.

Werkvoorbeeld tests

Werkvoorbeeld tests worden ook wel prestatiegebaseerde tests of simulaties genoemd. Ze worden al tientallen jaren gebruikt om werknemers voor banen te selecteren. Bij werkvoorbeeld tests moeten deelnemers taken uitvoeren die gerelateerd zijn aan de functie die ze willen gaan vervullen, zoals het beantwoorden van telefoontjes of het schrijven van een brief naar een klant. Door middel van een werkvoorbeeld test wordt direct bewijs geleverd voor de vaardigheden van de deelnemer. Deze tests worden gezien als één van de meest effectieve methoden om toekomstige werkprestaties te voorspellen. Toch zijn er ook enkele nadelen aan werkvoorbeeld tests. Het is bijvoorbeeld moeilijk te meten of de geselecteerde taken een representatieve steekproef zijn. Verder nemen werkvoorbeeld tests aan dat deelnemers de kennis en vaardigheden voor de baan al bezitten. Een laatste nadeel is dat deze tests duur zijn in vergelijking met andere selectiemethoden.

Biografische data

Biografische data refereert naar de persoonlijke ervaringen en achtergrond van deelnemers. De beste voorspeller voor toekomstig gedrag is namelijk gedrag dat in het verleden heeft plaatsgevonden. Biografische data kan onder andere door middel van een gestructureerd interview of zelfrapportage vragenlijsten verkregen worden. Biografische data blijkt voorspellend te zijn voor werkprestatie. De correlatie tussen biografische data en werkprestatie is r = 0.37. Deze vorm van data is een valide voorspeller voor werkprestatie in verschillende organisaties en omgevingen.

Het kiezen van een personeelselectie benadering

Bij het kiezen van een geschikte personeelselectie benadering moet onder andere rekening gehouden worden met effectiviteit, kosten en beschikbare tijd. Ook de reactie van de deelnemers is een factor waar rekening mee gehouden moet worden. Hausknecht en collega’s (2004) geven verschillende redenen waarom de reacties van toekomstige werknemers op de gekozen methode belangrijk zijn:

- Als deelnemers vinden dat de personeelselectie benadering inbreuk pleegt op hun privacy, kunnen topkandidaten afvallen omdat ze het bedrijf als minder aantrekkelijk beschouwen.

- Deelnemers die negatief tegenover de gekozen benadering staan, kunnen andere mensen afraden voor het bedrijf te werken. Ook kunnen ze een aangeboden baan om dezelfde reden afwijzen.

Ook blijkt uit onderzoek van Hausknecht en collega’s dat interviews en werkvoorbeeld tests als positief worden gezien door participanten. Cognitieve vaardigheidstests, persoonlijkheidstests en biografische data zijn methoden die een middelmatige voorkeur hadden voor participanten. Eerlijkheidstests hadden de minste voorkeur.

Baananalyse

Voordat een methode wordt gekozen om een werknemer te selecteren, moet een duidelijk beeld bestaan van de kennis en vaardigheden waarover een toekomstige werknemer moet beschikken. Baananalyse is het proces dat gebruikt wordt om een baan te definiëren. Volgens Harvey (1991) zijn de drie belangrijkste karakteristieken van baananalyse het beschrijven van waarneembaarheden, het beschrijven van werkgedrag dat onafhankelijk is van persoonlijke karakteristieken van degenen die het werk uitvoeren en het alleen bijvoegen van observaties die te verifiëren en te herhalen zijn. Hieronder worden de meest gebruikelijke manieren behandeld om informatie over banen te verzamelen.

- Het interview is één van de meest gebruikte methoden om informatie over een baan te verzamelen. Interviews zijn over het algemeen goedkoop, maar de kwaliteit van de data kan vertekend zijn door de vaardigheden van de interviewer.

- Door werknemers direct te observeren wordt ook informatie over de baan verkregen. Vooral banen waar handarbeid bij komt kijken zijn geschikt voor directe observatie.

- Een duurdere vorm van baananalyse is het inzetten van deskundigen. Op deze manier wordt veel informatie gegeven over de baan, zonder dat deze wordt geïnterpreteerd door een interviewer of observator.

- Vragenlijsten kunnen een grote verscheidenheid aan werktaken bevatten. Een werknemer die al langer werkzaam is in zijn functie, kan de relevantie van elk item op de vragenlijst beoordelen met betrekking tot zijn baan. Op deze manier ontstaat een lijst van de items die de baan het best definiëren.

Het evalueren van werkprestatie

Onderzoek naar de criteria voor werkprestatie zijn net zo controversieel als onderzoek naar personeelselectie. Het criteriumprobleem refereert naar de moeilijkheid om prestatiecriteria, die mutidimensionaal en afhankelijk van bepaalde situaties zijn, te meten. Zodra een sollicitant is gekozen en werkzaam is, moet zijn werkprestatie op een bepaalde manier gemeten worden. Hieronder volgen de meest gebruikte methoden om werkprestatie te meten.

Benaderingen voor prestatiebeoordelingen

De belangrijkste bronnen in het verzamelen van prestatiebeoordelingen zijn de baas, de leeftijdsgenoot, de directe supervisor, en de persoon zelf. Meestal wordt de beoordeling van de baas gebruikt omdat deze verantwoordelijk is voor het succes of falen van zijn werknemers. Werknemers zien de beoordeling door leeftijdsgenoten over het algemeen als negatief. Het beoordelen van een directe supervisor door een ondergeschikte wordt als betrouwbaar gezien omdat het voor verbetering van het gedrag van de supervisor zorgt. Ook neemt de effectiviteit van de supervisor toe door de informele feedback die hij op zijn gedrag krijgt. Bij zelfrapportage beoordeelt een werknemer zichzelf op een aantal prestatiedimensies. Hoewel deze vorm van beoordeling goedkoop is, kan het voor een vertekend beeld zorgen waardoor de beoordelingen niet betrouwbaar zijn. Als werknemers zichzelf in vergelijking met andere werknemers moeten beoordelen, neemt de betrouwbaarheid toe.

Het vergelijken van beoordelingsbenaderingen

Harris en Schaubroeck (1988) kwamen door middel van meta-analytisch onderzoek tot de conclusie dat het gebruik van meerdere beoordelaars voor werkprestatie een aantal voordelen met zich meebrengt. Meerdere beoordelaars hebben een verschillende kijk op de baan, waardoor de betrouwbaarheid wordt vergroot. Elk beoordelingsformaat geeft een ander aandeel unieke informatie. Onderzoek van Hoffman en collega’s toonde aan dat subjectieve prestatiebeoordelingen een validiteit van rond de r = 0.00 had. De onderzoekers concludeerden verder dat subjectieve en objectieve prestatieresultaten een gelijk niveau van validiteit hadden. Dit betekent echter niet dat ze hetzelfde meten. Een meta-analytisch onderzoek van Bommer en collega’s toont namelijk aan dat subjectieve en objectieve prestatieresultaten niet verwisselbaar zijn.

Vormen van beoordelingsmethoden

Een beoordelaar kan gebruik maken van een relatieve of absolute beoordelingsmethode. Een relatieve beoordelingsmethode vergelijkt de prestatie van de beoordeelde met de prestatie van andere personen die hetzelfde werk verrichten. Een absolute beoordelingsmethode vergelijkt het gedrag van een werknemer met een vastgelegde prestatie of meting. De resultaten op een beoordelingsmethode geven een bepaalde waarde. Deze waarde wordt vervolgens vergeleken met de vooraf bepaalde meting.

Bronnen van error

Bij het ontwikkelen van effectieve methoden om werkprestatie te meten, worden vaak fouten gemaakt zoals Toegevendheid (Leniency) en Hevigheid (Severity). Bij toegevendheid wordt een werknemer beter beoordeeld dan zijn werkelijke werkprestatie. Bij hevigheid wordt een werknemer negatiever of heviger beoordeeld dan zijn werkelijke werkprestatie. Deze systematische fouten worden gemaakt door verschil in beoordeling. Deze fouten kunnen voorkomen worden door beoordelaars te informeren over hoe ze deze beoordelingsinstrumenten kunnen gebruiken en door ze van de waarde van de beoordelingen te overtuigen.

Wettelijke problemen

De Uniform Guidelines on Employee Selection Procedures (UGESP) geeft richtlijnen met betrekking tot de karakteristieken van acceptabele selectieprocedures. Deze richtlijnen kunnen op selectieprocedures als promotie, ontslag en het inhuren van nieuwe werknemers worden toegepast. Een voorbeeld van zo’n richtlijn is Discriminatie. In de UGESP wordt hiermee het gebruik van elke selectieprocedure bedoeld die een nadelige impact hebben op leden van welke etniciteit of sekse dan ook.

Carrièretests

Carrièretests worden gebruikt om informatie te geven over de attitudes en interesses van een persoon die geïnteresseerd is in een bepaalde baan. Deze tests zijn tegenwoordig op het internet te vinden. Hieronder worden de meest gebruikte carrièretests behandeld.

- De Strong Interest Inventory – Revised Edition (SII-R) is één van de bekendste carrièretests die wordt gebruikt van middelbare scholieren tot volwassenen. Deze test bestaat uit 291 items die meet op vier schalen: Algemene Beroepsthema’s, Standaard Interesses, Persoonlijke Stijl en Beroepsschalen.

- De Career Decision-Making System – Revised (CDM-R) meet carrière-interesse. De CDM-R kan met de hand of computer beoordeeld worden. Bij het invullen van deze test, geeft de student antwoord op vragen met betrekking tot carrièrekeuze, schoolvakken, werkwaardes zoals salaris en creativiteit, vaardigheden, toekomstige plannen en interesses. Aan de hand van de scores worden een aantal beroepen gegeven die overeenkomen met de interesses van de student.

- De Self-Directed Search (SDS) is een beroepsinteresse test die een beschrijving geeft van de overeenkomsten tussen de persoonlijkheid van een persoon en verschillende beroepen. Er zijn twee vormen van de SDS, één voor mensen met een gemiddelde leesvaardigheid en één voor mensen met een mindere leesvaardigheid of een lager opleidingsniveau.

13. Neuropsychologische diagnostiek

Neuropsychologie onderzoekt de relatie tussen de hersenen en het gedrag van een persoon. Het is geen set van technieken, maar een paradigma om gedrag te begrijpen. De klinische neuropsychologie past de kennis over de relatie tussen de hersenen en gedrag toe op zorg voor patiënten. Neuropsychologische diagnostiek past een aantal gestandaardiseerde procedures toe om de relatie tussen hersenfuncties en getoond gedrag te meten. Een voorbeeld van neuropsychologische diagnostiek is het meten of een patiënt de vaardigheid nog bezit om nieuwe taken aan te leren. De patiënt moet maximale inspanning leveren zodat de resultaten valide zijn. Methoden zoals fMRI en PETscans geven alleen informatie over de mate waarin onderliggende hersenstructuren nog functioneren. Deze methoden geven niet aan of een patiënt nog kan lezen of nieuwe taken kan aanleren. Neuropsychologische tests meten meer specifieke domeinen dan bijvoorbeeld intelligentietests. Voorbeelden van deze specifieke domeinen zijn aandacht, geheugen, vergeetachtigheid en motorische vaardigheden. Neuropsychologische diagnostiek wordt gevormd aan de hand van de familie en ontwikkelingsgeschiedenis van een persoon.

Neuropsychologische evaluatie

Het kiezen van de juiste neuropsychologische test hangt af van de vraag die gesteld wordt. Hieronder volgen enkele richtlijnen met betrekking tot neuropsychologische tests.

- Alle, of op z’n minst een significante meerderheid, van de relevante cognitieve vaardigheden van een patiënt moet worden gemeten. Deze meting kan een IQ test zijn die zowel verbale als non-verbale domeinen meet, zoals de Wechsler of Reynolds Intellectual Assessment test. Verder moeten onder andere mentale processen en academische vaardigheden als lezen en schrijven gemeten worden.

- Bij het testen moet rekening gehouden worden met de relatieve effectiviteit op de rechter en linker hersenhelften. Verschillende hersensystemen zijn betrokken bij verschillende hersenhelften, en dit heeft gevolgen voor behandeling. Bij sommige vormen van letsel loopt de ene hersenhelft meer beschadigingen op dan de andere hersenhelft.

- Bij het testen moet zowel naar de anterieure als naar de posterieure regio’s van corticale functies gekeken worden. De anterieure regio’s bevinden zich aan de voorzijde van de hersenen en zorgen voor expressie en regulatie. De posterieure regio’s bevinden zich aan de achterzijde van de hersenen en zijn vooral receptief. Bij het kiezen van de juiste neuropsychologische test moet rekening gehouden worden met natuurlijke gebreken in deze gebieden.

- Tests moeten de aanwezigheid van specifieke gebreken kunnen vaststellen. Hersenletsel door een traumatische gebeurtenis en beroertes kunnen de oorzaak zijn van specifieke veranderingen in bepaalde hersenfuncties.

- Tests moeten de hevigheid en aanhoudendheid van gevonden problemen kunnen aangeven. Om de juiste behandeling te geven, is het belangrijk te weten hoe lang de gevonden problemen al gaande zijn. Het is namelijk van belang om oude symptomen te kunnen onderscheiden van nieuwe symptomen.

- Tests moeten intacte, complexe functionele hersensystemen kunnen lokaliseren. Intacte systemen zijn cruciaal om de juiste behandeling op te stellen.

- Tests moeten veranderingen in persoonlijkheid, affect en gedrag meten. Sommige van deze veranderingen zijn tijdelijk, en sommigen zijn permanent.

- Testresultaten moeten zodanig gegeven worden dat ze passen in de context van het leven de patiënt.

Neuropsychologische tests

De algemene aanname van elke neuropsychologische test is dat de hersenen gedrag bepalen, waardoor metingen van gedrag iets zeggen over het functioneren van het brein.

Er zijn twee benaderingen voor neuropsychologische diagnostiek. De eerste benadering is het gebruik van een gefixeerde batterij waarin taken om hersenbeschadiging te bepalen gestandaardiseerd zijn. Voorbeelden van gefixeerde batterijen zijn de Halstead-Reitan Neuropsychological Test Battery en de Luria-Nebraska Neuropsychological Battery for Adults.

The Halstead-Reitan Neuropsychological Test Battery (HRNB)

De HRNB heeft de langste klinische geschiedenis en meeste empirische steun van neuropsychologische batterijen. Het is de meest gebruikte gefixeerde batterij onder clinici. De HRNB was ontwikkeld om de relatie tussen gedrag en hersenfuncties te meten en bestaat uit verschillende categorieën: (1) input; (2) aandacht, concentratie en geheugen; (3) verbale vaardigheden; (4) ruimtelijke-, opvolgende- en beïnvloedende vaardigheden; (5) beredenering en logische analyse; en (6) output. Aan de hand van deze categorieën ontstaat een prestatieniveau van de persoon: ‘helemaal normaal’ (score = 0), ‘normaal’ (score = 1), ‘mild beschadigd’ (score = 2) en ‘significant beschadigd’ (score = 3).

Luria-Nebraska Neuropsychological Battery (LNNB) for Adults

De LNNB is na de HRNB de meest gebruikte neuropsychologische batterij. De LNNB was ontwikkeld om cognitieve tekortkomingen en problemen in het centrale zenuwstelsel te meten. Deze test bestaat uit twaalf klinische schalen die kunnen worden afgenomen bij kinderen vanaf twaalf jaar. De LNNB kan op drie manier beoordeeld worden: schaal, item of kwalitatief. Bij een kwalitatieve analyse van resultaten op de LNNB, richt de beoordelaar zich op de fouten die de persoon in de test heeft gemaakt. Is een fout bijvoorbeeld gemaakt door visueel-motorische problemen of heeft de persoon zijn aandacht niet bij de test kunnen houden? Deze vraag kan alleen worden beantwoord door een nauwkeurige observatie van de persoon die de test heeft gemaakt.

De tweede benadering van neuropsychologische diagnostiek is de flexibele batterij. Deze batterij is een combinatie van psychologische- en ontwikkelingstests. Een voorbeeld van een flexibele batterij is de Boston Process Approach.

Boston Process Approach (BPA)

In de BPA geven onder andere leeftijd, geslacht, opleidingsachtergrond, psychiatrische geschiedenis, gebruik van medicijnen en middelenmisbruik informatie voor de diagnose. De BPA richt zich op de neurologische pluspunten van een persoon, in plaats van dat het zich richt op lokalisatie van hersenbeschadiging. Het sterke punt van de BPA is dat deze flexibele batterij zich bezig houdt met interventies op werk- en opleidingsgebied. Een nadeel is dat er nog weinig onderzoek is gedaan naar de BPA in zijn geheel. Flexibele batterijen hebben over het algemeen een lagere betrouwbaarheid en validiteit dan gefixeerde batterijen.

Geheugendiagnostiek

Geheugenproblemen zijn in bijna alle cognitieve stoornissen aanwezig. Vooral personen met leesgerelateerde leerproblemen hebben geheugenproblemen. Bij een traumatic brain injury (TBI) treedt hersenletsel op na een traumatische gebeurtenis. Geheugenproblemen houden over het algemeen lange tijd aan bij mensen met TBI. Hoewel het geheugen een belangrijke rol speelt in het alledaags leven, is geheugendiagnostiek een recent fenomeen. De Wechsler schaal bevatte al een korte meting van immediate recall, maar pas in 1990 werd de geheugendiagnostiek voor kinderen geïntroduceerd in de Wide Range Assessment of Memory and Learning (WRAML). De WRAML was ontwikkeld voor kinderen tussen de vijf en zeventien jaar oud. De negen subtests van de WRAML kunnen worden opgedeeld in de drie schalen Verbaal Geheugen, Visueel Geheugen en Leren. De WRAML werd echter verbreed en verdiept in 1994, toen Reynolds en Bigler de Test of Memory and Learning (TOMAL) ontwikkelden. De TOMAL analyseert geheugenfuncties bij kinderen tussen de vijf en twintig jaar oud.

TOMAL-2: An Example of a Contemporary Comprehensive Memory Assessment

De TOMAL-2 werd ontwikkeld in 2007 en bevatte naast tests voor kinderen, ook tests voor volwassenen. De TOMAL-2 is de meest uitvoerige geheugenbatterij en is het best in gebruik bij het meten van geheugenfuncties van een persoon. Deze batterij kan toegepast worden op personen tussen de 5 en 59 jaar oud. Verder bestaat hij uit 14 geheugen- en leertaken. Subtests van de TOMAL-2 meten onder andere geheugen voor verhalen, gezichtsgeheugen, het herinneren van objecten en ruimtelijk geheugen. De TOMAL-2 bevat ook een subtest voor het verbaal en visueel herinneren van volgordes. Het herinneren van volgordes speelt zich vooral af in de temporale gebieden van de linker hersenhelft. Er zijn meerdere batterijen die het herinneren van volgordes meten, maar de TOMAL-2 geeft aparte scores voor het voorwaarts en achterwaarts herinneren van bijvoorbeeld woorden. Er zijn namelijk verschillende hersenstructuren actief bij het voor- of achterwaarts herinneren. Voor een klinische analyse is deze losse score daarom van belang. De TOMAL-2 bevat veel subtests in meerdere dimensies zodat een gedetailleerde analyse kan worden gegeven over de oorzaak van geheugencomplicaties.

Het proces van neuropsychologische diagnostiek

Na de komst van de neuroimaging werd verwacht dat de rol van neuropsychologen steeds verder af zou gaan nemen. Dit is echter niet gebeurd. In dit gedeelte wordt het algemene proces van neuropsychologische diagnostiek behandeld.

Referral

Neuropsychologische diagnostiek begint met het ontvangen van verwijzingen (referral) naar hersenbeschadigingen, leervaardigheden, psychiatrische stoornissen en behandelingsevaluatie. Deze verwijzingen worden van verschillende bronnen verkregen. Voorbeelden van deze bronnen zijn neurologen, psychiaters maar ook scholen. Als verwacht wordt dat geheugenproblemen geassocieerd zijn met leeftijd, wordt de familie van de patiënt geraadpleegd.

Review of Records

Neuropsychologische tests geven een meting van gedrag op een bepaalde tijd, plaats en omstandigheid. Deze resultaten zijn alleen relevant wanneer ze worden geïnterpreteerd in combinatie met informatie over de levensloop van een patiënt. Deze informatie van een patiënt kan onder andere verkregen worden door een interview, medisch rapport of gestandaardiseerde testscores. Informatie over de levensloop kan cruciaal zijn om de oorzaak van hersenletsel te vinden. Meestal bekijkt een neuropsycholoog deze informatie voordat hij de patiënt ontmoet.

Het klinische interview

In het klinische interview wordt informatie verworven op verschillende domeinen van het leven van de patiënt. Het is lastig om alle belangrijke domeinen in een interview te bevragen, maar meestal worden de volgende aspecten minimaal bevraagd:

- Informatie over het letsel of de conditie.

- Geschiedenis van de vroege ontwikkeling; informatie over de geboorte.

- Opleidingsachtergrond; informatie over opleidingsniveau, cijfers, gedragsproblemen, academische interesses en diploma’s.

- Werkachtergrond; informatie over de huidige werksituatie in vergelijking met de werksituatie voor het letsel.

- Sociale achtergrond; informatie over de familiegeschiedenis, woonplaatsen en het al dan niet hebben van kinderen.

- Medische achtergrond; informatie over operaties, ziekenhuisopnames, chronische ziekten en medicatie.

- Psychologische en psychiatrische achtergrond; informatie over trauma’s, diagnoses en psychotherapie

- Middelen(mis)bruik; informatie over de duur, frequentie, hoeveelheid en soorten middelen(mis)bruik.

- Wettelijke achtergrond; informatie over arrestaties, criminele achtergronden, vroegere en huidige rechtszaken.

Een klinisch interview wordt altijd bij de patiënt zelf afgenomen, maar het is raadzaam om ook een interview bij de familieleden van de patiënt af te nemen. Familieleden kunnen vaak waardevolle informatie geven over veranderingen bij de patiënt.

Testselectie

Het doel van een neuropsychologische diagnose heeft een grote invloed op de tests die worden geselecteerd om deze diagnose te kunnen stellen. Hieronder worden de belangrijkste variabelen genoemd die worden nagelopen voordat een test wordt geselecteerd:

- Tijd en kosten. Sommige neuropsychologische batterijen kunnen in één uur worden afgenomen, terwijl andere batterijen tien uur in beslag nemen. Tegenwoordig worden steeds kortere neuropsychologische batterijen ontwikkeld, terwijl de gevoeligheid en specificatie van de evaluatie niet afneemt. De tijd en kosten die bij een test komen kijken hangen af van de onderzoeksvraag, leeftijd en de mate van letsel bij de patiënt.

- Opleiding van de examinator. Elke examinator ontwikkelt onvermijdelijk een aantal tests waarmee hij het meest comfortabel en bekend is. Hierdoor heeft de ene examinator de voorkeur voor een gefixeerde batterij, terwijl de andere examinator liever een flexibele batterij gebruikt.

- Doelen van de diagnostiek. Als het doel van de evaluatie het lokaliseren van het hersenletsel is, is de lengte en opdeling van een batterij anders dan dat het doel van de evaluatie is om te kijken of een persoon een bepaalde stoornis heeft.

- Testfase. Als het doel van een test is prestatieveranderingen over tijd te meten, moet de neuropsycholoog vaak eerdere diagnoses raadplegen voordat hij een nieuwe test selecteert.

- Psychometrie. Neuropsychologen moeten de keuze van hun test aan de hand van de gestelde omstandigheden kunnen onderbouwen. Testkarakteristieken, zoals betrouwbaarheid en validiteit, hebben een grote invloed op de metingen en moeten overdacht worden bij testselectie.

- Gedragsobservatie. Gedragsobservatie is ook van belang bij testselectie. Als een patiënt bijvoorbeeld motorische problemen heeft met zijn rechter hand, kan de neuropsycholoog een test selecteren die specifiek aspecten van de frontale motorische regio’s in de linker hersenhelft meet.

Testcondities

Na het selecteren van een test, worden de ideale testcondities bekeken. Testcondities kunnen invloed hebben op de prestatie van een persoon op een test. De neuropsycholoog neemt de test daarom af in een stille, comfortabele omgeving. Voor elke patiënt zijn andere testcondities van belang. Voor patiënten met slecht zicht zijn lichtcondities bijvoorbeeld belangrijk. Oudere patiënten hebben vaak een verminderd gehoor. Ook hier moeten de testcondities op aangepast worden.

Het meten van tekortkomingen en sterke punten

Neuropsychologen houden zich dus bezig met het huidige patroon van cognitieve sterke en zwakke punten van een patiënt. Dit patroon kan acuut ontstaan zijn door ziekte of hersenbeschadiging, maar het kan ook een resultaat zijn van een langdurend proces. Maar hoe worden deze cognitieve tekortkomingen relatief gemeten als eerdere data afwezig is? Bij afwezigheid van eerdere data worden huidige resultaten vergeleken door middel van een normatieve of idiografische benadering. Hieronder worden deze benaderingen toegelicht.

Normatieve benadering

Bij de normatieve benadering vergelijken neuropsychologen het huidige prestatieniveau van een patiënt met een normatieve standaard. Neuropsychologische metingen geven vaak scores met een normale verdeling in de populatie. De prestatie van een individu kan zo vergeleken worden met de populatienorm. Hierdoor ontstaat een goed beeld van de relatieve plek van de persoon in vergelijking met de populatie in een bepaald onderzoeksdomein. De vraag hierbij is alleen met welke populatie de patiënt vergeleken moet worden. Meestal wordt hierbij rekening gehouden met de leeftijd, etniciteit, het geslacht en opleidingsniveau van de patiënt.

Idiografische benadering

Bij de idiografische benadering gebruikt de neuropsycholoog eerdere scores van premorbide vaardigheden (premorbid ability) om de scores van de patiënt mee te vergelijken. Premorbide vaardigheden beschrijven de cognitieve staat voorafgaande aan letsel of een ziekte. Als scores van vóór het letsel aanwezig zijn, kunnen deze nog niet simpelweg vergeleken worden met de nieuw verkregen scores. De idiografische benadering is dus niet zo makkelijk als hij lijkt.

Premorbide vaardigheden

Premorbide vaardigheden wordt ook wel omschreven als premorbide functie. De premorbide functie van een persoon is van cruciaal belang om verandering in cognitieve staat van een persoon te meten. Als de premorbide functie van een persoon niet bekend is, moet deze geschat of afgeleid worden aan de hand van verschillende informatiebronnen:

- Demografische schatting. Leeftijd, opleiding en ras zijn sterke demografische voorspelling van intelligentie. Aan de hand van deze en andere demografische voorspellers, kunnen waardevolle schattingen gedaan worden van de premorbide functie van een persoon. Een nadeel van een demografische schatting is dat er een grote mate van error aanwezig kan zijn. Weten dat het premorbide IQ van een persoon bijvoorbeeld tussen de 85 en 105 lag, is niet essentieel als een neuropsycholoog de oorzaak van een milde traumatische hersenbeschadiging wil vinden.

- Patroonanalyse. Bij patroonanalyse worden verschillen in prestatie tussen taken herleid tot symptomen van een patiënt. Op deze manier kan een neuropsycholoog relatieve sterke en zwakke punten van een patiënt meten.

- Pathonomische tekens. Een pathonomisch teken is een bepaald teken of symptoom dat duidt op hersenbeschadiging. Een voorbeeld van een pathonomisch teken is een succesvolle architect die geen nauwkeurige kopie van een complex figuur kan tekenen. Dit duidt op een vorm van hersenbeschadiging.

14. Forensische toepassingen van psychologische diagnostiek

Psychologen worden vaak in rechtszalen opgeroepen om een verklaring af te leggen met betrekking tot het gebruik van psychologische tests. Deze tests geven objectieve resultaten die overtuigend kunnen zijn in het vervolgen van een aangeklaagde. In dit hoofdstuk wordt gekeken hoe psychologische tests worden toegepast in forensische zaken.

Wat is forensische psychologie?

Forensische psychologie is de toepassing van psychologische technieken, procedures en veronderstellingen op het begrijpen van de wettelijke vervolgingen en processen. Forensische psychologen zijn meer werkzaak bij burger- dan bij criminele zaken. De American Psychology-Law Society geeft onder andere richtlijnen over het ethisch gebruik van forensische psychologie. Er zijn talloze boeken geschreven over het gebruik van psychologische tests in forensische psychologie. De conclusie die hieruit getrokken kan worden is dat psychologische tests zeer nuttig zijn in de rechtszaal en gerelateerde instanties.

Expert witnesses

Een deskundige getuige (expert witness) is een persoon die benodigde kennis bezit door opleiding, training en ervaring om de rechter te helpen bij het begrijpen van sommige belangrijke onderwerpen van de zaak. De deskundige getuige bespreekt deze onderwerpen met de rechter voordat ze rechtszaak begint. De onderwerpen die worden besproken hebben meer kennis nodig dan alleen gezond verstand of logische redenatie. Deskundige getuigen moeten objectieve informatie geven. Hierbij helpen psychologische testresultaten die gedrag en constructen meten. Het is voor de deskundige lastig om geheel objectief te blijven door druk van de cliënt, maar objectiviteit is van groot belang.

Klinische versus forensische diagnostiek

Klinische diagnostiek verschilt in veel opzichten van forensische diagnostiek. Bij klinische diagnostiek is deelname vrijwillig, zijn de resultaten vertrouwelijk en kunnen deze alleen worden vrijgegeven met toestemming van de persoon. Klinische diagnostiek vindt plaats in een comfortabele en rustige omgeving, zodat de persoon op zijn best kan presteren. Het doel van klinische diagnostiek is het oplossen van een levensprobleem van een persoon. Forensische diagnostiek ziet er geheel anders uit. Het doel van forensische diagnostiek is het verkrijgen van objectieve data en onbevooroordeelde meningen. Deelname aan forensische diagnostiek is in de meeste gevallen niet vrijwillig. Ook in gevangenissen, waar de omstandigheden meestal slecht zijn, wordt forensische psychologie toegepast. Het verschil met klinische diagnostiek is dat het doel dat een psycholoog bij testafname in een forensische setting heeft, vaak haaks staat op het doel van de ondervraagde.

Toepassingen in criminele zaken

De forensische psychologie heeft veel toepassingen in criminele zaken. Deze toepassingen verschillen in sommige overeenkomsten met de toepassingen in burgerzaken, maar er zijn ook overeenkomsten tussen te vinden. Vaak is een zaak bijvoorbeeld een burgerzaak, maar toch wordt dan een combinatie van criminele en burgerregels toegepast. Hieronder worden de meest gebruikte toepassingen van psychologische tests op criminele zaken behandeld.

Ontoerekeningsvatbaarheid

Één van de grootste discussiepunten in forensische settings waar psychologische tests worden toegepast is de ontoerekeningsvatbaarheid (not guilty by reason of insanity defense). De criteria voor ontoerekeningsvatbaarheid verschillen van staat tot staat, maar in wezen komt het er altijd op neer dat de rechter beslist dat de aangeklaagde tijdens zijn criminele gedrag in een staat van mentale ziekte verkeerde waardoor hij niet wist dat hij de wet overtrad.

Het straffen van een persoon die ontoerekeningsvatbaar is, gaat toekomstig crimineel gedrag niet uit de weg. Wat niet tot ontoerekeningsvatbaarheid wordt gerekend, is vrijwillige dronkenschap. Uit onderzoek blijkt dat bij minder dan 1% van de misdrijven ontoerekeningsvatbaarheid wordt gebruikt. Hierbij is 25% van de zaken succesvol en wordt de aangeklaagde daadwerkelijk ontoerekeningsvatbaar verklaard. Aan de hand van deze cijfers blijkt dat slechts drie op de 1000 misdrijfzaken uitmonden in een conclusie van ontoerekeningsvatbaarheid. De aangeklaagde komt dan meestal in een mentale instelling terecht, waar hij vaak langer moet verblijven dan de maximale straf zou zijn geweest als hij niet ontoerekeningsvatbaar was gesteld. In termen van ontoerekeningsvatbaarheid worden psychologische tests vaak gebruikt om objectieve data over de cognitieve en emotionele functies van de aangeklaagde te verwerven.

Competentie om terecht te staan (Competency to Stand Trial)

Mensen met een mentale ziekte kunnen soms niet terecht te staan omdat ze de uitspraak van de rechter niet kunnen begrijpen of omdat ze hun advocaat niet kunnen helpen bij het verdedigen van de aanklacht. De regels met betrekking tot de competentie om terecht te staan verschillen weer van staat tot staat. Maar hoe wordt competentie om terecht te staan bepaald? Een interview waarin de aangeklaagde moet uitleggen welke beschuldiging tegen hem loopt, kan hierbij een uitkomst zijn. Als blijkt dat de aangeklaagde onder andere gedetailleerd weet uit te leggen welke straf hij kan krijgen en wat de rollen van de rechter en vervolger zijn, zijn meestal geen verdere psychologische tests nodig om te bepalen of de aangeklaagde competent is om terecht te staan. Als daarentegen blijkt dat de aangeklaagde deze punten niet kan benoemen, worden psychologische tests gebruikt. Aan de hand van intelligentietests, tests voor verbaal- en luisterbegrip en cognitieve tests die aandacht en geheugen meten, wordt gekeken welke factoren invloed hebben op het begrip van de aangeklaagde met betrekking tot de zaak. Neuropsychologische tests worden toegepast als de aangeklaagde ooit schade heeft opgelopen aan het centrale zenuwstelsel.

Overdracht van de jeugd- naar de volwassenenrechtbank

Een jongere die een daad heeft begaan die voor een volwassene als misdaad zou worden bestempeld, gaat naar de jeugdrechtbank. De jeugdrechtbank houdt technisch gezien burgerrechtszaken, geen criminele rechtszaken. De reden hiervoor is dat er een groter geloof is in rehabilitatie van jongeren dan van volwassenen. Bijna altijd worden psychologische tests toegepast bij aangeklaagde jongeren om cognitieve, emotionele en de morele gedachtegang te onderzoeken. De resultaten op psychologische tests zijn meestal de doorslaggevende factor in de beslissing van een straf. Ook kunnen psychologische tests voorspellen hoe een aangeklaagde jongere zal reageren op een bepaalde vorm van behandeling.

Verzachtende omstandigheden

Veel personen die terecht staan, hebben moeilijke levensomstandigheden doorgemaakt. Voorbeelden van deze levensomstandigheden zijn seksueel misbruik, verwaarlozing, alcoholmisbruik van de moeder tijdens de zwangerschap van de aangeklaagde en het hebben van een mentale ziekte. Psychologen kijken wat de huidige mentale staat van de aangeklaagde is, en de rechter bepaald of deze situatie verzachtend te noemen is. Van verzachting is sprake als de levensomstandigheden van een persoon zodanig waren dat de morele waarden van een persoon verminderd waren toen het misdrijf gepleegd werd. Een persoon met frontale hersenbeschadiging is bijvoorbeeld extreem impulsief. Hij berooft een bank en wordt door zijn hersenbeschadiging minder zwaar bestraft dan een persoon die geen hersenbeschadiging heeft en hetzelfde misdrijf begaat. Psychologische tests worden ook hier gebruikt om de kans op toekomstige misdrijven te bepalen. Hiervoor is informatie over moreel begrip, persoonlijkheid, neuropsychologische staat en de geschiedenis van eerdere misdrijven nodig.

Een verstandelijke handicap en de doodstraf

In 2002 besloot de U.S. Supreme Court dat een verstandelijke handicap een verzachtende factor is en dat mensen met deze handicap geen doodstraf mogen krijgen. Mensen met een verstandelijke handicap hebben namelijk een verminderd moreel begrip door lage mentale capaciteiten. Maar wanneer is iemand verstandelijk gehandicapt? Ten eerste moet de persoon een score van twee of meer standaarddeviaties onder het gemiddelde van een intelligentietest hebben. Verder moet de persoon significantie beperkingen laten zien in adaptief gedrag. In principe komt het er op neer dat nauwkeurige en objectieve psychologische tests een zaak van leven op dood zijn.

Competentie om te worden gestraft

Voordat iemand een straf krijgt, moet hij de reden van de straf begrijpen. Psychologische tests kunnen objectief bewijs leveren dat de aangeklaagde een zodanige mentale staat heeft dat de oorzaak van de straf kan snappen.

Toepassingen in burgerzaken

Psychologische tests worden meer toegepast in burgerzaken dan in criminele zaken. Tests worden in burgerzaken vaker in een klinische omgeving afgenomen dan criminele zaken. Hieronder worden enkele toepassingen van psychologische tests op burgerzaken behandeld.

Rechtszaak over persoonlijke schade

In een rechtszaak over persoonlijke schade wordt een poging gedaan tot het herstellen van schade die een persoon heeft geleden door een verantwoordelijke partij. Schade die een persoon heeft geleden kan zowel fysieke als emotionele schade zijn. Een posttraumatische stress stoornis (PTSS) kan het gevolg zijn van seksueel misbruik in de kindertijd. Hierdoor kan schade ontstaan in de vorm van het niet kunnen vinden of uitvoeren van werk of het niet kunnen afronden van een opleiding. PTSS wordt gediagnosticeerd aan de hand van objectieve psychologische tests. Zowel de mate als de implicaties van de fysieke of emotionele schade op het leven van een persoon zijn van belang voor een rechtszaak. De implicaties hangen af van leeftijd, opleidingsniveau en werk.

Scheiding en voogdij

Als mensen scheiden en er is geen beslissing gemaakt wie de voogdij krijgt, worden vaak psychologische tests toegepast. In rechtszaken met betrekking tot voogdij wijst de rechtbank de voogd aan in het belang van de kinderen. Over het algemeen overwegen rechters de wensen van de ouders of verzorgers, de wensen van de kinderen en de interactie van de kinderen met zowel de ouders als naaste familie. Ook neemt de rechter mentale en fysieke gezondheid mee in zijn overweging. Psychologische tests kunnen veel van deze overwegingen meten, maar het interview speelt ook een grote rol in het verkrijgen van de juiste interpretatie van de testresultaten. In rechtszaken met betrekking tot voogdij zijn veel obstakels voor de clinicus. Soms zijn ouders agressief of wantrouwend tegenover de clinicus. Ook vindt dissimilatie plaats, wanneer een ouder zich op emotioneel en mentaal gebied van de beste kant wil laten zien. Om deze vertekende resultaten te ondervangen, moeten ouders vaak persoonlijkheidstests ondergaan. Door middel van persoonlijkheidstests wordt de werkelijke mentale staat van de ouder duidelijk.

Observatie van de derde partij

Soms willen advocaten aanwezig zijn als hun cliënt een psychologische test ondergaat. Advocaten willen dit omdat ze op deze manier de rechten van de cliënt kunnen beschermen en ze kunnen zien welke tests de cliënt ondergaat. De advocaat wordt in dit opzicht een derde-partij observator (third-party observer) (DPO) genoemd. De aanwezigheid van een DPO bij een test is inconsistent met de regels van de Standards for Educational and Psychological Testing. De aanwezigheid van een DPO kan de testresultaten beïnvloeden door verminderde prestatie en afleiding van de cliënt.

Dissimulatie in forensische omstandigheden

In forensische omstandigheden komt veel dissimulatie voor. Individuen willen zichzelf vaak anders voor doen dan dat ze zijn. Als dissimulatie negatief uitpakt voor een individu, wordt gesproken van malengeren (malingering). Malengeren is een groot probleem in criminele zaken en rechtszaken met betrekking tot persoonlijke schade. De motivatie ervoor is groot in veel forensische omstandigheden. Er wordt momenteel veel onderzoek gedaan naar het herkennen van malengeërde antwoorden in tests.

De toelaatbaarheid van getuigenis gebaseerd op psychologische testresultaten

Als de rechtbank bepaalt dat iemand een expert is, betekent dit niet dat de getuigenis van de expert altijd wordt gebruikt in de zaak. De U.S. Supreme Court geeft criteria waar een rechter rekening moet houden als het om het gebruiken van de mening van een expert in een rechtszaak gaat. De toelaatbaarheid van getuigenis (admissibility of testimony) bepaalt dat de getuigenis van een expert logisch en betrouwbaar moet zijn. Het totale beredeneringsproces moet valide en geloofwaardig zijn. Toelaatbaarheid van de getuigenis van de expert focust zich daarmee vooral op de methode in plaats van op de mening van de expert.

15. Het probleem van bias in psychologische diagnostiek

Er is al veel onderzoek gedaan naar de reden van verschillen tussen groepen. De cultural test bias hypothesis (CTBH) stelt dat verschillen tussen groepen ontstaan door een bias tegenover een bepaalde groep. Bias is makkelijk gezegd vooroordeel waardoor vertekende resultaten kunnen ontstaan. Hierna wordt de term bias verder uitgelegd. De CTBH stelt dat verschillen in testscores onder verschillende etnische groepen en sekses ontstaan door vooroordelen die worden verkregen door tekortkomingen in psychometrische methodologie. Eén van de grootste wetenschappelijk vragen van tegenwoordig is hoe deze vooroordelen voorkomen kunnen worden. Door vooroordelen in mentale tests kunnen individuen bijvoorbeeld een verkeerde diagnose krijgen. Deze verkeerde diagnose heeft een grote invloed op het leven van het individu. Als goed geconstrueerde gestandaardiseerde tests vooringenomen zijn, dan zijn minder gestandaardiseerde tests even of sterker vooringenomen. Hiermee neemt de betrouwbaarheid van een test af. Een hoog betrouwbaarheidscoëfficiënt geeft niet aan dat er geen vooroordelen in de test aanwezig zijn, maar als de betrouwbaarheid afneemt is de kans wel groter dat de test vooroordelen bevat. In dit hoofdstuk worden de problemen rondom en de bevindingen van de CTBH behandeld.

Wat wordt bedoeld met bias?

The Standards definiëren bias als een systematische fout in een testscore. Een biased test onderschat of overschat systematisch de waarde van de gemeten variabele. Als de bias een functie is ten opzichte van een culturele variabele, wordt gesproken van een culturele bias. Het probleem van culturele bias is in de laatste jaren naar voren gekomen als een groot probleem. Daarom is het belangrijk dat de CTBH empirisch getoetst blijft worden. Hoewel het moeilijk is om in dit geval geheel objectief te blijven, is het vanuit wetenschappelijk perspectief nodig om de CTBH te toetsen op sociaal, politiek en emotioneel gebied.

Bias in tests

Er is een systematisch verschil in IQ tussen blank en zwarte mensen. Dit verschil is relatief constant over tijd en over verschillende onderzoeksmethoden. Hierbij moet rekening gehouden worden met het feit dat de overlap in de verdeling van intelligentietests voor verschillende etnische groepen groter is dan de verschillen in de verdeling. Er is altijd meer variabiliteit binnen groepen dan variabiliteit tussen groepen in prestatie.

Verschillen in gemiddelden tussen groepen

Als de verschillen in gemiddelden tussen groepen ontdekt zijn, moeten deze verschillen worden verklaard. Verklaringen hiervoor zijn de genetische basis, de omgeving zoals cultuur en opleiding, de interactie tussen genen en omgeving, en een test die kennis en vaardigheden van minderheden systematisch onderschat. Deze laatste verklaring wordt ondersteund door de CTBH. Groepsverschillen worden aan de hand van de CTBH verklaard door karakteristieken van de test, niet door psychologische kenmerken en vaardigheden van individuen. Als de CTBH geen gelijk heeft worden groepsverschillen bepaald door één van de andere, bovenstaande verklaringen. Tegenwoordig vinden veel onderzoekers steun bij de verklaring van de interactie tussen genen en omgeving. Er is alleen veel discussie over de relatieve bijdrage van genen en omgeving.

Test bias en eerlijkheid

Test bias en eerlijkheid zijn aan elkaar gerelateerd, maar toch afzonderlijke begrippen. Een bevooroordeelde test wordt in principe door iedereen gezien als oneerlijk. Maar een test die niet bevooroordeeld kan ook nog oneerlijk worden gezien door sommigen.

Test bias en aanstootgevendheid

Er is ook een onderscheid tussen test bias en aanstootgevendheid (offensiveness). Testontwikkelaars ondervragen vaak individuen uit minderheden om te kijken of de inhoud van een test aanstootgevend wordt bevonden. Aan de hand van de mening van deze individuen kunnen bepaalde items verwijderd worden, maar dit houdt niet in dat die items bevooroordeeld waren.

Culturele bias en psychologisch testen

Het is lastig om één-op-één relaties te vinden tussen observeerbare gebeurtenissen in de omgeving. Het probleem van culturele bias komt naar boven bij procedures in psychologisch testen. Psychologische tests meten niet direct observeerbare kenmerken, en meten alleen op een relatieve schaal. Het probleem van culturele bias is dan ook erg belangrijk bij mentale tests. Niet alle mentale tests hebben dezelfde kwaliteit. Sommigen zijn psychometrisch gezien beter dan anderen.

Bezwaren ten opzichte van tests bij minderjarige studenten

De Association of Black Psychologists (ABPsi) kwam met het idee om psychologische tests aan te passen voor studenten met een achtergestelde afkomst. De ABPsi ging er namelijk vanuit dat tests bevooroordeeld waren. Dit idee werd serieus genomen door de psychologie, en de American Psychological Association (APA) wees een onderzoeksgroep aan die psychologische en educatieve tests bij studenten met een achtergestelde afkomst zou onderzoeken. Tegenwoordig weet men veel meer over culturele vooroordelen in psychologische tests en diagnostiek. Hieronder worden elke voorbeelden van culturele bias gegeven:

- Ongeschikte inhoud van de test. Door ongeschikte inhoud van de test, waren sommige tests onbruikbaar voor kinderen uit minderheidsgroepen.

- Ongeschikte gestandaardiseerde steekproeven. Etnische minderheidsgroepen zijn ondervertegenwoordigd in gestandaardiseerde steekproeven in de collectieve van normatieve data. Hierdoor kunnen bepaalde tests niet worden gebruikt door kinderen uit minderheidsgroepen.

- Taalvertekeningen. Etnische minderheden die geen Engels spreken kunnen zich geïntimideerd voelen door een examinator die Engels spreekt. Hierdoor ontstaat een taalvertekening.

- Onredelijke sociale consequenties. Door bias in psychologische en educatieve tests, wordt verwacht dat leden van minderheidsgroepen niet in staat zijn om te leren. Deze leden worden gelabeld terwijl ze al nadelig in de werk- en opleidingsmarkt staan.

- Het meten van verschillende constructen. Als een test wordt afgenomen bij kinderen die niet uit de middenklasse cultuur komen, worden andere constructen gemeten. Daardoor wordt de intelligentie van de minderheid niet valide gemeten.

- Verschillen in voorspellende validiteit. Een test voorspelt over het algemeen een grote hoeveelheid aan uitkomsten. Het gedrag van leden van minderheidsgroepen kan echter meestal niet voorspeld worden. Voor de ene groep ontstaan op deze manier valide interpretaties van testresultaten, terwijl deze voor de andere groep niet valide zijn.

- Kwalitatief onderscheid in vaardigheden en persoonlijkheid. Leden van minderheidsgroepen verschillen in persoonlijkheid en vaardigheden in vergelijking met leden van meerderheidsgroepen. De acties van de ABPsi had veel bezwaar tegen dit punt en vanaf dat moment werd er steeds meer data over verzameld. Tegenwoordig onderzoeken testontwikkelaars zelfs of hun test bevooroordeeld is, voordat de test commercieel beschikbaar is.

Onderscheidende validiteit

Volgens The Standards is onderscheidende validiteit aanwezig als een test verschillen laat zien in een construct tussen verschillende groepen. Onderscheidende validiteit houdt dus in dat de testaanwezige verschillen tussen groepen ook daadwerkelijk meet. Validiteitsbewijs kan zowel van externe als interne bronnen van de test komen. Bias kan voorkomen in beide vormen validiteitsbewijs.

Cultuur en tests

Als een test een culturele lading heeft, gaat het om de mate waarin culturele specificatie aanwezig is in een test of testitems. Hoe meer culturele lading in een test, hoe groter de kans wordt dat de test biased is als deze wordt gebruikt voor individuen van verschillende culturen. Er zijn pogingen gedaan om een cultuur vrije intelligentietest te ontwikkelen. Een cultuur vrije test is echter een slechte voorspeller van intelligentie binnen de cultuur. Als een test een culturele lading hebben, moet de generaliseerbaarheid ervan empirisch onderzocht worden.

Ongeschikte indicatoren van bias

Verschillen tussen gemiddelden van meerdere groepen geven niet meteen aan dat er bias in de test is. Zoals The Standards zeggen, denken veel testdeskundigen bij testresultaten met verschillende groepsgemiddelden dat een test een vorm van bias heeft. Deze verschillen geven echter niet meteen aan dat de test biased of oneerlijk was. Volgens de egalitaire denkfout van Jensen (1980) zijn alle menselijke populaties identiek op alle mentale kenmerken en vaardigheden. Verschillen in de verdeling geven aan dat er een fout in de test zit. Wetenschappelijke onderzoeken hebben aangewezen dat dit idee niet klopt. Er zijn te veel voorbeelden van vaardigheden die verschillen tussen menselijke populaties.

Bias in testinhoud

Er is veel kritiek geweest op psychologische test in verband met biased testinhoud. Hieronder worden voorbeelden gegeven van items die biased worden bevonden:

- Items waarvoor kennis nodig is die leden van minderheidsgroepen niet op een gelijkwaardige manier hebben kunnen krijgen.

- Items die onrechtvaardig worden beoordeeld. Het antwoord van een lid van een minderheidsgroep wordt bijvoorbeeld onjuist gerekend aan de hand van een blanke middenklasse oriëntatie. Hetzelfde antwoord zou echter juist worden gerekend in de eigen cultuur. Deze onrechtvaardige beoordeling komt vooral voor bij persoonlijkheidstests. Een individu geeft antwoord op items in een voor hem adaptieve manier, terwijl dat voor de beoordelaar als niet adaptief kan worden beschouwd door het cultuurverschil.

- Items die op een onbekende manier verwoord zijn voor het lid van de minderheidsgroep worden ook als biased gezien. Het individu kan niet antwoorden op een item of alleen gokken wat met de vraag bedoeld worden omdat de vraag niet wordt begrepen.

Door bias in testinhoud zijn de items moeilijker voor minderheidsindividuen dan ze zouden moeten zijn. Hierdoor zijn de testresultaten lager voor minderheidsindividuen.

Om bias in items op te sporen, wordt gebruik gemaakt van de item respons theory (IRT). Aan de hand van de IRT kan de mate van differential item functioning (DIF) bepaald worden. De DIF kijkt hoe goed items verschillende groepen kunnen onderscheiden. Als blijkt dat de DIF statistisch significant is, suggereert dit dat een item irrelevante verschillen tussen groepen meet. Aan de hand hiervan kan een item uit de test verwijderd worden.

Bias in andere interne testkarakteristieken

Er bestaan veel verschillende manieren bias in psychologische tests te vinden. Één veel gebruikte manier hiervoor is factoranalyse. Factoranalyse geeft aan in hoeverre testitems met elkaar correleren. Hilliard (1979) vond dat bias in tests onderzocht moest worden aan de hand van een combinatie van factoranalyse en testonderzoeken naar ras. Consistente factoranalyses tussen populaties laten dan zien dat het construct op dezelfde manier gemeten is bij beide groepen en dat de betekenis van het construct gelijk is voor beide groepen. Een andere methode om bias in psychologische tests te vinden is door het interne betrouwbaarheidscoëfficiënt te vergelijken tussen groepen. Interne betrouwbaarheid meet de mate waarin items van een test allemaal hetzelfde construct meten.

Bias in voorspellingen

Een test is biased in voorspellingen als er een constante error aanwezig is in voorspelling door het behoren tot een bepaalde groep. Voorspellingen worden aangegeven door regressie. Errors in voorspellingen moeten onafhankelijk zijn van het behoren tot een groep. De regressielijn die gevormd is voor elke variabele moet ook gelijk zijn voor elke groep waar voorspellingen voor gemaakt zijn. Als a of b in de regressieformule Y = a + bX significant afwijkt tussen groepen, is er bias in voorspellingen tussen groepen gevonden. Als de regressie voor groepen gelijkwaardig is, kan worden gesteld dat de voorspelling hetzelfde is voor deze groepen. Dit wordt ook wel homogeniteit genoemd.

Bias komt zeldzaam voor en heeft geen observeerbaar patroon, behalve bij instrumenten met een lage betrouwbaarheid en hoge specificatie van testinhoud. Als bias toch voorkomt, is het meestal in de vorm van een kleine overschatting voor mensen met een laag sociaal-economische status en andere laag scorende groepen. Waarschijnlijk zorgen deze kleine overschattingen niet voor nadelige gevolgen voor leden van minderheidsgroepen.

15. Aangepaste diagnostiek

Tot nu toe is besproken hoe belangrijk het is dat diagnostiek op een gestandaardiseerde manier verloopt om de betrouwbaarheid en validiteit van een test te waarborgen. Als een individu echter een beperking heeft, moet de standaard diagnostiek gewijzigd worden. The Standards hebben aangegeven dat dit aangepaste diagnostiek (assessment accommodations) wordt genoemd. Dit is een vorm van diagnostiek waarbij de invloed van karakteristieken van een individu die irrelevant zijn voor het te meten construct, wordt geminimaliseerd. Elke psycholoog krijgt hier mee te maken en moet er rekening mee houden dat testresultaten vertekend kunnen zijn doordat de participant wellicht een fysieke of mentale beperking heeft. Het doel van deze aanpassingen is het geven van een valide en nauwkeurige meting van een construct voor elk individu. Ook zijn er wetten verbonden aan het aanpassen van standaard diagnostische tests.

Motivering voor aangepaste diagnostiek

Hierboven werd al uitgelegd wat het doel en nut van aangepaste diagnostiek is. Fysieke, cognitieve en motorische tekortkomingen kunnen snel opvallen bij een individu. Sommige tekortkomingen zijn echter niet snel te zien aan een individu. Als een persoon bijvoorbeeld fysieke problemen heeft waardoor hij sneller moe is, moet rekening gehouden worden met de lengte van de test.

Wanneer zijn aanpassingen ongeschikt of onnodig?

The Standards hebben drie situaties gegeven waarin aangepaste diagnostiek niet gegeven moet worden of onnodig is:

1. Aanpassingen zijn ongeschikt als de betreffende vaardigheid relevant is aan het te meten construct. Een voorbeeld hiervan is dat een test die visuele vaardigheden meet niet aangepast hoeft te worden als een persoon visueel tekort komt.

2. Aanpassingen zijn ongeschikt als het doel van de test is om de aanwezigheid en mate van een tekortkoming te meten. Het is bijvoorbeeld ongeschikt om een participant met ADHD extra tijd te geven om een test te maken als het doel van de test is om aandachtsproblemen te meten.

3. Aanpassingen niet voor alle participanten met tekortkomingen nodig. Niet alle participanten met leerproblemen hebben bijvoorbeeld dezelfde aangepaste test nodig. De ene participant heeft extra tijd nodig, terwijl dit voor de andere participant misschien onnodig is.

Strategieën voor aanpassingen

Hieronder worden de belangrijkste categorieën behandeld van de meest gebruikte aanpassingen in diagnostiek:

- Wijzigingen van presentatievorm zijn bijvoorbeeld het gebruik van een test in braille bij een persoon met verminderd zicht en het gebruik van een auditieve testafname bij een persoon met leesproblemen. Andere manieren om de presentatievorm van een test te wijzigen zijn het vergroten van de ruimte tussen items, het verminderen van het aantal items op een pagina, het definiëren van lastige begrippen, het geven van extra voorbeelden en het gebruik van gesimplificeerde woorden.

- Wijzigingen van responsvorm zorgen ervoor dat participanten kunnen antwoorden op een manier van communicatie die hun voorkeur heeft. Als een persoon bijvoorbeeld een fysieke tekortkoming heeft, kan hij de test mondeling afleggen. Ook kan een persoon antwoorden in gebarentaal. De interpretatie van gebarentaal is lastiger dan de interpretatie van gestandaardiseerde scores en brengt daarom veel problemen met zich mee. Andere manieren van een gewijzigde responsvorm zijn het laten aanwijzen van het juiste antwoord, het gebruik van een bandrecorder om antwoorden mee vast te leggen en het geven van meer ruimte tussen lijnen om een antwoord op te schrijven.

- Het wijzigingen van tijd is waarschijnlijk de meest voorkomende manier om een test aan te passen. Een participant die langzaam leest of schrijft, krijgt bijvoorbeeld meer tijd om de test te maken. Het is echter lastig om te bepalen hoeveel extra tijd de participant krijgt. Uit onderzoek blijkt dat het geven van 50% extra tijd voor de meeste participanten met beperkingen een goede uitkomst is. De meeste psychologen zien het geven van minder tijd niet als een optie. Het geven van minder tijd is onnodig, het inroosteren van testafname wordt moeilijker, de geloofwaardigheid van de test neemt af en het kan als onredelijk worden gezien. Andere manieren om de tijd van een test te wijzigen zijn het geven van meer pauzes, de test op verschillende dagdelen afnemen en de dag waarop de test wordt afgenomen veranderen.

- Wijzigingen van omstandigheden zorgen ervoor dat de participant zich in een situatie bevindt waar hij het best kan presteren. Een voorbeeld hiervan is het individueel afnemen van een test die oorspronkelijk was bedoeld voor testafname. Een persoon die snel afgeleid is kan hier profijt van hebben. Andere manieren om de omstandigheden te wijzigen zijn het aanpassen van het licht, het aanpassen van de tafelopstelling en het vermijden van lawaai en andere afleiders.

Aangepaste apparaten

Er zijn veel aangepaste apparaten ontwikkeld die participanten met een beperking helpen bij een testafname. Mensen met een slecht zicht kunnen bijvoorbeeld een test afleggen door middel van een computerscherm dat automatisch de lettergrootte aanpast. Ook bestaan er stemherkenning programma’s die de antwoorden van een persoon herkennen en op papier printen. Andere voorbeelden van aangepaste apparaten zijn speciale stoelen, aangepaste toetsenborden en pratende rekenmachines.

Delen van een test schrappen

Soms hoeft een participant met een beperking niet de hele test af te leggen. In klinische situaties worden delen van een test geschrapt die ongeschikt zijn voor een participant met een beperking. Een persoon met een verslechterd zicht hoeft het deel van de WISC-IV (zie hoofdstuk I) dat visuele vaardigheden meet, niet te maken. Voor een persoon die snel moe wordt, worden bijvoorbeeld bepaalde items van een test verwijderd om de test korter te maken. Het nadeel van het reduceren van items is dat de validiteit vermindert. Daarom moet goed worden nagedacht of het schrappen van items daadwerkelijk nodig is.

De geschikte aanpassing vinden

Het is vaak lastig om te bepalen of en welke aanpassing van een test nodig is voor een persoon. Er zijn enkele universeel geaccepteerde richtlijnen over wanneer welke aangepaste diagnostiek moet worden toegepast. Deze richtlijnen worden hieronder behandeld.

- Wijzigingen moeten worden afgestemd op de behoeften van de individuele participanten.

- Aanpassingen die studenten bij de instructie in de klas krijgen, zijn over het algemeen geschikt voor diagnostiek.

- Het selecteren van aanpassingen die onafhankelijk functioneren benadrukken, geeft de voorkeur.

- Het is van belang de richtlijnen de auteur van de gestandaardiseerde test te volgen bij het wijzigen ervan.

- Het is van belang de behoeften van de participanten periodiek te evalueren.

Participanten met een andere moedertaal

The Standards zeggen dat elke test waar taal bij komt kijken taalvaardigheid meet. Dit punt is van belang voor mensen die een andere moedertaal hebben dan de taal waarin de test is geschreven. Docenten moeten opletten dat ze bij het afnemen van een test niet de taalvaardigheid meten, maar de kennis en vaardigheden van de student. Verder moet het verschil tussen gespreksvaardigheden en cognitieve taalvaardigheden gemeten worden. Gespreksvaardigheid in een andere taal ontwikkelt in ongeveer twee jaar, terwijl cognitieve en academische taalvaardigheid in ongeveer vijf jaar ontwikkelt. The Standards hebben richtlijnen gegeven met betrekking tot de beoordeling van taalvaardigheid. Hieronder worden een paar van deze richtlijnen gegeven met betrekking tot individuen die de Engelse taal nog niet goed beheersen:

- Geef aanwijzingen in de moedertaal van het individu. Het nadeel hiervan is wel dat een vertaling van de test geen gelijkwaardigheid verzekert. Hierdoor zijn testresultaten tussen individuen niet goed vergelijkbaar. De vraag is alleen of een vertaalde test resulteert in het niet kunnen vergelijken van testresultaten.

- Door gebruik van een non-verbale test wordt de invloed van culturele en taalgerelateerde factoren verminderd. Een nadeel van een non-verbale test in vergelijking met een verbale test is dat de mogelijkheid bestaat dat ze niet hetzelfde construct meten.

- Als er geen vertaling van de test bestaat, kan de test worden afgenomen door een gekwalificeerde tweetalige examinator. Het nadeel hiervan is dat de validiteit van testresultaten kan afnemen en dat de moeilijkheidsgraad van woorden verschilt tussen talen.

Het rapporteren van aangepaste diagnostiek

Als een psycholoog een gestandaardiseerde test heeft gewijzigd, rapporteert hij dit. Sommige diagnostische organisaties gebruiken een sterretje of markeren (to flag) een resultaat dat voortkomt uit een afname die niet gestandaardiseerd is. Voorstanders van het markeren van ongestandaardiseerde resultaten vinden dat het resultaten die niet gemarkeerd worden misleidend kunnen werken. Zonder markering wordt namelijk aangenomen dat de test niet aangepast is, terwijl dit wel het geval is. Tegenstanders van het markeren van ongestandaardiseerde resultaten vinden dat de markering zorgt voor het stigmatiseren van participanten met een beperking.

16. Wettelijke en ethische problemen

Een psycholoog heeft een zeer machtige positie. Beslissingen van psychologen hebben invloed op het leven van personen, de wetenschap, de wet en de interpretatie van gedrag van mensen. Diagnostiek heeft veel richtlijnen zodat het overal hetzelfde kan worden toegepast. In dit hoofdstuk worden deze richtlijnen voor diagnostiek behandeld. Deze richtlijnen zijn een samenvoeging van ideeën van The Standards, The Ethical Principles of Psychologists and Code of Conduct (Ethics Code) en The Joint Committee on Testing Practices (JCTP).

Richtlijnen voor het ontwikkelen van diagnostiek

De JCTP zegt dat de het fundamentele recht van een participant is dat de test die afgenomen wordt hoge professionele standaarden heeft en valide testresultaten geeft. The Standards geven richtlijnen die meestal direct worden toegepast op professioneel ontwikkelde tests, maar ze kunnen ook toegepast worden op minder formele diagnostiek. Hieronder worden richtlijnen voor het ontwikkelen van diagnostiek volgens professionele standaarden behandeld.

- Specificeer duidelijk het doel en het te meten construct van de test. Er moet een duidelijke definitie van het construct zijn en een tabel met specificaties moet gegeven worden. De table of specifications (TOS) moet informatie over de inhoud en vorm van de test bevatten. Deze informatie moet direct gelinkt kunnen worden aan het te meten construct.

- Ontwikkel methoden voor diagnostiek die geschikt zijn voor het meten van het construct. Aan de hand van de TOS moeten items en manieren om te resultaten te scoren ontwikkeld worden. Het ene construct zal vragen om een benadering met geselecteerde respons items, terwijl voor het andere construct geconstrueerde respons items van toepassing zijn.

- Ontwikkel expliciete criteria voor het scoren van de resultaten. De manier van scoren moet met het doel van de test samenhangen en moet het interpreteren van valide resultaten vergemakkelijken.

- Beschrijf de populatie en bedenk een manier om een geschikte steekproef te trekken.

- Geef duidelijke richtlijnen voor testafname. Deze richtlijnen moeten instructies voor de participanten, tijdsbestek en testcondities bevatten.

- Bedenk aanpassingen voor participanten met een beperking. Zie voor richtlijnen met betrekking tot participanten met een beperking hoofdstuk P.

- Laat de test herzien door een collega voordat hij wordt afgenomen.

- Evalueer de psychometrische eigenschappen, zoals validiteit en betrouwbaarheid, van de test door middel van kwantitatieve en kwalitatieve procedures.

Richtlijnen voor het selecteren van diagnostiek

Veel klinische en onderzoekspsychologen ontwikkelen geen tests zelf, maar selecteren tests voor afname bij hun cliënt of participant. Hieronder worden de richtlijnen voor het selecteren van een geschikte test behandeld.

- Selecteer een test die valide is bevonden voor het beoogde doel.

- Selecteer een test met representatieve data voor de doelpopulatie.

- Selecteer een test die betrouwbare scores geeft.

- Selecteer een test die eerlijk is. Hiermee wordt bedoeld dat de test vrij is van vooroordelen op basis van geslacht en etnische achtergrond.

- Selecteer een test die nauwkeurig herzien is op basis van literatuur. Er zijn verschillende bronnen die evaluaties geven over psychologische tests. De Mental Measurements Yearbook (MMY) geeft beschrijvende informatie over tests. Ook wordt informatie gegeven over de betrouwbaarheid, validiteit en rapportage van testresultaten. De Tests in Print (TIP) bevat informatie over praktisch elke gepubliceerde psychologische of educatieve test. Aan de hand van de TIP kan de meest geschikte test voor onderzoek gekozen worden.

- Selecteer en gebruik alleen tests die gekwalificeerd zijn om af te nemen, te scoren en te interpreteren.

- Zorg dat tests niet verkeerd worden geïnterpreteerd.

- Zorg dat de veiligheid van de test gewaarborgd blijft.

- Denk na over de consequenties van een test voordat deze gebruikt wordt.

Richtlijnen voor het afnemen van diagnostiek

Hieronder worden richtlijnen voor verantwoordelijkheden genoemd die bij het afnemen van tests van toepassing zijn.

- Geef de participanten duidelijke instructies over de test en laat ze een informed consent invullen. Een informed consent is het geven van informatie over karakteristieken, interpretatie en gebruik van de test.

- Zorg dat bij minderjarigen toestemming van een ouder of verzorger aanwezig is.

- Neem alleen tests af waarvoor je bent gekwalificeerd door middel van een opleiding.

- Neem de test af in een gestandaardiseerde manier.

- Zorg voor aangepaste tests bij participanten met beperkingen.

- Zorg dat de veiligheid van de test gewaarborgd blijft. De veiligheid van een test is bijvoorbeeld in gevaar als een participant de test buiten een gecontroleerde omgeving mag afleggen.

Richtlijnen voor het scoren van testresultaten

- Zorg dat testresultaten naar behoren en nauwkeurig worden gescoord.

- Zorg ervoor dat het scoren eerlijk gebeurt. Als het scoren van testresultaten wordt vertekend door verwachtingen van degene die de test scoort (expectancy effects), wordt de prestatie van een participant op een negatieve of positieve manier beïnvloed.

- Zorg ervoor dat de testresultaten vertrouwelijk bewaard blijven. Het is de verantwoordelijkheid van psychologen en andere deskundigen dat de testresultaten alleen met toestemming van de participant worden bekendgemaakt.

Richtlijnen voor het interpreteren van testresultaten

- Gebruik testresultaten alleen voor doeleinden waarvoor ze zijn gevalideerd. Hecht geen waarde aan testresultaten waar geen wetenschappelijke ondersteuning voor gevonden is.

- Gebruik meerdere bronnen en types van informatie over de test. Verschillende testprocedures hebben verschillende sterke en zwakke punten. Zeker bij testresultaten die een grote impact kunnen hebben op het leven van een participant, moeten meerdere bronnen worden overwogen voordat wordt overgegaan tot een beslissing.

- Blijf dicht bij de data. Het is belangrijk dat testinterpretaties aan de hand van de data onderbouwd kunnen worden.

- Denk na over de beperkingen van de testresultaten. De ene test heeft meer error dan de andere test en het is de verantwoordelijkheid van de psycholoog om rekening te houden met de invloed die deze beperkingen kunnen hebben op de testresultaten.

- Denk na over persoonlijke factoren of bijzondere omstandigheden die invloed gehad kunnen hebben op de testresultaten. Als de participant zich bijvoorbeeld angstig of moe voelde tijdens de testafname, kunnen de testresultaten anders zijn dan dat ze participant zich tijdens testafname niet zodanig voelde.

- Overweeg verschillen tussen de steekproef en de populatie waarmee de participanten vergeleken worden.

- Bespreek de testresultaten met de participanten op een rustige en begrijpelijke manier.

Verantwoordelijkheden van de participant

Tot nu toe is dit hoofdstuk gegaan over verantwoordelijkheden van de persoon die de test afneemt bij participanten. Maar ook de participant zelf krijgt te maken met een aantal verantwoordelijkheden. Deze verantwoordelijkheden worden hieronder behandeld.

- Participanten moeten voorbereid zijn voor de testafname.

- Participanten moeten instructies, zoals het op tijd komen en het beginnen en stoppen met de test op vooraf bepaalde tijden, opvolgen.

- Participanten zijn verantwoordelijk voor het antwoorden op een zodanige manier dat hun karakteristieken en vaardigheden nauwkeurig worden gerepresenteerd. Dit houdt in dat participanten zichzelf niet sociaal wenselijk moeten antwoorden.

- Participanten mogen de test bij groepsafname niet samen met andere participanten maken.

- Participanten moeten de psycholoog inlichten als ze denken dat de resultaten niet hun ware karakteristieken weergeven.

- Participanten moeten de rechten van de testauteur respecteren.

- Participanten moeten de inhoud van een test niet bekend maken aan de buitenwereld. Er morgen geen kopieën gemaakt worden van de test omdat de betrouwbaarheid van de test anders in gevaar komt.

17. Het ontwikkelen van een psychologische test

Een gedetailleerd opzet is noodzakelijk voor het ontwikkelen van een test. Het ontwikkelen van een test wordt in dit hoofdstuk opgesplitst in vier fases, namelijk (1) test conceptualisering (2) specificatie van teststructuur en testvorm (3) standaardisatie en psychometrisch onderzoek (4) het uitvoeren van de test.

Fase 1: Test conceptualisering

In deze fase is het de bedoeling dat de testontwikkelaar(s) zoveel mogelijk informatie over het doel en gebruik van de test te weten komen. Ook wordt bij test conceptualisering een literatuurevaluatie uitgevoerd en wordt een verklaring gegeven waarom het ontwikkelen van de desbetreffende test nodig is.

Fase 1 begint met de specificatie van het te meten construct en de vaststelling van de behoefte om een nieuwe test te ontwikkelen. Omdat er ongelooflijk veel tests bestaan, moet de behoefte voor het ontwikkelen van een nieuwe test goed onderbouwd zijn. Een psycholoog moet zich hiervoor twee dingen afvragen: ‘Verbetert de test die ik wil ontwikkelen onderzoek op een bepaald gebied?’ en ‘Verbetert de test die ik wil ontwikkelen het begrip van de mens tot op een zeker hoogte?’ Het te meten construct moet duidelijk gedefinieerd worden omdat de psychologie zich snel ontwikkelt. Daarom moeten nieuwe constructen gedefinieerd worden en oude constructen gewijzigd. Tegenwoordig wordt intelligentie bijvoorbeeld anders gedefinieerd dan een eeuw geleden. Ook technologie en theorieën ontwikkelen zich snel in de psychologie. Eerst werd reactietijd bijvoorbeeld gemeten door middel van observatie en een stopwatch. Deze techniek is niet te vergelijken met de computers die reactietijd tegenwoordig op de milliseconde kunnen meten.

Nadat het construct en de behoefte voor het ontwikkelen van een nieuwe test gedefinieerd zijn, moet het gebruik en de interpretatie van de testresultaten beschreven worden. De psycholoog moet beschrijven welke doelen de testresultaten hebben. Als deze doelen moeilijk te verwoorden zijn, is het te meten construct waarschijnlijk te vaag gedefinieerd. Het weten van een doel van een test is belangrijk. Er zijn bijvoorbeeld duizenden persoonlijkheidstests, maar de ene persoonlijkheidstest meet vooral emoties en de andere meet vooral persoonlijkheid.

Nadat het gebruik en interpretatie van de testresultaten beschrijven is, wordt bepaald wie de test gebruikt en waarom. De test moet namelijk ontwikkeld worden op basis van de deskundigen die de test gaan gebruiken. Als het doel van een test bijvoorbeeld het diagnosticeren van de aanwezigheid van een klinische conditie is, zal de test waarschijnlijk door clinici of psychiaters gebruikt worden. Een test die als doel heeft het vinden van emotionele stoornissen bij kinderen, kan ontwikkeld worden om te worden gescoord door leraren.

Nadat duidelijk is wie de test gebruikt en waarom, worden de te meten constructen gedefinieerd. De constructen krijgen zowel een conceptuele als een operationele definitie. Een conceptuele definitie legt het construct uit aan de hand van voorbeelden en theorieën. Een voorbeeld van een conceptuele definitie van depressie is dat het een staat van melancholie en bedroefdheid is, die kan leiden tot hopeloosheid en anhedonie. Een operationele definitie legt specifiek uit hoe de test het construct zal gaan meten. Een voorbeeld van een operationele definitie van depressie is dat het gebaseerd is op observaties van eenzaamheid, hopeloosheid en te weinig slaap.

Nadat het construct conceptueel en operationeel gedefinieerd is, wordt bepaald of de test ook dissimulatie moet meten. Dissimulatie is het anders voordoen van jezelf zodat ware karakteristieken gemaskeerd blijven. Als het doel en gebruik van de test duidelijk is, zal duidelijk worden of een dissimulatieschaal nodig is. Een dissimulatieschaal, ook wel validiteitschaal, spoort dissimulatie op in tests. Dissimulatieschalen die worden toegepast op persoonlijkheids- en gedragstests zijn F-schalen, L-schalen en inconsistentie indexen. F-schalen worden ook wel Fake Bad schalen genoemd. F-schalen meten overdreven aanwezigheid van een symptoom. L-schalen worden ook wel Fake Good schalen genoemd omdat ze kijken hoe sociaal wenselijk participanten antwoorden. Een participant die bijvoorbeeld aangeeft nooit gevoelens van verdriet te ervaren, heeft waarschijnlijk sociaal wenselijk geantwoord. Inconsistentie indexen meten inconsistente antwoorden op items. Testresultaten worden niet betrouwbaar bevonden als een participant inconsistent antwoord op meerdere items die hetzelfde meten. Ook zijn er dissimulatieschalen die worden toegepast op vaardigheidstests. Deze schalen meten of een participant de moeite heeft genomen om zijn best te doen. Een voorbeeld hiervan is inconsistentheid tussen testresultaten en geobserveerd gedrag. Het is echter lastig om te meten of een participant moeite heeft gedaan voor de test. Symptom Validity Tests (SVTs) zijn tests die erg moeilijk lijken, maar die eigenlijk erg makkelijk zijn. Participanten die moeite doen voor het beantwoorden van items op een SVT hebben over het algemeen de meeste vragen goed. Forced-Choice Tests (FCTs) zijn bijvoorbeeld meerkeuze tests. Als de participant een prestatie op een FCT heeft van lager dan twee standaarddeviaties onder het gemiddelde, gaat men ervan uit dat de resultaten vertekend zijn.

Fase 2: Specificatie van teststructuur en testvorm

Fase 2 begint met het bepalen van het leeftijdsbereik dat geschikt is voor de test. Jonge kinderen hebben bijvoorbeeld meer instructies nodig van de testafnemer dan adolescenten. Tests waarbij een kind testitems moet lezen en beantwoorden worden vaak bij kinderen vanaf 9 jaar afgenomen.

Nadat het leeftijdsbereik is bepaald, wordt het testformaat gekozen en beschreven. Zal de test afgenomen bij groepen of bij individuen? Zal de test afgenomen worden op papier of ip de computer? Aan de hand van het testformaat wordt de teststructuur beschreven. De teststructuur hangt voor het grootste deel af van de te meten constructen. De teststructuur beschrijft de volgorde en organisatie van subtests en items. Hierbij is het belangrijk dat er ondersteuning is voor de gekozen volgorde en organisatie van subtests en items.

Nadat de teststructuur bekend is, wordt een Tabel of Specifications (TOS, zie hoofdstuk Q) opgesteld. Een TOS laat zien wat de samenhang is tussen de definities van het construct en de inhoud van de test. De ene onderzoeker gebruikt absolute getallen in een TOS, de andere onderzoeker gebruikt percentages. Oorspronkelijk werd de TOS ontwikkeld voor het gebruik bij vaardigheidstests, maar ze zijn ook goed bruikbaar is persoonlijkheid- en gedragstests.

Bij het meten van depressie is het bijvoorbeeld handig om te weten of de testitems representatief zijn voor het brede domein van depressieve symptomen. De TOS helpt dan bij het bedenken van items die alle cellen in de tabel representeren.

Na het opmaken van de TOS worden het itemformaat ontwikkeld. Verschillende itemformaten zijn van toepassing op verschillen doelen. Om gevoelens en gedachten te meten, kan bijvoorbeeld het best gebruik gemaakt worden van zelfrapportage. Binnen het zelfrapportage domein bestaan ook weer verschillende formaten. Op de ene zelfrapportage schaal kunnen antwoorden gegeven worden als juist – onjuist, terwijl op de andere zelfrapportage schaal antwoorden gegeven kunnen worden als nooit – soms – vaak – bijna altijd. Bij het schrijven van nieuwe items voor een test is het raadzaam om twee keer zoveel items te maken als je denkt dat uiteindelijk nodig zullen zijn in de test.

Nadat het itemformaat is ontwikkeld worden de uiteindelijke items bepaald. Bij het bepalen van de uiteindelijke items moet rekening gehouden worden met de volgende procedures:

- Zorgt dat er een groep deskundigen aanwezig is van verschillende geslacht met verschillende etnische en religieuze achtergrond. Deze groep kan de items controleren op culturele onduidelijkheden of aanstootgevendheid.

- Bedenk een plan om de items te testen. Neem bijvoorbeeld een kleine steekproef uit de doelpopulatie en neem de test af.

- Gebruik na de proefafname statistische methoden om items te selecteren.

- Gebruik de statistische methoden om items te meten die een vooroordeel hebben met betrekking tot ras en geslacht.

Fase 3: Standaardisatie en psychometrisch onderzoek

In fase 3 beschrijft de auteur van de test de standaardisatie die wordt toegepast. Ook beschrijft de auteur de manier waarop hij de betrouwbaarheid en validiteit van de test gaat ondervangen.

Eerst moet de doelpopulatie bedacht worden. Pas daarna kan een plan gemaakt worden om een representatieve steekproef te trekken. Het beste is om een willekeurige steekproef te trekken van de doelpopulatie, maar dit is bijna nooit mogelijk. Niet alle individuen uit de populatie zijn altijd bekend en de individuen kunnen niet gedwongen worden om mee te doen aan het onderzoek. Ook moet de gepaste grootte van de steekproef worden bepaald. Veel factoren zijn op de grootte van de steekproef van toepassing. Hoe groter de steekproef, hoe beter de resultaten naar de populatie te generaliseren zijn. Maar een grotere steekproef is ook duurder. Tests die in de klinische wereld gebruikt gaan worden, hebben meer nauwkeurige steekproeven nodig omdat de testresultaten een grote impact kunnen hebben op de participanten.

Na het bepalen van de doelpopulatie en de steekproef, moet een keuze gemaakt worden welke scores gebruikt gaan worden. Verschillende testscores beantwoorden namelijk verschillende vragen. Eerst moet dan ook bepaald worden welke testscore antwoord geeft op welke vraag. Hieronder worden de meest gebruikte scores behandeld.

- Ruwe scores geven een absolute waarde die niet goed interpreteerbaar is.

- Standaardscores vergelijken de prestatie van een individu met de prestatie van andere individuen.

- Rasch of IRT-gebaseerde scores worden gebruikt om de verandering in een latent kenmerk te meten over tijd.

- Criteriumgerichte scores vergelijken de prestatie van een individu met een gewenst niveau van bekwaamheid.

Na het bepalen van het type scores, wordt onderzoek gedaan naar de betrouwbaarheid van de test. De betrouwbaarheid wordt meestal berekend door interne betrouwbaarheidscoëfficiënten. De test moet stabiel zijn over tijd. Dit is de test-hertest betrouwbaarheid. Ook moet de validiteit van een test bekeken worden. In hoofdstuk E is uitgebreid beschreven welke vormen van validiteit er zijn en waar rekening mee gehouden moet worden bij het meten van validiteit.

Na het bepalen van de betrouwbaarheid en validiteit, wordt gekeken of er speciale onderzoeken zijn die nodig zijn voor ondersteuning van de voorgestelde test. Daarna worden de componenten van de test in een lijst opgeschreven, zodat vastgesteld kan worden dat alle benodigde aspecten in de test verwerkt zijn.

Fase 4: Het uitvoeren van de test

In fase 4 voert de testauteur de test daadwerkelijk uit. Voordat de test wordt uitgevoerd, wordt eerst de inhoud en structuur van de test weer geëvalueerd. Na deze evaluatie wordt een handleiding voor de test gemaakt. In de testhandleiding staat informatie over het gebruik, doel, theorieën, instructies en interpretaties van de test. Als de testauteur wil dat zijn test gepubliceerd wordt, moet hij een voorstel doen bij een geschikte uitgever. Uitgevers verschillen in richtlijnen die ze hanteren voor het accepteren van tests.

Access:

Public

Join WorldSupporter!

Join with an account for more service, or become a member with full access and support of WordSupporter

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Search other summaries?

Associate with your Field of Study

Search Summaries or Notes

Start using Summaries

Add a Summary

Follow the author: Vintage Supporter

Vintage Supporter

More contributions of WorldSupporter author: Vintage Supporter:

Comments, Compliments & Kudos:

Add new contribution

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams
Using and finding summaries, study notes en practice exams on JoHo WorldSupporter
Quicklinks to fields of study for summaries and study assistance

Online access to all summaries, study notes en practice exams

Check out: Register with JoHo WorldSupporter: starting page (EN)
Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)

Using and finding summaries, study notes en practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

Use the menu above every page to go to one of the main starting pages
- Starting pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
Use the topics and taxonomy terms
- The topics and taxonomy of the study and working fields gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
Check or follow your (study) organizations:
- by checking or using your study organizations you are likely to discover all relevant study materials.
- this option is only available trough partner organizations
Check or follow authors or other WorldSupporters
- by following individual users, authors you are likely to discover more relevant study materials.
Use the Search tools
- 'Quick & Easy'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject.
- The search tool is also available at the bottom of most pages

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Check out: Why and how to add a WorldSupporter contributions
JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form

Quicklinks to fields of study for summaries and study assistance

Field of study

Access level of this page

Public
WorldSupporters only
JoHo members
Private

Statistics

971