Boeksamenvatting bij Psychological testing; History, principles and applications - Gregory

Welke grondbeginselen en toepassingen horen bij psychologisch testen? - Chapter 1
Hoe hebben psychologische testen er door de eeuwen heen uit gezien? - Chapter 2
Wat is het belang van normen en betrouwbaarheid bij het doen van assessments? - Chapter 3
Wat is het belang van validiteit en testontwikkeling bij het doen van assessments? - Chapter 4
Welke theorieën over individuele intelligentie- en prestatietests zijn er? - Chapter 5
Hoe worden 'speciale populaties' getest? - Chapter 7
Waar vinden persoonlijkheidstesten hun oorsprong? - Chapter 8
Hoe gaat de assessment van normaliteit en menselijke kwaliteiten in zijn werk? - Chapter 9
Hoe werkt neuropsychologische assessment en screening? - Chapter 10
Wanneer en hoe worden industriële, beroeps- en carrière assessments gedaan? - Chapter 11
Waar ligt de toekomst van psychologische testen? - Chapter 12

Welke grondbeginselen en toepassingen horen bij psychologisch testen? - Chapter 1

Onderwerp 1A: Wat is de aard en toepassing van testen?

Consequenties van testen

Gedurende de hele levensduur worden er testen afgenomen bij mensen zoals de Apgar-test voor het meten van de gezondheid van zuigelingen, rij- en schoolexamens bij pubers, ontwikkelingstesten, etc. De uitkomst van alle psychologische testen kan een grote invloed hebben op de levensloop. Een gedegen kennis van testen is dus noodzakelijk voor iedereen in het werkveld van de psychologie. Iemand die binnen de psychologie of het onderwijs testen ontwikkelt en evalueert noemen we een psychometrist. Persoonlijkheids- en intelligentietesten zijn op dit moment de meest essentiële testen binnen de psychologie.

Definitie van een test

Testen kunnen heel verschillend zijn in hun doeleinden en opzet maar over het algemeen delen ze de volgende kenmerken.

Een test is een gestandaardiseerde procedure voor het inventariseren van gedrag en het beschrijven hiervan door middel van categorieën of scores. Er zijn een aantal definiërende kenmerken van testen. Een test is ten eerste gestandaardiseerd, wat wil zeggen dat de procedures voor het afnemen ervan gelijk zijn binnen verschillende settings. Ten tweede is een test gebaseerd op een steekproef van het gedrag dat je wilt meten. De items binnen de test hoeven niet gelijk te zijn aan het gedrag dat je bekijkt, zo lang ze maar relevant zijn. Belangrijk is dat de gedragingen in de steekproef het gedrag, dat voorspeld wordt met de test, goed representeert. Ten derde moet het mogelijk zijn om uit de test categorieën of scores af te leiden. Hierbij moet altijd rekening gehouden worden met een bepaalde mate aan meetfout: X=T+e, waarbij X de geobserveerde score is, T de ware score is en e de error is. Een testontwikkelaar moet proberen de error zo klein mogelijk te maken.

Ook moet men niet vergeten dat het abstracte kenmerk dat gemeten wordt door een test niet een fysiek ‘iets’ in de wereld representeert. Ten vierde is het noodzakelijk een norm te vestigen waarmee scores van deelnemers vergeleken kunnen worden. Dit gebeurt door middel van een gestandaardiseerde steekproef, deze steekproef moet representatief zijn voor de populatie waar de test voor bedoeld is. De norm geeft aan wanneer mensen afwijken. Ten slotte zijn testen bedoeld om andere gedragingen te voorspellen. Een test kan dus meer dan één doel hebben. Om te weten of het gedrag ook echt voorspeld wordt door de test wordt er gebruik gemaakt van validatieonderzoek, maar dat kan pas worden gedaan nadat de test is uitgebracht.

Ander onderscheid bij testen

De meerderheid van de testen zijn norm-referenced, waarbij de score van elke deelnemer geïnterpreteerd wordt in vergelijking met een relevante gestandaardiseerde steekproef. Andere testen zijn criterion-referenced, waarbij het doel is om vast te stellen waar een deelnemer staat met betrekking tot duidelijk gedefinieerde criteria. Schoolexamens vallen bijvoorbeeld onder deze categorie. Hierbij vergelijk je dus niet met een referentiegroep.

Een ander belangrijk onderscheid dat gemaakt wordt is tussen assessment en testen. Assessment is een term die gebruikt wordt voor meer omvattend onderzoek en verwijst naar het gehele proces van het verzamelen van informatie over een persoon, op basis waarvan iets gezegd kan worden over eigenschappen en gedrag. Tests zijn dus slechts één bron van informatie voor een geheel assessment proces.

Verschillende soorten testen

Testen kunnen grofweg verdeeld worden in groepstesten, die grotendeels met pen en papier en bij meerdere deelnemers tegelijk kunnen worden afgenomen en individuele testen, die één-op-één worden afgenomen. Hieronder worden de verschillende categorieën testen besproken, die in verschillende vormen voorkomen (norm-referenced, criterion-referenced, individuele en groepstesten).

Intelligentietesten: hierbij wordt het algemene intellectuele niveau van een individu gemeten, gebaseerd op de in een bepaalde cultuur belangrijke vaardigheden. Er zijn subscores, maar er wordt meestal naar de algemene score gekeken. De test bestaat over het algemeen uit een heterogene combinatie van items die verschillende aspecten van de intelligentie meten.
Bekwaamheidstesten: hierbij worden één of meer specifiekere aspecten van vaardigheid gemeten. Dit soort testen wordt vaak gebruikt om succes op een bepaalde baan of studie te voorspellen.
Prestatietesten: hierbij wordt de mate van leren, succes of prestatie van een individu met betrekking tot een bepaald onderwerp gemeten. Het verschil met de bekwaamheidstest is het doel en de inhoud van de test. Prestatietesten meten het verloop van de prestaties van individuen, bekwaamheidstesten meten het niveau van iemand op het testmoment.
Creativiteitstesten: hierbij wordt de vaardigheid om nieuwe ideeën, inzichten of creaties te ontwikkelen gemeten. Voor deze testen moet je divergent kunnen denken: verschillende oplossingen zoeken voor een complex probleem. Er wordt nog wel eens getwijfeld of creativiteit niet een vorm is van toegepaste intelligentie.
Persoonlijkheidstesten: hierbij worden kenmerken of gedragingen gemeten die de individualiteit van een persoon vaststellen.

Interesse-inventarissen: hierbij wordt de voorkeur van een individu voor bepaalde activiteiten of onderwerpen gemeten.
Gedragsmatige procedures: hierbij worden de antecedenten en consequenties van gedrag gemeten.
Neuropsychologische testen: deze worden gebruikt voor het onderzoeken van personen met mogelijke hersenschade. Het zijn lange en intensieve één-op-één testen.

Verschillende soorten gebruik van testen

Er zijn 5 manieren op psychologische testen te gebruiken:

Classificatie: het toewijzen van personen aan bepaalde categorieën. Dit kan onderverdeeld worden in plaatsing (het toewijzen aan verschillende programma’s op basis van vaardigheden), screening (korte testen om personen met speciale behoeften of kenmerken te identificeren), certificatie (waarbij het halen van een test bepaalde privileges oplevert) en selectie (waarbij certificatie toegang verleent tot ‘besloten’ kringen zoals de universiteit of een vereniging).
Diagnose: het vaststellen van de aard en oorzaak van abnormaal gedrag en het classificeren van het gedrag binnen een geaccepteerd diagnostisch systeem. Diagnose moet meer zijn dan een label, maar er moet met achterliggende informatie ook rekening worden gehouden. De diagnose wordt ook gebruikt bij de planning van het eventuele behandelplan.
Zelfkennis: het verkrijgen van meer inzicht in jezelf door middel van een test.
Evaluatie van educatieve of sociale programma’s: het evalueren van het succes van bepaalde programma’s.
Onderzoek: het testen van hypothesen door middel van tests.

De doelen van testen overlappen vaak, wat het moeilijk maakt om onderscheid te maken. Veel testen kunnen ook voor meerdere doeleinden gebruikt worden binnen één afname.

Er zijn verschillende factoren die invloed kunnen hebben op de betrouwbaarheid van een test. Deze factoren worden hieronder besproken.

Gestandaardiseerde procedures bij testafname

Niet-gestandaardiseerde testen kunnen de resultaten significant beïnvloeden, waardoor deze onbruikbaar worden. Daarnaast kunnen ze niet valide zijn. In sommige gevallen is het echter wel gewenst, soms zelfs noodzakelijk, om flexibel te zijn met de procedure. Dit is bijvoorbeeld het geval bij deelnemers met een handicap. Afwijkingen van de standaard moeten echter altijd opzettelijk en goed doordacht zijn.

Gewenste afnameprocedures

Voor individueel testen is het belangrijk dat de proefleider goed bekend is met het materiaal, de instructies die hij/zij moet geven en de manier waarop details en scores genoteerd worden. Daarnaast is het zeer belangrijk dat alle deelnemers de geschreven en gesproken instructies kunnen begrijpen. Ook moet rekening gehouden worden met eventuele beperkingen van de deelnemer in bijvoorbeeld gehoor, zicht, spraak of motorische controle.

Voor mensen met verminderd gehoor is het in eerste instantie belangrijk dat de proefleider hiervan op de hoogte is en hier goed op inspeelt, zodat de testresultaten niet beïnvloed worden. Net als bij zichtbeperking geven de meeste volwassenen dit uit zichzelf aan maar bij kinderen komt het vaak voor dat ze eventuele beperkingen niet noemen. Ten slotte moet rekening gehouden worden met mogelijke beperkingen in motorische controle of spraak. Dit is belangrijk bij tests waarbij gebruik wordt gemaakt van tijd-reacties. Testen kunnen een klein beetje worden aangepast voor mensen met een beperking zonder dat de validiteit of betrouwbaarheid van de test achteruit gaat. Soms zijn er ook speciale vormen van een test die inspelen op een bepaalde beperking.

Ook voor groepstesten zijn er een aantal belangrijke punten die in acht genomen moeten worden door de proefleider. Zo is het bij testen met een tijdslimiet belangrijk dat er genoeg tijd beschikbaar is en dat deze goed bijgehouden wordt. Daarnaast moeten instructies duidelijk en niet te snel worden voorgelezen en niet worden geparafraseerd. Ook achtergrondgeluiden moeten zoveel mogelijk beperkt worden. Bovendien is het belangrijk om duidelijk aan te geven of gokken, als de deelnemer het antwoord niet weet, consequenties heeft. Veel testen hebben een ingebouwde gok-correctie.

Invloeden van de proefleider

Het is belangrijk dat de proefleider voor ‘rapport’ zorgt, een goede verstandhouding met de deelnemers creëert en voor een comfortabele en motiverende sfeer zorgt. Dit verhoogt de coöperatie van de deelnemer. Uit onderzoek blijken tegenstrijdige resultaten over de invloed van ras, ervaring en geslacht van de proefleider op de resultaten. In sommige unieke gevallen blijkt dit wel degelijk van invloed te zijn.

Achtergrond en motivatie van de deelnemer

Verschillende aspecten van de deelnemer kunnen de testresultaten beïnvloeden. Testangst verwijst naar alle gedragsmatige reacties die meekomen met zorgen over mogelijk falen van een test. Uit onderzoek blijkt dat testangst zowel een oorzaak als consequentie is van slechte prestatie op testen. Vooral bij testen met tijdsdruk kunnen de resultaten van deelnemers met testangst sterk beïnvloed worden.

Daarnaast komt het soms voor dat deelnemers valse resultaten forceren om een bepaalde testuitslag te krijgen. Ook moet er rekening worden gehouden met de motivatie van de deelnemer. Een ongemotiveerde deelnemer kan zorgen voor onbetrouwbare resultaten.

Onderwerp 1B: Wat omvat de ethiek van testen en wat zijn de sociale aspecten van testen?

Professionele standaarden voor testen

Meestal worden testen op verantwoordelijke wijze uitgevoerd maar er zijn natuurlijk ook uitzonderingen waarbij het onverantwoordelijk toepassen of uitwerken van een test soms desastreuze gevolgen kan hebben. Daarom zijn er richtlijnen voor verantwoordelijk testgebruik ontwikkeld door professionele organisaties zoals de American Psychological Association (APA). Hieronder worden achtereenvolgens de verantwoordelijkheden van testontwikkelaars en testgebruikers beschreven.

Verantwoordelijkheden van testontwikkelaars

Uitgevers van testen moeten met verschillende factoren rekening houden. Ten eerste moeten testen aan alle richtlijnen voldoen voor ze worden uitgegeven. Zo is het bijvoorbeeld verplicht om technische en gebruikershandleidingen mee te leveren met de test. Ten tweede moet eventuele marketing en adverteren van de test op accurate en oprechte wijze plaatsvinden. Een test mag pas gepubliceerd worden wanneer de betrouwbaarheid en validiteit onderzocht is. Bij de test moet vermeld zijn op wat voor manier de betrouwbaarheid en validiteit onderzocht is en wat daarvan de uitkomsten waren. Ook moet duidelijk zijn wie de test mag gebruiken en welke kwalificaties iemand hiervoor moet bezitten. Vaak zijn voor gebruik bepaalde certificaties benodigd.

Verantwoordelijkheden van testgebruikers

Onder andere de APA heeft ethische richtlijnen en professionele standaarden gepubliceerd voor testgebruik om het welzijn van de deelnemers en het netwerk om hem/haar heen te garanderen. Hieronder valt bijvoorbeeld de richtlijn dat testen altijd in het voordeel moet zijn van de cliënt. Vertrouwelijkheid is daarnaast een plicht van de proefleider, hoewel deze ook verplicht is ernstige bedreigingen voor het slachtoffer of andere te rapporteren.

Daarnaast is het noodzakelijk dat de proefleider de benodigde expertise heeft om een test af te nemen. Informed consent is een andere belangrijke voorwaarde. Dit houdt in dat alle deelnemers van te voren ingelicht worden over het onderzoek en daarvoor hun toestemming verlenen. Verder moet rekening gehouden worden met wat de zorgstandaard is voor een bepaald geval, oftewel welke methode of test op dat moment het meest gebruikt wordt en het meest geaccepteerd is.

Zo moet men bijvoorbeeld oppassen met het gebruik van gedateerd materiaal. Daarnaast moeten testresultaten op correcte wijze medegedeeld worden met de deelnemer, waarbij effectieve en constructieve feedback gegeven wordt. Hierbij mag niet buiten de grenzen van de expertise van de tester worden getreden. Het psychologisch rapport dat over het onderzoek wordt geschreven moet direct en concreet zijn.

Dit is van belang omdat de inhoud van het rapport impact kan hebben op het leven van de deelnemer, bijvoorbeeld wanneer het rapport wordt opgevraagd door een werkgever. Ten slotte is respect en erkenning van individuele verschillen erg belangrijk bij testgebruik.

Het testen van culturele en linguïstische minderheden

Psychologische testen zijn voornamelijk gericht op westerse bevolkingsgroepen. Het kan niet zonder meer aangenomen worden dat bestaande testen ook geschikt zijn voor alle bevolkingsgroepen. Vanaf de jaren 30 is er een opkomst in cultuur-sensitief testen, maar het werk is nog lang niet compleet. Andere culturen kunnen ander normen, waarden of overtuigingen hebben. Dit kan ervoor zorgen dat zij anders tegen een test aankijken of anders reageren op de resultaten.

De invloed van culturele achtergrond op testresultaten

Uit onderzoek blijkt dat mensen van verschillende culturele achtergrond testen op verschillende manieren interpreteren en invullen. Zo blijkt bijvoorbeeld dat inheemse volkeren in de VS een andere conceptie van tijd laten zien dan de witte middenklasse in Amerika.

Daarnaast blijkt dat bijvoorbeeld Afro-Amerikanen kwalitatief anders reageren op testen dan Anglo-Amerikanen; kinderen van Afro-Amerikaanse afkomst bleken minder spontaan uit te weiden met betrekking tot hun antwoorden. Soortgelijke verschillen zijn ook zichtbaar bij volwassenen. Daarnaast kan bij testen het gevaar van stereotypering bestaan, waarbij de deelnemers onbewust het negatieve stereotype bevestigen dat over hun eigen groep bestaat. Dit wordt ook wel stereotype threat genoemd. Testscores zijn niet altijd hetzelfde bij individuen maar komen tot stand binnen een sociaalpsychologisch veld dat beïnvloed wordt door verschillende culturele factoren.

Onbedoelde effecten bij belangrijke testen

Een ander effect dat een rol kan spelen bij testen is fraude. Dit speelt met name bij testen waarvan de resultaten veel invloed hebben, bijvoorbeeld bij een selectie voor een baan of studie. Massale fraude komt sporadisch voor. Echter, ook fraude met behulp van ouders of leraren komt voor.

Een ander aspect van fraude wordt beschreven door het Lake Wobegon Effect, wat verwijst naar het feit dat op veel scholen meer dan 50% van de leerlingen bovengemiddelde cijfers hebben. Dit komt voornamelijk doordat onze maatschappij veel nadruk legt op prestatie en het uitblinken van scholen. Leraren helpen de leerlingen te frauderen door hen onder andere te coachen op toetsantwoorden, antwoordformulieren te veranderen of meer tijd te geven voor toetsen.

Het lijkt dus dat de nationale drang naar prestatietests voor selectie en evaluatie ongewenst gedrag in de hand helpt, maar het is niet duidelijk hoe groot en verspreid het probleem is.

Hoe hebben psychologische testen er door de eeuwen heen uit gezien? - Chapter 2

Onderwerp 2A: Wat is de oorsprong van psychologisch testen?

Het begin van testen in het China van 2200 BC

Al lang geleden werden in China psychologische testen afgenomen door de regering om de fitheid van officiers te testen. Hoewel er enige overeenkomsten zijn met het moderne testen, waren de testen in het oude China onnodig afmattend en bovendien niet gevalideerd.

Fysiognomie, frenologie en de psychograaf

Fysiognomie duidt op het idee dat we het karakter van mensen kunnen aflezen aan hun uiterlijk, met name het gezicht. Hoewel dit idee allang achterhaald is, representeert het wel een van de vroege vormen van psychologisch testen in de 4^e eeuw voor Christus. Auteurs die over dit onderwerp schreven waren onder andere Aristoteles en Lavater. Een speciale vorm van fysiognomie is frenologie wat duidt op het ‘lezen’ van knobbels op het hoofd. Deze theorie is ontwikkeld door Gall. Lavery ontwikkelde in de jaren 30 een machine om deze bultjes te lezen, die hij de Psychograaf noemde.

Het experimentele tijdsperk

Experimentele psychologie maakte een groeispurt in Europa aan het eind van de 19^e eeuw. Dit was het begin van het gebruiken van objectieve metingen. Hoewel dit een vooruitgang was, bestonden er ook nog veel misvattingen zoals dat intelligentie afgemeten kon worden aan sensorische processen. Wundt richtte het eerste psychologische laboratorium op in 1879 in Leipzig. Hij deed de eerste pogingen om tot empirische analyses te komen die individuele verschillen verklaren.

Galton introduceerde de nieuwe experimentele psychologie in Groot-Brittannië. Hij werd geïnspireerd door het idee dat alles meetbaar is en ontwierp hier verschillende technieken voor. Een belangrijke ontwikkeling in zijn werk is het verzamelen van grote hoeveelheden data bij duizenden proefpersonen. Bovendien richtte hij zich op het meten en onderzoeken van persoonlijke verschillen in zowel fysieke als gedragsmatige kenmerken. Hij stelde intelligentie te kunnen meten uit bijvoorbeeld reactietijden. Dit is natuurlijk te simpel maar het gaf wel aan dat objectieve tests konden worden gemaakt en dat betekenisvolle scores kunnen worden behaald door gestandaardiseerde procedures.

Cattell (1860-1944) bracht de experimentele psychologie van Wundt en Galton naar de VS. Samen met Galton verdiepte hij zich in individuele verschillen door middel van verschillende mentale testen. Een van zijn studenten was Wissler (1901) die een grote invloed zou hebben op de vroege geschiedenis van psychologisch testen. Hij verzamelde mentale testscores en academische cijfers om te laten zien dat de testresultaten academische prestatie konden voorspellen. Dit bleek echter niet statistisch significant. Een ander probleem was dat er slechts heel beperkte correlaties bestonden tussen de mentale testen onderling. Na de resultaten van Wissler werd het gebruik van reactietijd en sensorische discriminatie afgeschaft als maat voor intelligentie. Het gat dat ontstond na de Galtonische traditie werd gevuld door Binet, die zijn intelligentieschaal introduceerde in 1905. Vanaf Binet werd er vaker gebruik gemaakt van meer gevoeligere en betrouwbare metingen.

Rating-schalen

Rating-schalen worden op grote schaal gebruikt in de psychologie. De oorsprong gaat helemaal terug tot de tijd van Galton, een dokter uit de tweede eeuw. Hij geloofde dat er verschillende ‘vloeistoffen’ in het lichaam waren (gele gal, zwarte gal, flegma en bloed), waarvan de verhouding de gezondheid van een individu bepaalden. Hij hanteerde voor de aanwezigheid van de vloeistoffen een 9-puntsschaal. De eerste die rating-schalen ontwierp en toepaste op psychologische variabelen was de Duitse jurist Thomasius (1655-1728). Hij ontwierp een persoonlijkheidstheorie op basis van vier dimensies die hij afnam bij aankomende rechters op een 12-puntsschaal. Daarna kwam het toepassen van rating-schalen steeds meer in gebruik in het psychologische veld.

Veranderende opvattingen van mentale retardatie

Voordat Binet zijn intelligentietesten ontwikkelde in de vroege 20^e eeuw om kinderen met mentale achterstand te identificeren, was er weinig interesse in mentale retardatie in het onderwijs. De Westerse wereld van voor de late 19^e eeuw behandelde psychiatrisch en mentaal beperkte individuen nog op vijandige en achteloze wijze. In de 19^e eeuw werd er steeds meer onderscheid gemaakt tussen mentale retardatie (idiocy) en psychiatrische stoornissen (dementia).

Er kwam een nieuw humanisme op met betrekking tot individuen met intellectuele beperkingen. Esquirol (1772-1840) was de eerste die het verschil beschreef. Hij dacht dat mentale retardatie meer een levenslang ontwikkelingsfenomeen was en mentale stoornissen een meer plotseling begin hadden tijdens de volwassenheid. Tevens dacht hij dat mentale retardatie niet behandelbaar was, terwijl stoornissen dat wel waren. Hij legde sterk de nadruk op taalvaardigheid voor de diagnose van mentale retardatie, dat zie je ook nu terug in deze testen. Hij opperde ook het eerste classificatiesysteem voor mentale retardatie:

het gebruik van enkel korte zinnen;
het gebruik van enkel eenlettergrepige woorden;
geen spraak maar alleen geluiden.

Seguin heeft misschien nog wel meer bereikt doordat hij een educatief programma heeft opgezet voor mensen met mentale retardatie. Hij schreef een boek over deze behandeling en daarin kwam hij zelfs in de buurt van wat wij nu gedragsmodificatie noemen.

Binets vroege onderzoek naar zijn intelligentietest

Binet ontwierp de eerste moderne intelligentietest in 1905. Belangrijke invloeden op zijn uitvinding waren zijn achtergrond in geneeskunde, herstel van eerdere slordige experimentele procedures en scepticisme wat betreft de tijdsgeest van de experimentele psychologie. Bovendien was hij een fervent experimentalist en gebruikte zijn twee dochters voor zijn onderzoek naar intelligentietesten.

Binet en testen op hogere mentale processen

Binet en zijn assistent Henri publiceerden in 1896 een artikel over het belang van het testen op intelligentie door middel van hogere psychologische processen in plaats van de elementaire sensorische processen. In 1904 stelde de regering in Parijs een commissie aan om te beslissen over educatieve maatregelen voor kinderen die niet konden profiteren van het reguliere onderwijs. Deze commissie besloot dat deze kinderen door middel van onderzoek zouden moeten worden geïdentificeerd. Als gevolg hiervan ontwikkelden Binet en Simon in 1905 de eerste formele schalen voor het meten van intelligentie. Deze testen waren in eerste instantie bedoeld om kinderen met zeer lage intelligentie te classificeren. De test was gericht op verbale vaardigheden. Het was slechts mogelijk om een totale score te verkrijgen en de test was dan ook alleen bedoeld voor classificatie en niet voor metingen.

De herziene schalen en de opkomst van IQ

In 1908 publiceerden Binet en Simon een revisie van de eerdere intelligentieschaal. Een belangrijke innovatie van deze test was dat het concept van mentaal niveau werd geïntroduceerd. De test werd afgenomen bij normgroepen bestaande uit normale kinderen waardoor het mogelijk werd de test toe te spitsen op verschillende leeftijdsgroepen. Ook zetten Binet en Simon een ruw scoringssysteem op voor elke leeftijdsgroep. In 1911 publiceerden ze bovendien een schaal voor volwassenen. Hoewel Binet waarschuwde niet teveel waarde te hechten aan de uitkomst van zijn testen, kwamen mensen al gauw met het idee van ‘mentale leeftijd’. Dit omschreef welke score iemand van een bepaalde leeftijd zou moeten hebben, waardoor een kind van 6 met een mentaal niveau van een kind van 3 omschreven werd als ‘drie jaar achterlopend’. In 1916 kwam Terman met de Stanford-Binet, een succesvolle herziening van de eerdere schalen. Ook stelde hij voor om het intelligentiequotiënt te vermenigvuldigen met honderd. Hiermee was het concept van IQ geboren. Gedurende de ontwikkeling van deze test kwam men er ook achter dat de subtesten niet geschikt waren voor alle culturen en dat aan intelligentie mogelijk een cultureel component verbonden zat.

Onderwerp 2B: Wat omvat de beginfase van testen in de Verenigde Staten?

Naar aanleiding van de Binet-Simon schalen realiseerden mensen zich de significantie van de uitvinding voor andere sociale deelgebieden.

Vroeg gebruik en misbruik van testen in de VS

In 1906 paste Goddard de Binet-Simon schaal aan voor gebruik bij Amerikaanse zwakzinnige kinderen. In 1911 paste hij deze toe bij normale kinderen, waaruit bleek dat 3% (een onwaarschijnlijk hoog percentage) van de ondervraagden onder zijn definitie van ‘zwakzinnig’ viel. Volgens hem waren mensen zwakbegaafd als hun mentale leeftijd vier jaar achterliep op hun werkelijke leeftijd. Goddard was van mening dat deze kinderen gescheiden zouden moeten worden van de samenleving zodat ze niemand zouden ‘aansteken’.

In 1910 werd Goddard uitgenodigd op Ellis Island om het onderzoeken van immigranten effectiever te maken. Hij raakte overtuigd dat het aantal zwakzinnigen onder de immigranten veel hoger lag dan eerst werd gedacht. Hij stelde daarom experts aan om intelligentietesten af te nemen aan de immigranten.

Hoewel Goddard een van de meest invloedrijke psychologen van begin 20^e eeuw is, wordt hij door moderne auteurs vaak overgeslagen. Mogelijk komt dit doordat Goddard intelligentie als simpelweg erfelijk zag en dat hij zwakzinnigheid zag als oorzaak voor de meeste sociale problemen. De voornaamste reden is echter het misbruik dat Goddard maakte van de intelligentietesten. De versies van de Binet-Simon die hij toepaste waren meerdere malen vertaald en afgenomen bij verwarde immigranten die net de oversteek over de Atlantische oceaan hadden doorstaan. Vervolgens interpreteerde hij de resultaten volgens de originele Fransen normen. De zwakzinnigheidsratio’s die hij op deze manier vond liepen op tot 83% per culturele groep. De resultaten van zijn testen kwamen dan ook sterk overeen met de sociale ideeën in die tijd. Hoewel hij jaren later terugkwam op zijn ideeën, hadden zijn resultaten toen allang bijgedragen aan restrictie van immigratie. Daarom is het belangrijk om te onthouden dat zelfs vooraanstaande personen binnen geaccepteerde normen psychologische tests kunnen misbruiken. Er moet altijd rekening worden gehouden met de sociale ideologieën van de tijd waarin de uitspraken worden gedaan.

In de jaren '30 introduceerde Hollingworth het gebruik van de Stanford-Binet voor het testen op begaafdheid van kinderen. Hollingworth was een idealist en stelde maatregelen voor ten behoeven van extra financiële steun voor begaafde kinderen. Ook was zij actief in de feministische beweging; zo was ze van mening dat gender-verschillen in intelligentie en prestatie te wijten waren aan sociale en culturele invloeden.

De herziene versie van de Binet-schalen door Stanford (1857-1956), de Stanford-Binet, was op veel punten een verbetering. Naast de introductie van het IQ zoals we dat nu kennen, zorgde de herziening ervoor dat de test geschikt werd voor zwakzinnigheid, kinderen, normale en begaafde volwassenen.

Daarnaast werden er duidelijke instructies opgesteld voor de afname en werd er op zorgvuldige wijze een steekproef voor de standaardisatie samengesteld. Nieuwe tests werden gevalideerd op de correlatie met de Stanford-Binet test. De Stanford-Binet bleef de standaard op het gebied van intelligentietesten gedurende tientallen jaren, ook nadat de Wechsler-schaal was gekomen. De Wechsler-schaal werd een populair alternatief omdat het meer dan een enkele, globale IQ-score gaf zoals bij de Stanford-Binet test. De Weschler-schaal gaf zowel een verbaal als een non-verbale score.

Groepstesten en de classificatie van WOI legerrekruten

Pyle (1913) was een van de eerste die groepstesten voor schoolkinderen ontwikkelde in de VS. De groepstesten werden echter maar langzaam populair, met als voornaamste reden de hoeveelheid werk die het handmatig scoren met zich meebracht.

In 1917 stelde Yerkes een commissie aan om een groepsintelligentietest te ontwikkelen om legerrekruten te testen op intelligentie, met als doel classificatie en toewijzing. Twee testen werden ontwikkeld: de Army Alpha en de Army Bèta. De opzet en inhoud van deze testen had veel invloed op het veld van groepstesten.

De Army Alpha en Bèta examens

De Alpha was gebaseerd op het werk van Otis (1918) en bestond uit acht verbale testen voor gemiddelde en hoog-functionerenede rekruten. De Army Bèta was non-verbaal en bedoeld voor gebruik bij ongeletterden en rekruten met een andere moedertaal dan Engels. De Bèta bestond uit verschillende visueel-perceptuele en motorische testen. De enorme hoeveelheid data die voortkwam uit beide testen werd echter niet echt in gebruik genomen. Dit had onder andere te maken met de weerstand die er bestond bij het leger tegen wetenschappelijke innovatie. Er waren echter ook goede redenen om te twijfelen aan de validiteit van de testen en de testomstandigheden. Aan de andere kant leverden de Army testen psychologen een enorme hoeveelheid aan ervaring in de psychometrie van testconstructie.

De beginfase van testen in het onderwijs

Na WO I bestond er grote vraag naar groepstesten vanuit verschillende instituten. De Army Alpha en Army Bèta kwamen vrij voor openbaar gebruik en vormden de prototypen voor een grote groep aan groepstesten, waaronder de SAT’s op de middelbare Amerikaanse scholen. Andere belangrijke ontwikkelingen voor groepstesten waren de vestiging van het College Entrance Examination Board (CEEB) en de opkomst van machinaal scoren. De CEEB werd later opgenomen in de non-profit organisatie Educational Testing Service (ETS), die de ontwikkeling, standaardisatie en validatie van bekende testen overzag.

Ondertussen ontwikkelden Terman en collega’s de gestandaardiseerde prestatietest genaamd Stanford Achievement Test (SachT).

De ontwikkeling van bekwaamheidstesten

Bekwaamheidstesten meten één of meerdere specifieke vaardigheden. Door middel van de nieuwe methode factoranalyse concludeerde Thurstone (1938) dat algemene maten van intelligentie tekort schoten in het meten van de intellectuele sterke en zwakke punten van een persoon. De ontwikkeling van bekwaamheidstesten liep achter op de ontwikkeling van algemenere intelligentietesten. Dit kwam doordat factoranalyse nodig is om erachter te komen om welke primaire eigenschappen het gaat, en dat werd pas ontdekt in de jaren '30. Daarnaast was er een sociale reden. Dit was dat er pas tegen de tijd van de tweede wereldoorlog een behoefte ontstond aan bekwaamheidstesten om kandidaten te selecteren die gekwalificeerd waren voor moeilijke en gespecialiseerde taken.

Persoonlijkheids- en beroepstesten na WO I

Persoonlijkheidstesten kwamen pas in opkomst in WO I. Woodworth (1919) ontwikkelde zijn Personal Data Sheet om rekruten te testen op ontvankelijkheid voor psychoneurose. Vrijwel alle moderne persoonlijkheidstesten vinden hun basis in Woodworth’s eerste testen.

De volgende grote ontwikkeling was de neurose-vragenlijst van Thurstone, de Thurstone Personality Schedule. Dit was de eerste test die gebruik maakte van de methode van interne consistentie. Uit de Thurstone test kwam de Bernreuter Personality Inventory voort, die op iets geraffineerdere wijze vier persoonlijkheidsdimensies mat. Een belangrijk punt was dat een enkel testitem op meerdere persoonlijkheidsdimensies van toepassing kon zijn. Ten slotte ontstond de Minnesota Multiphasic Personality Inventory (MMPI), met schalen die door middel van Woodworth’s methode werden samengesteld.

De oorsprong van projectieve testen

Galton was de eerste die in de late negentiende eeuw de projectieve benadering in kaart bracht door middel van de associatiemethode. Hij stelde dat mentale verwerking in het onderbewustzijn gebeurt. Deze methode werd verder uitgebreid door onder andere Jung (1910). Zijn test omvatte 100 stimuluswoorden, waarbij de deelnemer zo snel mogelijk het eerste woord dat in hem/haar opkwam, moest zeggen. Geïnspireerd door onder andere Jung ontwikkelde Rorschach (1884-1922) een projectieve persoonlijkheidstest op basis van reacties van deelnemers op ambigue stimuli (inktvlekken). De Rorschach test was in eerste instantie bedoeld voor het ontdekken van de innerlijke werking van abnormale deelnemers.

De Thematic Apperception Test werd ontwikkeld voor het bestuderen van normale persoonlijkheid. Bij deze methode krijgt een deelnemer een plaatje te zien, waarbij hij/zij dan een verhaal moet verzinnen.

Gedurende dezelfde eeuw werd door Payna (1928) een test ontwikkeld waarbij deelnemers zinnen moesten afmaken. Buck’s (1948) House-Tree-Person-Test liet deelnemers een huis, een persoon en een boom tekenen waaruit de persoonlijkheid zou moeten blijken.

De Szonditest (1949) was gebaseerd op het idee dat op basis van de keuze voor een bepaald plaatje, recessieve genen voor een bepaalde psychiatrische stoornissen konden worden geïdentificeerd.

De ontwikkeling van interessetesten

De interessetest vindt zijn oorsprong bij Thorndike (1912), die onderzoek deed naar de ontwikkelingstrends in de interesses van studenten. De Carnegie Interest Inventory werd ontwikkeld, getest en herzien gedurende een aantal jaar, tot deze in 1927 herdoopt werd tot de Strong Vocationel Interest Blank (SVIB). Bij de ontwikkeling van deze test werd voor het eerst onderscheid gemaakt tussen werkelijke verschillen in resultaten en error. Gedurende tientallen jaren was de enige serieuze rivaal van de SVIB de Kuder Preference Record, bij deze test werd gekeken naar het verschil in sterkte van interesses binnen een persoon. De resultaten werden dus niet met andere participanten vergeleken. De interessetesten werden voornamelijk gebruikt om te kijken welk beroep het beste bij iemand paste.

Het belang van gestructureerde persoonlijkheidstests

Vanaf de jaren '40 werden persoonlijkheidstests nuttig voor het gebruik van klinische evaluatie en assessment van het normale functioneren. Met name de MMPI was belangrijk. Andere tests die gebruikt werden waren de Sixteen Personality Factor Questionnaire (16PF), de California Psychological Inventory (CPI) en de Myers-Briggs Type Indicator (MBTI). Recentelijk wordt vooral gebruik gemaakt van het ‘big five’ model, waar veel tests op gebaseerd zijn. Deze heeft de vijf factoren: neuroticism, extraversion, openness to experience, agreeableness en conscientiousness.

De uitbreiding en gebruik van testen

Tegenwoordig worden tests veel gebruikt, zowel voor klinische één-op-één gebruiken als voor groepstests met sociale doeleinden. In de klinische discipline zijn duizenden tests beschikbaar voor verschillende doelen, zoals neuropsychologie of forensische psychologie.

Groepstests worden tegenwoordig veel gebruikt voor brede sociale doelen, zoals in het onderwijs en om toegelaten te worden bij universiteiten.

Evidence-based practice (EBP) is de laatste jaren belangrijk geworden. Het voordeel van EBP is dat het stelt dat behandelingen en interventies meetbare positieve uitkomsten moeten hebben. Om dit te meten zijn psychologische tests het best te gebruiken. Daardoor is evidence based psychological practice (EBPP) ontstaan, wat vooral voor empirisch ondersteunde interventies zorgt.

Wat is het belang van normen en betrouwbaarheid bij het doen van assessments? - Chapter 3

Onderwerp 3A: Normen en teststandaardisatie

Normen voor testen worden vastgesteld door middel referentie naar scores van normgroepen. Dit heet standaardisatie en zorgt ervoor dat we individuele testscores op betekenisvolle wijze kunnen interpreteren. Daarnaast wordt het nut van een testscore bepaald door de consistentie (betrouwbaarheid) van de test. Een normgroep bestaat uit een steekproef van deelnemers die representatief zijn voor de populatie waarvoor de test bedoeld is.

Ruwe scores

De ruwe score is het meest elementaire niveau van informatie die geleverd wordt door een psychologische test (bijvoorbeeld het aantal juist ingevulde antwoorden). Ruwe scores op zich zijn betekenisloos; pas in referentie met normen krijgen de scores betekenis. Bijna alle psychologische testen worden geïnterpreteerd door middel van normen, hoewel er ook andersoortige testen bestaan (zoals criterion-referenced testen).

Essentiële statistische concepten

Frequentieverdelingen

De enorme hoeveelheid data die voortkomt uit het afnemen van testen moet als eerste worden samengevat. Een simpele manier om dit te doen is het opstellen van een frequentieverdeling. Hierbij worden klasse-intervallen (bijvoorbeeld 1-3) opgesteld, waarna voor elk interval de frequentie van de scores die binnen dat interval vallen worden aangegeven. Een histogram is een grafiek waarin de informatie van de frequentieverdeling kan worden weergegeven door middel van kolommen. Een soortgelijke grafiek is een frequentiepolygoon (lijndiagram), alleen worden hierbij de frequenties met een enkele lijn aangegeven in plaats van met kolommen.

Maat van centrale tendens

Om een enkele, representatieve score te verkrijgen hebben we een maat van de centrale tendens nodig. Mogelijke maten zijn het gemiddelde (optellen van de scores gedeeld door N), de mediaan (de middelste score als alle scores gerangschikt zijn) en de modus (de score die het vaakst voorkomt).

Maten van variabiliteit

Om de mate en wijze van spreiding van de scores te kunnen omschrijven, wordt meestal de standaarddeviatie (s) gebruikt. Als de waarde van de standaarddeviatie laag is, zijn de scores dicht opeengepakt rond een centrale waarde. Als de scores zich meer uitspreiden wordt de waarde van de standaarddeviatie groter. De standaarddeviatie is de wortel van de variantie (s²). De formule voor de variantie is: .

De normale verdeling

Als er getest wordt met een grotere steekproef vormen de scores vaak een normale verdeling, waarbij de grafiek een klokvormig, symmetrisch uiterlijk heeft. In de psychologie wordt de voorkeur gegeven aan normale verdelingen boven andere typen verdelingen om verschillende redenen. Ten eerste hebben normaalverdelingen bruikbare wiskundige kenmerken die de basis vormen voor verschillende soorten statistisch onderzoek. Daarnaast zijn normaalverdelingen precies gedefinieerd, waardoor het mogelijk het percentage scores dat binnen een bepaald bereik valt nauwkeurig te weten. Ten slotte vormt de normale verdeling zich in veel gevallen op natuurlijke wijze, bijvoorbeeld in het geval van veel menselijke fysieke en mentale kenmerken.

Scheefheid (skewness)

Scheefheid duidt op de mate van symmetrie of asymmetrie van een frequentieverdeling. Als veel scores aan het lage einde van de schaal vallen, is de verdeling rechts-scheef (positively skewed) en als er veel scores aan het hoge einde van de schaal vallen, is de verdeling links-scheef (negatively skewed). Een scheve verdeling betekent vaak dat er te weinig makkelijke of te weinig moeilijke items in de test zitten.

Transformatie van ruwe scores

Percentielen

Een percentiel drukt het percentage personen in de standaardisatiesteekproef uit die onder een bepaalde ruwe score hebben gescoord. Dit wordt genoteerd als P₉₄ (bij bijvoorbeeld een ruwe score van 25 die overeenkomt met het percentiel van 94). Percentielen kunnen ook worden gezien als rangordes in een groep van 100 representatieve deelnemers, met PR₁ aan de onderkant van de steekproef en PR₉₉ aan de bovenkant van de steekproef. Een percentiel van 50 (P₅₀) komt overeen met de mediaan, P₂₅ met het eerste kwartiel (Q1) en P₇₅ met het derde kwartiel (Q3).

Standaardscores

De standaardscore (ook wel z-score genoemd) drukt de afstand van het gemiddelde uit in eenheden van standaarddeviatie. Een ruwe score die precies één standaarddeviatie van het gemiddelde ligt heeft de standaardscore +1.00. Standaardscores hebben, in tegenstelling tot percentielen, de gewenste psychometrische eigenschap dat ze de relatieve grootheden van afstanden tussen opeenvolgende waarden van de ruwe scores behouden. Een ander voordeel van de standaardscore is dat het mogelijk is resultaten op verschillende testen met elkaar te vergelijken door middel van een gemeenschappelijke schaal. Hierbij geldt echter wel dat de verdelingen van de te vergelijken testen dezelfde vorm moeten hebben.

T-scores

Gestandaardiseerde scores zijn conceptueel gezien identiek aan standaardscores, met als verschil dat gestandaardiseerde scores altijd uitgedrukt worden in hele positieve getallen. Een populair type gestandaardiseerde score is de T-score. Deze heeft een gemiddelde van 50 en een standaarddeviatie van 10. De T-score is in feite een transformatie van de z-score, en kan dus als volgt berekend worden: .

Normaliseren van standaardscores

Zoals eerder gezegd geven testontwikkelaars de voorkeur aan normale verdelingen. In het geval van een asymmetrische verdeling kan deze genormaliseerd worden. Hierbij wordt het percentiel voor elke ruwe score gebruikt om de overeenkomende standaardscore vast te stellen. Als dit voor elk geval gedaan wordt, zal de uiteindelijke verdeling normaal verdeeld zijn. Er zit een groot nadeel vast aan het normaliseren van niet-normale verdelingen, namelijk dat wiskundige relaties bij de ruwe scores mogelijk niet geldig zijn voor de genormaliseerde standaardscores. In de praktijk worden genormaliseerde standaardscores zelden gebruikt.

Stanines, Stens, en C-schaal

De stanineschaal werd ontwikkeld gedurende WOII. Hierbij worden alle ruwe scores omgezet naar een single-digit systeem van scores met een bereik van 1-9. Het gemiddelde van staninescores is altijd 5 en de standaarddeviatie ongeveer 2. Variaties op de stanineschaal zijn de sten schaal (10 eenheden) en de C –schaal (11 eenheden).

Het selecteren van een normgroep

Bij het uitkiezen van een normgroep probeert men een representatieve doorsnede te verkrijgen uit de populatie waar de test voor is bedoeld. De eenvoudigste manier om dit te doen is simple random sampling, waarbij elk lid van de populatie evenveel kans heeft om gekozen te worden. Dit werkt echter vaak niet in de praktijk omdat niet elk lid van de populatie bereikbaar of beschikbaar is voor deelname aan de test. Een andere manier is stratified random sampling. Hierbij wordt de populatie geclassificeerd aan de hand van belangrijke achtergrondvariabelen (e.g. leeftijd of geslacht), waarna er random een bepaald percentage uit elke klasse wordt getrokken.

Leeftijds- en graadsnormen

Een leeftijdsnorm geeft het niveau van testprestatie weer voor elke aparte leeftijdscategorie in de normatieve steekproef. Deelnemers worden dan vergeleken met hun eigen leeftijdsgenoten. Een graadsnorm geeft het niveau van testprestatie weer voor elk apart schooljaar (bijvoorbeeld, groep 5 van de basisschool) in de normatieve steekproef.

Lokale en groepsnormen

Lokale normen worden afgeleid van representatieve lokale deelnemers, in tegenstelling tot een nationale steekproef. Subgroepnormen bestaan uit de scores verkregen uit een bepaalde subgroep (bijvoorbeeld vrouwen of Turkse immigranten).

Verwachtingstabel

Een verwachtingstabel laat de gevestigde relatie zien tussen testscores en verwachte uitkomst op een bepaalde taak. Bijvoorbeeld, een verwachtingstabel zou de relatie tussen scores op het eindexamen (voorspeller) en latere universiteitscijfer (criterium) kunnen laten zien. Bij het gebruik van een verwachtingstabel moet altijd goed in de gaten worden gehouden of voorwaarden of regels omtrent de voorspeller of het criterium gelijk zijn gebleven.

Criterion-referenced testen

Waar norm-referenced testen bedoeld zijn om deelnemers te classificeren op een continuüm van vaardigheid of prestatie, zijn criterion-referenced testen bedoeld om de resultaten van deelnemers te vergelijken met een vooraf vastgelegde prestatiestandaard. Dit soort testen worden vaak in het onderwijs gebruikt. De inhoud van criterion-referenced testen wordt bepaald aan de hand van de relevantie voor het curriculum. Dit in tegenstelling tot norm-referenced testen, waarbij de inhoud op zodanige wijze wordt vastgesteld dat er zo goed mogelijk onderscheid kan worden gemaakt tussen de deelnemers.

Onderwerp 3B: Concepten van betrouwbaarheid

Betrouwbaarheid verwijst naar de mate van consistentie in meting op een continuüm van minimale consistentie (bijv. reactietijd) tot bijna perfecte herhaalbaarheid van resultaten (bijv. een weegschaal).

Klassieke testtheorie

De klassieke testtheorie vormde de basis voor testontwikkeling gedurende de twintigste eeuw. Het alternatief, de item-responstheorie, wordt aan het eind van dit hoofdstuk besproken. De klassieke testtheorie gaat er vanuit dat test scores voortkomen uit twee factoren: factoren die bijdragen aan consistentie (de stabiele trekken van het individu) en factoren die bijdragen aan inconsistentie (karakteristieken of omstandigheden die niks te maken hebben met de trek die gemeten wordt). In een formule ziet dat er zo uit: , waarbij T staat voor de ware score en e voor de meetfout. De meetfout is datgene wat bij testen zoveel mogelijk geminimaliseerd moet worden.

Bronnen van meetfout

Meetfout kan voortkomen uit heel veel verschillende bronnen; hier worden alleen de belangrijkste besproken. Itemselectie kan zorgen voor meetfout; omdat de selectie altijd slechts een steekproef is van alle mogelijke items. Testafname kan een bron voor meetfout vormen omdat het nooit helemaal mogelijk is om identieke testsituaties te creëren bij verschillende deelnemers; denk bijvoorbeeld aan achtergrondgeluid, temperatuur, licht, fluctuaties in de stemming van de deelnemer, etc. Testscoring kan soms een bron voor meetfout zijn als er subjectieve scoringssystemen worden gehanteerd, zoals bij projectieve testen of essayvragen. Bovenstaande bronnen worden samen beschreven als niet-systematische meetfout, wat betekent dat de effecten ervan onvoorspelbaar en inconsistent zijn. Systematische meetfout daarentegen ontstaat als de test per ongeluk iets anders meet dan het kenmerk waar de test voor bedoeld was.

Meetfout en betrouwbaarheid

Een hogere mate aan meetfout vermindert de betrouwbaarheid van psychologische testresultaten. Betrouwbaarheid en meetfout zijn in feite verschillende manieren om uit te drukken hoe consistent een test is. Een cruciale aanname van de klassieke testtheorie is dat niet-systematische meetfouten optreden als random invloeden (onbedoelde achtergrondgeluiden, per ongeluk zien van een antwoord, etc.). Omdat dit random gebeurtenissen zijn, zullen onsystematische meetfouten ongeveer in dezelfde mate positief en negatief zijn en over een grote groep deelnemers dus ongeveer middelen naar nul. Dat onsystematische meetfouten random zijn betekent daarnaast ook dat ze geen correlatie hebben met zowel de ware score en meetfouten op andere testen. Uit de klassieke testtheorie kan daarom worden afgeleid dat de variantie van de verkregen scores simpelweg de variantie van de ware scores plus de variantie van meetfouten is. In formulevorm wordt dat: .

De betrouwbaarheidscoëfficiënt

De betrouwbaarheidscoëfficiënt (r_xx) is de ratio van de variantie van de ware score tot de totale variantie van de testscores, oftewel: . De betrouwbaarheidscoëfficiënt kan een waarde aannemen tussen 0 (compleet onbetrouwbaar) en 1 (compleet betrouwbaar). Hieronder wordt op meer praktische wijze uitgelegd hoe deze coëfficiënt wordt berekend.

De correlatiecoëfficiënt

De correlatiecoëfficiënt (r) drukt in zijn meest gebruikte toepassing de mate van lineaire relatie uit tussen twee scoresets verkregen door dezelfde persoon. De coëfficiënt kan hierbij een waarde aannemen van -1.00 (perfecte negatieve correlatie), via 0.00 (geen correlatie) tot +1.00 (perfecte positieve correlatie). Negatieve of positieve correlatie met dezelfde waarde drukken dezelfde mate van correlatie uit; of dit negatief of positief is hangt af van de manier waarop één van de twee variabelen gescoord is.

De correlatiecoëfficiënt als betrouwbaarheidscoëfficiënt

Als testresultaten in hoge mate consistent zijn, zouden de scores van personen die dezelfde test op twee gelegenheden maken sterk gecorreleerd zijn. In deze zin is de correlatiecoëfficiënt ook een betrouwbaarheidscoëfficiënt. Dit hertesten van dezelfde (groepen) personen als methode voor het vaststellen van betrouwbaarheid is één van de vele beschikbare methodes, waarvan er hieronder een aantal zullen worden uitgelegd.

Betrouwbaarheid als temporele stabiliteit

Test-hertestbetrouwbaarheid

Zoals net gezegd is de meest simpele methode voor het schatten van de betrouwbaarheid het hertesten van personen. Hoe hoger de correlatie is tussen de eerste en tweede score van dezelfde persoon op dezelfde test, hoe hoger de betrouwbaarheid. Acceptabele betrouwbaarheidscoëfficiënten vallen meestal tussen de 0.80 en de 0.90.

Alternatieve versies-betrouwbaarheid

Soms produceren testontwikkelaars twee verschillende versies van een test, die dan allebei bij dezelfde groep worden afgenomen. De betrouwbaarheid is dan hoger naarmate de correlatie tussen scores op dezelfde test hoger is. Dit lijkt op test-hertestbetrouwbaarheid, met het belangrijke verschil dat er nu ook sprake is van item-sampling verschillen als bron voor foutvariantie. Bovendien is het erg kostbaar om alternatieve versies te ontwikkelen.

Betrouwbaarheid als interne consistentie

Split-halfbetrouwbaarheid

Hierbij worden scores van dezelfde persoon op equivalente helften van een test met elkaar gecorreleerd. Dit werkt volgens hetzelfde principe als de test-hertestbetrouwbaarheid, hoewel er vaak hogere schattingen van betrouwbaarheid uit voortkomen. Het is echter wel goedkoper dan test-hertestbetrouwbaarheid en er is geen sprake van oefeneffecten. Aan de andere kant is het vaak moeilijk om de test in equivalente helften te verdelen. Om split-halfbetrouwbaarheid te verkrijgen moet niet alleen de Pearson r berekend worden; deze moet ook aangepast worden door middel van de Spearman-Brown formule.

De Spearman-Brown formule

Bovenstaande methode levert een schatting van betrouwbaarheid voor een half zo korte test als de originele test. Omdat kortere testen in het algemeen minder betrouwbaar zijn als langere testen, moet de coëfficiënt aangepast worden. Voor de formule van de Spearman-Brown, zie p. 95 van het boek. Ondanks het wijdverspreide gebruik van de split-halfmethode, wordt deze vaak bekritiseerd om het gebrek aan precisie.

Coëfficiënt alpa

De coëfficiënt alpha (ook wel Crohnbach’s alpha) kan gezien worden als het gemiddelde van alle mogelijke split-halfcoëfficiënten, gecorrigeerd door de Spearman-Brownformule. De coëfficiënt alpha is een index voor de interne consistentie van de items. Hoewel dit een waardevolle benadering is voor betrouwbaarheid, is het geen vervanging voor de test-hertestbenadering.

De Kuder-Richardson schatting van betrouwbaarheid

Crohnbach’s alpha is een algemenere toepassing van de eerder ontwikkelde Kuder-Richardson formule 20 (KR-20). Deze is van toepassing in gevallen waar elk testitem als 0 of 1 gescoord wordt (oftewel; correct of incorrect).

Interbeoordelaarsbetrouwbaarheid

Bij testen waarbij het oordeel van degene die de test beoordeelt een grote factor is bij de betrouwbaarheid van de test is het belangrijk om de interbeoordelaarsbetrouwbaarheid te berekenen. Bij deze methode worden scores die verschillende beoordelaars aan dezelfde test (afgenomen bij dezelfde persoon) met elkaar gecorreleerd.

Welk type betrouwbaarheid is toepasselijk?

Om te bepalen welk type betrouwbaarheidsschatting het meest toepasselijk is, is het belangrijk het karakter en doel van de test vast te stellen. Zo is bij testen die temporele betrouwbaarheid zouden moeten laten zien de test-hertestbetrouwbaarheid het meest voor de hand liggend, en bij testen die streven naar factoriale betrouwbaarheid de coëfficiënt alpha. Split-halfmethoden werken goed bij testen die items nauwkeurig hebben gerangschikt op basis van moeilijkheid. Veel testhandleidingen rapporteren meerdere bronnen van informatie over betrouwbaarheid.

Itemresponstheorie

Vanaf de jaren zestig werd er naast de klassieke testtheorie steeds meer een alternatief model in gebruik genomen: de itemresponstheorie (IRT; ook wel latente trektheorie).

Itemresponsfuncties

Een itemresponsfunctie (IRF) is een wiskundige vergelijking die de relatie beschrijft tussen de hoeveelheid latente trek die een individu bezit en de kans dat diegene een bepaald antwoord geeft op een testitem die dat construct meet. Elk individu wordt geacht een bepaalde hoeveelheid latente trek te hebben, wat direct invloed heeft op de antwoorden die diegene geeft op een test. De IRF’s voor alle items samen kan onder andere gebruikt worden om de betrouwbaarheid van de test uit te rekenen. Daarnaast kan de moeilijkheid van een item ermee uitgerekend worden; als alleen individuen met een grote hoeveelheid van de trek het item goed hebben, heeft het item een grote moeilijkheidsgraad. Daarnaast kan de mate van discriminatie van het item worden aangegeven; als mensen met verschillende hoeveelheden van de trek hetzelfde antwoord geven op het item, is er een lage mate van discriminatie.

Informatiefuncties

In de context van psychologisch meten representeert informatie het vermogen van een testitem om te differentiëren tussen mensen. Sommige items zijn bedoeld om te differentiëren tussen mensen met een laag niveau van de trek, andere om te differentiëren tussen mensen met een hoog niveau van de trek. Testitems leveren dus verschillende niveaus van informatie voor elk niveau van de gemeten trek. Een item-informatiefunctie laat op grafische wijze de relatie tussen het trekniveau van de deelnemers en de informatie die door elk testitem geleverd wordt zien.

Invariantie bij IRT

Invariantie heeft twee gerelateerde maar aparte betekenissen binnen IRT. Ten eerste duidt het op de aanname dat de positie van een deelnemer op een continuüm van latente trek geschat kan worden op basis van de antwoorden op elke set van testitems, zoals de IRF van deze testitems bekend is. Ten tweede duidt het op de aanname dat IRF’s niet afhankelijk zijn van de kenmerken van een bepaalde populatie. De IRF voor elk item wordt dus geacht te bestaan op een abstracte, onafhankelijke en tijdloze manier. Hoewel IRT analyses meestal enorme steekproeven vereisen, is de noodzakelijke software relatief simpel en alom beschikbaar.

De nieuwe regels van meten

Een aantal conclusies van de klassieke testtheorie houden geen stand binnen het raamwerk van de IRT. Binnen de klassieke testtheorie is de mate van standaardfout bijvoorbeeld gelijk voor individuen van verschillende niveaus, terwijl binnen de IRT de mate van standaard meetfout groter is aan beide extremen van een niveau. Ook het axioma binnen klassieke testtheorie dat kortere testen altijd onbetrouwbaarder zijn dan langere testen gaat niet op binnen de IRT. Daarnaast zijn testen binnen het IRT-model beter aangepast aan computerized-adaptive testing, waarbij de items die een individu krijgt afhankelijk zijn van de antwoorden die diegene heeft ingevuld bij eerder items.

Speciale omstandigheden bij het schatten van betrouwbaarheid

Traditionele benaderingen van het schatten van betrouwbaarheid zijn misleidend of niet toepasselijk voor sommige toepassingen.

Onstabiele kenmerken

Sommige karakteristieken, zoals de galvanische huidrespons, fluctueren zo snel dat de test en hertest ervan bijna op hetzelfde moment zouden moeten plaatsvinden om iets nuttigs te kunnen zeggen over de betrouwbaarheid.

Snelheids- en krachttesten

Bij snelheidstesten kunnen de meeste items goed ingevuld worden door alle deelnemers; de score hangt dan af van de hoeveelheid items die ze afkrijgen. Bij krachttesten hebben de deelnemers genoeg tijd, maar kunnen ze niet alle items even goed beantwoorden. Een traditionele split-halfbenadering zou hierbij dus extreem hoge betrouwbaarheidscoëfficiënten opleveren.

Beperking van het bereik

Test-hertestbetrouwbaarheid zal extreem laag uitkomen als het gebaseerd is op een steekproef van homogene deelnemers waarbij er een beperking van het bereik voor het gemeten kenmerk geldt (bijvoorbeeld een intelligentietest bij universitaire studenten).

Betrouwbaarheid van criterion-referenced testen

De structuur van criterion-referenced tests (zoals eerder uitgelegd) zorgt ervoor dat de variabiliteit in scores van deelnemers minimaal is. Hierbij zijn traditionele benaderingen van betrouwbaarheid dus niet toepasselijk.

De interpretatie van betrouwbaarheidscoëfficiënten

Er is geen standaardantwoord op de vraag wat een acceptabel niveau van betrouwbaarheid is. Er is enige consensus dat een erg accurate meting van individuele verschillen een betrouwbaarheid boven de 0.90 moet hebben. Testen met een betrouwbaarheid van 0.70 blijken echter vaak toch ook nuttig te zijn.

Betrouwbaarheid en de standaard meetfout

Stel dat een persoon dezelfde IQ-test oneindig vaak zou doen. De verdeling van al deze scores zou dan een normale verdeling zijn, met het gemiddelde als de ware score voor deze persoon. De standaarddeviatie van deze verdeling zou dan de standaard meetfout zijn.

Wat is het belang van validiteit en testontwikkeling bij het doen van assessments? - Chapter 4

Onderwerp 4A: Basisconcepten van validiteit

De meerwaarde van een test wordt naast door de betrouwbaarheid bepaald door de validiteit. De validiteit van een test is de mate waarin het meet wat het beweert te meten. Betrouwbaarheid is noodzakelijk voor validiteit, maar geen garantie ervoor.

Validiteit: een definitie

De definitie van validiteit volgens de Standards for Educational and Psychological Testing luidt als volgt: een test is valide in overeenstemming met de mate waarin er inferenties uiit kunnen worden gemaakt die toepasselijk, betekenisvol en bruikbaar zijn. Het is niet mogelijk om de validiteit van een test samen te vatten in een enkele statistische eenheid; hiervoor zijn verschillende onderzoeken nodig. Bovendien wordt validiteit uitgedrukt op een continuüm dat reikt van zwak naar acceptabel tot sterk. Hieronder worden drie verschillende types validiteit besproken.

Inhoudsvaliditeit

Inhoudsvaliditeit duidt op de mate waarin de testitems representatief zijn voor het universum aan gedragingen waarvoor de test geacht werd een steekproef te zijn. Dit heeft niet alleen betrekking op de testitems zelf, maar ook op de steekproef van alle mogelijke antwoord(vorm)en die in de test wordt gebruikt. In veel gevallen is het niet mogelijk alle mogelijke items en antwoorden ook daadwerkelijk op te stellen. In plaats daarvan wordt er vaak een panel van experts samengesteld die de inhoudsvaliditeit beoordelen.

Kwantificatie van inhoudsvaliditeit

Voor het kwantificeren van overeenstemming tussen experts over de inhoudsvaliditeit wordt vaak een variatie op het volgende model gebruikt. De oordelen van de beoordelaars voor een bepaald item worden geclassificeerd als ‘sterke relevantie’ of ‘zwakke relevantie’. Daarna wordt gekeken of de verschillende beoordelaars dezelfde classificatie hebben voor hetzelfde item. Stel dat dit voor 80 van de 100 items het geval is, heeft de test een coëfficiënt en inhoudsvaliditeit van 0.80.

Oppervlaktevaliditeit (face validity)

Dit is eigenlijk geen vorm van validiteit, maar toch komt men dit concept tegen bij testen. Oppervlaktevaliditeit duidt op de mate waarin het er valide uitziet voor testgebruikers, testafnemers en deelnemers. Dit is belangrijk voor de mate van motivatie voor bijvoorbeeld de deelnemers, maar is dus geen officiële vorm van validiteit.

Criterium-gerelateerde validiteit

Er is sprake van criterium-gerelateerde validiteit als een test effectief blijkt te zijn in het schatten van de prestatie van een deelnemer op een bepaalde uitkomstmaat (een criterium). Bij concurrente validiteit wordt de criteriummaat op ongeveer hetzelfde moment verkregen als de test zelf. Bij voorspellende validiteit wordt de criteriummaat op een moment in de toekomst verkregen.

Karakteristieken van een goed criterium

Een criterium kan in feite van alles zijn, van ‘aantal auto-ongelukken per jaar’ tot ‘salaris op 30-jarige leeftijd’. Het criterium zelf moet echter ook betrouwbaar zijn om als bruikbare index te gelden voor wat te test meet. De correlatie tussen de test en het criterium heet een validiteitscoëfficiënt. Een ander belangrijk punt is dat het criterium vrij moet zijn van vervuiling door de test zelf; hiervan is bijvoorbeeld sprake als dezelfde items voorkomen op zowel de test als het criterium. Er is ook sprake van vervuiling als het criterium bestaat uit beoordelingen van experts die op de hoogte zijn van de testscore van de deelnemer die ze beoordelen.

Concurrente validiteit

Bij concurrente validiteit worden de testscores en criteriuminformatie tegelijkertijd verkregen. Een persoonlijkheidstest zou bijvoorbeeld concurrente validiteit bezitten als de diagnostische kwalificaties die eruit worden afgeleid overeenkomen met de meningen van psychologen of psychiaters. Correlaties tussen een nieuwe test en bestaande testen worden ook vaak gezien als bewijs voor concurrente validiteit, mits de bestaande testen op grond van real-life gedrag op validiteit zijn getest. Bovendien moet de nieuwe test hetzelfde construct meten als de bestaande tests.

Voorspellende validiteit

Bij voorspellende validiteit worden testscores gebruikt om latere uitkomstmaten te voorspellen (bijvoorbeeld een entreetoets voor een universiteit). Hiervoor is het noodzakelijk om een regressiefunctie op te stellen; deze beschrijft de best passende rechte lijn voor het voorspellen van het criterium uit de test.

Validiteitscoëfficiënt en de standaardfout van schattingen

De meest populaire benadering om de relatie tussen testscores en het criterium uit te drukken is door middel van de validiteitscoëfficiënt (de correlatie tussen test en criterium). De standaardfout van de schatting (SE_est) is de foutmarge die verwacht wordt bij de voorspelde criteriumscore. Met behulp van deze foutmarge kan de mate van voorspellende accuraatheid bepaald worden.

Beslissingstheorie toegepast op psychologische testen

De beslissingstheorie stelt dat het doel van psychologisch testen niet het meten per se is maar meten in dienst van besluitvorming. Dit geldt vooral in de context van voorspellende validiteitsstudies; bijvoorbeeld bij entreetoetsen voor een opleiding of baan of een psychologische test aan de hand waarvan iemand aan een behandeling wordt toegewezen.

Bij het hanteren van een selectietest zijn er verschillende uitkomsten. Diegenen die door de test voorspeld worden om te falen of slagen (in bijvoorbeeld een studie) en dat ook daadwerkelijk doen worden beschreven als hits. Diegenen die voorspeld werden te slagen maar uiteindelijk falen worden false positives genoemd, en mensen die voorspeld werden te falen maar uiteindelijk slagen worden false negatives genoemd. Uit deze ratio’s kan dan de hit rate berekend worden. Voorstanders van de beslissingstheorie gaan er vanuit dat de waarde van diverse uitkomsten van een selectietest kan worden uitgedrukt op een (bijvoorbeeld financiële) schaal. De meest succesvolle strategie bij institutionele selectiebeslissingen is dan ook maximalisatie; het toepassen van de strategie die de gemiddelde winst op de schaal over een groot aantal soortgelijke beslissingen maximaliseert.

Constructvaliditeit

Het laatste type validiteit wordt constructvaliditeit genoemd. Een construct is een theoretische kwaliteit of trek waar mensen in verschillen. Testen die een construct meten moeten een schatting maken van het bestaan van dat onderliggende kenmerk, gebaseerd op een beperkte steekproef van gedrag. Voor psychologische constructen is het niet mogelijk een enkele externe referentie vast te stellen om het bestaan van het construct te valideren. Op basis van onze theorie over een bepaald construct is het echter mogelijk om bepaalde voorspellingen te doen met betrekking tot het construct. Veel psychometristen zien constructvaliditeit als het verenigende concept voor alle andere typen van validiteitsbewijs.

Benaderingen van constructvaliditeit

Hieronder worden een aantal bronnen van bewijs voor constructvaliditeit besproken.

Testhomogeniteit

Als een test een enkel construct meet, zouden de items ervan homogeen, oftewel intern consistent, moeten zijn. Een veelgebruikte methode om homogeniteit te meten is om elk testitem te correleren met de totale score. Items met hoge correlatie worden dan geselecteerd voor de uiteindelijke test.

Toepasselijke ontwikkelingen

Van veel constructen kan worden aangenomen dat ze bepaalde leeftijd gerelateerde veranderingen laten zien gedurende de levensloop. Een test voor vocabulaire met constructvaliditeit zou dus verbetering in testscores laten zien gedurende de (vroege) ontwikkeling.

Theorie-consistente groepsverschillen

Een andere manier om de validiteit van een instrument te bepalen is te laten zien dat mensen met verschillende achtergronden verschillend scoren op een test. Bij een test voor altruïsme zouden mensen die geacht worden een hoge mate van altruïsme te bezitten (bijvoorbeeld nonnen), ook daadwerkelijk hoger moeten scoren dan mensen die geacht worden een lagere mate van altruïsme te bezitten (bijvoorbeeld criminelen).

Theorie-consistente interventie-effecten

Een andere benadering van constructvaliditeit is om te laten zien dat testscores veranderen in de gepaste richting en hoeveelheid als reactie op geplande of ongeplande interventies.

Convergente en discriminante validiteit

Er is sprake van convergente validiteit als een test hoge correlatie vertoont met andere variabelen of testen die overlappen qua constructen. Er is sprake van discriminante validiteit als een test niet correleert met variabelen of testen waar deze van zou moeten verschillen. Campbell en Fiske (1959) stelden de multitrait-multimethod matrix voor, een systematisch experimenteel design waarmee tegelijkertijd de convergente en discriminantie validiteit van een psychologische test bevestigd kon worden (zie pag. 122 van het boek voor een voorbeeld).

Factoranalyse

Factoranalyse is een methode om het minimum aantal bepalers (factoren) te identificeren die benodigd zijn om de onderlinge correlaties tussen een set van testen te kunnen uitleggen. Vaak wordt een factoranalyse uitgevoerd door een set van testen bij honderden deelnemers afte nemen en daarna een correlatiematrix te construeren van de scores van alle mogelijke testparen. Een factorlading beschrijft de correlatie tussen een individuele test en een enkele factor. Zie voor een voorbeeld van een tabel met factorladingen p. 124 van het boek.

Classificatie-accuraatheid

Voor testen die bedoeld zijn om deelnemers te screenen die aan bepaalde diagnostische criteria voldoen is accuraatheid van classificatie een noodzakelijke index van validiteit. Hierbij zijn twee psychometrische kenmerken van belang: gevoeligheid en specificiteit. Gevoeligheid heeft betrekking op het accuraat identificeren van patiënten die een bepaald syndroom hebben. Specificiteit heeft betrekking op de accurate identificatie van gezonde patiënten. Deze concepten zijn vooral relevant bij dichotome diagnostische situaties waarbij individuen verondersteld worden of wél het syndroom te hebben of niet. Dit soort screeningtesten leveren vaak een cutoff score om mogelijke gevallen van het syndroom te identificeren. De specificiteit en sensitiviteit wordt vaak bepaald door de testresultaten te vergelijken met onafhankelijke, uitgebreide evaluaties (bijvoorbeeld door psychologen). Het is vaak moeilijk om een goede balans tussen sensitiviteit en specificiteit te creëren omdat het kiezen van een cutoff score die de sensitiviteit verhoogt de specificiteit verlaagt en vice versa.

Extravaliditeit en het vergrote bereik van testvaliditeit

Kwesties rondom extravaliditeit hebben te maken met bijeffecten en onbedoelde consequenties van testen.

Onbedoelde bijeffecten van testen

De testafnemer moet altijd vaststellen of de voordelen van het afnemen van een test opwegen tegen de kosten van mogelijke bijeffecten. Deze bijeffecten kunnen bijvoorbeeld draaien om de oordelen die anderen hebben over het individu die een bepaalde testscore heeft behaald of een bepaalde diagnose heeft gekregen. Ook kunnen de individuen zelf zich anders gaan gedragen. Ook kunnen uitkomsten van diagnostische test door onwetende leidinggevenden op een verkeerde manier worden geïnterpreteerd, waardoor (toekomstige) werknemers verkeerd gelabeld worden. Dit geldt bijvoorbeeld ook in het rechtssysteem.

Het vergrote bereik van testvaliditeit

Om bovenstaande redenen zijn er tegenwoordig voorstanders om de definitie van testvaliditeit uit te breiden voorbij ‘dat het meet wat het hoort te meten’. Sommige psychometristen stellen voor om de definitie te hanteren dat een test valide is als deze het doel dient waarvoor het gebruikt wordt. Het functionalistische perspectief ziet testvaliditeit als een algehele evaluatieve beoordeling van de geschiktheid en gepastheid van de inferenties en de handelingen die uit testscores voortkomen.

Utiliteit

Ten slotte is het concept van testutiliteit belangrijk, oftewel of een test in betere uitkomsten resulteert voor patiënten of efficiëntere levering van diensten. Helaas is er weinig onderzoek beschikbaar wat betreft de utiliteit van psychologische testen.

Onderwerp 4B: Testconstructie

Testconstructie bestaat uit zes onderling verweven fases: het definiëren van de test, het selecteren van een schalingsmethode, het construeren van de items, het testen van de items, het herzien van de test en het publiceren van de test. Hieronder worden deze fases besproken.

Het definiëren van de test

Om een nieuwe test te ontwikkelen moet de ontwikkelaar een duidelijk idee hebben van wat de test zou moeten meten en hoe deze verschilt van bestaande instrumenten. Met de enorme hoeveelheden psychologische en andersoortige testen die beschikbaar zijn, is het de plicht van de testontwikkelaar om het doel en de noodzaak voor een test duidelijk te beschrijven.

Het selecteren van een schalingsmethode

De methode die gekozen wordt voor schaling van de test bepaalt de regels aan de hand waarvan nummers worden toegekend aan bepaalde testantwoorden. Verschillende schalingsmethoden zijn geschikt voor verschillende trekken. Hieronder worden achtereenvolgens meetniveaus en schalingsmethoden besproken.

Meetniveaus

Bij een nominale schaal dienen nummers alleen als namen voor categorieën (bijvoorbeeld 1=man, 2= vrouw). Bij een ordinale schaal is er sprake van een vorm van ordening of rangschikking zonder informatie over de relatieve sterkte van de rangordes of de afstanden daartussen. Een intervalschaal levert informatie over rangschikking en een manier om de verschillen tussen rangordes te bepalen. Hierbij kan men de assumptie maken dat de intervallen tussen de punten op de schaal ongeveer gelijk zijn (het verschil tussen punt 1 en 2 is even groot als dat tussen 5 en 6). Een ratioschaal heeft alle kenmerken van een intervalschaal, maar heeft daarnaast ook een conceptueel betekenisvol nulpunt, waar er een complete afwezigheid is van het kenmerk dat wordt gemeten. In de psychologie zijn ratioschalen zeldzaam; iemand heeft namelijk bijna nooit nul intelligentie of een ander kenmerk. De meeste psychologische testinstrumenten worden geacht ongeveer aan interval-niveau van meting te voldoen.

Representatieve schalingsmethodes

Expert rangordes

Een mogelijke schalingsmethode is het vragen aan een panel van experts te vragen om een lijst van gedragingen op te stellen die horen bij verschillende niveaus van een bepaald kenmerk of een bepaalde toestand. Dit is een simpele methode waarbij meestal geen intervalniveau kan worden bereikt.

De methode van gelijk lijkende intervallen

Bij deze methode worden eerst een aantal items opgesteld die positieve of negatieve attitudes over een bepaald onderwerp weerspiegelen. Vervolgens beoordelen experts de mate waarin items positief of negatief zijn, waarvan dan per item het gemiddelde genomen wordt. Ambigue items (die een hoge standaarddeviatie hebben), worden verwijderd. De testscore van deelnemers wordt dan bepaald door de schaalwaarde van items waar de deelnemer het mee eens is te middelen.

De methode van absolute schaling

Deze procedure is bedoeld voor het verkrijgen van een maat van absolute itemmoeilijkheid gebaseerd op de resultaten voor verschillende leeftijdsgroepen van deelnemers. De analyse die hieruit voortkomt wordt tegenwoordig gebruikt als basis voor het laten vallen van overbodige testitems (oftewel, van een gelijke moeilijkheidsgraad) en het toevoegen van andere items die het lagere of hogere bereik van moeilijkheid testen.

Likert-schalen

Likert-schalen geven de deelnemers vijf keuzes gerangschikt op een continuüm van mee eens / niet mee eens. De vijf keuzes krijgen een numerieke waarde toegekend, waarna de totale schaalscore wordt berekend door de scores voor individuele items op te tellen.

Gutmann-schalen

Gutmann-schalen gaan er vanuit dat deelnemers die het met een bepaald statement eens zijn het ook eens zijn met mildere statements met betrekking tot hetzelfde onderliggende continuum.

De methode van empirisch labelen

Bij deze methode worden testitems enkel geselecteerd op basis van empirische overwegingen (en niet op theoretische overwegingen of expertise); oftewel op hoe goed ze een criteriumgroep onderscheiden van een normatieve steekproef. Zo worden bijvoorbeeld de items gekozen die een depressieve steekproef het beste onderscheiden van een normatieve steekproef.

Rationele schaalconstructie (interne consistentie)

De benadering van de methode van rationele schaling is dat alle schaalitems positief correleren met elkaar en met de totale score voor de schaal. Items met zwakke of negatieve correlaties worden verwijderd. Deze methode zegt echter nog niets over betrouwbaarheid of validiteit van de schaal.

Het construeren van de items

Bij het construeren van testitems komen een aantal factoren kijken, die hieronder besproken worden.

Initiële vragen bij testconstructie

Het eerste wat bepaald moet worden is of de inhoud van de testitems homogeen of heterogeen moet zijn. Dit hangt af van de manier waarop de testontwikkelaar het nieuwe instrument heeft gedefinieerd. Ten tweede moet het bereik van itemmoeilijkheid voldoende zijn voor betekenisvolle differentiatie van deelnemers aan beide extremen. Hierbij moeten vloereffecten (als teveel deelnemers scoren aan het lage uiteinde van de schaal) en plaffondeffecten (als teveel deelnemers scoren aan het hoge uiteinde van de schaal.

Specificatietabel

Voor de ontwikkeling van een test krijgen itemschrijvers vaak een specificatietabel aangeleverd, die de inhoud en de cognitieve processen beschrijft waarop de deelnemers worden getest. De cognitieve processen kunnen bijvoorbeeld simpele terughaling, inductief redeneren of syllogistisch redeneren zijn.

Itemformat

Bij het selecteren van een itemformat zijn er enorm veel verschillende keuzes mogelijk, zoals multiple-choice antwoorden, matching-vragen, waar-of-onwaar vragen of een gedwongen keuze methode (bijv.: hou je meer van paardrijden of volleybal?).

Testen van de items

Omdat veel items van de originele itempool uiteindelijk verwijderd worden, beginnen veel testontwikkelaars met een overbodig hoog aantal items. Door middel van itemanalyse, een set van statistische procedures, worden de uiteindelijke items geselecteerd.

De itemmoeilijkheidsindex

De itemmoeilijkheidsindex wordt bepaald door de proportie deelnemers in een grote try-out steekproef die dat item goed heeft. Een moeilijkheidsniveau dat tussen de 0.3 en 0.7 ligt maximaliseert de informatie die de test levert over verschillen tussen deelnemers. Dit verschilt echter per test; bij waar-of-onwaar vragen moet een gokcorrectie in acht worden genomen. Bij testen waarbij een extreme groep moet worden geselecteerd ligt het optimale moeilijkheidsniveau hoger.

Itembetrouwbaarheidsindex

De interne consistentie van een test wordt getest door individuele items te correleren met de totale score. Omdat dit verschillende type scores zijn (individuele items zijn goed of fout, de totale score is een continue score), moet er een speciaal type statistiek worden toegepast: de punt-biseriële correlatiecoëfficiënt. Daarnaast moet de variabiliteit berekend worden zoals geïndexeerd door de standaarddeviatie van elk item. De berekening van het product van deze twee indexen heet de item-betrouwbaarheidsindex.

Item-validiteitsindex

De item-validiteitsindex bestaat uit het product van de punt-biseriële correlatiecoëfficiënt tussen de itemscore en de score op de criteriumvariabele en de standaarddeviatie.

Itemkarakteristieke grafiek

De itemkarakteristieke grafiek (item-characteristic curve, ICC) is een grafische weergave van de relatie tussen de kans op correct antwoord en de positie van de deelnemer op het onderliggende kenmerk dat door de test gemeten wordt. Er zijn verschillende ICC-modellen, waarvan de simpelste het Rasch Model is. De gewenste vorm van de ICC hangt af van het doel van de test. Icc’s zijn nuttig voor het identificeren van items die verschillende resultaten opleveren voor subgroepen deelnemers (bijvoorbeeld mannen en vrouwen). De onderliggende theorie van de ICC is de itemresponsstheorie.

Itemdiscriminatie-index

Zoals eerder uitgelegd onderscheidt een effectief testitem de hoge en lage scorers op de gehele test. Als de ICC een positief is en een ogive (normale) vorm heeft, heeft het item vaak veel discriminatoire kracht. Dit is echter geen objectieve maatstaf. Een itemdiscriminatie-index is een statistische index voor hoe efficiënt een item discrimineert tussen hoge en lage scores. De formule voor deze index luidt als volgt: , waarbij U het aantal deelnemers is in het hoogste bereik dat het item correct beantwoordt, L is het aantal deelnemers in het laagste bereik dat het item correct beantwoordt en N is het totale aantal deelnemers in het laagste of hoogste bereik. De index d kan een waarde aannemen van -1.0 tot +1.0, waarbij een negatieve score reden is tot herziening van het item; hierbij hebben immers meer deelnemers in het laagste bereik het item goed dan deelnemers in het hoogste bereik. Een score bij 0 betekent dat een item geen discriminatoire waarde heeft. Hoe positiever d is, hoe beter het item discrimineert.

Het herzien van de test

Na de itemanalyse is het tijd om te test te herzien. Na deze eerste herziening heeft de test vaak meer discriminerede items met hogere betrouwbaarheid en betere voorspellende nauwkeurigheid. Hierna herhaalt het proces zich tot er geen grote veranderingen meer hoeven worden gemaakt. De volgende stap is cross-validation, waarbij de test afgenomen wordt bij een nieuwe steekproef.

Krimpen van de validiteit

Een vaak voorkomend probleem in cross-validation onderzoek is dat de test het relevante criterium minder accuraat voorspelt bij de nieuwe deelnemers dan bij de oorspronkelijke steekproef. Dit heet krimpen van de validiteit en is een onvermijdelijk deel van testontwikkeling.

Feedback van deelnemers

Feedback van deelnemers is een waardevolle bron van informatie bij testherziening, die desondanks vaak over het hoofd gezien wordt. De feedback kan worden verkregen door na de test een evaluatieformulier af te nemen.

Publiceren van de test

De laatste stap van testontwikkeling is het publiceren van de testmaterialen, een technische handleiding en een gebruikershandleiding. Bij het produceren van de testmateriaal moet worden opgelet dat dit gebruiksvriendelijk is en zo handig mogelijk voor de testleider. De technische handleiding bevat informatie over itemanalyses, schaalbetrouwbaarheid, cross-validation studies, etc. De gebruikershandleiding levert instructies voor het afnemen en interpreteren van de test.

Welke theorieën over individuele intelligentie- en prestatietests zijn er? - Chapter 5

Onderwerp 5A: Wat zijn de theorieën omtrent intelligentie en factoranalyse?

Definitie van intelligentie

Intelligentie is een van de meest onderzochte onderwerpen in de psychologie.

Operationele definities definiëren de manier waarop de test wordt gebruikt. Dit is echter niet handig voor het definiëren van intelligentie. Intelligentietesten zijn ontwikkeld voor het meten van intelligentie en niet voor het definiëren ervan. Daarnaast blokkeren operationele definities het verder ontwikkelen van het begrip van de natuur van intelligentie. Een tweede probleem is dat de operationele definitie geen innovatie toelaat. De oude tests dienen als validiteitscriterium voor nieuwe tests. Er moet een correlatie tussen de oude en nieuwe tests bestaan en bij innovatie kan deze correlatie afzwakken. Daarnaast is hij volgens de operationele definitie dus niet valide.

De werkelijke definitie verklaart de ware natuur van het concept en om de ware definitie van intelligentie te vormen moet je het vragen aan experts. Verschillende experts hebben een definitie gevormd. Deze lijst van definities is westers en spreekt niet over culturele verschillen. In sommige oosterse landen vindt men namelijk dat welwillendheid, nederigheid, vrijheid van conventionele standaarden in beoordeling en doen wat goed is essentieel is voor intelligentie. In Afrika leggen ze de nadruk op de sociale aspecten van intelligentie. Ondanks alle verschillen zijn er meestal twee dingen waar iedereen het over eens is: intelligentie is de capaciteit om te leren van ervaringen en de capaciteit om je aan de omgeving aan te passen.

Een andere benadering om een construct te begrijpen is door de populaire betekenis te bestuderen. Sternberg en collega’s hebben dat gedaan en kwamen erachter dat de gedragingen waarvan men denkt dat die bij intelligentie horen best wel overeenkomen met wat experts denken. Het verschil zit hem meer in de volgorde van belangrijkheid.

Wanneer leken denken aan intelligentie worden de volgende aspecten genoemd: praktische probleemoplossende vaardigheden, verbale vaardigheden, en sociale competentie. Experts noemen de volgende aspecten: verbale intelligentie, probleem-oplossende vaardigheden, en praktische intelligentie. Hieruit blijkt dus dat de publieke opinie over intelligentie terug te zien is in de intelligentietesten.

De twee onderdelen waar de leken en experts het over eens zijn komen niet voor in de tests. Ten eerste omdat het moeilijk is items ervoor te vinden en ten tweede omdat er sinds de tijd van Binet weinig is veranderend in de opzet van de testen. Sternberg en collega’s hebben innovaties voorgesteld die zijn gebaseerd op hun model van intelligentie. Een ander interessant instrument is de Everyday Problem Solving Inventory. Bij deze test moeten de deelnemers aangeven hoe hun reactie zou zijn op alledaagse problemen zoals het vergeten van je geld wanneer je met een vriend gaat lunchen.

Factoranalyse

Factoranalyse wordt gebruikt om de validiteit van tests te meten. Er is een confirmatieve factoranalyse en een explorerende factoranalyse. Bij de eerste wordt gekeken of testscores en variabelen in een voorspeld patroon passen en is dus goed voor validatieonderzoek. Bij de tweede worden de relaties tussen vele variabelen samengevat en wordt gekeken of ze tot een minder aantal factoren kunnen worden gereduceerd. Het zorgt dus dat een versimpelde weergave wordt gegeven van een grote, complexe dataset. Elke verzameling van vaardigheidstests reflecteert een aantal onderliggende basisvaardigheden.

Een factoranalyse begint met een correlatie matrix, een tabel waarin correlaties tussen verschillende variabelen staan weergegeven. Variabelen die een hoge correlatie met elkaar hebben lijken dan samen een factor te verklaren.

Door middel van snelle computers wordt het kleinst aantal factoren bepaald. Daarna kan er een factor matrix worden gemaakt, die laat zien hoe zwaar een variabele op een bepaalde factor weegt (waarden van -1.00 tot +1.00).

De factorladingen worden daarna ‘geroteerd’, de best passende variabele worden bij de best passende factors gestopt. In ‘rotation to positive manifold’ worden zoveel mogelijk negatieve factorladingen verwijderd per factor. In ‘rotation to simple structure’ worden de factorladingen zo ingedeeld dat elke variabele een significante lading heeft op zo min mogelijk factoren. Het doel is dus om de factor matrix zo duidelijk en analyseerbaar mogelijk te maken.

De interpretatie van de factoren die er uit komen moet door de onderzoeker zelf gedaan worden. De onderzoeker kijkt wat de variabelen van de factor gemeen hebben en geeft het dan die interpretatie. Factoranalyse heeft ook nadelen. Ten eerste geldt dat een bepaalde factor alleen uit de analyse kan komen als de tests en metingen ook die factor bevatten. Ten tweede is de sample size belangrijk: ongeveer vanaf 300 is een factoranalyse stabiel en betrouwbaar. Als laatst is factoranalyse altijd onderhevig aan subjectieve keuzes en theoretische vooroordelen van de onderzoeker.

Galton en zintuigelijke scherpte

Galton dacht dat intelligentie verklaard werd door scherpe zintuigen. De theorie had echter een dood einde wat betreft de psychometrie, het kon namelijk nauwelijks getest worden. Later in de jaren 80 kwamen er echter reactietijden-tests die de snelheid van verwerking konden meten. Deze tests zijn echter niet genoeg gestandaardiseerd, evenals de data-analyse en daarom is deze methode niet veel verder ontwikkeld.

Spearman en de g factor

Spearman stelde dat intelligentie gebaseerd was op een algemene intelligentie factor g en verschillende specifieke factoren s1, s2, s3, etc. Hij richtte zich vooral op het definiëren van de aard van g die hij de energie of kracht noemde die algemeen in elke context voorkomt. De specifieke factor s richtte zich op een specifieke groep neuronen die bij bepaalde mentale handelingen werden gebruikt. Hij vond dat individuele verschillen in g drie principes van cognitie reflecteerden: aanhouden van ervaring, ontdekken van relaties en ontdekken van correlaties.

Thurstone en primaire mentale vaardigheden

Thurstone gebruikte factoranalyse en concludeerde dat niet een enkele intelligentiefactor, maar een groep van factoren empirische resultaten konden verklaren. Dat bracht hem bij zijn 7 primaire mentale vaardigheden: verbaal begrip, woord vlotheid, nummer, ruimte, associatief geheugen, perceptie snelheid en inductief redeneren.

Later stelde hij dat waarschijnlijk een algemene g factor aan het hoofd lag en Spearman stelde ook dat er groepsfactoren zijn die intelligentie verklaren. Vernon ontdekte dat er een hiërarchie was met bovenaan de g factor, daarna twee groepsfactoren, verbaal en praktisch, en daarna de 7 vaardigheden van Thurstone verdeeld over de twee factoren.

Cattell-Horn-Carroll (CHC) theorie

Volgens deze theorie bestaat intelligentie uit drie hiërarchische stratum. Stratum III is de algemene intelligentiefactor g. Stratum II bestaat uit 8 onderdelen met elk een aantal specifieke vaardigheden van stratum I die tussen haakjes staan:

Vloeiende intelligentie (5 specifieke vaardigheden): vergt hoog denkniveau en redeneren en wordt gebruikt voor nieuwe taken die niet automatisch gedaan worden.
Gekristalliseerde intelligentie (10): de breedte en diepte van de kennis van het individu.
Domein-specifieke kennis (7): kennis over specifieke domeinen die niet typisch zijn voor de cultuur.
Visueel-spatiële vaardigheden (11): het voorstellen, vasthouden en transformeren van mentale representaties van beelden.
Auditieve verwerking (13): het accuraat waarnemen van auditieve informatie en daarmee de capaciteit om patronen of groepen van geluiden te analyseren, begrijpen en na te doen.
Geheugen (13): de vaardigheid om nieuwe informatie te consolideren en op te slaan in het lange termijn geheugen en later weer op te roepen door middel van associaties.
Cognitieve verwerkingssnelheid(7): de snelheid van het uitvoeren van automatische processen, vooral wanneer veel aandacht en concentratie nodig is.
Reactietijd (5): de vaardigheid om snel beslissingen te maken in reactie op simpele stimuli.

De vaardigheden van stratum I worden telkens uitgebreid en hernieuwd met onderzoeken. Daarnaast wordt dit model veel gebruikt omdat de brede en specifieke vaardigheden empirisch verifieerbaar zijn en ze betekenisvolle en implicaties voor de echte wereld omvatten.

Guilford en structuur-van-intellect model

Guilford classificeert intellectuele vaardigheden in dimensies van operations, contents en products. Operations zijn de mentale handelingen die de test moet bevatten. Contents omvat de aard van de materialen of informatie die wordt aangeboden. Products omvat de verschillende soorten mentale structuren die het brein moet produceren om tot een correct antwoord te komen. Hij had dan respectievelijk 5 x 5 x 6 = 150 factoren van intelligentie.

Het is een ingewikkeld model maar hij heeft hiermee wel de suggestie gewekt dat divergente productie, meerdere goede mogelijkheden voor een enkele stimulus produceren, ook een onderdeel van intelligentie kan zijn.

Planning, attention and simultaneous and successive theory (PASS)

Luria's stelde de theorie over plannen, aandacht, gelijktijdigheid en opeenvolging op, een algemene theorie over cognitieve verwerking. Zijn benadering legt de focus op de mechanismen die informatie verwerken en wordt daarom ook wel de informatie verwerkingstheorie genoemd. Volgens hem zorgt analyse voor sterk bewijs met betrekking tot het onderscheiden van twee basisvormen van integratieve activiteit van de cerebrale cortex, waardoor verschillende aspecten van de buitenwereld kunnen worden weerspiegeld. De theorie bevat drie functionele units in het brein:

Het verwerken van informatie gebeurt vanaf de lagere units naar de hogere units (aandachtsprocessen, selectieve aandacht en afleiding kunnen negeren, deze beginnen in bijvoorbeeld hersenstam en die informatie gaat naar cortex).
Het tweede deel bevat de sensorische delen van de cerebrale cortex. Deze functies zijn meer gelateraliseerd.
Het derde deel zit in de frontale lobben en daar gaat het om planning en motor output.

Volgens de theorie die hier op is gebaseerd begint de verwerking dus bij aandacht en is plannen de laatste stap:

Gelijktijdig verwerken (van informatie): dit wordt gekenmerkt door het uitvoeren van verschillende mentale activiteiten tegelijk. Een voorbeeld waarvoor je dit nodig heb is bijvoorbeeld het tekenen van een kubus, je hebt ruimtelijk inzicht nodig, motorische vaardigheden etc.
Opeenvolgend verwerken (van informatie): is nodig voor mentale activiteiten waarbij een juiste volgorde van activiteiten nodig is. Dit is bijvoorbeeld nodig voor het onthouden van een serie nummers.

Het vinden van taken die deze twee manieren van verwerken op hun pure manier kunnen testen is de uitdaging voor het toepassen van deze theorie op intelligentie.

Informatieverwerkingstheorieën van intelligentie

Deze theorieën stellen modellen op van hoe mensen informatie mentaal representeren en verwerken. Het heeft vaak de analogie van de computer. Het architecturale systeem (hardware) omvat de biologische benodigdheden voor informatieverwerking zoals coderingssnelheid. Het is vrij ondoordringbaar en daarom wordt het moeilijk veranderd door de omgeving.

Het executieve systeem (software) is wel makkelijk te beïnvloeden door de omgeving en het omvat componenten gerelateerd aan de omgeving die het probleemoplossend vermogen stuurt. Het geeft daarnaast leiding aan functionele componenten. Een voorbeeld is metacognitie, het denken over het denken. H is belangrijk bij leren en intelligentie.

Gardner en de theorie van multipele intelligenties

Gardner stelde een aantal criteria op, waarmee hij bepaalde of een intelligentie autonoom was:

Potentiële isolatie door breinschade.
Het bestaan van uitzonderlijke individuen op een gebied.
Identificeerbare kern handelingen die benodigd zijn.
Onderscheidende ontwikkelingsgeschiedenis.
Evolutionaire plausibiliteit.
Bewijzen van experimentele psychologie.
Bewijzen van psychometrische onderzoeken.
Vatbaar voor symbolische codering, zodat ermee gecommuniceerd kan worden.

Gardner stelde daarmee zeven natuurlijke intelligenties vast:

Linguïstisch.
Logisch-mathematisch.
Spatieel.
Muzikaal.
Lichaams-kinetisch.
Interpersoonlijk.
Intrapersoonlijk.

Lichaams-kinetische intelligentie omvat de vaardigheden die gebruikt worden door atleten, dansers, mime artiesten, etc. Persoonlijke intelligenties omvatten de capaciteit om toegang te hebben tot zowel iemands eigen gevoelens (intrapersoonlijk) als de vaardigheid om iemand anders zijn stemmingen, temperament, motivaties en intenties te herkennen en te onderscheiden (interpersoonlijk). Mensen met muzikale intelligentie kunnen gemakkelijk een instrument leren bespelen en hun eigen composities maken.

Savants geven een belangrijk inzicht in het bestaan van verschillende soorten intelligenties. Een savant is iemand die mentaal gebrekkig is maar zich ver ontwikkeld heeft in een bepaald gebied zoals muziek of kunst. De theorie is goed vanwege zijn simpelheid maar de empirische validiteit is lastig te onderzoeken.

Sternberg en de triarchie theorie van succesvolle intelligentie

Sternberg heeft een theorie opgesteld die triarchisch genoemd wordt omdat het drie aspecten van intelligentie benadrukt.

Componentiale/analytische intelligentie

Interne mentale mechanismen die verantwoordelijk zijn voor intelligent gedrag zijn:

Metacomponenten of executieve processen: deze sturen de activiteiten van de andere intelligentie processen, zoals planning.
Uitvoer componenten: de processen die gebruikt worden om een taak uit te voeren of probleem op te lossen, zoals het werkgeheugen of syllogistisch redeneren.
Kennis verwerving componenten: processen die gebruikt worden bij leren, zoals het gebruik van bepaalde vocabulaire in de juiste context.

Ervaring/creatieve intelligentie

Vermogen om te gaan met nieuwigheid
Vermogen om informatie processen te automatiseren

Contextuele/praktische intelligentie

Aanpassing tot de ‘echte wereld’ omgeving: als je de goede vaardigheden bezit die nodig zijn voor de cultuur waarin je leeft.
Selectie van een passende omgeving: de vaardigheid om de omgeving waar je je in bevind te verlaten en een omgeving te selecteren die beter van toepassing zijn op je talenten en behoeften.
Vormen van de omgeving: de vaardigheid om de bestaande omgeving zo te vormen dat deze consistenter is met je behoeften.

Voor de theorie heeft Sternberg de STAT intelligentietest gemaakt, die ook creatieve en praktische vragen bevat.

Onderwerp 5B: Waaruit bestaan de individuele tests van intelligentie en prestatie?

Oriëntatie

De volgende intelligentietests worden besproken:

Wechsler Adult Intelligence Scale (WAIS-IV).
Wechsler Intelligence Scale for Children (WISC-IV).
Stanford-Binet: Fifth Edition (SB5).

Detroit Tests of Learning Aptitude-4 (DTLA-4).
Cognitive Assessment System-II (CAS-II).
Kaufman Brief Intelligence Test-2 (KBIT-2).

Individuele testen van intelligentie en prestaties

De score van de algemene intelligentie is vaak niet waar onderzoekers naar zoeken. Als ze alleen daar naar op zoek waren zou elke test die dit kan prima zijn. Vaak zijn ze alleen op zoek naar het intellectueel functioneren en kijken ze dus ook naar de subtesten. Dan is het dus van belang dat ze de test gebruiken die het beste in kaart brengt wat ze willen weten. Er zijn veel intelligentietesten en elke maand komen er weer nieuwe bij. De volgende testen worden waarschijnlijk in 95% van de assessment gevallen gebruikt.

Wechsler Scales of Intelligence

De eerste intelligentietest van Wechsler, de Wechsler-Bellevue Intelligence Scale, werd uitgebracht in 1939. Hij zorgde dat de test de tekortkomingen van bestaande tests niet had. De bestaande tests waren niet beschikbaar voor volwassenen, waren teveel gericht op manipulatieve woorden, waren teveel gericht op snelheid in plaats van accuraatheid en het begrip mentale leeftijd was irrelevant.

Hij stelde de nieuwe formule voor IQ op:

IQ= verkregen score / verwachte score voor de leeftijd

Dit deed hij omdat hij zei dat IQ vrijwel constant blijft maar intellectuele vaardigheden over tijd kunnen veranderen. Daarnaast hoopte Wechsler de test te kunnen gebruiken voor psychiatrische diagnoses. Hiervoor maakte hij onderscheid tussen verbale - en prestatie intelligentie.

Verbaal > Performaal: gaf uitslag voor organische breinziektes zoals psychose en emotionele stoornissen.
Performaal > Verbaal: liet lichte mentale retardatie zien bij adolescenten en volwassenen.

Onderzoek heeft laten zien dat er vele uitzonderingen zijn op deze diagnostische regel, wel liet het zien dat het onderscheid maken tussen verbaal begrip en perceptuele redenatie (zoals wij het dus nu kennen) bruikbaar is op vele gebieden zoals het bestuderen van brein-gedrag relaties.

De latere Wechsler tests zijn vooral een groot succes door de betrouwbare inhoud en formule van de eerste test, waardoor testers onder andere weinig training nodig hadden om op een nieuwe versie over te stappen.

De laatste versies van Wechsler tests bevatten allemaal de volgende gemeenschappelijke kenmerken:

Dertien tot vijftien subtests die gebruikt worden om intra-individuele sterktes en zwaktes te meten in plaats van één globale score.
Empirisch onderbouwde scores en IQ-schalen. Eerst werd het onderverdeeld in verbaal IQ en performaal IQ, maar de laatste versies hebben indexscores in vier gebieden:

verbaal begrip;
perceptueel redeneren;
werkgeheugen;
verwerkingssnelheid.

Een zelfde maatstaf voor IQ en indexscore, te weten een gemiddeld IQ van 100 met standaardafwijking van 15. Op een subtest is dat een gemiddelde van 10 met standaardafwijking van ongeveer 3.
Een aantal dezelfde subtests voor verschillende testversies.

Wechsler subtests: beschrijving en analyse

Hier worden de verschillende subtests van de WISC-IV (kinderen) en WAIS-IV (volwassenen) besproken.

Informatie: bij deze test wordt feitelijke kennis getest over personen, plaatsen en algemene fenomenen. De meeste van deze informatie vragen zijn bekend wanneer iemand binnen de Westerse cultuur is opgegroeid. Deze subtest meet ook leren en geheugen vaardigheden omdat men kennis uit zijn geheugen moet ophalen. De informatie test is het beste meetinstrument voor algemene vaardigheden en laadt het sterkst op de factor Verbaal Begrip.
Digit span: bij digit span krijgen participanten een serie cijfers die ze vervolgens moeten herhalen (Digits Forward), achterstevoren moeten herhalen (Digits Backwards) of in de juiste numerieke volgorde moeten zetten (Digits Sequencing). Wanneer de persoon het goed heeft komt de volgende serie die een cijfer langer is, tot een maximum van 9 cijfers. Scores op deze test kunnen beïnvloed worden door angst of vermoeidheid, wat vaak te zien is bij psychiatrische patiënten. De verschillende soorten van de test meten verschillende vaardigheden, omdat Digits Backwards meer werkgeheugen en vaardigheden vergt dan Forward, wat enkel herhalen is.
Vocabulaire: bij deze test worden verschillende woorden genoemd waarna de participant moet vertellen wat deze woorden betekenen. Ze krijgen dan de volle scores als ze alle kenmerken van het woord noemen en een deel van de punten als ze een belangrijk onderdeel vergeten zijn. Het is de tweede beste meting voor algemene intelligentie.
Rekenkunde: bij deze test worden rekenproblemen verbaal voorgelegd die de participanten moeten beantwoorden. Sommige items kunnen lastig zijn, omdat het ook binnen een korte tijd beantwoord moet zijn. Rekenkunde laadt het sterkst op de factor Werkgeheugen.
Begrip: hierbij worden vragen gesteld die niet te maken hebben met feitelijke kennis, maar waarbij het belangrijk is dat men het kan uitleggen. Een voorbeeld is: ‘Wat betekent het spreekwoord: Beter een vogel in de hand, dan tien in de lucht?’ Er bestaat nog onenigheid over het feit of deze subtest vooral te maken heeft met het sociaal functioneren van de participant en of het daarmee dus ‘sociale intelligentie’ meet.
Gelijkenissen : hierbij wordt het vermogen van de participant getest om belangrijke van onbelangrijke kenmerken te scheiden bij objecten, feiten en ideeën. Er worden bijvoorbeeld twee voorwerpen gegeven (shirt en sokken) waarna gevraagd wordt waarin ze gelijk zijn (gemeenschappelijke concept). Het gaat erom dat de participant de belangrijke vergelijking kan onderscheiden van de onbelangrijke gelijkheid (dat ze allebei met de s beginnen).
Letter-nummer volgorde: hierbij krijgt de participant een serie van letters en cijfers, waarna hij van die serie eerst de cijfers en daarna de letters in de juiste volgorde moet zetten. Bijvoorbeeld de serie R-3-B-5-Z-1-C moet dan zijn 1-3-5-B-C-R-Z. Deze subtest meet samen met Digit Span en Rekenkunde het Werkgeheugen.
Afbeelding afmaken: hierbij worden afbeeldingen laten zien waarbij de participanten moeten aangeven welk belangrijk onderdeel er mist. De test gaat er vanuit dat de participant het object wel eens heeft gezien, dus kan het slecht zijn voor participanten uit een andere cultuur.
Afbeelding concepten: deze subtest wordt gebruikt bij kinderen. Een rij met plaatjes wordt laten zien en het kind moet aangeven welk concept de plaatjes gemeen hebben. Met elke serie wordt het concept abstracter en dus moeilijker te raden. Deze subtest zit alleen in de WPPSI-IV en de WISC-IV.
Blokdesign: hierbij moeten participanten een tweedimensionaal plaatje nabouwen met driedimensionale blokken. Het vergt analyse van spatiële relatie, visuele-motor coördinatie en het is minder onderhevig aan geheugen en eerdere ervaringen. Bij de moeilijkere series zijn bonuspunten te verdienen wanneer men het snel uitvoert.
Matrix redeneren: hierbij moeten participanten een patroon of relatie ontdekken in een rij van figuren (simpel) of in een 3x3 matrix (moeilijker), waarbij de laatste figuur ontbreekt die gekozen moet worden uit vijf keuzes. Het meet vooral vloeiende intelligentie.
Object montage: dit is alleen test voor peuters en kleuters, waarbij ze delen van een plaatje krijgen en die aan elkaar moeten leggen om het grote plaatje te krijgen, als een mini-puzzel. Deze subtest komt alleen voor in de WPPSI-III.
Coderen: dit is een subtest waarbij een cijfer gebonden is aan een bepaald symbool. Na een paar keer oefenen wordt een serie cijfers gegeven, waarna de bijbehorende symbolen in die volgorde moeten worden gegeven. Een aantal trials moeten binnen twee minuten worden gedaan. Coderen is uniek, omdat het de enige Wechsler taak is die een nieuwe taak aanleerd en gelijk test.
Symbool zoeken: dit is een subtest die verwerkingssnelheid meet, waarbij moet worden aangegeven of een paar symbolen links zich tussen een grotere groep symbolen rechts bevindt.
Annulering: hierbij moeten participanten op een groot vel papier alle dieren doorstrepen die tussen allemaal niet-dierlijke objecten staan. Er zijn twee trials: een met de dieren random verdeeld en een met een gestructureerde rijen en kolommen van dieren. Bij de WAIS-IV is deze test abstracter en wordt slechts gebruik gemaakt van twee target stimuli.
Visuele puzzels: hierbij moeten zes delen worden gekozen die een voorbeeldplaatje vormen. Het laadt het sterkst op de factor Perceptueel Redeneren. Deze subtest komt alleen voor in de WAIS-IV.
Figuur gewichten: dit is een onderdeel van de WAIS-IV dat Perceptuele Redenering meet. Er is een weegschaal met figuurtjes die aan 1 kant missen. De participant moet uit zes opties kiezen om de weegschaal in balans te houden. Deze subtest komt alleen voor in de WAIS-IV.

Wechsler Adult Intelligence Scale (WAIS-IV)

De WAIS-IV is een significante herziening op de WAIS-III. Het heeft nog veel oude items behouden, maar heeft twee nieuwe subtesten, een simpele structuur en legt de nadruk op index-scores waardoor een scherpere grens getrokken kan worden tussen discrete domeinen van cognitieve functies. De WAIS-IV bestaat uit 15 subtests, maar slechts 10 kern subtests zijn nodig om de IQ score en de indexscores te berekenen. De subtests zijn als volgt ingedeeld over de vier indexscores in plaats van enkel onderscheid te maken tussen verbaal en non-verbaal:

Verbaal Begrip:

gelijkenissen;
vocabulaire;
informatie.

Perceptueel Redeneren:

blokdesign;
matrix Redeneren;
visuele Puzzels.

Werkgeheugen:

digit Span;
rekenkunde.

Verwerkingssnelheid

symbool Zoeken;
coderen.

De Verbaal Begrip Index (VBI) is gelijk aan het oude Verbale IQ begrip. Perceptueel Redeneren Index (PRI) is verwant aan het oude Performaal IQ. Verbaal Begrip en Perceptueel Redeneren worden tegenwoordig gebruikt, omdat de begrippen beter passen in de factoranalyse.

De Werkgeheugen Index (WMI) bestaat uit subtests die aandacht en direct geheugen vergen. Relatief lage scores kunnen dus duiden op concentratieproblemen. De Verwerkingssnelheid Index (PSI) bestaat uit subtests die snelle verwerking van visuele informatie vergen en is gevoelig voor veel condities. De WAIS-IV is strenger in haar criteria dan de vorige drie WAIS-testen. Daarnaast is deze opvolger zowel bruikbaar voor de gezonde populatie als de populatie met geestelijke problemen.

Standaardisatie: de standaardisatie van de WAIS-IV is gedaan bij 13 verschillende leeftijdsgroepen vanaf 16 jaar bij 2200 volwassen gebaseerd op geslacht, etniciteit, scholing en regio. Het is gedaan bij coöperatieve, gezonde, Engels sprekende mensen zonder hersenschades.
Betrouwbaarheid: de WAIS-IV heeft een goede betrouwbaarheid wat betreft de split-half betrouwbaarheid voor de Indexscores en de volledige IQ scores. Dat betekent dat de WAIS-IV ook een goede test is voor speciale populatie bij wie slechts een Indexscore onderzocht hoeft te worden.
Validiteit: de WAIS-IV heeft een goede criterium validiteit, omdat het hoge correlaties heeft met bestaande intelligentietests. Ook heeft het goede convergente en discriminatie validiteit. De validiteit is ook goed bewezen door de sterke overlap met de vorige drie edities van de Wechsler intelligentietests.

Wechsler Intelligence Scale for Children-IV (WISC-IV)

Bij de eerste versie waren meerdere fouten te vinden: in het standaardisatiesample zat maar één cultuurgroep (blanken), waren er onduidelijkheden over het scoren, waren er ongepaste items voor kinderen en werd in de plaatjes bij items geen gebruik gemaakt van vrouwen of Afro-Amerikanen. Dit is allemaal aangepast in de WISC-IV.

De WISC-IV heeft 10 kern subtests en 5 aanvullende subtests. De kern subtests zijn blokdesign, gelijkenissen, digit span, afbeelding concepten, coderen, vocabulaire, letter-nummer ordenen, matrix redeneren, begrip en symbool zoeken. De aanvullende subtests zijn afbeelding afmaken, annulering, informatie, rekenkunde en woord redeneren.

De aanvullende subtests worden niet gebruikt om de algemene IQ scores te berekenen, maar kunnen ten eerste handig zijn wegens de belangrijke diagnostische informatie die zij verstrekken. Ten tweede kunnen ze als alternatief dienen voor een kern subtest, wanneer een kind zo’n test niet kan uitvoeren, bijvoorbeeld door motorische problemen.

De standaardisatie van de WISC-IV was goed, want de overeenkomst tussen de gestandaardiseerde steekproef en de data van het bevolkingsregister was bijna perfect. Daarom bestond ook 5.7% van de steekproef uit kinderen die verschillende problemen hadden, zoals hoogbegaafdheid, leerachterstand, autisme of motorische problemen.

De betrouwbaarheid van de WISC-IV is goed en vergelijkbaar met vorige versies. De coëfficiënten van de gehele IQ score zijn rond de .90, maar per subtest verschillen de coëfficiënten van .79 tot .90.

De validiteit van de WISC-IV is ook goed. De correlaties tussen de WISC-IV en de WISC-III met subtests rangeren van hoog in de .70 tot laag in de .80. De correlatie voor de algehele IQ score is hoger, namelijk .89. Ook de convergente validiteit en discriminant validiteit van de WISC-IV was hoog.

Door middel van factoranalyse is ook voor de WISC-IV verschillende indexen te ordenen, ook met een gemiddelde van 100 en standaardafwijking van 15:

Verbaal Begrip Index

gelijkenissen;
vocabulaire;
begrip.

Perceptueel Redeneren

blokdesign;
afbeelding Concepten;
matrix Redeneren.

Werkgeheugen

digit span;
letter-nummer Ordenen.

Verwerkingssnelheid

coderen;
symbool Zoeken.

Stanford-Binet Intelligence Scale: Fifth Edition (SB5)

De versies voor de vierde versie van de Stanford-Binet Test kon niet gebruikt worden voor een analyse van de subtesten. Er werd slechts een algehele IQ score gegeven.

De SB5 heeft vijf factoren van intelligentie die verdeeld worden over twee domeinen, waardoor er 10 subtests ontstaan:

Domeinen
Non-verbaal	Verbaal
Non-verbaal vloeiend redeneren	Verbaal vloeiend redeneren
Non-verbale kennis	Verbale kennis
Non-verbaal kwantitatief redeneren	Verbaal kwantitatief redeneren
Non-verbaal visueel-spatieel verwerken	Verbaal visueel-spatieel verwerken
Non-verbaal werkgeheugen	Verbaal werkgeheugen

Voordat de test afgenomen wordt, wordt een routing procedure gedaan om de algemene cognitieve vaardigheden van de participant te schatten. Het zorgt ervoor dat het aantal items tijdens de test verminderd kan worden, dit ook zonder meetfouten. Dit is mogelijk omdat de test is gebaseerd op de item response theory en moeilijkheidsgraden en andere parameters dus al bekend zijn sinds de ontwikkelingsfase.

De SB5 is te gebruiken voor zeer jonge kinderen tot hoogbegaafde volwassenen. De non-verbale subtests kunnen goed gebruikt worden voor personen die de taal niet goed beheersen zoals immigranten of doven. Een belangrijk kenmerk van de SB5 is dat er items staan die hoogbegaafdheid en mentale retardatie kunnen onderscheiden van de ‘gewone’ IQ scores. Daarnaast is er ook gekeken of de test eerlijk is als het gaat om cultuur-, geslachts- en religieverschillen. Dit is de eerste test die naar religie kijkt. Ook slechthorenden en mensen die slecht Engels spreken of communicatiestoornissen hebben kunnen deze test maken. De factor over werkgeheugen bevat zowel verbaal als non-verbaal geheugen wat uitkomst kan bieden in onderzoek naar kinderen met ADHD.

De standaardisatie is gedaan bij 4800 personen gebaseerd op het Amerikaanse bevolkingsregister. De validiteit van de SB5 is goed met correlaties van boven de .70. De robuuste correlaties met de SB4 laat zien dat de SB5 valide is, maar ook bruikbaarder is dan de SB4. Omdat de SB5 zo bruikbaar is voor beide extremen van het cognitieve spectrum zal het een goed instrument zijn om individuele intelligentie te testen.

Detroit Tests of Learning Aptitude-4 (DTLA-4)

De DTLA-4 is een test die gebruikt wordt voor kinderen tussen de 6 en 17 jaar. Met de test worden 16 composities berekend waaronder algemene intelligentie, optimaal niveau en 14 vaardigheden. Het bevat 10 subtests die veel lijken op de Binet-Wechsler tests. De algemene mentale vaardigheid compositie wordt berekend door middel van de standaardscores van de 10 subtests.

De optimaal niveau compositie is gebaseerd op de vier hoogste standaardscores en laat zien hoe goed de participant presteert onder optimale omstandigheden. Voor de andere 14 composities worden combinaties van bepaalde subtests gebruikt die samen een van de volgende composities meten:

linguïstisch (verbaal vs. non-verbaal);
attentie (aandacht verhogend vs. aandacht verlagend);
motorisch (motorisch verhogend vs. motorisch verlagend);
vloeiende intelligentie vs. gekristalliseerde intelligentie (Horn & Cattell);
gelijktijdig vs. opeenvolgend (Das & Naglieri);
verbaal vs. performaal (Wechsler).

Ze worden gebruikt om contrasterende composities met significante verschillen, een diagnostische verklaring te geven. Iemand die bijvoorbeeld goed scoort op aandacht verlagende taken, maar heel slecht op aandacht verhogende taken, heeft waarschijnlijk aan aandachtsproblemen.

Een probleem met deze test is dat er niet voldoende empirisch bewijs voor de composities bestaat. Een ander probleem is dat er meer composities zijn dan subtesten, waardoor de composities hoge intercorrelaties zullen hebben. Het is dus een goede test voor algemene intelligentie maar niet voor de composities. Betrouwbaarheid en validiteit zijn oké.

Cognitive Assessment System-II (CAS-II)

De CAS-II is gebaseerd op de PASS theorie van Das & Naglieri die eerder besproken is. De test is voor kinderen van 5 tot 17 jaar. De test bestaat uit 12 subtesten en neemt 60 minuten in beslag. Er bestaat een kleinere versie, van 8 subtesten maar het wordt afgeraden om deze te gebruiken. Voor elke schaal zijn bepaalde subtests beschikbaar:

Planning

Matched numbers: het kind moet de twee identieke nummers in een aantal rijen van 6 nummers onderstrepen.
Geplande codes: een code wordt aangeleerd en vervolgens wordt dit getest door de missende codes te moeten invullen.
Geplande connecties: er moeten lijnen worden getekend tussen punten op volgorde van alfabet en nummer (1-A-2-B-3-C, etc.).

Aandacht

Uitdrukkende aandacht: dit is een soort Stroop taak, waarbij de kleur van de woorden moet worden genoemd.
Nummer detectie: het kind moet cijfers onderstrepen, maar alleen als het op een bepaalde manier gedrukt is.
Ontvankelijke aandacht: eerst onderstreept het kind letter combinaties die fysiek hetzelfde zijn (TT, niet Tt), en daarna combinaties die qua naam hetzelfde zijn (Bb, niet Ba).

Gelijktijdige verwerking

Non-verbale matrixen: in een 3x3 matrix moet een logische serie gevonden worden zodat het lege vakje rechtsonder kan worden ingevuld.
Verbaal spatiële relaties: zes plaatjes met figuurtjes worden laten zien en het kind moet de relatie vinden, om de vraag te kunnen beantwoorden (bijv.: wijs het vierkantje rechts van de cirkel aan).
Figuur onthouden: een tekening wordt laten zien, maar vervolgens moet het kind de tekening herkennen in een groter en complexer plaatje.

Opeenvolgende verwerking

Woord series: een serie van twee tot negen woorden moeten worden herhaald.
Zin herhalen: zinnen moeten hardop worden gelezen en vervolgens herhaald, wanneer ze niet meer te zien zijn.
Zin vragen (8 tot 17 jaar): er worden vragen gesteld over zinnen die beantwoord moeten worden.

De scores bij kinderen met ADHD kwamen overheen met de scores die verwacht waren aan de hand van al bekende informatie over de scores bij kinderen met ADHD.

Het verschil tussen donkere en blanke kinderen is minimaal wanneer er gecontroleerd wordt voor achtergrond. Daarnaast zijn er hoge correlaties tussen de scores en de prestaties op school gevonden. De test is dus bruikbaar voor het speciaal onderwijs. Het is een veelbelovende test die het verdient om meer gebruikt te worden. De betrouwbaarheid en validiteit zijn heel goed.

Kaufman Brief Intelligence (KBIT-2)

Aan de eerder genoemde testen hangen twee grote nadelen:

De testen nemen heel veel tijd in beslag: zeker een uur.
De persoon die de test afneemt moet goed getraind zijn om de testen goed te kunnen afnemen.

Kaufman heeft toen een makkelijke en korte test ontwikkeld als oplossing voor deze problemen. De test bestaat uit een verbale schaal die twee typen items bevat: verbale kennis en raadsels en een non-verbale schaal die bestaat uit matrix items (2x2 en 3x3 figuurlijke analogieën).

Deze test is bruikbaar voor mensen tussen 4-90 jaar en kan afgenomen worden in ongeveer 20 minuten. Er wordt wederom een M=100 en SD=15 gehanteerd. Kaufman maakt wel duidelijk dat deze test de traditionele testen niet kan vervangen, het is meer een instrument voor screening voor bijvoorbeeld de volgende doeleinden:

Een snelle schatting van intelligentie maken waar accurate scores niet essentieel zijn.
Schatting van verbale versus non verbale intelligentie.
Het opnieuw evalueren van de intellectuele status van eerder geteste mensen.
Het screenen van studenten die mogelijk voordeel hebben bij een gifted-program.
Het screenen van studenten met een hoog risico die mogelijk verdere assessment nodig hebben.
Een snelle schatting van intelligentie maken bij behandeling van volwassenen.

Individuele prestatietests

Waar de intelligentietests meten hoe breed de mentale vaardigheden van een persoon zijn, daar meten prestatietests wat een persoon geleerd heeft op school of een cursus. De focus ligt hier op individuele tests, dus die 1 op 1 worden afgenomen.

Kaufman Test of Educational Achievement-II (KTEA-II)

De KTEA-II wordt gebruikt voor kinderen van 4,5 jaar tot 25 jaar. Er bestaat een korte, uit 3 subtesten bestaande versie en die kan gebruikt worden voor mensen die zelfs ouder zijn dan 90. Voor het in kaart brengen van leerproblemen wordt alleen wel de volledige versie aangeraden. Het bestaat uit acht subtests verdeeld over vier gebieden:

Lezen:

letter en woord herkenning;
leesbegrip.

Wiskunde:

wiskundige concepten en toepassingen;
wiskundige berekeningen.

Geschreven taal:

geschreven uitdrukking;
spellen.

Gesproken taal:

luister begrip;
gesproken uitdrukking.

Er kunnen drie compositiescores worden berekend: lezen, rekenen en geschreven taal. Daarnaast kan er ook een totale score worden berekend. Voor diagnostische doeleinden bestaan er ook nog meer subtesten voor leesvaardigheden. Voor oudere kinderen neemt deze test 80 minuten in beslag, voor jongere kinderen 30 minuten.

Aard en assessment van leerachterstanden

Een leerachterstand werd omschreven als een ernstig verschil tussen de algemene intelligentie en specifieke prestaties op een van de volgende gebieden: gesproken uitdrukking, luisterbegrip, geschreven uitdrukking, basisniveau lezen, leesbegrip, mathematisch rekenen en mathematisch redeneren. Een ernstig verschil werd beschreven als een of meer standaardafwijkingen tussen een algemene intelligentie en een specifieke prestatie. Deze definitie was echter te streng, waardoor kinderen die wel degelijk een leerachterstand hadden, niet door de ‘selectie’ kwamen, maar wel degelijk meer hulp nodig hadden.

De nieuwe definitie van een leerachterstand omschreef het als intrinsiek voor het individu, dat een disfunctie van het centraal zenuwstelsel de oorzaak is, en dat het kan uitlopen tot in de volwassenheid. Er werd met deze definitie een betere scheiding gemaakt tussen vaardigheid en prestatie.

Sinds 2004 is er een nieuwe aanpak voor het identificeren van leerproblemen. Er wordt niet meer enkel gekeken naar het discrepantiemodel maar ook naar de reactie op een interventie. Er wordt dan gebruik gemaakt van wetenschappelijk ontwikkelde interventies. Deze methode gaat dus niet alleen om het identificeren maar ook gelijk om het vergroten van de capaciteit van het schoolsysteem om te kunnen reageren op de verschillende behoeften van de leerlingen.

De aanpak bestaat uit meerdere stappen en start al aan het begin van het jaar met een algemene screening van alle kinderen om te kijken wie er risico loopt. De kinderen die er dan uitspringen krijgen gedurende 8 weken een interventie, bij wie het niet aanslaat wordt nogmaals voor 8 weken een andere interventie ingezet. Als het dan nog niet aanslaat wordt op individuele basis gekeken waar de problemen vandaan komen en kan het kind mogelijk geplaatst worden in het speciaal onderwijs.

Uiteindelijk zijn er vijf kenmerken te geven voor een leerachterstand:

Een leerachterstand is een wanverhouding binnen een persoon wat betreft cognitief functioneren. Maar het is niet slechts een verschil tussen een algemene IQ score en prestatie test scores.
De leerachterstand moet niet bepaald zijn door een andere beperkende condities, zoals retardatie of visuele beperking.
Een leerachterstand is heterogeen, dus er zijn veel verschillende varianten.
Een leerachterstand ontstaat vaak vroeg in de kindertijd en kan bestaan tot in de volwassenheid. Dit wordt onderzocht door middel van longitudinale onderzoeken, maar hier moet echter niet enkel naar academische prestaties gekeken worden, omdat ook sociale en emotionele problemen een rol kunnen spelen.
Personen met een leerachterstand ondervinden vaak sociale en emotionele problemen die vaak net zo ernstig zijn als de academische prestaties. Deze problemen kunnen ook bestaan tot in de volwassenheid.

De oorzaak ligt soms in het brein, zoals bij dyslexie,. Daarbij is de linker hemisfeer beperkt. Beperking van de rechter hemisfeer gaat gepaard met problemen in non-verbale taken. Vaak is de oorzaak van een leerachterstand echter niet bekend.

Wel is het duidelijk dat leerachterstanden grote invloed op het leven van de kinderen. Daarom zijn individuele prestatietests het beste om dit te meten. Deze testen worden individueel afgenomen en meten academische vaardigheden. Dit is het punt waar problemen zijn. Het gaat vaak om het identificeren van specifieke probleemgebieden en hier moet rekening mee worden gehouden bij het kiezen en afnemen van een test.

Hoe worden 'speciale populaties' getest? - Chapter 7

Onderwerp 7A: Wat omvat een voorschoolse assessment?

Assessment van de capaciteiten van baby’s

De baby en peuter periode (voorschoolse periode) duurt van de geboorte tot ongeveer 6 jaar. In deze periode ontwikkelen kinderen de basis reflexen en motoriek. Echter, sommige kinderen lopen hiermee achter en ouders willen vaak weten hoe ver het kind achterloopt en of ook hun emotionele ontwikkeling goed verloopt. Aan de andere kant zijn er ook kinderen die juist voorlopen. Assessments voor baby’s en peuters helpen dit te onderzoeken.

De ‘Neonatal Behavorial Assessment Scale’ (NBAS) wordt gebruikt om de gedragingen van pas geboren kinderen te onderzoeken. Er worden 28 gedragingen gescoord op een 9-puntsschaal. Voorbeelden zijn reactie op licht, knuffelbaarheid en oriëntatie naar levenloze stimuli. Ook worden 18 reflexen gecontroleerd, zoals de Babinski reflex, zuigreflex, grijpreflex of het rooting reflex. Als laatst worden de kwaliteiten van responsiviteit van de zwakke kinderen getest met onder andere de kwaliteit van alertheid, algemene prikkelbaarheid en emotionele respons.

De NBAS wordt gebruikt als feedback voor de ouders dus het heeft geen echte scoringstabel. De ontwikkelaars willen hiermee benadrukken dat een hechte ouder-kind relatie het belangrijkst is. Er zijn wel onderzoekers die een scoring systeem voor de NBAS hebben uitgebracht met 7 clusters: habituatie, oriëntatie, motor prestaties, arousal, regulatie, autonome stabiliteit en reflexen. De betrouwbaarheid van dit scoringssysteem is laag, er moet dus opgepast worden met interpretatie. De ontwikkeling van baby’s verandert namelijk snel en sterk.

De Bayley-III is beschikbaar voor kinderen van 1 tot 42 maanden. De test bestaat uit 5 domeinen met representatieve schalen, namelijk:

Cognitieve schaal: 91 items, omvat onder andere zintuig accuratesse, perceptieve vaardigheden, aandacht, puzzel oplossen, het matchen van kleuren, tellen en onderzoekend en manipulerend gedrag. Deze schaalt kent geen subschalen.
Taalschaal: 48 items, omvat receptieve en uitdrukkende communicatie, zoals herkenning van geluiden, non-verbale expressie, identificeren van actie plaatjes, objecten benoemen, vragen beantwoorden en het volgen van simpele aanwijzingen. Deze schaalt kent drie subscores: expressieve communicatie, receptieve communicatie en taalbeheersingsscore.
Motorschaal: 138 items, omvat grove en fijne motor vaardigheden, zoals manipuleren van objecten, functioneel gebruik van de handen en motor planning. Deze schaalt kent drie subscores: grove motoriek, fijne motoriek en een algemene motorische score.
Sociaal-emotionele schaal: 35 items, omvat interactief en nuttig gebruik van emoties, uitdrukken van gevoelens en het verbinden van ideeën en emoties met elkaar. Deze schaal kent geen subscores.
Aanpassend gedrag schaal: ouders vullen in hoe het kind scoort op onderdelen zoals communicatie, gezondheid en veiligheid, zelfzorg. Deze schaalt heeft voor elk onderdeel een subscore.

Uit de Bayley-III volgt geen algemene score omdat dit misleidend kan zijn vanwege de vele vaardigheden die getest worden. De test is juist bedoelt om schaalscores te gebruiken voor diagnose en assessment. De betrouwbaarheid van de test is redelijk, omdat het een test voor jonge kinderen is die van zich snel ontwikkelen waardoor latere testscores anders kunnen zijn (vooral bij fijne motor vaardigheden). De validiteit is wel goed met correlaties tussen de .72 en .79.

De Devereux Early Childhood Assessment-Clinical Form (DECA-C) is gemaakt als assessment voor kinderen van 2 jaar tot ongeveer 6 jaar met sociale of emotionele problemen. De test focust zich op de protectieve factoren van (de omgeving van) het kind die de problemen deels kunnen opvangen. De test bevat ook probleemschalen.

De test is gebaseerd op de ‘resilience theory’, die stelt dat protectieve factoren bestaan op drie niveaus: omgeving, familie en binnen-kind. De protectieve factoren kunnen in een Totale Protectieve Factor Score worden gevormd door middel van drie schalen:

Initiatief: onderzoekt het vermogen van het kind om onafhankelijk te denken en te gedragen naar zijn behoeften. Items stellen: ‘het kind krijgt dingen door zichzelf’.
Zelfcontrole: onderzoekt de capaciteiten van het kind om zijn verschillende emoties op een sociaal wenselijke manier te ervaren en uiten. Items stellen: ‘het kind kan zijn temperament controleren’.
Hechting: onderzoekt de vorming van sterke en langdurende relaties met ouders, familie en leraren. Items stellen: ‘het kind accepteert de comfort van volwassen, wanneer hij van streek is’.

De probleemfactoren kunnen tot een Totale Probleem Factor Score worden gevormd door middel van vier schalen:

Aandachtsproblemen: onderzoekt het vermogen van het kind om te focussen op een taak en niet afgeleid te worden door de omgeving. Items stellen: ‘het kind verliest snel de concentratie.’
Agressie: meet agressieve of vernielende gedragingen richting andere personen of dingen. Items stellen: ‘het kind vernielt persoonlijk bezit van anderen’.
Teruggetrokkenheid/depressie: onderzoekt zelfingenomenheid en emotionele/sociale teruggetrokkenheid. Items stellen: ‘het kind lijkt in zijn eigen wereld te leven’.
Problemen met emotionele controle: meet de problemen met het controleren van negatieve emoties gerelateerd aan doelgericht gedrag. Items stellen: ‘het kind is van streek, wanneer dingen niet op zijn manier gaan.’

Uit verschillende studies bleek dat de betrouwbaarheid van de DECA-C goed is. Ook blijkt de test valide en nuttig te zijn.

Natuurlijk moet met het onderzoeken van jonge kinderen rekening gehouden worden met het lastige feit dat ze nog vol in ontwikkeling zijn, en dus vaak niet luisteren naar instructies. Dat maakt het onderzoeken erg lastig.

Assessment van voorschoolse intelligentie

Wanneer men de intelligentie van jonge kinderen onderzoekt moet er goed rekening gehouden worden met het feit dat lage scores niet direct betekenen dat het kind lage cognitieve vaardigheden heeft. Het kan namelijk ook aan het concentratie vermogen van het kind liggen of aan bijvoorbeeld omgevingsfactoren.

De volgende drie testen zijn bedoeld om de intelligentie te meten bij kinderen: DAS-II, WPPSI-IV en Early SB5.

DAS-II

De Differential Ability Scales-II (DAS-II) kan gebruikt worden voor drie leeftijdscategorieën, maar hier leggen we de focus op voorschoolse kinderen van 3 tot 6 jaar. De DAS-II bestaat uit tien kern subtests, gebruikt voor het meten van cognitieve vaardigheden en 10 diagnostische subtests, gebruikt voor aanvullende informatie over gereedheid voor school en informatieverwerking.

De kern subtests komen overeen met de g factor van intelligentie en bevatten drie clusterscores voor: verbale vermogen, non-verbaal redeneervermogen en spatieel vermogen. Hieruit kan een Algemeen Functioneel Vermogen (GCA) en een Speciaal Non-verbale Compositie (SNC) worden berekend. Het GCA wordt gezien als voorloper van het IQ.

De diagnostische subtests van de DAS-II worden alleen gebruikt voor klinische analyses en zijn minder onder invloed van de g factor. Ze verschaffen nuttige informatie voor het ontdekken van leerproblemen en de gereedheid voor school, en kunnen dus ook gebruikt worden om kern subtests eventueel te vervangen.

De DAS-II is een betrouwbaar meetinstrument gezien de hoge betrouwbaarheidscoëfficiënten maar zoals vaak bij onderzoek van jonge kinderen zijn test-hertest betrouwbaarheidsstudies over meerdere weken minder hoog wegens de ontwikkeling van de kinderen. De validiteit is goed, gezien de hoge correlaties met vergelijkbare tests.

WPPSI-IV

De Wechsler Preschool and Primary Scale of Intelligence-IV (WPPSI-IV) wordt gebruikt voor kinderen van 2 tot 7 jaar, hier wordt alleen de test voor oudere voorschoolse kinderen besproken in de leeftijd van 4 tot 7 jaar. Een voordeel van deze test is dat er kindvriendelijk en speels stimulus materiaal wordt aangeboden.

Er zijn vijf primaire index schalen met ieder twee subtests die de cognitieve vaardigheden van kinderen samenvatten. De volledige WPPSI-IV omvat 13 subtests maar er zijn slechts 6 (de schuingedrukte) nodig om een IQ score te berekenen.

Verbaal begrip, subtests: informatie en gelijkenissen.
Visueel-spatieel, subtests: blokdesign en object montage.
Vloeiend redeneren, subtests: matrix redeneren en plaatjes concepten.
Werkgeheugen: subtests: plaatjes onthouden en dierentuin locaties.
Verwerkingssnelheid: insecten zoeken en annulering.

Daarnaast zijn er vier ondergeschikte indexschalen: vocabulaire verwerving, non-verbaal, algemene vaardigheden en cognitieve bekwaamheid. Deze indexschalen kunnen nuttig zijn voor speciale omstandigheden, zoals dove kinderen of kinderen met langzame verwerking.

Early SB5

De Stanford- Binet Intelligence Scales for Early Childhood (Early SB5) combineert de subtests van de SB5 met nieuwe Test Observatie Checklists (TOC) en ouderverslagen. Die worden gebruikt om een beeld te krijgen van het gedrag van het kind tijdens de test. Een bepaalde gedraging, zoals het niet beantwoorden van een vraag, kan namelijk meerdere betekenissen hebben bij kinderen. Het kind kan het echt niet weten maar het kind kan ook verveeld, bang of afgeleid zijn.

De TOC bestaat uit een deel dat kijkt naar kenmerken van het kind en een deel dat kijkt naar specifieke gedragingen van het kind. Kenmerken van het kind omvatten: motor vaardigheden, activiteitsniveaus, aandacht/afleiding, impulsiviteit, taalvaardigheid.

Specifieke gedragingen omvatten consistentie in prestaties, gemoedstoestand, frustratie tolerantie/agressiviteit, motivatie, faalangst, mate van meewerken of weigeren hiervan, angst, behoefte aan begeleiding, gedrag richting ouders, laten zien van test-gedragingen.

Praktisch nut van assessment van voorschoolse kinderen

Test scores die in de eerste twee jaar van het leven worden verkregen lijken vaak een minimale voorspellende validiteit te hebben. Daarom is het goed de rol hiervan te bekijken door middel van een aantal voorspellende studies.

Voorspellende validiteit

Vaak wordt er gevonden dat er een positieve correlatie is tussen de voorschoolse resultaten en de resultaten van kinderen wanneer ze op school zitten. Deze correlatie is echter niet heel sterk. De correlatie wordt pas sterker wanneer de kinderen 19 maanden zijn. Dan pas hebben de resultaten een sterke, significante en betekenisvolle correlatie met het latere IQ. Hierbij geldt: hoe ouder het kind is tijdens het testen, hoe sterker de relatie met het latere IQ. Rond het 8^e levensjaar blijft het IQ redelijk stabiel. Uit de resultaten blijkt dat tests met baby’s een lage voorspellende validiteit hebben en met voorschoolse kinderen of peuters een gemiddelde validiteit.

Praktisch nut van baby schalen

De belangrijkste reden voor tests bij baby’s is het screenen voor ontwikkelingsstoornissen. Vroege interventie zorgt voor betere uitkomsten later in het leven. Uitzonderlijk lage scores op de Bayley test, met name op de mentale schaal, kunnen mentale zwakzinnigheid voorspellen. Verder geldt dat voor geteste ‘risicovolle’ baby’s de voorspellende validiteit hoger is dan voor normale kinderen. Het is dus wel degelijk nuttig om baby’s te testen.

Fagan Test of Infant Intelligence (FTII)

Lewis vond dat traditionele tests vroege informatieverwerkingsprocessen over het hoofd zagen, die cognitief functioneren kunnen voorspellen. Bij zijn test wordt bijvoorbeeld visuele habituatie voor nieuwe stimuli onderzocht bij baby’s van 3 maanden. De correlaties met resultaten op latere leeftijden waren gemiddeld, wat betekent dat cognitief functioneren al vroeg voorspeld kan worden.

Fagan ontwikkelde zijn FTII met inspiratie van deze test. Een gezicht wordt getoond aan een baby, later wordt een vergelijkbaar gezicht getoond of hetzelfde gezicht maar met een andere uitdrukking. Gemeten wordt hoe lang de baby naar het nieuwe gezicht kijkt. De betrouwbaarheid is hoog, wegens een grote interbeoordeling overeenstemming. Aan de voorspellende validiteit van de FTII wordt sterk getwijfeld omdat er lage correlaties worden gevonden met de resultaten voor cognitief functioneren op latere leeftijd. Daarom wordt de FTII eerder gezien als een screeningsinstrument voor ontwikkelingsachterstanden dan als een voorspeller van algemene intelligentie.

Screenen voor gereedheid voor school

Om te definiëren wat gereedheid is om naar school te gaan worden vijf modellen gebruikt:

Ontwikkelingsmodel: volgens dit model is leeftijd de beste manier om te bepalen of een kind gereed is om naar school te gaan, omdat het de beste indicator is voor de ontwikkeling van het kind.
Omgevingsmodel: hierbij wordt de gereedheid gebaseerd op welke vaardigheden het kind bezit wat betreft sociale ervaringen, dus moeten ouders hierover beslissen.
Constructivistisch model: hierbij is een kind gereed voor school als het niet alleen goed kan omgaan met ouders, maar ook met slimmere leeftijdsgenootjes en volwassenen, dus moeten meerdere mensen meebeslissen.
Cumulatieve-vaardigheden model: hierbij wordt de gereedheid bepaald door te kijken hoeveel vaardigheden het kind al bezit die nodig zijn om fundamentele onderwerpen te leren, zoals rekenen en lezen.
Ecologisch model: hierbij wordt de gereedheid niet alleen binnen het kind zelf gezien, maar als een interactie tussen de ontwikkelingen van het kind en de omgevingen van het kind. Hieruit volgt dus een complex en kwalitatief besluit.

Screeningstests moeten snel en simpel zijn, maar kunnen daardoor wel bepaalde fouten hebben. Er kunnen vals-positieve kinderen zijn, die de test falen, maar bij wie eigenlijk niets ontbreekt. En er kunnen vals-negatieve kinderen zijn die de test wel halen, maar eigenlijk een achterstand hebben. Glascoe en Shapiro (2005) gaven vijf valkuilen wat betreft screeningstests:

Wachten tot het probleem observeerbaar is.
Negeren van screeningsresultaten.
Vertrouwen op informele methodes.
Gebruik van ongeschikte tests.
Er vanuit gaan dat diensten niet bestaan of gelimiteerd zijn.

Een goede screeningstest zou aan de volgende criteria moeten voldoen:

Het primaire doel is screenen, dus niet onderzoeken, diagnosticeren of voorspellen.
Screening wordt voorzien in gebieden als: motor, taal, cognitief, sociaal en emotioneel functioneren.
Test-hertest betrouwbaarheden moeten minstens .70 zijn.
Concurrentie validiteit moet minstens .70 zijn.
Sensitiviteit en specificiteit voor positieven en negatieven moet minsten .70 zijn.
De test moet minder dan 30 minuten duren.
De test moet kinderen van diverse culturen kunnen screenen.
Een minimum aan expertise is nodig om de test af te nemen.

DIAL-4

De Developmental Indicators for the Assessment of Learning-4 (DIAL-4) is een snel en efficiënte screeningstest voor leeftijden 2 tot 5 jaar. Het test vijf gebieden. Drie daarvan zijn belangrijke ontwikkelingsdomeinen: motor, concepten en taal. De andere twee (zelfhulp en sociaal-emotioneel) worden ingevuld door de ouders en leraar van kleuterschool.

De scoring laat ruimte open voor subjectieve interpretaties, wat de betrouwbaarheid van de test vermindert. Met behulp van normscores kan gezegd worden of een kind op een gebied gemiddeld scoort of dat hij een ‘potentiële achterstand’ heeft. De betrouwbaarheid is redelijk goed. Ook de inhoudsvaliditeit en criterium validiteit waren hoog. De constructvaliditeit werd getest of de drie gebieden overeenkwamen met de items en dat was ook zo.

De scepsis is er vooral wat betreft het praktische nut van de DIAL-4. Sensitiviteit cijfers liepen van .73 tot .82, wat hoog is, maar dat betekent nog steeds dat 18 tot 27 procent van potentieel achterlopende kinderen niet zo gescreend wordt. Specificiteit cijfers liepen van .82 tot .86, wat betekent dat 14 tot 18 procent van de normale kinderen gescreend wordt als potentieel achterlopend.

Denver-II

Deze test bestaat uit 125 items verdeeld over vier gebieden: persoonlijk-sociaal, fijne motor-aanpassingen, taalvaardigheid en grove motorvaardigheden. De test produceert geen ontwikkelingsquotiënt, maar een score die beschreven wordt als normaal, twijfelachtig of abnormaal. De betrouwbaarheid is heel hoog met cijfers boven de .90. De voorspellende validiteit van de Denver-II is echter twijfelachtig, omdat de sensitiviteit wel hoog is, maar de specificiteit niet hoog; veel normale kinderen werden als twijfelachtig of abnormaal bestempeld.

HOME

De Home Observation for Measurement of the Environment (HOME) wordt gebruikt om de fysieke en sociale omgeving van de kinderen te observeren, terwijl ze thuis zijn. De HOME volgde na de SES. Dat was een hypothese die stelde dat kinderen van een hogere sociale klasse, van een rijkere en warmere omgeving genieten. Het werd indirect gemeten via het werk en onderwijs van de ouders.

De HOME observeert echter direct om te onderzoeken of bepaalde cruciale interacties en ervaringen aanwezig zijn. Het meet de kwaliteit en kwantiteit van de stimulatie en ondersteuning voor cognitieve, sociale en emotionele ontwikkelingen die thuis beschikbaar zijn.

De onderzoeker scoort dichotoom of bepaalde items aanwezig zijn of niet. Die zijn onderverdeeld in zes subschalen:

Emotionele en verbale responsen van de ouder.
Acceptatie van het gedrag van het kind.
Organisatie van de omgeving.
Voorziening van geschikt speelgoed.
Ouderlijke betrokkenheid met het kind.
Variatie van stimulatie.

De betrouwbaarheid van de HOME is redelijk. Sommige subschalen hebben maar weinig items, waardoor de betrouwbaarheid niet heel hoog kan zijn. De interbeoordelingscijfers waren wel hoog, evenals de internet consistenties. De validiteit van de HOME is ook gemiddeld. De correlaties met de SES horen significant te zijn, maar niet volledig gerelateerd en uit onderzoeken bleek dat inderdaad het geval.

De HOME is niet alleen veelbelovend in onderzoek maar is ook een praktisch instrument voor interventies.

Onderwerp 7B: Hoe kunnen personen met beperkingen worden getest?

Niet-talige tests

Dit zijn tests die zo min mogelijk geschreven of gesproken taal tussen participant en tester hebben. De Leiter-R test is een non-verbale test voor kinderen van 2 tot 21 jaar die geen gesproken taal nodig heeft en dus gebruikt kan worden voor kinderen die de taal niet spreken, kinderen met autisme, hersenschade en spraak- of gehoorproblemen. Kinderen moeten kleine kaartjes met figuurtjes matchen met een voorbeeld. De Leiter-R test heeft 20 subtests verdeeld over twee testbatterijen: Visualisatie & Redenering en Geheugen & Aandacht.

Het is een betrouwbare test met cijfers boven de .90. Omdat de Leiter-R alleen non-verbaal is, kan het gebruikt worden voor verschillende doelgroepen. De empirische studies steunen het gebruik van de test, omdat het nuttig bleek voor medisch zwakke kinderen, laagfunctionerende kinderen met autisme en kinderen met een taalgebrek. Ook de validiteit was hoog, namelijk r=.80.

Veel kinderen tekenen uit zichzelf al menselijke figuren, dus bedacht Florence Goodenough (1926) de Draw-A-Man test die herzien werd door Harris in 1963. Deze was echter niet helemaal niet-talig, omdat de instructies mondeling gegeven werd. Het doel was om intelligente ontwikkeling te meten, dus hoe gedetailleerder hoe beter de score.

Naglieri gebruikte deze techniek en ontwikkelde in 1988 de Draw A Person test (DAP), waarbij hij ook een kwantitatief scoringssysteem toevoegde. De DAP wordt geprezen vanwege de duidelijke scoring, sterke betrouwbaarheid en goede standaardisatie, maar de validiteit is minder goed. Het identificeert kinderen met leerachterstanden en ontwikkelingsgebreken niet effectief genoeg.

De Hiskey-Nebraska Test of Learning Aptitude (H-NTLA) is een niet-talige test en wordt gebruikt voor kinderen van 3 tot 17 jaar. Het bestaat uit 12 subtests, waaruit een Afwijkend Leer Quotiënt (LQ) wordt berekend. De betrouwbaarheid is hoog, maar wordt minder na een aantal jaar. De validiteit is redelijk, gezien de correlaties met andere prestatie tests.

De Test of Nonverbal Intelligence-4 (TONI-4) is een niet-talige test voor personen van 6 tot 90 jaar. Het bestaat uit 60 abstracte figuren waarbij de participanten relaties moeten ontdekken tussen een aantal figuren. De test heeft drie scoringsmethodes: leeftijdsvergelijkingen, percentiel rangen en TONI-4 quotiënten (gemiddelde 100, sd 15). De betrouwbaarheid is goed (>.90). Verder wordt de TONI-4 aanbevolen als intelligentietest voor personen met gebrekkige taalvaardigheden.

Niet-lees tests en motor-verminderde tests

De Peabody Pictur Vocabulary Test-IV (PPVT-4) is nuttig voor personen die zich verbaal niet kunnen uitdrukken en voor personen die verzwakte motorcondities hebben. De test heeft twee parallelle versies, waarvan vier oefenborden en 228 testborden die plaatjes bevatten. De tester spreekt een stimulus woord uit en de persoon moet het plaatje aanwijzen die het beste er bij past.

De betrouwbaarheid is hoog, maar valt nog tegen onder kinderen van buitenlandse afkomst. De validiteit is van de PPVT-4 is goed, maar alleen als meetinstrument voor vocabulaire en niet als meetinstrument voor algemene intelligentie.

Personen testen met visuele beperkingen

Mensen die wettelijk blind zijn, mensen die minder dan 10% met het goede oog zien, hebben speciale tests nodig om goed onderzocht te worden. De Wechsler test die hiervoor is omgezet is de Haptic Intelligence Scale for the Adult Blind (HISAB). Deze bestaat uit zes subtests van Digit Symbolen, Blokdesign, Object montage en Plaatje afmaken. De andere twee zijn Rekenkundige sommen en matrix redeneren met behulp van een voel-bord.

Een ander instrument is de Blind Learning Aptitude Test (BLAT), voor kinderen van 6 tot 16 jaar. Deze test bestaat uit zes subtests die werken met een soort van brailleschrift.

Bij de Intelligence Test for Visually Impaired Children (ITVIC) test worden de non-verbale subtests van IQ-tests vervangen door tests waarbij je moet voelen: haptische subtests. De verbale subtests blijven normaal. Deze is voor kinderen van 6 tot 15 jaar.

Personen testen die doof of slechthorend zijn

Een test in gebarentaal kan niet altijd de oplossing zijn, omdat niet ieder persoon dezelfde soort gebarentaal beheerst. Als er gebruik wordt gemaakt van iemand die vertaalt in gebarentaal, kan dit slecht zijn voor de validiteit, omdat de vertaler de inhoud onbewust kan veranderen. Daarom is het beste als de examinator gebarentaal kan, zodat de test gestandaardiseerd blijft. De Wechsler tests zijn het best om te gebruiken voor dove of slechthorende personen.

Onderzoek van verstandelijk beperkten

Het onderzoeken van verstandelijk beperkten is lastig. Iemand is verstandelijk beperkt als zijn IQ beneden de 75 is. Verstandelijke beperking wordt aangegeven op een continuüm van mild, gemiddeld, ernstig en zeer ernstig. Daarnaast moet de persoon ook moeite hebben met aanpassingen van gedrag in conceptueel, sociaal en praktische vaardigheden.

Deze vaardigheden worden onderzocht met verschillende meetschalen. De Scale of Independent Behavior-Revisted (SIB-R) bestaat uit 259 items verdeeld over 14 subschalen die verdeeld zijn over vier clusters: motor vaardigheden, sociale en communicatieve vaardigheden, persoonlijke levensvaardigheden en samenlevingsvaardigheden. De scores uit deze vier clusters geeft een Onafhankelijkheidsscore. Daarnaast geeft de SIB-R aan of er probleemgedragingen zijn en hoe ernstig deze zijn.

De SIB-R geeft dus een goed beeld hoe de persoon functioneert in het echte leven thuis, op school en in openbare gelegenheden. Daarnaast is de standaardisatie, betrouwbaarheid en validiteit ook voldoende.

De Inventory for Client and Agency Planning (ICAP) wordt gebruikt voor kinderen en volwassenen die van de geboorte af aan of later in het leven afhankelijk zijn geworden. De focus ligt op het bepalen van welke soort zorg er nodig is. De test wordt ingevuld door een zorgdragende en er is ook ruimte om probleemgedrag en maladaptief gedrag aan te geven. Het voordeel van dit instrument is dat er een Service Score uitkomt die aangeeft hoe hoog de urgentie is voor aandacht, toezicht en training voor de persoon. Hoe lager de score, hoe hoger de urgentie.

Als laatst is er de Vineland Adaptive Behavior Scale (VABS-II) die een evaluatie geeft in de volgende domeinen: communicatie, dagelijks levensvaardigheden, socialisatie en motor vaardigheden. De voorspellende validiteit van de schaal is goed.

Onderzoek van autisme spectrum stoornissen

Autisme is niet een enkele stoornis maar bestaat uit meerdere stoornissen in een spectrum. Mensen met autisme verschillen van elkaar, maar hebben allemaal moeilijkheden met sociale vaardigheden, communicatie vaardigheden en flexibel gedrag. Daarnaast missen mensen met autisme ook vaak empathie.

Een meetinstrument voor autisme is de Modified Checklist for Autism in Toddlers (M-CHAT) voor 16 tot 30 maanden oude kinderen. Het is een checklist van 23 items die aangeeft dat er eventueel sprake kan zijn van autisme. De M-CHAT heeft echter een hoog vals-positieven ratio, maar dat kan acceptabel zijn voor het aantal kinderen dat wel goed gediagnosticeerd wordt. Het is namelijk van groot belang dat kinderen met autisme vroeg ontdekt worden om hen op een zo vroeg mogelijke leeftijd te helpen.

Een ander veelgebruikt instrument is de Baby and Infant Screen for Children with Autism Traits, BISCUIT-1. Die bestaat uit 71 items op een 3-puntsschaal voor kleuters voor kinderen van 17 tot 37 maanden. Ook de BISCUIT-1 is een goed meetinstrument voor het ontdekken van autisme.

Waar vinden persoonlijkheidstesten hun oorsprong? - Chapter 8

Onderwerp 8A: Waaruit bestaan de persoonlijkheidstheorieën en projectieve technieken?

Persoonlijkheidsbegrip

Persoonlijkheid is een vaag begrip, maar we kunnen twee kenmerken onderscheiden. Ten eerste is elk persoon tot een bepaalde hoogte consistent, we hebben coherentie eigenschappen en actiepatronen die herhaaldelijk voorkomen en ten tweede is elk persoon onderscheidend tot een bepaalde hoogte. Persoonlijkheid beschrijft de verschillen in gedrag tussen personen en de consistentie van gedrag binnen een persoon.

Psychoanalytische theorieën

Psychoanalyse was een creatie van Sigmund Freud. Tijdens het onderzoeken van hysteria ontwikkelde Freud zijn algemene theorie van het psychologisch functioneren. Zijn theorie gaat over het onderbewuste als fundament. Hij zei dat ons onderbewuste bestaat uit gedachten en wensen die te onacceptabel zijn om het bewustzijn te betreden. De meest significante motivaties liggen dus niet in ons bewustzijn. Freud dacht ook dat deze motivaties in dromen op een verborgen manier naar voren kwamen. In die tijd is er een groot scala aan testen ontwikkeld om dit onderbewustzijn bloot te leggen, zoals inkblot testen, woordassociatie benaderingen en storytelling testen. Deze testen konden het onderbewustzijn bloot leggen door de dubbelzinnige en ongestructureerde antwoorden van de cliënt op de juiste manier te interpreteren. Deze testen hebben een grote invloed gehad op persoonlijkheidstesten.

De geest bestaat volgens Freud uit drie onderdelen:

Id: ligt volledig in je onderbewustzijn en is het deel dat gaat over instinctmatige behoefte zoals eten, drinken, seksuele bevrediging en het ontwijken van pijn. Het id heeft één doel en dat is het onmiddellijk voldoen in deze behoeftes volgens het pleasure principle. Dit principe houdt in dat er een impuls richting het onmiddellijk voldoen in de behoefte zonder rekening te houden met waardes, goed of fout of sterfelijkheid bestaat. Het id heeft ook geen logica of besef van tijd (we worden ermee geboren).
Ego: dit is ons bewustzijn. Het doel van het ego is het bemiddelen tussen het id en de realiteit. Het is een onderdeel van het id en een dienaar ervan. Het ego is dus grotendeels bewust en werkt volgens het realiteitsprincipe. Het zoekt realistische en veilige manieren om de impulsen die vanaf het id komen te ontladen (dit ontwikkelt zich vlak na de geboorte).
Superego: het ethische deel van onze persoonlijkheid dat zich ontwikkelt in de eerste 5 jaar van ons leven. Het ego en superego moeten met elkaar strijden om acties wel of niet naar boven te laten. Het superego gaat over de maatschappelijke standaarden van goed en fout die we leren van onze ouders. De superego is deels bewust maar grotendeels onbewust. Het probeert de acties van het id en ego te onderdrukken en zijn grootste wapen is schuld. Het ego moet dus niet alleen een veilige en realistische weg zoeken om in behoeften te voorzien, maar ook een moreel juiste om straf van het superego te ontlopen. Het superego heeft ook te maken met het ideale ego. Het ego meet zichzelf met dit ideaalbeeld en probeert daar zo dicht mogelijk bij in de buurt te komen. Het ideaal bevat onze doelen en streven. Wanneer dit niet lukt kunnen we ons schuldig voelen. We voelen onszelf dan minderwaardig.

Het ego kan zijn werk doen door dat het beschikking heeft over verschillende mentale strategieën: verdedigingsmechanismen. Verdedigingsmechanismen hebben drie algemene kenmerken. Ten eerste onderdrukt het angst dat voortkomt uit conflicterende eisen van het id, superego en de realiteit. Angst en defensiemechanismen zijn complementaire concepten voor Freud. Ten tweede opereren verdedigingsmechanismen allemaal onbewust, ondanks dat ze uitgevoerd worden door het bewuste ego. Ten derde vervormen ze de innerlijke en uiterlijke werkelijkheid, waardoor angst verminderd kan worden.

Psychotische verdedigingsmechanismen zijn het minst gezond, omdat ze de realiteit extreem vervormen. Het omvat het ontkennen van de werkelijkheid en het extreem vervormen van de werkelijkheid (wanen). De tweede groep mechanismen is ‘acting out’ en bestaat uit onaangepaste gedragingen, zoals agressief of impulsief gedrag. Borderline mechanismen zorgen dat het beeld van anderen (of van de zelf) veranderen van heel goed naar heel slecht. Het omvat het splitten van persoonlijkheidskenmerken en een schizoïde fantasie. De vierde groep, neurotische mechanismen, en omvatten kleine veranderingen van de werkelijkheid. Er wordt gebruik gemaakt van repressie en verplaatsing. Obsessieve mechanismen komen veel voor en omvatten bijvoorbeeld het isoleren van affect of intellectualisatie. De laatste groep, ‘mature’ mechanismen, hebben de minste verandering van de werkelijkheid en houden gemakkelijke waarden in stand. Het omvat gedragingen als altruïsme, humor, suppressie, anticipatie of sublimatie.

Er is een test uitgebracht om de verdedigingsmechanismen te kunnen scoren: DMRS. Het wordt kwantitatief gescoord en er komt een Overall Defensive Functioning Score uit. Instrumenten als de DMRS kunnen empirische validatie leveren voor psychoanalytische theorieën, maar het gebruik ervan vergt veel training en tijd.

Typetheorieën van persoonlijkheid

Friedman en Rosenman onderzochten psychische variabelen die de kans op hart- en vaatziekten vergroten. Ze concludeerden dat mensen met een Type A gedragspatroon vatbaarder zijn voor dit soort ziektes. Type-A personen zijn altijd onzeker, onafhankelijk van hun prestaties, geven vaak niet om de gevoelens van concurrenten, zijn vijandig en snel geïrriteerd. Ze voelen daarnaast ook een soort van druk om dingen snel gedaan te hebben. Vaak maken ze gebruik van multitasking. Er zijn verschillende onderzoeken gedaan om verder bewijs te vinden dat type-A gedragingen samenhangen met een verhoogd risico op CHD maar hier zijn verschillende uitkomsten van. Het sterkste bewijs wordt gevonden in blanke werkende mensen.

Het is echter al door meerdere studies aangetoond dat Type A gedrag geen op zichzelf staande risicofactor is voor hart- en vaatziekten maar dat het meer specifieke componenten van het type A gedrag zijn die dit kunnen veroorzaken. Het gedrag kan gemeten worden door middel van interviews of vragenlijsten. Vragenlijsten zijn alleen minder goed, omdat non-verbaal gedrag niet opgemerkt kan worden,terwijl dat juist vaak kenmerken laat zien van type A gedrag.

Fenomenologische persoonlijkheidstheorieën

Rogers heeft de meeste invloed gehad binnen deze benadering. Zijn bijdrage aan de persoonlijkheidstheorie, bekend als de self-theory, is uitgebreid en wordt bewonderd door veel psychologiestudenten. Daarnaast heeft hij geholpen met het populair maken van de Q-techniek.

Deze techniek is een procedure om veranderingen in het zelfconcept te bestuderen. De test bestaat uit veel kaarten waar statements opstaan. De cliënt moet dan van 100 van deze kaarten 9 stapels maken waarvoor de hoeveelheid kaarten per stapel vast staat, om een soort normaalverdeling te creëren. De kaarten die het meest op de cliënt slaan moet hij aan de ene kant leggen en de kaarten die het minst op hem slaan aan de andere kant. De kaarten waar hij onverschillig over is of niet over kan beslissen belanden in het midden. De onderzoeker kan zelf de items vormen naar de behoefte van de cliënt. Het scoren van deze test gaat door middel van het vergelijken van de verdeling met een al gevormde norm. De test kan ook worden gescoord zoals Rogers het deed: de verdeling vergelijken met de ideale manier van sorteren van de cliënt. De discrepantie wordt dan gebruikt als index voor aanpassing. Zijn cliënten moesten de stapel dan twee keer verdelen met de volgende instructies: 1) self-sort, sorteer de kaarten om jezelf te beschrijven zoals je jezelf vandaag ziet. 2) Ideal sort, sorteer de kaarten nu om de ideale persoon te beschrijven, de persoon zoals je zelf graag wil zijn.

Gedragstheorieën en sociale leertheorieën

Een belangrijke assumptie is dat veel van de gedragingen die de persoonlijkheid kenmerken aangeleerd zijn. Behavioristen stellen dat de omgeving gedragingen vormt en in stand houdt. Ze zijn het fundamenteel oneens met de rol die cognities spelen in gedrag. Sociale leertheorieën stellen dat we verwachtingen en regels over de omgeving leren en niet alleen stimulus-respons connecties. Moderne sociale leertheorieën stellen dat cognities invloed hebben op acties.

Rotter ontwikkelde de Internal – External Scale (I-E Scale) om de interne/externe locus van controle te meten. De locus van controle verwijst naar de bron van dingen die mensen overkomen. De I-E Scale meet dus of de participanten voelen dat zij de controle over gebeurtenissen hebben (interne locus of control) of dat de controle niet bij hun ligt (externe locus of control). Een interne locus is vaak positiever dan een externe locus van controle.

Bandura stelde het begrip zelf-efficiëntie op. Zelf-efficiëntie gaat over in hoeverre mensen denken dat ze in staat zijn om op bepaalde situaties te reageren/te handelen. Het verklaart waarom goede kennis niet altijd efficiënte acties oplevert. Hij heeft ook meetschalen voor zelf-efficiëntie opgesteld, waarbij participanten moeten aangeven hoe goed zij zichzelf vinden functioneren op bepaalde taakjes.

Karaktertrekken opvattingen over persoonlijkheid

Een karaktertrek is elke manier waarop een individu op lange termijn verschilt van een ander. De theorieën hierover verschillen of ze persoonlijkheid indelen in categorieën of dimensies. Cattell maakte onderscheid tussen ‘surface traits’ en ‘source traits’. ‘Surface traits’ zijn duidelijke aspecten van persoonlijkheid die makkelijk te zien zijn in gedragingen. ‘Source traits’ zijn de stabiele en constante bronnen van gedrag. Ze zijn minder zichtbaar, maar wel belangrijker voor verklaring van gedrag. Hij analyseerde onderliggende persoonlijkheidstrekken door middel van factor analyse. Hieruit volgden 16 persoonlijke karaktertrekken, waarmee hij de Sixteen Personality Factor Questionnaire (16PF) opstelde.

Het vijf factor model van persoonlijkheid stelt dat vijf dimensies de basis vormen voor persoonlijkheid. Ze zijn verklaard door middel van een fundamentele lexicale hypothese: termen van karaktertrekken zijn in de taal blijven staan, omdat ze belangrijke informatie geven over ons gedrag met anderen. Daarnaast is er ook evolutionaire ondersteuning voor deze theorie. De 5 trekken bevatten verschillen tussen individuen die gerelateerd zijn aan basis evolutionaire functies zoals overleven en voortplanting. Volgens Goldbert stellen mensen zichzelf 5 vragen als het gaat om hun interactie met anderen:

Is X active en dominant of passief en een volgeling?
Is X agreeable?
Kan ik vertrouwen op X?
Is X gek of stabiel?
Is X slim of dom?

Al deze evaluaties hebben direct of indirect iets te maken met overleven en voortplanten. Ze komen ook overeen met de 5 karaktertrekken.

In het Engels zijn de dimensies te onthouden met acroniem OCEAN:

Openness to Experience
Conscientiousness
Extraversion
Agreeableness
Neuroticism

Hieruit zijn meerdere persoonlijkheidstests gekomen zoals de NEO-PI-R en de NEO-FFI. Er bestaan verschillende kanttekeningen over karaktertrek-theorieën. Ten eerste is het niet duidelijk of ze gedrag veroorzaken of alleen gedrag beschrijven. Ten tweede hebben de theorieën een lage voorspellende validiteit.

Projectieve hypotheses

Bij projectieve tests krijgen participanten onduidelijke stimuli aangeboden en moeten ze reageren met hun eigen constructies. De projectieve hypothese stelt dat persoonlijke interpretatie van ambigue stimuli de onderbewuste behoeften, motieven en conflicten van de participant reflecteren. Projectieve tests moeten hieruit onderliggende persoonlijkheidsprocessen zien af te leiden. Ze zijn ingedeeld in associatietests, constructietests, voltooiingstests, en expressietests.

Associatietechnieken

De bekendste associatietest is de Rorschachtest, waarbij participanten plaatjes met inktvlekken te zien krijgen en daarbij moeten zeggen wat ze erin zien. Er is een systeem voor ontwikkeld genaamd de Rorschach Performance Assessment (R-PAS). Deze schrijft precies voor hoe de test moet worden afgenomen, gescoord en geïnterpreteerd. Zo is de test goed gestandaardiseerd is. Daarnaast blijkt uit interbeoordeelaar correlaties dat de test betrouwbaar is.

De validiteit is echter twijfelachtig. Een onderzoek vindt correlaties tussen subscore Complexiteit en coping vaardigheden en toont hiermee de validiteit van de test aan. Anderen stellen dat het formeel scoren onzinnig is, en dat de test enkel goed is als aanvulling op een diagnostisch interview. De antwoorden kunnen namelijk inzicht geven in persoonlijke, onlogische en vreemde associaties.

Daarnaast zijn er ook andere valide scoringsytemen voor de Rorschachtest. De RPRS heeft een ingewikkeld puntensysteem waar bij goede antwoorden punten gegeven worden en slechte worden afgetrokken. De RPRS geeft de uiteindelijke scores aan in termen van hoe succesvol een behandeling zal zijn.

De TDI is vooral te gebruiken bij patiënten met mentale wanorde, van licht verwarrende gedachten tot bizarre, schizofrene disorganisatie. De TDI scoort de antwoorden op hoe vreemd en onsamenhangend deze zijn.

Toch is de Rorschachtest erg controversieel. In 1980 deden onderzoekers een studie naar de vatbaarheid voor vervalsers. Zowel geïnformeerde als ongeïnformeerde studenten, die speelden alsof ze schizofrenie hadden, werden vergeleken met personen die echt schizofrenie hadden. Het bleek dat de geïnformeerde studenten vaker gediagnosticeerd werden dan de echte patiënten (72 tegenover 48 procent) en van de ongeïnformeerde studenten werd 42% gediagnosticeerd. De test is ooit ontwikkeld voor kinderen, maar wordt voornamelijk bij volwassenen afgenomen.

Voltooiingstechnieken

Bij zin-voltooiingstests krijgen participanten 40-100 die ze moeten aanvullen. Deze zinnen kunnen bepaalde thema’s bevatten die dus onbewust beschreven worden. De tests kunnen zowel subjectief en kwalitatief als objectief en kwantitatief gescoord worden.

De Rotter Incomplete Sentences Blank (RISB) is er voor middelbare school scholieren, studenten en volwassenen. In de objectieve scores krijgt elk antwoord een score van 0 (positieve aanvulling) tot 6 (negatieve aanvulling). De betrouwbaarheid is goed, zelfs bij mensen die weinig psychologische kennis hebben. De validiteit is ook goed, want een bepaalde cut-off score schijnt goed de eventuele pathologie bij de participant te voorspellen.

Een probleem is wel, net zoals bij andere self-reports dat je alleen te weten komt wat de cliënt wil dat je weet en een enkele score kan nooit de nuances van het persoonlijk functioneren omvatten.

Constructietechnieken

De Thematic Apperception Test (TAT) bestaat uit 30 afbeeldingen over verschillende onderwerpen en thema’s. De afbeeldingen zijn in het zwart-wit en één is blanco. Sommige afbeeldingen worden alleen voor een bepaalde doelgroepen gebruikt zoals volwassen vrouwen, volwassen mannen, jongens, meisjes of een combinatie hiervan.

Voor elke doelgroep bestaan 20 afbeeldingen. De participant moet dan een verhaal vertellen wat over wat er op de afbeelding gebeurt. Vaak wordt gezien dat bepaalde thema’s terugkomen in de verhalen. Deze terugkerende thema’s zeggen dan iets over de persoon. Er zijn veel scoringssystemen maar meestal komt het neer op de kwalitatieve interpretatie van de testafnemer. Het feit dat er geen gestandaardiseerde manier is maakt het dat deze test eigenlijk alleen gebruikt kan worden als aanvulling. Het is lastig om iets te zeggen over psychometrische kenmerken van deze test omdat er zo veel scoringssystemen zijn. Over het algemeen heeft de TAT een lage test-hertest betrouwbaarheid (.28). Daarnaast wordt er vaak op intuïtie een uitspraak gedaan over de antwoorden van de cliënt en dit kan snel leiden tot over-diagnose. De test is wel heel bruikbaar door onderzoeksdoeleinden.

De Picture Projective Test (PPT) was een verbetering op de TAT, want er werden andere afbeeldingen gebruikt die van zichzelf al minder duister en deprimerend zijn. De afbeeldingen die hiervoor zijn gebruikt moesten voldoen aan 4 criteria:

De afbeelding moest de belofte wekken voor betekenisvol projectief materiaal.
De meeste, maar niet alle, afbeeldingen moesten meer dan één menselijk karakter bevatten.
Ongeveer de helft van de afbeeldingen moesten bij de afgebeelde personen positieve affectieve expressies laten zien.
Ongeveer de helft van de afbeeldingen moest mensen bevatten die bewegen en niet simpel staan, zitten of liggen.

Het bleek ook dat de participanten positievere verhalen vertellen bij de PPT. Daarnaast legt de PPT meer nadruk op interpersoonlijke thema’s in plaats van intra-persoonlijke thema’s en hierom dus ook meer nadruk op gezonde persoonlijkheidsaanpassing.

Vergeleken met de TAT was de PPT beter in het onderscheid tussen psychotische patiënten en normale/depressieve participanten. Wel moet er nog meer onderzoek komen naar de psychometrische kwaliteiten van deze test.

Voor kinderen is er de Children’s Apperception Test (CAT). Deze test bestaat uit 10 plaatjes en is geschikt voor kinderen tussen de 3 en 10 jaar. De afbeeldingen zijn dieren in typisch menselijke setting (CAT-A). Het idee hierachter is dat kinderen zich beter kunnen identificeren met dieren dan met mensen. Voor oudere kinderen is wel een versie beschikbaar met mensen (CAT-H). Er is geen vaste manier voor scoren en is ook geen statistische informatie over validiteit en betrouwbaarheid. De diagnose wordt gesteld aan de hand van 10 variabelen die worden opgenomen in elk verhaal:

Main theme;
main hero;
main needs and drives for hero;
conception of environment;
perception of parental, contemporary and junior figures;
conflicts;
anxieties;
defences;
adequacy of superego;
integration of ego.

Ook zijn er andere varianten op de TAT ontwikkeld voor etnische, ras en taal minderheden. De T-TAT is geschikt voor Afro-Amerikanen maar er waren onbedoelde veranderingen in gezichtsuitdrukkingen en situaties waardoor het eerder een nieuwe versie van de TAT is.

De TEMAS is bedoeld voor Spaans-Amerikaanse mensen en bestaat uit 23 kleurrijke afbeeldingen. De test bevat 18 cognitieve functies, 9 persoonlijkheidsfuncties en 7 affectieve functies als thema. Via deze test kun je ook verschillende objectieve indexen zoals reactietijd meten. De test heeft wel een inconsistente betrouwbaarheid en validiteit.

Expressietechnieken

Bij deze tests wordt de participanten gevraagd een tekening te maken. Bij de DAP wordt gevraagd een persoon te tekenen. De interpretatie gebeurt geheel intuïtief door de testafnemer. Deze test wordt echter slecht empirisch onderbouwd. De House-Tree-Person test (HTP) wordt de participant gevraagd een huis, boom en een persoon te tekenen. Bij het interpreteren van de tekeningen moet het huis het thuisleven voorstellen, de boom representeert de ervaring van de omgeving en de persoon reflecteert de interpersoonlijke relaties. Het is echter een invalide meetinstrument. Al met al gebruiken de meeste clinici de projectieve technieken niet meer als test, maar als aanvulling op het klinische interview.

Onderwerp 8B: Waaruit bestaan zelfrapportage en gedragsassessment van psychopathologie?

Eerder zijn de protectieve persoonlijkheidstesten besproken. Er bestaan ook structurele testen. Deze testen hebben specifieke regels over het afnemen, scoren, interpreteren en beschrijven van de test en haar resultaten. Deze testen worden ook wel objectief genoemd maar daar mag je eigenlijk pas van spreken na uitgebreid onderzoek. Er zijn drie tactieken voor het ontwikkelen van gestructureerde persoonlijkheidstesten: theorie gebonden, factoranalyse en criterion-key. Veelal wordt een combinatie van deze methodes gebruikt.

Theorie gestuurde tests

Dit soort tests worden ontwikkeld rondom een bestaande theorie.

Personality Research Form (PRF)

De PRF is gebaseerd op Murray’s theorie over manifeste behoefte, de behoeften waarin een persoon wilt voorzien. Voorbeelden hiervan zijn autonomie, dominantie, impulsiviteit en verandering. De PRF reflecteert 20 van dit soort behoeften in 20 persoonlijkheidsschalen. Elke schaal heeft ongeveer 20 waar-onwaar items. Er zijn meerdere versies beschikbaar met meer of minder items. Het opvallende is dat de verschillende schalen weinig overlap hebben. Toch is de betrouwbaarheid en validiteit van deze test hoog.

State-Trait Anxiety Inventory (STAI)

De STAI is een zelfrapportage voor het meten van angst. Het doel van de test is onderscheid te maken tussen een tijdelijke staat van angst (stait-anxiety) en een langdurende, stabiele staat van angst (trait-anxiety). De staat-schaal bevat 20 items over hoe de participant zich op het moment voelt. De kenmerk-schaal bevat 20 items over hoe de participant zich over het algemeen voelt. De test-hertest betrouwbaarheden zijn logischerwijs laag voor de staat-schaal en hoog voor de kenmerk-schaal. Verder zijn andere betrouwbaarheden zoals de interne consistentie ook hoog. Daarnaast is de inhoud, convergente, discriminant, en constructvaliditeit hoog. Daarom is de STAI is een veelgebruikt instrument in de klinische en onderzoeksector.

Tests voortgekomen uit factoranalyse

Eysenck Personality Questionnaire (EPQ)

De EPQ was ontwikkeld om de grote dimensies van normale en abnormale persoonlijkheidsdimensies te meten. Uit de analyse volgden drie dimensies: Psychoticisme (P), Extraversie (E), en Neuroticisme (N). Daarnaast werd een Lieg-schaal (L) toegevoegd voor de validiteit. Een hoge score op de psychotische schaal wijst op agressieve en vijandige kenmerken, impulsiviteit, een voorkeur voor ongewone dingen en empathische beperkingen. Antisociale en schizoïde patiënten hebben vaak een hoge score op deze schaal. Een hoge score op de extraversie schaal wijst op luide, gezellige, extraverte, van plezier houdende kernmerken. Een lage score wijst juist op introverte kenmerken. De schaal van neuroticisme staat voor de emotionele dimensies die variëren van nerveus, slecht aangepast en overemotioneel (een hoge score) tot stabiel en zelfverzekerd (een lage score).

Er is ook een Junior-EPQ beschikbaar voor kinderen van 7 tot 15 jaar. De betrouwbaarheden en validiteit van de EPQ zijn hoog. De EPQ is een zeer goed instrument voor zelfrapportage.

Comrey Personality Scales

De CPS is een korte zelfrapportage en is vooral goed bruikbaar voor studenten en andere volwassenen. De betrouwbaarheid is hoog. Over de validiteit is meer onenigheid. Zo is de cross-culturele validiteit uitmuntend en is het ook een acceptabele voorspeller voor klinische doeleinden. Het ontbreekt echter aan de correlatie met de biografische data.

De test bestaat uit 8 schalen met 20 items en 20 items voor validiteit (eerste 2 schalen):

Validiteitscheck: test voor tegensprekende antwoorden.
Responsbias: test voor de neiging om goed over te komen.
Vertrouwen vs. defensief: hoge scores is een eerlijk en betrouwbaar persoon.
Orde vs. gebrek aan dwang: voorzichtig, ordelijk en georganiseerd.
Sociaal acceptabel vs. rebellerend: aan regels houden, accepteren van maatschappij.
Actief vs. gebrek aan energie: veel energie om hard te werken en presteren.
Extraversie vs. introversie: makkelijk in de omgang, nieuwe vrienden zoeken.
Emotioneel stabiel vs. neurotisch: optimistisch, zelfverzekerd en relaxed.
Mentaal sterk vs. gevoelig: zijn taai en laten weinig emoties zien.
Empathie vs. egoïstisch: behulpzaam, gul en sympathiek.

Criterium gebaseerde tests

Bij de criterium gebaseerde manier worden testitems alleen gebruikt wanneer ze een criterium-groep van een controlegroep kunnen onderscheiden.

Minnesota Multiphasic Personality Inventory-2 (MMPI-2)

De MMPI is een zelfrapportage die goed bruikbaar is in psychiatrische onderzoek en normaal persoonlijkheidsonderzoek. In de eerste versie was de controle normgroep niet goed representatief. Daarnaast was het taalgebruik van sommige items niet objectief en te sturend. Als laatst was de MMPI niet breed genoeg.

Daarom kwam de MMPI-2 die op veel punten verbeterd was. De test bestaat uit 567 waar-onwaar items die pathologische thema’s bevatten. De test is gestandaardiseerd op normgroepen van verschillende psychische patiënten. De MMPI-2 wordt gescoord op 4 validiteitsschalen, 10 standaard klinische schalen en nog veel aanvullende schalen.

De eerste validiteitsschaal is de Cannot Say schaal. De score is het aantal items dat de participant niet, of dubbel heeft aangevinkt. De tweede validiteitsschaal is de L-schaal. Dit zijn items die een attitude aangeven die bijna nooit gezien wordt in onze cultuur. Het zijn items die iedereen hetzelfde zou invullen (zoals ik word nooit boos, ik hou van iedereen). Hoge scores op de F-schaal betekenen ernstig onaangepast gedrag. Het lijkt psychopathologie aan te tonen, maar zelfs patiënten scoren zelden hoog. De K-schaal wordt gebruikt om subtiele vormen van verweerbaarheid te ontdekken. Combinaties van F en K schaal kunnen gebruikt worden om voorgewende ziektes of neppe profielen te ontdekken.

De MMPI-2 wordt altijd gescoord op zijn tien klinische schalen, met daarbij mogelijke interpretaties.

Hs. Hypochondria, vooringenomenheid over fysieke condities.
D. Depression, verdrietige gevoelens en hopeloosheid.
Hy. Hysteria, onvolwassenheid, gebruik van dwang of ontkenningsgedrag
Pd. Psychpathic deviate, autoriteitsconflicten en impulsiviteit.
Mf. Masculity-feminity, mannelijke/vrouwelijke interesses.
Pa. Paranoia, achterdocht en vertrouwen.
Pt. Psychasthenia, angst en obsessieve gedachten.
Sc. Schizophrenia, Vervreemding, ongebruikelijke gedachtegangen.
Ma. Hypomania, veel energie en mogelijk nerveuze spanningen (agitatie).
Si. Social introversion, verlegenheid en introversie

De MMPI-2 kan per schaal geïnterpreteerd en gescoord worden door middel van T-scores. Daarnaast is er een configurele methode waarbij van de schalen codetypes worden gemaakt. Hierbij zijn twee of meer schalen boven een bepaald criterium (‘elevation’) en verschillen twee of meer schalen significant van de anderen (‘definition’). Deze scoringmethodes kunnen ook via de computerprogramma’s gedaan worden.

De MMPI-2 beschikt over een aardige betrouwbaarheid. Interne consistentie coëfficiënten zijn boven .70 en test-hertests boven de .50 en .90. Een nadeel is echter dat de inter-correlaties van de schalen erg hoog zijn. De validiteit van de MMPI-2 is ook goed. De MMPI-2 zal dan ook nog voor vele jaren een vooraanstaand testinstrument blijven.

Er bestaat ook een gecomputeriseerde manier van interpreteren en daarvan is het Minnesota Report de beste. Deze vormt een 16 pagina's lang report over de validiteit van het profiel, symptoom patronen, interpersoonlijke relaties, diagnostische overwegingen en overwegingen voor behandeling. Ook bevat het meerdere tabellen en figuren om deze resultaten te illustreren. Het is in principe een goed programma, maar men moet er rekening mee houden dat het door mensen is gemaakt en dat er dus fouten in kunnen zitten. Er kan dus sprake zijn van foutieve interpretaties.

Millon Clinical Multiaxial Inventory-III (MCMI-III)

De MCMI-III is net als de MMPI-2 goed bruikbaar voor psychiatrisch onderzoek, maar de MCMI-III is ten eerste korter (175 items) en kan ten tweede gebruikt worden in combinatie met de DSM-IV. De test bestaat uit 5 groepen van schalen:

Klinische persoonlijkheid patronen: 1. Schizoïde, 2a. Vermijdend, 2b. Depressief, 3. Afhankelijk, 4. Theatraal, 5. Narcistisch, 6a. Antisociaal, 6b. Agressief/sadistisch, 7. Compulsief, 8a. Passief-agressief/negativistisch, 8b. Zelfvernietigend.
Ernstige persoonlijkheid pathologie: S. Schizotype, C. Borderline, P. Paranoïde.
Klinische syndromen: A. Angst, H. Somatoform, N. Bipolar: manisch, D. Disthyme depressie, B. Alcohol afhankelijk, R. Post-traumatische stress stoornis.
Ernstige syndromen: SS. Gedachtenstoornis, CC. Grote depressie, PP. Waanstoornis.
Validiteit indexen: X. Disclosure, Y. Desirability, Z. Debasement.

De ontwikkeling van de schalen werd gedaan op bestaande patiëntengroepen, zodat de schalen verschillende patiënten konden onderscheiden. De intercorrelaties waren echter ietwat te hoog. Ook was het controversieel dat hij alleen maar patiënten als normgroep heeft gebruikt.

Personality Inventory for Children (PIC-2)

De PIC-2 is ontwikkeld voor kinderen van 5 tot 19 jaar oud. De test bestaat uit een onderdeel dat door het kind zelf wordt ingevuld (PIY) en een onderdeel dat door de leraar wordt ingevuld (SBS). De PIC-2 heeft drie validiteitsschalen: inconsistentie, dissimulatie (nep doen) en weerbaarheid. Daarnaast heeft de test 9 aanpassingsschalen met ieder 2 of 3 subschalen:

Cognitieve achterstand: ontoereikende vaardigheden, slechte prestaties, ontwikkelingsachterstand.
Impulsiviteit en afleiding: probleemgedrag en angst loosheid.
Delinquent gedrag: antisociaal gedrag, geen controle, ongehoorzaam.
Familie disfunctie: ruzie met familieleden, onaanpassend gedrag richting ouders.
Werkelijkheid verdraaiing: ontwikkelingsafwijking, hallucinaties en wanen.
Somatische zorgen: psychosomatische vooringenomenheid, spierspanning en angst.
Psychologisch incomfortabel: angst en zorgen, depressie, slapeloosheid.
Sociale terughoudendheid: sociale introversie, isolatie.
Sociale vaardigheden problemen: weinig vrienden, ruzie met leeftijdsgenootjes.

De PIC-2 wordt gescoord via T-scores. De betrouwbaarheid is goed met test-hertest van .82 of hoger en interne consistentie van .81 of hoger. De validiteitscores zijn ook hoog. De PIC-2 is dus een goed instrument dat goed gebruikt kan worden voor gedrags- emotioneel onderzoek bij kinderen.

Gedragsassessment/onderzoek

Gedragsonderzoek concentreert zich op gedrag zelf en niet op onderliggende kenmerken, oorzaken of dimensies van persoonlijkheid. Het moet snel, direct en gemakkelijk zijn en overeenkomen met de behandeling. Er worden verschillende instrumenten gebruikt, zoals zelfrapportage, beoordeling van ouders of (semi) gestructureerde interviews. Daarnaast is een nieuwe vorm populair de laatste jaren: ecologisch kortstondig onderzoek. Gedragsonderzoek kan een onderdeel zijn van gedragstherapie, waarbij het doel is om de duur, frequentie of intensiteit van een bepaald gedrag te veranderen. De manier van gedragsonderzoek is daarom vaak afhankelijk van de doelen en procedures van de therapie.

Gedragstherapie

Gedragstherapie kan in vier categorieën ingedeeld worden: blootstellingsmethodes, cognitieve gedragstherapie, zelfcontrole procedures en trainingen voor sociale vaardigheden.

Blootstelling

Deze methode kan goed gebruikt worden om fobieën tegen te gaan. Hierbij wordt de patiënt systematisch blootgesteld aan het beangstigde object of situatie. Dit gebeurt door middel van desensitisatie. De patiënt leert kalm te blijven bij het object, wat in kleine stapjes gebeurt. Een andere manier is implosie. Dan wordt de patiënt direct blootgesteld aan het beangstigde object.

De therapeut heeft als eerst een gedragsonderzoek nodig om een fobie te behandelen. Een voorbeeld hiervan is de Behavorial Avoidance Test (BAT), waarbij de therapeut meet hoe lang de patiënt de angststimulus kan tolereren. Scores op deze test zijn sterk gerelateerd aan zelfrapportage van catastrofale gedachten. Dat betekent dus dat er een cognitieve component is die meespeelt. Er moet echter altijd rekening met de situationele context worden gehouden.

Bij een angst-overzichtsschema moeten participanten de aanwezigheid en intensiteit van hun angsten aangeven in relatie tot verschillende stimuli. De validiteit is echter niet goed, dus moeten dit soort instrumenten met terughoudendheid gebruikt worden.

Cognitieve gedragstherapie

Het doel van cognitieve gedragstherapieën is om het beeld van de overtuigingen te veranderen. Een van dit soort therapieën is Ellis’ Rationeel Emotieve Therapie (RET). Verstoord gedrag wordt veroorzaakt door irrationele overtuigingen, die veranderd moeten worden door logische argumenten en aansporingen. Als tweede is Meichenbaums zelf-instructie training. Daarbij wordt de patiënt geleerd coping-vaardigheden aan te leren voor stressvolle situaties. De derde is Beck’s cognitieve therapie die vooral gericht is op depressie. Hierbij worden de pessimistische cognitieve structuren van het zicht op de wereld, het zelfconcept en de toekomst opnieuw gestructureerd.

De Beck Depression Inventory (BDI) is een zelfrapportage vragenlijst die veel cognitieve componenten van depressie meet. Het is een simpel en snel in te vullen vragenlijst, omdat het uit slechts 21 items bestaat. De betrouwbaarheid van de test is heel goed. Alleen de test-hertest resultaten vielen tegen bij gezonde participanten, maar dat is niet onverwacht, omdat gevoelens van depressie veel veranderen in korte tijd. Ook de validiteit van de BDI is erg goed. De test kan daarom goed gebruikt worden in gedragsonderzoek en voor andere klinische settings. Het enige nadeel is dat de BDI te transparant is, dus dat de antwoorden gemakkelijk te neppen zijn.

Zelfmonitoren

Bij het zelfmonitoren wordt de patiënt geacht zijn eigen doelen te kiezen en actief mee te doen in het leiden, in kaart brengen en opnemen van de vooruitgang richting het einddoel van de therapie. De therapeut fungeert als een consultant. Het is vooral nuttig bij de behandeling van depressies. Zo ontdekte Lewinsohn dat depressie gepaard gaat met verminderde ervaring van plezierige gebeurtenissen. Om dit tegen te gaan heeft hij de Pleasant Events Schedule (PES) ontworpen. Het eerste doel van dit instrument is om een baseline van plezierige, alledaagse gebeurtenissen op te stellen. Het tweede doel is om de vooruitgang tijdens de therapie te meten. Hoe vaker de frequentie van plezierige gebeurtenissen, hoe beter de symptomen. De PES is dus een handig instrument voor zelfcontrole tegen depressies.

Gestructureerde interviews

Gestructureerde interviews zijn vaak gebaseerd op DSM-IV. Deze bestaat uit vijf assen. As I omvat klinische stoornissen. As II omvat persoonlijkheidsstoornissen. As III omvat algemene medische condities. As IV omvat psychosociale en omgevingsproblemen. As V omvat de ‘Assessment of Function’, een meetschaal van 1-100 om het alledaagse functioneren te identificeren. Problemen met de DSM-IV zijn dat het stellen van een diagnose lang duurt, een vaste methode ontbreekt en de betrouwbaarheid is wisselvallig.

Hiervoor zijn semi-gestructureerde en gestructureerde interviews ontwikkeld. De Schedule for Affective Disorders and Schizoprenia (SADS) is een semi-gestructureerd diagnostisch interview voor As I stoornissen. Het bestaat uit standaardvragen en aanvullende vragen die gebruikt kunnen worden om iets duidelijker te krijgen. De betrouwbaarheid en validiteit van de SADS zijn goed.

Daarnaast is er ook de Structured Clinical Interview for DSM-IV (SCID) voor de DSM-IV beschikbaar. Dit is een semi-gestructureerd interview die ook vragen voor As II van de DSM-IV bevat.

Assessment door directe observatie

Observatiemethodes worden vooral gebruikt bij kinderen. Het doel is om specifieke gedragingen te meten. Deze zijn van tevoren vastgesteld. De observaties worden onder objectieve gestandaardiseerde procedures gedaan. Daarom zijn de tijd en plaats goed gespecificeerd. Als laatst is de scoring gestandaardiseerd en is dus niet anders voor andere observatoren.

Een van de manieren is om simpelweg de frequentie van het gedrag te tellen. Een andere manier is om de duur van de gedragingen op te nemen. Een doel van interventie kan zijn om zowel de frequentie als de duur van gedragingen te verminderen. Hiervoor zijn ook voor gespecificeerde schema’s beschikbaar, die tijd en moeite besparen. Een voorbeeld is de Behavior Observation of Students in Schools (BOSS).

Belangrijk is om te onthouden dat er zich problemen kunnen voordoen bij directe observatie. Observator drift is het probleem dat de observator na een tijdje minder oplettend wordt en daardoor gedragingen kan missen. Een ander probleem is coderingscomplexiteit. Dit gebeurt wanneer er teveel gedragingen moeten worden geobserveerd, of wanneer de gedragingen slecht gedefinieerd zijn. Ook moet je rekening houden met het moment waarop je observeert. Op verschillende momenten van de dag kunnen problemen juist wel of niet aanwezig zijn. Je kunt dus niet altijd uitgaan van een enkele observatie.

Analoge gedragsassessment

Bij directe observatie wordt het kind onderzocht in zijn natuurlijke setting, zoals een klaslokaal. Bij analoge gedragsassessment worden de kinderen geobserveerd in een gestandaardiseerde omgeving, maar wel op een manier dat het kind zich op zijn gemak voelt. Het kind voert relevante taken uit voor de geobserveerde gedragingen. Een kind moet dan bijvoorbeeld huiswerk maken in een kamer die ingericht is als klaslokaal, terwijl de observator het kind door een spiegelraampje observeert. Ook kan analoge gedragsassessment gebruikt worden voor ouder-kind interacties. Voor volwassenen wordt de Rapid Couples Interaction Scoring System gebruikt om bij huwelijkstherapie of andere therapieën.

Ecologisch kortstondig onderzoek

Hierbij krijgen patiënten een apparaatje mee en moeten ze op willekeurig gegeven momenten van de dag een heel kort lijstje invullen. De antwoorden worden direct doorgestuurd naar een centrale computer. Het is een accurater en betrouwbaardere manier om de ervaring van de patiënt te onderzoeken. Het kan inzichten geven die met normaal onderzoek veel moeilijker zijn te verkrijgen.

Hoe gaat de assessment van normaliteit en menselijke kwaliteiten in zijn werk? - Chapter 9

Onderwerp 9A: Waaruit bestaat de assessment binnen het normale spectrum?

Wanneer iemand de persoonlijkheid van een normaal persoon wil onderzoeken zijn normale persoonlijkheidstestsen geschikter dan tests die ontworpen zijn voor psychopathologie. De normale persoonlijkheidstesten richten zich op normaliteit en de sterke punten van de mens. Ze meten ook alternatieve dingen zoals de locus of control, verantwoordelijkheid, intuïtie of hechtingsstijl.

Breedbandtests voor normale persoonlijkheid

Een breedbandtest is een test die het volledige functioneren van een persoon meet. Het is echter moeilijk om te weten hoe persoonlijkheid het best bepaald kan worden in een enkel concept.

Myers-Briggs Type Indicator (MBTI)

De MBTI is een zelfrapportage keuzelijst die gebaseerd is op de persoonlijkheidstheorieën van Carl Jung. De test wordt gescoord op vier polariteiten: Extraversion-Introversion, Sensing-Intuiton, Thinking-Feeling, Judging-Perceiving. De persoonlijkheid bestaat uit 4 van de extremen, dus zijn er 2^4=16 verschillende persoonlijkheden mogelijk. De ene extreme is niet beter dan de ander, maar zijn enkel tegengestelden van elkaar.

Een extravert (E) richt zijn energie buiten naar personen of gesprekken, waar een introvert (I) zijn energie binnen in zijn eigen wereld richt. Iemand is ‘sensing’ (S) wanneer hij op zijn directe zintuigen vertrouwt, terwijl iemand die vertrouwt op relaties en kansen buiten zijn bewustzijn om juist intuition (N) gebruikt. Conclusies baseren op thinking (T) doet iemand die logisch en objectief nadenkt, tegenover Feeling (F) waarbij vertrouwt wordt op zijn persoonlijke waarden en sociale harmonie. Judging (J) omvat het daadkrachtig en sluitend oordelen, terwijl Perceiving (P) vrijblijvend, flexibel en spontaan oordelen omvat. Aan de hand van de letters kan iemand bijvoorbeeld persoonlijkheid ENFP hebben. Op die manier kunnen er ook bepaalde beroepsgedragingen aan een persoonlijkheid worden toegeschreven.

De 16 verschillende persoonlijkheden komen niet in gelijke mate voor in de populatie. Sommige komen meer voor in bepaalde beroepen. De test is goed te gebruiken om in te schatten of men geschikt is voor een bepaald beroep.

De MBTI heeft een goede interne betrouwbaarheid, gezien de split-half betrouwbaarheden van in de .80. De test-hertest betrouwbaarheden zijn wat lager als de interval tussen de tests (een aantal weken tegenover een aantal jaren) hoger is. Op de lange termijn bleef voor 41% alle 4 de letters hetzelfde en voor 38% bleven 3 van de 4 letters hetzelfde.

De validiteit voor de functie intuïtie is goed gezien de positieve correlatie met emotionele intelligentie. De polariteiten zijn vergeleken met de NEO-PI-R die persoonlijkheid meet aan de hand van de big five theorie. De correlaties met dit instrument gaven aan dat de validiteit van de MBTI bevestigd werd. Het nadeel van de MBTI is dat het een erg dure test is.

California Psychological Inventory (CPI)

De CPI is een waar-onwaar vragenlijst en heeft een versie met 434 vragen en eentje met 260 vragen. De vragen reflecteren 20 persoonlijkheidsschalen en 7 werk-gerelateerde schalen op 3 brede dimensies. Drie van de 20 persoonlijkheidsschalen (Goede Impressie, Gemeenschappelijkheid, Welzijn) geven ook een goede impressie hoe het gedrag van de persoon tijdens tests is.

De betrouwbaarheid van de CPI is acceptabel, met coëfficiënten van gemiddeld .76 en test-hertest coëfficiënten van .68. De drie dimensies van de CPI die uit de factoranalyse volgen zijn:

Oriëntatie richting mensen of richting iemand innerlijke leven. Vergelijkbaar met de extraversie-introversie polariteit.
Regels ten gunste stellen of regels bevragen oftewel een gewone/traditionele oriëntatie tegenover een ongewone/vernieuwende oriëntatie.
Een 7 puntschaal genaamd Niveau van Tevredenheid. Het is een moderator (positieve/negatieve expressie) tussen de vier verschillende levensstijlen die uit de eerste twee vectoren volgen:

uitvoerders (extravert & traditioneel); goed als managers of leiders;
ondersteuners (introvert & traditioneel); goed in ondersteunende posities;
innovators (extravert & vernieuwend); bedreven voor creatieve veranderingen;
visualizers (introvert & vernieuwend); alleen werkend in kunst of literatuur;

De CPI is een goede voorspeller voor psychische en fysieke gezondheid, schoolprestaties, effectiviteit van leraren & politiepersoneel en leiderschapssuccessen. Daarnaast kan de test ook delinquente en criminele adolescenten identificeren.

NEO Personality Inventory-Revised (NEO PI-R)

De NEO PI-R is gebaseerd op het vijf-factor model van persoonlijkheid. De items reflecteren dan ook de vijf domeinen: emotionele stabiliteit, extraversie, openheid, gewetensvolheid & vriendelijkheid. Deze vijf domeinen hebben ieder zes facetschalen die de kenmerken van het domein reflecteren. Op die manier bestaat de NEO PI-R uit 30 facetten.

De test is goed te gebruiken voor onderzoek en voor het meten van psychopathologie. Bepaalde verschillen op de schalen kunnen een stoornis aangeven. Zo scoren personen met aandacht stoornissen vaak hoog op neuroticisme en lager op gewetensvolheid.

De NEO PI-R kan ook op verschillende internetsites gedaan worden. Het begrip collaboriteit beschrijft het afnemen van tests via internet, met testspecialisten. De geografische locatie van de testafnemer en de participant is dan niet meer van belang. Dit is mogelijk bij deze test. De tests op internet zijn paralleltesten van de oorspronkelijke test, maar geven nog steeds een goede schatting van de persoonlijkheid. Voor kinderen en adolescenten is de NEO PI-3 ontwikkeld. Deze bevat vragen die beter te begrijpen zijn voor kinderen.

Stabiliteit en veranderingen in persoonlijkheid

Een vraag die bij dit onderwerp opkomt is of persoonlijkheid stabiel blijft over het gehele leven of dat het bepaalde kwalitatieve veranderingen laat zien. Hiervoor wordt vaak gebruik gemaakt van longitudinale onderzoeken. Een probleem hierbij is selectieve uitval. Minder gezonde participanten vallen sneller uit dan gezonde, waardoor een te optimistisch beeld van de werkelijkheid kan ontstaan. Daarnaast is dit onderzoek lastig en duur.

Een andere manier is cross-sectioneel onderzoek, waarbij verschillende leeftijdsgroepen vergeleken worden. Dit soort onderzoek is gevoelig voor cohort effecten. Dat is de veronderstelling dat verschillen tussen leeftijdsgroepen het gevolg zijn van verschillen in de natuur, ontwikkeling of historische ervaringen van die tijd en dus niet het gevolg zijn van veroudering. Bijvoorbeeld mensen die tijdens de Grote Depressie zijn opgegroeid vertonen meer zuinigheid dan mensen die deze niet hebben meegemaakt.

Daarom worden twee typen van onderzoek gecombineerd: cross-sequentiaal onderzoek. Daarnaast moeten kwalitatieve casestudies ook bekeken worden. Zo kan iemand die vroeger een onveilige hechting heeft gehad later toch een gezonde persoonlijkheid ontwikkelen. Dit is dan als het ware tegen de verwachtingen van de theorieën in.

Verschillende onderzoekers proberen normatieve veranderingen te identificeren. Dat zijn algemene ontwikkelingspatronen die bij de meeste mensen voorkomen. Er zijn echter veel tegensprekende onderzoeken. Daarom kunnen de verschillende onderzoeken het best onderzocht worden met een meta-analyse. Hierbij worden effect sizes gebruikt: verschil in gemiddelden gedeeld door de gepoolde groepsafwijking. Hiermee kan een algemene maat gebruikt worden voor studies met verschillende meetschalen.

Zo werd gevonden dat de grootste veranderingen vooral plaatsvinden in de jonge volwassenheid, wanneer de sociale rolverwachtingen steeds belangrijker worden. In een andere studie werd gevonden dat voor domeinen vriendelijkheid en gewetensvolheid in de puberteit het laagst zijn van de ontwikkeling. Daarnaast is extraversie rond het 10^e levensjaar het hoogst en na een daling tot de 15 jaar blijft het ongeveer gelijk over het leven. Vrouwen scoren hoger op neuroticisme dan mannen. Als laatst scoren vrouwen op alle leeftijden hoger op vriendelijkheid, gewetensvolheid en extraversie dan mannen.

Assessment van morele oordelen

Volgens Kohlberg zijn er drie niveaus van morele ontwikkeling: pre conventioneel, conventioneel en post conventioneel. Ieder niveau heeft twee subniveaus. Het niveau van moreel redeneren werd bepaald met behulp van de Moral Judgement Scale. Deze bestaat uit een aantal morele dilemma’s waarbij de redenatie van het antwoord gescoord wordt.

Na veel kritiek op de betrouwbaarheid en validiteit van de MJS, ontwikkelden Kohlberg en zijn collega’s een nieuw scoringssysteem. Deze is met een longitudinaal onderzoek gevalideerd. De Moral Judgment Scale bleek betrouwbaar, intern consistent en valide, omdat de morele ontwikkeling overeenkwam met de theorie.

De Defining Issues Test (DIT) komt grotendeels overeen met de Moral Judgement Scale maar heeft een simpeler en objectiever scoringssysteem. Antwoorden op vergelijkbare morele dilemma’s worden gescoord. Daarna worden er bepaalde factoren die in het dilemma mee kunnen spelen gegeven. De participanten moeten daarbij aangeven hoe belangrijk ze deze achten. Over het algemeen is het een goed alternatief voor de Moral Judgement Scale, er zijn echter een aantal kanttekeningen. Ten eerste zijn sommige dilemma’s gedateerd of algemeen bekend. Ten tweede is de DIT vooringenomen (biased) tegenover conservatief religieuzen. Door hun geloofsovertuiging redeneren ze bijna altijd op een conventioneel niveau (subniveau 3 of 4). Als laatst is er nooit een relatie aangetoond tussen moreel ontwikkelingsniveau op de DIT en het morele gedrag. Hieruit blijkt dat de DIT geen goed instrument is om gedrag te voorspellen maar wel om morele ontwikkeling te evalueren.

Assessment van spirituele en religieuze concepten

Onderwerpen als spiritualiteit en religie worden in de psychologie niet veel bestudeerd, toch is het belangrijk om ze te blijven onderzoeken gezien de waarde die veel mensen hechten aan religie. Spiritualiteit verschilt van religie in de zin dat het niet verbonden hoeft ze zijn aan bepaalde instituties, het meer persoonlijk is en minder gemedieerd wordt door een groep. Redenen om een assessment van spiritualiteit of religie te doen zijn: begrijpen van de wereldzicht van de cliënt, andere inzichten krijgen voor een probleem, onderzoeken of de spiritueel-religieuze inzichten de persoon kunnen worden gebruikt met coping, onderzoeken welke spiritueel-religieuze interventies handig zijn voor therapie en herkennen van spirituele twijfels die in de therapie behelpt kunnen worden.

Eén van de eerste meetschalen was de Allport-Ross Religious Orientation Scale. Deze onderzocht de intrinsieke en extrinsieke expressie van religie. Intrinsieke expressie betekent dat je je religie echt leeft en extrinsieke expressie gebruik je je religie alleen. Deze schaal is later herzien naar de Religious Orientation Scale bestaande uit 11 extrinsieke items en 9 intrinsieke items op een 9 puntenschaal.

De Religious Orientation scale had ook problemen; het was onduidelijk wat de intrinsieke en extrinsieke schalen precies maten en wat de relatie tussen de twee schalen was. Daarom kwam de Religion as Quest waarbij complexiteit, twijfel en voorlopigheid als manieren werden gezien om religieus te zijn. Dit instrument bleek al meer betrouwbaar maar er blijven twijfels bestaan over wat de schaal eigenlijk meet. Het is de bedoeling dat de test de volgende dingen meet: bereidheid om geconfronteerd te worden met existentiële vragen zonder dat hun complexiteit wordt verminderd, zelfkritiek en perceptie van religieuze twijfels als positiviteit en openheid voor verandering. Hier was veel kritiek op, bijvoorbeeld dat het eerder agnosticisme, anti-orthodox, religieuze twijfels en religieuze conflicten beslaat. Daarnaast is de test te beknopt en factoriaal te simpel.

De Spiritual Well Being Scale meet het spirituele welzijn op twee dimensies. De Religieuze Welzijn Schaal meet het welzijn in relatie tot God/hogere macht en de Existentiële Welzijn Schaal meet het welzijn in relatie tot levensnut en –tevredenheid. De scores op de SWB zouden overeen moeten komen met de onafhankelijke metingen van het welzijn. Dit is veel onderzocht en over het algemeen komen hier positieve resultaten uit. Het idee is dat het welzijn bestaat uit de integrale ervaring van de persoon die functioneert zoals God dat heeft bedoeld en een gelijkstemmende relatie heeft met hem, met anderen en met zichzelf. Kritiek op deze schaal is dat hij een te laag plafond heeft voor religieuze mensen. Hij is niet bruikbaar om onderscheid te maken tussen mensen met hoge levels van spiritueel welzijn.

De Assessment of Spirituality and Religious Sentiments (ASPIRES) Scale meet spirituele en religieuze variabelen op twee dimensies: spirituele bovennatuurlijkheid en religieuze gevoelens. de spirituele dimensie bestaat uit drie facetten: de vaardigheid om te bidden, geloof in een grotere realiteit en verbondenheid met een grotere mensheid. De religieuze dimensie heeft twee facetten: de religieuze betrokkenheid en religieuze crisis. Validiteit studies ondersteunen de betrouwbaarheid en validiteit van de ASPIRES Scale. Daarnaast voorspelt het bepaalde sociale gedragingen en persoonlijkheidstrekken.

De Faith Maturity Scale (FMS) is ten eerste ontwikkeld een baseline van data te krijgen over de vitaliteit van geloof in protestante gemeenten. Daarnaast om demografische, persoonlijke en gemeentelijke variabelen te identificeren die een bijdrage leveren aan de geloofsontwikkeling. Tot slot om de impact van religieus onderwijs te evalueren.

De FMS bestaat uit 38 items verdeeld over 8 thema’s zoals vertrouwen, ervaringen en spirituele groei. De items die in de test gebruikt worden zijn vooral te gebruiken voor protestantse religies. Toch is de validiteit en betrouwbaarheid hoog. Ten eerste bleken verschillende groepen (pastoors, leraren, jeugdigen) als verwacht inderdaad verschillende scores te hebben. Ten tweede was de onderlinge correlatie tussen de pastoors ook hoog. Ten derde bleek de FMS ook nut te voorspellen, gezien de hoge correlaties met pro sociale gedragingen.

Hoe werkt neuropsychologische assessment en screening? - Chapter 10

Onderwerp 10A: Waaruit bestaat de interactie tussen neurobiologische concepten en gedragsassessment?

Het menselijk brein

Het brein is het best beschermde orgaan in het lichaam. Het wordt als eerst beschermd door de schedel en vervolgens door hersenvliezen, drie membranen die het brein en het ruggenmerg omvatten. In de hersenen zijn de ventrikels gevuld met cerebrospinaal vloeistof. Dit is een vloeistof die constant geproduceerd en ververst wordt en dient als bescherming voor de hersenen. Het brein drijft hier letterlijk in en is daarmee beschermd tegen klappen en uitdroging. De ventrikels zijn vier holle, verbonden kamers in het midden van het brein. Het kan zijn dat de vloeistof het 3^e en 4^e ventrikel niet goed kan verlaten. Dit kan vanaf de geboorte een probleem zijn of zich later in het leven door ziekte ontwikkelen. Dit wordt hydrocephalus of waterhoofd genoemd. De druk in het brein wordt dan te groot. Bij kinderen kan het ervoor zorgen dat de ventrikels groeien en het brein uiteindelijk tegen de schedel wordt gedrukt. Onbehandeld kan dit tot mentale retardatie of vroegtijdig overlijden leiden. Gelukkig is het goed te behandelen door de overtollige vloeistof via een shunt af te laten voeren.

Wanneer het brein omgeven wordt door de vloeistof weegt het ongeveer 1,5 kilo. Het brein bestaat uit 5 elementen: grijze materie, witte materie, gliacellen, cerebrospinal fluid en de bloedvaten die het brein voorzien van zuurstof en voedingsstoffen.

Het brein heeft constant zuurstof en glucose nodig wat aangeleverd wordt door middel van bloed. Het bloed wordt vervoerd via een circulair netwerk van slagaders genaamd 'de cirkel van Willis'. Dit netwerk zorgt ervoor dat het brein constant van bloed is voorzien. Wanneer men ouder wordt kan het voorkomen dat een van de slagaders dichtslibt door vette plaques. Dan ontbreekt er zuurstof en ontstaat een herseninfarct, een vorm van beroerte of cerebrovasculair ongeluk. Ook kan er later een multi-infarct dementie ontstaan, wat het gevolg is van een opeenstapeling van kleine infarcten over een aantal jaar. Het kan ook gebeuren dan een bloedvat openbreekt en het bloed dus direct het breinweefsel in spat, dit wordt arterial rupture genoemd.

Structuren en systemen van het brein

We beginnen het overzicht van het brein bij de cerebrum, bestaande uit een linker- en rechterhemisfeer. Deze zijn verbonden door het corpus callosum, een grote bundel van neuronen die informatie doorgeven van beide hemisferen. Dit is ontdekt door onderzoekers die ‘split-brain patiënten’ onderzochten van wie het corpus callosum is doorgesneden. Ze vonden dat de hemisfeer aan de ene kant niet bewust was van de visuele informatie in de andere hemisfeer.

Deze patiënten zijn veel onderzocht voor hemisferische specialisatie studies. Ook is er veel duidelijk geworden aan de hand van onderzoek over mensen die vanaf hun geboorte geen corpus callosum hebben, dook wel ACC: agenesis of the corpus callosum. Ook hierbij zie je dat verbale expressie vaak emotieloos of ongepast is. Het cerebrum ontwikkelt zich vanuit evolutionair perspectief gekeken als laatste. Dit is de plek waar gedachten, verbeelding, beoordeling en het nemen van beslissingen plaatsvinden.

De cerebrale cortex is de buitenste laag van het brein en is de bron van de hoogste niveaus van zintuig, motor en cognitieve processen. Het bestaat uit uitpuilingen, die gyrus worden genoemd en uit groeven, die sulcus worden genoemd. Dit heeft oppervlaktevergroting als doel en daarmee meer informatieoverdracht. De cortex bestaat uit vier kwabben: de frontale kwab is verantwoordelijk voor motor controle, de pariëtale kwab is verantwoordelijk voor het verwerken van gevoel en andere somatosensorische informatie, de occipitale kwab is verantwoordelijk voor visuele perceptie en de temporale kwab is verantwoordelijk voor het verwerken van auditieve informatie. Daarnaast hebben de kwabben vele andere functies en werken ze ook veel samen.

Overlevingssystemen: de ruithersenen en middenhersenen

De ruithersenen zijn het laagste deel van de hersenen, gelegen in de top van het ruggenmerg. Het bevat vitale lichaamsfuncties. Het laagste deel is de medulla die verantwoordelijk is voor essentiële levensfuncties zoals ademen, slikken en de bloeddruk. Schade aan de medulla heeft meestal een fatale afloop. Wanneer er een kleine beroerte plaatsvindt en de persoon het overleeft zijn vaak de volgende symptomen zichtbaar: verlamming aan de tegenoverliggende zijde, gedeeltelijk verlies van sensatie van pijn en temperatuur, onhandigheid, duizeligheid, gedeeltelijk verlies van het kokhalsreflex, verlamming aan dezelfde zijde en atrofie van de tong.

Hoger gelegen zijn de pons en het cerebellum. Samen zijn ze verantwoordelijk voor coördinatie van spieren, lichaamshouding en hand- en oogbewegingen.

Boven de ruithersenen bevinden zich de middenhersenen die nuclei bevatten voor veel hersenzenuwen. Van deze 12 zenuwen zijn sommige expliciet sensorisch, sommige alleen motorisch en andere beiden. Het zijn vooral sensorische basisfuncties en –bewegingen waar de zenuwen voor zorgen.

Aandachtsystemen

Aandacht is een soort zoeklicht dat identificeert wat relevant is voor ons, en negeert wat irrelevant is. Het is een primitief, automatisch cognitief systeem dat essentieel is voor overleving. Er zijn verschillende soorten aandacht:

Oriënterende aandacht is gerelateerd aan de vecht/vlucht reflex. Alle aandacht wordt direct gericht op dreigend gevaar.
Selectieve aandacht omvat de identificatie van een enkele, persoonlijk relevante stimulus in een rijke omgeving, zoals het horen van je naam.
Verdeelde aandacht omvat de mogelijkheid om te kunnen wisselen tussen meerdere taken.
Volhoudende aandacht omvat het vasthouden van aandacht voor een langere tijd.

Er zijn geen precieze neurologische systemen voor aandacht in het brein. Het vergt een samenwerking van meerdere breingebieden. De reticulaire formatie is een netwerk van neuronen van het ruggenmerg tot de thalamus die verantwoordelijk zijn voor algemene arousal of bewustzijn. Selectieve aandacht lijkt hier te gebeuren. Een deel van de reticulaire formatie is ook wel bekend als het reticulaire activerende systeem. Dit systeem heeft te maken met slaperigheid, verdoving en coma.

Motor/coördinatie systemen

Drie gebieden zijn belangrijk voor motorcontrole. Het cerebellum ligt onder het cerebrum, aan de achterkant van het brein. Het coördineert spieren, houding en oogbewegingen. Het cerebellum ontvangt sensorische informatie van het hele lichaam en coördineert daarmee automatisch geleerde bewegingen. Het cerebellum zorgt ook voor de vestibulooculaire reflex, waardoor de ogen gericht blijven op een doel terwijl het hoofd beweegt. Schade in het cerebellum kan naast motor verstoringen ook zorgen voor dysarthrie, onduidelijke en aarzelende spraak.

De basale ganglia bestaat uit verschillende nuclei en heeft connecties met de cortex en thalamus. De belangrijkste onderdelen van de basale ganglia zijn de caudate, de putamen en de globus pallibus. De structuren van de basale ganglia staan in connectie met de subthalmus nucleus en substantia nigra en zorgen samen met het cerebellum en corticospinal systeem en motorische nuclei in de hersenstam voor de controle van bewegingen. De basale ganglia heeft indirecte motorfuncties, want het staat niet in direct contact met het ruggenmerg. Schade aan de basale ganglia kan leiden tot de ziekte van Parkinson: onvrijwillige bewegingen, langzame bewegingen en veranderingen in houding. Daarnaast vertonen Parkinsonpatiënten ook gebreken in cognitief functioneren.

De cellen in de motor cortex zijn voor een groot gedeelte contralateraal: de linker hemisfeer bestuurt de rechterkant van het lichaam en andersom. De cellen sturen vrijwillige motorbewegingen aan. Dit deel bevindt zich op de precentrale gyrus op de frontale lob.

Geheugensystemen

Er zijn verschillende manieren om geheugen te onderscheiden:

Episodisch vs. semantisch geheugen: geheugen voor persoonlijke gebeurtenissen en ervaringen tegenover algemene kennis.
Werkgeheugen vs. associatief geheugen: het gebruik van informatie dat we slechts tijdelijk nodig hebben tegenover herinneringen die ons te binnen schieten vanwege bepaalde stimuli.
Declaratief vs. procedureel geheugen: het ‘wat’ in het geheugen tegenover het ‘hoe’ in het geheugen.
Expliciet vs. impliciet geheugen: direct en duidelijk toegankelijk tegenover moeilijk toegankelijke herinneringen.
Korte termijn vs. lange termijn geheugen: herinneringen die opgeslagen zijn tot maximaal een aantal minuten tegenover herinneringen die uren tot jaren zijn opgeslagen.

Veel breingebieden werken samen in geheugenprocessen, maar vooral de hippocampus en amygdala zijn belangrijk voor het consolideren van herinneringen naar het lange termijn geheugen. Uit studies waar patiënten met hersenschade onderzocht zijn is gebleken dat verschillende gebieden verantwoordelijk zijn voor verschillende geheugensystemen. Zo wordt het procedurele geheugen waarschijnlijk geregeld door het cerebellum.

Limbisch systeem

Dit is een centraal gelegen breinnetwerk onder de cortex en is betrokken bij overlevingsdriften en emoties. Het heeft sterke connecties met geheugengebieden. Daarnaast zijn pleziercentra hier gelegen. Welke delen van het brein bij dit systeem horen is niet geheel duidelijk omdat we eigenlijk nog maar weinig weten van dit systeem. In ieder geval vallen de hippocampus, amygdala, cingulate gyrus, mammilary bodies en de fornix hieronder.

Een ander onderdeel is de hypothalamus, die betrokken is bij lichaamsregulatie en emotioneel gedrag. Schade aan dit deel kan zorgen voor een ontregelde pituitary gland omdat hier sterke verbindingen mee zijn, waardoor het eetpatroon kan veranderen (heel veel willen eten en drinken). Schade kan ook zorgen voor slaapproblemen: heel veel of juist niet kunnen slapen. De hypothalamus regelt ook dingen zoals bloeddruk, voeding, seksueel gedrag en het slaap/waak ritme.

Taalfuncties en cerebrale lateralisatie

Taalfuncties zijn vooral in de linker hemisfeer te vinden. Omdat veel gebieden daar samenwerken, zal bijna elke schade in de linker hemisfeer taalgebreken met zich mee brengen. In het linker premotorisch gebied ligt het gebied van Broca. Mensen met schade hieraan kunnen lijden aan Broca’s afasie: ze kunnen gesproken of geschreven taal moeilijk begrijpen. Daarnaast bestaat ook Wernicke’s afasie waarbij personen moeite hebben met de onderliggende betekenis van woorden, terwijl ze wel woorden kunnen produceren. Deze patiënten hebben vaak schade aan de linker temporale kwab. Echter moet altijd onthouden worden dat het hele brein actief is bij taalfuncties zoals spraak.

Geschwind heeft een model opgesteld van de gebieden in de linker hemisfeer die een taalfuncties hebben. Het laat zien dat schade aan Broca’s gebied langzame spraak veroorzaakt; taalbegrip blijft onaangetast. Schade aan Wernicke’s gebied zorgt voor sterk verminderd taalbegrip. Schade aan de angular gyrus zorgt voor ernstige leesproblemen, maar niet het begrijpen van spraak. Schade in de auditieve cortex zorgt voor problemen in verbaal begrip, maar patiënten kunnen normaal spreken en lezen.

De rechter hemisfeer is dominant voor het analyseren van geometrische en visuele ruimtes, begrip en expressie van emotie, verwerken van muziek en non-verbale geluiden, productie van non-verbale en spatiële herinneringen en herkenning van complexe vormen. Schade kan leiden tot construct dyspraxie: onbekwaamheid met het herkennen van spatiële relaties.

Visueel systeem

De belangrijkste sensorische gebieden voor zicht zijn gelegen in de occipitale kwab. Ook hier is sprake van contralateralisatie, de informatie komt samen via het splenium gelegen in het corpus callosum. Schade in de associatiegebieden (die meer naar voren liggen) van de occipitale kwab kan leiden tot visuele agnosie: het moeilijk herkennen van tekeningen, objecten of gezichten. Dit komt vooral voor bij schade aan de rechterkant. Patiënten met prosopagnosia kunnen gezichten van mensen die zij kennen niet meer herkennen. De associatiegebieden zorgen dat er betekenis aan het zicht wordt gegeven. Visuele agnosie komt vooral voor bij schade aan de rechterkant van de occipitaalkwab maar heeft mogelijk ook te maken met schade aan de temporaal en pariëtale kwabben.

Executieve functies

Deze functies zorgen voor de vaardigheid om te reageren op nieuwe situaties op een goed aangepaste manier. Hieronder vallen:

Doelstellen: capaciteit voor intentioneel gedrag.
Plannen: herkennen en uitvoeren van stappen die tot een doel leiden.
Doelgerichte acties: actie ondernemen en deze op een nette manier onderhouden.
Effectief uitvoeren: activiteiten constant monitoren op de gestelde doelen en strategieën veranderen wanneer nodig.

Executieve functies vinden vooral activiteit in de frontale gebieden. Deze zijn essentieel voor programmeren, regulatie, verificatie en motor uitvoering van executieve functies. Een plan uitvoeren vergt een manipulatie van de omgeving, dat moet worden gepland door de primaire motorcortex. Deze ligt achter in de frontale lob. Daarvoor ligt de supplementaire motorcortex die betrokken is bij motorprogramma’s: series van complexe motor handelingen.

Schade in de motorcortex zorgt voor fijne motorieke problemen aan de contralaterale zijde van het lichaam. Schade in de frontale cortex kan zorgen voor problemen in motivatie, mentale veranderingen, regulatie van gedrag en zelfbewustzijn.

Er zijn maar weinig testinstrumenten die gevoelig zijn voor het meten van executieve functies. Veelal meten de testen wat een persoon weet, terwijl juist de reacties door de schade vaak veranderen.

Door de onregelmatig gevormde schedel is de frontaal kwab gevoelig voor schade wanneer iemand hoofdletsel oploopt. Ook de voorkant van de temporale kwabben is hier gevoelig voor.

Neuropathologie bij volwassen en veroudering

Een traumatisch brein ongeluk (TBI) is alles van een hersenschudding tot aan ernstig hersenletsel. Een hersenschudding omvat een kort verlies van het bewustzijn gevolgd door hoofdpijn, concentratieverlies, vaagheid, irriteerbaarheid en andere emotionele symptomen. Een ‘closed head injury’ is een bredere term voor een traumatische brein schade en het brengt vaak ernstige beperkingen met zich mee. De schade kan dan ook doordringen naar andere delen van het brein. Bij een open head injury is de schedel ook gebarsten. De schade aan het brein is dan vaak alleen op of in de buurt van de plek waar de schedel is gebarsten.

De meest voorkomende klachten zijn concentratie- en geheugenproblemen. Dat is ook de reden waarom deze altijd in tests voorkomen.

Daarnaast kan ook een hersentumor in het brein voor verschillende effecten zorgen. Het ligt aan de locatie, grootte en groeisnelheid van de tumor welke effecten deze heeft. Gliomas zijn tumoren vanuit de gliacellen die snel groeien en meningiomas zijn langzaamgroeiende tumoren die op het brein drukken die voortkomen uit de membranen. Tumoren zijn cellen die muteren en komen dus voort uit cellen die ons lichaam al heeft.

Chronisch alcoholmisbruik kan neurale vernietiging in de dendrieten tot gevolg hebben, met name in de gebieden belangrijk voor geheugen. Hierdoor kan amnesie ontstaan, dit wordr ook wel de ziekte van Korsakoff wordt genoemd. Het wordt voornamelijk veroorzaakt door vitamine tekort. Het gaat dan vooral om anterograde amnesie. Er is in een studie gevonden dat het breinvolume van alcoholisten na 6-7 weken zonder te drinken toenam. Het is niet veel, maar het geeft wel hoopvolle vooruitzichten voor interventies.

Normal Pressure Hydrocephalus is een aandoening waarbij het cerebrospinale vloeistof toeneemt. Hierdoor kunnen symptomen als incontinentie en dementie ontstaan. Vaak wordt het daardoor vergist met andere ziektes zoals Alzheimer, terwijl NPH simpel te verhelpen is met een katheter die het overvloedige vloeistof wegneemt.

De ziekte van Alzheimer wordt gekenmerkt door een degeneratie van het brein en is de meest voorkomende vorm van dementie. Kenmerken van het brein zijn dan een vermindering van neuronen, het slinken of atrofie van het brein, vermindering van acetylcholine transmitters die betrokken zijn bij geheugen en een ophoping in de cerebral vasculature. Er ontstaan plaques en tangles. Er ontstaan veel symptomen van dementie. Daarnaast gaan veel normale functies zoals taal of motoriek steeds sneller achteruit. Ook komt het vaak voor dat de persoonlijkheid verandert.

Vasculaire dementie is vaak het gevolg van een beroerte en is de op één na meest voorkomende oorzaak van dementie. Dit gebeurt meestal ineens, maar soms kunnen meerdere kleine beroertes zorgen voor een multi-infarct dementie. De symptomen van een beroerte zijn motorische zwakheid, verminderd gevoel in het lichaam en verliezen van bewustzijn. Aan de hand van een test genaamd MID kan onderscheid gemaakt worden tussen alzheimer en dit.

De ziekte van Parkinson komt voor bij 2 op de 1000 ouderen. Het is vooral een motorische stoornis, maar er zijn ook vaak cognitieve en emotionele problemen. Tremor is de meest voorkomende symptoom en het omvat trillende en schokkende bewegingen die niet gestopt kunnen worden.

Gedragsassessment van neuropathologie

De mentale status examinatie (MSE) is een los interview vooraf gaat aan andere vormen van assessment. Het doel ervan is om een accurate beschrijving te geven van het psychisch functioneren van de patiënt. De psycholoog onderzoekt de belangrijke gebieden van persoonlijk en intellectueel functioneren op zoek naar symptomen van psychopathologie. Het gaat dan om oriëntatie, geheugen, gedachten, gevoelens en oordelen.

Een andere manier is door gedragsschalen te laten invullen door bekenden van de patiënt. De Behavioral and Psychological Assessment of Dementia (BPAD) is een meetschaal die dementie-gerelateerde veranderingen in gedrag meet bij 30-plussers. Dit wordt gedaan voor de laatste vier weken en voor vijf jaar geleden, zodat er een huidige, verleden en een veranderingsscore kunnen worden gegeven. De scores worden gescoord in 7 domeinen verdeeld over drie clusters: psychologische, gedrag, en biologische symptomen.

De Frontal Systems Behavior Scale (FrSBe) is speciaal ontwikkeld om symptomen van frontale hersenschade te meten. Subschalen omvatten apathie, disinhibitie en executieve dysfunctie. Deze simpele, korte schaal is een goed meetinstrument voor patiënten die symptomen van frontale schade hebben als gevolg van verschillende neurodegeneratieve stoornissen.

Onderwerp 10B: Waaruit bestaan de neuropsychologische tests, testbatterijen en screeningsinstrumenten?

Model van brein-gedrag relaties

Bennett heeft een versimpeld model opgesteld voor de organisatie van neuropsychologische tests. Iedere test bekijkt een van de volgende categorieën:

Sensorische input;
aandacht en concentratie;
leren en geheugen;
a) linker hemisfeer: taal, lineair denken; b) rechter hemisfeer: visueel-spatieel, holistisch denken;
executieve functies;
motor output.

Executieve functies die getest worden, omvatten onder andere: logisch analyseren, concept formatie, redeneren, plannen en flexibiliteit van het denken.

De volgorde waarin de categorieën worden gegeven is grofweg ook de volgorde waarin inkomende informatie in het brein wordt verwerkt. Het is van belang om te onthouden dat er vaak meerdere tests worden gebruikt. Een soort is flexibel of patient-centered, waarbij een geïndividualiseerde testbatterij voor de cliënt is gevormd. Een andere soort is een al gevormde testbatterij die bij elke cliënt wordt afgenomen.

Assessment van sensorische input

De nauwkeurigheid van sensorische input is cruciaal voor de bekwaamheid van perceptie, gedachte, plannen en actie.

De Reitan-Klove Sensory-Perceptual Examination bestaat uit simpele taakjes die je zintuigvermogen testen. Normale mensen kunnen dit zonder moeite foutloos uitvoeren. Het is vooral bijzonder als de participant aan een kant van het lichaam veel fouten maakt. Dit kan duiden op hersenschade aan de contralaterale hemisfeer.

Mogelijk verlies van sensorisch vermogen wordt ook met de 'Vinger Lokalisatie Test' getest. Daarbij moeten participanten aangeven welke van hun vingers worden aangeraakt. Normale personen doen dit bijna perfect, dus fouten kunnen duiden op schade aan het sensorisch systeem.

Metingen van aandacht en concentratie

Het is lastig om in de praktijk onderscheid te kunnen maken tussen simpele aandacht, concentratie, mentale verschuivingen, mental tracking, waakzaamheid en andere varianten van aandacht en concentratie. De volgende test is hier als enige in geslaagd.

De Test of Everyday Attention (TEA) meet de subcomponenten van aandacht, waaronder vasthoudende aandacht, verdeelde aandacht en selectieve aandacht. Dit gebeurt door middel van 8 subtests.

De test is goed gevalideerd onder patiënten met TBI, beroerte of Alzheimer. Daarnaast is de test ook goed gevalideerd onder de normale participanten. De TEA kan subtesten analyseren zodat de sterktes en zwaktes van de participanten geanalyseerd kunnen worden.

De Continuous Performance Test (CPT) is een familie van tests die vasthoudende aandacht meten. Ondanks dat ze sensitief zijn voor verschillende aangetaste breincondities, diagnosticeert de CPT geen aandachtsstoornissen, zoals ADHD.

Leer- en geheugentests

Leren en geheugen zijn twee componenten die nauwelijks los van elkaar te onderzoeken zijn. Verschillende geheugentests onderzoeken dan ook verschillende soorten geheugen. Geheugentests kunnen gecategoriseerd worden in verschillende dimensies: korte termijn-lange termijn, verbaal-picturaal, leercurve-niet leercurve.

De Wechsler Memory Scale-IV scoort negen subtests op vijf indexscores: Direct Geheugen Index, Verlaat Geheugen Index, Auditief Geheugen Index, Visueel Geheugen Index, Visueel Werkgeheugen Index. De WMS-IV is goed gevalideerd onder een goed gestandaardiseerde normgroep. Het is belangrijk om te onthouden dat wanneer een bepaald profiel gepaard gaat met een bepaalde ziekte, dit andersom niet geldt. Een patiënt met Alzheimer met een onderscheidend profiel betekent niet dat iedereen met hetzelfde profiel ook Alzheimer heeft.

De Rey Auditory Verbal Learning Test (RAVLT) omvat het vrij herinneren van 15 woorden in elke volgorde. De participant wordt gescoord op het aantal woorden dat hij in de 5 trials goed heeft kunnen terughalen. Personen met een geheugenprobleem kunnen door de RAVLT goed worden gediagnosticeerd. Dat de test minstens 7 parallelle versies heeft is zowel een sterkte als een zwakte: een persoon kan vaker getest worden, maar een persoon leert daarmee ook elke keer beter.

De Fuld Object-Memory Evaluation is een test die vooral bij ouderen gedaan wordt. Participanten krijgen 10 objecten die ze moeten voelen en benoemen. Na een afleidingstaak volgt een selectieve herinneringstaak waarbij de objecten beschreven worden. De taak is om de objecten weer terug te halen uit het geheugen. De test wordt vooral gebruikt bij de diagnose van Alzheimer. Deze patiënten halen namelijk weinig profijt uit de selectieve herinnering. De test had een sensitiviteit van 93% en een specificiteit van 90%, dus dat is heel hoog.

De Rivermead Behavorial Memory Test bestaat uit 12 subtests die alledaagse geheugentaken reflecteren, zoals het vinden van een route, herinneren van namen en terughalen van informatie. De test is populair wegens de ecologische validiteit en de verschillende soorten geheugen die getest worden. Er is ook een online versie ontwikkeld die hoog correleerde met de originele test. Dit is dus een veelbelovend alternatief voor face-to-face testen.

De Wide Range Assessment of Memory and Learning-2 (WRAML) bestaat uit 6 subtests die bijdragen aan drie indexscores: Verbaal geheugen, Visueel geheugen, Aandacht/concentratie, en samen leiden ze tot een Algemene Geheugen Index. De WRAML test ook voor vertraagd geheugen en herkennend vermogen, waarbij verschillen in deze geheugensoorten vooral bij ouderen voorkomen. Daarnaast kunnen de subtests gebruikt worden voor het meten van werkgeheugen. De WMS-II en de WRAML meten wel allebei geheugen, maar de correlatie tussen de twee is niet heel hoog. Hieruit kan opgemaakt worden dat ze verschillende aspecten van geheugen meten en dus niet door elkaar vervangbaar zijn. De correlatie tussen de WISC en de WRAML is ook niet heel hoog, waaruit geconcludeerd kan worden dat de WRAML intelligentie-gerelateerde aspecten meet.

Assessment van taalfuncties

Afasie omvat elke afwijking in taalfuncties als het gevolg van hersenschade. Om afasie te testen worden drie manieren gebruikt: non-gestandaardiseerd klinisch onderzoek, gestandaardiseerde screening of een begripvolle diagnostische test van afasie.

Een klinisch onderzoek heeft de voordelen dat het simpel, flexibel en beknopt is. Elementen die onderzocht worden zijn: spontane spraak, herhaling van zinnen of frases, begrip van gesproken taal, vinden van woorden, lezen, schrijven en kopiëren, en calculatie/rekenen. Vervolgens wordt dit gescoord op bepaalde meetschalen.

Gestandaardiseerde screenings komen overeen met een klinisch onderzoek, maar bevatten objectieve en precieze instructies, waardoor subtiele symptomen van afasie vaak niet aan het licht komen. Diagnostische tests worden vaak uitgevoerd bij patiënten van wie al bekend is dat ze afasie hebben en is vooral nuttig voor planning van behandeling.

Tests voor spatiële en manipulatie vermogen

De term apraxie verwijst naar verschillende disfuncties in het sturen of uitvoeren van complexe motorische handelingen. Testen die spatiële en manipulatie vermogens meten worden ook wel construct prestatietesten genoemd. Deze testen combineren perceptuele activiteit met motorreacties en bevatten altijd een spatieel component. Construct vermogen bevat meerdere complexe functies en daardoor komen beperkingen al snel aan het licht, zelfs wanneer er sprake is van milde vormen van disfunctioneren van het brein. Het is alleen de vraag waar de beperking vandaan komt. Dit kan namelijk meerdere oorzaken hebben: spatiële verwarring, perceptuele beperkingen, aandachtsproblemen, motivatieproblemen of apraxie.

Bij de Bender Gestalt Test (BGT) worden participanten gevraagd om plaatjes na te tekenen. Dit mag zo snel als ze willen. Er zijn verschillende scoringssystemen beschikbaar. Bij volwassenen wordt gekeken naar eventuele hersenschade, maar bij kinderen wordt de test gebruikt om de mentale leeftijd te onderzoeken. De score die uit de test komt, is de Visuele Motor Integratie (VMI), en is goed te vergelijken met IQ-scores.

De Greek Cross is een tekentaak waarbij participanten een kruis moeten natekenen, zonder hun potlood van het papier te halen. Er bestaat een scorehandleiding maar vaak wordt er gewoon gekeken naar de kwaliteit van de tekening. De test is sensitief voor patiënten met hersenletsel. Daarnaast zijn er ook blokmodellen, die participanten na moeten bouwen. Deze test is erg sensitief voor hersenletsel.

Assessment van executieve functies

Executieve functies bevatten logisch analyseren, conceptualisatie, redeneren, plannen en de flexibiliteit van denken. Het is lastig om deze functies te meten, omdat het lastig is om de taak goed over te brengen op de cliënt. Dit probleem wordt vaak opgelost door klinische methoden te gebruiken in plaats van formele testen. Er zijn maar weinig testen die de executieve functies op een acceptabel niveau meten.

Tijdens de Porteus Maze Test moeten participanten een lijn tekenen zonder op te tillen om uit een serie doolhoven te komen die steeds moeilijker worden. De test is sensitief voor (traumatische) hersenschade. De test meet planning en inzicht.

De Wisconsin Card Sorting Test (WCST) is een goede test voor abstract denken en de vaardigheid om te wisselen van set. Participanten krijgen 64 kaarten met een 1-4 symbolen in 4 kleuren. Deze moeten verdeeld worden over 4 stapels waarbij na tien goede verdelingen de tactiek veranderd wordt. De examinator zegt telkens juist of onjuist bij het verdelen. De test wordt veel gebruikt voor mensen met recentelijk hersentrauma en om te kijken naar het herstel.

In de Tinkertoy test wordt participanten gevraagd een zo uitgebreid mogelijk bouwwerk te maken met een soort ouderwetse K’nex. Mensen met hersenschade maken slechts kleine bouwwerken en scoren slechter dan mensen in de controleconditie. Daarmee stelden de onderzoekers dat het een goede test is om executieve functies te onderzoeken, maar ook voor onderzoek naar Alzheimer.

Een testbatterij die vooral alledaagse situaties reflecteert is de Behavorial Assessment of the Dysexecutive System (BADS). Het bestaat uit 6 subtests: tijdoriëntatie, regel wisselen met kaarten, actie programmeren met materialen, sleutels zoeken in een set, dierentuin route plannen, zes activiteiten completeren in 10 minuten. De test wordt gescoord op gebieden: persoonlijkheid/emotionele, motivationele, gedrag en cognitieve veranderingen.

Daarnaast is het vermogen om een onbekende plek in een stad te vinden ook een goede test, je hebt er namelijk strategie en self-monitoring voor nodig.

Assessment van motor output

De eerste test die gebruikt wordt is de vinger-tik-test. Hierbij moeten participanten zo veel mogelijk met hun wijsvinger tikken in 10 seconden. Vooral een groot verschil tussen de verschillende kanten(meer dan 10%) kan duiden op hersenschade.

Bij de Purdue Pegboard Test moeten participanten pinnen in gaten steken met de linkerhand, rechterhand en daarna met beide handen. De test is goed om bij testbatterij te gebruiken, maar dient op zichzelf niet als een goede screening voor motorische problemen. Een variatie bestaat waarbij de gaten een richel bevatten, waardoor de pinnen gedraaid moeten worden om in het gat te passen. Dit is wel een goed instrument voor de assessment van gelateraliseerde hersenschade.

Een laatste manier is dat de cliënt een vel voor zich krijgt met figuren erop getekend. Het is dan de bedoeling dat de cliënt met een felgekleurde pen de lijnen overtrekt. Dit kan goed gedaan worden door een 10-jarige en is daarom een goede test om te kijken naar beperkingen in de motorregulatie. Men moet onthouden dat bruikbare motortesten geraffineerd materiaal moeten gebruiken.

Testbatterijen voor neuropsychologisch assessment

De Luria-Nebraska Neuropsychological Battery (LNNB) bestaat uit 269 items die gescoord worden op 11 klinische schalen:

C1 Motor: coördinatie, snelheid, motor vaardigheden.
C2 Ritme: aandacht voor, onderscheiden van en produceren van ritmische stimuli.
C3 Tactiel: identificeren van tastbare stimuli.
C4 Visueel: identificeren van tekeningen en uitvoeren van visuo-spatiële handelingen.
C5 Receptieve spraak: discrimineren van fonemen en begrijpen van woorden en zinnen.
C6 Expressieve spraak: vloeiend articuleren van geluiden, woorden en zinnen.
C7 Schrijven: gebruik van motorvaardigheden om te schrijven
C8 Lezen
C9 Rekenkunde: simpele rekensommen, en wiskundige structuren oplossen.
C10 Geheugen: verbale en non-verbale stimuli onthouden onder bepaalde condities.
C11 Intelligentie: redeneren, concept formatie en complexe probleemoplossing.

Hierna worden 3 samenvattingsschalen gescoord: pathologisch, linker hemisfeer en rechter hemisfeer. De eerste schaal staat voor de mate van herstel, de tweede en derde moeten laten zien of de schade voornamelijk in de linker of rechter hemisfeer zit. Ondanks de statistische betrouwbaarheid en validiteit, is er scepticisme over de heterogeniteit van klinische schalen en de spraak-schalen die niet getest worden voor afasie.

De Neuropsychological Assessment Battery (NAB) bestaat uit 24 tests die 5 modules reflecteren: aandacht, taal, geheugen, spatiële, en executieve functies. De testbatterij heeft een goede ecologische validiteit, dat betekent dat de test de praktische activiteiten in de echte wereld goed representeert. De betrouwbaarheid verschilt per module evenals de psychometrische validiteit.

Baseline testing met korte neuropsychologische testbatterijen

Een baseline instellen is van belang omdat je scores hiermee kunt vergelijken. Zo kan worden gekeken wanneer iemand significant afwijkt. Elke individu heeft namelijk een ander niveau en andere sterke en zwakke punten. Voor minstens twee gebieden van assessment wordt baseline testen in de praktijk veel gebruikt. De eerste toepassing is de 'Automated Neuropsychological Assement Metrics Traumatic Brain Injury' die wordt gebruikt in het leger. De subtesten meten reactietijd, leren, geheugen rekenkundige verwerking, spatiële processen, executieve functies en symptomen. De test is ontwikkeld om te kijken of er sprake is van een traumatisch hersenletsel. De subtesten zijn zeer gevoelig voor de impact van letsel, degeneratieve ziekte, blootstelling aan gif, effecten van medicatie en rehabilitatie inspanningen. Via de ANAM4 TBI kan gekeken worden die de soldaat er aan toe is op neurocognitief gebied in vergelijking met eerdere testen en de normgroep. De normgroep is zorgvuldig onderverdeeld op leeftijd en geslacht en gevormd door hele grote samples. Er is vrij weinig bekend over de sensitiviteit en specificiteit. De rest van psychometrische kenmerken zijn wel in orde.

Daarnaast hebben we ook nog een andere gecomputeriseerde test, de ImPACT. Deze test is ontwikkeld om te onderzoeken of sporters na het krijgen van een hersenschudding nog door kunnen spelen. De test is alleen bruikbaar wanneer er een individuele baseline is ingesteld. De test heeft een goede sensitiviteit (82%) en een goede specificiteit (89%). Er is wel kritiek op deze test, er is bijvoorbeeld veel sprake van false positives. Empirisch onderzoek ondersteunt het idee dat deze test geschikt is om de beslissing te nemen, of een sporter wel of niet door kan spelen, niet. Daarvoor zijn meer testen nodig en niet alleen deze.

Screenen voor alcoholmisbruik stoornissen

Een verschil moet gemaakt worden tussen alcoholmisbruik en alcoholafhankelijkheid. Iemand krijgt de diagnose alcoholmisbruik als hij aan een van de vier criteria voldoet:

Drinken hindert alledaagse functies.
Drinken leidt tot onveilig gedrag.
Drinken veroorzaakt wettelijke overtredingen.
Drinken leidt tot conflicten met een ouder of verzorger.

Iemand is alcoholafhankelijk als hij aan drie van de volgende 7 criteria voldoet:

Verhoogde tolerantie voor alcohol voor hetzelfde effect.
Ontwenningsverschijnselen zoals trillen.
Meer en langer drinken voor langere periodes dan was gepland.
Verlangen om te stoppen maar zonder succes.
Veel tijd verspillen aan alcohol drinken.
Opgeven van belangrijke activiteiten om te gaan drinken.
Blijven doordrinken ondanks ernstige gezondheidsproblemen.

De CAGE vragenlijst is een kort screening instrument met vragen over of de persoon wilt stoppen met drinken, of hij geïrriteerd is door kritiek over zijn gebruik, of hij zich schuldig voelt over zijn gebruik en of hij een eyeopener heeft gehad. Over het gebruik en de validiteit van de CAGE bestaan nog twijfels. Sommige onderzoekers zeggen dat hij beter werkt voor mannen dan voor vrouwen, waardoor er een screening voor vrouwen is gekomen, de TWEAK. Deze blijkt ook accuraat alcoholmisbruik te voorspellen bij vrouwen.

Daarnaast is er ook de Substance Abuse Subtle Screening Inventory. De SASSI-3 bestaat uit 26 duidelijke vragen over middelenmisbruik en uit 67 subtiele vragen over symptomen. De validiteit is van de SASSI-3 is erg goed en wordt daarom ook vaak gebruikt.

Als laatst is er nog de Mini-Mental State Examination (MMSE). Dit is een objectieve index voor cognitief functioneren en wordt vooral gebruikt bij patiënten met Alzheimer. Het bestaat uit 30 vragen die te maken hebben met tijdoriëntatie, direct geheugen, aandacht, rekenen, taalproductie, taalbegrip en design kopie. Er wordt gebruik gemaakt van een cut-off score die bepaald of een patiënt wel of geen Alzheimer zou kunnen hebben. Dit is 80 tot 90% van de gevallen juist. De test wordt aangeraden als vlugge screeningtest voor ouderen.

Wanneer en hoe worden industriële, beroeps- en carrière assessments gedaan? - Chapter 11

Onderwerp 11A: Waaruit bestaat de Organisatie Assessment?

Industriële- en organisatiepsychologie houdt zich bezig met gedrag in werksituaties. I/O psychologen worden onder andere ingezet voor het bedrijfsleven, voor reclame en in het leger.

De rol van tests in personeelsselectie

Omdat tests waardevolle informatie verschaffen over potentiële werkprestaties worden ze gebruikt door veel bedrijven en organisaties voor personeel selectie. Het lijkt simpel, degene die het hoogst correleert met het opgegeven werkcriterium zal het best presteren. Maar werkgedrag is niet simpel, één-dimensionaal gedrag. Daarnaast hangt complex gedrag vaak ook voor een deel sterk af van de situatie. Een perfecte benadering voor selectie kan dus nog steeds niet voor iedereen valide zijn. Vervolgens heb je ook nog te maken met legaliteit. Selectieprocedures hebben vaak zo'n grote impact op of de persoon wordt aangenomen dat er strikte regels zijn die moeten worden nageleefd. Personeelsselectie is daarom een vage, conditionele en onzekere taak. Voor personeelsselectie zijn verschillende manieren die in dit hoofdstuk besproken worden.

Autobiografische data

De biodata zijn lijsten met data van de geschiedenis van het persoonlijke- en werkverleden. Het bevat ook demografische informatie. De biodata is objectief en in scores in te delen. Het rationele van biodata is dat werk-gerelateerd gedrag voorspeld kan worden uit keuzes en behaalde doelen van vroeger. De data wordt verzameld via vragenlijsten.

Na het verzamelen van de biodata moeten psychologen vanuit de gemiddelden de werkprestaties voorspellen. Dit wordt gedaan door de bestaande werknemers in te delen in een succesvolle en onsuccesvolle groep, gezien werkprestaties, salaris en beoordelingen. De biodata worden dan vergeleken met deze twee groepen. Door middel van cross validatie wordt het vergeleken met een tweede groep van succesvolle en onsuccesvolle groepen.

Biodata heeft ongeveer een gelijke validiteit als gestandaardiseerde tests. Men moet oppassen dat er geen conclusies getrokken worden uit bepaalde demografische factoren (leeftijd, sekse, ras), ook al kan dit wel werkprestaties voorspellen. Er is gebleken dat personen eerlijker zijn over hun biodata wanneer ze elk antwoord specifiek moeten toelichten.

Er is weinig twijfel of pure objectieve data accuraat de werkprestaties kunnen voorspellen. Werkgevers vertrouwen echter meer op subjectieve informatie zoals het sollicitatiegesprek wanneer ze iemand willen aannemen.

Het sollicitatiegesprek

Hoewel het sollicitatiegesprek slechts een onderdeel is van het evaluatieproces, is het voor veel werknemers de doorslaggevende factor om iemand aan te nemen. Vroegere studies geven echter aan dat het sollicitatiegesprek onbetrouwbaar is, gezien inter-beoordeel betrouwbaarheden van -.50. Daarnaast zijn werknemers gevoelig voor de halo-bias: de neiging om iemand hoog of laag in te schatten op alle dimensies vanwege zijn algemene indruk. Betrouwbaarheden bleken hoger te zijn, wanneer men door een panel werd geïnterviewd of wanneer het sollicitatiegesprek was gestandaardiseerd.

Ditzelfde patroon is ook bij de validiteit te zien. In vroegere studies waarbij ongestructureerde sollicitatiegesprekken werden onderzocht, bleek de validiteit erg slecht te zijn (-.20). Voor gestructureerde gesprekken is de validiteit al veel hoger (.67). Belangrijk is dat sollicitatiegesprekken bijna altijd in combinatie met andere informatie worden gebruikt. Studies gaven aan dat de validiteit minder wordt wanneer er naast andere informatie (referenties of objectieve tests) ook gebruik gemaakt wordt van een lang sollicitatiegesprek. Studies hebben alleen aangetoond dat sollicitatiegesprekken, wanneer ongestructureerd, de validiteit van een sollicitatieprocedure kunnen verminderen.

Sollicitatiegesprekken kunnen dus valide zijn wanneer ze gestructureerd en gestandaardiseerd zijn. Het probleem is echter dat de toepassing van het gesprek vaak ongestructureerd is, wat voor onrealistische beoordelingen zorgt.

Ondanks de twijfelachtige betrouwbaarheid en validiteit worden sollicitatiegesprekken ten eerste gebruikt de eventueel toekomstige werknemers te ontmoeten. Ten tweede is er veel onderzoek gedaan naar de handdruk van de sollicitant en de indruk daarvan. Een stevige handdruk geeft positieve effecten of de sollicitant wordt aangenomen. Dit effect geldt sterker voor vrouwen. Ten derde is gebleken dat de indruk die in de eerste paar minuten, nog voor het sollicitatiegesprek, gekregen wordt, een verschil maakt of de sollicitant wordt aangenomen.

Cognitieve vaardigheidstests

Cognitieve tests kunnen verwijzen naar algemene intelligentie of verschillende specifieke structuren ervan. Cognitieve tests blijken redelijk goed valide te zijn voor personeelsselectie. Een zorg met het gebruik van cognitieve tests is dat het leidt tot een ‘adverse impact’ voor minderheden. Dat betekent dat witte mensen eerder gekozen worden. Daarom moeten de tests gebruikt worden in combinatie met bijvoorbeeld biodata. Uit onderzoek is gebleken dat tests voor algemene intelligentie (de g factor) een betere voorspeller zijn voor werksucces dan specifieke cognitieve metingen.

Dat komt doordat de meeste banen complex zijn en dus meerdere cognitieve vaardigheden vergen. Specifieke cognitieve vaardigheden zijn alleen wel van belang, omdat verschillende beroepen verschillende vaardigheden vragen. Een algemene cognitieve meting kan dit vaak niet naar voren brengen. De testen zijn snel, niet duur en makkelijk om te interpreteren. Ze worden gebruikt voor personeelsselectie, evaluatie en screening.

Wonderlic Peronnel Test-Revised (WPT-R)

Deze test meet algemene mentale vaardigheden en wordt veel gebruikt wegens zijn formaat (50 items), beknoptheid (12 minuten) en parallelle versies (ongeveer 16). De betrouwbaarheid is indrukwekkend, gezien de beknoptheid. Interne consistentie is rond de .90 en parallelle versies correleren met .90. De validiteit is ook positief, gezien de correlatie van .91 met de WAIS. Nadelen van de test zijn echter dat de test minder goed te doen is voor mensen met visueel-spatiële beperkingen en wiens moedertaal niet Engels is.

Bennet Mechanical Comprehension Test (BMCT)

Deze test wordt vooral gebruikt bij het begrijpen van mechanische constructies en principes. Voor veel werkgebieden is dit essentieel. De test bestaat uit afbeeldingen met vragen van alledaagse mechanische en technische basisprincipes. Het is een betrouwbare (split-half van boven de .80) en valide (.80) test. De test bleek een zeer goede voorspeller voor pilootsuccessen in de Tweede Wereldoorlog. Het enige nadeel is dat de test en zijn items gedateerd zijn en dat de test dus gemoderniseerd moet worden.

Minnesota Clerical Test (MCT)

De MCT meet snelheid en accuraatheid van perceptie door middel van twee subtests: nummer vergelijking & naam vergelijking. Het kan uitdagend zijn, omdat er 100 gelijke en 100 ongelijke combinaties zijn die maar verschillen op 1 cijfer of 1 letter. De betrouwbaarheid is rond de .85, dus dat is redelijk goed. De validiteit is redelijk, maar niet heel goed. Daarnaast is het vanwege de vage normgroepen, ook niet geheel duidelijk wat de test precies meet, en hoe de test werkprestaties voorspelt. De test is relevant voor kerkelijk werk.

Persoonlijkheidstests

Voordat de ‘Big Five’ uit was werd er voor de interpretatie van persoonlijkheidstests voor personeel selectie geen gebruik gemaakt van empirische ondersteuning. Het was de subjectieve mening van de psycholoog. Vroegere studies lieten dan ook zien dat de tests nauwelijks valide waren. Pas rond 1990, met de opkomende populariteit van de Big Five, kwam er bewijs dat persoonlijkheid een nuttige factor is voor personeel selectie. Na een studie blijkt dat mensen die zichzelf beschrijven als betrouwbaar, georganiseerd en hardwerkend (hoge scores op conscientiousness) betere werkprestaties leveren. Verschillende tests die persoonlijkheid meten zijn valide voorspellers voor werkprestaties.

Integriteitstests

Een integriteitstest evalueert houdingen en ervaringen gerelateerd aan eerlijkheid, afhankelijkheid, vertrouwen en prosociaal gedrag van een sollicitant. Integriteitstest bestaan uit een deel dat houdingen tegenover illegaal gedrag bevraagt en een deel dat openlijk illegale activiteit bevraagt. Integriteitstests kunnen makkelijk vals ingevuld worden en zijn daarom van mindere waarde.

Validiteitsstudies toonden aan dat integriteitstests geen goede voorspellers zijn voor werkprestaties maar dat ze wel een goede correlatie hadden met contraproductief werkgedrag. Op die manier is het een valide factor voor personeelsselectie. Er blijven echter veel kanttekeningen bestaan bij het gebruik van integriteitstests. Onder andere vanwege de ongekwalificeerde gebruikers, de invloed van situationele factoren en het ontbreken van optimale cut-off scores.

Werkproef en situationele oefeningen

Een werkproef is een miniatuur replica van de baan waar de sollicitant zich voor heeft opgegeven. Het moet de moeilijke elementen van de baan bevatten die goede van slechte kandidaten scheiden. Een validiteitsstudie bleek correlaties tussen de .42 en .66 te vinden tussen werkprestaties en beoordelingen van de leidinggevende.

Een situationele oefening wordt veel gebruikt bij de selectie van managers en andere professionele posities. Het verschil met de werkproef is dat de situationele oefening de gehele baan omvat en niet slechts delen. Werkproeven en situationele oefeningen zijn gebaseerd op het idee dat vorige prestaties de beste voorspeller zijn voor toekomstige prestaties in hetzelfde domein.

De in-basket test is een situationele oefening die het werk van een administratief medewerker omvat. Het wordt gescoord op antwoordstijl en inhoud. Antwoordstijl verwijst naar de manier hoe een taak voltooid is. Inhoud verwijst naar hetgene dat gedaan moest worden, dus wat de taak was. Uit de scores volgden drie dimensies: Voorbereiden op actie, Hoeveelheid werk, en Zoeken van steun. Het blijkt dat de in-basket test een goede voorspellende validiteit hebben.

Een assessment centrum is niet per se een bepaalde plaats in het bedrijf, maar het doel van een assessment centrum is om het managers-potentieel te evalueren door middel van allerlei trainingen, zoals de in-basket techniek. Dit zorgt voor een valide onderzoek naar nieuwe managers. De vraag is alleen of het effectief genoeg is, wanneer je naar de hoge kosten voor zo’n assessment centrum kijkt. Zo is gebleken dat een maximaal effect bereikt wordt, wanneer een assessment centrum gecombineerd wordt met persoonlijkheidstests. De vraag is dus of de kosten opwegen tegen de resultaten.

Een idee is om alleen de sollicitanten er heen te sturen die met hun score in de middenmoot vallen op screeningstesten en de hogere en lagere scores niet.

Beoordeling van werkprestaties

Beoordelingen zijn cruciaal voor werknemers want zonder nuttige feedback weten werknemers niet hoe zij zich moeten verbeteren. Hiervoor zijn dan ook verschillende beoordelingsschalen. Het beoordelen van werkprestaties is een complex probleem, vaak naar verwezen als het criterium probleem, de moeilijkheden die er zijn hebben te maken met het beschrijven en meten van prestatiestructuren. Werkprestaties zijn namelijk vaak complex, vaag en multidimensionaal.

Verschillende benaderingen

Een eerste manier om de werkprestaties te beoordelen is door de prestaties te meten. Hierbij wordt bijvoorbeeld gekeken naar de hoeveelheid die een werknemer geproduceerd heeft of hoeveel verkopen hij heeft gedaan. Er zijn verschillende problemen voor deze objectieve en valide methode.

De hoeveelheid productie kan buiten de macht van de werknemer liggen.
Voor de meeste banen is het niet mogelijk een hoeveelheid te tellen.
Zo’n kwantitatieve beoordeling kan de kwaliteit van de productie achteruit laten gaan.
Productietellingen zijn onbetrouwbaar, zeker voor korte tijdsbestekken.
De hoeveelheid productie kan maar een klein deel van de benodigde vaardigheden zijn.

Als tweede manier om werkprestaties te beoordelen wordt de absentie van de werknemer bijgehouden. Het is echter een nutteloze meting voor werkprestaties, de extreme uitzonderingen daargelaten. Het eerste probleem is de definiëring van absentie; de criteria zijn vaag. Het tweede probleem is dat absentiemetingen erg onbetrouwbaar zijn. Als laatste zijn de absentiecijfers over het algemeen vrij laag.

Als derde manier wordt gebruik gemaakt van rapportage van collega’s en van zelfrapportage. Dit is echter ook niet geheel betrouwbaar, want men schat zichzelf hoger in dan collega’s en supervisors hebben andere ideeën over wat belangrijk is in een baan dan werknemers.

Als meest gebruikte manier zijn beoordelingsschalen die ingevuld worden door de leidinggevende. Ondanks hun milde betrouwbaarheid worden deze gebruikt voor ongeveer ¾ van de beoordelingen.

Een grafische beoordelingsschaal bestaat uit kenmerken, definities ervan en een continuüm waarop gescoord wordt. Het is simpel, maar de dimensie van werkprestatie is vaag gedefinieerd.

Een kritische incidentenschaal is gebaseerd op gewenst en ongewenst gedrag tijdens het werk. Dit vormt een lange lijst waar dan bepaalde gedragingen kunnen worden afgevinkt. Een gedragsanker beoordelingsschaal (BARS) is gebaseerd op gedragingen die te maken hebben met de persoonlijkheid en attitudes van de werknemer. Het is een complex, tijdrovend en duur karwei om zo’n criteriumschaal te ontwikkelen.

Een gedragsobservatieschaal (BOS) is een variatie op de BARS die gescoord wordt van ‘bijna nooit’ tot ‘bijna altijd’ voor de specifieke gedragingen. Een geforceerde keuze schaal is ontwikkeld om bias en subjectiviteit tegen te gaan. Van vier items zijn twee positief en twee negatief. Van de positieve en negatieve items is er een die de baan goed beschrijft. De leidinggevende moet een van de items kiezen als ‘best beschrijvend’ en een als ‘slechts beschrijvend’ voor de werknemer.

Bronnen van bias

Een eerste bias die veel gemaakt wordt is het halo-effect. Hierbij worden werknemers beoordeeld op alle dimensies wegens een algemene indruk. Het vaakst komt een positief halo effect voor, dus dat werknemers hoog worden beoordeeld vanwege een goede algemene indruk. Halo effecten kunnen tegen gegaan worden door speciale trainingen, de leidinggevende bekijken terwijl ze beoordelen, oefeningen van te voren doen, bijhouden welke informatie relevant is voor de beoordeling en leidinggevenden gebruiken die minder gevoelig zijn voor halo effecten.

Er zijn verschillende beoordelaar-biases. Mildheid of juist strengheid zorgt voor te milde of te strenge beoordelingen. Context fouten worden gemaakt wanneer de werknemer beoordeeld wordt op basis van de prestaties van zijn collega’s. Opvallend is dat het affect tegenover de werknemer niet veel effect heeft op de beoordeling.

Criterium contaminatie bestaat wanneer een criteriummaat onderhevig is aan factoren die niet bij de baan horen. Kans bias ontstaat wanneer verschillende collega’s verschillende kansen hebben op succes. Groepskenmerken bias komt voor wanneer groepskenmerken de individuele prestatie beïnvloeden. Kennis van voorspeller bias ontstaat wanneer de leidinggevende persoonlijke kennis over de werknemer mee laat spelen voor de beoordeling. Bij deze vormen van bias is het dus belangrijk dat de leidinggevende goed onderscheid maakt tussen wat wel en niet relevant is voor de baan.

Beoordeling van werkprestaties is lastig. De methode moet psychometrisch geldig zijn (geldigheid), maar ook in overeenstemming zijn met de organisatiedoelen (uitvoerbaarheid). Daarnaast mag niet gediscrimineerd worden op ras, sekse en andere factoren (wettigheid). Deze drie factoren botsen vaak met elkaar. Vooral trainingen met beoordelaars kunnen hiertegen helpen. Hierbij worden twee soorten trainingen genoemd: rater error training waarbij de beoordelaar wordt getraind in het vinden van specifieke errors. En frame of reference training waarbij de beoordelaar wordt getraind om bekend te worden met de inhoud van elke prestatie dimensie. Als laatste is er een studie gedaan over culturele verschillen in beoordelingen van werkprestaties.

Zij vonden dat overeenstemming tussen sociale normen en persoonlijke assessment methodes zorgden voor minder uitloop en absentie. Vooral de 360-evaluatie werkt goed. Hierbij wordt een werknemer door alle niveaus beoordeeld met wie hij interacteert tijdens zijn werk.

Onderwerp 11B: Wat omvat carrière assessment in de globale economie?

Carrièreontwikkeling

Carrière identiteit is een begrip dat nog niet heel lang bestaat maar inmiddels onmisbaar is. Het carrière is een onderdeel geworden van iemands persoonlijkheid. Een baan zegt veel over iemand, over zijn persoonlijkheid, economische klasse en sociale standpunt. Flexibiliteit in carrièreontwikkeling is meer dan ooit nodig door de globalisering van de economie. Mensen wisselen ook vaker van baan. Het is voor psychologen dus niet makkelijk om bij deze ontwikkeling begeleiding te bieden. Zij kunnen dan ook geen simpel antwoord geven waaruit blijkt welke carrière iemand moet gaan volgen.

Functies van werk

Voor veel mensen is werk meer dan een middel om voor voedsel en huisvesting te betalen. Veel achtergestelde mensen hebben echter niet de mogelijkheid tot het vervullen van een carrièredroom. Blustein et al. (2008) geven een meta-analyse voor drie sets van behoeften dat werk kan vervullen:

Overleving en macht: de meest fundamentele redenen om te werken, namelijk voor basisbehoeften en de toegang tot economische en sociale macht.
Sociale connectie: werk is de plek waar onze sociale banden ontstaan. Dit kan weer zorgen voor betere werkprestaties.
Zelfontwikkeling: werk kan een vervulling van zelfactualisatie en persoonlijke vervulling zijn.

Oorsprong van theorieën van carrièreontwikkeling

In 1909 werd op basis van een duidelijk begrip van 1) jezelf en je mogelijkheden, 2) de benodigdheden en condities voor succes, en 3) redenering over de relatie tussen deze twee de eerste vragenlijst opgesteld voor carrièrekeuze door Parsons. Deze bestond uit 116 items die vragen hadden over de behaalde doelen, interesses en bekwaamheden van de cliënt. Het doel was om persoonlijke kenmerken te matchen aan factoren van de baan, om zo de juiste baan te kunnen kiezen.

Theorie van de persoon-omgeving fit

Volgens Holland zijn er persoonlijkheidstypes bestaande uit clusters van persoonlijkheidskenmerken en interesses. Hiermee stelde hij het RIASEC model op van zes persoonlijkheidstypes met bijbehorende werkthema’s:

Realistisch: actie ondernemen.
Onderzoekend (investigative): denkend, ideeën genereren.
Artistiek: schoonheidsleer, creaties.
Sociaal: verbinden en helpen.
Ondernemend (enterprising): leiding geven aan mensen.
Conventioneel: routine en structuren.

Met de eerste letters van elk type kan dan een Hollandcode worden opgesteld, aangezien elk individu niet slechts 1 type persoonlijkheid vertoont. Dit model is erg invloedrijk geweest.

Theorie van persoon-omgeving correspondentie

Ook wel afgekort tot PEC, lijkt deze theorie op die van Holland in het feit dat beide theorieën geschikte carrières bepalen op basis van vaardigheden van de persoon en benodigde kwaliteiten voor beroepen. Hieruit volgen 6 cruciale waarden die belangrijk zijn voor de assessment van carrière ontwikkeling:

Prestatie: het gebruik van iemands vaardigheden en een gevoel van succes hebben.
Altruïsme: harmonie met en dienen van anderen.
Autonomie: onafhankelijk zijn en een gevoel van controle hebben.
Comfort: gevoel van comfort hebben en niet stressvol zijn.
Veiligheid: stabiliteit, orde en voorspelbaarheid.
Status: herkenning en een dominante positie vervullen.

Als aan deze waarden wordt voldaan, zal een werknemer snel tevreden zijn over zijn baan. Daarnaast zijn er ook omgevingsstijlen op een continuüm die meespelen om een beroep te voltooien:

Spoed: de snelheid die nodig is om op eisen te beantwoorden.
Tempo: het niveau van inspanning dat geleverd moet worden aan de omgeving.
Ritme: het patroon van respons tot de omgeving: stabiel, cyclisch of onvast.
Duur: of de duur van de respons tot de omgeving kort of langdurig is.

De theorie komt overeen met het model van Holland aangezien beiden gaan over het matchen van persoonlijkheidskenmerken aan de factoren van een baan. Het verschil is alleen dat deze theorie meer de nadruk legt op de persoonsbekwaamheden die nodig zijn voor bepaalde beroepen en niet zo zeer op de vaardigheden.

Vaardigheden kunnen ten slotte aangeleerd worden. Het is van belang wat voor niveau de persoon kan halen met de juiste training. Uit deze theorie is een hypothese gekomen die veel wordt gebruikt in onderzoeken: de tevredenheid van een persoon over een baan is een functie van de match tussen de beschikbare omgevingsfactoren met de waardes van het individu, onder de voorwaarde dat de bekwaamheid van de persoon correspondeert met wat nodig is voor de baan.

Fase theorieën van carrièreontwikkeling

Donald Super had een meer flexibele, holistische, levensloop perspectief op carrière ontwikkeling. Het individuele zelfconcept verandert met de tijd en ervaring. Daarmee onderscheidde hij vijf beroepsleven fases, ook wel bekend als de carrièreladder:

Groeifase: observeren van volwassen gedrag en het onderzoeken van fantasieën en interesses in de adolescentie.
Exploratiefase: verdeeld over fantasie, experimentele, en realistische fases, waarbij de jongvolwassene verschillende trainingen/onderwijs uitprobeert.
Vestigingsfase: verdeeld over een proef- en stabilisatiefase, waarbij de volwassene een bedrijf binnenkomt en zich vestigt door relaties en promoties.
Handhavingsfase: het individu kan innovatie nodig hebben, moet zijn vaardigheden bijwerken en ziet zijn carrière stagneren.
Achteruitgangsfase: het individu is ouder en heeft specialisatie, ontkoppeling of pensioen nodig.

Deze theorie laat zien dat een carrière ontwikkeling levenslang is, maar is wel gebaseerd op blanke middel- of hogere klasse burgers.

Sociaal cognitieve benaderingen

Sociale cognitieve benaderingen gaan ervan uit dat mensen leren en attitudes ontwikkelen over werk binnen een sociale context door middel van observatie en het modelleren van gedrag.

Krumboltz ontwikkelde de ‘Happenstance Learning Theory’ (HLT). Die stelt dat “menselijk gedrag een product is van verschillende leerervaringen die beschikbaar zijn door (on)geplande situaties waarin men zichzelf vindt.

De leeruitkomsten zijn vaardigheden, interesses, kennis, houdingen, voorkeuren, gevoeligheden, emoties, en toekomstige acties.” Volgens hem moet sociale onrechtvaardigheid tegen worden gegaan. De theorie is gebaseerd op vier premissen:

Carrière begeleiding heeft het doel cliënten te helpen om acties aan te leren zodat hun carrière en persoonlijke leven meer tevredenheid oplevert, niet om een enkele carrièrekeuze te geven.
Assessments moeten gebruikt worden om het leren te stimuleren, niet om persoonlijke kenmerken te matchen met beroepskenmerken. Hij heeft dan ook kritiek op veel tests.
Cliënten leren om onderzoekende acties te gebruiken zodat zij succesvol met ongeplande gebeurtenissen kunnen omgaan, niet om al hun acties in ter verbetering te plannen.
Succes van begeleiding wordt geëvalueerd door wat de cliënt in de echte wereld bereikt, niet wat tijdens de begeleidingssessies gebeurt.

De theorie is een op activiteiten gebaseerde theorie waarbij de cliënt en de counselor samenwerken om erachter te komen wat de cliënt kan doen om nieuwe dingen te leren en nieuwe kansen aan te grijpen.

O*NET in carrièreontwikkeling

De ‘Occupational Information Network’ (O*NET) is een database website, gesponsord door de Amerikaanse overheid, die informatie bevat over duizenden banen, zoals de kennis, vaardigheden, en vermogens die benodigd zijn. Daarnaast zijn er ook verschillende assessment tools beschikbaar, die ook zelf ingevuld kunnen worden.

Tests voor carrière assessment

Een eerste test die gebruikt wordt is de ‘Career Beliefs Inventory’ (CBI), ontwikkeld door Krumboltz. Deze meet en identificeert de houdingen en overtuigingen die een carrière ontwikkeling kunnen tegenhouden. Vaak zijn dit zelflimiterende overtuigingen. De CBI moet hierin bewustzijn geven en de potentiële invloed die het heeft. De CBI bestaat uit 96 items verdeeld over 25 schalen onder de volgende vijf factoren:

Jouw huidige carrière situatie (4): werkstatus, carrièreplannen, acceptatie van onzekerheid, openheid.
Wat nodig is voor jouw geluk (5): prestatie/succes, scholing/onderwijs, intrinsieke tevredenheid, gelijkheid aan peers, gestructureerde werkomgeving.
Factoren die jouw keuzes beïnvloeden (6): controle, verantwoordelijkheid, goedkeuring van anderen, vergelijking tussen het zelf en andere, beroep-scholing variatie, carrière pad flexibiliteit.
Veranderingen die jij bereid bent te maken (3): post-training overgang, baan experimentalisatie, herlokalisatie.
Inspanning die jij bereid bent te leveren (7): zelfverbetering, doorgaan met onzekerheid, risico’s nemen, leren van baanvaardigheden, onderhandelen/zoeken, obstakels overwinnen, hard werken.

Standaardisatie werd gedaan bij 7500 mensen. Betrouwbaarheden waren gemixt: test-hertests tussen de .30 en .70. en interne consistentie tussen de .40 en .80. De CBI had een gemiddelde construct validiteit.

Tests voor interesse assessment

Interesse assessment wordt gedaan wegens twee doelen: levenstevredenheid en beroepsproductiviteit. Een goede fit tussen interesses en het gekozen beroep zorgt voor meer tevredenheid, wat weer zorgt voor een hogere productiviteit. Maar de vaardigheden zijn ook belangrijk. Oftewel: productiviteit = vaardigheid x interesse.

Strong Interest Inventory-Revised (SII-R)

De SII-R is een herziende versie van de ‘Strong Vocational Interest Blank’ (SVIB). De assumpties van deze test waren:

Elk beroep heeft een gewenst patroon van interesses en persoonlijkheidskenmerken die gerepresenteerd worden door de succesvolle werknemers.
Elk individu heeft stabiele interesses en persoonlijkheidstrekken. Dus wanneer deze overeenkomen met die van het beroep heeft het individu een grote kans om dat beroep uit te oefenen en succesvol te zijn.
Het is mogelijk om individuen in een bepaald beroep te onderscheiden van andere mensen op basis van het gewenst patroon van interesses en trekken van dat beroep.

De SII-R is ook gebaseerd op deze assumpties. Maar de test is herzien op de punten dat hij korter is; er huidige beroepen zijn toegevoegd; het niveau van zaken, technologie en teamwerk metingen verhoogd zijn; werk en vrije tijd activiteiten zijn verbreed; en de diversiteit van de VS-personeelsbestand is gereflecteerd. De 291 items zijn gebaseerd op de 6 beroepstypes van Holland. De SII-R geeft ook vijf persoonlijke stijlschalen die de leef- en werkstijl reflecteren:

Werkstijl: hoge scores geven interesses in werken met mensen; lage scores met ideeën, data en dingen.
Leer omgeving: hoge scores geven voorkeur voor academische leeromgevingen; lage scores voor toegepaste leeractiviteiten.
Leiderschapsstijl: hoge scores geven comfort in het nemen van de leiding; lage scores geven ongemakkelijkheid daarmee.
Risico’s nemen/avontuur: hoge scores geven voorkeur voor riskante en avontuurlijke activiteiten; lage scores voor veilige en voorspelbare activiteiten.
Team oriëntatie: hoge scores geven voorkeur voor samenwerking en teamwerk; lage scores voor alleen en onafhankelijk werken.

Betrouwbaarheden van de SII-R zijn goed: test-hertests van .90, maar is lager bij adolescenten en wanneer er langere tijd tussen zit. De validiteit is ook redelijk goed: twee op de drie personen kiest een ‘juiste baan’.

Vocational Preference Inventory (VPI)

De VPI meet in totaal 11 dimensies. Naast de 6 persoonlijkheid-omgeving dimensies van Holland meet het ook Zelfcontrole, Mannelijkheid/vrouwelijkheid, Status, Zeldzaamheid, en Berusting. Het is een korte test van 160 items met ja/nee vragen.

De test-hertest betrouwbaarheid is .89-.97. De eigenschappen van het standaardisatie sample zijn niet goed gedefinieerd en daarom zijn de normen wat lastig om te interpreteren. De validiteit is erg goed, de test komt sterk overeen met het model van Holland.

Door middel van de VPI kon de theorie van Holland op veel beroepen worden toegepast, zodat voor veel beroepen een drie-letterige Hollandcode ontstond, zo krijgt een landschapsarchitect RIA en een vastgoedhandelaar ECS. Dit kan ook toegepast worden op universiteitsmasters.

Self-Directed Search (SDS)

De SDS meet de 6 RIASEC thema’s op 4 schalen met dichitome items: Activiteiten, Competenties, Beroepen en Zelf-inschattingen. Wanneer de SDS gescoord wordt, worden de drie hoogste thema’s omgevormd tot een Hollandcode. De SDS is vooral digitaal, wat het voordeel heeft dat het snel en simpel is en dat er niemand nodig is om te scoren, interpreteren of feedback te geven. Zowel de construct als de voorspellende validiteit worden ondersteund door verschillende studies.

Campbell Interest and Skill Survey

De CISS bestaat uit 200 interesse items en 120 vaardigheidsitems die door een persoon zelf gegeven worden op een 6-puntsschaal. Interesse items bevatten beroepen, schoolvakken en werkactiviteiten en de vaardigheidsitems bevatten activiteiten die beoordeeld worden op ‘expert op dit gebied’ tot ‘geen ervaring’.

De CISS wordt gescoord op verschillende schalen, waaronder een Oriëntatieschaal die het profiel opstelt middels 7 oriëntaties: Invloed, Organisatie, Helpen, Creëren, Analyseren, Produceren, en Avonturieren. De andere schalen zijn: Basis interesses en vaardigheden Schaal, Beroepsschalen, Speciale schalen, en Procedurele checks.

De betrouwbaarheid is erg sterk; de meeste schalen hebben een test-hertest van .80. Ook de validiteit van de CISS wordt bevestigd door verschillende correlatiestudies. Het is dus een handig instrument, zeker omdat het digitaal is en men het zelf kan interpreteren. In het boek staan voorbeelden van de resultaten van de CISS. De CISS zal een rivaal zijn voor de SII-R.

Waar ligt de toekomst van psychologische testen? - Chapter 12

Onderwerp 12B: Wat omvatten de computerassessment en de toekomst van testen?

Computers worden tegenwoordig bij bijna elk aspect van een assessment gebruikt waaronder ook de administratie, scoring en de interpretatie van vele testen. De psycholoog kan zelfs de cliënt achter een computer zetten met als enige instructie: ‘volg de instructies’. Minuten later rolt er een gedetailleerd rapport uit met een samenvatting van de resultaten en interpretatie.

Gebruik van computers tijdens testen

Tijdens het gehele proces van de assessment hoeft een persoon geen interactie te hebben wanneer er gebruik wordt gemaakt van computerassessment. De term hiervoor is computer geassisteerde psychologische assessment (CAPA). Computers worden gebruikt voor het ontwerpen van tests, interpreteren van resultaten, schrijven van verslagen en het presenteren van teststimuli.

Huidige status van de interpretatie van computertests

Computer-gebaseerde test interpretatie (CBTI) verwijst naar de test interpretatie en verslag schrijven door een computer. CBTI kan op vier manieren: scoringsverslagen, beschrijvende verslagen, actuarieel/statistisch verslag, en een klinisch verslag. Elke grote testleverancier biedt computergebaseerde interpretaties aan.

Een scoringsverslag of rapport bestaat uit de behaalde scores of profielen op een test. Het bevat onder andere statistische significantie tests en betrouwbaarheidsintervallen maar nooit een verhalende tekst of uitleg van scores.

Een beschrijvend verslag gaat een stapje verder en geeft per schaal een korte interpretatie van de testresultaten. Het geeft waardevolle informatie in een minder dan een halve pagina. Het is vooral handig voor mensen in de gezondheidszorg die geen verstand hebben van de test. Op deze manier kunnen ze toch gebruik maken van de resultaten.

Statistisch verslag: klinische vs. statistische voorspelling

Het statistische rapport is gebaseerd op empirische relaties tussen testresultaten en de bepaalde criteria. Het geeft voorspellingen over de geteste persoon. Er is een belangrijk verschil bij computervoorspellingen tussen het klinische en het actuariële/statistische oordeel. Bij het klinische oordeel verwerkt de besluitnemer de informatie in zijn hoofd om vervolgens een diagnose, classificatie of voorspelling van gedrag te geven. Er wordt gebruik gemaakt van ervaring, intuïtie of kennis.

Bij het statistische oordeel wordt een empirisch verkregen formule gebruikt om een diagnose, classificatie of voorspelling van gedrag te geven. Er wordt gebruik gemaakt van vergelijking tussen schaalscores en een onderzoeks-gebaseerde formule.

Een statistisch oordeel is niet hetzelfde als een computer oordeel, hoewel computers wel het statistische oordeel gebruiken. Meehl stelde als eerst het verschil tussen de twee: “wanneer gebruiken we ons hoofd in plaats van de formule?” Om een eerlijke vergelijking tussen de twee benaderingen te doen zijn twee condities nodig. Ten eerste moeten beide methodes op dezelfde data zijn gebaseerd. Ten tweede moeten condities vermeden worden die de accuraat van de statistische methode kunstmatig verhogen. Hieruit blijkt dat de statistische methode vaak een betere voorspellende validiteit heeft dan de klinische methode, hoewel dit niet significant is. Beide methodes zijn goed en ondersteunen het idee dat “de beste voorspeller van gedrag in de toekomst is het gedrag uit het verleden.”

Statistische interpretatie: sample benadering

Statistische interpretatie gebruikt empirische correlaties tussen individuele schalen en belangrijke non-test criteria. Het kan bijvoorbeeld gebruikt worden met de PIC-2. In de eerste fase worden de beschrijvingen van het kind gecorreleerd met de 20 schalen van de PIC-2 om significante schalen te herkennen. In de tweede fase worden de significante correlaties verder geanalyseerd om te vergelijken met T-scores. Dan wordt duidelijk waar de significante problemen zitten.

Computer-geassisteerde klinische rapporten

Hierbij wordt de interpretatie van de testresultaten gebaseerd op het oordeel van een of meerdere klinische experts. Hun klinische gedachtegangen worden omgevormd tot een computer code. Het voordeel van de klinische methode is dat alle testprofielen kunnen worden geïnterpreteerd, terwijl bij de statistische methode sommige profielen niet te interpreteren zijn. Bijvoorbeeld wanneer ze in een nieuwe setting of populatie worden gebruikt. Dan kan het gebeuren dat er veel testprofielen gemist worden omdat ze de formule niet fitten, terwijl ze feitelijk wel aan een bepaald profiel voldoen.

Interactieve video, virtual reality en smartphones

Voor assessments kunnen tegenwoordig interactieve video’s worden gebruikt. Dit is vooral handig bij carrière assessment omdat je beter ziet hoe iemand reageert op complexe, realistische gebeurtenissen dan bij een pen-en-papier test. Een voorbeeld van zo’n test is de ‘Conflict Resolution Skills Assessment’ (CRSA), bestaande uit 9 scènes die conflicten reflecteren. De cliënt moet op een gegeven moment uit een aantal opties kiezen wat hij zou doen in die situatie. Daarna gaat de scène weer verder.

Het is echter wel moeilijk en duur om zulke tests te ontwikkelen, omdat ze ook realistische moeten zijn. Daarnaast is ook de theorie onduidelijk: wanneer heb je goede conflict oplossingsvaardigheden? Desondanks verklaren zulke tests meer variantie en laten ze zien dat sociale vaardigheden los staan van intelligentie, wat wel altijd werd aangetoond in traditionele tests. Dit komt door de gedeelde methode variantie.

Virtual reality (VR) is een mens-computer interactie, waarbij een persoon zich kan navigeren in een virtuele 3D omgeving (VE) en deze kan manipuleren. Dit soort onderzoek staat nog in kinderschoenen maar is wel veelbelovend. Het heeft een goede ecologische validiteit, gezien de realistische zaken. Een voorbeeld van zo’n test is de ‘VE Grocery Store test’. Het is een goede test voor executieve functies. Men moet zich door een virtuele groentewinkel navigeren, vervolgens de juiste producten zoeken en deze prijzen en selecteren. Ook wordt er een geheugentaakje gedaan. De pen-en-papier testen die executieve functies meten zijn vaak geen alledaagse handelingen en boodschappen doen is dat wel. De onderzoeker kan de verpakkingen, omgeving en achtergrondgeluiden aanpassen in de test. Dit zorgt voor een hogere ecologische validiteit.

Een andere test is de ‘Virtual Reality Lateralized Attention Test’ (VRLAT). Hierbij moeten de participanten over een aantal virtuele paden lopen en aangeven welke objecten zij zien. Deze test meet en classificeert symptomen van ‘hemispatial neglect’, een rechter hersenhelft afwijking waarbij de spatiële vaardigheden sterk verminderd zijn. Uit onderzoek blijkt dat de VRLAT een sterke sensitiviteit en specificiteit heeft, weinig oefening vergt en een sterke validiteit heeft. Om het botsen te meten moesten de cliënten door een doolhof lopen met meerdere afslagen naar links en naar rechts. Het aantal botsingen wordt dan gemeten.

Evaluatie van computergebaseerde testinterpretatie

Een eerste voordeel van computer-gebaseerde testinterpretatie is dat de tijd tussen het testen en het rapport vrijwel nihil is. Het bespaart dus veel tijd voor zowel de cliënt als de testafnemer. Als tweede voordeel zijn de totale kosten. Deze zijn minder hoog dan wanneer het hele proces gedaan wordt met de inspanning van een clinicus. Het derde voordeel zijn de betrouwbaarheid en objectiviteit. Ze zijn niet onderhevig aan menselijke biases.

Een nadeel is dat het hele proces gedomineerd wordt door de computer. De menselijke inbreng van de psycholoog is slechts van een bediende. Daarnaast kan het voorkomen dat de originele en de computer versie van een test bijna niet meer equivalent zijn. Dan is de computerversie veel moeilijker, wat niet goed is voor de validiteit.

Gecomputeriseerde aanpassingstesten

Gecomputeriseerde aanpassingstesten (CAT) zijn procedures die accuraat en efficiënt vaardigheden meten. De meeste methodes bevatten de volgende kenmerken:

De itemrespons kenmerken zijn precies getaxeerd (% slagen vs. vaardigheid).
Deze itemrespons kenmerken en de item-selectie zijn geprogrammeerd in de computer.
De geschiedenis van de responsen wordt gebruikt in het selecteren van het volgende item.
De computer herrekent de geschatte vaardigheid na elke respons.
De computer schat de precisie van het meten na elke respons.
Het testen gaat door tot een vooraf bepaald niveau van meetprecisie is behaald.
De vaardigheidsscore van de participant is gebaseerd op moeilijkheidsgraad en andere meetkenmerken, niet op aantal correct.

De voordelen van CAT zijn precisie en efficiëntie. CAT garandeert dat elke participant met dezelfde hoeveelheid precisie gemeten wordt. Ten tweede heeft de CAT-methode veel minder items nodig dan traditioneel testen. Daarnaast is CAT beter vanwege de test veiligheid, directe scoring en feedback, gelijke uitdaging, presenteren van nieuwe items en veel verschillende vraagtypes (multiple-choice, open, videovragen). Voor persoonlijkheidstests is CAT echter niet goed om te gebruiken, omdat er context-effecten kunnen optreden door de verschillende vragen.

Toekomst van testen

In de toekomst zullen biologische meetmethodes zoals EEG, MRI of PET scans steeds vaker gebruikt worden voor assessment bij de normale populatie. Dit zal ook voor angst zorgen, omdat deze biologische factoren niet beïnvloed kunnen worden en omdat ze permanent zijn. De angst is dan voor een biologisch kastensysteem.

Een eerste gebruik wat meer gaat voorkomen is het voor en nameten van personen met een breinoperatie. Een andere voorspelling is dat er minder breed-spectrum tests zullen worden ontwikkeld, vanwege de te hoge kosten en omdat men vaak enkel geïnteresseerd is in bepaalde specifieke functies.

Een derde voorspelling is dat er steeds minder brede-spectrum testen en meer testen die zijn gericht op speciale gebieden van functioneren of speciale doelgroepen worden uitgegeven, puur vanwege economische redenen.

Een vierde voorspelling is dat er meer gebruik gaat worden gemaakt van bewijs-gebaseerde assessment, waarbij de geldigheid van een test niet alleen vastgesteld wordt door betrouwbaarheid en validatie, maar ook door het klinische nut. Naast behandelingsnut (goede uitkomsten van de behandeling) verwijst het klinische nut ook naar de financiële kosten. Er moet een balans zijn tussen kosten voor de assessment en kosten voor de behandeling.

Als derde verwijst het naar psychologische kosten, wanneer iemand bijvoorbeeld verkeerd gediagnosticeerd wordt. Als laatste verwijst het naar aanvaardbaarheid van de cliënt.

Als laatste voorspelling komt positieve psychologische assessment steeds meer op. Dit komt voort uit de positieve psychologie dat onderzoekt wat er juist goed is met mensen. Het is een spin-off van de positive psychology movement die was gericht op het optimaal functioneren van de mens

Smartphone revolutie

Smartphones hebben de potentie om nuttig te zijn voor psychologisch testen omdat ze zo’n snelle verwerkingssnelheid hebben. Door middel van apps kunnen allerlei gedragingen worden vastgesteld. Ook kunnen er korte vragenlijsten gedaan worden. Problemen zijn echter dat er geen ware ‘informed consent’ is, want iedereen accepteert altijd de voorwaarden zonder te lezen. Daarnaast is de vertrouwelijkheid moeilijk te waarborgen, wegens hackers. Als laatst groeit de technologie zo snel, dat updates altijd nodig zijn. Voor oudere onderzoekers zal het gebruik van een smartphone wel lastiger zijn, omdat zij er minder bekend mee zijn.

Als laatste toekomstvisie veranderen de grote vragen in de psychologie. Psychologisch testen kan met bovenstaande ontwikkelingen een grotere rol spelen in vraagstukken zoals het nature/nurture debat. Andere vraagstukken zijn hoe de evolutie heeft meegespeeld in ontwikkelingen van een persoonlijkheid. Als laatste vraagstuk rijst de gedachte of we onze fysieke gezondheid kunnen verbeteren door onze sociale netwerken te veranderen. Dat zie je door correlationeel (niet causaal!) onderzoek waarbij bepaalde netwerken positievere gezondheidsuitkomsten hebben. Wat zal de rol van psychologisch testen in de toekomst zijn voor het beantwoorden van de grote vragen?

Access:

Public

Click & Go to more related summaries or chapters

Assortment Pointer for summaries with Psychology Bachelor 1 - VU Amsterdam 2024-2025

Study Guide for summaries with Research Methods in Psychology: Evaluating a World of Information by Morling

Study Guide for summaries with Statistical Methods for the Social Sciences by Agresti

Samenvatting: Physiology of behavior (Carlson) - 11e internationale editie (DSM-IV)

Boeksamenvatting bij Psychological testing; History, principles and applications - Gregory

Boeksamenvatting bij Social Psychology - Myers et al. - 2e druk

Studiegids voor samenvattingen bij Disorders of Childhood: Development and Psychopathology van Parritz en Troy

Studiegids voor samenvattingen bij Abnormal Psychology van Nolen-Hoeksema

Summaries: the best textbooks summarized per field of study

Assortmentpointer for summaries with Psychology Bachelor 2 - RU Nijmegen 2024-2025

Study Guide for summaries with Clinical Neuropsychology by Kessels

Studiegids voor samenvattingen bij Klinische Neuropsychologie van Kessels e.a.

Summary of Abnormal Psychology by Nolen-Hoeksema - 7th edition

Studiegids voor samenvattingen bij Abnormal Psychology van Nolen-Hoeksema

Studiegids voor samenvattingen bij Psychologische gespreksvoering van Lang en Van der Molen

Study guide with Psychological communication: the best scientific articles summarized

Study Guide for summaries with Consciousness: An Introduction by Blackmore and Troscianko

Studiegids voor samenvattingen bij Consciousness: An Introduction van Blackmore en Troscianko

Studiegids voor samenvattingen bij The Science of Consciousness van Harley

Measuring the prevalence of questionable research practices with incentives for truth telling - John, Loewenstein & Prelec - 2012 - Artikel

False-positive psychology: Undiscovered flexibility in data collection and analysis allows presenting anything as significant - Simmons et al. - 2011 - Article

Boeksamenvatting bij Psychological testing; History, principles and applications - Gregory

Studiegids voor samenvattingen bij Philosophy of Science: A very short introduction van Okasha

Summaries per chapter with the 1st edition of Philosophy of Mind, Brain and Behaviour by Slors

Samenvatting bij de 1e druk van Philosophy of Mind, Brain and Behaviour van Slors

Assortimentwijzer voor samenvattingen bij Psychologie Bachelor 1 - VU Amsterdam 2024-2025

Studiegids voor samenvattingen bij Research Methods in Psychology: Evaluating a World of Information van Morling

Studiegids voor samenvattingen bij Statistical Methods for the Social Sciences van Agresti en Finlay

Samenvatting: Physiology of behavior (Carlson) - 11e internationale editie (DSM-IV)

Boeksamenvatting bij Psychological testing; History, principles and applications - Gregory

Boeksamenvatting bij Social Psychology - Myers et al. - 2e druk

Studiegids voor samenvattingen bij Disorders of Childhood: Development and Psychopathology van Parritz en Troy

Studiegids voor samenvattingen bij Abnormal Psychology van Nolen-Hoeksema

Samenvattingen: de beste studieboeken samengevat per studiegebied en werkveld

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Samenvattingen voor psychologie aan de VU in Amsterdam

Going abroad?

Insure your way around the world

International expat insurances

Travel & Worldsupporter insurances (NL)

Study with summaries

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Spotlight: topics

Check the related and most recent topics and summaries:

Institutions, jobs and organizations:

Samenvattingen voor psychologie aan de VU in Amsterdam

Check how to use summaries on WorldSupporter.org

Submenu: Summaries & Activities

Follow the author: Vintage Supporter

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics

Search a summary, study help or student organization

Select any filter and click on Search to see results