Testtheorie - Van Drenth (4e druk) - Hoofdstukken 1, 2, 3

Hoe verloopt de historische testontwikkeling van het testen? - Chapter 1
Wat zijn de definitie, kenmerken en toepassingen van de test? - Chapter 2
Welke indelingen, onderscheidingen en begrippen zijn er? - Chapter 3
Meer hoofdstukken samengevat

Hoe verloopt de historische testontwikkeling van het testen? - Chapter 1

De wetenschappelijke testontwikkeling kwam tot bloei in de 20e eeuw. Maar ook daarvoor werd er al aan vormen van testonderzoek gedaan. De ontwikkeling van testdiagnostiek kent grofweg vier perioden, elke periode begon met een belangrijke gebeurtenis, namelijk:

de periode tot het verschijnen van de Binet-Simon-test,
de periode tussen het verschijnen van de Binet-Simon-test en de Eerste Wereldoorlog,
de periode tussen het begin van de Eerste Wereldoorlog tot de Tweede Wereldoorlog, en
de periode tussen het begin van de Tweede Wereldoorlog tot heden.

1.1 Hoe verliep de testontwikkeling tot aan de Binet-Simon-test?

1905 is een belangrijke mijlpaal voor de ontwikkeling van de testdiagnostiek; in dit jaar verscheen de eerste versie van de Binet-Simon-test – de eerste waardevolle intelligentietest. Uiteraard gingen hier een hoop ontwikkelingen aan vooraf binnen diverse disciplines:

1. Psychiatrie

In Frankrijk ontstond eind 18e eeuw een verhoogde interesse in de geestelijke abnormaliteit en zwakzinnigheid. Men begon krankzinnigheid en zwakzinnigheid van elkaar te onderscheiden, waarbij mensen als Esquirol, Séguin, Charcot, Janet en Binet zwakzinnigheid niet beschouwden als ziekte, maar als een gebrek aan intellectuele vaardigheden. Ook in Duitsland veranderde de visie op geestelijke abnormaliteit. In beide landen werd hier steeds meer onderzoek naar gedaan, waardoor er een behoefte ontstond aan methoden om verschillen tussen geesteszieken en verschillende niveaus in zwakzinnigheid te kunnen duiden.

2. Experimentele psychologie

Naast de psychiatrie, ontstond ook binnen de experimentele psychologie – voornamelijk beoefend in Duitsland – een toegenomen interesse in geestelijke abnormaliteit en onderzoek hiernaar. De experimentele psychologie had door haar manier van onderzoek doen (namelijk controle en exacte beschrijving) veel invloed op de testtheorie. Met de oprichting van zijn experimentele laboratorium in Leipzig, luidde Wundt in 1879 het begin in van systematisch grootschalig experimenteel onderzoek. Naast een stimulerende werking, had het ook een remmende werking omdat met zich aanvankelijk vooral richtte op generaliseerbaarheid, waardoor afwijkingen en individuele verschillen werden toegeschreven aan experimenteerfouten. En daarnaast beperkte het onderzoek zich tot primaire sensorische en motorische functies. Later, met de publicatie van een artikel van Cattell in het tijdschrift Mind in 1890, kwam er meer aandacht voor individuele verschillen. In 1893 werd er binnen de American Psychological Association (APA) een commissie ingesteld met als taak tests te registreren en de gebruiksmogelijkheden van deze tests te formuleren.

3. Genetica

Een derde ontwikkelingslijn die van invloed is geweest op testontwikkeling, is de genetica, wat men name invloed had op de statistische kant van het testonderzoek. Darwin kaartte het probleem aan van de erfelijkheid van lichamelijke eigenschappen. Eind 19e eeuw verrichtte Galton diverse antropometrische onderzoekingen die gekenmerkt werden door drie elementen, die later een pijler van het wetenschappelijk testonderzoek zouden gaan vormen, namelijk: (1) de wenselijkheid van het onderzoek naar individuele verschillen, (2) de noodzaak van systematisering van onderzoekstechnieken (om resultaten te kunnen vergelijken en conclusies te kunnen generaliseren), en (3) normatief denken: het weergeven van onderzoeksresultaten in statistische termen. Pearson was hierdoor geïnspireerd en heeft veel betekend voor de statistiek en testpsychologie (correlatiecoëfficiënt, rangcorrelatie, multiple correlatie, factoranalyse etc.).

Deze eerste periode werd dus gekenmerkt door de behoefte van de psychiatrie aan diagnosemogelijkheden, de traditie van de experimentele psychologie met betrekking tot gestandaardiseerde onderzoeksprocedures en de interesse van de genetica in de verschillen tussen mensen. Maar er was nog geen psychologisch testen op grote schaal, het was theoretisch gericht en onderzoeksresultaten werden weinig toegepast. Dat is grotendeels te verklaren door de keuze voornamelijk de psychofysische functies te meten (sensorisch, motorisch en geheugenprocessen), maar geen onderzoek te doen naar complexe intelligentiefuncties.

1.2 Hoe verliep de periode tussen het verschijnen van de Binet-Simon-test tot de Eerste Wereldoorlog?

In 1905 verscheen de eerste intelligentietest – ontwikkeld door Binet en Simon – die ook echt een praktische functie had. Hij moest onderzoek doen naar de mogelijkheid om op scholen onderscheid te kunnen maken tussen luie en incapabele kinderen – tussen kinderen die niet konden en kinderen die niet wilden. Samen met medewerker Simon maakte hij 30 opgaven die een steekproef vormden van de verschillende opgaven die kinderen op school en in het dagelijks leven tegenkwamen. De opgaven waren voornamelijk verbaal, met variërende problemen, getest op 50 normale en enkele zwakzinnige kinderen en werden in volgorde van moeilijkheid aangeboden. Binet’s benadering was om drie redenen vernieuwend:

Hij legde het accent op complexe mentale processen – zoals begrip, geheugen, probleemoplossend vermogen en verbeeldingskracht – in plaats van eenvoudige mentale processen.
Daarnaast had hij een empirisch uitgangspunt; ideeën, omgezet in testopgaven, werden empirisch getoetst, waarna niet functionele opgaven werden aangepast of verwijderd.
Ten slotte kwam hij met het voorstel een totaalscore te gebruiken als weergave van het intelligentieniveau.

Binet introduceerde verder het begrip ‘mentale leeftijd’, waardoor een praktische indicatie kon worden verkregen van het intelligentieniveau. De test werd in verschillende landen vertaald en/of aangepast. Hoewel het werk van Binet in praktisch opzicht veel betekend heeft, was dit in theoretisch opzicht aanzienlijk minder het geval. Zo ontbrak er een theorie over de samenstellende elementen van intelligentie.

Spearman heeft hier onderzoek naar gedaan en formuleerde aan de hand van dit onderzoek de twee-factorentheorie waarbij hij stelde dat er in alle tests twee intelligentiefactoren een rol speelden; een algemene (g-)factor en een specifieke (s-)factor. Intelligentie was volgens hem de g-factor die uit een serie intelligentietests (zoals die van Binet) gehaald kan worden.

Hoewel de intelligentiemeting grote vooruitgang boekte in deze periode, werd nog niet op grote schaal getest en ook van valideringsonderzoek was er nog geen sprake.

1.3 Hoe verliep de testontwikkeling tussen het begin van de Eerste Wereldoorlog en de Tweede Wereldoorlog?

De testontwikkeling kwam door het uitbreken van de eerste wereldoorlog in een stroomversnelling. De psychologie werd voor het eerst regelmatig in de praktijk toegepast en de testpsychologie kreeg een steeds grotere rol bij de beslissingsproblematiek van selectie en plaatsing met betrekking tot functies en opleidingen. Dat was in Europa de aanleiding tot de erkenning van de psychologische test als beslissingsinstrument. In 1917, toen ook de Verenigde Staten bij de oorlog betrokken raakte, kwam de echte doorbraak. Er ontstond een noodzaak om snel en efficiënt te testen. Dit vormde het begin van de ontwikkeling van de groepsgewijs af te nemen schriftelijke test, waarvan de Army Alpha de eerste was (een schriftelijke test waarmee men in korte tijd het intelligentieniveau van grote groepen kon bepalen).

Na de eerste wereldoorlog ontstond er een verschil in testontwikkeling in Amerika en Europa. In Europa – destijds gedomineerd door de Gestaltpsychologie, fenomenologie en personalisme – lag het accent vooral op de individuele diagnostiek. Met name de individuele observatietest werd uiterst populair.

In Amerika – destijds gedomineerd door behaviorisme en positivisme – kregen met name de kwantitatief verwerkbare groepstests veel aanhang. Door een toenemend aantal immigranten uit vele landen van herkomst ontstond er een behoefte aan minder taal- en cultuurafhankelijke tests. In 1917 werd een volledig non-verbale intelligentietest gepubliceerd. In 1918 volgde de Army Bèta (een test die géén beroep deed op taalkennis of verbale vaardigheden). Maar de betrouwbaarheid van non-verbale tests was kleiner dan die van verbale tests. Ondanks de aandacht voor groepstests, werden in de VS ook veel individuele testbatterijen ontwikkeld, waarvan de Terman Merrill en de Wechsler series wellicht de belangrijkste waren.

Engeland bevond zich meer in een tussenpositie tussen Europa en de VS. Hoewel de ontwikkeling van groepstest geen grote bloei doormaakte zoals de VS die doormaakte, was er, net als in de VS en in tegenstelling tot andere Europese landen, wel veel aandacht voor de objectieve evaluatie van schoolprestaties. ‘Vrije-antwoordenexamens’ maakten plaats voor examens met meerkeuzevragen. In 1939 werd Raven’s Progressive Matrices ontwikkeld; een meerkeuze-intelligentietest met reeksen patronen met een stijgende moeilijkheidsgraad.

Hoewel er tijdens deze periode vaak geen theorieën ten grondslag lagen aan het gebruik van diverse tests, stimuleerde Thurstone (1931) wel de kritische evaluatie van de test zelf. Zo moesten testresultaten volgens hem betrouwbare testscores opleveren en diende de relatie tussen test en criterium al voor het toepassen van de test te zijn aangetoond. Dankzij deze opvattingen kreeg de statistiek een belangrijke rol in de testpsychologie. Ook begon men het begrip intelligentie in deze periode breder op te vatten; naast de algemene en specifieke factoren, werden door diverse onderzoekers – waaronder Thurstone – de groepsfactoren geïntroduceerd (verbal comprehension, word fluency, number facility, spacial visualization, associative memory, perceptual speed, reasoning).

Verder ontstond er gedurende deze periode aandacht voor de ontwikkeling van persoonlijkheidstests, waaronder (1) observatietests – met name in West-Europa populair, (2) persoonlijkheidsvragenlijsten en (3) projectietests.

Samenvatting van de ontwikkelingen van testtheorie en testgebruik tussen beide wereldoorlogen:

1. Ontwikkelingen en gebruik namen stormachtig toe, maar de theoretische en methodologische verantwoording bleef vaak gebrekkig of achterwege.

2. Er waren accentverschil tussen Europa en de VS:

Verenigde Staten: het bepalen van de kansen van de persoon op een positief resultaat in de te voorspellen situatie stond daar centraal. Tests werden gebruikt om te bepalen tot welke ‘klasse’ iemand behoorde, ook wel de actuarische methode genoemd (wordt ook gebruikt bij bepalen van kansen bij verzekeringsrisico’s).
Europa: een meer fenomenologische of intuïtieve methode stond daar centraal; het accent lag op de totaliteit van de persoon, diens beleven, structuur en dynamiek. Tests hadden er meer een ondergeschikte rol en conclusies waren niet kwantitatief (in kansen), maar een beschrijvende analyse.

1.4 Hoe verliep de testontwikkeling vanaf het begin van de Tweede Wereldoorlog tot nu?

1.4.1 Welke ontwikkelingen waren er in de Verenigde Staten?

De testontwikkeling bloeide tijdens en na de tweede wereldoorlog. Door de grote en belangrijke keurings- en selectiediensten van de krijgsmacht, ging zij op het gebied van selectie, testontwikkeling en psychiatrisch-medische keuringen samenwerken met psychologen. Hierdoor nam niet alleen het aantal selectie- en diagnostische tests toe, maar ontstond er ook een sterke professionalisering van het beleid en werden de psychologische principes van testonderzoek meer constructiever en kritischer.

In 1947 werd de Educational Testing Service (ETS) opgericht, met als doel tegemoet te komen aan de behoeften van het Amerikaanse onderwijs- en opleidingsveld op het gebied van de toelating tot en evaluatie van het onderwijs. Zeer belangrijk hierbij was dat het beleid binnen de ETS niet alleen de focus legde op toegepast onderzoek en testconstructie, maar ook gericht was op fundamenteel psychometrisch onderzoek.

De communicatie over tests, testonderzoek en de psychometrie verliep via vele wetenschappelijke en vaktijdschriften en (hand)boeken, zowel op inleidend niveau, als op gespecialiseerd niveau. Binnen het terrein van de selectiepsychologie stond, vooral in de jaren na de tweede wereldoorlog, de testtheorie centraal. Aanvankelijk werd, onder andere door Thorndike, selectie vooral gezien als toegepaste testpsychologie. Later werd dit, onder andere door Cronbach, meer beschouwd als een beslissingssituatie. Verder zijn veel belangrijke invloeden uitgegaan van het boek Technical recommendations for psychological tests and diagnostic technieques, gepubliceerd in 1954 door een Testcommissie van de APA. Ook het onderwijskundig meten en de schaaltheorie hadden een belangrijke invloed op de testtheorie en de acceptatie van testtheoretische principes.

Al met al vond er in de Verenigde Staten dus een sterke groei van het aantal tests plaats – waarbij ook de computer een grote rol heeft gehad, wat gepaard ging met grondige bezinning op de theoretische basis.

1.4.2 Welke ontwikkelingen waren er in Europa, met name Nederland?

De testontwikkeling in Europa verliep minder snel. Pas vanaf de jaren ‘60/70 begon de ontwikkeling van de testtheorie en –constructie tot bloei te komen. De boeken van o.a. Rasch (1960) en Fischer (1974) en diverse wetenschappelijke en vaktijdschriften hebben hierbij een grote rol gespeeld.

In Nederland werd de testontwikkeling in de jaren ‘40/50 zeer gekenmerkt – en zelfs beperkt – door de oriëntatie van de psychologie op de intuïtie van de psycholoog, wat een objectieve en kwantitatieve benadering in de weg stond. Stimulering van testgebruik en de algemene ontwikkeling van de Nederlandse psychologie naar het Amerikaanse model werd eind jaren ’50 vooral in gang gezet door psychologen als Kouwer, De Groot, Van de Geer en Van der Giessen. In 1959 werd door het Nederlands Instituut van Psychologen (NIP) een Test Research Commissie (tegenwoordig Commissie Testaangelegenheden Nederland, COTAN) ingesteld. Deze commissie had als doel de communicatie tussen psychologen te verbeteren en het testonderzoek te bevorderen.

Verder werden tijdens deze periode in Nederland schoolvorderingstests ontwikkeld, welke in Engeland en de VS al zeer veel werden gebruikt. In Nederland deed de testtheorie pas in de jaren ’70 haar intrede bij de beoordeling van school- en opleidingsprestaties. De Groot stelde voor een landelijk centraal instituut voor toetsontwikkeling op te richtten en hierbij het model van de Amerikaanse ETS aan te houden. Dit voorstel werd gerealiseerd in de vorm van de oprichting van het Centraal Instituut voor ToetsOntwikkeling (CITO).

In 1987 werd het IOPS – Interuniversitair Onderzoeksinstituut voor Psychometrie en Sociometrie opgericht; voor het bundelen van promotieonderzoek

Wat zijn de definitie, kenmerken en toepassingen van de test? - Chapter 2

2.1 Wat is een test?

2.1.1 Welke onderdelen bevat een test?

Een verantwoorde en gepubliceerde test bestaat doorgaans uit drie onderdelen: testmateriaal, testformulieren en een testhandleiding.

1. Testmateriaal

Het testmateriaal is afhankelijk van de soort test. Het testmateriaal bij een schriftelijke intelligentietest zal bijvoorbeeld bestaan uit een boekje met opgaven die opgelost moeten worden. Als de individuele prestaties van een persoon getest moeten worden, kunnen er legpuzzels, tekenpapier of bouwstenen als testmateriaal gebruikt worden. Soms is het geen materiaal in de strikte zin van het woord, zoals een onderwerp voor een vrije discussie.

2. Testformulieren

Testformulieren worden gebruikt om de resultaten van de test op te schrijven om hieruit conclusies of interpretaties te kunnen trekken. Ze kunnen worden ingevuld door de testleider (bij observatietests) of door de geteste persoon zelf (bij vragenlijsten).

3. Testhandleiding

Een testhandleiding geeft aan hoe de test gebruikt dient te worden. Een goede testhandleiding moet aan de volgende vier eisen voldoen:

Een goede testinstructie. Er moet duidelijkheid zijn over de gang van zaken tijdens de test. Dit wordt bereikt door de testprocedure, uitleg, proefopgaven etc.
De verwerkingsprocedure. Dit zijn de instructies over hoe de test (numeriek) gescoord en verwerkt dient te worden. Daarvoor zijn de sleutels van de opgaven nodig: aanwijzingen welke antwoorden (on)juist zijn of (contra)indicatief voor een bepaald verschijnsel en hoe deze antwoorden van scores voorzien moeten worden.
Normtabellen. Hiermee worden de scores vergeleken met die van de representatieve normgroep. Dat is een voorwaarde voor nadere interpretatie en evaluatie van de testprestatie.
De wetenschappelijke kwaliteit van de test. Hierbij gaat het om de betrouwbaarheid van de test, wat de test betekent en wat het voorspelt.

2.1.2 Wat is een eerste omschrijving van een test?

Bij een test gaat het om een systematisch onderzoek met een bepaald doel. Het doel kan zijn het voorspellen, classificeren of beschrijven van een individu in vergelijking met andere mensen.

2.1.3 Welke kenmerken heeft een test waardoor het onderscheiden kan worden van het voorwetenschappelijk oordeel?

Een psychologische test is een systematisch onderzoek van gedrag met behulp van speciaal geselecteerde vragen of opgaven, met de bedoeling inzicht te krijgen in een kenmerk van de onderzochte in vergelijking met anderen. Men heeft niet altijd een test nodig om zich een oordeel te vormen over menselijk gedrag. Een psychologische test gebruiken is pas dan gerechtvaardigd als het een juister beeld oplevert dan het voorwetenschappelijk oordeel, of als het een verbetering of een aanvulling hierop kan betekenen en als de kosten of ethische bezwaren niet onoverkomelijk zijn. Het gebruiken van een psychologische test heeft zes voordelen (kenmerken) boven het voorwetenschappelijk oordeel: (1) efficiëntie, (2) standaardisatie, (3) normering van de testresultaten, (4) het principe van objectiviteit, (5) de eis van betrouwbaarheid en (6) validiteit en de betekenis van een test.

1. Efficiëntie

In het dagelijks leven zijn veel situaties die een oordeel kunnen verschaffen over bijvoorbeeld de intelligentie van een persoon. Het probleem is echter dat men moet wachten tot deze situaties zich voordoen. Daarnaast is intelligentie in het alledaagse contact tussen mensen een ‘bijproduct’ en komt daarmee niet tot z'n recht (men is er niet zo mee bezig). Intelligentietests daarentegen zijn speciaal samengesteld, niet afhankelijk van toeval en storende invloeden kunnen geweerd worden binnen de testsituatie.

2. Standaardisatie

Bij een psychologische testafname streeft men ernaar de test op precies dezelfde manier, onder precies dezelfde condities bij iedereen af te nemen. Dit is het standaardiseren van de situatie en is nodig voor de vergelijkbaarheid van de resultaten. Een test kan meer of minder beantwoorden aan de eis van standaardisatie. Als er geen standaardisatie aanwezig is er geen sprake van een test. Standaardisatie maakt een test betrouwbaar en vergelijkbaar. In de praktijk is de inhoud en de situatie steeds verschillend.

3. Normering

Om de resultaten van personen te vergelijken, is het nodig om te weten hoe groot de afstand tussen de resultaten ongeveer is. Dat moet zo exact mogelijk worden geschat, want door exactheid kan men kleinere verschillen vaststellen. In de praktijk kunnen we een schatting maken van wie intelligenter is dan wie, maar de vraag is hoeveel intelligenter. Bij grote verschillen maakt zo'n schatting niet zoveel uit, maar juist bij kleine verschillen is het nodig een exact instrument te hebben. De eenvoudigste vorm van normering is het vaststellen van een rangorde van zeer goede tot zeer slechte prestaties. De normen worden vastgesteld op een groep proefpersonen (een steekproef).

Vaak kunnen de afstanden tussen testscores in de normering worden opgenomen; dat kan weergegeven worden in een discrete verdeling. Deze discrete verdeling kan benaderd worden met een normaalverdeling, maar eerst moet worden vastgesteld of dat wel redelijk is (met statistische toetsen, zoals de Kolmogorov-Smirnov-toets). Is het redelijk, dan kan men een geschikt gemiddelde en een geschikte standaarddeviatie kiezen en de schaal van de testscores omzetten naar die onder de normaalverdeling met het gekozen gemiddelde en spreiding. Daarmee verandert de schaal, maar houden de personen dezelfde rangorde. Het omzetten naar een normaalverdeling wordt meestal gedaan als de steekproef uit een normaal verdeelde populatie komt en men steekproeffouten wil ‘gladstrijken’. Nieuwe verdelingskenmerken (gemiddelde en standaarddeviatie) kiezen doet men om een ‘handige’ schaal te krijgen (bijvoorbeeld intelligentie heeft een gemiddelde van 100 en de standaarddeviatie is 15).

Behalve dat normering nuttig is voor het interpreteren van resultaten, is het een noodzakelijke voorwaarde voor het gebruik van een test. Soms kan men wel een test gebruiken die niet genormeerd is, bijvoorbeeld in experimenteel onderzoek. Maar eigenlijk heeft men bij alle tests normen nodig, dus ook bij observatietests en projectieve technieken.

4. Objectiviteit

Met objectiviteit wordt bedoeld dat wie het onderzoek ook doet, het resultaat steeds hetzelfde moet zijn, en dat openheid, reproduceerbaarheid van de test en evaluatie mogelijk zijn. Als men twee personen onafhankelijk van elkaar dezelfde test laat doen onder dezelfde omstandigheden, dan kan men de resultaten met elkaar vergelijken met behulp van bijvoorbeeld correlatie-onderzoek en kan men de procedure op haar objectiviteit toetsen. Dit wordt interbeoordelaarsbetrouwbaarheid genoemd. De interbeoordelaarsbetrouwbaarheid kan uitgedrukt worden in een statische maat die afhankelijk is van het soort gegevens dat beschikbaar is:

Rangcorrelatie (als beide beoordelaars een rangorde produceren).
Product-momentcorrelatie (als de beoordelingen niet alleen een rangorde vormen, maar de afstanden tussen de plaatsen op de rangorde ook betekenis hebben).
Cohen’s kappa (als de personen ingedeeld worden in categorieën, is er geen rangorde of afstand, maar kan de mate waarin de beoordelaars tot dezelfde indeling komen berekend worden).
Het berekenen van Cohen’s Kappa gaat als volgt. Bereken de kans dat persoon A en persoon B het bij een aselect gekozen proefpersoon met elkaar eens zijn: P₀. Dan bekijk je wat de statistische onafhankelijkheid is; dit is de overeenstemming die er zou zijn als de beoordelaars hun eigen frequentieverdeling aanhouden. Makkelijker gezegd, dit is de toevalskans: P_t. Dan bereken je Cohens Kappa met de volgende formule:
(P₀ = overeenstemmingskans, P_t = toevalskans).

Het is mogelijk bij observatietests en projectietests een verantwoorde mate van objectiviteit te bereiken door:

Het waarneembare gedrag te beschrijven en niet te interpreteren. Dit verhoogt de objectiviteit en verlaagt de subjectiviteit. Observatie- en projectietests worden vaak niet als volwaardige tests gebruikt, men gebruikt hen voor het verkrijgen van ideeën en voor het creëren van hypothesen.
Registratie in plaats van evaluatie van het gedrag. Door inbreng van de verwerker worden de resultaten subjectiever.
Een duidelijk voorgeschreven verwerkingsprocedure.
Objectiviteit als de grondhouding van de wetenschapsbeoefenaar. Dus geen invloeden van buitenaf, van bijvoorbeeld de maatschappij, de organisatie, de onderzoeker etc.

5. Betrouwbaarheid

Als we een meting nog eens doen op dezelfde manier, dan moet de uitkomst gelijk zijn aan de uitkomst van de eerste meting. Dit is beter mogelijk bij een lengtemeting dan bij een intelligentiemeting. Eigenlijk is het niet mogelijk om twee onafhankelijke metingen te verkrijgen in de psychologie. Metingen moeten onder dezelfde condities plaatsvinden (standaardisatie), maar toevalsinvloeden zijn niet door standaardisatie te ondervangen. Betrouwbaarheid is wenselijk en zelfs noodzakelijk omdat meetresultaten herhaalbaar moeten kunnen zijn; het moet niets of nauwelijks iets uitmaken wanneer iemand getest wordt.

6. Validiteit

Een goede test heeft een vaststaande psychologische betekenis. Dat wil zeggen dat de betekenis aan de praktijk getoetst is. Er is dus geen plaats voor fenomenologische beschrijvingen en alternatieve verklaringen. Valide testen kunnen niet zomaar overal toegepast worden; het moet altijd gebaseerd zijn op empirisch onderzoek waarin de bedoelde samenhang is aangetoond.

2.2 Hoe kunnen eigenschappen gemeten worden door middel van tests?

2.2.1 Welke meetniveaus en toegestane operaties zijn er?

In de praktijk gebruikt men de termen ‘testen’ en ‘meten’ door elkaar. Door middel van tests kunnen we allerlei eigenschappen meten. Van ‘meten’ is sprake zodra getallen volgens een consistente procedure aan objecten worden toegekend. Dit leidt tot de vier bekende meetniveaus. De vier meetschalen, van laag naar hoog, zijn de nominale schaal, ordinale schaal, intervalschaal en de verhoudingsschaal.

1. De nominale schaal

Op deze schaal gebruikt men getallen om categorieën te onderscheiden en objecten in te delen. Er is geen sprake van een rangorde, het gaat slechts om de verschillende getallen. Op de nominale schaal is geen enkele rekenkundige bewerking mogelijk. Er zijn wel berekeningen die aangepast zijn aan het nominale niveau (bijvoorbeeld Cohen’s kappa).

2. De ordinale schaal

Bij deze schaal is er sprake van een rangorde, dus van meer of minder. Getallen worden gebruikt om categorieën of objecten te ordenen. Ook hier mogen niet alle rekenkundige bewerkingen uitgevoerd worden, maar het is wel mogelijk om een rangorde met een andere rangorde te vergelijken: de rangcorrelatie.

3. De intervalschaal

Bij deze schaal is er niet alleen een rangorde van minder of meer, maar ook de afstanden tussen de verschillende posities zijn belangrijk en hebben betekenis. De afstanden tussen de verschillende posities zijn trouwens gelijk. Een intervalschaal heeft geen absoluut nulpunt, maar een arbitrair nulpunt (zoals bijvoorbeeld temperatuur); de verhoudingen tussen de afstanden blijven gelijk als je het nulpunt verschuift. Er zijn wiskundige berekeningen toegestaan; lineaire transformaties van het type Y = a + bX (ondanks dat het nulpunt met factor a is verschoven en de eenheid met factor b is vermenigvuldigd, blijven de verhoudingen gelijk).

Men gaat er vaak te makkelijk vanuit dat testscores op intervalniveau worden gemeten, maar dat wordt vaak niet empirisch ondersteund. Maar het is wel handig om intervaleigenschappen te veronderstellen, omdat dan rekenkundige bewerkingen kunnen worden uitgevoerd. Een eenmaal gekozen schaal moet verder gehandhaafd blijven worden om verwarring te voorkomen.

4. De verhoudingsschaal (ratioschaal)

Alle rekenkundige bewerkingen zijn hier toegestaan omdat er sprake is van een gelijke afstand tussen de verschillende posities op de schaal en van een absoluut nulpunt. Voorbeelden hiervan zijn lengte en gewicht.

De genoemde schalen zijn de hoofdsoorten; ze geven aan welke numerieke transformaties zijn toegestaan – namelijk diegene die de betekenis van de vergelijking van meetwaarden behouden. Binnen de psychologie zijn er weinig metingen op een verhoudingsschaal; hoogstens op een intervalschaal en meestal is de ordinale schaal voldoende. Er zijn ook verschillende tussensoorten mogelijk, zoals de verschilschaal, waarop transformaties van het type Y = a + X zijn toegestaan: scores op de X-schaal mogen met constante a worden vermeerderd of verminderd (negatieve a).

2.2.2 Welke opvattingen zijn er over meten?

In de psychologie was lang het probleem dat men eigenschappen niet rechtstreeks kan meten. In de 19e eeuw stond de fysica model voor het meten in de psychologie; het ideaal was psychologische eigenschappen meten zoals bijvoorbeeld het begrip ‘lengte’ wordt gemeten. Maar dit ideaal was te hoog gegrepen en ging er ook aan voorbij dat ook veel fysische eigenschappen (net als psychologische) niet direct observeerbaar zijn. In de fysica loste men dat op door middels experimenten de relaties tussen objecten te verhelderen, zodat men vervolgens voor die eigenschap een bruikbare schaal kon kiezen. Eenheden zoals Becquerel en Ohm zijn niet direct observeerbaar (radioactiviteit en weerstand), maar schalen die het resultaat zijn van theorievorming en experimenten. In de psychologie zijn theorieën en begrippen altijd abstracter en diffuser gedefinieerd, en in experimenten is het gedrag van proefpersonen minder goed te manipuleren. Hierdoor kunnen hooguit zwakke of matige verbanden worden gevonden in experimenten, die vaak ook nog eens niet goed repliceerbaar zijn. Dus kunnen er hooguit arbitraire schalen worden gevonden.

De oplossing van Stevens hiervoor is het operationalisme: de meting als uitkomst van de procedure. Hierdoor wordt de test gelijkgesteld aan de uitkomst en is bijvoorbeeld intelligentie datgene ‘wat de test meet’. Een testconstructie is dan pure technologie en staat los van de psychologische theorievorming. Er was hierdoor minder aandacht voor psychologische metingen; theorie- en kennisvorming bestonden nog nauwelijks. Operationalisme werd omarmd omdat men hiermee verlost was van het lastige problemen van ‘meten volgens het fysische model’. Maar dat is in feite ontkenning van het meetprobleem. Testontwikkeling werd zo een technologisch recept zonder wetenschappelijke bijdrage. Dat is onjuist: het meten van psychologische eigenschappen en het onderzoek naar de betekenis van testscores leveren juist een wetenschappelijke bijdrage.

De wetenschap kan niet zonder betrouwbare en valide metingen. Ondanks de kritiek op het operationalisme, is de schaalindeling van Stevens erg bruikbaar. Het wijst erop dat men weliswaar alles met getallen kan doen, maar dat het de betekenis van getallen is, die bepaalt welke bewerkingen erop zijn toegestaan. Bovendien dwingt het ertoe goed na te denken over welke bewerkingen en conclusies wel of niet met de meetwaarden te verantwoorden zijn.

2.2.3 Wat is de gangbare procedure voor het meten van psychologische eigenschappen?

Behalve dat men bij het operationalisme testen gelijk stelt aan meten, is het ook zo dat men het scoren van tests gelijk stelt aan het meten. In feite gaat het hier echter om ‘tellen’, meten wordt het pas als men conclusies trekt over een bepaalde eigenschap op basis van het aantal tellingen.

Er zijn vier stappen die nodig zijn om te komen tot een meting: (1) de identificatie van de te meten eigenschap, (2) operationalisering van de eigenschap, (3) onderzoek en kwantificering van reacties en (4) terugkoppeling naar de theorie.

1. Identificatie van de te meten eigenschap

Daarbij moet men vaststellen wat de achterliggende theorie is over de te meten eigenschap en alternatieve theorieën in kaart brengen. Zonder onderbouwing is zinvolle meting onmogelijk – dan wordt de eigenschap namelijk datgene wat de test meet. Het heeft geen validering of voorspellende waarde. Er zijn een aantal problemen bij het identificeren van de eigenschap en de keuze van de theorie:

Er is te weinig theorievorming over veel psychologische eigenschappen.
Eigenschappen worden vaak beschreven in algemene en abstracte termen, waardoor het lastig is dit gedrag te herkennen.
Sommige psychologische eigenschappen zijn niet altijd waarneembaar in gedrag.
Voor sommige eigenschappen is het lastig een test te bedenken waarmee het bedoelde gedrag kan worden opgeroepen.
Het grootste probleem zijn eigenschappen met een onduidelijke of dubieuze theoretische status. Veel eigenschappen komen op en verdwijnen weer, zonder empirische onderbouwing.

2. Operationalisering van de eigenschap (‘operationalisering’ is anders dan het ‘operationalisme’)

Operationalisering is het specificeren van de operaties die nodig zijn om de eigenschap te meten. Psychologische eigenschappen zijn echter hypothetische begrippen en dus niet direct waarneembaar, waardoor de operaties het niet rechtstreeks kunnen meten. Er is dus nog een extra stap nodig van de meetoperaties naar de eigenschap zelf. Er zijn twee stappen nodig om te komen tot een operationalisatie:

Het definiëren van de gedragingen die kenmerkend zijn voor de bedoelde eigenschap;
Stimuli (items) afstemmen aan deze gedragingen, zodat ze die reacties uitlokken die een indicatie geven van de bedoelde eigenschap.

3. Onderzoek en kwantificering van reacties

De kwalitatief gegeven reacties (verbaal of gedrag) worden geregistreerd en moeten gekwantificeerd worden (omgezet naar getallen). Bij een item heeft één antwoord vaak een hoger niveau op een achterliggende eigenschap, deze krijgt een hogere numerieke waarde (score).

4. Terugkoppeling naar de theorie

De uitkomsten van statistische analyse hebben gevolgen voor de theorie over de gemeten uitkomst; het kan aanvullende ondersteuning geven voor deze theorie. Zo’n theorie bestaat meestal uit een nomologisch netwerk: een theorie ter verklaring van waarneembare verschijnselen, waarbinnen de gemeten eigenschap een plaats heeft.

Deze procedure sluit aan bij de statistische methoden om tests te construeren en meeteigenschappen vast te stellen.

Klassieke testtheorie: nadruk op betrouwbaarheid.
Item-responstheorie: nadruk op hoe de testprestatie tot stand komt.

Er is ook een derde opvatting over meten:

Representational measurement: er is alleen sprake van een meting als de formele relaties tussen de testscores overeenkomen met de relaties die in de empirie bestaan.

Voorbeeld: als Jan een hogere testscore heeft dan Piet op een test die pretendeert ruimtelijk inzicht te meten, dan moet er dus een aantoonbare relatie bestaan tussen het ruimtelijk inzicht van Jan en Piet, dat zo duidelijk is dat je kunt concluderen dat Jan een hoger niveau heeft dan Piet. Helaas zijn veel psychologische eigenschappen niet waarneembaar; ruimtelijk inzicht is niet direct waarneembaar, behalve met een test. Representational measurement is dus geen geschikte methode voor het meten van psychologische (hypothetische) eigenschappen. Toch heeft het wel tot belangrijke inzichten geleid over het meten in de psychologie.

2.3 Wat is de definitie van een test?

Een test wordt als volgt gedefinieerd: 'Een test is een systematische classificatie- of meetprocedure, waarbij het mogelijk wordt een uitspraak te doen over één of meer empirisch-theoretisch gefundeerde eigenschappen van de onderzochte of over specifiek niet-testgedrag, door uit te gaan van een objectieve verwerking van reacties van hem/haar, in vergelijking tot die van anderen, op een aantal gestandaardiseerde, zorgvuldig gekozen stimuli'. Een test is dus een systematische meetprocedure om uitspraken te doen over een individu, die reageert op gestandaardiseerde stimuli in vergelijking met de reactie van anderen.

2.4 Welke toepassingsmogelijkheden zijn er?

Er zijn drie toepassingsmogelijkheden van de psychologische test, namelijk (1) de beoordeling van individuen, (2) de beoordeling van groepen en (3) de beoordeling van situaties en methoden.

2.4.1 Beoordeling van individuen

De beoordeling van individuen kan op zes verschillende manieren, afhankelijk van het doel van het onderzoek:

1. Criterium

Als er sprake is van een criterium waaraan het individu wel of niet kan voldoen. De test correleert met het criterium. Bijvoorbeeld wel of niet een bepaalde opleiding volgen.

2. Meerdere criteria

Als er een keuze gemaakt moet worden uit meerdere criteria die verschillen qua niveau en/of kwaliteit. Bijvoorbeeld het kiezen van een studierichting. De test moet niet alleen correleren met het criterium, differentiatie moet dan ook mogelijk zijn.

3. Onderlinge verhoudingen van testscores bij één persoon (ipsatieve scores)

Als men iemands zwakke en sterke punten en zijn interesses wil weten, is de onderlinge verhouding van de verschillende scores in een testserie belangrijk, niet hun hoogte. Met ipsatieve scores wordt bedoeld dat de testscores van één persoon met elkaar vergeleken worden en niet met een externe standaard.

4. Ontwikkelingen van een persoon

Als men de ontwikkeling van een persoon wil volgen wordt hetzelfde onderzoek met hetzelfde individu herhaald op een ander tijdstip. Het doel is om erachter te komen of de persoon zich op een bepaald gebied ontwikkeld heeft. Bijvoorbeeld een longitudinaal onderzoek. Het gaat hier ook om interne vergelijking.

5. Beschrijving van het onderzochte

Als er een beschrijving van de onderzochte gegeven moet worden, bijvoorbeeld in de hypothesevormende fase van een individueel onderzoek. Er zijn verschillende mogelijke vormen van beschrijvingen:

Een intern rapport: de psycholoog geeft een subjectieve beschrijving van het gedrag van de onderzochte of een beschrijving van de testprestaties.
Een extern rapport: een verklarende beschrijving aan bijvoorbeeld de ouders van de onderzochte, het kan ook pedagogische adviezen en psychologische uitspraken bevatten.

6. Counseling

Counseling is een niet-directieve vorm van therapie. Het testonderzoek wordt gebruikt als startpunt (stand van zaken) en van daaruit gaat de hulpverlener samen met de cliënt de problemen van de cliënt analyseren, bewust maken en herformuleren.

2.4.2 Hoe kunnen groepen beoordeeld worden?

Bij de beoordeling van groepen worden de verschillen tussen de groepen onderzocht. Het gaat hier voornamelijk om vergelijkend onderzoek. Men is geïnteresseerd in de grootte van het verschil van een bepaalde eigenschap tussen groepen. Dit is vaak een voorstadium voor het individuele onderzoek. Eigenlijk is individueel onderzoek altijd gebaseerd op onderzoek tussen groepen (vanwege de normen).

2.4.3 Hoe kan de invloed van situaties en methoden beoordeeld worden?

Met methoden bedoelt men bijvoorbeeld behandeling, opleiding en beïnvloeding en met situaties bijvoorbeeld stress of participatief leiderschap. Een manier is om bij groepen dezelfde methoden in verschillende situaties te gebruiken en dan te kijken naar de resultaten. Of men gebruikt in de dezelfde situatie andere methoden. Het gaat dan niet zozeer om groepsverschillen maar om de situaties en de methoden. Voorbeeld: een schoolvorderingstoets is zowel een evaluatie van het kennisniveau van individuele leerlingen als van het functioneren van de docent.

Averechtse diagnostiek (Hofstee, 1969) is dat als een test een bepaalde correlatie heeft met een criterium, men dit kan gebruiken om voorspellingen te doen over de kansen op criteriumsucces, maar deze correlatie zegt ook heel veel over het criterium zelf.

Welke indelingen, onderscheidingen en begrippen zijn er? - Chapter 3

De testindeling die in het volgende hoofdstuk gemaakt is, beoogt twee doelen te bereiken:

De lezer een systematisch overzicht geven van beschikbare tests en testmethodieken.
Veelgebruikte begrippen op een samenhangende wijze introduceren en behandelen.

Tests kunnen op twee verschillende manieren ingedeeld worden. De indeling naar testgedrag is de belangrijkste indeling. De tweede indeling is op basis van de verschillende manieren van testinstructie en -afname. Er is ook nog een derde indeling mogelijk; indelen op basis van het soort testvragen waar de test uit bestaat. Hier wordt in hoofdstuk 4 verder op ingegaan.

3.1 Hoe kunnen tests ingedeeld worden op basis van testgedrag?

Bijna alle overzichten gaan uit van de indeling van tests naar testgedrag. Er zijn echter ook andere indelingen mogelijk, zo stelt Visser een indeling voor op basis van het gebruiksdoel of de meetpretentie. Een groot bezwaar tegen dit voorstel is dat in verschillende gebruikssituaties er geheel verschillende meetpretenties (doelen) aan de orde zijn. En bovendien is dit niet de meest gangbare en internationale indeling. Indeling op basis van gedrag heeft echter ook nadelen; het aangeven in welke categorie een psychologische eigenschap thuishoort is niet altijd ondubbelzinnig.

Bij het uitgaan van testgedrag wordt er onderscheid gemaakt tussen tests voor prestatieniveau en tests voor gedragswijze. Bij de eerste gaat het om de maximale prestatie van de onderzochte persoon, het is duidelijk wat goed en wat fout is. Bij de laatste is niet van tevoren bekend wat goed en wat fout is, de maximale prestatie wordt niet verkregen door de prestatie op de test; het is belangrijk hoe iemand iets doet en op welke wijze de prestatie of reactie plaatsvindt.

3.3.1 Welk onderscheid is er te maken bij tests voor prestatieniveau?

Enkelvoudige algemene niveautests	Veelvoudige algemene niveautests	Speciale niveautests	Vorderingentests
Individuele ontwikkelingstests	Testbatterijen voor intelligentiefactoren	Tests voor speciale intelligentiefactoren	‘Achievement’ tests
Individuele ontwikkelingstests voor volwassenen	Testbatterijen voor geschiktheden	Tests voor speciale geschiktheden	‘Proficiency’ tests
Algemene collectieve intelligentietests		Tests voor speciale niet-intelligentiefactoren

Bij de tests voor prestatieniveau zijn vier tests te onderscheiden, namelijk (1) enkelvoudige algemene niveautests, (2) veelvoudige algemene niveautests, (3) speciale niveautests en (4) vorderingstests.

1. Enkelvoudige algemene niveautests

Enkelvoudige algemene niveautests zijn de grootste en belangrijkste tests. Bij deze tests gaat het om een niveaubepaling van de intelligentie; het gaat dus niet om de verschillende intelligentiegebieden. Er zijn drie enkelvoudige algemene niveautests. De eerste twee zijn individuele tests en de derde is een groepstest:

Individuele intelligentietests voor volwassenen
Het intelligentieniveau wordt vastgesteld nadat intelligentie min of meer als volgroeid mag worden beschouwd (vanaf 15 à 17 jaar). Voorbeelden zijn de WAIS, GIT en Terman-Merrill. Deze tests hebben intelligentienormen voor alle leeftijd, inclusief de ouderdom.
Individuele ontwikkelingstests voor kinderen
Het doel van deze tests is het meten van de intelligentie tijdens de ontwikkeling. De intelligentiescore van het kind wordt vergeleken met de testprestaties van leeftijdsgenoten. Soms wordt het vergeleken met de chronologische leeftijd om te bepalen hoe snel of hoe langzaam de intelligentie-ontwikkeling heeft plaatsgevonden. Voorbeelden zijn de WISC-R en Rakit.
Algemene collectieve intelligentietests
Deze tests gebeuren vaak schriftelijk en groepsgewijs. Ze zijn breed en gevarieerd samengesteld. Er zijn collectieve intelligentietests voor volwassenen en voor kinderen, en collectieve non-verbale intelligentietests. Deze laatste hebben meestal niet een maximale brede samenstelling, omdat er geen verbaal materiaal gebruikt wordt. Ze zijn nuttig bij het testen van niet-geletterden en bij populaties met een verschillende culturele en taalkundige achtergrond.

2. Veelvoudige algemene niveautests

Bij veelvoudige algemene niveautests is differentiatie wel belangrijk. Een verschil met bovenstaande tests is dat deze tests afzonderlijk gezien voldoende betrouwbaar zijn en onderling voldoende afhankelijk zijn. Er zijn twee categorieën van veelvoudige algemene niveautests:

Testbatterijen voor intelligentiefactoren.
De verschillende items in een test worden samengevoegd tot enkele factoren. De meest bekende factoren zijn die van Thurnstone (Verbal, Number, Spatial, Word fluency, Memory, Reasoning). De PMA, een testbatterij samengesteld door Thurstone, probeert deze factoren 'zuiver' te meten. Een voorbeeld in Nederland is de testserie voor 'hoger niveau' van Drenth. Een alternatief voor de factoren van Thurnstone is het factoranalytische systeem van Guilford. Hij leidde uit de praktijk een aantal factoren af en noemde het de 'structure of intellect theory'.
Testbatterijen voor geschiktheid oftewel 'multiple aptitude' tests
Het gaat om het meten van vermogens waarmee iemand zich voor een maatschappelijke taak of schoolopleidingseisen kan bekwamen (geschiktheden). Eigenlijk gaat het om leergeschiktheid. Leerfactoren kunnen soms hetzelfde, maar ook iets heel anders zijn dan intelligentiefactoren, zoals bijvoorbeeld motorische vaardigheden. Voorbeelden van dergelijke tests zijn de leerpotentiaaltests, DAT (Differential Aptitude Testbattery) en GATB (General Aptitude Test Battery).

3. Speciale niveautests

Speciale niveautests richten zich op een bepaald segment van begaafdheid, bijvoorbeeld een intelligentie-aspect, geschiktheid of een vaardigheid. Ze vallen vaak niet onder intelligentie maar ze zijn wel belangrijk. Er zijn drie categorieën van speciale niveautests:

Tests voor speciale intelligentiefactoren
Dit kunnen bijvoorbeeld tests zijn die zich alleen richten op ruimtelijk inzicht, woordkennis etc. Op basis van de theorie van Guilford komen we tot drie gebieden. De eerste is die van het divergent denken (creativiteit). De onderzochte moet oplossingen bedenken voor een probleem waarvoor er vele oplossingen mogelijk zijn. De antwoorden worden aan de hand van drie criteria beoordeeld; hoeveelheid oplossingen, aantal verschillende principes en originaliteit. Het tweede gebied is die van de behavorial-dimensie (sociale intelligentie). Uit onderzoek blijkt dat het moeilijk te onderscheiden is van andere intelligentiefactoren. Het laatste gebied is kritisch denken. Ook dit is moeilijk te onderscheiden. Eigenlijk is de vraag of iets wel of niet onder intelligentie valt afhankelijk van de definitie die je aanhoudt.
Tests voor speciale geschiktheden oftewel 'special aptitude tests'
Er zijn twee soorten, de eerste soort zijn tests voor leergeschiktheden die zich richten op leercondities bijvoorbeeld geheugentests, tempotests en concentratietests. Bijvoorbeeld de Bourdon-Wiersma test, Grünbaumtest en het onderdeel ‘snelheid en nauwkeurigheid uit de DAT. Ook tests die gericht zijn op specifieke leergeschiktheden vallen hieronder. De tweede soort zijn tests voor werkgeschiktheid die zich richten op typische vaardigheden die nodig zijn voor maatschappelijke functies, bijvoorbeeld geschiktheid als piloot of chauffeur.
Tests voor speciale niet-intelligentiefactoren
Deze tests richten zich op vaardigheden of capaciteiten die belangrijk zijn voor een maatschappelijke functie of klinische diagnostiek. Er zijn drie soorten, namelijk (1) motoriektests (tests voor reactiesnelheden, lichaamsbeheersing en coördinatie; het gaat hierbij om de beeldvorming van de motoriek), (2) artistieke tests (men probeert een esthetisch oordeel te geven) en (3) sensorische tests (waarbij het gaat om gehoorscherpte, diepte zien, etc., het gaat hierbij om de beeldvorming van sensorische vaardigheden).

4. Vorderingstests

De cruciale vraag bij een vorderingstest is of iemand het doel van een opleiding heeft bereikt. Let wel: vorderingstests zijn niet hetzelfde als kennistests, want het doel van een opleiding is vaak niet alleen het verkrijgen van kennis. Er zijn twee soorten vorderingstests:

Achievement test
Dit is een kennistest die meer specifiek gericht is op schoolvorderingen. Bijvoorbeeld de CITO-toets.
Proficiency test
Dit is een vaardigheidstest die meer algemeen gericht is op vaardigheden buiten de cognitieve sfeer en kennis.

In Nederland lijken proefwerk en schriftelijk examen het meest op de kennistest. Er is een vloeiende overgang tussen de kennistest en de vaardigheidstest. Strikt genomen zijn ‘begrijpend lezen’, ‘begrijpend luisteren’ en ‘rekenvaardigheid’ ook vaardigheidstests.

3.3.1 Welk onderscheid is er te maken bij tests voor gedragswijze?

Observatietests	Somato-fysiologische methoden	Zelfbeoordelingen	Kwalitatieve prestatietests
Individuele observatietests	Morfologisch onderzoek	Interessetests	Niveautests voor gedragswijze: Experimentele tests Motoriektests Intelligentietests Karaktertests Cognitieve/perceptuele stijlen
Groepsobservatietests	Fysiologisch onderzoek	Waarde-attitudetests
		Biologische vragenlijsten	Projectietests: Perceptietests Interpretatietests Expressietests Constructietests Associatietests Keuzetests
		Persoonlijkheidsvragenlijsten

Het prestatievermogen bepalen is makkelijker dan het bepalen van gedragswijze. Er zijn drie problemen bij het bepalen van gedragswijze:

Minder generaliseerbaarheid. Metingen van prestatieniveau zijn eenvoudig generaliseerbaar naar het praktische functioneren, maar gedrag in een testsituatie is niet altijd hetzelfde als gedrag in het dagelijks leven.
Geen objectief criterium. Er is geen objectief criterium waarmee testprestaties kunnen worden vergeleken, dus er is sprake van weinig objectiviteit en betrouwbaarheid bij het vergelijken van testprestaties.
Minder stabiliteit van persoonlijkheidstrekken. Persoonlijkheidstrekken zijn vaak minder stabiel en kunnen per situatie verschillen en hebben een minder gelijkmatige invloed op gedrag.

Maar onderzoek naar persoonlijkheid is praktisch en psychologisch wel van belang en er zijn veel testen om de persoonlijkheid te meten. Er zijn vier verschillende test voor gedragswijze, die zullen hieronder worden besproken, namelijk (1) observatietests, (2) somato-fysiologische tests, (3) zelfbeoordelingen en (4) kwalitatieve prestatietests.

1. Observatietests

In vergelijking met andere tests voor gedragswijze is een observatietest een indirecte test omdat het om observaties en interpretaties van de psycholoog gaat. Er zijn twee soorten observatietests:

Individuele observatietests
Eén persoon wordt geobserveerd. Er wordt gelet op werkgedrag, houding, mimiek, uiterlijk gedrag en sociaal contact. De observator kan neutraal of geheel betrokken zijn. Meestal weet de onderzochte dat hij/zij geobserveerd wordt. Bij het gebruik van een one-way screen hoeft dat niet het geval te zijn.
Groepsobservatietests
Een groep mensen dat gezamenlijk aan een opdracht bezig is, wordt geobserveerd. Dit soort tests komen voor in zogenaamde ‘assessment centers’ voor de selectie van managers. Een andere vorm is een vorm waarbij deelnemers elkaar beoordelen en de psycholoog de beoordelingen verder verwerkt. Dit noemt men ‘peer rating’ of ‘buddy rating’. Een voorbeeld is een sociogram: ieder groepslid moet aangeven wie sympathiek is, wie leider is etc. Op basis van deze keuzes wordt een patroon van relaties in de interacties zichtbaar.

2. Somato-fysiologische methoden

Men gaat er vanuit dat er een verband is tussen fysieke/fysiologische aspecten en gedragskenmerken. Door middel van metingen van lichamelijke kenmerken of processen probeert men uitspraken te doen over de psychologische kwaliteiten van de onderzochte. Er zijn twee soorten methoden.

Morfologisch onderzoek
Met behulp van somatische kenmerken (hele lichaam, hoofd of gezicht) probeert men iets te zeggen over persoonlijkheidskenmerken. De validiteit is erg laag.
Fysiologisch onderzoek
Voorbeelden van fysiologisch onderzoek zijn: biochemische indices, elektro-encefalogram (EEG), elektrocardiogram, bloeddruk en bloedvolume, oogbewegingen, oogposities en pupildiameter, elektrodermale verschijnselen. Deze fysiologische maten blijken een verband te hebben met psychologische variabelen die belangrijk zijn voor het persoonlijkheidsonderzoek. Sommige verbanden zijn empirisch vastgesteld, maar onverklaard. Soms zijn er theoretische verklaringen gegeven. Ontwikkelingen hierin worden steeds belangrijker voor gedragsdiagnostiek.

3. Zelfbeoordelingen

Zelfbeoordelingen worden meestal afgenomen in de vorm van vragenlijsten. Ze zijn lang gewantrouwd omdat ze niet echt objectief zouden zijn. Een andere vorm is via empirisch onderzoek, er wordt dan gekeken of er een bepaald patroon is in de wijze van beantwoorden. Op basis daarvan kan men een psychologische interpretatie geven aan elke vraag. Deze methode levert meer valide conclusies op. Uit theoretische onderzoeken uit praktijkervaring blijkt de zelfbeoordeling toch een waardevolle methode te zijn. Er zijn vier soorten zelfbeoordelingen:

Interessetests
Deze tests hebben betrekking op interesses en kunnen gebruikt worden bij het bepalen van school- of beroepskeuzes.
Waarde- en attitudetests
Deze tests onderzoeken waarden en attitudes (houdingen). Bijvoorbeeld de California-F-Scale geeft aan in hoeverre iemand dogmatisch, conservatief en bevooroordeeld staat tegenover de politiek, cultuur en sociale factoren. Of de Schaal voor Interpersoonlijke Waarden, die meet zes waarden, namelijk sociale steun, erkenning, altruïsme, conformiteit, onafhankelijkheid en leiderschap.
Biografische vragenlijsten
Dit zijn systematische schriftelijke anamneses, oftewel vragenlijsten over biografische gegevens. De te voorspellen criteria zijn vaak specifiek, en het aantal biografische gegevens is groot en complex. Daarom wordt hiervoor meestal een specifieke vragenlijst gemaakt.
Persoonlijkheidsvragenlijsten
Het gaat hier om persoonlijkheidstrekken, zoals neuroticisme, extraversie enzovoort. De proefpersoon krijgt eenvoudige vragen die met deze persoonlijkheidstrekken samenhangen. Uitgaande van persoonlijkheidsvragenlijsten zijn er drie soorten constructies:
- Zuiver empirisch samengestelde vragenlijsten op basis van hun relatie met een relevant geacht criterium. Bijvoorbeeld de PMT meet één trek; de MMPI meet een aantal trekken;
- Via factoranalyse of clusteranalyse. De items worden samengesteld uit een groot aantal persoonlijkheidstests. Bijvoorbeeld 16PF en GZTS;
- Vanuit een theorie over persoonlijkheid of temperament. Bijvoorbeeld de Amsterdamse Biografische Vragenlijst, de NEO-PI-R of de NEO-FFI.

Er zijn ook zelfbeoordelingsmethoden die anders werken dan met vragenlijsten. Enkele voorbeelden zijn:

De Osgoodschalen of de methode van de semantische differentiaal
De proefpersoon moet een aantal objecten, gebeurtenissen of een serie eigenschappen beoordelen op een aantal bipolaire dimensies, zoals mooi/lelijk, sterk/zwak of glad/ruw. Door factoranalyse kwamen de onderzoekers tot drie significante dimensies waarop de antwoorden van de proefpersonen gescoord kunnen worden. Deze zijn: evaluatie (goed/slecht), activiteit (actief/passief) en potentie (sterk/zwak). Deze dimensies bleken niet sterk cultuurgebonden te zijn. Door de beoordelingen van de respondenten over te brengen op deze 3 dimensies, krijgt men een indruk van hun beleving van bepaalde verschijnselen (zoals huwelijk, liefde, rechtvaardigheid, hun beroep of zichzelf).
De Role Construct Repertoire van Kelly (de Rep-test)
De proefpersonen beoordelen zichzelf, hun leraar, vader of andere relevante personen op een checklist met adjectiva over persoonlijkheidsontwikkeling. Op deze manier ontstaan constructen over de persoonlijkheid.
Q-technique of Q-sort.
Iemand wordt gevraagd een serie uitspraken te sorteren op basis van de gelijkenis met bijvoorbeeld zichzelf (‘self-sort’), het ideaal (‘ideal-sort’) of de gemiddelde mens (‘average-sort’). Niet alleen de absolute scores, maar ook de afwijkingsscores worden geïnterpreteerd, want die blijken diagnostische betekenis te hebben. Bijvoorbeeld de discrepantie tussen het ideale zelfbeeld en het waargenomen zelfbeeld.

4. Kwalitatieve prestatietests

Bij kwalitatieve prestatietests wordt het resultaat (prestatie) van de onderzochte anders beoordeeld of geïnterpreteerd; namelijk als een indicatie voor een persoonlijkheidstrek of een klinisch syndroom. De onderzochte weet niet wat de bedoeling is van de test. Er zijn twee soorten kwalitatieve prestatietests:

1. Niveautests voor gedragswijze

De prestatie wordt beoordeeld aan de hand van een duidelijke norm voor wat goed of fout is. Men gaat er vanuit dat de score samenhangt met een persoonlijkheidstrek of met een klinisch diagnostische categorie. Bovendien gaat het in eerste instantie niet om een capaciteit of vaardigheid. Er zijn vijf categorieën niveautests voor gedragswijze (gebaseerd op de aard van de opdracht):

Experimentele tests: onderzoeksresultaten uit het laboratorium blijken bruikbaar te zijn voor persoonlijkheidsdiagnostiek.
Motoriektests: motorische verschijnselen vertonen samenhang met persoonlijkheidsaspecten, zoals bijvoorbeeld coördinatieproeven.
Intelligentietests: de totaalscore wordt gebruikt voor klinische- of persoonlijkheidsdiagnostiek. Bijvoorbeeld de intelligentietests voor de diagnostiek van disfuncties in de hersenen en hersenbeschadigingen, zoals de Bender Gestalt Test.
Karaktertests: proberen het karakter, de zedelijke aspecten of de wilskracht te meten. Bijvoorbeeld de volhardingstests. De tests zijn vaak onbetrouwbaar en afhankelijk van de specifieke tijd in de geschiedenis en het ‘zedelijk klimaat’.
Cognitieve of perceptuele stijlen: een cognitieve stijl is de manier waarop iemand informatie organiseert en bij een perceptuele stijl gaat het om waarnemingsgegevens, die subjectief worden opgenomen en verwerkt. Voorbeelden zijn: RFT (Rod and Frame Test), EFT (Embedded Figures Test) en BAT (Body Adjustment Test).

2. Projectietests

Vaak ambigue opdrachten waarop een persoon vrij mag reageren. In zijn reactie laat de persoon iets zien van zijn motieven. De psycholoog gebruikt coderings- en interpretatiecategorieën gebaseerd op kwalitatieve kenmerken van de reacties op de testopgaven. Er zijn zes categorieën projectietests of projectieve methoden.

Perceptietests: de onderzochte reageert op ongestructureerde (inkt)vlekken, elke zingeving en duiding wordt door de psycholoog geïnterpreteerd. Bijvoorbeeld de Rorschachtest of Holtzman Inkblot Test.
Interpretatietests: men moet vanuit persoonlijke interpretatie de afgebeelde situatie interpreteren of met elkaar in verband brengen. Bijvoorbeeld de Thematic Apperception Test (TAT) of de Vier-Platen-Test.
Expressietests: bijvoorbeeld de boomtest of de grafologie.
Constructietests: ook wel speeltests, bijvoorbeeld de Scenotest.
Associatietests: bijvoorbeeld de zinaanvullingstest of de frustratietest.
Keuzetests: bijvoorbeeld de Szonditest.

3.1.3 Wat zijn voorbeelden van tests en voldoen ze aan de zes kenmerken van tests?

1. RAKIT – algemene intelligentie (revisie Amsterdamse KinderIntelligentieTest)

De test bestaat uit 12 deeltests die samen de algemene intelligentie meten van kinderen van 4-11 jaar. De test heeft een lange en een korte versie (voor een gedifferentieerd beeld of een globale indruk), en sluit aan bij Thurstone (zeven intelligentiefactoren) en Guilford (drie dimensies). Wordt door COTAN beoordeeld als een goede test.

De test voldoet aan de zes kenmerken van een test (zie H2) waardoor deze onderscheiden wordt van het voorwetenschappelijk oordeel:

Efficiëntie: door het groot aantal gevarieerde taken kan in relatief korte tijd een vrij volledig beeld gekregen worden van het complexe intelligentiebegrip. Observatie ‘in vivo’ zou veel meer tijd kosten.
Standaardisatie: de test wordt individueel voorgelegd en duurt 2-2,5 uur. Heeft zeer gedetailleerde richtlijnen voor de proefleider, de handleiding bevat veel aanwijzingen over de procedure en gedetailleerde instructies per deeltest. Er wordt nadrukkelijk genoemd dat zich niet houden aan de aanwijzingen de testprestaties nadelig kan beïnvloeden.
Normering: genormeerd op basis van zeven leeftijdsgroepen (4,5-11 jaar) van duizenden proefpersonen. Groepen zijn samengesteld op basis van regio, urbanisatiegraad, schoolgrootte, leeftijd en sekse. De ruwe testscores zijn omgezet naar een goed te interpreteren schaal. En er is een samenvattende score van de algemene intelligentie beschikbaar.
Objectiviteit: over het algemeen objectief, maar soms ook een subjectieve beoordeling. De uiteindelijke testscore wordt verkregen met een goed omschreven (maar complexe) scoringsprocedure. Er kan niet worden uitgesloten dat verschillende beoordelaars tot verschillende scores komen.
Betrouwbaarheid: de betrouwbaarheid is gegeven voor drie leeftijdsgroepen – wat voor de ene leeftijd betrouwbaar is, hoeft namelijk niet voor de andere leeftijd betrouwbaar te zijn. De deeltests zijn in alle leeftijdsgroepen redelijk tot voldoende betrouwbaar, de totaalscore is zelfs zeer betrouwbaar.
Validiteit: de samenhang van de deeltests met externe variabelen is onderzocht om de betekenis vast te stellen. Vastgesteld kan worden dat de RAKIT een aantal relevante criteria (CITO-scores, vervolgonderwijs) behoorlijk goed kan voorspellen.

2. Test voor transitief redeneren – specifieke test (computertest Bouwmeester)

Transitief redeneren is op basis van voorgaande kennis (premissen) een antwoord op een probleem af te leiden. Het kunnen afleiden van transitieve relaties is belangrijk voor het onderwijs en dagelijks leven bij het nemen van rationele beslissingen (bijvoorbeeld bepalen in welke winkel een bepaald product het goedkoopst is). De test bestaat uit 16 taken (via de computer); per taak krijgt men eerst de premissen te zien, waarbij het kind bijvoorbeeld moet aangeven welke stok het langst is. Daarna wordt gevraagd naar de relatie tussen twee stokken die nog niet als premissenpaar zijn gegeven, maar die wel af te leiden is uit de premissen.

Voldoet de test voor transitief redeneren aan de zes kenmerken van een test?

Efficiëntie: diverse relevante aspecten van transitief redeneren komen in korte tijd aan bod.
Standaardisatie: het kan afgenomen worden door een getrainde proefleider aan individuele kinderen; de kinderen krijgen uitleg en proeftaken. De proefleider reageert op vragen op een vooraf goed doordachte manier – zonder het oplossingsproces te sturen. Testtijd is ongeveer een half uur (varieert per leeftijd).
Normering: het wordt alleen in wetenschappelijk onderzoek gebruikt. Er zijn geen normen voor individuele diagnostiek beschikbaar.
Objectiviteit: de reacties worden via de computer geregistreerd, de uitleg is gestandaardiseerd. De objectiviteit was voldoende hoog.
Betrouwbaarheid: betrouwbaarheid van de somscore op de items was ook voldoende hoog.
Validiteit: volgens Piaget zijn er twee vaardigheden voor transitief redeneren, maar volgens Bouwmeester is er maar één (hooguit daarnaast nog verbale vaardigheid voor de verbale taken). De onderzoeken van Bouwmeester geven nauwkeurig weer wat de test meet.

3. NEO – meting van de Big-Five persoonlijkheidsstructuur

Deze test meet vijf dominante persoonlijkheidskenmerken:

Neuroticisme: emotionele labiliteit versus emotionele stabiliteit: angst speelt een dominante rol.
Extraversie: extraversie versus introversie: naar binnen of naar buiten gerichte energie, aandacht en oriëntatie.
Openheid: openstaan voor ervaringen versus conventionaliteit en geslotenheid: intellectuele nieuwsgierigheid, voorkeur voor variatie en esthetiek.
Altruïsme: altruïsme versus egoïsme: georiënteerd op de belangen van anderen, hulpvaardig, gericht op samenwerken.
Consciëntieusheid: de mate van goed georganiseerd zijn, volhardend, ambitieus, betrouwbaar en gewetensvol handelen.

De test wordt gebruikt bij patiënten, voor arbeidsselectie en bij de beoordeling van de geschiktheid voor trainingen en opleidingen. Het wordt ook veel gebruikt in wetenschappelijk onderzoek. De test heeft een korte en een lange versie en maakt onderscheid op zes facetten per eigenschap. De lange versie heeft 240 items en geeft een genuanceerd beeld van de 30 facetten. Als voorbeeld de zes facetten van Neuroticisme:

Angst: de mate waarin men bang, zorgelijk, nerveus, gespannen en schrikachtig is.
Ergernis: de mate waarin men frustratie, boosheid en haat ervaart.
Depressie: de mate waarin men schuld, verdriet, hopeloosheid en eenzaamheid ervaart.
Schaamte: de mate waarin men verlegen is en gevoelig is voor spot en beoordeling van anderen.
Impulsiviteit: de mate waarin men zijn verlangens en gevoelens slecht beheerst.
Kwetsbaarheid: de mate waarin men spanning en stress slecht beheerst.

De items zijn uitspraken in de ‘ik-vorm’ die gaan over een facet van de eigenschap. De respondent geeft per item aan in hoeverre hij het met de uitspraak eens is (helemaal oneens / oneens / neutraal / eens / helemaal eens), en krijgt een score van 1 tot 5 punten; hoger betekent dat positie op de schaal voor die eigenschap hoger is.

Voldoet de NEO aan de zes kenmerken van een test?

Efficiëntie: door zich een voorstelling te maken van een groot aantal verschillende situaties, kan in korte tijd een indruk verkregen worden van de vijf persoonlijkheidstrekken.
Standaardisatie: de tests kunnen individueel en groepsgewijs worden afgenomen. NEO-FFI duurt 10-15 minuten, NEO-PI-R duurt 40-50 minuten.
Normering: per trek wordt de deeltestscore berekend door de itemscores bij elkaar op te tellen. Er wordt aangenomen dat de scores in de populatie op een normaalverdeling liggen; men krijgt dan een nieuwe score op een schaal van 1-9, die correspondeert met gelijke delen onder de normaalverdeling: stanines. Deze normen zijn vastgesteld voor diverse deelpopulaties met behulp van steekproeven met duizenden proefpersonen.
Objectiviteit: de scoring is objectief doordat per item is vastgesteld hoeveel punten men krijgt bij elk antwoord. Zo komt elke psycholoog tot hetzelfde antwoord.
Betrouwbaarheid: de betrouwbaarheid van de verkorte versie varieert per bevolkingsgroep en per eigenschap van 0.57 tot 0.88. De COTAN beoordeelt het als voldoende.
Validiteit: van elke eigenschap is de samenhang onderzocht met variabelen die psychisch, sociaal en lichamelijk welbevinden representeren. De COTON vindt dat de betekenis van de testscores in voldoende mate is aangetoond, maar dat er onvoldoende onderzoek is geweest naar de voorspellende waarde.

3.2 Hoe kunnen tests ingedeeld worden naar instructie en afname?

Er zijn twee onderscheidingen in afneming en instructie mogelijk, namelijk individuele test versus groepstest en snelheidstest versus niveautest.

3.2.1 Wat is het verschil tussen individuele tests en groepstests?

Individuele tests

Bij een individuele test is er sprake van een individuele testsituatie en individuele instructie. Er is een individuele relatie tussen de testleider en de onderzochte, de vragen worden stuk voor stuk geformuleerd of aangeboden en reacties/prestaties worden persoonlijk vastgelegd. Is vooral in Europa populair. Voordelen aan deze test zijn (1) de mogelijkheid om de onderzochte te stimuleren, (2) controle op de situatie en op de inhoud en (3) de mogelijkheid tot observatie van de onderzochte. Nadelen zijn de geringe efficiëntie en dat de informatie niet op een systematische wijze verkregen wordt.

Groepstests

Bij een groepstest geeft de testleider instructies aan een groep. Een voordeel is efficiëntie en de besparing van geld en tijd. Nadelen zijn problemen met de orde houden en het risico op afkijken; zaken die invloed kunnen hebben op de testprestatie. Hoe groot een groep mag zijn, hangt af van de aard van de test, het doel van het onderzoek en de leeftijd van de onderzochten. Bij patiënten, jonge kinderen en in ontwikkelingslanden is groepsgewijs testen moeilijker en bij kinderen jonger dan 5 jaar helemaal onmogelijk.

Zowel individuele test als groepstest kunnen schriftelijk en via de computer worden afgenomen. Individuele tests kunnen daarnaast ook mondeling worden afgenomen of middels een verrichtingstest.

3.2.2 Wat is het verschil tussen een snelheidstest en een niveautest?

Een snelheidstest wordt ook wel speedtest genoemd. Een niveautest noemt men ook wel powertest. Uitgaande van een vaste periode kijkt men bij een snelheidstest hoe snel iemand een bepaalde opdracht af heeft.

Snelheidstest

Veel opgaven, dus het is nooit binnen de toegestane tijd af.
De opgaven zijn ongeveer even moeilijk.
De opgaven zijn vaak bijzonder gemakkelijk.
Bij de beoordeling worden fouten vaak niet meegerekend.

Niveautest

Opgaven zijn niet even moeilijk.
Opgaven lopen van makkelijk naar moeilijk.
Iedereen kan de makkelijkste oefeningen maken en vrijwel niemand de moeilijkste.
Geen tijdslimiet (hoewel in de praktijk vaak wel, maar dan ruim genomen).
Beoordeling op basis van de correcte oplossingen.

Een interessante vraag is of tests, onder de verschillende voorwaarden van snelheid of niveau, toch dezelfde eigenschap kunnen meten. Het lijkt dat snelheidstests samenhangen met kwantiteit en niveautests met kwaliteit. Er is een positieve correlatie gevonden tussen de prestaties onder beperkte en onbeperkte tijd.

Meili kwam met twee hypothesen met betrekking tot de verhouding tussen snelheid en niveau:

De snelheid waarmee gemakkelijk opgaven worden opgelost geeft geen aanwijzing voor het vermogen moeilijk opgaven op te lossen.
De snelheid waarmee moeilijke opgaven worden beantwoord is wel een aanwijzing voor het vermogen als zodanig om deze problemen op te lossen, maar weer niet voor de snelheid waarmee eenvoudiger taken worden verricht.

Er is een gedeeltelijke bevestiging van beide hypothesen gevonden: de snelheid bij makkelijke opgaven stond los van de intelligentie en de snelheid van werken bij moeilijke opdrachten.

Model van Van der Ven: de precisiescore is de proportie goede antwoorden en de snelheidsscores is het aantal geprobeerde items. De correlatie tussen precisie en snelheid kan door deze twee scores worden verklaard – onder de aannamen dat precisie en snelheid onafhankelijk van elkaar zijn. Maar dit model werd bekritiseerd door Van den Wollenberg. Als alternatief voor de precisiescore stelde hij de persoonsscore uit het Rasch-model voor. Hij vond ook dat precisie en snelheid niet helemaal onafhankelijk zijn en dat er meer eigenschappen ten grondslag liggen aan de testprestatie dan deze twee alleen.

Bij het testen van woordenschat, kennisniveau en sensorische of artistieke vaardigheden is het snelheidselement niet belangrijk. Als het wel belangrijk is, moet de mate van de snelheid empirisch worden bepaald, afhankelijk van wat men wil weten of voorspellen. De optimale praktische uitvoering van een tijdslimiet (wel of niet, en hoe lang dan) hangt samen met de betrouwbaarheid en betekenis van de test.

3.3 Welk onderscheid kan er gemaakt worden op basis van testvragen?

De belangrijkste begrippen in verband met de onderscheidingen op basis van testvragen zijn: cultuurvrije en niet-cultuurvrije tests en directe en indirecte tests.

3.3.1 Wat is het verschil tussen cultuurvrije en niet-cultuurvrije tests?

Het gaat hier meer om een continuüm dan om een tegenstelling. Een zuivere cultuurvrije test bestaat niet en men moet er ook niet naar streven. De mens wordt altijd beïnvloed door zijn omgeving. Ook non-verbale tests zijn niet helemaal cultuurvrij. Non-verbale tests blijken vaak laag te correleren met allerlei relevante criteria. Misschien komt dit omdat de taal eruit gehaald is, die mogelijk een wezenlijke bijdrage levert aan het begrip intelligentie.

Het is beter om het complexe begrip ‘cultuur’ te vervangen voor een begrip dat beter omschreven kan worden, zoals het begrip ‘skill’. Om mee te kunnen doen aan een test heeft men bepaalde vaardigheden, 'skills', nodig, zoals het kunnen horen van instructies: vaardigheden die men met de test juist niet wil meten. Sommige skills zijn fysiologisch bepaald (kunnen horen of zien), anderen worden beïnvloed door cultuur of omgevingsinvloeden (kunnen lezen, schrijven etc.).

De invloed van skill-verschillen kan op drie manieren worden gereduceerd:

Door het verkleinen van de skill-verschillen zelf, door bijvoorbeeld de instructie uit te breiden.
Door interpretaties en testscores te beperken tot slechts dat deel van de populatie dat de vereiste skills bezit.
Door het ontwikkelen van ‘skill reduced tests’, bijvoorbeeld de Design Construction Test van Ord, de SON (voor doven). Het doel is de groep te vergroten waarbinnen uit de testscores conclusies over de te meten capaciteit kunnen worden getrokken.

3.3.2 Wat is het verschil tussen directe en indirecte tests?

Een belangrijke vraag is of het doel van de test bekend is bij de onderzochte. Vrijwel alle projectiemethoden en de meeste zelfbeoordelingen en persoonlijkheidsvragenlijsten vallen onder indirecte tests; de onderzochte weet het doel van de test niet. Bij directe tests weet en begrijpt de onderzochte het doel van de test. Zoals bij bijna alle prestatietests en vorderingstests, biografische informatielijsten en opinie- en attitudetest.

Vragenlijsten kunnen ook in een indirecte vorm gegoten zijn. De meeste zelfbeoordelingen en persoonlijkheids-vragenlijsten zijn in zekere zin indirect: onderzochte weet niet hoe de vragen zullen leiden tot een interpretatie over de persoonlijkheid, interesse of attitude.

3.3.3 Wat is het verschil tussen vrije-antwoordtests en keuze-antwoordtests?

Vrije-antwoordentest en keuze-antwoordentests worden ook wel open versus gesloten vragen of ongecodeerde versus geprecodeerde vragen, genoemd. Het gaat hier om het verschil in uitvoering van de test. Hoofdstuk 4 gaat hier dieper op in.

Meer hoofdstukken samengevat

Voor de rest van de samenvatting en updates: Studiegids online samenvattingen van Testtheorie: inleiding in de theorie van de psychologische test van Drenth et al.

Access:

Public

Verzekeren bij een faire en solidaire zorgverzekeraar?

Join: WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check: concept of JoHo WorldSupporter

Concept of JoHo WorldSupporter

JoHo WorldSupporter mission and vision:

JoHo wants to enable people and organizations to develop and work better together, and thereby contribute to a tolerant and sustainable world. Through physical and online platforms, it supports personal development and promote international cooperation is encouraged.

JoHo concept:

As a JoHo donor, member or insured, you provide support to the JoHo objectives. JoHo then supports you with tools, coaching and benefits in the areas of personal development and international activities.
JoHo's core services include: study support, competence development, coaching and insurance mediation when departure abroad.