- Wat zijn het belang en de grondbeginselen van de evaluatie van Individuen? Het doen van metingen - Chapter 1
- Wat zijn het belang van het bedenken en maken van Items betreffende psychologische testen? - Chapter 2
- Hoe werkt het ontwerpen en scoren van een schaal betreffende psychologische testen? - Chapter 3
- Hoe werkt dataverzameling betreffende psychologische testen? - Chapter 4
- Wat houdt de klassieke testtheorie in? - Chapter 5
- Wat houdt de moderne testtheorie in? - Chapter 6
- Hoe is de betrouwbaarheid van testscores en testitems te waarborgen? - Chapter 7
- Hoe is de betrouwbaarheid van beoordelaars te waarborgen bij psychologische testen? - Chapter 8
- Hoe kun je validiteit beoordelen aan de hand van inhoud en criteriamethoden bij psychologische testen? - Chapter 9
- Hoe kun je validiteit beoordelen bij psychologische testen via de interne structuur van het item? - Chapter 10
- Hoe zijn ethiek en professionaliteit te waarborgen bij psychologische testen? - Chapter 11
- Hoe kun je aan informatie over psychologische testen uit verschillende domeinen komen? - Chapter 12
- Abonneechapter met een BulletPoint samenvatting van Psychological Testing - Kline - 1e druk
- Abonneechapter met oefenvragen per chapter van Psychological Testing - Kline - 1e druk
Wat zijn het belang en de grondbeginselen van de evaluatie van Individuen? Het doen van metingen - Chapter 1
Het doen van metingen is van zeer groot belang. Een goed wetenschappelijk onderzoek staat of valt bij de meting. Als een construct op een onvolledige manier gemeten wordt, zijn de resultaten zwak en zal het onderzoek ook niet gepubliceerd worden.
Metingen vormen een integraal gedeelte van het onderzoeksproces. Voor een wetenschapper is een goede, ruime kennis over metingen een zeer belangrijke vaardigheid. Dit boek is geschreven om studenten de nodige kennis over metingen bij te brengen. Tegen het einde van het boek moet de student in staat zijn om een construct te testen, weten hoe een test moet worden geëvalueerd/beoordeeld en in hoeverre je als onderzoeker op de scores uit een test kan vertrouwen.
1.1 Metingen binnen de natuurwetenschappen
Sociale wetenschappers zijn vaak jaloers op de nauwkeurigheid waarmee natuurwetenschappers hun constructen kunnen meten. Constructen als temperatuur, snelheid, lengte, gewicht, lichtsterkte of de kleur van een vloeistof kunnen door middel van geavanceerde wetenschappelijke instrumenten zeer precies worden gemeten. Zolang de natuurwetenschappers weten hoe ze de instrumenten waarmee zij meten moeten gebruiken en hoe ze de uitkomsten moeten interpreteren, is het meetgedeelte geen probleem. Dit gaat helaas niet op voor metingen binnen de sociale wetenschappen.
1.2 Metingen binnen de sociale wetenschappen
Bij sociaalwetenschappelijk onderzoek zijn de constructen vaak dubbelzinnig en gaat het om abstracte begrippen, zoals politiek activisme, criminaliteit, leiderschap, intelligentie, persoonlijkheid, creativiteit, depressie, angsten etc. In de sociaalwetenschappelijke wereld is men het nog lang niet eens over hoe deze constructen gemeten dienen te worden en in de meeste gevallen is men er ook nog niet over uit wat nu de exacte betekenis/definitie van de constructen zelf is. Een construct is dus zeer subjectief en daarom moeilijk om in een definitie samen te vatten.
De eerste stap bij sociaalwetenschappelijk onderzoek is dat de onderzoeker zeer helder en duidelijk uitlegt wat er wordt gemeten. Dit wordt ook wel de conceptuele definitie van het construct genoemd (bijvoorbeeld Als je creativiteit wilt meten, moet je eerst uitleggen hoe je creativiteit definieert).
Nadat de conceptuele definitie van het construct is uitgelegd, moet de lezer van het onderzoek het vervolgens het eens zijn met de manier waarop het construct wordt gemeten. De meting moet een accurate representatie van het construct zijn. Met andere woorden: de conceptuele definitie moet vertaald worden naar een operationele definitie. Dit is zeker geen gemakkelijke klus en vereist een zorgvuldige en methodologische aanpak.
1.3 Geschiedenis van het doen van metingen
In 2200 v.Chr. werden er in China om individuele verschillen te evalueren al metingen gedaan. De Chinese overheidsdienst was de eerste die formele testprocedures gebruikten. Dit systeem werd in de 19e eeuw als model gebruikt door Britse, Franse en Duitse overheden. De oude Grieken gebruikten ook al tests om individuele verschillen te evalueren.
Het doen van metingen en afnemen van tests werd in de 19e eeuw steeds populairder. Meerdere landen begonnen steeds meer interesse te tonen voor de vele aspecten van individuele verschillen.
Een belangrijk moment was de aanstelling van de Franse psycholoog A. Binet en T. Simon door de Franse minister van onderwijs. Binet en Simon werd gevraagd om een proces te ontwikkelen om schoolkinderen die niet van het reguliere schoolsysteem zouden kunnen profiteren te identificeren. Binet en Simon ontwikkelden hiermee de eerste intelligentietest voor kinderen tussen de 3 en 13 jaar.
Vanaf de jaren ‘80 van de vorige eeuw nam het gebruik van de computer voor testen zeer snel toe. Het gebruik van computers bij tests heeft zichzelf al veelvuldig bewezen als een goed hulpmiddel en is dan ook bijna niet meer weg te denken. Bijna dagelijks worden er nieuwe tests ontwikkeld, worden oudere testmodellen herzien en mensen zijn zich steeds meer bewust van de betekenis van tests en hun rechten met betrekking tot het gebruik van de testscores. Al deze ontwikkelingen maken het noodzakelijk voor een sociale wetenschapper om bekwaam te zijn in het ontwikkelen en uitvoeren van tests. Daarnaast dient een wetenschapper goed op de hoogte te zijn van nieuwe evaluaties/beoordelingsmethoden.
1.4 Statistiek, de basisprincipes
De volgende basisprincipes van statistiek worden in dit hoofdstuk besproken: meetschalen, karakteristieken van de normale verdeling, p-waardes en statistische significantie. Ook wordt het geheugen over steekproefverdeling, correlatie en regressie kort opgefrist. Als laatste wordt er nog kort gesproken over de lineaire omzetting van ruwe scores.
Meetschalen
tijdens het meetproces wordt data verzameld en er worden getallen aan deze data toegewezen. Deze getallen hebben verschillende betekenissen, afhankelijk van het soort data. Deze betekenissen zijn gebaseerd op de gebruikte meetschaal. De meest rudimentaire meetschaal is de nominale schaal, waarbij de getallen simpelweg een manier zijn om de data in te delen in categorieën (bijvoorbeeld mannen = 1 en vrouwen = 2). De tweede schaal is de ordinale meetschaal, waarbij de getallen een rangorde aantonen (bijvoorbeeld de uitslag van een voetbaltoernooi). Ordinale metingen geven geen absoluut prestatieniveau weer. Het meest verfijnde meetniveau is de interval meetschaal, waarbij de getallen in een bepaalde hiërarchie zijn geordend. In tegenstelling tot de ordinale meetschaal bevatten de getallen nu meer informatie. De verschillen tussen de getallen zijn gelijkwaardig, dat wil zeggen, het verschil tussen 2 en 3 is hetzelfde als het verschil tussen 3 en 4 (bijvoorbeeld temperatuurmetingen). In het geval van intervaldata heeft ieder geval een absolute waarde die met dat geval geassocieerd is. Er is echter geen vast nulpunt. Het rationiveau van meten voorziet van de meeste informatie over getallen, aangezien het alle kenmerken van meten op intervalniveau heeft en er daarnaast een absoluut nulpunt is (bijvoorbeeld lengte en gewicht).
Normale verdeling
Een gebruikelijke assumptie over ieder gemeten individueel verschil, is dat dit verschil normaal verdeeld is binnen de populatie.
Kans en statistische significantie
Aan de hand van alfa (α) kan worden aangetoond in hoeverre een gevonden verschil statistisch significant is of in hoeverre het berust op toeval. De α-waarden corresponderen met p-waarden. De p-waarde staat voor het waarschijnlijkheidsniveau. De meest gebruikelijke α-waarde om te spreken over significantie is 0.05 of 0.01.
Steekproefverdelingen
Steekproefverdelingen zijn theoretische distributies en worden gebruikt bij het maken van statistische beslissingen. Steekproefverdelingen hebben gemiddelden en variaties. Meervoudige steekproefverdelingen zijn geassocieerd met inferentiële statistiek, zoals t-toetsen, F-toetsen, chi-square toetsen, correlatie-toetsen, etc. De vorm van iedere steekproefverdeling is gebaseerd op verschillende steekproefgroottes en het aantal variabelen in de analyse. Steekproefverdelingen worden gebruikt om de α-waarde voor een bepaalde statistische toets vast te stellen en om te beslissen of de nulhypothese wel of niet verworpen moet worden. Steekproefgroottes zijn belangrijk, omdat ze aantonen welke steekproefverdeling moet worden gebruikt om te toetsen of de berekende statistiek wel of niet significant is. Wat gebruikelijk is bij alle steekproefverdelingen is dat naarmate de steekproefgrootte waarin de statistiek wordt berekend toeneemt, de kritieke waarde die de statistiek moet overschrijden om als significant beschouwd te kunnen worden, afneemt. Het is dan ook eenvoudiger om een significant verschil te vinden aan de hand van een grotere steekproef dan met een kleinere steekproef.
Correlatie
Correlatie beschrijft de sterkte en richting van de lineaire relatie tussen twee variabelen. De samenvatting van de sterkte en richting van de relatie tussen twee variabelen wordt ook wel de Pearson product-moment correlatie coëfficiënt, ofwel correlatie coëfficiënt, genoemd. Waarden van de correlatie coëfficiënt variëren van -1.00 tot +1.00. Via poweranalyse kan worden berekend hoeveel gevallen nodig zijn om een correlatie coëfficiënt te kunnen berekenen. Daarnaast is een goede vuistregel om 10 gevallen per variabele aan te houden.
Lineaire regressie
Regressie is, net als correlatie, een analyse van lineaire relaties tussen variabelen. Echter, een belangrijk verschil is dat bij regressie één van de variabelen afhankelijk is van de andere variabele(n).
Betekenis van scores
Ruwe scores van tests moeten geïnterpreteerd worden. De getallen die aan de ruwe scores zijn verbonden krijgen alleen betekenis in de context van een groep scores waarnaar verwezen kan worden (bijvoorbeeld: 15 punten halen voor een tentamen zegt niet of dit resultaat goed of slecht is). Deze vergelijkende informatie wordt normatieve informatie genoemd en wordt bepaald door kennis over de referentiegroep. Normatieve informatie is belangrijk om er zeker van te zijn dat de scores op de juiste wijze worden geïnterpreteerd. Hoe groter en representatiever de referentiegroep is waarmee één enkele score wordt vergeleken, hoe meer vertrouwen kan worden geplaatst in de interpretatie van de betekenis van die score. Om een ruwe score betekenis te geven, kan het worden omgezet naar een verdeling van betekenisvolle, vertrouwde waarden. De meest gebruikelijke verdeling is de normale verdeling. Een andere gebruikelijke omzetting van ruwe scores is die naar percentielen.
1.5 De eerste stap: Identificeren van het construct
Voordat individuele verschillen kunnen worden getoetst, moet er eerst een construct gedefinieerd worden. ‘Websters Dictionairy’ definieert een construct als volgt: “An idea or perception resulting from a synthesis of sense impressions”. Met andere woorden, constructen zijn zelfgedefinieerde omschrijvingen van bepaalde fenomenen. De ene persoon heeft weer een heel ander beeld van bijvoorbeeld het construct ‘succes’ dan een ander persoon. Dit betekent dat als jij een construct op een bepaalde manier definieert, de test hierover en de resultaten hiervan nooit aan iedereen zijn of haar criteria en verwachtingen zullen voldoen.
Het kan handig zijn om een lijst te maken met hierin de kenmerken die wel of niet bij een bepaald construct horen.
Het maken van een dergelijke lijst maakt het voor zowel de testontwikkelaar als de proefpersonen inzichtelijk wat de meting wel en niet zal proberen te omvatten.
Verbanden tussen constructen
Voor vele tests is het niet het uiteindelijke doel om te testen puur voor het testen zelf. Het gaat erom of er uit de verzamelde scores gevolgtrekkingen/conclusies kunnen worden geformuleerd. Door testresultaten op een bepaalde manier te analyseren zouden er mogelijk verbanden en oorzaakgevolg-relaties tussen verschillende constructen kunnen worden aangetoond (mits dit op een goede manier gebeurt). In dit hoofdstuk wordt, om dit te verduidelijken, het voorbeeld over teamspelers gebruikt.
De helderheid van een construct
Constructen zijn ‘helder’ wanneer deze evalueren wat ze zouden moeten doen. De gemeten variabelen corresponderen dan voor 100% met het gedefinieerde construct. Als de variabele een construct perfect representeert, dan zijn de metingen niet een groot probleem. De metingen worden pas lastig, of onjuist, als de variabelen het construct niet goed genoeg (imperfect) blijken te representeren.
Deze imperfecties komen op twee mogelijke manieren voor:
(1) deficiëntie: Het construct is niet toereikend genoeg om het onderzoeksgebied geheel te dekken.
(2) contaminatie: er is sprake van ‘vervuiling’ van een gemeten construct door een bepaalde variabele wanneer de meting ook informatie meet die niet van toepassing is op of geen deel uitmaakt van het construct.
In een variabele is contaminatie, in tegenstelling tot deficiëntie, vrij gemakkelijk op te sporen. Contaminatie kan worden opgespoord door gebruik te maken van verschillende statistische procedures. Deficiëntie moet door rationele argumenten van de onderzoeker zelf worden geconstateerd. Als het erop lijkt dat een construct iets mist, dan moet men dat missende element vinden door opnieuw bestaande theorieën en andere onderzoeken te bestuderen. Men kan ook vanuit de eigen praktische kennis over het construct constateren welk element er nog mist.
Enkel en meervoudige constructen
Het is van groot belang dat je als onderzoeker weet of je een enkel of meervoudig construct gaat meten. Dit is zeker niet een gemakkelijke taak. Er zijn boeken volgeschreven over of een construct over één of meerdere facetten beschikt. Een voorbeeld is het construct ‘intelligentie’. Men is het er nog steeds niet over eens of intelligentie een enkel of meervoudig construct is. Het bewijs wat door beide kanten gegeven wordt is logisch en statistisch verfijnd, dus het is maar net met welke kant jij het eens bent.
Er is geen goed of fout antwoord op de vraag of een construct enkel- of meervoudig is. Meervoudige constructen zijn lastiger te meten omdat, naast het feit dat men alle constructen individueel moet meten, ook moet weten hoe de constructen samenwerken en wat het verband tussen beide is. Deze complexiteit kan het best worden aangepakt door gebruik te maken van methodologie en statistiek.
Wat zijn het belang van het bedenken en maken van Items betreffende psychologische testen? - Chapter 2
Als het construct eenmaal helder is geformuleerd, moeten vervolgens de items worden gemaakt. Dit zijn bijvoorbeeld de vragen van een vragenlijst die het construct zo goed mogelijk moeten gaan beoordelen/evalueren. Er zijn drie verschillende benaderingen bij het maken van items: (1) empirisch, (2) theoretisch, (3) en rationeel. Deze driedeling is artificieel en in de praktijk overlappen ze elkaar vaak.
2.1. Empirische, theoretische en rationele aanpak bij ‘Item Construction’
Empirisch gegenereerde items doen hun taak naar behoren, maar de testontwikkelaar/onderzoeker weet niet waarom het item relevant is of het kan hem of haar niet schelen. Een andere tactiek bij het opmaken van een item is de theoretisch gedreven aanpak. Bij de rationele benadering wordt gebruik gemaakt van een combinatie van de theoretische en empirische aanpak.
Literatuur zoeken
De wetenschappelijke kant van itemontwikkeling is vrij helder en je weet al snel wat er in dit stadium als onderzoeker van je verwacht wordt. De eerste stap bij het maken van een schaal is het zoeken naar relevante empirische en theoretische literatuur. Het internet kan veel hulp bieden bij het zoeken naar bruikbaar materiaal voor jouw itemconstructie.
Als er al bestaand onderzoek bestaat over het construct, dan kan men de items uit dit onderzoek gebruiken in plaats van zelf het wiel opnieuw uit te vinden. Natuurlijk moet je hierbij wel opletten of het al eerder onderzochte construct wel overeenkomt met hoe jij hetzelfde construct wil meten; de operationele definities van het construct moeten dus ongeveer hetzelfde zijn. Vervolgens moet de betrouwbaarheid van het onderzoek zelf beoordeeld worden om te kijken of het überhaupt wel gebruikt kan worden. Het is altijd eenvoudiger om een al bestaande schaalverdeling te gebruiken dan om die zelf te maken. Je kunt de bestaande schaal ook aanpassen en op deze manier geheel naar jou wens maken. Als je besluit om een bestaande schaal aan te passen, dan moet dit wel gerapporteerd worden.
SME: Subject Matter Experts
De volgende stap in de zoektocht naar nuttige informatie over een construct zijn de 'Subject Matter Experts' (SME's). Dit zijn personen die expert zijn op het gebied van een bepaald onderwerp/fenomeen. Deze personen hebben het gekozen fenomeen reeds onderzocht. Door middel van een literatuuronderzoek naar een onderwerp/construct kunnen deze personen gemakkelijk worden gevonden. Ze zijn goed te herkennen, omdat de namen van deze onderzoekers telkens weer zullen opduiken. Het is zeer aan te raden om (als dat kan) met zulke experts contact op te nemen.
Een andere groep binnen de SME’s zijn de leken. Zij beschikken over specifieke kennis over het construct dat je wil meten. Bijvoorbeeld: als je meer wilt weten wat belangrijke kenmerken zijn voor teamspelers in een werkomgeving is het zeer nuttig om te gaan praten met mensen die in het dagelijks leven in teamverband werken. Beide groepen helpen bij het zo helder mogelijk maken wat een construct nou eigenlijk precies inhoudt.
Vaak vragen studenten hoeveel van deze experts er moeten worden benaderd. Het antwoord is: zoveel mogelijk, totdat je zeker weet dat er geen nieuwe perspectieven of informatie meer kan opduiken. Als dit punt bereikt is, wordt dit door onderzoekers die kwalitatieve dataverzamelingsprocedures gebruiken ook wel de ‘saturation of themes’ genoemd.
Het maken van items: begeleidende regels
Als je alle mogelijke informatie over een construct hebt weten te verzamelen, is het vrij gemakkelijk om te bepalen hoe dit construct geoperationaliseerd moet worden, zodat deze vervolgens kan worden gemeten.
Hoe worden de items van een vragenlijst geschreven/ontwikkeld? Ten eerst moet er worden gekozen tussen vragen of stellingen. Het maakt niet uit welke er wordt gekozen, zolang het gekozen patroon binnen het onderzoek maar doorgevoerd wordt. Het algemene probleem bij items is de helderheid. Wees zo duidelijk mogelijk in de vragen die je stelt aan je respondenten. Hoe duidelijker je vraag, hoe zekerder de onderzoeker ervan kan zijn dat de respondent in ieder geval genoeg informatie heeft ontvangen om de vraag zo volledig mogelijk te beantwoorden.
Er zijn volgens Kline een aantal regels/principes die vaak vrij vanzelfsprekend zijn, maar waaraan lang niet altijd wordt gedacht.
Hoeveel items?
Het is moeilijk om vast te stellen welke hoeveelheid items genoeg is. Het is eigenlijk pas genoeg als het construct naar behoren geëvalueerd/beoordeeld wordt. In de meeste gevallen zijn er ongeveer een stuk of 5 tot 10 items nodig. Sommige analyses hebben uitgewezen dat er nooit minder dan 20 items moeten zijn. Het is wel zo dat als je voor elk construct (zeker als je meerdere constructen meet) 20 items maakt, de participant wel even bezig is om de test te maken of in te vullen.
Het aantal constructen en de lengte van het onderzoek zullen uitwijzen hoeveel items er nodig zijn. Een onderzoeker moet zich bewust zijn van de duur van de test. Hoe langer de test, hoe groter de kans dat er weinig mensen bereid zullen zijn om aan het onderzoek te participeren. Als de test te lang duurt, is er een grote kans dat de participanten aan het eind van de vragenlijsten maar wat gaan invullen. Aan deze data heb je als onderzoeker helemaal niets.
2.2 Attitudinale Items
De ontluikende belangstelling bij sociale wetenschappers naar het evalueren/beoordelen van gedragingen van individuen zorgde ervoor dat er verscheidene ontwikkelings- en beoordelingsmethoden werden geformuleerd om zo attitudinale items te kunnen produceren. Sommige metingen voorzien van directe numerieke schattingen van stimuliverschillen, terwijl anderen van indirecte schattingen voorzien. Deze laatste schattingen moeten geconverteerd worden naar numerieke waarden.
Gepaarde vergelijkingen
Om te kunnen oordelen over vergelijkingen moet de respondent twee verschillende stimuli vergelijken en hier een oordeel over vellen. In het geval van gepaarde vergelijkingen moet een individu iedere stimulus met iedere andere stimulus vergelijken en een oordeel vellen over de relatieve relatie tussen deze stimuli. Het biedt een indirecte meting van de verschillen tussen stimuli, of dit nu items of personen zijn.
Items in gerangschikte categorieën
In dit geval wordt een aantal beoordelaars gevraagd om stimuli te rangschikken over een bepaalde dimensie. Hoewel de schaal op ordinaal- en niet op intervalniveau is, is dit een directe schatting van stimuli. De stimuli kunnen zowel testitems, als items op een attitudeschaal of zelfs personen zijn.
Items in categorieën op intervalniveau
Men kan zowel de ware intervalniveau-grenzen van de responscategorieën, als het ware intervalniveau van de waarde van ieder item genereren met behulp van successieve intervallen. Dit is een indirecte methode en vergt dus enige conversies. Allereerst wordt een aantal beoordelaars gevraagd een aantal stimuli (items) in een bepaald aantal categorieën te plaatsen. Iedere categorie representeert min of meer een bepaalde dimensie.
Guttman-schalen
Een Guttman-schaal is een andere manier om vast te stellen hoe de items zich gedragen in relatie tot elkaar. In een dergelijke schaal worden stimuli (ook wel bekend als testitems) gepresenteerd in volgorde van toenemende extreme meningen. Wanneer bekend is waar deelnemers vallen op de extremen-schaal, kan worden achterhaald wat hun responsen op alle items zullen zijn, en niet alleen die op de meest extreme.
2.3 Beoordelen/evalueren van gedrag
Het beoordelen/evalueren van gedragingen gaat iets anders in zijn werk dan het beoordelen/evalueren van attitudes. Het maken van schaalitems die op gedragingen zijn gebaseerd gaat ongeveer hetzelfde in zijn werk als bij anderen schalen. De focus van het literatuuronderzoek en de interviews met SME’s zal, als het gaat om gedragingen, meer liggen op het zeer helder identificeren van de doelgedragingen. Dit zodat deze gedragingen dan op een acceptabele manier kunnen worden gedefinieerd.
Een veel gebruikte aanpak bij het ontwikkelen van dit soort items is de Critical Incident Technique (Flanagan, 1954). Een goed voorbeeld van een dergelijke schaal die met deze techniek is gemaakt, is de ‘Behavioral Observation Scale Development’ (Latham & Wexley, 1977). Deze schaal wordt gebruikt om de werkprestatie van werknemers te beoordelen.
2.4 Pilot-testen
Schaalitems moeten altijd een pilot-test ondergaan. Vraag medestudenten, collega’s, vrienden, familieleden of een kleine groep van potentiële participanten om alle items van een onderzoek in te vullen. Het voortesten is een zeer cruciale stap in de ontwikkeling van items. Vraag aan hen hoe lang zij over het invullen van de items deden, of zij nog ergens bepaalde dingen onduidelijk vonden of dat zij vonden dat de schalen te ingewikkeld waren. Wellicht vissen ze er nog een paar type- of spelfouten uit. Een pilot-test geeft de onderzoeker belangrijke feedback en zal alleen maar bijdragen aan een betere ontwikkeling van je volledige onderzoek.
Hoe werkt het ontwerpen en scoren van een schaal betreffende psychologische testen? - Chapter 3
Nadat er een sterke, heldere, conceptuele definitie van het gekozen construct is geformuleerd en als ook duidelijk is hoe de ontwikkelde items het construct kunnen operationaliseren, is het nu tijd om een responsschaal te ontwikkelen. In dit hoofdstuk wordt stilgestaan bij de vraag hoe je een goede responsschaal maakt. (Een schaal is in andere woorden een classificatiesysteem met gradaties).
De eerste keuze die je als onderzoeker moet maken is of je open of gesloten vragen aan je participanten/respondenten wilt stellen.
3.1 Open vragen
Open vragen kunnen zowel gestructureerd als ongestructureerd zijn. Een voorbeeld van een gestructureerde open vraag: iedereen uit je klas vragen om op te schrijven wat hun favoriete televisieprogramma van de zondagavond is. Als je van iedereen de antwoorden gaat analyseren en optellen, kan je uiteindelijk constateren dat één bepaald programma het populairst is en welke groep uit de klas naar een bepaald programma kijkt. Het geeft echter weinig informatie over wat de achterliggende motivatie het individu is; dus waarom iemand naar een bepaald programma kijkt.
Het stellen van een minder gestructureerde open vraag kan er wel voor zorgen dat je als onderzoeker inzichtelijk krijgt wat te achterliggende motieven zijn van het kijken naar een bepaald programma. De vraag moet dan als volgt gesteld worden: ‘Schrijf op wat je favoriete zondagavondprogramma is, en waarom dit zo is.’
Nadeel van open vragen is dat het nogal wat tijd kost om alle antwoorden in coherente groepen te categoriseren. Voordeel is wel dat je als onderzoeker gedetailleerde antwoorden krijgt die weer garant staan voor gedetailleerde informatie.
Open vragen worden vooral in de vroege stadia van theorieontwikkeling toegepast. Voorbeeld: onderzoek van Cartwright & Copper uit 1997. Dit onderzoek toonde aan dat er veel bewijs is dat stress op het werk een verhoogd risico vormt voor hart- en vaatziekten. Volgens andere onderzoekers is dit verband niet consistent aanwezig bij alle individuen en zij stellen dat het verband wordt bemiddeld door andere dingen, zoals persoonlijkheid, geslacht, familiegeschiedenis, sociale steun, financiële problemen, etc. Het identificeren van zulke variabelen kan goed worden gedaan door het stellen van open vragen. Voorbeelden zijn: ‘wat is het meest stressvolle aspect van je werk’ en ‘welke verschillende voorbeelden kan je opnoemen die het stressniveau op je werk verhogen?’Participanten zullen voor een onderzoek wat geheel of voor een groot gedeelte bestaat uit open vragen meer tijd nodig hebben voor het invullen van deze vragen. Als onderzoeker ben je vervolgens ook meer tijd kwijt aan het categoriseren, interpreteren en analyseren van de antwoorden.
De antwoorden op openvragen worden ook wel kwalitatieve data genoemd. Dit boek houdt zich meer bezig met hoe je kwantitatieve data analyseert, dus wordt er hier verder niet op kwalitatieve data ingegaan.
3.2 Gesloten vragen
Bij gesloten vragen hoeft de respondent slechts één enkel antwoord te geven.
De respondent krijgt in dit geval een vraag en kan dan kiezen uit een beperkt aantal antwoorden. Het grootste nadeel van gesloten vragen is dat deze niet zo diepgaand zijn als open vragen. Aan de andere kant is een groot voordeel dat het analyseren van gesloten vragen weer veel minder tijd kost en vrij eenvoudig is, in tegenstelling tot open vragen.
Reacties/gegeven antwoorden op gesloten vragen kunnen statistisch geanalyseerd worden en zo legitiem bewijs leveren, bijvoorbeeld over bepaalde besluitvormingen (zoals de verschillende reacties van een x aantal individuen bij een volksreferendum over of een weg die dwars door de stad loopt, breder mag worden gemaakt).
Op de volgende bladzijden worden twee voorbeelden besproken waar eenvoudige analyses over data (verzameld d.m.v. gesloten vragen) worden gemaakt. Deze laten zien hoe je dit soort data gebruikt. Ze gaan allebei over wat voor een soort televisieprogramma’s men graag kijkt. Zie p. 51 t/m 55 voor de voorbeelden over hoe je dit soort data moet analyseren en welke statistische methodologie je hiervoor gebruikt.
Uit deze voorbeelden blijkt uiteindelijk dat wanneer de antwoorden op vragen in frequenties gecategoriseerd worden, je als onderzoeker verschillende onderzoeksvragen kan stellen over dezelfde data. In de voorbeelden zijn eenvoudige ‘one & two way frequencies’ nader bestudeerd en uitgelegd, maar het is ook mogelijk om nog gecompliceerdere onderzoeksmodellen te gebruiken met wel 3 of 4 variabelen. Bij deze modellen maak je dan gebruik van ‘multiway frequency analyses’. In dit boek wordt hier verder niet op in gegaan.
Dichotome vraag
Een dichotome vraag is een bepaalde vorm van een gesloten vraag en heeft maar twee antwoordmogelijkheden. Dichotome vragen worden vaak gebruikt als een vraag met ja of nee, goed of fout, waar of onwaar, etc. beantwoord kan worden. Een dichotome vraag wordt vaak met een 0 of 1 gescoord.
Als onderzoeker moet je altijd goed nadenken of het wel een slim plan is om een dichotome vragenlijst af te nemen, aangezien de respondent door middel van gokken een grote kans (50/50) heeft om het goede antwoord te kiezen. Dit hoge gok-gehalte kan de validiteit van je onderzoek aantasten. Andersom geredeneerd moet je ook nagaan of een bepaald item wel met een simpele ja of nee beantwoord kan worden. Bijvoorbeeld als je aan een respondent vraagt of hij of zij wel of niet blij is vandaag en de respondent enkel kan antwoorden met ‘ja’ of ‘nee’, is dit wel erg bekrompen/kortzichtig.
Als een dichotome vraag te bekrompen is voor een bepaald item, wordt dit een valse dichotomie genoemd. De vraag uit het voorbeeld (of je blij bent vandaag, ja of nee) moet dan hergeformuleerd worden naar: “op een schaal van 1 tot 10, waarbij 1 helemaal niet blij en 10 heel erg blij is, hoe blij voel jij je vandaag?.
Ook al is het stellen van dichotome vragen voor de onderzoeker een efficiënte manier van onderzoek doen is – aangezien het gemakkelijk te verwerken, scoren en analyseren is – zijn dichotome vragen vaak voor de respondent minder prettig. De respondent vindt het over het algemeen prettiger om geleidelijke verschuivingen in hun gedragingen aan te kunnen geven, en niet om gedwongen te worden tot het kiezen tussen ‘ja’ of ‘nee’. Dus hoe meer keuzes in antwoorden per item, hoe prettiger dit is voor de respondent.
Bij een ‘Adjective Checklist’ (ACL) is het ook normaal om dichotome antwoordmogelijkheden te geven. Bij een ACL wordt de respondent gevraagd om antwoord te geven op vragen in hoeverre een bepaald adjectief (bijvoeglijk naamwoord) een bepaalde stimulus omschrijft. Bijvoorbeeld, als er wordt gevraagd welke van de vijf karakteristieken die beschreven worden (stil, oprecht, blij, egoïstisch of ambitieus) het best past bij jouw persoonlijkheid.
Multiple choice testen
Ook hier hebben we weer te maken met een vorm van gesloten vragen. De respondent kan namelijk kiezen uit een beperkt aantal antwoordmogelijkheden, welke met ‘correct’ of ‘incorrect’ worden gescoord. De incorrecte antwoordmogelijkheden worden distractors of afleiders genoemd. Er moet goed over distractors bij een meerkeuzevraag worden nagedacht. Soms is het zo voor de hand liggend dat een antwoordmogelijkheid niet klopt, dat deze nooit wordt gekozen en is deze distractor compleet overbodig.
Er zijn een aantal richtlijnen waaraan de antwoordmogelijkheden aan moeten voldoen :
Ze moeten geloofwaardig zijn.
Alle antwoordmogelijkheden moeten qua lengte en grammatische structuur gelijk zijn.
Houd de antwoordmogelijkheden kort en bondig en probeer zoveel mogelijk informatie te stoppen in het item/de stam (de vraag) zelf.
Maak geen twee distractoren die allebei hetzelfde betekenen; oplettende respondenten zullen dit opmerken.
Zet nooit de distractoren telkens op dezelfde plek, bijvoorbeeld altijd bij antwoord optie B. Ook dit zal snel door de respondenten opgemerkt worden.
Gebruik antwoordmogelijkheden als ‘al het bovengenoemde’ of ‘geen van de bovenstaande antwoorden’ zo min mogelijk.
Zorg ervoor dat alle antwoordmogelijkheden overeenkomen met de stam (de vraag).
Een distractor analyseren kan op meerdere manieren. Allereerst kan je kijken als een x aantal individuen de meerkeuzevraag beantwoorden, hoeveel van hen voor de distractor kiezen. Als dit minder dan 5% is, dan is het aan te raden om te kijken of de distractor wel geloofwaardig genoeg is en of deze eventueel vervangen moet worden. Daarnaast kan je aan de hand van de distractor ook analyseren welke groep het vaakst het incorrecte antwoord kiest. Bijvoorbeeld, als je wilt weten of mannen of vrouwen vaker kiezen voor het incorrecte antwoord. Deze meting kan worden verkregen door het doen van chi-square analyses.
Door de distractor-selectie van je groep respondenten nauwkeurig te analyseren, kan dit de onderzoeker aanwijzingen geven of een item/vraag niet helder genoeg is. Bijvoorbeeld: als alleen vrouwen een bepaalde vraag fout beantwoorden, of als de mensen die het over het algemeen goed hebben gedaan, maar toch allemaal wel dezelfde vraag fout maken, kan dit erop wijzen dat het item/de vraag onduidelijk is.
Gokken
Een groot nadeel van meerkeuzevragen is dat de respondenten kunnen gokken, waarbij de kans dat ze het goed raden ook nog behoorlijk hoog is. Bij waar/onwaar vragen is de kans dat ze het antwoord goed gokken zelfs 50%. Bij een meerkeuzevraag met vier antwoordopties is de kans 25%. Sommige tests gebruiken een formule om deze gokkans mee te nemen in de overall testscore. De volgende formule wordt hiervoor gebruikt:
Gecorrigeerde score voor gokken = C – [ I / (n-1) ]
C = het aantal correcte antwoorden, I = aantal incorrecte antwoorden en n = het aantal alternatieve antwoorden per item.
Rekenvoorbeeld: een test heeft 100 meerkeuzevragen met elk 5 (n) antwoordopties. Een respondent vult van de 100 vragen 90 in, waarvan er 70 (C) correct worden gemaakt (dus 20 (I) vragen worden incorrect beantwoord).
De berekening ziet er dan als volgt uit:
gecorrigeerde score = 70-(20/5), = 70-5,= 65
Snelheids- & Powertests
Bij een powertest wordt ervan uitgegaan dat in ieder geval 90% van alle respondenten ongeveer even lang doet over het invullen van een test. Tijd zou dus geen bepalende factor binnen de testscore moeten zijn. Powertests bestaan meestal uit vragen van verschillende moeilijkheidsgradaties. Er is dus een arbitrair tijdskader vastgesteld (zoals de duur van een hoorcollege), maar dit is meer om administratieve redenen. Bij het maken van een powertest moet deze de test zo worden vormgeven dat deze niet te kort en niet te lang is, en dat de meeste mensen de test op tijd zullen voltooien.
Bij een Snelheidstest gaat het erom hoeveel goede antwoorden een respondent in een vooraf vastgestelde tijd kan geven. Snelheidstest zijn alleen maar geschikt wanneer snelheid belangrijk is voor het onderliggende construct (bijvoorbeeld bij een typetest).
Vaststellen hoe lang de respondenten mogen doen over een snelheidstest kan empirisch worden bepaald door respondenten te vragen om zoveel mogelijk goede antwoorden te geven in 1 minuut, dan 2 minuten, vervolgens 3 minuten, etc. De standaardafwijking kan vervolgens worden geplot tegen het tijdsinterval, waardoor de tijdslimiet gekozen wordt waarbij de scores de meeste variatie/afwijkingen tonen.
Neem bij het maken van een snelheidstest de gemiddelde leeftijd van de respondenten mee in het besluit wat de tijdslimiet moet worden. Onderzoek heeft namelijk aangetoond dat naarmate de respondent ouder is, de reactiesnelheid afneemt.
Overgeslagen & Parcial Credit
Overgeslagen (omitted) items zijn items die door de respondenten zijn overgeslagen. Het is dan in sommige gevallen wenselijk om een gecorrigeerde score te berekenen. Dit kan worden gedaan met de volgende formule:
Omitted corrected score = 1/A x O + totaal
A = het aantal verschillende antwoorden waaruit gekozen kan worden.
O = het aantal overgeslagen vragen.
Totaal = het totaal aantal correct beantwoorde vragen.
Soms moet er ook een gedeeltelijke credit (parcial credit) worden toegekend. Dit moet worden gedaan als een vraag uit twee delen bestaat. Sommige respondenten kunnen in dit geval het eerste gedeelte goed en het andere gedeelte fout beantwoorden. Er moeten dan punten worden toegekend voor het deel wat wel goed is beantwoord. Als je met gedeeltelijke credit gaat werken, is het belangrijk om vooraf vast te stellen welk gedeelte van de vraag het moeilijkst en makkelijkst is zodat het totaal aantal credits/punten van een vraag wel eerlijk over de subvragen wordt verdeeld.
3.3 Continue responsen
Tot nu toe is er enkel gesproken over vragen waarop enkel antwoord kan worden gegeven door te kiezen uit een vastgesteld aantal antwoorden, (vaak twee of vier) zoals meerkeuze vragen. Er zijn echter ook schalen waarbij een respondent uit meer dan twee of vier antwoorden kan kiezen. De populairste is de gesommeerde ratingschaal (summated-rating scale), gebaseerd op het werk van Likert.
Gesommeerde ratingschaal
De Likert-schaal is een methode die het mogelijk maakt om moeilijk te kwantificeren gegevens toch op een ordinaal meetniveau te behandelen. Dit maakt het meten van attidunale items mogelijk. Op vele vlakken heeft Likert de manier waarop attitudes worden gemeten, gerevolutioneerd.
Bij een Likert-schaal moeten respondenten aangeven in welke mate zij instemmen met een bepaalde uitspraak. Aan beide kanten van de schaal staan de extremen: ‘volledig mee eens’ of ‘volledig mee oneens’. Het midden is neutraal (‘niet mee eens en niet mee oneens’) en rechts en links hiervan de wat gematigdere varianten (’mee eens’ en ‘mee oneens’). Een Likertschaal wordt ook wel een vijf-puntsschaal genoemd, omdat er 5 keuzemogelijkheden op een schaal zijn weergegeven waarop de respondent zelf kan aangeven waar hij of zij zich het meest in herkent.
Dit bracht twee belangrijke dingen teweeg, ten eerste dat het niet meer nodig was om te weten ‘hoeveel’ stimuli er ik elk item aanwezig waren in elk, en ten tweede dat met de Likert-schaal het accent verschoof van het meten van items naar het meten van participanten/respondenten. Likert heeft deze responsaanpak ontwikkeld om individuele verschillen in attitudes te kunnen meten.
Variaties op, en problemen met de Likertschaal
Variaties op de Likertschaal worden Likert-soortige schaal of gesommeerde ratingschaal genoemd. Sommige varianten gebruiken ook 5 punten, maar gebruiken andere verwoordingen voor de extremen. Binnen de literatuur is er veel gediscussieerd over de schaallengte. Sommige beweren dat een schaal met 7 punten het best is en anderen zijn weer voor 20 punten. Bij het vaststellen van het aantal punten is het vooral belangrijk om je af te vragen waarvoor de verzamelde data gebruikt gaat worden. In de meeste gevallen ligt het aantal schaalpunten tussen de 3 en 9 stuks.
Een ander punt wat extra aandacht verdiend is het neutrale middelpunt op de Likert-schaal. Ook hierover is veel gediscussieerd. Sommige onderzoekers kiezen voor een schaal met een neutraal middelpunt, anderen laten deze weg. Statistisch gezien bestaat er geen argument dat stelt dat de ene schaal met neutraal middelpunt beter is dan de andere schaal zonder.
Wat wel zo is als je de keuze van een neutraal middelpunt weghaalt, is dat de respondent wordt gedwongen anders te reageren op een schaal. De respondent wordt, zonder de keuze om neutraal te blijven, gepusht om het eens of oneens te zijn met een bewering. Het kan natuurlijk zo zijn dat respondenten bij bepaalde beweringen/stellingen ambivalente gevoelens hebben en het er echt niet eens of mee oneens zijn. Dit kan leiden tot frustraties bij respondenten. Kline stelt dan ook dat het kiezen voor het wel of niet hanteren van een neutraal middelpunt vooral een rationele keuze van de onderzoeker moet zijn. In sommige gevallen kan je voorafgaand aan het afnemen van een vragenlijst al aanvoelen of er zaken zijn waar mensen over kunnen gaan twijfelen of ze het wel of niet met een stelling/bewering eens zijn. In dit soort gevallen is het zeer raadzaam om een neutraal middelpunt toe te voegen.
Een ander belangrijke beslissing bij schaalontwikkeling is of je de opties ‘weet ik niet’ of ‘ik beschik niet over genoeg kennis om hierover een keuze te maken’ een plek geeft op de schaal. Sommige theoretici stellen dat je op deze manier de respondenten een gemakkelijke uitweg biedt. Anderen stellen weer dat als de respondent iets echt niet weet/begrijpt, zij altijd de kans moeten krijgen om dit te uitten. Een vrij voor de hand liggende manier om dit probleem uit de weg te gaan, is door geen items te maken waarvan je denkt dat sommige respondenten deze niet zullen begrijpen. In sommige gevallen moet je wel een vraag stellen waarvan je van tevoren al kan bedenken dat niet iedereen hier een antwoord op weet, dan is een ‘ik weet het niet’ punt op de schaal van zeer groot belang.
Een andere kwestie gaat over of je items die een negatieve valentie hebben moet gebruiken. Dit zijn de items die je, voordat je de scores gaat optellen, qua score eerst moet omkeren. Bijvoorbeeld, je stelt eerst 3 vragen die een positieve valentie hebben, zoals ‘de doelstellingen die mijn werk stelt, zijn ook mijn doelstellingen’, ‘mijn collega’s ondersteunen mij’ en ‘mijn werk is erg leuk om te doen’ en vervolgens stel je een vraag tussendoor met een negatieve valentie zoals ‘Ik toon geen inzet in het werk dat ik doe’. Als je alle 4 deze items moet beantwoorden aan de hand van een Likert-schaal, met antwoorden die variëren van ‘geheel mee oneens’ tot ‘geheel mee eens’, betekenen hoge scores op de eerste drie een hogere werktevredenheid. Een hoge score bij de vierde stelling betekent minder werktevredenheid. Als iemand overal hoog scoort, betekent dit dat de respondent niet echt oplet bij het invullen van de schalen, of niet serieus meedoet aan het onderzoek.
Een dergelijk ‘negatieve’ vraag is voor de onderzoeker zeer handig om te achterhalen of de respondent wel zijn best doet. Voor de respondent zelf is het een steuntje in de rug die ervoor zorgt dat je scherp blijft bij het beantwoorden van de items, en niet op de automatische piloot telkens de hoogste score kiest omdat dit altijd de best passende keuze is.
Ook al zijn dit logische redenen, er zitten volgens Kline ook nog wat nadelige kanten aan het gebruik van items met een negatieve valentie. Ten eerste vinden veel respondenten dit soort vragen verwarrend. Gebruik geen items met negatieve valentie als de respondenten een vragenlijst onder tijdsdruk moeten invullen, als ze niet gewend zijn aan het deelnemen aan onderzoeken, of als ze snel in de war raken.
Als je besluit om negatieve items te gebruiken, maak dan ongeveer net zoveel positieve als positieve items. Dus als je 20 items biedt,geef dan 10 negatieve en 10 positieve items en niet 19 positieve en 1 negatieve. Zorg er ook voor dat de negatieve items goed verdeeld zijn over de vragenlijst (dus niet 10 negatieve items in het begin en 10 positieve op het einde).
Andere soorten continue schalen
Visuele analoge schalen: dit zijn schalen waarbij de respondent gevraagd wordt om op een lijn aan te geven in hoeverre hij of zij iets voelt, zoals stress. Aan deze methoden kleven geen grote statistische problemen, het is alleen wel vrij tijdrovend werk om alle ingevulde schalen te scoren/categoriseren.
Picturale schalen: Bij dit soort schalen moet de respondent na de vraag aangeven bij welke gezichtsuitdrukking hij of zij zich het best in herkent. Een dergelijke schaal is vooral handig als je met kinderen werkt, of als de respondenten niet taalvaardig genoeg zijn, of de taal waarin de vragenlijst is geschreven niet goed spreken.
Adjectieve schalen: Bij dit soort schalen bestaan de uiteindes van de schaal uit tegenpolen (dus stil en luid, blij en verdrietig, etc.). Dit worden polaire adjectieve ratingschalen genoemd. De respondent wordt gevraagd om aan te geven bij welke kant zijn stemming of karakter op dat moment het best past. Bij het toepassen of creëren van deze schalen, is het van essentieel belang dat de beslissingen die gemaakt worden om de tegengestelde paren te creëren verdedigbaar zijn. Een andere belangrijke bijdrage aan het continue schalingsproces is gelegen in het ontwerp van categorietrefwoorden.
Dit worden vaak ankers (anchors) genoemd.
Intensiteit versus Frequentie Likert-soortige schalen
Een algemene kwestie die opdoemt bij het creëren van Likert of Likert-soortige schalen is of informatie met betrekking tot intensiteit (zoals mate van overeenstemming of tevredenheid) of frequentie (zoals ‘hoe vaak heb je hoofdpijn?’) moet worden verkregen van de respondent. Het is van essentieel belang dat de categorietrefwoorden voor dergelijke schalen nauwkeurig worden geconstrueerd.
3.4 Ipsatieve vs. Normatieve schalen
Normatieve schalen: Bij normatieve schalen is er voor elk construct een aparte meetschaal. Kort samengevat gaat het ontwikkelingsproces en gebruik van een normatieve schaal als volgt: Er wordt een schaal ontwikkeld;
Vervolgens worden er vragen ontwikkeld bij die schaal; Deze vragenlijst laat je door een X aantal respondenten invullen;
Vervolgens worden de scores berekend; Als laatste worden deze scores geanalyseerd en/of worden de scores met andere variabelen in verband gebracht (dit laatste wordt ook wel nomothetische assessment genoemd). Met normatieve schalen is het mogelijk om verschillende individuen met elkaar te vergelijken.
Ipsatieve schalen: Bij een ipsatieve schaal is er voor elke individuele respondent een eigen schaal. Een respondent wordt bijvoorbeeld gevraagd om aan te geven welke smaak ijs hij het lekkerst en het viest vindt. Dit moet de respondent aangeven door vier smaken op rangvolgorde van 1 tot 4 te zetten, waarbij 1 het lekkerst en 4 het smerigst is.
Elke respondent verdeelt de ijssmaken weer op zijn eigen manier dus voor elke respondent zal de som over de verschillende itemscores gelijk zijn. Deze scores zullen helpen bij het maken van vergelijkingen over verschillende constructen bij iedere individuele respondent.
Het maakt niet uit of je nou een normatieve of ipsatieve schaal gebruikt; de één is niet beter of slechter, ze zijn gewoon allebei heel anders en hebben een ander doel. Het gaat er uiteindelijk om dat je de schaal kiest die het best bij het onderzoek past. Ook hier moet je jezelf weer de vraag stellen waarvoor je de bij elkaar verzamelde data gaat gebruiken.
3.5 Verschil- & veranderscores
De verschilscore geeft de mate van het verschil tussen twee vragen weer. Bijvoorbeeld, als je iemand twee vragen stelt, waarbij de respondent bij beide een antwoord moet geven aan de hand van een 7-punts Likertschaal, en bij de ene vraag 3 en de ander 6 zegt, is de verschilscore 6-3= 3.
Er zijn enkele problemen met verschilscores en de drie meest voorkomende worden door Kline besproken:
De betrouwbaarheid van een verschilscore is lager dan de twee losse scores waaruit de verschilscore is opgebouwd.
Een ander probleem is dat wanneer het verschil (Z) tussen twee variabelen (X en Y) wordt teruggebracht naar de twee variabelen X en Y, Z geen aanvullende informatie toevoegt die al door X en Y afzonderlijk wordt voorzien.
Het derde kritiekpunt is meer een conceptueel dan een statistisch probleem. Wat meet de verschilscore nou precies? Er zijn verschillende methode om de verschilscore te meten en het kan soms van groot belang zijn om een doordachte keuze te maken voor welke methode je kiest.
De veranderingsscore is de grootte van het verschil tussen twee testmomenten bij hetzelfde individu. Bij sommige onderzoeken worden dezelfde respondenten meerdere malen op verschillende tijdstippen gemeten; het verschil tussen deze scores is de veranderscore.
Ook hier is de betrouwbaarheid van de score een probleem.
Hoe werkt dataverzameling betreffende psychologische testen? - Chapter 4
Als er een reeks items is gemaakt en deze gebruiksklaar zijn, is de volgende stap om data te verzamelen door respondenten/participanten de test te laten invullen. Omdat het vaak niet te doen is om de hele bevolking of populatie die jij hebt gekozen jouw test te laten doen, moet er een steekproef uit de populatie genomen worden. Deze steekproef dient representatief te zijn voor de rest van de populatie waaruit je de steekproef hebt genomen. Als dit zo is, dan is er weinig kans op systematische bias binnen je data en kan je na het zorgvuldig analyseren van je verworven data generalisaties maken die gaan over de hele populatie waaruit de steekproef is getrokken.
Over het algemeen bestaan er twee soorten steekproeven: aselecte (probability) en selecte steekproeven (nonprobability). Bij een aselecte steekproef heeft elk element (persoon) binnen de geselecteerde populatie een even grote of gelijke kans om getrokken te worden. Bij een selecte steekproef worden de elementen niet willekeurig uit de populatie gehaald.
4.1 Aselecte steekproef
Een eenvoudige willekeurige steekproef is een vorm van een aselecte steekproef. Vereisten voor een dergelijke steekproef zijn: dat je als onderzoeker over een lijst beschikt met hierop alle elementen (personen) uit je gekozen populatie, elk afzonderlijk element een gelijke kans biedt om in de steekproef te komen.een selectieproces waar het selecteren van het ene element geen effect heeft op de kans van selectie van het andere element.
Er zijn nog drie anderen soorten aselecte steekproeftechnieken: (1) Gelaagde of ‘gestratificeerde’ steekproef, (2) Systematische steekproef en (3) clustersteekproef.
Bij een gelaagde steekproef is de populatie onderverdeeld in verschillende subpopulaties (strata) die niet met elkaar overlappen. Voorbeelden van subpopulaties zijn o.a. leeftijdsgroepen of geografische locaties. Vervolgens wordt er uit elke subpopulatie een aselecte steekproef genomen die weer representatief is voor de bijbehorende subpopulatie. Als er willekeurige steekproeven van dezelfde omvang uit de subpopulaties getrokken wordt (ongeacht hun omvang in de gehele populatie), noemen we dit een disproportionele gelaagde random steekproef. Als er steekproeven van verschillende omvang uit de subpopulaties worden getrokken heet dit een proportionele gelaagde random steekproef. De disproportionele gelaagde random steekproef wordt het meest gebruikt.
Bij een systematische steekproef worden alle elementen systematisch gekozen om deel te nemen aan het onderzoek. Bijvoorbeeld iedere 10e voorbijganger op straat wordt ondervraagd, of elk 5e of 10e element/persoon op je populatielijst wordt gekozen. De lijst waaruit je telkens systematisch een respondent voor je steekproef kiest moet natuurlijk wel op een non-biased manier zijn opgemaakt. Dus een lijst met alle studenten, gerangschikt op achternaam, of cijfergemiddelde of inkomen mag dus niet gebruikt worden bij een systematische steekproef.
Als laatste is er de clustersteekproef. Hierbij verdeel je de populatie in heterogene subgroepen waaruit weer een steekproef wordt getrokken. Een voorbeeld: Als we bepaalde aspecten van lokalen op een basisschool willen bestuderen zullen we eerst een random steekproef moeten trekken uit de 12 provincies. Vervolgens moet er uit de gekozen zes provincies weer een steekproef getrokken worden om uit te zoeken welke basisscholen uit welke steden we willen benaderen. Er moet nog een keer een steekproef gedaan worden om te bepalen welke basisscholen uit deze provincie aan het onderzoek mee mogen doen. Vervolgens wordt er onder deze scholen nog een keer een steekproef gedaan om te bepalen welke exacte lokalen er mee mogen doen. Het is dus een steekproef binnen een steekproef, binnen een steekproef etc., etc. Omdat elk niveau willekeurig is geselecteerd door de steekproef, is de uiteindelijke steekproef ook willekeurig.
4.2 Selecte steekproef
Bij een selecte steekproef selecteer je op onwillekeurige manier je respondenten die uiteindelijk bij elkaar de getrokken steekproef van de populatie vormen. Er zijn vier soorten selecte steekproeven: (1) Quotasteekproef, (2) Gemakssteekproef, (3) Sneeuwbalsteekproef, en (4) een theoretische of ‘purposive’ steekproef.
Bij een quotasteekproef wordt het aantal elementen van de steekproef vooraf bepaald. Wie er vervolgens met de steekproef uit de totale populatie getrokken wordt maakt niet uit, zolang het quota (aantal vastgestelde aantal elementen) maar gehaald wordt.
Bij de sneeuwbalsteekproef begin je met bijvoorbeeld 10 respondenten die jou als onderzoeker voorzien van informatie (telefoonnummer, email) over andere potentiële respondenten.
De naam gemakssteekproef zegt al een hoop, het gaat hierom een steekproef uit een populatie waarvan de elementen/personen gemakkelijk en goed bereikbaar zijn.
De theoretische of ‘purposive’ steekproef lijkt een beetje op de sneeuwbalsteekproef, vooral de manier waarop de respondenten worden geworven. Verder is de steekproef toch wel heel anders en veel selectiever dan de sneeuwbalmethode. Lees voor een voorbeeld van een dergelijke steekproef.
Het nadeel bij al deze steekproeven is dat de resultaten nooit echt goed generaliseerbaar zijn. Selecte steekproeven zijn wel in staat om causale verbanden te trekken tussen twee variabelen (een computer programma waarmee de statistische analyses gedaan worden weet immers niet met wat voor soort steekproef de proefpersonen/respondenten zijn verzameld). Of de resultaten uit een selecte steekproef wel of niet generaliseerbaar zijn, ligt geheel in de handen van de onderzoeker zelf. Die moet de lezer van zijn of haar onderzoek weten te overtuigen van de generalisaties die de onderzoeker maakt. De lezer moet inzien dat de omstandigheden waarin het onderzoek is verricht representatief genoeg zijn om te kunnen generaliseren.
4.3 Omvang van de steekproef
De omvang van de steekproef, dus het aantal respondenten die hebben geparticipeerd, heeft een enorm effect op de statistische significantie van jouw resultaten, en dus ook op het hele verdere onderzoek. De steekproefgrootte en de mate waarin de steekproef representatief is voor de populatie, zijn dus twee verschillende (beide even belangrijke) zaken die in dit gedeelte van het hoofdstuk los van elkaar worden behandeld. De steekproeftechniek bepaalt in hoeverre de steekproef representatief is voor de populatie die het zou moeten representeren. Een grotere steekproef hoeft dus niet altijd te betekenen dat deze ook representatiever is dan een kleinere steekproef.
Een van de meest gestelde vragen gaat over hoe groot een steekproef ongeveer moet zijn. De antwoorden die in dit hoofdstuk op deze vraag worden gegeven impliceren dat er zoiets bestaat als een waarschijnlijkheidssteekproef, dus wees voorzichtig in het interpreteren van de informatie die Kline hier geeft.
Eerst moet je begrijpen wat de termen alfa-waarde, effectgrootte en powerniveau betekenen.
Alfa-waarde is de bereidheid om een bepaalde hoeveelheid error te accepteren. De gebruikelijke alfa-waarde is 0.05 of 0.01.
Effectgrootte is de mate waarin een bepaald fenomeen in de populatie aanwezig is of de mate waarin de nulhypothese onjuist is.
Powerniveau is gelijk aan de kans op het verwerpen van de nulhypothese. Met andere woorden, de power van een prodedure is de mate waarin verwacht kan worden dat de nulhypothese ondersteund kan worden.
Deze drie begrippen zijn, samen met de steekproefgrootte, tot op een zekere hoogte afhankelijk van elkaar. Als de alfa, power, en effectgrootte bekend zijn, kan er in de meeste gevallen een tabel gebruikt worden om te bepalen hoe groot de steekproef moet zijn.
4.4 Responsepercentage
Als een vragenlijst/enquête op internet is geplaatst, is het bijna niet te achterhalen wat het responspercentage was. Je weet namelijk niet hoeveel mensen jouw vragenlijst zijn tegengekomen, wellicht geopend hebben maar niet hebben afgemaakt. Het responspercentage bij een internetvragenlijst is dus niet te achterhalen. Wanneer de respondenten populatie wel bekend is, kan je door middel van formules berekenen wat de responsbias is:
Bias = (Z/N) x (ȳ–Z̄)
- N = populatie = Y (respondenten) + Z (non-respondenten)
- ȳ = berekende gemiddelde van de groep respondenten
- Z̄ = berekende gemiddelde van de groep non-respondenten
De bias is alleen nul als er (a) geen respondenten zijn (dus Z = 0), of (b) het gemiddelde van de populatie respondenten gelijk is aan het gemiddelde van de populatie non-respondenten (ȳ– Z̄= 0).
4.5 Ontbrekende data
Bij elk onderzoek ontbreekt er altijd wel wat data. In sommige gevallen reageren sommige respondenten niet, of blijken de gegevens onbruikbaar. Incomplete data komt door:
onderdekking (undercoverage): dit is de data die ontbreekt doordat sommige potentiële respondenten door de steekproef waren uitgesloten van het onderzoek, terwijl dit had eigenlijk niet zo had mogen zijn.
non-respons ontbrekende data: dit betekent dat er respondenten zijn die:Helemaal niet gereageerd hebben.De vragenlijst/onderzoek niet hebben afgemaakt. Niet de nodige informatie hebben doorgegeven.De vragenlijsten wel hebben ingevuld, maar het ingevulde blijkt om wat voor een reden dan ook onbruikbaar.
item non-responsen: in dit geval worden sommige items niet ingevuld, waardoor delen van sommige verder wel ingevulde vragenlijsten in de analyse niet kunnen worden meegenomen.
4.6 Voorbereiden op data-analyse
Kline geeft stap voor stap weer hoe je jezelf het best kunt voorbereiden op de data analyse. De eerste stap is om er zeker van te zijn dat de variabelen goed gecodeerd en ingevoerd zijn. De tweede stap is om de univariate verdelingen van de variabelen te bekijken. Het is hiernaast ook handig om nu al de spreidingsgrafieken van de correlaties te bestuderen om te kijken of de geanticipeerde relatie tussen de variabelen lineair, kromlijnig of U-vormig is. Het is ook belangrijk om de variabelen na te kijken op multicollineariteit. Variabelen zijn multicollineair wanneer zij een hoge correlatie vertonen.
Als je eenmaal alle voorbereidende stappen hebt doorlopen, is het eindelijk tijd om de data te gaan analyseren. Het is helemaal niet gek om aan de hand van de stappen die Kline in dit stuk geeft een paar dagen ruim de tijd te nemen om je data zorgvuldig te screenen. Hoe meer je bij deze stap doet, des te soepeler gaat het analyseren van de data.
Wat houdt de klassieke testtheorie in? - Chapter 5
De Klassieke testtheorie (KTT) vormt al meer dan 80 jaar het fundament voor meettheorie. Dit hoofdstuk zal de basisprincipes van de KTT en ook de verschillende soorten analyses binnen KTT (die gebruikt worden om items te beoordelen) behandelen.
De KTT is eigenlijk een beetje een verkeerde benaming. Het is namelijk eigenlijk niet één theorie, maar een verzamelnaam van een aantal theorieën die allemaal gebaseerd zijn op hetzelfde fundament, namelijk aspecten van een totale testscore die is opgemaakt uit meerdere items.
De meeste KTT’s nemen aan dat de ruwe score (X) die bij individu A is gemeten, bestaat uit een ware component (T) en een random error (E) component.
Dus: X = T + E
De ware score zou pas kunnen worden gemeten als we de gemiddelde score van een proefpersoon zouden kunnen uitrekenen wanneer hij/zij een oneindig aantal keren dezelfde test zou kunnen maken. Het is wel duidelijk dat het verkrijgen van een oneindig aantal testscores van één respondent, laat staan meerdere respondenten, onmogelijk is. De T is een centraal aspect binnen KTT, ook blijft deze altijd hypothetisch.
De domein sampling theorie gaat ervan uit dat de items die voor een test geselecteerd zijn, slechts een steekproef is, afkomstig uit een oneindige poel van potentiële items. Domein sampling is een van de meest voorkomende KTT’s die voor praktische doeleinden wordt gebruikt.
Welke theorie er ook wordt gebruikt, iedere klassieke aanpak van testtheorie biedt bepaalde assumpties en regels. De grootste zorg binnen KTT is op een effectieve manier om te gaan met de random error (E) van de ruwe score. Hoe minder random error er in de meting zit, des te meer de ruwe score de ware score reflecteert.
5.1 Theorie van ware en error scores: beschrijving en assumpties
De theorie van ware en error scores heeft verschillende assumpties: (1) de ruwe score (X) bestaat uit een ware score (T) en random error (E); (2) de random errors rondom de ware score zijn normaal verdeeld; (3) de random errors zijn niet gecorreleerd met de ware score.
De standaarddeviatie van de verdeling van random errors rondom de ware score wordt ook wel de standaardmeetfout genoemd. Hoe lager deze is, hoe dichter de random errors zich om de ware score bevinden.
Het is zo dat niet elk individu dezelfde T heeft en ook niet dezelfde E.
Dus: VAR(X)= VAR(T) + VAR(E)
VAR = variantie.
Deze variantie laat zien dat de geobserveerde scores (VAR)X – die het gevolg is van de ware score variantie (VAR)T) – de betrouwbaarheidsindex van de test opleveren.
VAR(T)/VAR (X) = R.
Als de variantie van T relatief gezien hoog is ten opzichte van de variantie van de geobserveerde score, is de betrouwbaarheid (R) van de test hoog:
Een betrouwbaarheidscijfer varieert van 0.00 tot 1.00.
Als je de termen/bepalingen van de voorgaande vergelijkingen herschikt krijg je:
R = 1 [ VAR(E)/VAR(X)]
De betrouwbaarheid is dus gelijk aan 1 – de ratio van de random error variantie tot totale score variantie.
Omdat R en VAR(X) kunnen worden berekend kan ook VAR(T) opgelost worden met de volgende vergelijking:
VAR(T) = VAR(X) x R
Een KTT is er voornamelijk op uit om het random error component van de ruwe score inzichtelijk te maken. Sommige error is niet random, maar systematisch.
5.2 Regels en tekortkomingen van KTT-assumpties
Embretson & Reise (2000) hebben enkele regels rondom KTT opgesteld.
De standaardmeetfout van een test is consistent binnen een gehele populatie.Naarmate de test langer wordt, neemt ook de betrouwbaarheid toe.
Meerdere vormen van een bepaalde test dienen gelijk aan elkaar te zijn, maar dit kan alleen als door de onderzoeker goed beargumenteerd wordt dat deze twee vormen ook gelijkwaardig aan elkaar zijn.
Er wordt aangenomen dat de ware scores binnen een populatie (a) gemeten worden op interval-niveau, en (b) normaal verdeeld zijn.
De wortels van de kwesties rondom problemen met verschil- en veranderscores zijn gelegen in KTT. Het probleem is dat de veranderingen in scores van tijdstip 1 naar tijdstip 2 niet waarschijnlijk dezelfde magnitude hebben als de oorspronkelijke niveaus van scores op één tijdstip. Daarnaast suggereert KTT in het geval van dichotome itemresponsen dat ze niet moeten worden onderworpen aan factoranalyse. Dit veroorzaakt problemen bij het vaststellen van de validiteit van veel tests die het cognitieve vermogen meten, waar antwoorden worden gecodeerd als goed of fout. Ten slotte verdwijnen de itemstammen vaak uit het analytische proces als ze eenmaal door experts zijn gecreëerd en onderworpen aan inhoudelijke analyse.
5.3 Item-analyse bij KTT
Benaderingen, statistische analyses en interpretatie
Er zijn verschillende bronnen van informatie en analyses om er achter te komen of een item bruikbaar is, en hoe deze zich weerhoudt tot andere items:
Descriptieve statistieken: Hiertoe behoren het gemiddelde, de standaarddeviatie en de variantie. Het onderzoeken van descriptieve statistieken is een cruciale eerste stap in het creëren en valideren van tests. Over het algemeen geldt dat hoe hoger de veranderlijkheid van een item en hoe dichter het gemiddelde van een item bij het middelpunt van de verdeling ligt, hoe beter het item zijn werk zal doen.
Moeilijkheidsniveau: Het aantal personen dat een dichotoom item goed heeft, wordt aangeduid met de p-waarde. Hoewel p geschikt is als descriptieve statistiek, wordt het binnen de KTT ook het moeilijkheidsniveau van een item genoemd. Items met hoge p-waarden zijn makkelijke items en die met lage p-waarden zijn moeilijke items. Items met p-waarden van 0.50 voorzien van de meeste differentiatie tussen individuen in een groep. Het enige nadeel van een p-waarde van 0.50 ontstaat wanneer items sterk gecorreleerd zijn. In dat geval zullen dezelfde 50% respondenten alle items goed hebben. Eén item, in plaats van een hele test, zou dan voldoende zijn geweest om degenen die de test maken in twee groepen te verdelen.
Discriminatie-index: Aan de hand van p-waarden kunnen discriminatie-indexen (D) voor ieder dichotoom item worden berekend. Hoe hoger de D, hoe beter het item discrimineert. Items met p-waarden in het middengebied hebben meestal de beste D-waarden en een item met een p-waarde van 0.50 heeft de hoogst D. D wordt berekend aan de hand van de extreme groep-methode. Dit gebeurt in drie simpele stappen: (1) personen met de hoogste en laagste algehele testscores worden in hogere en lagere groepen geplaatst; (2) elk item wordt onderzocht en de p-waarden voor de twee groepen wordt berekend; (3) de p-waarden van de twee groepen worden van elkaar afgetrokken, dit levert D op.
Gebruik van p-waarden om itemcurves te plotten: Deze curves vatten samen hoe een individu op een algeheel prestatieniveau van de test op afzonderlijke items scoorde.
Item-naar-totaal correlaties: Een andere meting van items gerelateerd aan hun discriminatie-index, is de Pearson product-moment item-naar-totaal correlatiecoëfficiënt. Voor dichotome items zijn de Pearson punt-biseriële of Pearson biseriële correlatiecoëfficiënten beschikbaar. De onderliggende vraag die door iedere coëfficiënt wordt aangekaart is hetzelfde: Hoe zijn responsen op een item gerelateerd aan de totale testscore? De relaties tussen hoe individuen reageerden op ieder item worden gecorreleerd met de gecorrigeerde totale score op de test.
Item-naar-criterium correlaties: Een andere index voor item-utiliteit is om de relatie tussen het item en andere variabelen waarin je geïnteresseerd bent te onderzoeken.
Inter-item & Item-naar-criterium paradox: Er is sprake van een ongebruikelijke paradox rondom de begrippen van inter-item correlaties en correlaties tussen items en externe (criterium) variabelen tijdens de ontwikkeling en het gebruik van schalen. Dat wil zeggen, wanneer een schaal wordt gecreëerd die erg homogeen is, zullen de items hoge intercorrelaties hebben. Wanneer een schaal bewust gecreëerd wordt om heterogene constructen te vangen, zodat de items gerelateerd kunnen worden aan scores op een veelzijdig criterium, dan zullen de items lage inter-item correlaties hebben. De totale score is echter waarschijnlijk wel goed gerelateerd aan het veelzijdige criterium.
Differentiële item-weging: Dit vindt plaats wanneer items meer of minder gewicht krijgen toegewezen wanneer ze worden gecombineerd in een totale score.
Wat houdt de moderne testtheorie in? - Chapter 6
Moderne testtheorie, ofwel item responstheorie (IRT), is ontwikkeld om de tekortkomingen binnen de klassieke testtheorie aan te kaarten en hopelijk ook te verhelpen.
De ontwikkeling van IRT nam een vlucht door het werk van Lord en Novik (1968). Twintig jaar ging voorbij en IRT werd pas echt populair toen het computertijdperk aanbrak en de IRT statistische softwareprogramma’s steeds meer werden gebruikt.
In dit hoofdstuk zal worden ingegaan op de basisprincipes van IRT. Daarnaast zal er worden ingegaan op de voor- en nadelen van IRT. Verder worden er meederde IRT-modellen die de items binnen een test kunnen beoordelen op validiteit, behandeld.
De focus van KTT ligt in de meeste gevallen op de enkele score die wordt verkregen door het afnemen van een test. Het behandelt alle items alsof zij gelijk aan elkaar zijn. De focus van IRT ligt eerder op de responsen van de respondent op een reeks items, en IRT neemt niet aan dat alle items parallel/gelijk aan elkaar zijn.
KTT en IRT bieden beide hele andere, soms complementaire, manieren om de reacties/responsen op een reeks items te onderzoeken. Beide zijn nuttig bij het maken en beoordelen van zowel de test als geheel, als de items afzonderlijk.
De fundamentele assumptie bij IRT is dat er een verband bestaat tussen een respons op elk gegeven item van een test en het kenmerk dat door de test gemeten wordt. Dit kenmerk wordt ook wel de latente trek genoemd, en wordt aangeduid met het theta-symbool: Θ. Het verband is dat de waarschijnlijkheid van een positieve respons van een individu op elke item in een test een eigenschap is van het individuele Θ-niveau.
Het kenmerk dat in de IRT modellen wordt geanalyseerd is het volledige responspatroon op alle testitems door een individu. Omdat IRT zich focust op patronen van itemresponsen is IRT substantieel verschillend van KTT. De laatste focust zich op de ruwe score van de test als geheel.
6.1. IRT Modellen
Verschillende IRT modellen
One-Parameter Logistic (1PL) Model
Dit is het meest basis IRT-model Het wordt ook wel het Rasch-model genoemd. De itemparameter die wordt geschat in 1PL-modellen, is de moeilijkheidsparameter b (ook wel de locatie of drempel genoemd). De b is geschaald aan de hand van een verdeling met een gemiddelde van 0.0 en een standaarddeviatie van 1.0. Θ is ook geschaald op een normale verdeling, zodat het gemiddelde 0.00 en de standaarddeviatie 1.00 is. Items met hogere b-waarden zijn daarom moeilijker in die zin dat de respondent een hoger Θ-niveau moet hebben om het item goed te beantwoorden dan items met lagere b-waarden. Het 1PL-model veronderstelt dat alle items gelijke hellingen hebben.
Two-Parameter Logistic (2PL) Model
Dit model is iets gecompliceerder dan het 1PL-model. In dit model wordt niet van alle items verondersteld dat ze gelijke hellingen hebben. Sterker nog, de helling (a) is een belangrijk kenmerk van een item, aangezien hiermee het discriminatieniveau van het item wordt aangeduid. Items met hogere a-waarden hebben vlakkere hellingen en discrimineren beter aan de uiteinden van het Θ-niveaubereik. Het gebruikelijke bereik van a-waarden varieert van 0.5 tot 2.5. Net als bij het 1PL-model is de b-parameter in het 2PL-model het punt waarop een individu met een gemiddeld Θ-niveau (0.00) 50% kans heeft het item goed te beantwoorden.
Three-Parameter Logistic (3PL) Model
Het 3PL-model is het meest complexe model van de dichotoom responsmodellen en voegt een c-parameter toe. De c-waarde is een gokparameter. Deze parameter is nuttig wanneer items zijn geconstrueerd zodat het gokken van het juiste antwoord mogelijk is, zelfs op zeer lage Θ-niveaus. Bij meerkeuze en waar-onwaar items moet het 3PL-model worden gebruikt. Ook is het model geschikt om vast te stellen of een responsstijl, zoals sociale wenselijkheid of doen alsof, plaatsvindt. In deze gevallen wordt van personen met een laag Θ-niveau nog steeds verwacht dat ze bepaalde items goed hebben (de items die vatbaar zijn voor responsstijl-bias).
Meervoudige respons IRT-Modellen
Naast de 1PL, 2PL en 3PL-modellen van dichotome items, zijn er andere soorten IRT-modellen waar er drie of meerdere potentiële antwoorden zijn (polytome modellen). De belangrijkste zijn de modellen die (a) nominale antwoordcategorieën hebben, zoals bij meerkeuzevragen, (b) gerangschikte responsen hebben, zoals Likert-achtige schaalresponsen, en (c) toestaan dat gedeeltelijke credit wordt gegeven aan een meerdelige vraag.
Nominale responsen: In een analyse van meerkeuze antwoorden op een item waarop een correct antwoord gegeven wordt, wordt voorafgaand aan de analyse verondersteld dat alle incorrecte antwoorden gelijk zijn in hun onjuistheid. De IRT-analyse zal aantonen of deze assumptie wel of niet juist is. Nominale IRT-modellen bieden dus een meer fijnkorrelige analyse van afleidende alternatieven, in plaats van alle afleidende responsen in één enkele categorie bij elkaar te stoppen. Ook kan het nominale model worden gebruikt om groepsverschillen in antwoordpatronen vast te stellen.
Gerangschikte responsen: Deze modellen zijn van bijzonder belang bij attitude- en persoonlijkheidsmetingen. De assumptie is dat responsen op een geordend, maar categorisch niveau liggen.
Gedeeltelijke credit responsen: Deze modellen lijken erg op de gerangschikte responsmodellen, omdat wordt verondersteld dat naarmate respondenten hoger op de latente trek scoren, de kans groter wordt dat de persoon in kwestie ook juiste antwoorden zal geven op alle onderdelen van een vraag. Echter, ze lijken aan de andere kant ook weer op nominale modellen in die zin dat de waarschijnlijkheid van een bepaalde score, of antwoordalternatief, een exponent is gedeeld door de som van exponenten. Er zijn drie gedeeltelijke credit responsmodellen:
Ratingscale model
Master’s Gedeeltelijke credit model
Muraki’s Gedeeltelijke credit model
6.2 Schatten van parameters
De wiskundige berekeningen om parameters (zoals hellingen en moeilijkheid) te schatten is extreem lastig en complex, en moet door computers worden gedaan. Hier zijn diverse computerprogramma’s voor beschikbaar. Elk programma biedt verschillende opties en de gebruiker moet de voor- en nadelen van elk programma begrijpen voor hij/zij een programma kiest. In deze paragraaf worden de belangrijkste verschillen genoemd. Momenteel worden twee algemene categorieën van itemschatting toegepast en binnen deze categorieën zijn weer enkele subcategorieën. De eerste categorie maakt gebruik van maximale waarschijnlijkheid (maximum likelihood; ML) en de tweede van Bayesiaanse schatting.
Maximale waarschijnlijkheid schattingsprocedures schatten persoon- en itemparameters die het meest waarschijnlijk het antwoordpatroon in een reeks items repliceert. Verschillende procedures die binnen deze groep ontwikkeld zijn, zijn gezamenlijke maximale waarschijnlijkheid (joint maximum likelihood; JML), marginale maximale waarschijnlijkheid (marginal maximum likelihood; MML) en conditionele maximale waarschijnlijkheid (conditional maximum likelihood; CML).
Bij Bayesiaanse schattingen wordt de waarschijnlijkheidseigenschap geschat door een prior verdeling te vermenigvuldigen om de nieuwe latere verdeling te verkrijgen. Er zijn twee primaire benaderingen binnen deze categorie: Bayes modelschatting en verwachte a posteriori (estimated a posteriori; EAP) schatting.
6.3 Scoren van respondenten
Scores van iedere respondent kunnen worden gegenereerd met behulp van ML, maximale a posteriori (MAP) of EAP-benaderingen. Hoewel de voorkeur uitgaat naar ML, vraagt dit om grote steekproeven van zowel items als respondenten. Daarnaast hebben respondenten met alleen maar incorrecte of alleen maar correcte antwoordpatronen Θ-niveaus die niet kunnen worden geschat. MAP maakt gebruik van een prior verdeling, zoals een normale verdeling, om de Θ-niveaus van respondenten te schatten. Zowel ML als MAP-benaderingen zijn herhalend tot de meest waarschijnlijke schatting van Θ is gevonden. Ook EAP maakt gebruik van prior informatie, maar de Θ-niveaus op niet herhalende wijze geschat. Ze zijn dus veel sneller te berekenen. EAP en MAP leveren ongeveer dezelfde resultaten op. Net als bij de parameter schattingsprocedures moet de gebruiker de voor- en nadelen van alle procedures inzien voor hij/zij kan kiezen.
6.4 Model fit
Als de item- en persoonparameters zijn geschat kan de geschiktheid (fit) van elk parameter worden gemeten. Er zijn veel manieren ontwikkeld om de geschiktheid van items te meten. Eén manier is via de χ2 statistiek die voor elk item beschikbaar is. Indien de χ2 statistiek significant is, betekent dit dat het item niet goed bij de data past. Deze tests zijn het meest geschikt voor tests die uit meer dan 20 items bestaan. Ze zijn erg gevoelig voor steekproefgrootte en zijn vooral conservatief als Bayesiaanse schattingsmodellen zijn gebruikt om parameters te schatten. Ze moeten dus niet worden gebruikt als het enige besluitmiddel voor de geschiktheid van een item. De χ2 statistiek kan ook worden gebruikt om gevestigde modellen te testen. χ2 is een krachtige statistiek met grote steekproeven. Omdat grote steekproeven vaak de norm zijn bij IRT-analyses zullen zelfs kleine afwijkingen in de fit statistisch significant zijn. Deze afwijkingen zijn in dat geval mogelijk praktisch gezien niet nuttig.
Een niet-statistische procedure om de fit te meten, is door de plot van gestandaardiseerde residuen te onderzoeken. In deze benadering worden de geschatte Θ-waarden van respondenten gebruikt. Ze worden gesorteerd van hoog naar laag en vervolgens gegroepeerd in categorieën van gelijke grootte. Daarna wordt voor ieder item binnen deze categorieën het daadwerkelijke aantal personen dat het item goed heeft beantwoord, berekend. Vervolgens worden deze frequenties voor elk niveau geconverteerd naar de proportie van de steekproef. Een plot van de categorieën tegen de proporties levert de empirische itemkarakteristiek curve op. Dit kan worden vergeleken met de veronderstelde itemkarakteristiek curve die door de IRT-analyse gegenereerd is.
Een andere niet-statistische meting van fit is door de hoeveelheid informatie die elk item oplevert over de latente trek op diverse Θ-waarden te onderzoeken. Dit wordt de standaardfout van de geschatte Θ-waarde genoemd.
6.5 Assumpties bij IRT/MTT
Er zijn twee assumpties binnen IRT, maar ze zijn wel beperkend:
De eerste assumptie is dat de itemkarakteristiek curves een specifieke vorm hebben. Dit betekent dat als de itemkarakteristiek curves zijn gespecificeerd naar het zijn van LP2 en eendimensionaal, dan zou dit model moeten passen bij de itemdata.
Eendimensionale (= met één onderliggend construct) modellen komen veel vaker voor dan multidimensionale modellen. De tweede assumptie is lokale onafhankelijkheid. Dit betekent dat de respons op één item geen effect heeft op de respons op de andere items. Alle modellen die in dit hoofdstuk aan bod komen hebben verondersteld dat de latente trek eendimensionaal is.
6.6 Gevolgen van de aannames bij MTT/IRT
Embretson en Reise (2000) hebben net als bij KTT ook de regels omtrent IRT opgesteld:
The standaardfout van de meting verschilt op verschillende Θ-niveaus.
Verschillende vormen (reeksen items) zijn het meest geschikt voor respondenten met verschillende Θ-niveaus. Hoe meer de respondenten verschillen, hoe meer de reeksen items die ze gepresenteerd krijgen zouden moeten verschillen om het bepaalde Θ-niveau van de respondent beter te kunnen meten.
Er zijn nog verschillende punten bij IRT die deze anders maken dan KTT:
Response formats die van elkaar verschillen kunnen worden gecombineerd (in tegenstelling bij KTT).
Wanneer de oorspronkelijke scores van een pretest verschillen bij meerdere respondenten, kunnen de veranderscores bij IRT op een betekenisvolle manier worden geïnterpreteerd.
Het proces van volledige informatie factoranalyse staat het toe dat er een factoranalyse gemaakt wordt die gaat over dichotome items.
IRT kan gebruikt worden om de stem van het item of stimuluskenmerken te beoordelen.
6.7 Praktische voordelen van ‘Moderne Test Theorie’
De voordelen van IRT ten opzichte van KTT zijn het meest opvallend op itemniveau:
Items kunnen worden getest of zij wel of niet bij een bepaald model passen.
Items kunnen beoordeeld worden of zij gunstig of nadelig werken voor sommige demografische groepen.
Er kunnen nieuwe items worden toegevoegd en deze kunnen vervolgens beoordeeld worden of zij wel goed functioneren.
Testen die in verschillende talen worden afgenomen kunnen worden beoordeeld op itemniveau voor differentiaal functioneren.
Items die bepaalde karakteristieken hebben, kunnen óf worden verwijderd, óf worden toegevoegd.
De manier waarop respondenten gebruik maken van het neutrale middelpunt kan adequaat worden gemodelleerd. Hierdoor kan het nut van het neutrale middelpunt binnen de vragenlijst worden vastgesteld.
Ongewone responsstijlen van een individu kunnen gedetecteerd en geduid worden.
6.8 Tekortkomingen van IRT
De drie grootste nadelen van IRT zijn:
De beperkende assumpties bij gebruik van het model
De grote steekproeven die nodig zijn
Het gebrek aan gebruiksvriendelijke computerprogramma’s
Daarnaast zijn we op conceptueel niveau vaak niet alleen geïnteresseerd in hoe één bepaald item functioneert, maar ook hoe alle items als een eenheid functioneren. IRT gaat hier niet echt op in. Het is daarom van belang om te weten wat zowel KTT als IRT voor schaalontwikkeling en beoordelingsprocessen te bieden hebben. KTT en IRT geven beide antwoord op zeer verschillende soorten vragen. Voor een complete psychometrische beoordeling zijn beide modellen noodzakelijk en is het niet voldoende om slechts één van de twee te gebruiken.
Ook al zijn de IRT methoden elegant, ze zijn niet goedkoop. De meeste IRT software is niet echt gebruiksvriendelijk en de onderzoeker moet ruim de tijd nemen om te leren hoe de software werkt.
Veruit de meest geschikte testen voor IRT modellen zijn tests die één construct meten, bestaan uit 20 of meer items, en gemaakt worden door honderden respondenten.
Hoe is de betrouwbaarheid van testscores en testitems te waarborgen? - Chapter 7
Dit hoofdstuk focust zich geheel op de betrouwbaarheid van testscores en testitems. De onderwerpen die in dit hoofdstuk voorbij komen zijn: methoden die je kunt gebruiken om de betrouwbaarheid van je scores en items te beoordelen. Deze methoden zijn: test-hertest, alternatieve vormen, interne consistentie en samengestelde scores. Deze vier methoden vinden hun oorsprong in oudere methoden binnen de klassieke testtheorie. Het gebruik van de betrouwbaarheidsindex om zo het betrouwbaarheidsinterval vast te stellen. Het potentiële probleem van betrouwbaarheid ten opzichte van verschilscores. De praktische zaken zoals de interpretatie van indexcijfers, testlengte, steekproefgrootte en betrouwbaarheidsstandaarden.
Betrouwbaarheid is voor een onderzoek van groot belang. De hoogte ervan is een belangrijke indicator in hoeverre een test altijd hetzelfde meet. Als je een onderzoek hebt opgezet waar je dezelfde proefpersonen vaker op verschillende tijdstippen moet meten, moeten de scores van die proefpersoon ook redelijk dicht bij elkaar blijven liggen. Als dit zo is, dan is beschikt de test over een hoge betrouwbaarheid.
7.1 ‘Test-hertest’ betrouwbaarheid
Om de betrouwbaarheid van je test in de gaten te houden is het een mogelijkheid om de test-hertest methode te gebruiken. Deze methode houdt in dat je dezelfde test twee keer bij dezelfde respondent afneemt. Deze twee scores kunnen vervolgens naast elkaar in een tabel worden gezet. Zo kun je gemakkelijk aflezen wat de correlatie is tussen twee metingen (T1 & T2) van dezelfde test bij dezelfde proefpersoon. Voordelen zijn dat je als onderzoeker weet dat de meting telkens hetzelfde meet en dat de stimuli telkens precies hetzelfde zijn.
De test-hertest betrouwbaarheidsindex is simpelweg de zero-order correlatie tussen de testscores op tijdstip 1 en 2.
Als de correlatie tussen twee testen telkens 1.0 zou zijn, zou de correlatie perfect zijn. Dit komt natuurlijk niet vaak voor en testscores tussen twee testmomenten kunnen altijd wel een beetje fluctueren, maar dit kan ook komen door systeemfouten. Wanneer een betrouwbaarheidsindex wordt geïnterpreteerd, is het belangrijk om te beseffen dat de gegenereerde waarde een gekwadrateerde waarde is. Dat wil zeggen, meestal als twee variabelen gecorreleerd zijn (bijvoorbeeld met een waarde van 0.40), dan is het kwadraat van die waarde gelijk aan de gedeelde variantie van de twee variabelen (dus 0.402 = 0.16; de variabelen delen 16% van hun variantie). Echter, vanwege de manier waarop de betrouwbaarheidsindex wordt verkregen, is de zero-order correlatie al een gekwadrateerde waarde.
Een voorbeeld: als je een groep studenten een leestest laat doen om hun leesvaardigheden te verbeteren, kan het natuurlijk zo zijn dat de leesvaardigheid daadwerkelijk verbetert na het deelnemen aan de test, waardoor de score bij het tweede testmoment hoger ligt bij respondenten omdat ze daadwerkelijk beter zijn geworden in lezen. Dit gebeurt ook als de respondenten tussentijds moeten oefenen om betere resultaten te behalen voor een vaardigheidstest. Dit soort dingen kunnen de scores dus beïnvloeden, maar deze verschillen in scores zijn nog logisch te beredeneren.
Als je een test afneemt waarbij het doel niet is om de proefpersonen een vaardigheid te laten ontwikkelen, maar de scores van de test toch niet met elkaar correleren, kan het misschien zo zijn dat de test last heeft van het geheugeneffect.
Om het geheugeneffect tegen te gaan, moet er een gepaste lange tijd tussen zitten tussen de twee testmomenten. Dit is echter niet altijd haalbaar (bijvoorbeeld: als je het vertrouwen voor een politieke partij meet of een onderzoek doet naar angstgevoelens, kan de lange tijd tussen twee testmomenten juist weer een negatieve invloed hebben op de testscores, en zo ook op de betrouwbaarheid van je scores).
7.2 Alternatieve vormen betrouwbaarheid
De alternatieve vormen benadering (alternative forms approach) is ontwikkeld om problemen tegen te gaan zoals overdrachtseffecten en situationele veranderingen. Dit houdt in dat je twee verschillende testen bij dezelfde proefpersoon afneemt die exact hetzelfde zouden moeten meten. Deze aanpak kan ook de betrouwbaarheid van je onderzoek beoordelen. Als de correlatie tussen de twee verschillende testen bij dezelfde proefpersonen hoog is, is ook de betrouwbaarheid hoog.
Het is wel duur en tijdrovend om twee testen te ontwikkelen, zeker als deze precies hetzelfde moeten meten. Het is een langdurend proces waarin erg zorgvuldig moet worden gekeken of de twee testen ook daadwerkelijk hetzelfde meten.
7.3 Meten van interne consistentie
Er bestaan verschillende metingen die de interne consistentie van je test kunnen bepalen. Al deze methoden geven aan wat de stabiliteit of consistentie is tussen alle items binnen een test.
Er worden vier methodes behandeld die de interne consistentie tussen items meten:
Split-half: deze methode meet de correlatie tussen twee helften van een test. Je moet de test dus in gelijke delen opdelen en vervolgens bij beide helften de scores uitrekenen, en zo kan je vervolgens de correlatie tussen deze twee helften analyseren. Een probleem van deze methode is dat het de eigenlijke betrouwbaarheidsindex onderschat, omdat tests die langer zijn (en dus meer items hebben) volgens de KTT betrouwbaarder zijn (ervan uitgaande dat de test gelijksoortige items heeft).Gebruik de Spearman-Brown formule om de betrouwbaarheid van een test te schatten die langer is dan degene waaruit de split-half coëfficiënt is berekend. Met deze formule genereer je de ‘gecorrigeerde’ split-half betrouwbaarheid (p.173).
Cronbach’s alpha (α): Deze methode is zo alomtegenwoordig dat deze methode haast een synoniem voor interne consistentie is geworden (zie p.174 voor de formule).
Theta coëfficiënt (θ): Deze methode wordt niet vaak gebruikt. Hier worden de items ‘gewogen’ (formule op p.175).
Kuder-Richardson 21 (KR21): Kuder en Richardson introduceerden deze methode als een meting voor interne consistentie tussen dichotome items.
7.4 Betrouwbaarheid van samenstellingen
Als het betrouwbaarheidscoëfficiënt gemeten is, kan deze gebruikt worden om de betrouwbaarheidsintervallen van een bepaalde score vast te stellen. Om dit te berekenen moet je de standaarddeviatie (SD), de score van individuele participanten (X) en de betrouwbaarheid van de test weten (R). Hoewel de meeste procedures om betrouwbaarheidsintervallen te berekenen gebruik maken van de ruwe score waarop een interval berust, stellen Nunnally en Bernstein (1994) dat het interval moet worden gebaseerd op de geschatte ware score van een persoon (T’). Deze wordt berekend door de volgende formule:
T’ = R(x-x̄) + x̄
Hoe betrouwbaarder de test, hoe minder waarschijnlijk de geschatte ware score van iemand zal bewegen naar het gemiddelde van de verdeling.
7.5 De Betrouwbaarheid van een samenstelling
Soms is het voor onderzoekers interessant om een test met andere testen te combineren. Deze gecombineerde testen kunnen samen een algemeen construct meten. Een simpel voorbeeld: het construct rekenvaardigheid wordt gemeten door meerdere testen: optellen, aftrekken, vermenigvuldigen, etc. Voordat je testen gaat combineren, wil je wel eerst weten hoe hoog de betrouwbaarheid van de gecombineerde testen is. Dit bereken je door:
r comp = 1 – [k – (kr iimean)] / [k + (k2 - k) r ijmean]
r comp = betrouwbaarheid van de samengetelde schaal
k = aantal componenten
r iimean = gemiddelde betrouwbaarheid van de componenten
r ijmean = gemiddelde correlatie tussen de componenten
Er moet bij de vraag worden stilgestaan of het beter is om een samengestelde score te maken van heterogene of homogene componenten. Als de componenten/schalen homogeen zijn hebben de componenten een redelijk hoge interne correlatie. In dit geval heeft het wel nut om een combinatie te maken, aangezien ze een betrouwbaardere gecombineerde testscore opleveren. Dit gaat echter niet op voor het combineren van heterogene componenten of schalen. De betrouwbaarheid van de heterogene componenten samen is lager dan de betrouwbaarheid van elk component apart. Het is dan ook niet haalbaar om een combinatie te analyseren die bestaat uit variabelen die niet aan elkaar gerelateerd zijn.
7.6 Verschilscores
De betrouwbaarheid van verschilscores is lager dan de betrouwbaarheid van de twee componenten waartussen het verschil zit. Hoe lager de correlatie tussen de twee testen, hoe hoger de betrouwbaarheid van de verschilscore. Dit komt door de aanname van de KTT, namelijk dat wanneer twee variabelen (X en Y) hoog met elkaar correleren, de ‘ware’ behaalde scores van X en Y met elkaar moeten overlappen. Het gedeelte van de score dat niet overlapt is dan een willekeurige meetfout (random error).
7.7 Praktische zaken
Er zijn een aantal veelgestelde vragen bij het berekenen van betrouwbaarheidscoëfficiënten:Hoeveel individuen moeten er in een steekproef zitten? Hoe hoog moet de betrouwbaarheidsindex zijn om als goed gekwalificeerd te kunnen worden? Welke methode voor betrouwbaarheidsanalyse moet wanneer worden gebruikt?
Hoe is de betrouwbaarheid van beoordelaars te waarborgen bij psychologische testen? - Chapter 8
Net als in Chapter 7 wordt hier ingegaan op de betrouwbaarheid van een test. In dit hoofdstuk ligt de focus op de stabiliteit van scores die gegeven worden door beoordelaars. Deze beoordelaars kunnen een oordeel geven over een persoon, object, gebeurtenis, etc. Deze mate van betrouwbaarheid wordt ook wel interbeoordelaarsbetrouwbaarheid genoemd.
8.1 Interbeoordelaarsbetrouwbaarheidsindexen
Interbeoordelaarsbetrouwbaarheidsindexen zijn betrouwbaarheidsindexen die de consistentie van oordelen/scores tussen individuen/beoordelaars/juryleden beschrijven. Voorbeeld; Het is wellicht interessant om te weten te komen of de jury bij kunstschaatsen in hun oordelen wel consistent zijn, en hoe hoog de consistentie dan is.
Er zijn vele verschillende soorten indexen beschikbaar die hierover gaan. Welke index er gebruikt moet worden, ligt aan wat voor soort data verzameld is.
Percentage van observeerder overeenkomst (observer agreement percentage): Het percentage observaties waarover twee of meerdere beoordelaars het met elkaar eens zijn. Twee nadelen: (1) De mate waarin ze het over een bepaalde observatie eens zijn kan niet in dit percentage worden meegenomen. Deze methode is dus ongevoelig voor de mate waarin twee beoordelaars het met elkaar eens zijn. (2) Dit percentage is gebaseerd op de aanname dat er vooraf al een bepaalde kans bestaat dat er een bepaalde mate van overeenstemming onder de beoordelaars aanwezig is. Dit komt omdat het om een ‘alles of niets’ beoordeling gaat.
Interobserveerderscorrelaties (interobserver correlaties): De mate waarin de oordelen van verschillende beoordelaars met elkaar correleren. Om deze correlatie te kunnen analyseren, moeten de juryleden/beoordelaars de beoordelingen wel op een schaal aangegeven. Hoe hoger de correlatie, des te groter is de overeenstemming tussen de beoordelaars.
Kendall’s concordantiecoëfficiënt (coefficient of concordance): Deze coëfficiënt geeft aan in welke mate de verschillende beoordelaars het met elkaar eens zijn. De coëfficiënt varieert van 0 tot 1. Hoe hoger het cijfer des te meer de beoordelaars het met elkaar eens zijn. Kendall’s concordantiecoefficient is een verdelingsvrije toets.
Cohen’s Kappa-coëfficiënt’: Dit is een veel gebruikte statistische maat om de mate van intra- of interbeoordelaarsbetrouwbaarheid vast te stellen. Als de Kappa 0 is, betekent dit dat de overeenkomst tussen de beoordelingen van twee beoordelaars volledig op kans berust. Als de kappa 1 is, betekent dit dat we kunnen spreken van een volledige overeenstemming tussen twee beoordelaars.
Gemiddelde deviatie-index (average deviation index; AD): Dit is een variatie op de aanpak door James, Demaree en Wolf (1984). Een groep beoordelaars beoordelen een bepaalde stimulus op bijvoorbeeld een 7-punts Likertschaal. Het gemiddelde van de gegeven scores van de beoordelaars wordt hierna uitgerekend. Vervolgens wordt het verschil tussen de score van elke beoordelaar en het gemiddelde uitgerekend. Uit al deze verschillen wordt dan weer een gemiddelde berekend en dit is dan de ‘AD’ voor een item. Hoe kleiner het getal, des te meer overeenkomst tussen de beoordelaars.
Generaliseerbaarheidstheorie en de intraklasse correlatiecoëfficiënt (generalizability theory and the intraclass correlation coefficient; ICC): De generaliseerbaarheidstheorie is een uitbreiding van de KTT doordat het niet de strenge assumptie maakt dat een ruwe score bestaat uit twee delen (een systematische deelscore en meetfout). De generaliseerbaarheidstheorie biedt een nauwkeurigere ‘omzetting’ van de systematische en error-termen naar relevante delen. De theorie wordt gebruikt om te voorzien van een schatting hoe goed de steekproef van de ratings van beoordelaars die verzameld zijn, zullen generaliseren naar het potentiële universum van beoordelaars. De statistische maat die hiervoor wordt gebruikt, is de ICC (ρ2), welke varieert van 0 tot 1.0, waarbij 0 betekent dat er geen sprake is van generaliseerbaarheid en 1.0 aangeeft dat er sprake is van perfecte generaliseerbaarheid. De ICC wordt dus gebruikt voor het kwantificeren van de mate van overeenstemming tussen twee (of meerdere) beoordelaars. ICC is een generalisatie van bovengenoemde Cohen’s Kappa.
8.2 Betrouwbaarheidsgeneralisatie
De testen zelf hoeven niet per se betrouwbaar of onbetrouwbaar te zijn. Het zijn de testscores die in meer of mindere mate betrouwbaar of onbetrouwbaar zijn.
Betrouwbaarheidsscores kunnen wel gegeneraliseerd worden naar andere steekproeven. Vacha-Haase (1998) komt met een overtuigend argument hiervoor: “Betrouwbaarheidsgeneralisatie maakt gebruik van zowel de gemiddelde meetfout van een test die bij meerdere onderzoeken gebruikt wordt, als van de bronnen van variabiliteit in varianties van verschillende onderzoeken, om op die manier een betrouwbaarheidsindex te genereren die gegeneraliseerd kan worden.”
Betrouwbaarheidsgeneralisatie is een vrij nieuwe techniek, maar de reden dat Kline het hier toch bespreekt is dat zij duidelijk wil maken dat het belangrijk is om te erkennen dat betrouwbaarheid niet onafscheidelijk is verbonden aan de test zelf, maar dat het eerder gebonden is aan de testitems, de steekproef, de situatie, etc.
In dit hoofdstuk is betrouwbaarheid voornamelijk in verband gebracht met KTT. Moderne test theorie (IRT) gebruikt ook methoden om de betrouwbaarheid te beoordelen, maar doet dit op een iets andere manier met andere methoden. IRT voorziet van informatie voor ieder item en met de test als geheel in termen van de accuratesse in het schatten van iemands trekniveau (trait level). De empirische betrouwbaarheid van de test die vervolgens wordt gegenereerd, is gebaseerd op de standaardfouten van de scores van de individuele respondenten.
Hoe kun je validiteit beoordelen aan de hand van inhoud en criteriamethoden bij psychologische testen? - Chapter 9
Als de test eenmaal betrouwbaar genoeg is bevonden, komt de volgende stap: het validiteitsproces. Vaak zullen de analyses die je gebruikt om de validiteit van je test te beoordelen ook nog iets zeggen over de betrouwbaarheid. In veel gevallen zijn validiteit en betrouwbaarheid in hoge mate met elkaar verbonden. Het is echter belangrijk om deze twee toch zoveel mogelijk gescheiden te bekijken.
De term testvaliditeit is eigenlijk een verkeerde benaming. Testen zelf zijn niet valide of invalide van zichzelf; de conclusies die uit een test worden getrokken zijn in meer of mindere mate valide.
9.1 De participanten vragen om hulp
De participanten van een test kunnen waardevolle feedback geven. Als je aan hen vraagt of zij de testitems geloofwaardig vinden, zullen ze in de meeste gevallen adequaat reageren. Het is namelijk van groot belang dat de testitems zowel relevant als helder overkomen op diegene die de test moeten invullen. Doe een pilot-test om hier zeker van te zijn. Laat een klein groepje uit je steekproef de test al een keer invullen zodat jij zeker weet dat de testitems in ieder geval goed in elkaar zitten. In het verleden werd dit ook wel indruksvaliditeit (face-validity) genoemd.
9.2 De ‘Subject Matter Experts’ op hulp (SME)
Ook SME’s kunnen bijdragen aan een hogere validiteit van een test. Deze bijdragen kunnen zowel voor de inhoud als voor het testproces gelden. De Experts zijn ook in deze twee categorieën onder te verdelen, dus inhouds- en procesexperts. De Inhoudsexperts zijn als het goed is al benaderd tijdens het ontwikkelen van de testitems zelf. Er zouden nog een paar andere inhoudsexperts kunnen worden benaderd of ze willen beoordelen of de items (vanuit hun perspectief) uiteindelijk het gekozen construct ook zo goed mogelijk benaderen. Om de beste feedback van inhoudsexperts te krijgen, moet je hen zo duidelijk mogelijk vertellen wat jij wilt meten. Dan weet je zeker dat de experts goed geïnformeerd zijn over jouw onderwerp en zullen daarom ook beter in staat zijn om jou goed te helpen.
De procesexperts zullen feedback geven op de testafnameprocedures, dus hoe jij denkt dat jij de test bij de respondenten wilt gaan afnemen. Zij zullen jou helpen om de vragen helder te maken en deze zo min mogelijk ondubbelzinnig te laten zijn. Deze personen kunnen ook advies geven over de tijdslengte van de test, naleving van juridische zaken, de manier waarop de test wordt gepresenteerd aan de respondent/participant, etc.
Dit soort advies van experts werd in het verleden inhoudsvaliditeit (content validity) genoemd. Het is vrij voor de hand liggend waarom dit soort advies behoorlijk subjectief is. Hier ontkom je nooit aan en het is tot op een zekere hoogte altijd aanwezig in de test zelf.
SME’s zijn een bron van onschatbare waarde en zouden bij het maken en uitvoeren van een test ook altijd om advies moeten worden gevraagd. Hun input kan ervoor zorgen dat jouw test alleen maar professioneler en wetenschappelijk wordt dan die al was.
9.3 Validiteit beoordelen door gebruik te maken van correlatie and Regressie
De validiteit van een test kan ook door correlatie of regressieanalyses beoordeeld worden.
Een gebruikelijke manier om de bruikbaarheid van testscores te beoordelen, is door deze te gebruiken om andere variabelen die interessant kunnen zijn te voorspellen. Zo valt bijvoorbeeld te verwachten dat teams die hoog scoren op het zijn van teamspelers, ook hoog zouden scoren als hen gevraagd wordt of zij in de toekomst nogmaals met elkaar willen samenwerken. Dit soort verbanden wordt ook wel criterium-gerelateerd (criterion-related) genoemd.
Eén variabele (de voorspeller) wordt in dit geval gebruikt om een andere variabele (het criterium) te voorspellen.
Deze manier van validiteit beoordeling werd in het verleden ook wel criteriumvaliditeit (criterion validity) genoemd. De correlaties die hieruit voortkomen worden validiteitscoëfficiënten (validity coëfficiënten) genoemd.
Vele soorten beoordelingen, inclusief die over de validiteit van testscores, maken gebruik van correlatie of regressieanalyses.
Criteriumstudies (criterion studies) kunnen gelijktijdig of voorspellend gebruikt worden. Bij beide wordt de magnitude van de relatie tussen twee variabelen op dezelfde manier geanalyseerd en geïnterpreteerd. Het verschil tussen de twee methoden zit hem in het feit dat ze op verschillende momenten worden uitgevoerd.
Bij gelijktijdige onderzoeken (concurrent studies) wordt zowel de data van de voorspeller als het criterium tegelijkertijd verzameld. Bij postdictieve studies (postdictive studies) worden er gegevens uit het verleden verzameld om uiteindelijk te proberen om iets over de toekomst te zeggen. En bij predictieve criterium-gerelateerde studies (predictive criterion related studies) word eerst de data van de voorspeller verzameld, en een tijd later pas de data van het criterium. Een probleem van criterium-gerelateerde studies is dat in het geval van meerdere voorspellers niet 100% duidelijk is of sommige voorspellers meer gewicht zouden moeten krijgen dan anderen. Uit onderzoek blijkt dat het gebruiken van gewichtsschema’s voor de voorspellers niet veel verbetering biedt.
Validatie via convergente en divergente metingen werd ongeveer 50 jaar geleden voor het eerst geïntroduceerd. Dit proces heeft te maken met relaties tussen het construct waarin men geïnteresseerd is en andere gelijksoortige of verschillende constructen.
Criterium-gerelateerde studies berusten op het meten van de relatie tussen een test (voorspeller) en uitkomst (criterium), meestal met een correlatie of regressiecoëfficiënt. Zowel de voorspeller als het criterium zouden als feilbare (onbetrouwbare) metingen moeten worden gezien. Bijna geen enkele test heeft een betrouwbaarheidscoëfficiënt van 1.0 en de uitkomsten zijn vaak zelfs nog onbetrouwbaarder. Hoewel testontwikkelaars zich vaak heel bewust zijn van de kwesties rondom de betrouwbaarheid van de voorspellende variabele, vergeten zij nogal eens het criterium te onderwerpen aan betrouwbaarheidsmetingen. Wat sommigen doen om deze kwestie te omzeilen, is door correctie voor betrouwbaarheidsdemping toe te passen. Dit betekent dat allereerst een geobserveerde validiteitscoëfficiënt wordt berekend. Vervolgens stelt men de volgende vraag: “Wat zou de gecorrigeerde validiteitscoëfficiënt zijn als de voorspeller, het criterium, of beide perfect betrouwbaar zouden zijn? Wees altijd uiterst voorzichtig met het interpreteren van gecorrigeerde waarden. Hoe betrouwbaarder de variabele in eerste instantie is, hoe meer deze correctie de validiteitscoëfficiënt zal vergroten. Het is redelijker om de betrouwbaarheid van de voorspeller te corrigeren, dan die van het criterium. Dit komt vanwege het feit dat de testinhoud veranderd kan worden om de betrouwbaarheid hiervan te veranderen. Het is minder verdedigbaar om het criterium te corrigeren op betrouwbaarheid, tenzij het ook betrouwbaarder kan worden gemaakt.
Er zijn twee veelvoorkomende problemen bij correlationele studies. Deze gaan over:
Beperking van bereik (range restriction): Het is niet altijd mogelijk om de scores van individuen over de gehele range van de voorspeller te meten. Dit heeft als gevolg dat het lastiger is om significante effecten te vinden, terwijl deze er wel zouden zijn als je wel over de hele range zou beschikken. Hiervoor kan een correctie gedaan worden.
Steekproefgrootte: Hoe kleiner de steekproef, hoe groter de benodigde validiteitscoëfficiënt om statistische significantie te bereiken. Voordat je de validiteitcoëfficiënten uit een bepaalde studie gaat interpreteren, is het daarom van belang dat je eerst kijkt naar de grootte en de representativiteit van de steekproef waarover de data (op basis waarvan de validiteitcoëfficiënten zijn gebaseerd) is verzameld.
De uitkomsten van criterium-gerelateerde validiteitsstudies worden vaak gebruikt om standaarden te stellen door een cutoff-score in te roepen. Individuen die een score beneden deze cutoff-score behalen, worden dan niet geselecteerd. De cutoff-score kan aan de hand van een pilotstudie worden bepaald. Hoe groter en representatiever de steekproef is, hoe beter men beslissingen kan maken over deze score.
9.4 Meervoudige criteria
Tot nu werd ervan uitgegaan dat één criterium gelijk staat aan één variabele, maar de meeste variabelen zijn multivariaat. Vele variabelen bestaan uit meerdere facetten of elementen. Hoe moet deze facetten gecombineerd worden tot één criterium? Sommige facetten binnen een variabele zijn belangrijker dan anderen, en er moeten in dat geval keuzes gemaakt worden welke facetten zwaarder en welke lichter wegen.
Kline haalt een voorbeeld aan over een criterium dat gaat over de vaardigheden waarover een pizzabezorger moet beschikken. Hiervoor zijn er een aantal voorspellers: Diegene moet beschikken over A) een rijbewijs; B) rekenvaardigheid, zodat de betalingen goed gaan; C) vaardigheid om te kunnen kaartlezen zodat de pizza op tijd bezorgd wordt; D) goede communicatieve vaardigheden zodat de klant wellicht nog een keer een pizza besteld.
Voor sommige van deze voorspellers zullen testen worden ontwikkeld en worden afgenomen bij de sollicitanten om te kijken of de desbetreffende sollicitant goed scoort, maar uiteindelijk zullen de winkelmanagers moeten uitmaken welke facetten doorslaggevend zijn die bepalen wie zij wel en niet aannemen. Sommige facetten zijn van een dergelijk groot belang dat als er aan deze niet voldaan wordt, die sollicitant direct naar huis wordt gestuurd. Dit zou bijvoorbeeld facet A kunnen zijn, het rijbewijs.
9.5 Classificatiebenaderingen voor testscore validatie
Soms is het niet van belang om zo nauwkeurig mogelijk te zijn als veel van de criterium-gerelateerde validiteitsonderzoeken. In dergelijke gevallen zijn classificatiebenaderingen om criterium-gerelateerde validiteitsonderzoeken gepast.
Als een dichotome voorspeller (zoals halen/falen) en een dichotoom criterium (slagen/niet slagen) de dataset vormen die geanalyseerd moet worden, kunnen ze geplaatst worden in een 2x2 matrix. Aan de hand van een dergelijke tabel wordt duidelijk dat hoe sterker de relatie tussen voorspeller en criterium is, hoe beter de voorspellende accuratesse.
Het is mogelijk om voor één criterium meerdere voorspellers te hebben, zowel continu als dichotoom. Als dit het geval is, dan kan een meting van voorspellende accuratesse worden uitgevoerd door middel van discriminante functieanalyse (DFA). DFA geeft antwoord op twee vragen: (1) Kunnen de voorspellers individuen beter als wel of niet succesvol te classificeren dan wanneer dit alleen door kans wordt gedaan? (2) Welke van de voorspellers zijn het meest relevant bij die voorspelling? DFA classificeert individuen in hun respectieve groepen, gebaseerd op een lineaire combinatie van voorspellende variabelen. De gewichten die aan iedere voorspeller worden toegewezen, maximaliseren de verschillen tussen de criteriumgroepen. In een DFA wordt een reeks discriminante functies gegenereerd door de computer. Echter, niet al deze functies zijn significant. Het maximaal aantal gegenereerde functies is gelijk aan ofwel (a) het aantal criteriumgroepen min 1, of (b) het aantal voorspellende variabelen, afhankelijk van wat kleiner is. Iedere functie moet orthogonaal (ongecorroleerd) zijn aan de eerdere functies en elke volgende functie is verantwoordelijk voor steeds minder variantie binnen het criterium. De resultaten kunnen worden gezet in een jackknife of een kruis-validatie (cross-validation).
9.6 Groepsverschillen en Test Bias
Bij het interpreteren van scores bestaat er het potentiële gevaar dat de relatie tussen een voorspeller en het criterium voor verschillende (sub)groepen kan verschillen. Er kunnen verschillen zijn in de validiteitscoëfficiënt en in de helling en ‘intercept’ van de regressielijn. Het kan ook gebeuren dat de scores van verschillende groepen wel op dezelfde lijn vallen, maar dat de ene groep hoog en de andere groep laag scoort. Over het algemeen geldt dat testen beter zijn als ze niet resulteren in differentiële validiteitscoëfficiënten voor verschillende identificeerbare subgroepen.
9.7 Pointers bij criterium validiteit
Generaliseerbaarheid van de validiteit.Meta-analyse is de poging om validiteitscoëfficiënten te generaliseren. Dit wordt getracht door een scala aan studies naar hetzelfde onderwerp samen te voegen in één studie. Als je dit doet is het van groot belang dat je vooraf aan het onderzoek – nog voordat je naar literatuur gaat zoeken – de voorspeller, het criterium en de populatie goed definieert.
Synthetische validiteit: hiervan is sprake als er tenminste twee testen als voorspeller worden gebruikt. De validiteitscoëfficiënten van deze twee tests worden tot een coëfficiënt samengevoegd: dit heet de synthetische validiteitscoëfficiënt (synthetic validiteit coëfficiënt). Synthetische validiteit is sterk afhankelijk van de oordelen die experts geven.
Hoe kun je validiteit beoordelen bij psychologische testen via de interne structuur van het item? - Chapter 10
Dit hoofdstuk is geheel gewijd aan methoden die worden gebruikt om vast te stellen hoe hoog de validiteit is van de gevonden conclusies uit testscores. Er wordt voornamelijk gefocust op de interne structuur van de items.
In totaal bestaan er drie analyses die ons meer kunnen vertelen hierover:
- Principale componentenanalyse (principal components analysis)
- Gemeenschappelijke factoranalyse (common factor analysis)
- Analyses over de covariantiestructuur
10.1 Principale componentenanalysis (PCA) (Hoofdcomponentenanalyse)
Dit is een multivariate analysemethode die in de statistiek gebruikt wordt om een grote hoeveelheid gegevens te beschrijven door middel van een kleiner aantal relevante grootheden. Dit worden ook wel de hoofdcomponenten of principale componenten genoemd. Er wordt bij deze analyse een verzameling vergelijkingen (componenten) gegenereerd. De voorspellers in PCA zijn testitems. De belangrijkste formule voor PCA is
- PC = bX1 + bX2 + bX3 ... + bXn.
- PC = principale componenten
- b-waarden = gewichten
- X = item
Het aantal componentvergelijkingen wat gegenereerd wordt, is gelijk aan het aantal testitems. Als de diverse PC’s berekend zijn, moet vervolgens worden bepaald naar welke PC aandacht uit moet gaan. Dit wordt ook wel de extractievraag genoemd: ‘Hoeveel componenten moeten worden geëxtraheerd voor de interpretatie stopt?’ Hiervoor zijn een aantal vuistregels/praktische overwegingen van belang.
Een theoretische benadering werkt als volgt: Als de testontwikkelaar gelooft dat er slechts één component is (ofwel, één construct), die de meeste variantie in de testitems zal delen, dan kan dit in de analyse worden gespecificeerd. Als de testontwikkelaar twee constructen verwacht, kunnen twee PC’s in de analyse worden gespecificeerd. De meest gebruikelijke vuistregel wanneer er geen theorie beschikbaar is als richtlijn voor het interpreteren van componenten, zijn eigenwaarden groter dan 1.0. Elk component dat wordt gegenereerd heeft een eigenwaarde die daarmee geassocieerd is. Als de eigenwaarde wordt gedeeld door het aantal items in de analyse en vervolgens met 100 wordt vermenigvuldigd, levert dit het variantiepercentage op die het component deelt met alle testitems.
Een andere manier om de eigenwaardenvuistregel te gebruiken, is door deze te combineren met een standaard van praktische geschiktheid waar het cutoff eigenwaardepunt om PC’s te interpreteren bijvoorbeeld 10% is. Dit betekent dat, ongeacht het daadwerkelijke aantal dat met de eigenwaarde is geassocieerd, de PC als relevant of van praktisch nut wordt beschouwd als het tenminste 10& van de variantie met alle items deelt.
Weer een andere manier om het aantal relevante componenten voor interpretatie proberen te achterhalen, is door gebruik te maken van een scree plot. Op de y-as is de eigenwaarde af te lezen, en op de x-as het aantal componenten.
Als het extractieprobleem opgelost is (dus hoeveel componenten/constructen geschikt zijn in het delen van variantie in de items), is de volgende vraag: ‘Hoe interpreteren we deze componenten?’ In principe is de interpretatie van componenten gebaseerd op hoeveel items hieraan gerelateerd zijn. De volgende stap is daarom gericht op het onderzoeken van de b-waarden die met elke PC zijn geassocieerd. Deze b-waarden worden componentladingen genoemd, en representeren de zero-order correlaties tussen het item en de PC. Hoge b-waarden wil zeggen dat het item veel variantie met de PC deelt. Er zijn geen significantietests voor de componentladingen en wederom worden vuistregels of een praktisch significantieniveau toegepast om te beslissen of een PC een wezenlijke of betekenisvolle hoeveelheid variantie met elk item deelt. De meest gebruikelijke vuistregel is een lading van 0.30. Dit betekent dat een gegeven PC minstens 9% (0.302 x 100) van de variantie met het item moet delen om als betekenisvol te kunnen worden beschouwd als de steekproefgrootte 5-10 deelnemers per item betreft. Als de gekwadrateerde ladingen worden opgeteld, kunnen de communaliteiten voor de items worden verkregen. Zeer lage communaliteiten (
Zeer hoge of zeer lage ladingen zijn gewenst, zodat duidelijk is dat het item wel of niet past bij de PC. Er kunnen ook items tussen zitten die negatieve ladingen hebben op PC’s. Afhankelijk van de items in kwestie, vormt dit wel of geen probleem. Negatieve ladingen moeten zinvol zijn in het licht van andere itemladingen. Al deze voorwaarden zorgen voor een lastig te interpreteren oplossing. Dit leidt tot de derde vraag bij PC-analyse: ‘Kunnen de PC’s geroteerd worden om een simpele oplossing te creëren?’ Rotatie wil zeggen dat de PC’s letterlijk geroteerd worden zodat de ladingen makkelijker geïnterpreteerd kunnen worden (zie figuur 10.2 en 10.3 voor een voorbeeld). Als bij een rotatie de communaliteiten van elk item hetzelfde blijven als in de oorspronkelijke oplossing, wordt dit een orthogonale rotatie genoemd. In het geval van een schuine rotatie (oblique rotation), hoeven de PC-assen niet per se 90 graden ten opzichte van elkaar te staan. Het gevolg hiervan is dat zowel de ladingen als de PC’s nu gecorreleerd zijn. Als een schuine rotatie wordt uitgevoerd, wordt de verklaarde variantie van voor de rotatie gerapporteerd. Interpretatie van schuine oplossingen is gecompliceerder dan interpretatie van orthogonale oplossingen, omdat er een theoretische reden nodig is waarom de twee constructen gecorreleerd zouden moeten zijn. Als de componenten waarschijnlijk gecorreleerd zijn, is schuine rotatie gewaarborgd. Echter, als er geen reden is om te verwachten dat de componenten mogelijk gecorreleerd zijn, kan eerst een orthogonale rotatie worden verricht.
Een van de assumpties van PCA is dat de items worden gemeten zonder error. Deze assumptie is in de meeste gevallen onverdedigbaar. Echter, omgaan met feilbare items was niet mogelijk totdat een manier beschikbaar was om in de error te modelleren. Analyses die deze foutenmarges konden inlijven in de structuur van de inter-relaties van de items werden na PCA ontwikkeld en kwamen bekend te staan onder een model, genaamd gemeenschappelijke factoranalyse (common factor analysis; CFA)
10.2 Common Factor Analysis (CFA) (factoranalyse)
Factoranalyse is net als PCA een multivariate statistische techniek. Het is een verzameling verschillende analyses. Een van de meest belangrijke verschillen tussen PCA en CFA is dat CFA ervan uitgaat dat de items worden gemeten met error. Deze errors worden verondersteld ongecorreleerd te zijn met elkaar over diverse items. De fundamentele vergelijkingen in CFA zijn ook verschillend van die van PCA. De formule van CFA:
Item X = wF1 + wF2 + error
Deze vergelijkingen zijn erg verschillend van die van PCA, waar de PC’s aan de ‘linker’ kant stonden en een gewogen lineaire combinatie van de items waren. Elke w in de CFA-vergelijkingen representeren het gewicht wat aan iedere factor wordt toegewezen waarvan wordt verwacht dat het verantwoordelijk is voor de variantie in elk item. Deze w’s worden factorladingen genoemd. De variantie die items delen met de onderliggende factoren wordt gemeenschappelijke variantie (common variance) genoemd. De variantie van items die geassocieerd is met de error wordt unieke variantie genoemd. Deze unieke variantie omvat zowel systematische als willekeurige error. Alle factoren hebben een w voor alle items (zie figuur 10.6 op pagina 259 voor een grafische representatie).
Een van de onzekerheden bij CFA is hoeveel factoren geëxtraheerd zullen worden. In PCA is het aantal items het aantal PC’s. In CFA is de schatting van het aantal factoren het aantal wezenlijke principale componenten (d.w.z. die eigenwaarden hebben > 1.0 tenzij anders is gespecificeerd). De oorspronkelijke schattingen van de eigenwaarden in een CFA is dus eigenlijk een PC-oplossing. Gebaseerd op het aantal componenten groter dan 1.0, zal de CFA doorgaan met het gebruiken van hetzelfde aantal gemeenschappelijke factoren. De programmeur kan dit negeren en zelf een bepaald aantal factoren kiezen om te extraheren. In tegenstelling tot PCA, heeft CFA niet de pretentie om met alle variantie van de items rekening te houden. CFA is geprogrammeerd om alleen rekening te houden met de gemeenschappelijke, of gedeelde variantie in de items. Daarom zijn de eigenwaarden die geassocieerd zijn met een CFA-analyse veel kleiner dan die geassocieerd zijn met een PCA.
Een andere onzekerheid in CFA is het vinden van de uiteindelijke communaliteiten voor de items. Bij PCA zijn deze altijd gelijk aan 1.0 al alle ladingen van alle PC’s gebruikt worden. Bij CFA is de oorspronkelijke schatting vaak de gekwadrateerde waarde van het item wat is teruggebracht op alle andere andere items in de dataset. Dit betekent dat de oorspronkelijke schatting van de gemeenschappelijke variantie van het item gebaseerd is op de hoeveelheid variantie daarin waar door alle andere items in de data rekening gehouden kan worden.
Op de bovengenoemde verschillen na, is de interpretatie van communaliteiten, eigenwaarden, (on)geroteerde factorladingen, orthogonale en schuine oplossingen, factorpatronen en structuurmatrices, en factorcorrelatie matrices bij CFA gelijk aan die bij PCA.
CFA is een verzameling methoden en er zijn dus verschillende opties voor het uitvoeren van een CFA. Een van de meest gebruikelijke is principale as-factoring (PAF). Een andere gebruikelijke methode is de maximale waarschijnlijkheidsschatting (maximum likelihood estimation; ML) procedure.
Er zijn een aantal vuistregels en veel intuïtieve beslissingen die genomen moeten worden om PCA en CFA-oplossingen te kunnen interpreteren. Er is nog een ander soort analyse gecreëerd, zodat veel van de vuistregels ruimte kunnen maken voor statistische metingen. Daarnaast is er meer plaats voor controle over de aard van de factorstructuur
Dit proces wordt vaak bevestigende factoranalyse (confirmatory factor analysis) genoemd.
10.3 Gemeenschappelijke factoranalyse
Covariantiestructuren analyse (analysis of covariance structures; ACS)
Een van de tekortkomingen van CFA is dat wordt gesteld dat alle factoren rekening houden met de varianties van alle items. Deze tekortkoming wordt bij ACS opgelost door de gebruiker te laten bepalen van welke factoren wordt verwacht dat ze rekening houden met variantie in bepaalde items. Een andere tekortkoming in CFA is dat de keuze voor orthogonale versus schuine rotatie een alles-of-niets beslissing is. ACS biedt de gebruiker de gelegenheid om te specificeren van welke factoren verwacht wordt dat ze correleren. Weer een andere tekortkoming van CFA is dat de errortermen (unieke varianties) van elk CFA-item ongecorreleerd zouden zijn. Aangezien unieke varianties zowel systematische als willekeurige error omvatten is het goed mogelijk dat er correlaties zijn tussen de unieke vairnaties in de systematische errorproporties. ACS biedt de gebruiker de gelegenheid om iedere verwachte correlatie tussen unieke varianties te specificeren. Bij ACS is dus wel een significantietest mogelijk.
10.4 Andere kwesties op het gebied van factoranalyse
Een aantal kwesties met betrekking tot factoranalyse moeten vermeld worden:
Factorgebaseerde schalen: Een dergelijke schaal is gebaseerd op een factoranalyse. Elke respons op elk item telt volledig mee.
Factorscores: Factorladingen veranderen per steekproef. Het wegen van items gebaseerd op de factoranalyse van dezelfde steekproef als die gebruikt wordt om de ladingen in de eerste instantie te genereren, kapitaliseert de unieke karakteristieken van die steekproef. Het creëren en gebruiken van factorscores is dus betwistbaar.
Factorstructuren: Deze kunnen verschillen per demografische groep of tussen steekproeven.
Factoranalyse van gecorreleerde factoren: Hogere orde factoranalyse kan dan plaatsvinden. Dit is alleen gepast als de factoren daadwerkelijk correleren.
10.5 Bedreiging van de validiteit van scores
Testscores kunnen door diverse factoren worden aangetast:Respons bias: Dit kan de echte score van de participant aantasten. Sommige deelnemers kiezen bij bijv. de Likertschaal nou eenmaal vaker voor het neutrale middelpunt. (neutral tendency). Sommige kiezen juist weer te snel voor de extremen aan beide kanten van een Likertshaal (extreme tendency). Een manier om dit tot een minimum te beperken, is door de participanten goed uit te leggen wat de schaal betekent en door ze te motiveren om alle schaalpunten in overweging te nemen.Gebrekkige motivatie:
Respondenten zijn niet gemotiveerd om adequaat deel te nemen aan een test. Probeer ze te motiveren door ze te prikkelen om de vragen goed en aandachtig te lezen.
Stemming van de respondenten (zowel extreem positief als negatief): Dit zal de inter-item correlatie doen vergroten.
Sociale wenselijkheid: Sommige participanten voelen sociale druk om bepaalde antwoorden te geven (bijvoorbeeld als een test bestaat uit vragen over minderheden in de samenleving).
Bewuste invulling van een test: Participanten kunnen een test expres onjuist invullen om deze slechter te laten lijken. Dit gebeurt ook andersom. Als mensen verteld wordt dat de score extreem belangrijk is, gaan sommige van hen extreem hun best doen om de antwoorden beter te doen laten lijken.
Het probleem van de gemeenschappelijke methode variantie (common method variance): Dit is als de wijze van dataverzameling hetzelfde is voor zowel de voorspeller als het criterium, waardoor er een (sterkere) correlatie ontstaat. De beste manier om dit uit de weg te gaan, is om voor een andere verzamelmethode voor je data te kiezen.
Hoe zijn ethiek en professionaliteit te waarborgen bij psychologische testen? - Chapter 11
Het maken van een test is voor vele mensen stressvol. Vooral als de test gaat over of je wel of niet toegelaten wordt tot een universiteit, of je wordt aangenomen voor een bepaalde baan of dat je mag deelnemen aan een bepaalde behandelgroep. Het is daarom van groot belang dat het beheer en gebruik van scores altijd voldoen aan ethische en professionele richtlijnen. In dit hoofdstuk zullen dan ook alle zaken die gaan over de ethiek bij het afnemen van een test besproken worden.
11.1 Professionele standaarden en ethische richtlijnen
Er zijn diverse bestuursorganen die controleren of ethische en professionele richtlijnen worden nageleefd. Deze richtlijnen zijn gedocumenteerd in naslagwerken zoals: “The Standards for Educational and Psychological Testing & The Ethical Principles of Psychologists and Code of Conduct”.
In de laatste staat duidelijk vermeld dat het afnemen van tests enkel gedaan mag worden door goed geschoolde psychologen en er mag geen enkele vorm van discriminatie plaatsvinden. Dat er zulke richtlijnen bestaan, wil (helaas) niet zeggen dat deze altijd even goed worden nageleefd. Het is dan ook zeer belangrijk dat de onderzoeker die de test afneemt goed in de gaten houdt wat voor een soort conclusies hij of zij op basis van de de geanalyseerde scores trekt.
11.2 Ethische procedures en protocollen
Alle individuen die deelnemen aan een test hebben het recht om geïnformeerd te worden over het testproces. Ze moeten:
(A) het doel van de test begrijpen;
(B) begrijpen wat de scores van de test betekenen;
(C) de implicaties van de scores begrijpen;
(D) kennis hebben van wie er toegang tot deze testscores hebben;
(E) weten hoe de anonimiteit gewaarborgd wordt.
Wetenschappers die een test willen gebruiken, moeten:competent zijn in het afnemen van de tests;de scores adequaat kunnen toekennen;in staat zijn om de scores adequaat te analyseren.
De meeste instanties die tests uitgeven, vragen aan de onderzoeker(s) voordat zij de test meegeven om een professionaliteitsbewijs te tonen, zodat zij ervan verzekerd zijn dat de test niet in verkeerde handen valt. Bij een test moet ook een handleiding zitten waarin:de test zorgvuldig en goed wordt uitgelegd;staat wat de potentie van de test is;duidelijk wordt gemaakt op welke manier de door de test verkregen scores geanalyseerd kunnen worden.
11.3 Het afnemen van een test
Een test kan in een groep worden afgenomen, maar dit kan ook individueel. Vooral bij individuele testafname speelt de testafnemer/onderzoeker een belangrijke rol binnen het testproces. De onderzoeker/testafnemer brengt in dat geval veel tijd door met de deelnemer (dit is natuurlijk wel afhankelijk van de aard van het onderzoek).
De meeste van ons zijn meer gewend dat tests in groepen worden afgenomen. Groepsafname van een test is een beetje een rare aanduiding, want de test die wordt afgenomen niet per se plaats te vinden in een groep. Het gaat hier meer over de manier waarop de test wordt afgenomen (dit is in een groep) en dat de testafnemer verder enkel aanwezig is om ervoor te zorgen dat alles goed verloopt.
Over het algemeen moet de ruimte waarin de test wordt afgenomen prettig zijn en er mogen geen afleidende factoren in de ruimte aanwezig zijn. Als er een tijdslimiet is, dan moet de testafnemer ervoor zorgen dat alle tests binnen de tijd worden ingeleverd. De testafnemer is verantwoordelijk voor het goed opbergen en bewaren van de ingevulde tests. Verder moet er worden opgelet dat er niet wordt afgekeken of vals wordt gespeeld. Prestatietests (zoals tentamens) zij veel voorkomende voorbeelden van groepstests.
11.4 Testen van integriteit
Het testen van integriteit onder werknemers is zeer populair aan het worden. Elke werkgever wil natuurlijk de meest eerlijke en oprechte mensen aannemen. Dit heeft er toe geleid dat er bij een sollicitatieproces nu ook tests worden afgenomen die de eerlijkheid en integriteit van de sollicitanten meet. Er zijn echter ook nogal wat redenen op te noemen waardoor je bij dit soort integriteitstests sterke bedenkingen krijgt.
Probleem 1: De termen integriteit en eerlijkheid worden vaak door elkaar gehaald, maar zij zijn niet hetzelfde construct. Integriteit is een breed construct dat impliceert dat werknemers hun beloftes altijd nakomen en dat zij handelen op basis van hun overtuigingen. Eerlijkheid is een subgroep binnen het construct integriteit. Eerlijkheid gaat over dat iemand geen leugens verkondigt of de waarheid verzwijgt. Bij een selectieprocedure van sollicitanten moeten de meetinstrumenten zeer duidelijk zijn over wat deze exact meten: dit is bij bestaande integriteitstests zeker altijd het geval.
Probleem 2: Er bestaat een zeer breed scala aan testmethodes om dit construct te meten maar het levert veel verschillende soorten informatie op. Er zijn bijvoorbeeld leugendetectortests. Deze tests gaan ervan uit dat fysiologische reacties kunnen worden gebruikt om te achterhalen of iemand de waarheid spreekt of liegt.
Er zijn ook veel schriftelijke tests die integriteit meten. Er zijn twee soorten: heldere (clear (overt)) en verhulde (veiled (covert)) tests. Bij heldere tests wordt er direct gevraagd of je een crimineel verleden hebt, wat jou mening over sommige criminele daden is, en hoe je denkt over bepaalde criminele activiteiten. Het doel van dergelijke vragenlijsten is voor respondenten dan zo voor de hand liggend, dat het wel erg eenvoudig wordt om als respondent antwoorden te geven waarvan de respondent weet dat deze in de smaak zullen vallen. Verder kan het gebruik van dergelijke tests je bedrijf ook in een kwaad daglicht stellen. Men kan zich gaan afvragen waarom er al zo streng aan de poort gecontroleerd moet worden. Verhulde tests over integriteit beoordelen kenmerken die eerlijke personen zouden moeten hebben, zoals gewetensvolheid of betrouwbaarheid.
Probleem 3: De mate van voorspellende validiteit. De validiteit van de bijvoorbeeld de leugendetectortest is niet aangetoond. De schriftelijke tests blijken wel geschikt voor het voorspellen voor een breed construct van algemene werkprestaties, maar niet per se het gedetailleerde construct van eerlijkheid of diefstal op de werkplaats.
Probleem 4: Dit probleem gaat over het afnemen en gebruik van integriteitstests. Ethische standaarden eisen dat de deelnemers van te voren goed moeten worden ingelicht en dat zij achteraf moeten horen hoe zij de test gemaakt hebben en wat er met die score gedaan is. De twee laatste zijn nou juist eisen die bij integriteitstests vaak niet worden nageleefd. Bedrijven en grote organisaties zijn vaak niet eerlijk over wat er precies met de score gedaan is, wat überhaupt de score was, en of deze een doorslaggevende rol heeft gespeeld bij het wel of niet aannemen van de sollicitant.
11.5 Gecomputeriseerde tests
De komst van de computer heeft een grote impact gehad op de manier waarop tests worden afgenomen. Een belangrijke bijdrage van de computer aan de wereld van tests wordt computer adaptief testen (computer adaptive testing; CAT) genoemd. Deze adaptieve tests moeten ervoor zorgen dat iedereen op zijn eigen niveau een test kan maken.
De adaptieve test stelt een vraag, en als jij deze fout beantwoordt, dan stelt de computer een volgende vraag van een ander (lager) niveau. Een groot voordeel van deze methode is dat er minder vragen gesteld hoeven te worden. Er zijn minder vragen nodig, omdat met een klein aantal juiste vragen er al voldoende informatie over het vaardigheidsniveau van de respondent bekend kan worden gemaakt. Het maken van dit soort tests is wel een erg tijdrovende klus en alle items moeten zorgvuldig gekozen worden.
11.6 Training, testwijsheid, en herkansingen
Veel mensen ervaren het doen van toelatingstests voor bijvoorbeeld universiteiten als zeer stressvol en willen zich hierom zo goed mogelijk voorbereiden. Naast hard studeren doen zij vaak ook nog vele oefentests of nemen deel aan intensieve trainingscursussen, maar het is maar de vraag of dit nou echt helpt.
Tijdens een dergelijke cursus worden deelnemers blootgesteld aan soortgelijke tests en testvragen. Zo kan men zich vertrouwd maken met de test en de vragen en hoe deze het best beantwoord moeten worden. Uit onderzoek is gebleken dat de personen die het meest gebaat zijn bij zulke trainingen of bijlessen, personen zijn waarbij de academische vaardigheden verouderd/verroest of afwezig waren. Mensen die gewoon de test goed willen maken, moeten de vaardigheden door vele jaren heen gewoon steeds beter en sterker maken.
Er bestaat hiernaast ook nog zoiets als het construct ‘testwijsheid’ (testwiseness). Voor studenten is het doen van tests iets wat na een paar jaar niet meer weg te denken is uit het dagelijks leven. Op een gegeven moment weet je wel hoe een tentamen in elkaar zit en hoe je de vragen moet beantwoorden. Zodra studenten wennen aan tests, worden zij ook steeds wijzer over hoe deze testen in elkaar zitten en hoe zij zich hier goed op moeten voorbereiden.
Stel, je doet een bepaalde toelatingstest heel slecht, is een herkansing dan nuttig? Ten eerste moet je bij jezelf nagaan wat nou precies de oorzaak was waarom je gefaald hebt. Als je op de dag zelf bijvoorbeeld ziek was, dan is het zeker nuttig om de test te herkansen. Als dit niet het geval is, en je wilt gewoon een betere testscore behalen, dan is het achteraf gezien vaak niet echt van groot belang geweest om een herkansing te doen, omdat de kans klein is dat de testscore enorm verbetert.
11.7 Wetgeving omtrent tests
Dit stuk gaat over hoe wetgeving invloed heeft gehad op testen afnemen/onderzoek doen en andersom. Nauwkeurig werk en een nauwkeurig en bedachtzaam besluitvormingsproces kunnen veel bijdragen aan het verdedigen van iemands positie bij het gebruik van een bepaalde testscore. Het is onderdeel van de professionele verantwoordelijkheid van degenen die in de testindustrie werken.
11.8 Testitem bias & negatieve impact
Er is sprake van testitem bias als de testitems bij verschillende groepen verschillende uitkomsten opleveren. Deze verschillen komen niet altijd door een bias, het kan namelijk ook zo zijn dat de populatie die gemeten is over het algemeen gewoon minder vaardig blijkt op het construct dat werd gemeten. Om zeker te weten of er een echte bias geconstateerd kan worden, kan je de chi-kwadraat (2) of IRT-programma gebruiken.
De chi-kwadraat kan bepalen of de respondenten uit verschillende groepen met dezelfde theta (Θ), dezelfde kans hebben om een bepaald item goed te beantwoorden. Als het verschil significant is, dan is er sprake van bias. De chi-kwadraat is goed te gebruiken bij kleine steekproeven.
Differentiaal itemfunctioneren (differential item functioning; DIF) analyse wordt met behulp van een IRT-
programma uitgevoerd. Deze leent zich uitsluitend en uitstekend voor grote steekproeven.
De moeilijkheidsgraad wordt per item voor elke subgroep binnen de populatie apart berekend met behulp van het 1PL-model. Zo kan de ‘overall fit’ worden berekend. Vervolgens wordt er nog een 1PL-model berekend over alle groepen binnen de populatie. Als het verschil tussen deze twee waarden niet significant is, toont dit aan dat er geen bias is; andersom als het verschil wel significant is, dan is er wel een bias.
11.9 Problemen bij het vertalen van schalen naar een andere taal
De kwaliteit van de vertaling heeft een grote invloed op de validiteit van de schaalscores.
Er zijn een aantal methoden om een schaal naar een andere taal te vertalen:
Directe vertaling (direct translation): De schaal wordt letterlijk in een andere taal vertaald.
Terugwaartse vertaling (back translation): Dit is een ‘dubbel proces’ omdat je eerst de schaal van taal A naar taal B vertaalt, en vervolgens een ander persoon de vertaalde versie van de schaal (B dus) weer terugvertaalt naar taal A zodat beide teksten met elkaar kunnen worden vergeleken. Dit is een erg tijdrovende en dure klus, maar wel nauwkeurig.
Samenvoeging (merging): Dit is als twee tweetalige personen ieder een vertaling van de schaal geven. Een ander tweetalige persoon voegt deze twee vertalingen samen tot één. Deze methode is nog duurder dan de vorige twee.Review: ook wel groepsprocedure genoemd. Dit is als een groep SME’s (experts) de vertaling bestuderen en erover discussiëren totdat ze het over een bepaalde vertaling met elkaar eens zijn.
11.10 Elektronische tests & elektronische vangst
Het is en blijft een moeilijke klus om de nog op papier bestaande testen op een adequate manier naar elektronische varianten op de computer te vertalen. Er zitten zowel voor als nadelen aan elektronische tests.
Voordelen: Ze zijn snel te scoren en te interpreteren. Ze kunnen erg snel gestuurd en verspreid worden, bijvoorbeeld via e-mail. De kosten blijven laag. Er zijn minder invulfouten.
Nadelen: Je weet niet zeker of diegene die je de test denkt te sturen, ook zelf de test maakt. De software kan sommige grafieken of plaatjes onleesbaar maken, of deze verschijnen helemaal niet in beeld. Het kost veel tijd om überhaupt de test zo te programmeren dat de test door het programma op een logische manier in beeld wordt gebracht. Het is belangrijk om je vooraf af te vragen of de participant verder of terug mag gaan in de test, terwijl de test gemaakt wordt.
Je moet ervan uitgaan dat men goed met een computer om kan gaan.
Hoe kun je aan informatie over psychologische testen uit verschillende domeinen komen? - Chapter 12
In dit hoofdstuk worden enkele type tests nader bekeken. Het doel van dit hoofdstuk is om kort en bondig een paar verschillende tests uit verschillende domeinen te bespreken. Vervolgens bespreekt Kline een aantal manieren hoe je aan informatie over een test kan komen. Vervolgens wordt er dieper in gegaan op bekende testen die gaan over intelligentie, academische prestaties, persoonlijkheid en loopbaanbegeleiding.
12.1 Intelligentietests
De term ‘intelligentie’ heeft veel controverse veroorzaakt in de literatuur. Men is het er over het algemeen over eens dat tests die dit construct pretenderen te meten, algemeen geestelijk vermogen vaststellen. Een assumptie van alle algemene intelligentietests is dat sommige individuen beter in staat zijn om van ervaringen te profiteren en leren dan anderen, en dat deze individuen hogere niveaus van algemeen geestelijk vermogen hebben. De reviews zijn beperkt tot twee belangrijke commercieel beschikbare intelligentietests, namelijk de Stanford-Binet intelligentietest en de Wechsler intelligentietest.
De Stanford-Binet intelligentietest is ontworpen door Binet (1911) en is in 1916 door Terman aan de universiteit in Stanford vertaald en herzien, waarna het de huidige naam kreeg. Net als de eerdere versie van Binet, werd het intelligentiequotiënt (IQ) berekend door de mentale leeftijd (mental age; MA) te nemen en deze te delen door de chronologische leeftijd (chronological age; CA) van de persoon en deze uitkomst vervolgens te vermenigvuldigen met 100. Deze vroege versie was gestandaardiseerd op een niet-representatieve en kleine steekproef. De test is meerdere keren herzien.
De vierde editie werd gepubliceerd in 1986. Deze editie verschilde sterk van de vorige: vier inhoudelijke onderdelen (verbaal redeneren, abstract/visueel redeneren, kwantitatief redeneren en korte termijn geheugen) werden gemeten aan de hand van 15 verschillende subtests. De items van de vierde editie waren gestandaardiseerd op een gelaagde steekproef van ruim 5000 mensen van 2-23 jaar oud verspreid over de VS. Hoewel de algehele betrouwbaarheid hoog is (>0.90), zijn de subtest betrouwbaarheden kleiner (over het algemeen rond 0.80). Interne consistentiescores zijn hoger (± 0.90). Echter, de individuele subtests hebben lagere coëfficiënten, wat suggereer dat men voorzichtig moet zijn moet het gebruiken van individuele subtests voor het trekken van conclusies. De vier-factor structuur die ondergelegen is aan de test, is niet goed ondersteund.
De Stanford-Binet test was, en is vaak nog steeds, de standaard waarmee andere tests worden vergeleken. Dit is voornamelijk het geval bij jongere kinderen en mensen met een lager cognitief niveau.
De Wechsler intelligentietest was een reactie van Wechsler op wat hij slecht vond aan de Binet benadering van intelligentiemetingen. Wechsler stelde dat (1) de Binet-taken en items ongepast waren om bij volwassenen toe te passen, (2) het puntensysteem wat ontwikkeld was om de Wechsler-Bellevue Intelligence Scale (naam van de eerste editie) te scoren, was superieur aan leeftijdsschaling, (3) prestaties waren een belangrijk aspect van intelligentie, en (4) door versnelde metingen werden andere personen benadeeld. Om deze redenen begon Wechsler aan de ontwikkeling van een nieuwe intelligentie meetinstrument, specifiek bedoeld voor volwassenen. De eerste (Wechsler-Bellevue Vorm I) en tweede editie (Vorm II) werden gepubliceerd in 1947 en waren niet gestandaardiseerd op een gepaste steekproef en werden daarom herzien in 1955. De test kwam vanaf toen bekend te staan als de Wechsler Adult Intelligence Scale (WAIS). In 1981 kwam een nieuwe herziene editie uit (WAIS-R). Deze editie werd toegepast om volwassen intelligentie te meten bij mensen van 16-74 jaar. De huidige versie is herzien in 1997 (WAIS-III) en is genormeerd op een brede steekproef van bijna 2500 personen van 16-89 jaar oud en gelaagd op leeftijd, geslacht, educatieniveau en geografisch gebied. De items werden geüpdatet naar meer gepaste inhoud voor die tijd.
Wechsler geloofde dat intelligentie was gemanifesteerd door het vermogen om doelbewust en adaptie naar de omgeving te handelen. Hoewel individuele elementen die intelligentie vormden afzonderlijk gemeten konden worden, hingen de elementen met elkaar samen. De som van de bekwaamheid op deze elementen zou algemene intelligentie representeren. De WAIS-III schalen zijn gegroepeerd in twee belangrijke categorieën: verbaal en performaal. Er zijn zeven verbale en zeven performale subtests. De interne consistenties voor de verbale, performale en volledige IQ-scores zijn zeer hoog (>0.95). In tegenstelling tot de Stanford-Binet test zijn de subtest betrouwbaarheden aanzienlijk lager. De meeste subtests zijn wel redelijk hoog met elkaar gecorreleerd.
Twee andere tests die gebaseerd zijn op dezelfde theorie en benadering als de WAIS zijn de Wechsler Intelligene Scale for Children (WISC-IV) en de derde editie van de Wechsler Preschool and Primary Scale of Intelligence (WPPSI-III).
12.2 Academische prestatietests
De volgende twee tests die besproken worden – de Scholastic Assessment Tests (SAT) en de Graduate Record Examination (GRE) – zijn ontwikkeld om kennis of vaardigheden op het gebied van academische prestaties te meten.
De SATs bestaan al sinds 1926. Scores op de SAT zijn onderdeel van veel universitaire toelatingseisen. De SAT I: Reasoning Test is een meting van zowel verbaal als rekenkundig redeneren. Naast deze twee algemene gebieden zijn ook specifieke subtests (SAT II) ontwikkeld. De SAT wordt ieder jaar herzien, omdat eerder toegepaste vormen onderdeel zijn van het publieke domein. Itemontwikkeling is daarom ook een constante kwestie voor de testuitgever. De SAT-schalen hebben hoge interne consistenties (>0.90). De voorspellende validiteit van de SAT is gemiddeld voor schoolprestaties. Items worden nauwkeurig afgenomen vanwege potentiële geslachts- en etniciteitsbias en voor het behouden van de huidige inhoud. De SAT is onder vuur komen te liggen vanwege de utiliteit en zorgen over de verschillende scores die worden verkregen onder etnische minderheden. Net als met gebruik van alle andere testscores, moeten voorafgaand aan het toepassen van de test beslissingen worden genomen over waar de scores voor zullen worden gebruikt en waarom ze nuttig zijn.
De GRE wordt gebruikt als een van de selectie-indicatoren voor toelating tot veel afstudeerprogramma’s – met name diegene in de sociale en gedragswetenschappen. De GRE is een test die pretendeert algemeen schoolse vaardigheden te meten en wordt via de computer afgenomen. Er zijn drie primaire componenten van de Algemene GRE – verbale (GRE-V), kwantitatieve (GRE-Q) en analytisch schrijven (GRE-A). De interne consistenties van de algemene GRE tests zijn zeer hoog (>0.90). Items worden nauwkeurig ontworpen en regelmatig gescreend.
12.3 Gestructureerde persoonlijkheidstests
Persoonlijkheid wordt meestal gedefinieerd als relatief stabiele patronen van reageren op omgevingsfactoren die per persoon verschillen. Gestructureerde persoonlijkheidstests proberen diverse persoonlijkheidstrekken in kaart te brengen door respondenten te vragen om aan te geven in hoeverre een item of stelling wel of niet bij hen past. Tijdens de Eerste Wereldoorlog werd de eerste persoonlijkheidstest ontwikkeld en de 20 jaar die daarop volgden zijn vele aanpassingen en verbeteringen aangebracht. De meeste testontwikkelaars volgden één van de volgende twee algemene benaderingen: deductief en empirisch. Deductieve benaderingen maakten gebruik van theorie en gezond verstand om items te ontwikkelen die ontworpen waren om diverse aspecten van persoonlijkheid te meten. Empirische benaderingen maakten gebruik van statistieken om testontwikkeling en –verfijning te sturen. Factoranalyse werd gebruikt om items te groeperen die vervolgens werden gebruikt om een persoonlijkheidsconstruct af te leiden. De meeste testontwikkelaars gebruiken de beste kenmerken van beide procedures voor testontwikkeling en –verfijning.
De California Psychological Inventory (CPI) is een van de meest gebruikte gestructureerde persoonlijkheidsvragenlijsten. Het meet 20 eigenschappen van normale persoonlijkheid. De CPI was bedoeld om interpersoonlijk gedrag en sociale interactie te meten, en het benadrukte de empirische benadering. De CPI is eenvoudig af te nemen en te scoren. Individuen of groepen lezen items en geven aan dat deze óf wel, óf niet bij hen passen. De psychometrische eigenschappen van de CPI zijn niet stabiel en verschillen per steekproef en tijd tussen verschillende testafnames. Ondanks enkele tekortkomingen, blijft de CPI een van de meest onderzochte gestructureerde persoonlijkheidsvragenlijsten.
De NEO Personality Inventory (Revised) (NEO-PI-R) is ontworpen om vijf primaire persoonlijkheidsdimensies te meten bij normale volwassenen van 20-80 jaar oud. De vijf persoonlijkheidsconstructen zijn Neuroticisme (N), Extraversie €, Openheid (O), Altruïsme (A) en Consciëntieusheid (C). Theorie en factoranalytische benaderingen werden toegepast in de ontwikkeling van deze vragenlijst. De persoonlijkheidsdimensies zijn afgeleid met behulp van een lexicale benadering. De test-hertest en interne consistentie betrouwbaarheid voor de belangrijke constructschalen zijn erg goed (0.80-0.90), maar lager voor de facetschalen (0.50-0.90). Validiteitsonderzoek suggereert dat de NEO een goede schaal is om te gebruiken bij het meten van normale versus pathologische persoonlijkheid en om interesses, coping-stijlen, werkprestaties, en tal van andere gedragingen te meten. Ook factoranalyses van bestaande persoonlijkheidsvragenlijsten ondersteunen de ‘Big Five’ als ondergelegen aan de langere lijsten van persoonlijkheidskenmerken. Een bemoedigend kenmerk van de NEO, is dat het voor verschillende culturen geschikt lijkt te zijn.
12.4 Loopbaanbegeleiding
Een van de oudste en meest gebruikelijke manieren waarop psychologische tests worden toegepast is door individuen te assisteren bij het maken van beroeps- en carrièrekeuzes.
De theoretische basis voor de Strong Vocational Interest Blank (SVIB; 1927) was dat verschillende beroepsgroepen consistente verschillen vertoonden in de dingen die ze wel of niet leuk vonden. De SVIB is voornamelijk een empirisch-gebaseerde schaal. De SVIB werd in 1974 herzien en omgedoopt tot de Strong-Campbell Interest Inventory (SCII). De meest recente versie is uit 1994.
Hoewel de meeste interessevragenlijsten ontwikkeld zijn om afgenomen, gescoord en geïnterpreteerd te worden door een professional, ontwikkelde Holland de Self-Directed Search (SDS;1971). Deze vragenlijst kon zelf afgenomen, zelf gescoord en zelf geïnterpreteerd worden, en is gebaseerd op Holland’s theorie van carrière keuze. Hij definieerde persoonlijkheidstypen en werkomgevingen als een van de volgende zes: Realistisch (R), Onderzoeken (Investigative, I), Artistiek (A), Sociaal (S), Ondernemend (Enterprising, E) en Conventioneel (C). De herziene editie uit 1994 (SDS Vorm R), maakte de SDS meer geschikt voor therapeuten en cliënten. Onderzoek toonde aan dat de schalen betrouwbaar en valide waren.
12.5 Samenvattend
Er zijn de afgelopen tientallen jaren heel veel verschillende tests ontwikkeld die voor verschillende doelen gebruikt kunnen worden. Diegene die in dit hoofdstuk aan bod zijn gekomen, hebben enkele gemeenschappelijke kenmerken. Ten eerste zijn ze allemaal zeer wijdverspreid en daarom gemakkelijk te verkrijgen. Ten tweede zijn deze tests al jaren in gebruik en er is daarom veel psychometrische informatie over te vinden.
Abonneechapter met een BulletPoint samenvatting van Psychological Testing - Kline - 1e druk
Chapter 1
Bij sociaalwetenschappelijk onderzoek zijn de constructen subjectief en vaak dubbelzinnig. Het zijn abstracte begrippen, waarvan men het in de meeste gevallen nog niet eens is over de exacte betekenis (denk bijvoorbeeld aan intelligentie).
Sociaalwetenschappelijk onderzoek; Stap 1: Licht de conceptuele definitie van het construct toe. Stap 2: Vertaal de conceptuele definitie naar een operationele definitie.
Wetenschappers moeten bekwaam zijn in het ontwikkelen en uitvoeren van tests. Daarnaast behoren zij goed op de hoogte te zijn van nieuwe beoordelingsmethoden.
Basisprincipes statistiek
Meetschalen: nominaal, ordinaal, interval
Normaalverdeling
Statistische significantie (α- en p-waarden)
Steekproefverdelingen
Correlatie
Lineaire regressie
Betekenis en omzetting van scores
Let bij de definitie van een construct op de volgende aspecten: (1) de helderheid, en (2) of het een enkelvoudig of meervoudig construct is.
Chapter 2
Er zijn drie verschillende benaderingen bij het maken van items: (1) empirisch, (2) theoretisch, (3) en rationeel.
Itemontwikkeling; Stap 1: Zoek naar relevante empirische en theoretische literatuur. Stap 2: Vraag Subject Matter Experts (SME’s) om informatie. Stap 3: Operationaliseer het construct.
Om attitudes te meten, kunnen de volgende methoden worden toegepast bij itemontwikkeling: (1) gepaarde vergelijkingen, (2) gerangschikte categorieën, (3) categorieën op intervalniveau, en (4) Guttman-schalen.
Het beoordelen van gedragingen werkt iets anders dan het beoordelen van attitudes. Een veel gebruikte aanpak bij het ontwikkelen van dit soort items, is de Critical Incident Technique.
Schaalitems moeten altijd een pilot-test ondergaan
Chapter 3
Na definitie en operationalisatie van een construct, moet een responsschaal worden ontwikkeld.
Keuze 1: Open (gestructureerd/ongestructureerd) versus gesloten vragen (dichotoom en continu).
Keuze 2: Snelheidstest versus powertest.
Keuze 3: Ipsatieve versus normatieve schalen.
Keuze 4: Verschilscores versus veranderscores
Een meerkeuzevraag is een voorbeeld van een dichotome vraag.
De populairste continue schaal is de gesommeerde ratingschaal (summated-rating scale; Likert-schaal). Hiermee kunnen attidunale items worden gemeten.
Overwegingen bij het creëren van een Likert-schaal:Schaallengte
Neutrale middelpunt
Wel of geen ‘weet ik niet’ optie?
Wel of geen items met een negatieve valentie?
Andere soorten continue schalen: visuele analoge schalen, picturale schalen en adjectieve schalen.
Chapter 4
Na het maken van items, moet data worden verzameld door participanten de test/ vragenlijst te laten invullen. Hiervoor gebruik je een representatieve steekproef (aselect of select).
Bij aselecte steekproeven selecteer je op willekeurige wijze je participanten. Er zijn vier soorten: (1) eenvoudige willekeurige steekproef, (2) gelaagde/ ‘gestratificeerde’ steekproef, (3) systematische steekproef, en (3) clustersteekproef.
Bij selecte steekproeven worden participanten op onwillekeurige wijze geselecteerd. Er zijn vier soorten: (1) quotasteekproef, (2) gemakssteekproef, (3) sneeuwbal-steekproef, en (4) theoretische/’purposive’ steekproef.
Behalve de representativiteit, heeft ook de grootte van de steekproef invloed op de statistische significantie van de resultaten.
Bij elk onderzoek ontbreekt er altijd wel wat data. Dit kan verschillende oorzaken hebben:
Onderdekking (undercoverage)
Non-respons ontbrekende data
Item non-responsen
Voor je de data gaat analyseren, kan je het best eerst de tijd nemen de data zorgvuldig te screenen.
Chapter 5
De klassieke testtheorie (KTT) is een verzamelnaam voor een aantal theorieën die gebaseerd zijn op hetzelfde fundament; aspecten van een totale testscore die is opgemaakt uit meerdere items. De meeste KTT’s nemen aan dat de ruwe score (X) bestaat uit een ware score (T) en een random error (E): X = T + E
Assumpties bij de theorie van ware en error scores: (1) X = T + E; (2) de random errors rondom de ware score zijn normaal verdeeld; (3) de random errors zijn niet gecorreleerd met de ware score. Als de variantie van de ware score relatief gezien hoog is ten opzichte van de variantie van de geobserveerde score, is de betrouwbaarheid (R) van de test hoog:
Regels rondom KTT:
De standaardmeetfout van een test is consistent binnen een gehele populatie.
Naarmate de test langer wordt, neemt ook de betrouwbaarheid toe.
Meerdere vormen van een bepaalde test dienen gelijk aan elkaar te zijn.
Er wordt aangenomen dat de ware scores binnen een populatie (a) gemeten worden op interval-niveau, en (b) normaal verdeeld zijn.
Er zijn verschillende bronnen van informatie en analyses om er achter te komen of een item bruikbaar is, en hoe deze zich weerhoudt tot andere items: (1) Descriptieve statistieken, (2) moeilijkheidsniveau, (3) discriminatie-index, (4) gebruik van p-waarden om itemcurves te plotten, (5) item-naar-totaal correlaties, (6) item-naar-criterium correlaties, (7) inter-item & item-naar-criterium paradox, en (8) differentiële item-weging.
Chapter 6
De fundamentele assumptie bij moderne testtheorie, of item responstheorie (IRT), is dat er een verband is tussen een respons op elk gegeven item van een test en het kenmerk (latente trek: Θ) dat door de test wordt gemeten. Het kenmerk dat in de IRT modellen wordt geanalyseerd, is het volledige responspatroon op alle testitems door een individu.
IRT-modellen: (1) One-parameter logistic (1PL) model, (2) two-parameter logistic (2PL) model, (3) three-parameter logistic (3PL) model, en (4) meervoudige respons IRT-modellen (nominale, gerangschikte en gedeeltelijke (partial) credit responsen.
Er worden momenteel in de wetenschap twee algemene categorieën van itemschatting toegepast. De eerste categorie maakt gebruik van maximale waarschijnlijkheid en de tweede van Bayesiaanse schatting.
Er zijn twee assumpties binnen IRT, maar ze zijn wel beperkend:
Assumptie 1: De itemkarakteristiekcurves hebben een specifieke vorm.
Assumptie 2: Lokale onafhankelijkheid.
Regels rondom IRT:
De standaardfout van de meting verschilt op verschillende Θ-niveaus.
Verschillende reeksen items zijn het meest geschikt voor respondenten met verschillende Θ-niveaus.
De drie grootste nadelen van IRT: (1) De beperkende assumpties bij gebruik van het model, (2) de grote steekproeven die nodig zijn, en (3) het gebrek aan gebruiksvriendelijke computerprogramma’s.
Chapter 7
De betrouwbaarheid van een test kan o.a. worden berekend door de test-hertest methode.
De betrouwbaarheid van een test kan ook worden onderzocht door middel van de alternatieve vormen benadering (alternative forms approach). Deze benadering is ontwikkeld om problemen zoals overdrachtseffecten en situationele veranderingen tegen te gaan.
Er zijn vier methoden die de interne consistentie tussen items meten:
Split-haft methode
Cronbach’s alpha (α)
Theta coëfficiënt (θ)
Kuder-Richardson 21 (KR21)
De betrouwbaarheidsintervallen van een bepaalde score kunnen worden vastgesteld aan de hand van de betrouwbaarheidscoëfficiënt.
Hoe lager de correlatie tussen twee tests, hoe hoger de betrouwbaarheid van de verschilscore.
Chapter 8
Een andere manier om de betrouwbaarheid van een test te meten, is de interbeoordelaarsbetrouwbaarheid. Dit kan, afhankelijk van het soort data, aan de hand van diverse statistieken worden onderzocht:
Percentage van observeerder overeenkomst (observer agreement percentage)
Interobserveerderscorrelaties (inter-observer correlations)
Kendall’s concordantiecoëfficiënt (coefficient of concordance)
Cohen’s Kappa-coëfficiënt
Gemiddelde deviatie-index (average deviation index; AD)
Betrouwbaarheidsscores kunnen gegeneraliseerd worden naar andere steekproeven (= betrouwbaarheidsgeneralisatie).
De betrouwbaarheid van een test is vooral gebonden aan testitems en niet aan de test zelf.
Chapter 9
De validiteit van een test/onderzoek kan worden beoordeeld op basis van: (1) feedback van participanten (indruksvaliditeit/face validity, door middel van een pilot studie), (2) Subject-Matter Experts (inhoudsvaliditeit/content validity), (3) correlatie of regressieanalyses (criterium-gerelateerde validiteit/criterion-related validity).
Criterium-gerelateerde studies berusten op het meten van de relatie tussen een test (voorspeller) en uitkomst (criterium).
Criteriumstudies kunnen gelijktijdig of voorspellend gebruikt worden.
Gelijktijdige onderzoeken (concurrent studies)
Postdictieve studies
Predictieve criterium-gerelateerde studies
Twee veelvoorkomende problemen bij correlationele studies:
Beperking van bereik (range restriction):
Steekproefgrootte
Chapter 10
De hoogte van de validiteit van de gevonden conclusies uit testscores kan berekend worden aan de hand van de interne structuur van testitems. Analyses die hiervoor kunnen worden gebruikt:
Principale componentenanalyse (hoofdcomponentenanalyse; PCA)
Gemeenschappelijke factoranalyse (common factor analysis; CFA)
Analyses over de covariantiestructuur
Het aantal componentvergelijkingen (PC’s) dat bij PCA gegenereerd wordt, is gelijk aan het aantal testitems.
Een van de meest belangrijke verschillen tussen PCA en CFA is dat CFA ervan uitgaat dat de items worden gemeten met error.
Een van de onzekerheden bij CFA is hoeveel factoren geëxtraheerd zullen worden. In PCA is het aantal items het aantal PC’s. In CFA is de schatting van het aantal factoren het aantal wezenlijke principale componenten.
Testscores kunnen door diverse factoren worden aangetast:
Respons bias
Gebrekkige motivatie
Stemming van de respondenten
Sociale wenselijkheid
Bewust invullen van een test
Chapter 11
Ethische en professionele onderzoeksrichtlijnen zijn gedocumenteerd in naslagwerken, zoals: “The Standards for Educational and Psychological Testing & The Ethical Principles of Psychologists and Code of Conduct”.
Een test kan zowel groepsgewijs als individueel worden afgenomen. Over het algemeen moet de ruimte waarin de test wordt afgenomen prettig zijn en er mogen geen afleidende factoren in de ruimte aanwezig zijn.
Problemen van integriteittests:
De termen integriteit en eerlijkheid worden vaak door elkaar gehaald, maar zijn niet hetzelfde construct.
Er bestaat zeer veel testmethoden om integriteit te meten, maar het levert veel verschillende soorten informatie op.
De mate van voorspellende validiteit is vaak niet (goed) aangetoond.
Respondenten krijgen achteraf vaak niet te horen hoe ze de test hebben gemaakt en wat er met de score gedaan is (wat volgens de richtlijnen wel zou moeten).
Een belangrijke bijdrage van de computer aan de wereld van tests is computer adaptief testen (computer adaptive testing; CAT).
Methoden om een schaal te vertalen naar een andere taal:
Directe vertaling (direct translation)
Terugwaartse vertaling (back translation)
Samenvoeging (merging)
Review
Chapter 12
Een assumptie van alle algemene intelligentietests is dat sommige individuen beter in staat zijn om van ervaringen te profiteren en leren dan anderen, en dat deze individuen hogere niveaus van algemeen geestelijk vermogen hebben. De reviews zijn beperkt tot de Stanford-Binet intelligentietest en de Wechsler intelligentietest.
De Scholastic Assessment Tests (SAT) en de Graduate Record Examination (GRE) zijn ontwikkeld om kennis of vaardigheden op het gebied van academische prestaties te meten.
Gestructureerde persoonlijkheidstests proberen diverse persoonlijkheidstrekken in kaart te brengen door respondenten te vragen om aan te geven in hoeverre een item of stelling wel of niet bij hen past. Voorbeelden: California Psychological Inventory (CPI) en NEO Personality Inventory (Revised) (NEO-PI-R).
Tot slot worden psychologische tests toegepast om individuen te assisteren bij het maken van beroeps- en carrièrekeuzes. Voorbeelden van dergelijke tests: Strong Vocational Interest Black (SVIB, later Strong-Campbell Interest Inventory/SCII) en de Self-Directed Search (SDS).
Abonneechapter met oefenvragen per chapter van Psychological Testing - Kline - 1e druk
Chapter 1
1. Wat is het verschil tussen een conceptuele en operationele definitie van een construct?
2. De meest rudimentaire meetschaal is de:
A. ordinale meetschaal
B. nominale meetschaal
C. interval meetschaal
D. ratio meetschaal
3. Het meest verfijnde meetniveau is de ..(1).. meetschaal, waarbij de getallen in een bepaalde hiërarchie zijn geordend. In tegenstelling tot de ..(2).. meetschaal bevatten de getallen nu meer informatie.
A. (1) interval; (2) ordinale
B. (1) ordinale; (2) interval
C. (1) interval; (2) nominale
D. (1) ratio; (2) interval
4. Het ..(1).. niveau van meten voorziet van de meeste informatie over getallen, aangezien het alle kenmerken van meten op ..(2).. niveau heeft en er daarnaast sprake is van een absoluut nulpunt.
A. (1) interval; (2) ordinaal
B. (1) interval; (2) ratio
C. (1) ratio; (2) interval
D. (1) ratio; (2) ordinaal
5. Wat gebruikt men om de α-waarde voor een bepaalde statistische toets vast te stellen en om te beslissen of de nulhypothese wel of niet verworpen kan worden?
A. Steekproefgroottes
B. Steekproefverdelingen
C. Steekproefkaders
D. Steekproefvarianties
6. Noem een overeenkomst en een verschil tussen correlatie en regressie.
7. De getallen die aan ruwe scores zijn verbonden krijgen alleen betekenis in de context van een groep scores waarnaar verwezen kan worden. Hoe wordt deze vergelijkende informatie ook wel genoemd?
A. Normatieve informatie
B. Referentie informatie
C. Representatieve informatie
D. Objectieve informatie
8. Het wordt lastig een construct te meten wanneer de variabelen geen perfecte representatie zijn van het construct. Op welke twee mogelijke manieren komen deze imperfecties voor? Licht beide mogelijkheden toe.
Chapter 2
9. Wat zijn Subject Matter Experts?
10. Welke factoren moeten uitwijzen hoeveel items een test nodig heeft?
A. Het aantal Subject Matter Experts en het aantal constructen
B. Het aantal proefpersonen en de lengte van het onderzoek
C. Het aantal constructen en het aantal proefpersonen
D. Het aantal constructen en de lengte van het onderzoek
11. Een leerkracht moet de prestaties van student 1 vergelijken met die van studenten 2-5; die van student 2 met student 1 en 3-5, etc. Waar is dit een voorbeeld van?
A. Lineaire vergelijkingen
B. Numerieke vergelijkingen
C. Verschil-vergelijkingen
D. Gepaarde vergelijkingen
12. Wat is het verschil tussen items in gerangschikte categorieën en items in categorieën op intervalniveau?
13. In welke schalen worden stimuli (testitems) gepresenteerd in volgorde van toenemende extreme meningen?
A. Likert-schalen
B. Guttman-schalen
C. Gesommeerde ratingschalen
D. Adjectieve schalen
Chapter 3
14. Iedereen uit je klas vragen om op te schrijven wat hun favoriete televisieprogramma van de zondagavond is, is een voorbeeld van een:
A. Gesloten vraag
B. Gerichte vraag
C. Gestructureerde open vraag
D. Ongestructureerde open vraag
15. Noem een voordeel en een nadeel van open vragen ten opzichte van gesloten vragen.
16. (1) Een dichotome vraag is een gesloten vraag; (2) Een dichotome vraag wordt vaak met een 0 of 1 gescoord.
A. Stelling 1 is juist; Stelling 2 is onjuist
B. Stelling 2 is juist; Stelling 1 is onjuist
C. Beide stellingen zijn juist
D. Beide stellingen zijn onjuist
17. Stel er is bij de vraag “Ben je blij vandaag?” sprake van een valse dichotomie, hoe kan de testontwikkelaar dit dan oplossen?
18. Noem vier richtlijnen waaraan de antwoordmogelijkheden van een meerkeuzevraag moeten voldoen.
19. Een tentamen bestaat uit 80 meerkeuzevragen met vier mogelijke alternatieven per vraag. Een student beantwoordt alle vragen en heeft hij er 65 goed beantwoord. Bereken de gecorrigeerde score voor gokken.
20. (1) Bij een powertest wordt ervan uitgegaan dat in ieder geval 95% van alle respondenten ongeveer even lang doet over het invullen van een test; (2) Snelheidstests zijn alleen maar geschikt wanneer snelheid belangrijk is voor het onderliggende construct.
A. Stelling 1 is juist; Stelling 2 is onjuist
B. Stelling 2 is juist; Stelling 1 is onjuist
C. Beide stellingen zijn juist
D. Beide stellingen zijn onjuist
21. Een test bestaat uit 25 items, waarbij iedere vraag vijf antwoordmogelijkheden heeft. Respondent A vult alleen items 1-18 en 21-25 in. Bereken de omitted corrected score van respondent A.
22. De … schaal is een methode die het mogelijk maakt om moeilijk te kwantificeren gegevens toch op ordinaal meetniveau te behandelen.
A. Likert
B. Guttman
C. Normatieve
D. Ipsatieve
23. Wat wordt verstaan onder items met negatieve valentie?
24. Onderstaande schaal is een voorbeeld van een:
A. Likert-schaal
B. Visueel-analoge schaal
C. Polair adjectieve ratingschaal
D. Attitudinale ratingschaal
Voorbeeld
1. stil | luidruchtig | |||||
2. oprecht | onoprecht | |||||
3. blij | verdrietig |
25. Wat is het verschil tussen een normatieve en ipsatieve schaal?
Chapter 4
26. Wat is géén voorbeeld van een aselecte steekproef?
A. Eenvoudige willekeurige steekproef
B. Systematische steekproef
C. Clustersteekproef
D. Theoretische of ‘purposive’ steekproef
27. Wat zijn de vereisten voor een aselecte steekproef?
28. (1) Bij een clustersteekproef is de populatie onderverdeeld in verschillende subpopulaties die niet met elkaar overlappen; (2) Bij een gelaagde worden alle elementen systematisch gekozen om deel te nemen aan het onderzoek.
A. Stelling 1 is juist; Stelling 2 is onjuist.
B. Stelling 2 is juist; Stelling 1 is onjuist.
C. Beide stellingen zijn juist.
D. Beide stellingen zijn onjuist.
29. Bij welk type steekproef verdeel je de populatie in heterogene subgroepen waaruit weer een steekproef wordt getrokken?
A. Gelaagde steekproef
B. Clustersteekproef
C. Systematische steekproef
D. Eenvoudige willekeurige steekproef
30. Noem een voordeel en een nadeel met betrekking tot selecte steekproeven.
31. (1) De grootte van de steekproef heeft invloed op de representativiteit van de steekproef; (2) Het powerniveau is de mate waarin verwacht kan worden dat de nulhypothese ondersteund kan worden.
A. Stelling 1 is juist; Stelling 2 is onjuist
B. Stelling 2 is juist; Stelling 1 is onjuist
C. Beide stellingen zijn juist
D. Beide stellingen zijn onjuist
32. Noem drie mogelijke oorzaken van incomplete data. Licht de oorzaken toe.
Chapter 5
33. (1) De domein sampling theorie stelt dat de items die voor een test geselecteerd zijn, nauwkeurig uitgezocht zijn uit een oneindig domein van potentiële items; (2) Hoe meer random error er in de meting zit, hoe meer de ruwe score de ware score reflecteert.
A. Stelling 1 is juist; Stelling 2 is onjuist
B. Stelling 2 is juist; Stelling 1 is onjuist
C. Beide stellingen zijn juist
D. Beide stellingen zijn onjuist
34. Noem de drie assumptie van de theorie van ware en error scores.
35. (1) Hoe hoger de standaardmeetfout, hoe dichter de random errors zich om de ware score bevinden; (2) Als de variantie van de ware score relatief hoog is ten opzichte van de variantie van de geobserveerde score, is de betrouwbaarheid van de test hoog.
A. Stelling 1 is juist; Stelling 2 is onjuist
B. Stelling 2 is juist; Stelling 1 is onjuist
C. Beide stellingen zijn juist
D. Beide stellingen zijn onjuist
36. De wortels van de kwesties rondom problemen met verschil- en veranderscores zijn gelegen in de klassieke testtheorie (KTT), hoe komt dit? Noem drie redenen.
37. Aan de hand van welke waarden kunnen per dichotoom item discriminatie-indexen worden berekend?
A. d-waarden
B. α-waarden
C. F-waarden
D. p-waarden
38. (1) Wanneer een schaal bewust gecreëerd wordt om heterogene constructen te vangen, zodat de items gerelateerd kunnen worden aan scores op een veelzijdig criterium, dan zullen de items lage inter-item correlaties hebben. (2) Differentiële item-weging vindt plaats wanneer items meer of minder gewicht krijgen toegewezen wanneer ze worden gecombineerd in een totale score.
A. Stelling 1 is juist; Stelling 2 is onjuist
B. Stelling 2 is juist; Stelling 1 is onjuist
C. Beide stellingen zijn juist
D. Beide stellingen zijn onjuist
Chapter 6
39. (1) De fundamentele assumptie bij moderne testtheorie (item responstheorie; IRT) is dat er een verband bestaat tussen een respons op elk gegeven items van een test en het kenmerk dat door de test gemeten wordt; (2) Dit kenmerk wordt ook wel het volledige responspatroon genoemd.
A. Stelling 1 is juist; Stelling 2 is onjuist
B. Stelling 2 is juist; Stelling 1 is onjuist
C. Beide stellingen zijn juist
D. Beide stellingen zijn onjuist
40. Welk IRT-model wordt ook wel het Rasch-model genoemd?
A. One-Parameter Logistic (1PL) model
B. Two-Parameter Logistic (2PL) model
C. Three-Parameter Logistic (3PL) model
D. Meervoudige respons IRT-model
41. Met welke waarde geeft men de gokparameter weer?
A. a-waarde
B. b-waarde
C. c-waarde
D. Θ-waarde
42. Noem de drie kenmerken van de belangrijkste meervoudige respons IRT-modellen.
43. Wat is het verschil tussen maximale waarschijnlijkheidsschattingen en Bayesiaanse schattingen?
44. Hoewel de voorkeur uitgaat naar maximale waarschijnlijkheidsschattingen, wordt hier vaak niet voor gekozen. Waarom niet?
45. (1) Een maximale a posteriori (MAP) benadering maakt gebruik van een prior verdeling om de Θ-niveaus van respondenten te schatten; (2) MAP-benaderingen blijven herhalen tot de meest waarschijnlijke schatting van Θ is gevonden.
A. Stelling 1 is juist; Stelling 2 is onjuist
B. Stelling 2 is juist; Stelling 1 is onjuist
C. Beide stellingen zijn juist
D. Beide stellingen zijn onjuist
46. Welk van de onderstaande manier is geen manier om de model fit te berekenen?
A. De χ2 statistiek
B. Het onderzoeken van de gedeeltelijke credit items
C. Het onderzoeken van de plot van gestandaardiseerde residuen
D. Het onderzoeken van de hoeveelheid informatie die elk item oplevert over de latente trek op diverse Θ-waarden
47. Wat zijn de twee assumpties binnen IRT? Licht beide assumpties toe.
48. Noem minstens vier voordelen van IRT ten opzichte van KTT.
49. Wat zijn de drie grootste nadelen van IRT?
Chapter 7
50. Wat geeft de betrouwbaarheid van een test aan?
51. Leg uit wat de test-hertest methode inhoudt.
52. Bij welke methode neem je twee verschillende testen die exact hetzelfde zouden moten meten af bij dezelfde proefpersoon?
A. Alternatieve vormen benadering
B. Test-hertest benadering
C. Split-half methode
D. Samengestelde schaal-methode
53. Wat is geen methode om de interne consistentie van een test te meten?
A. Split-half methode
B. Cronbach’s alpha (α)
C. Correlatie coëfficiënt (Pearson’s r)
D. Kuder-Richardson 21 (KR21)
54. (1) De betrouwbaarheid van verschilscores is hoger dan de betrouwbaarheid van de twee componenten waartussen het verschil zit; (2) Hoe lager de correlatie tussen de twee testen, hoe hoger de betrouwbaarheid van de verschilscore.
A. Stelling 1 is juist; Stelling 2 is onjuist
B. Stelling 2 is juist; Stelling 1 is onjuist
C. Beide stellingen zijn juist
D. Beide stellingen zijn onjuist
55. Wanneer is het wel en niet nuttig om een test met andere testen te combineren?
Chapter 8
56. (1) Interbeoordelaarsbetrouwbaarheidsindexen zijn betrouwbaarheidsindexen die aangeven in hoeverre de oordelen tussen beoordelaars consistent zijn; (2) Het zijn de testscores, in plaats van de testen zelf, die in meer of mindere mate betrouwbaar zijn.
A. Stelling 1 is juist; Stelling 2 is onjuist
B. Stelling 2 is juist; Stelling 1 is onjuist
C. Beide stellingen zijn juist
D. Beide stellingen zijn onjuist
57. Noem twee nadelen van het observeerder overeenkomstpercentage (observer agreement percentage).
58. Welke coëfficiënt geeft aan in welke mate de verschillende beoordelaars het met elkaar eens zijn?
A. Kendall’s concordantiecoëfficiënt
B. Cohen’s Kappa-coëfficiënt
C. Intraklasse correlatiecoëfficiënt
D. Pearson’s product moment correlatiecoëfficiënt
59. Welke statistische maat wordt veel gebruikt om de mate van intra- of interbeoordelaarsbetrouwbaarheid vast te stellen?
A. Kendall’s concordantiecoëfficiënt
B. Cohen’s Kappa-coëfficiënt
C. Intraklasse correlatiecoëfficiënt
D. Interobserveerderscorrelaties
60. Leg uit hoe de betrouwbaarheid van een test kan worden berekend aan de hand van de gemiddelde deviatie-index.
Chapter 9
61. (1) Als je de validiteit van een test wilt beoordelen, kun je beter niet de participanten om feedback vragen; (2) Subject Matter Experts kunnen bijdragen aan een hogere validiteit van een test.
A. Stelling 1 is juist; Stelling 2 is onjuist
B. Stelling 2 is juist; Stelling 1 is onjuist
C. Beide stellingen zijn juist
D. Beide stellingen zijn onjuist
62. Hoe wordt het advies van experts over de testafnameprocedures ook wel genoemd?
A. indruksvaliditeit (face validity)
B. inhoudsvaliditeit (content validity)
C. criterium validiteit (criterion validity)
D. voorspeller validiteit (predictor validity)
63. Eén variabele wordt gebruikt om een andere variabele te voorspellen. Van welke validiteit is hier sprake?
A. indruksvaliditeit (face validity)
B. inhoudsvaliditeit (content validity)
C. criterium validiteit (criterion validity)
D. Voorspeller validiteit (predictor validity)
64. Wat is het verschil tussen postdictieve en predictieve studies?
65. Wat zijn twee veelvoorkomende problemen bij correlationele studies? Licht beide problemen toe.
66. (1) Over het algemeen zijn testen beter als ze resulteren in differentiële validiteitscoëfficiënten voor dezelfde identificeerbare subgroepen; (2) Er is sprake van synthetische validiteit als er maximaal vier testen als voorspeller worden gebruikt.
A. Stelling 1 is juist; Stelling 2 is onjuist
B. Stelling 2 is juist; Stelling 1 is onjuist
C. Beide stellingen zijn juist
D. Beide stellingen zijn onjuist
Chapter 10
67. Welke analysemethode wordt in de statistiek gebruikt om een grote hoeveelheid gegevens te beschrijven door middel van een kleiner aantal relevante grootheden?
A. Factoranalyse (CFA)
B. Principale componentenanalyse (PCA)
C. Covariantiestructuur analyse (ACS)
D. Meta-analyse
68. (1) De variantie van items die geassocieerd is met de error wordt unieke variantie genoemd; (2) De variantie van items die geassocieerd is met de error, omvat alleen systematische error.
A. Stelling 1 is juist; Stelling 2 is onjuist
B. Stelling 2 is juist; Stelling 1 is onjuist
C. Beide stellingen zijn juist
D. Beide stellingen zijn onjuist
69. Wanneer er geen theorie beschikbaar is die gebruikt kan worden als richtlijn voor het interpreteren van componenten, wat is dan de meest gebruikelijke vuistregel?
70. (1) Het aantal componentvergelijkingen wat gegenereerd wordt, is gelijk aan het aantal testitems; (2) Als de PC’s berekend zijn, stelt men vervolgens de extractievraag.
A. Stelling 1 is juist; Stelling 2 is onjuist
B. Stelling 2 is juist; Stelling 1 is onjuist
C. Beide stellingen zijn juist
D. Beide stellingen zijn onjuist
71. Wat is het verschil tussen een orthogonale rotatie en een schuine (oblique) rotatie?
72. Hoe komt het dat de eigenwaarden die geassocieerd zijn met een CFA veel kleiner zijn dan de eigenwaarden die geassocieerd zijn met een PCA?
73. Testscores kunnen door diverse factoren worden aangetast. Noem er vier en licht ze toe.
Chapter 11
74. Waar hoeven individuen die deelnemen aan een test niet over geïnformeerd te worden?
A. Het doel van de test
B. De betekenis van de scores van de test
C. De implicaties van de scores
D. Geen van bovenstaande antwoorden
75. Het testen van integriteit onder werknemers is zeer populair aan het worden. Elke werkgever wil graag de meest eerlijke en oprechte mensen aannemen. Dit heeft er toe geleid dat er bij een sollicitatieproces nu ook tests worden afgenomen die de eerlijkheid en integriteit van de sollicitanten meet. Noem drie nadelen van deze integriteitstests.
76. Hoe werkt computer adaptief testen?
77. Noem een voordeel en een nadeel van computer adaptieve tests.
78. (1) Er is sprake van testitem bias als iemand van tevoren oefent met soortgelijke items; (2) Om te achterhalen of er sprake is van testitem bias, kan je een t-toets of IRT-programma gebruiken.
A. Stelling 1 is juist; Stelling 2 is onjuist
B. Stelling 2 is juist; Stelling 1 is onjuist
C. Beide stellingen zijn juist
D. Beide stellingen zijn onjuist
79. Welke van de onderstaande methoden is geen methode om een schaal naar een andere taal te vertalen?
A. Terugwaartse vertaling (back translation)
B. Voorwaartse vertaling (forth translation)
C. Samenvoeging (merging)
D. Alle bovenstaande methoden kunnen worden toegepast om een schaal te vertalen.
Chapter 12
80. Waarom moet men voorzichtig zijn met het gebruiken van scores van individuele subtests van de Stanford-Binet intelligentietest voor het trekken van conclusies over de intelligentie van een participant?
81. (1) In tegenstelling tot de Stanford-Binet test zijn de subtest betrouwbaarheden van de WAIS-III aanzienlijk …; (2) De meeste subtests van de WAIS-III zijn redelijk … met elkaar gecorreleerd.
A. (1) lager; (2) laag
B. (1) lager; (2) hoog
C. (1) hoger; (2) laag
D. (1) hoger; (2) hoog
82. Wat is geen primair component van de algemene Graduate Record Examination (GRE)?
A. Verbaal component (GRE-V)
B. Kwantitatief component (GRE-Q)
C. Analytisch schrijven (GRE-A)
D. Bovenstaande componenten zijn allemaal primaire componenten van de algemene GRE.
83. Wat is het verschil tussen deductieve en empirische persoonlijkheidsbenaderingen?
84. (1) De California Psychological Inventory (CPI) gaat uit van de … persoonlijkheidsbenadering; (2) De … is ontworpen om vijf primaire persoonlijkheidsdimensies te meten bij normale volwassenen van 20-80 jaar oud.
A. empirische; NEO Personality Inventory (Revised) (NEO-PI-R)
B. empirische; CPI
C. deductieve; NEO-PI-R
D. deductieve; CPI
Antwoorden
Chapter 1
1. De conceptuele definitie van een construct is de definitie die de onderzoeker aan een construct geeft dat hij wil meten. De operationele definitie van een construct is de manier waarop het construct wordt geoperationaliseerd; de manier waarop het construct wordt gemeten.
2. B: Nominale meetschaal
3. A: (1) interval; (2) ordinale
4. C: (1) ratio; (2) interval
5. B: Steekproefverdelingen
6. Overeenkomst: Regressie en correlatie zijn beide analyses van lineaire relaties tussen variabelen.
Verschil: Bij regressie is één van de variabelen afhankelijk van de andere variabele(n). Bij correlatie is er slechts een relatie.
7. A: Normatieve informatie
8. Deficiëntie en contaminatie. In het geval van deficiëntie is het construct niet toereikend genoeg om het onderzoeksgebied volledig te omvatten. In het geval van contaminatie is er sprake van ‘vervuiling’ van een gemeten construct doordat de meting ook informatie heeft gemeten die geen deel uitmaakt van het construct.
Chapter 2
9. Personen die expert zijn op het gebied van een bepaald onderwerp.
10. D: Het aantal constructen en de lengte van de vragenlijst
11. D: Gepaarde vergelijkingen
12. In het geval van items in gerangschikte categorieën wordt een aantal beoordelaars gevraagd om stimuli te rangschikken over een bepaalde dimensie. In het geval van items in categorieën op intervalniveau wordt een aantal beoordelaars gevraagd om een aantal stimuli in een bepaald aantal categorieën te plaatsen. Iedere categorie representeert min of meer een bepaalde dimensie.
13. B: Guttman schalen
Chapter 3
14. C: Gestructureerde open vraag
15. Een nadeel is dat het verzamelen en interpreteren van de antwoorden op open vragen veel meer tijd kost dan bij gesloten vragen. Een voordeel is dat door het stellen van open vragen de informatie die je verzamelt meer details en diepgang bevat dan bij gesloten vragen het geval is.
16. C: Beide stellingen zijn juist
17. De vraag moet dan hergeformuleerd worden naar: “op een schaal van 1 tot 10, waarbij 1 helemaal niet blij en 10 heel erg blij, hoe blij voel jij je vandaag?”
18. Noem vier van de volgende richtlijnen:
Ze moeten geloofwaardig zijn.
Alle antwoordmogelijkheden moeten qua lengte en grammatische structuur gelijk zijn.
Houd de antwoordmogelijkheden kort en bondig en probeer zoveel mogelijk informatie te stoppen in het item/de stam (de vraag) zelf.
Maak geen twee distractoren die allebei hetzelfde betekenen; oplettende respondenten zullen dit opmerken.
Zet nooit de distractoren telkens op dezelfde plek, bijvoorbeeld altijd bij antwoord optie B. Ook dit zal snel door de respondenten opgemerkt worden.
Gebruik antwoordmogelijkheden als ‘al het bovengenoemde’ of ‘geen van de bovenstaande antwoorden’ zo min mogelijk.
Zorg ervoor dat alle antwoordmogelijkheden overeenkomen met de stam (de vraag).
19. Gecorrigeerde score = 80 – (15/3), = 80 – 5 = 75.
20. B: Stelling 2 is juist; stelling 1 is onjuist
21. Omitted corrected score = 1/5 x 2 + 25 = 25.4
22. A: Likert
23. Dit zijn de items waarvan je de scores eerst moet omkeren alvoren alle scores bij elkaar op te tellen.
24. C: Polair adjectieve ratingschaal
25. Bij normatieve schalen is er voor elk construct een aparte meetschaal en bij ipsatieve schalen is er voor iedere individuele respondent een eigen schaal.
Chapter 4
26. D: Theoretische of ‘purposive’ steekproef
27.
dat je als onderzoeker over een lijst beschikt met hierop alle elementen (personen) uit je gekozen populatie,
elk afzonderlijk element een gelijke kans biedt om in de steekproef te komen.
een selectieproces waar het selecteren van het ene element geen effect heeft op de kans van selectie van het andere element.
28. D: Beide stellingen zijn onjuist.
29. B: Clustersteekproef
30. Een voordeel van selecte steekproeven is dat ze in staat zijn om causale verbanden te trekken tussen twee variabelen. Het nadeel bij deze steekproeven is dat de resultaten nooit echt goed generaliseerbaar zijn.
31. B: Stelling 2 is juist; Stelling 1 is onjuist
32.
onderdekking (undercoverage): dit is de data die ontbreekt doordat sommige potentiële respondenten door de steekproef waren uitgesloten van het onderzoek, terwijl dit had eigenlijk niet zo had mogen zijn.
non-respons ontbrekende data: dit betekent dat er respondenten zijn die:
Helemaal niet gereageerd hebben.
De vragenlijst/onderzoek niet hebben afgemaakt.
Niet de nodige informatie hebben doorgegeven.
De vragenlijsten wel hebben ingevuld, maar het ingevulde blijkt om wat voor een reden dan ook onbruikbaar.
item non-responsen: in dit geval worden sommige items niet ingevuld, waardoor delen van sommige verder wel ingevulde vragenlijsten in de analyse niet kunnen worden meegenomen.
Chapter 5
33. D: Beide stellingen zijn onjuist
34. (1) De ruwe score bestaat uit een ware score en random error; (2) de random errors rondom de ware score zijn normaal verdeeld; (3) de random errors zijn niet gecorreleerd met de ware score.
35. B: Stelling 2 is juist; Stelling 1 is onjuist
36. (1) Het probleem is dat de veranderingen in scores van tijdstip 1 naar tijdstip 2 niet waarschijnlijk dezelfde magnitude hebben als de oorspronkelijke niveaus van scores op één tijdstip; (2) Daarnaast suggereert KTT in het geval van dichotome itemresponses dat ze niet moeten worden onderworpen aan factoranalyse. Dit veroorzaakt problemen bij het vaststellen van de validiteit van veel tests die het cognitieve vermogen meten, waar antwoorden worden gecodeerd als goed of fout; (3) Ten slotte verdwijnen de itemstammen vaak uit het analytische proces als ze eenmaal door experts zijn gecreëerd en onderworpen aan inhoudelijke analyse.
37. D: p-waarden
38. C: Beide stellingen zijn juist
Chapter 6
39. A: Stelling 1 is juist; Stelling 2 is onjuist
40. A: 1PL model
41. C: c-waarde
42. De belangrijkste meervoudige respons IRT-modellen moeten (1) nominale antwoordcategorieën hebben, (2) beschikken over gerangschikte responsen, en (3) toestaan dat gedeeltelijke credit wordt gegeven aan een vraag die uit meerdere delen bestaat.
43. Maximale waarschijnlijkheid schattingsprocedures schatten persoon- en itemparameters die het meest waarschijnlijk het antwoordpatroon in een reeks items repliceert. Bij Bayesiaanse schattingen wordt de waarschijnlijkheidseigenschap geschat door een prior verdeling te vermenigvuldigen om de nieuwe latere verdeling te verkrijgen.
44. Voor maximale waarschijnlijkheidsschattingen zijn grote steekproeven van zowel items als respondenten nodig.
45. C: Beide stellingen zijn juist
46. B: Het onderzoeken van de gedeeltelijke credit items
47. Assumptie 1: de itemkarakteristiek curves hebben een specifieke vorm. Dit betekent dat als de itemkarakteristiek curves zijn gespecificeerd naar het zijn van LP2 en eendimensionaal, dan zou dit model moeten passen bij de itemdata.
Assumptie 2: Lokale onafhankelijkheid. Dit betekent dat de respons op één item geen effect heeft op de respons op de andere items.
48. Vier van de volgende voordelen:
Items kunnen worden getest of zij wel of niet bij een bepaald model passen.
Items kunnen worden beoordeeld op hun werking (gunstig of nadelig) bij sommige demografische groepen.
Er kunnen nieuwe items worden toegevoegd en deze kunnen vervolgens beoordeeld worden of zij wel goed functioneren.
Testen die in verschillende talen worden afgenomen kunnen worden beoordeeld op itemniveau voor differentiaal functioneren.
Items die bepaalde karakteristieken hebben, kunnen óf worden verwijderd, óf worden toegevoegd.
De manier waarop respondenten gebruik maken van het neutrale middelpunt kan adequaat worden gemodelleerd. Hierdoor kan het nut van het neutrale middelpunt binnen de vragenlijst worden vastgesteld.
Ongewone responsstijlen van een individu kunnen gedetecteerd en geduid worden.
49. (1) De beperkende assumpties bij gebruik van het model; (2) De grote steekproeven die nodig zijn; (3) Het gebrek aan gebruiksvriendelijke computerprogramma’s.
Chapter 7
50. In hoeverre een test altijd hetzelfde meet.
51. De test-hertest methode houdt in dat je dezelfde test twee keer bij dezelfde respondent afneemt. Deze twee scores kunnen vervolgens naast elkaar in een tabel worden gezet. Zo kun je aflezen wat de correlatie is tussen twee metingen van dezelfde test bij dezelfde proefpersoon.
52. A: Alternatieve vormen benadering
53. C: Correlatie coëfficiënt (Pearson’s r)
54. B: Stelling 2 is juist; Stelling 1 is onjuist
55. Het is nuttig om een test met andere testen te combineren als de componenten/schalen homogeen zijn, en de componenten een redelijke hoge interne correlatie hebben. Dit levert namelijk een betrouwbare gecombineerde testscore op. Het combineren van heterogene componenten of schalen is niet nuttig, aangezien de betrouwbaarheid van de heterogene componenten samen lager is dan de betrouwbaarheid van elk component apart. Het is dan ook niet haalbaar om een combinatie te analyseren die bestaat uit variabelen niet aan elkaar gerelateerd zijn.
Chapter 8
56. C: Beide stellingen zijn juist
57. (1) De mate waarin ze het over een bepaalde observatie eens zijn kan niet in dit percentage worden meegenomen. Deze methode is dus ongevoelig voor de mate waarin twee beoordelaars het met elkaar eens zijn. (2) Dit percentage is gebaseerd op de aanname dat er vooraf al een bepaalde kans bestaat dat er een bepaalde mate van overeenstemming onder de beoordelaars aanwezig is. Dit komt omdat het om een ‘alles of niets’ beoordeling gaat.
58. A: Kendall’s concordantiecoëfficiënt
59. B: Cohen’s Kappa-coëfficiënt
60. Een groep beoordelaars beoordelen een bepaalde stimulus op bijvoorbeeld een 7-punts Likertschaal. Het gemiddelde van de gegeven scores van de beoordelaars wordt hierna uitgerekend. Vervolgens wordt het verschil tussen de score van elke beoordelaar en het gemiddelde uitgerekend. Uit al deze verschillen wordt dan weer een gemiddelde berekend en dit is dan de ‘AD’ voor een item. Hoe kleiner het getal, des te meer overeenkomst tussen de beoordelaars.
Chapter 9
61. B: Stelling 2 is juist; Stelling 1 is onjuist
62. B: inhoudsvaliditeit (content validity)
63. C: criterium validiteit (criterion validity)
64. Bij postdictieve studies (postdictive studies) worden er gegevens uit het verleden verzameld om uiteindelijk te proberen om iets over de toekomst te zeggen. En bij predictieve criterium-gerelateerde studies (predictive criterion related studies) word eerst de data van de voorspeller verzameld, en een tijd later pas de data van het criterium.
65. (1) Beperking van bereik (range restriction): Het is niet altijd mogelijk om de scores van individuen over het gehele bereik van de voorspeller te meten. Dit heeft als gevolg dat het lastiger is om significante effecten te vinden, terwijl deze er wel zouden zijn als je wel over het gehele bereik zou beschikken. Hiervoor kan een correctie gedaan worden.
(2) Steekproefgrootte: Hoe kleiner de steekproef, hoe groter de benodigde validiteitscoëfficiënt om statistische significantie te bereiken. Voordat je de validiteitcoëfficiënten uit een bepaalde studie gaat interpreteren, is het daarom van belang dat je eerst kijkt naar de grootte en de representativiteit van de steekproef waarover de data (op basis waarvan de validiteitcoëfficiënten zijn gebaseerd) is verzameld.
66. D: Beide stellingen zijn onjuist
Chapter 10
67. B: Principale componentenanalyse (PCA)
68. A: Stelling 1 is juist; stelling 2 is onjuist
69. Eigenwaarden groter dan 1.0.
70. C: Beide stellingen zijn juist
71. Bij een orthogonale rotatie blijven de communaliteiten van elk item hetzelfde als in de oorspronkelijke oplossing. De verschillende factoren worden strikt onafhankelijk van elkaar verondersteld. Bij schuine (oblique) rotatie kunnen de factoren gecorreleerd zijn. Wanneer wordt verwacht dat factoren correleren, is deze rotatie de juiste keuze, omdat het meer nauwkeurige resultaten oplevert.
72. In tegenstelling tot PCA, heeft CFA niet de pretentie om met alle variantie van de items rekening te houden. CFA is geprogrammeerd om alleen rekening te houden met de gemeenschappelijke, of gedeelde variantie in de items. Daarom zijn de eigenwaarden die geassocieerd zijn met een CFA-analyse veel kleiner dan die geassocieerd zijn met een PCA.
73. Vier van de onderstaande factoren:
(1) respons bias: sommige deelnemers kiezen bijvoorbeeld bij de Likertschaal vaker voor het neutrale middelpunt.
(2) gebrekkige motivatie: sommige participanten zijn niet gemotiveerd om adequaat deel te nemen aan een test.
(3) stemming van de participanten: zowel extreem positieve als negatieve stemmingen kunnen invloed hebben op hun testscores.
(4) sociale wenselijkheid: sommige participanten voelen sociale druk om bepaalde antwoorden te geven.
(5) bewuste invulling van een test: participanten kunnen een test expres onjuist invullen om deze slechter te laten lijken. Andersom kan ook, namelijk dat mensen extreem hun best gaan doen om de antwoorden beter te laten doen lijken.
Chapter 11
74. D: Geen van bovenstaande antwoorden
75. Drie van de onderstaande nadelen:
(1) De termen integriteit en eerlijkheid worden vaak door elkaar gehaald, maar zijn niet hetzelfde construct. Bij een selectieprocedure van sollicitanten moet daarom goed duidelijk zijn wat de meetinstrumenten precies meten.
(2) Er bestaat een zeer breed scala aan testmethoden (bijvoorbeeld fysiologische tests en schriftelijke tests) om dit construct te meten die allemaal heel verschillende soorten informatie opleveren.
(3) De mate van voorspellende validiteit is bij veel van deze tests niet aangetoond.
(4) Afname en gebruik van integriteitstests: ethische standaarden eisen dat participanten van te voren goed moeten worden ingelicht en dat zij achteraf moeten horen hoe zij de test gemaakt hebben, en wat er met die score is gedaan. Deze laatste twee standaarden worden bij integriteitstests vaak niet nageleefd.
76. De adaptieve test stelt een vraag. Wanneer deze fout wordt beantwoord, dan stelt de computer een volgende vraag van een ander (lager) niveau.
77. Een groot voordeel van computer adaptieve tests, is dat er minder vragen gesteld hoeven te worden. Er zijn minder vragen nodig, omdat met een klein aantal juiste vragen er al voldoende informatie over het vaardigheidsniveau van de respondent bekend kan worden gemaakt. Een nadeel van dit soort tests is dat het een erg tijdrovende klus is en alle items zorgvuldig gekozen moeten worden.
78. D: Beide stellingen zijn onjuist
79. B: Voorwaartse vertaling (forth translation)
Chapter 12
80. De individuele subtests hebben lagere correlatiecoëfficiënten. De vier-factorstructuur die ondergelegen is aan de test, is niet goed ondersteund.
81. B: (1) lager; (2) hoog
82. D: Bovenstaande componenten zijn allemaal primaire componenten van de algemene GRE.
83. Deductieve benaderingen maken gebruik van theorie en gezond verstand om items te ontwikkelen die ontworpen zijn om diverse aspecten van persoonlijkheid te meten. Empirische benaderingen maken gebruik van statistieken om testontwikkeling en testverfijning te sturen.
84. A: empirische; NEO Personality Inventory (Revised) (NEO-PI-R)
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Contributions: posts
Spotlight: topics
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the summaries home pages for your study or field of study
- Use the check and search pages for summaries and study aids by field of study, subject or faculty
- Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
- Check or follow authors or other WorldSupporters
- Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Main summaries home pages:
- Business organization and economics - Communication and marketing -International relations and international organizations - IT, logistics and technology - Law and administration - Leisure, sports and tourism - Medicine and healthcare - Pedagogy and educational science - Psychology and behavioral sciences - Society, culture and arts - Statistics and research
- Summaries: the best textbooks summarized per field of study
- Summaries: the best scientific articles summarized per field of study
- Summaries: the best definitions, descriptions and lists of terms per field of study
- Exams: home page for exams, exam tips and study tips
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
- Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
- Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
1801 |
Add new contribution