Samenvatting van Psychometrics: An Introduction van Furr en Bacharach - 2e druk

Wat omvat de psychometrie allemaal? Chapter 1 (2)
Wat is belangrijk bij het toekennen van cijfers aan psychologische eigenschappen? Chapter 2 (2)
Wat betekenen variabiliteit en co-variabiliteit? Chapter 3 (2)
Wat zijn dimensies en factoranalyse? Chapter 4 (2)
Wat houdt het basisbegrip betrouwbaarheid in? Chapter 5 (2)
Hoe kunnen empirische schattingen gedaan worden? Chapter 6 (2)
Wat is het belang van betrouwbaarheid? Chapter 7 (2)
Hoe ziet de conceptuele basis van validiteit er uit? Chapter 8 (2)
Wat is er allemaal van belang bij validiteit? Chapter 9 (2)
Welke soorten reactiebias zijn er? Chapter 10 (2)
Welke soorten testbias zijn er? Chapter 11 (2)
Hoe ziet een confirmatieve factoranalyse er uit? Chapter 12 (2)
Wat stelt de Generalizability Theory? Chapter 13 (2)
Wat stelt de Item Reactie Theorie en hoe ziet het Rasch model er uit? Chapter 14 (2)

Wat omvat de psychometrie allemaal? Chapter 1 (2)

Juiste testinterpretaties en testgebruik zijn van grote waarde voor zowel testgebruikers als voor mensen die getest worden. Om je onderzoek juist te interpreteren en je bevindingen op een betekenisvolle manier te verwerken, moet je de data kritisch evalueren. Dit boek gaat over de belangrijkste eigenschappen van instrumenten die door psychologen worden gebruikt om psychologische processen, attributen en attitudes te meten.

Observeerbaar gedrag en onobserveerbare psychologische attributen

Psychologen gebruiken instrumenten om observeerbare situaties in de fysieke wereld te meten. Soms meten psychologen een bepaald soort gedrag puur omdat ze geïnteresseerd zijn in dat specifieke gedrag op zich. Maar voornamelijk meten gedragswetenschappers het menselijk gedrag om onobserveerbare psychologische attributen te meten. We identificeren dan een bepaald observeerbaar gedrag en nemen aan dat dit een bepaald onobserveerbaar psychologisch proces, attribuut of attitude representeert. Je moet er wel voor zorgen dat wat je gaat meten ook datgene is wat je beoogt te meten. In de sociale wetenschap wordt vaak gebruik gemaakt van theoretische concepten, zoals kortetermijngeheugen, om verschillen in menselijk gedrag te verklaren. Psychologen noemen deze theoretische concepten hypothetische constructen of latente variabelen. Het zijn theoretische psychologische eigenschappen, attributen, processen of toestanden die niet direct geobserveerd kunnen worden. De procedures of handelingen waarmee ze deze hypothetische constructen meten worden operationele definities genoemd.

Psychologische testen: definitie en typen

Volgens Cronbach is een psychologische test een systematische procedure voor het vergelijken van het gedrag van twee of meer mensen. Deze test moet aan drie voorwaarden voldoen: de test moet gedragssamples hebben, de gedragssamples moeten verzameld worden op een systematische manier en het doel van de test moet zijn om het gedrag van twee of meer mensen te meten (inter-individuele verschillen). Ook kan het zo zijn dat we het gedrag van een individu op verschillende tijdstippen meten (intra-individuele verschillen).

Je kunt onderscheid maken tussen verschillende testen op het gebied van inhoud, welk type antwoord gebruikt wordt, dus open-ended of closed-ended testen, en welke methoden gebruikt zijn bij het meten.

Er wordt ook onderscheid gemaakt tussen de verschillende doelen van testen: het criterium referent en norm referent. Criterium referent-testen (ook wel domain referenced) komen het meest voor in situaties waar er een uitspraak moet worden gedaan over een bepaalde vaardigheid van een persoon. Een van te voren vastgestelde cutoff score wordt gebruikt om mensen in twee groepen in te delen: 1. Mensen die wiens score hoger is dan de cutoff score en 2. Mensen wiens score lager is dan de cutoff score.

Norm referent-testen worden voornamelijk gebruikt om de scores van een persoon te vergelijken met scores uit de normgroep. Er is tegenwoordig moeilijk onderscheid te maken tussen criterium referent-testen en norm referent-testen.

Een ander bekend onderscheid tussen testen is het onderscheid tussen de zogenaamde speeded-testen en power-testen. Speeded-testen zijn tijdsgebonden testen. Het komt hierbij vaak voor dat men niet alle vragen kan beantwoorden in een vragenlijst. Hierbij wordt gekeken hoeveel vragen men correct kan beantwoorden in de gegeven tijd. Power-testen zijn geen tijdsgebonden testen. Hier is het hoogst waarschijnlijk dat men alle vragen kan beantwoorden in een vragenlijst. Deze vragen worden vaak steeds moeilijker en hier wordt gekeken hoeveel vragen men correct beantwoord heeft.

Wat is psychometrie?

Bij de psychometrie ligt de focus op de attributen van testen. Net als psychologische testen ontworpen zijn om psychologische attributen van mensen te meten, is psychometrie de wetenschap waar men zich bezig houdt met de attributen van de psychologische testen. Er zijn drie attributen die van belang zijn: het type data (voornamelijk scores), de betrouwbaarheid en de validiteit van de psychologische testen. Psychometrie gaat over de procedures waarmee attributen van testen geschat en geëvalueerd worden.

Francis Galton was geobsedeerd door metingen, voornamelijk de zogenaamde ‘antropometrie’. Antropometrie bevat metingen van menselijke eigenschappen zoals de grootte van het hoofd, de lengte van een arm en de fysieke kracht van het lichaam. Deze eigenschappen bezitten volgens Galton psychologische karakteristieken. Hij noemde deze metingen van mentale eigenschappen ‘psychometrie’. Galton was voornamelijk geïnteresseerd in de manieren waarop mensen van elkaar verschillen. Galtons standpunt stond bekend als differentiële psychologie, ofwel de studie van individuele verschillen.

Psychometrie is de studie van operaties en procedures die gebruikt worden om variabiliteit te meten in het menselijk gedrag en deze metingen vervolgens te combineren tot psychologische fenomenen.

Uitzonderingen in psychologische metingen

Veel wetenschappen lijken erg op elkaar, maar de gedragswetenschap heeft toch zo zijn uitzonderingen. Een van die uitzonderingen is om te proberen om de belangrijke aspecten van verschillende typen van menselijke psychologische attributen te identificeren en vangen in een enkel nummer. Een andere uitzondering is Participant reactivity. Wanneer deelnemers weten dat en waarom ze getest worden, beïnvloedt dit op zichzelf al de reacties van de participant. Bijvoorbeeld als een participant weet dat getest wordt of hij/zij een racist is, maar dit niet wil laten overkomen in de test, dan beïnvloedt dit zijn/haar reacties.

Voorbeelden van participant reactivity zijn demand characteristics (beïnvloed door wat de participant denkt dat het doel is van de onderzoeker), social desirability (naar de wensen van de buitenwereld antwoorden), en malingering (een slechte indruk achter willen laten).

Een tweede uitzondering bestaat uit verwachtingen en bias van de personen die de testen afnemen, deze zijn moeilijk te detecteren.

Een derde uitzondering is dat psychologen vertrouwen op zogenaamde composite scores. Dit houdt in dat scores die iets gemeen hebben met elkaar, samengevoegd worden. Bijvoorbeeld dat in een vragenlijst waar tien vragen staan over extraversie, de scores op deze vragen worden samengevoegd.

Een vierde uitzondering in de psychologische meting is het probleem van de scoresensitiviteit. Sensitiviteit refereert naar de mogelijkheid van een meting om betekenisvolle dimensies te onderscheiden. Bijvoorbeeld een psycholoog wil weten of er verandering is gekomen in de stemming van een patiënt. Maar als de psycholoog een instrument gebruikt dat niet sensitief genoeg is om kleine veranderingen te meten, dan mist de psycholoog misschien belangrijke veranderingen.

De laatste uitzondering is het gebrek aan aandacht voor belangrijke informatie in de psychometrie. Kennis over de psychometrie vergroot namelijk de kans op ontwikkelingen in testen. En testafnemers zouden in ieder geval psychometrisch goede instrumenten moeten gebruiken.

Deze uitzonderingen moeten ons bewust maken van de data die verzameld wordt door middel van psychologische metingen. Wij moeten bijvoorbeeld bewust zijn van het feit dat “participant reactivity” de reacties van de deelnemers in een test kan beïnvloeden.

Individuele verschillen

Het thema wat de hoofdstukken van dit boek met elkaar linkt is gerelateerd aan het feit dat het vermogen om psychologische verschillen te identificeren en te karakteriseren de basis is van alle methoden die gebruikt worden om testen te evalueren.

Het doel van meten in psychologie is om psychologische verschillen die bestaan tussen mensen, over tijd of in verschillende situaties, te identificeren en kwantificeren.

Wat is belangrijk bij het toekennen van cijfers aan psychologische eigenschappen? Chapter 2 (2)

Bij psychologische testen worden cijfers aan eigenschappen toegewezen om het verschil te laten zien tussen de eigenschappen van de verschillende proefpersonen. Meten is het toewijzen van een cijfer aan objecten of aan kenmerken van individueel gedrag volgens een bepaalde schaal. Schaling is de manier waarop cijfers worden toegewezen aan psychologische eigenschappen.

Problemen met cijfers

In psychologische metingen worden cijfers gebruikt om het niveau van een psychologische eigenschap te laten zien. De cijfers kunnen gelden voor verschillende eigenschappen op verschillende manieren.

Identiteit

Het belangrijkste bij het meten van de eigenschap is het kijken naar de verschillen en de overeenkomsten tussen personen. Met de verschillen kan men de proefpersonen/objecten in categorieën indelen. De categorieën moeten aan een aantal punten voldoen. Ten eerste moeten alle proefpersonen binnen een categorie hetzelfde zijn op de eigenschap die deze categorie vertegenwoordigt. Ten tweede moeten de categorieën wederkerig uitsluitend zijn. Dat betekent dat elke proefpersoon maar in één categorie ingedeeld kan worden. Ten derde mogen er geen personen buiten de categorieën vallen. Cijfers worden hier alleen gebruikt als label voor de categorieën. Ze hebben geen wiskundige waarde: er kan dus niet gekeken worden naar de kwantitatieve significantie.

Rangorde

De rangorde van de cijfers bevat informatie over de relatieve omvang van een eigenschap die mensen bezitten. Dus of je in meer of mindere mate een eigenschap bezit in vergelijking met de andere mensen in de categorie. Ook hier zijn de cijfers alleen een label. Ze geven een betekenis aan de rangorde binnen de categorie, maar hebben geen wiskundige betekenis.

Kwantiteit

Het aangeven van de kwantiteit geeft de meeste informatie. Bij de kwantiteit zijn de cijfers per persoon gegeven en kan dus gekeken worden naar het precieze verschil tussen twee personen. Op dit niveau hebben de cijfers ook een wiskundige betekenis, met deze cijfers kunnen berekeningen worden gemaakt. Wanneer er psychologische metingen worden gedaan wordt er vaak aangenomen dat de scores de eigenschap van kwantiteit bevatten. Maar, zoals later zal worden besproken, is dit zelden een goede assumptie.

Het getal nul

Er zijn twee potentiële betekenissen van nul. Nul kan de betekenis hebben dat het object of de persoon niet bestaat (absolute nul). Dit is bijvoorbeeld bij de reactietijd. Nul kan ook een arbitraire hoeveelheid zijn van een eigenschap (arbitraire nul). In dit geval kan men denken aan een klok of thermometer. Het is belangrijk om te kijken of de nul in een psychologische test relatief of absoluut is. Het kan voorkomen dat de test nul aangeeft terwijl de persoon die eigenschap wel heeft. Dan kan je het opvatten als een relatieve nul terwijl het eerst als absolute nul bedoeld was. Identiteit, rangorde, kwantiteit en de betekenis van nul vormen belangrijke zaken bij het begrijpen van scores op psychologische testen.

De meetgrootheid

Als de eigenschap van kwantiteit gebruikt wordt, moeten de metingen duidelijk gedefinieerd zijn. Een voorbeeld is lengte. Als je de lengte van iets wilt weten kun je dat opmeten met een liniaal. De liniaal is in centimeters opgedeeld, dus nu kun je de lengte per centimeter opmeten. In de psychologie is de meetgrootheid vaak minder duidelijk/vanzelfsprekend. Er zijn drie manieren waarop meetgrootheden arbitrair (willekeurig) kan zijn.

Manier één is dat de grootte, lengte, zwaarte etc. van een eenheid willekeurig gekozen is.

Dit is een gemaakte keuze die pas later echt wordt vastgelegd. Manier twee is dat de eenheden niet vastgebonden zitten aan één soort object. Eenheden kunnen op veel soorten en veel verschillende objecten toegepast worden. Manier drie is dat eenheden voor verschillende soorten metingen kunnen dienen. Een voorbeeld is een stuk touw waarmee men lengte kan opmeten, maar men kan ook het stuk touw gebruiken om het gewicht van iets op te meten. Als de eenheden een fysieke vorm hebben zijn het standaardmetingen gebaseerd op de drie hierboven genoemde punten. En zijn dus arbitrair op alle drie de punten. De metingen in de psychologische wereld zijn over het algemeen alleen arbitrair op het eerste punt. Dus er kan gekozen worden wat de eenheid betekent en welke grootte er gebruikt wordt. Maar bij deze metingen zijn de eenheden meestal wel gebonden aan een bepaald object of dimensie. Een belangrijke uitzondering is dat standaardmetingen soms gebruikt worden om psychologische eigenschappen te meten. Zoals cognitieve processen die gemeten worden door iemands reactiesnelheid.

Toevoegen en tellen

Zowel in de fysieke als in de psychologische wereld is tellen van belang bij de metingen die we uitvoeren.

Toevoegen

Een belangrijke assumptie is dat de meetgrootte van de eenheid verandert niet bij het tellen van de eenheden. Elk stukje eenheid is gelijk. Bij toevoeging van een eenheid komt er elke keer één bij. Dit is constant. Ook als de condities van de meting veranderen, blijft de grootte van de eenheid hetzelfde (conjoint measurement). Bij een vragenlijst zijn er vragen die makkelijk zijn en vragen die moeilijk zijn. Daardoor kan er bij de meeste vragenlijsten niet bij elke vraag één punt worden toegekend. Er kunnen meer punten worden toegekend bij vragen die moeilijker zijn. Maar hoeveel punten kent men aan een vraag toe? Dit geeft een paradox: We willen een psychologische eigenschap vertalen in een lijst cijfers om naar de hoeveelheid te kijken, maar dit kan niet precies omdat we niet weten hoeveel precieze eenheid er bij een psychologische eigenschap kan zijn.

Tellen

Een strijdpunt over de relatie tussen tellen en meten komt naar boven wanneer we dingen gaan tellen in plaats van eigenschappen. Tellen is alleen gelijk aan meten wanneer de hoeveelheid van een kenmerk of eigenschap van een object weerspiegeld is.

De meetschalen

Meten is het toevoegen van cijfers aan observaties van gedrag om duidelijk de verschillen te kunnen zien tussen psychologische eigenschappen. Er zijn vier meetniveau’s, ofwel vier schalen.

De nominale schaal

De nominale schaal is het meest fundamentele niveau van metingen. Bij de nominale schaal worden de proefpersonen in groepen ingedeeld en degenen die gelijk zijn aan elkaar worden bij elkaar ingedeeld. Dus tussen de groepen zitten verschillen. Men kan cijfers toekennen aan de groepen maar die cijfers geven alleen een betekenis aan de groep. Er kan dus niet mee gerekend worden. In het dagelijks leven worden er ook cijfers toegekend aan individuen, maar dit behoort niet tot de nominale schaal. Het is belangrijk om duidelijk te maken waartoe de cijfers behoren. Of aan de personen individueel of aan een groep (nominaal meetniveau).

De ordinale schaal

Op de ordinale schaal kan men kijken naar kwalitatieve verschillen tussen de observaties van gedrag. Hier worden cijfers aan individuen binnen een groep toegekend en aan deze cijfers kan men zien wat de rangorde van de individuen is. Deze cijfers geven alleen aan of je in meer of mindere mate een eigenschap bezit in vergelijking met de andere mensen in de groep. Dit zegt nog niets over de omvang van de eigenschap van die persoon.

De intervalschaal

De intervalschaal gaat een stap verder dan de ordinale schaal. Als je in dit geval cijfers aan de groepen toekent, geven de cijfers ook een bepaalde hoeveelheid weer. Deze cijfers geven kwantitatieve verschillen weer tussen mensen op de eigenschap die gemeten wordt. Verder heeft de intervalschaal een arbitraire nul. Als er een nul in de lijst voorkomt betekent het niet dat de eenheid afwezig is. Met de intervalschaal kan je hoeveelheden bij elkaar optellen en van elkaar aftrekken, maar je kunt ze niet met elkaar vermenigvuldigen. Veel psychologische testen worden gebruikt en geïnterpreteerd alsof ze gebaseerd zijn op een intervalschaal, maar eigenlijk is het grootste gedeelte van de alle psychologische testen niet gebaseerd op een intervalschaal.

De ratioschaal

Ratioschalen hebben een absolute nul. Als er dus een nul in de lijst voorkomt betekent het dat de eenheid afwezig is. Ook kan er bij de ratioschaal vermenigvuldigd worden, wat bij de intervalschaal niet kan. Volgens de meeste test experts bestaan er geen psychologische testen die de ratioschaal bevatten. Bij het meten van de reactietijd zou men denken dat daar wel de ratioschaal bij gebruikt wordt, maar dit is niet het geval omdat er geen enkel persoon is die in nul milliseconden kan reageren.

Bijkomend punt bij meetschalen

In theorie is het mogelijk dat een score nul bij een intervalschaal een hoeveelheid van een eigenschap betekent, maar het betekent dan niet dat de eigenschap helemaal afwezig is.

Bij testen met dichotome variabalen kunnen de binaire codes (0 en 1) worden gebruikt. Afhankelijk van de eigenschap die gemeten wordt kan het opgevat worden als een nominale schaal of als een interval schaal.

Wat betekenen variabiliteit en co-variabiliteit? Chapter 3 (2)

Variabiliteit

Variabiliteit is het verschil binnen een set van testscores of tussen de waarden van een psychologische eigenschap. Inter-individuele verschillen zijn verschillen die tussen mensen voorkomen. Intra-individuele verschillen zijn verschillen binnen één persoon op verschillende tijdstippen. Individuele verschillen zijn heel belangrijk in psychologische testen. Betrouwbaarheid en validiteit van testen hangen af van het vermogen van een test om verschillen tussen mensen te kwantificeren. Al het onderzoek in psychologie en alle wetenschappelijke toepassingen van psychologie hangen af van het vermogen van een test om individuele verschillen te meten. Het is belangrijk om te weten dat elk gebied van wetenschappelijke psychologie afhankelijk is van het bestaan en kwantificeren van individuele verschillen.

Scores van een groep mensen of scores van één persoon op verschillende tijdstippen kun je kwantitatief weergeven in een zogenaamde distributie van scores. Een distributie van scores is kwantitatief, omdat de verschillen tussen scores in cijfers worden uitgedrukt. Het verschil tussen scores binnen een distributie wordt de variabiliteit genoemd.

Om een distributie van scores weer te geven, moet je eerst het een en ander uitrekenen. Allereerst rekenen we het gemiddelde uit, deze wordt immers het meest gebruikt, naast de modus en de mediaan. Ten tweede rekenen we de variabiliteit uit, die uit stappen bestaat. Deze stappen gaan als volgt:

Gemiddelde uitrekenen door de som X te delen door het totaal N personen/dingen.
Deviatie uitrekenen door het verschil tussen X en het gemiddelde van X weer te geven.
Gekwadrateerde deviatie uitrekenen door de deviatie te kwadrateren.
Variantie s² uitrekenen door de som gekwadrateerde deviaties te delen door het totaal N.
Standaard deviatie √s² = s uitrekenen door wortel te trekken van de variantie.

Interpretatie variantie en standaard deviatie:

Is nooit minder/lager dan nul, ofwel s² ≥ 0 en s ≥ 0.
Je kunt één score nooit interpreteren als een grote of kleine waarde.
Vergelijken kan alleen als twee of meer scores gebaseerd zijn op hetzelfde meetinstrument/variabele, bijvoorbeeld IQ. Hierna kun je dus ook bepalen of het een grote of kleine waarde is.
De variantie en de standaard deviatie zijn alleen te gebruiken in bepaalde concepten, bijvoorbeeld in correlaties of wanneer je de betrouwbaarheid meet van scores.

Distributievormen en normale verdelingen zijn kwalitatief, omdat zij op een grafische manier de scores weergeven. Op de x-as wordt de variabele neergezet, bijvoorbeeld IQ-scores van laag naar hoog. Op de y-as worden de proporties van het aantal mensen, dat een bepaalde score heeft behaald, weergegeven. Hieruit ontstaat een figuur: de normale verdeling. Deze heeft zelden (bijna nooit) een spiegelvorm. Meestal lopen de figuren of scheef naar rechts of scheef naar links. Scheef naar rechts betekent dat er meer mensen zijn die laag scoren. Scheef naar links betekent dat er meer mensen zijn die hoog scoren.

Co-variabiliteit

Bij een variantie wordt het verschil binnen één set van scores berekend. Bij een covariantie wordt het verschil van een set van scores vergeleken met het verschil van een andere set van scores. Ofwel: bij een covariantie wordt gezocht naar de relatie tussen twee variabelen, bijvoorbeeld IQ en GPA. Bij een variantie wordt er één variabele gebruikt.

Er zijn belangrijke kenmerken bij een covariantie die de relatie tussen de twee variabelen duidelijk weergeven. De richting en de sterkte van het verband, maar ook de consistentie tussen de twee variabelen is belangrijk.

Richting en sterkte

De richting van de relatie tussen de twee variabelen kan een positieve of een negatieve samenhang hebben. Er is sprake van een positief (of direct) verband wanneer er op een moment hoge scores bij de eerste variabele en hoge scores bij de tweede variabele voorkomen. Er is sprake van een negatief verband wanneer er op een moment hoge scores bij de eerste variabele en lage scores bij de tweede variabele voorkomen. Dit kan ook omgekeerd, dus lage scores op de eerste variabele en hoge scores op de tweede variabele.

De sterkte van een verband is moeilijk te interpreteren.

Consistentie

Een sterk verband (positief of negatief) tussen twee variabelen toont aan dat er een hoge mate van consistentie is tussen de twee variabelen. Als er geen duidelijk verband is tussen twee variabelen dan zijn individuele verschillen op de ene variabele inconsistent met individuele verschillen op de andere variabele.

Variantie is de variabiliteit van één enkele distributie van scores. Covariantie is de variabiliteit van twee distributies van scores. De distributie van scores van een variantie hebben we hiervoor behandeld. De distributie van scores van een covariantie gaan we als volgt uitrekenen:

Deviaties uitrekenen van variabele X en van variabele Y. Dit doe je door het verschil tussen X en het gemiddelde van X uit te rekenen. Ook reken je het verschil tussen Y en het gemiddelde van Y uit.
Cross-products uitrekenen door de deviatie van X en de deviatie van Y te vermenigvuldigen met elkaar. Hier kan een positief crossproduct uitkomen, dit betekent dat de samenhang tussen de variabelen consistent is. Ofwel wanneer de scores van een individu op beide variabele consistent zijn met elkaar, scoort het individu óf boven het gemiddelde op beide variabelen óf juist beneden het gemiddelde op beide variabelen. Er kan ook een negatief crossproduct uitkomen. Dit betekent dat de samenhang ongelijk is en dus inconsistent. Ofwel het individu scoort op de ene variabele onder het gemiddelde (hier komt dus een negatieve deviatie uit voort), maar op de andere variabele boven het gemiddelde (hier komt dus een positieve deviatie uit voort).
Covariantie uitrekenen door middel van een formule: Cxy = ∑ som van de cross-products (deviatie X vermenigvuldigen met deviatie Y) delen door het totaal N aantal personen/dingen.

De covariantie geeft duidelijke informatie over de richting van het verband, maar niet over de sterkte van het verband. Correlatiecoëfficiënten geven duidelijke informatie over de richting en de sterkte van het verband.

Variantie-Covariantie matrix

De variantie-covariantie matrix is altijd gestructureerd op een bepaalde manier, met een aantal standaard kenmerken. Ten eerste, elke variabele heeft een rij en een kolom. Ten tweede, de varianties van de variabelen worden in een diagonale lijn weergegeven, van linksboven naar rechtsonder. Ten derde, alle andere cellen bevatten covarianties tussen sets van variabelen. Ten vierde, de covarianties zijn symmetrisch. Alle waarden onder het diagonaal zijn identiek aan de waarden boven de diagonaal.

Bij een correlatie is de waarde makkelijker te interpreteren dan bij een covariantie. Correlatie valt altijd tussen -1 en +1. Wanneer de waarde onder de nul valt, dan is de samenhang tussen de twee variabelen negatief. Wanneer de waarde boven de nul valt, dan is deze positief.

Nul betekent dat er geen correlatie is. Hoe dichter bij de nul de correlatie valt, hoe slechter de samenhang is tussen de variabelen. Je kunt ook zeggen dat de samenhang inconsistent is. Hoe verder weg van de nul, hoe beter/sterker de samenhang tussen de variabelen. Je kunt ook zeggen dat de samenhang consistent is. Correlatie = Rxy = Cxy / SxSy.

Variantie voor samengestelde variabelen/items wordt gebruikt wanneer een psychologische test een groot aantal variabelen/items bevat. Je rekent eerst de varianties s² van het aantal variabelen/items apart uit en telt ze bij elkaar op. Daarna reken je de correlatie tussen de scores van het aantal variabelen/items uit. Deze vermenigvuldig je keer twee. Deze vermenigvuldig je op zijn beurt weer met de standaard deviaties van het aantal variabelen/items (die je eerst apart hebt uitgerekend). Uiteindelijk tel je alles bij elkaar op.

De totale testscore variantie hangt uitsluitend af van item variabiliteit en de correlatie tussen de item paren. Dit is een belangrijk deel van de afhankelijkheidstheorie, die in een later hoofdstuk besproken wordt.

Bij binaire items is er sprake van dichotome reacties. Dit betekent dat je bij het beantwoorden van een vraag uit twee antwoorden kan kiezen. We vragen mensen bijvoorbeeld een ja of een nee te antwoorden op een vraag óf we vragen mensen of ze het eens of niet eens zijn met de gegeven stelling. Het kan ook zijn dat bepaalde scores als goed of fout worden gezien. Of we bekijken of een bepaalde stoornis wel of niet voorkomt. We geven dit vaak aan met codes, namelijk code 0 voor een negatieve reactie (nee, oneens, fout, niet waar) en code 1 voor een positieve reactie (ja, mee eens, goed, waar). Code 1 wordt aangegeven met p = ∑X / N. Code 0 wordt aangegeven met q = 1-p.

Je kunt ook de variantie berekenen aan de hand van p en q, namelijk: s² = p x q óf p x (1-p). De maximale variantie die je kunt krijgen is 0.25; als p = q = 0.50 dan s² = 0.50 x 0.50.

Interpretatie van test scores

Er ontstaan problemen bij het interpreteren van testscores. Namelijk:

Wat is een hoge score en wat is een lage score?
Wat betekent het als je hoog of als je laag scoort?

Denk bijvoorbeeld aan een score van 35 op neuroticisme. Is dit een hoge score? En als dit een hoge score is wat betekent dat dan? Ben ik nou wel of juist helemaal niet neurotisch?

Een frame of reference zorgt ervoor dat de cijfers en percentages goed te interpreteren zijn. Je bekijkt of de scores boven óf onder óf zelfs op de gemiddelde score vallen. Ook bekijk je hoeveel boven of onder de gemiddelde score ze vallen (denk aan standaard deviaties). Met deze gegevens kun je de zogenaamde z-scores berekenen. Een z-score geeft weer hoe ver boven of onder de gemiddelde testscore een score valt. Z-scores zijn goed te vergelijken, zelfs wanneer er twee totaal verschillende variabelen/meeteenheden zijn gebruikt binnen een test score. Bijvoorbeeld gewicht en optimisme. Z = (X minus het gemiddelde van X) / Sx (s = standaard deviatie van X). De z-score wordt uitgedrukt in het ‘aantal standaard deviaties’. Een voorbeeld, z = 0,5 of -0,5 dit betekent dat de score 0,5 standaard deviaties boven of onder het gemiddelde valt. Dit is erg dichtbij. Een ander voorbeeld, z = 2 of -2, dit betekent dat de score 2 standaard deviaties boven of onder het gemiddelde valt. Dit is verder weg. Bij een z-score distributie hoort de volgende verdeling: Z(0;1) waarin 0 het gemiddelde is en 1 de standaard deviatie. Z-scores zeggen iets over een score in verhouding tot de rest van de groep. Het zegt hoe goed of slecht je score is in verhouding met de gemiddelde persoon, maar zegt niks over je capaciteiten in het algemeen. Correlatie tussen variabelen met behulp van z-scores: Rxy = ∑ZxZy / N.

Z-scores zijn misschien wel goed te vergelijken, maar ze zijn moeilijker te interpreteren, omdat veel mensen niet bekend zijn met concepten als ‘standaard deviaties’ of ‘afstand tot het gemiddelde’. Daarom gebruikt men T-scores (gestandaardiseerde scores) met T(50;10) waarin 50 het gemiddelde is en 10 de standaard deviatie. T = (z) maal (s) + (gemiddelde van X). Ofwel T = z (10) + 50. Er kunnen ook andere gemiddelden/standaard deviaties gegeven zijn. Een andere manier om scores te interpreteren is in percentielen. Een voorbeeld: een individu heeft een score van 194 behaald. Het totaal aantal mensen dat meedoet aan deze test is 75. Slechts 52 mensen scoren lager dan 194. Dus: (52/75) x 100 = 69%. Dit kan je interpreteren als dat de score van het individu in het 69^e percentiel valt en dat deze persoon hoger scoort dan 69% van de andere mensen die de test gemaakt hebben.

Genormaliseerde scores

Vaak wordt ervanuit gegaan dat een psychologische eigenschap normaal verdeeld is, maar dit is niet altijd zo en dan ontstaat er een probleem. Het kan zijn dat er gedacht wordt dat een eigenschap (zoals intelligentie) normaal verdeeld is, maar dat de testgegevens (IQ test) niet normaal verdeeld zijn. Onderzoekers hebben dan de assumpties dat hun theorie correct is en dat de testgegevens (IQ scores) de distributie van het construct niet goed weergeven. Onderzoekers hebben geprobeerd dit probleem op te lossen met behulp van normalization transformations/area transformations. De scores worden dan omgezet in T-scores.

Wat zijn dimensies en factoranalyse? Chapter 4 (2)

Wanneer we een fysieke of psychologische karaktertrek meten van een object of persoon, dan meten we enkel één karaktertrek van object of persoon. Je kunt echter wel meerdere vragen/items onderzoeken die uiteindelijke leiden naar een bepaalde dimensie/karaktertrek. Dit worden composite scores genoemd. Maar:

Vraag 1: Hoeveel dimensies zijn er?

Eendimensionaal

Vraag 2: Is er correlatie tussen de dimensies?

Multidimensionaal met correlerende dimensies.
Multidimensionaal zonder correlerende dimensies.

Vraag 3: Wat is de betekenis van de dimensies?

Factor analyse.

Eendimensionaal

Wanneer een psychologische test items bevat die één enkele karaktertrek van een persoon reflecteren, en de reacties niet beïnvloed zijn door andere karaktertrekken van die persoon, dan betekent dit dat de test eendimensionaal is. Het begrip conceptuele homogeniteit betekent dat alle reacties op de items/vragen beïnvloed worden door één en dezelfde psychologische karaktertrek.

Wanneer een psychologische test items bevat die meer dan één karaktertrek van een persoon reflecteren, dan is de test onder te verdelen in dimensies (Multidimensionaal). Deze dimensies zijn multidimensionaal met correlerende dimensies of multidimensionaal zonder correlerende dimensies.

Multi-dimensionaal mèt correlerende dimensies

Multi-dimensionaal met correlerende dimensies wordt ook wel test with higher-order factors genoemd. Dit betekent dat er één hogere (algemene) factor is die alle subtesten samenvoegt. Subtesten zijn groepen van vragen die verschillende psychologische eigenschappen vaststellen. Deze subtesten correleren onderling met elkaar tot een groter geheel.

Subtesten zijn specifieke factoren die op zichzelf eendimensionaal zijn en de vragen binnen de subtest zijn conceptueel homogeen.
Full scale score is een combinatie van subscores tot een algemene karaktertrek, dit wordt de higher-order factor genoemd.

Eendimensionaal: één enkele score van één enkele psychologische eigenschap.

Multidimensionaal: opgetelde subscores.

Multi-dimensionaal zònder correlerende dimensies

Bij dit soort testen correleren de subtesten onderling niet, en kunnen de subscores dus niet opgeteld worden en samengevoegd worden tot een groter geheel (higher-order factor).

Factoranalyse

Factoranalyse is de meest gebruikte statistische procedure om dimensionaliteit te meten en testen. Er zijn twee typen factoranalyse: exploratieve factoranalyse (EFA) en confirmatieve factoranalyse (CFA). EFA is het type dat het vaakst gebruikt wordt.

Exploratieve factoranalyse

Stel je hebt een test met zes items en je wilt weten hoeveel dimensies er gemeten worden. Om dit te meten neem je de test af bij bijvoorbeeld honderd mensen, deze gegevens worden ingevoerd in een computerprogramma en vervolgens worden correlaties berekend. Dit helpt om het aantal onderliggende dimensies te identificeren en interpreteren. Elke set van items die relatief hoog met elkaar correleren vertegenwoordigt een psychologische dimensie, ook wel factor genoemd.

Als alle items van een test in ongeveer gelijke mate met elkaar correleren dan is er maar één set (factor) en dan is de schaal eendimensionaal. Als er twee of meer sets (factors) zijn is de schaal multidimensionaal.

Als de items in set één correleren met de items in set twee dan kunnen we spreken van gecorreleerde factoren, en dus een multidimensionale test met gecorreleerde dimensies. Correleren de items uit de ene set niet met die uit de andere set dan zijn de factoren niet gecorreleerd en spreken we van een multidimensionale test zonder gecorreleerde dimensies.

Al deze gegevens bekijken en beoordelen is bijna onmogelijk als een test veel items bevat, dus daarom wordt er meestal gebruik gemaakt van EFA.

Uitvoeren en interpreteren van een EFA

Stap 1: Eerst kies je de statistische techniek die je gaat gebruiken. De meest gebruikte technieken zijn principale as factoring (PAF) en principale componenten analyse (PCA).

Stap 2: Het aantal factoren (dimensies) identificeren. Hier is geen simpele regel voor, men moet gebruik maken van richtlijnen en subjectieve beoordeling. Er wordt hierbij vaak gebruik gemaakt van eigenvalues die je op drie manieren kunt bekijken. Aan de hand van voorbeelden geef ik een duidelijk beeld van wat de begrippen betekenen:

Eigenvalues: er is een groot verschil tussen eigenvalue twee en drie te zien. Dit begrip zegt dat er dan twee dimensies zijn binnen deze test. Net als wanneer er een groot verschil zou zijn tussen eigenvalue vier en vijf, zou dit betekenen dat er vier dimensies zijn binnen deze test.
Eigenvalue greater than one rule: hierbij geldt de regel dat de hoeveelheid eigenvalues die groter dan één zijn, het aantal dimensies bepaalt. Ofwel, er zijn drie eigenvalues die waarden hebben boven de één. Dit betekent dat er drie dimensies zijn binnen de test.
Screeplot: dit begrip is een grafische weergave van de eigenvalues binnen de test. Uit de grafiek kan je opmaken dat de lijn afvlakt vanaf eigenvalue drie. Een duidelijk afvlakpunt suggereert dat het aantal factoren één minder is dan de het factornummer van het afvlakpunt. Hieruit kun je dus ook opmaken dat er twee dimensies zijn.

Stap 3: als het bewijs erop wijst dat een schaal multidimensionaal is dan gebruiken we factorrotatie om te kijken of er correlatie is tussen de dimensies. Er zijn twee soorten rotaties:

Orhtogonale rotatie: produceert dimensies die niet met elkaar samenhangen.
Scheve (oblique) rotatie: produceert dimensies die misschien met elkaar samenhangen.

Stap 4: Nadat door middel van factorrotatie de samenhang tussen dimensies is vastgelegd, kan bepaald worden wat de betekenis is van de dimensies. Dit gebeurt door middel van factorladingen. Factorladingen zijn een link tussen items en factoren (dimensies). Welke test-items zijn het sterkst gelinkt tot een dimensie, is de vraag die wordt beantwoord. Hoe sterker ze gelinkt zijn, hoe duidelijker de betekenis van de dimensie is. Het is uiteraard beter wanneer test-items sterk gelinkt zijn tot slechts één dimensie en niet tot meerdere dimensies, want dit maakt de betekenis ingewikkeld. Daarnaast kan er een positieve of negatieve lading zijn. Een positieve lading geeft aan dat mensen die hoog scoren op het item ook hoog scoren op de onderliggende factor. Een negatieve lading geeft aan dat mensen die hoog scoren op het item juist laag scoren op de onderliggende factor.

Simple structure: als items sterk gelinkt zijn met maar één factor.

Wanneer je gebruikt maakt van een oblique rotatie moet je ook de correlaties tussen de factoren bekijken.

Confirmatieve factoranalyse

EFA wordt gebruikt in situaties waar er nog weinig bekent is over de dimensionaliteit van een test. CFA wordt gebruikt wanneer er al duidelijke ideeën zijn over de dimensionaliteit van een test. Bijvoorbeeld als je een test hebt met veertien items die zo ontworpen is dat zeven vragen bij de ene dimensie horen en zeven vragen bij een tweede dimensie. Dan kun je CFA gebruiken om te testen of dit ook waar is.

In hoofdstuk twaalf wordt verder ingegaan op CFA.

Wat houdt het basisbegrip betrouwbaarheid in? Chapter 5 (2)

De betrouwbaarheid is een niet observeerbare eigenschap van testscores.

Klassieke Testtheorie (KTT) is een meetinstrument dat de basis van betrouwbaarheid definieert en een schatting geeft over de betrouwbaarheid van psychologische metingen.

Volgens de KTT is betrouwbaarheid afgeleid van:

Geobserveerde scores (observed scores); Xo.
Ware scores (true scores); Xt.
Willekeurige scores (measurement error scores); Xe.

Betrouwbaarheid is de mate waarin verschillen in de geobserveerde scores van de betreffende respondent overeenkomen met verschillen in zijn of haar ware scores. Hoe kleiner het verschil, des te betrouwbaarder.

Andere factoren die verschillen veroorzaken tussen de geobserveerde en de ware scores worden sources of error genoemd. Deze veroorzaken meetfouten (measurement errors), die tegenstrijdigheid creëren tussen de geobserveerde en de ware scores.

Er zijn naast ‘sources of error’ ook tijdelijke/vergankelijke factoren die de geobserveerde scores kunnen beïnvloeden. Voorbeelden hiervan zijn: het aantal uren slaap, emotionele staat, fysieke gesteldheid, gokken, of misplaatste antwoorden. Het laatstgenoemde betekent dat wanneer je het goede antwoord wel weet, je toch het verkeerde antwoord aangeeft/aankruist. Deze tijdelijk/vergankelijke factoren verlagen óf verhogen juist de geobserveerde scores tegenover de betrouwbare scores.

Om erachter te komen of de geobserveerde scores een functie van meetfouten zijn of een functie van betrouwbare scores zijn er twee vragen die gesteld moeten worden:

Welk gedeelte van de geobserveerde scores is functie van betrouwbare inter- individuele of intra-individuele verschillen?
Welk gedeelte van de geobserveerde scores is functie van meetfouten?

Ofwel: Xo = Xt +Xe. Je kunt zeggen dat de geobserveerde scores bepaald worden door de ware scores én de meetfouten. Hoe kleiner de waarde van Xe, des te beter. Het lijkt erop dat de meetfouten willekeurig (at random) zijn, dit betekent dat deze onafhankelijk zijn van de ware scores Xt. Anders gezegd, een meetfout beïnvloedt op dezelfde manier én met dezelfde hoeveelheid zowel iemand met een hoge ware score als iemand met een lage ware score. Er zijn twee kenmerken:

Het gemiddelde van alle meetfouten binnen een test is gelijk aan nul.
Meetfouten correleren niet met ware scores, Rte = 0.

In plaats van te zeggen dat betrouwbaarheid afhangt van de consistentie tussen verschillen in geobserveerde scores en verschillen in ware scores, kun je ook zeggen: betrouwbaarheid hangt af van de verbanden tussen de variabiliteit van geobserveerde score, variabiliteit van de ware score, en variabiliteit van de meetfout score.

Error score variantie: Se² = ∑(Xe minus gemiddelde Xe) ² / N à hoe hoger Se², des te slechter de meting.
Ware score variantie: St² = ∑(Xt minus gemiddelde Xt) ² / N
Geobserveerde score variantie: So² = ∑(Xo minus gemiddelde Xo) ² / N. Ofwel, So² = St² + Se².

Deze formule zou eigenlijk moeten zijn: So² = St² +Se² + 2Rte ∙ St ∙ Se.

De ware scores en de meetfouten zijn echter niet gecorreleerd en daarom geldt Rte ∙ St ∙ Se = 0. Er blijft dus over: So² = St² +Se².

Vier benaderingen betrouwbaarheid

1. Betrouwbaarheid in termen van ‘proporties van de variantie’

Rxx (betrouwbaarheidscoëfficiënt) = St² / So²

Rxx = 0 betekent dat iedereen dezelfde ware score heeft. (St² = 0)

Rxx = 1 betekent dat de variantie van de ware scores gelijk is aan de variantie van de geobserveerde scores. Ofwel: er zijn geen meetfouten!

Hier is een voorbeeld van interpretatie van Rxx:

Rxx = 0,48 ofwel 48% van de verschillen in de geobserveerde scores kan worden toegeschreven aan de ware scores. Daar tegenover staat dat 1-0,48 = 0,52 dus 52% van de verschillen kan worden toegeschreven aan meetfouten.

2. Betrouwbaarheid in termen van ‘gebrek aan meetfout error’

Rxx (betrouwbaarheidscoëfficiënt) = St² / So²

So² = St² + Se² à St² = So² - Se²

Rxx = (So² - Se²) / So² = (So² / So²) – (Se² / So²)

Ofwel: Rxx = 1 – (Se² / So²): wanneer (Se² / So²) klein is is betrouwbaarheid groot.

3. Betrouwbaarheid in termen van ‘correlaties’

Rxx = Rot², waar Rot² de gekwadrateerde correlatie is tussen de geobserveerde scores en de ware scores.

Rot = St² / (So * St) = Rot = St / So

Rot² = St² / So².

Een betrouwbaarheid van 1.0 geeft aan dat de verschillen tussen de geobserveerde test scores perfect overeenkomen met de verschillen tussen de ware scores. Een betrouwbaarheid van 0.0 geeft aan dat de verschillen tussen de geobserveerde scores en de ware scores totaal tegenstrijdig zijn.

4. Betrouwbaarheid in termen van ‘gebrek aan correlatie’

Rxx = 1 - Roe², waar Roe² de gekwadrateerde correlatie is tussen de geobserveerde scores en de error scores.

Roe = Se² / (So * Se) = Se / So

Roe² = Se² / So² dus:

Rxx = 1 - Roe² = 1 – (Se² / So²).

Als Roe = 0, dan Rxx = 1.0

Hoe groter de correlatie tussen de geobserveerde scores en de error scores, des te kleiner is Rxx. Dus betrouwbaarheid zal relatief hoog zijn als de geobserveerde scores een lage correlatie hebben met de error scores.

Betrouwbaarheid en de standaard meetfout

De standaard meetfout geeft de gemiddelde grootte van de error scores weer. Hoe groter de standaard meetfout, des te groter het gemiddelde verschil tussen geobserveerde scores en ware scores, en dus des te kleiner de betrouwbaarheid van de test.

Standaard meetfout = Sem

Sem = So * √ (1 – Rxx)

Als Rxx = 1 dan Sem = 0, dus: Rxx groter betekent SEm kleiner.
Sem is nooit groter dan So, dus: So groter betekent SEm ook groter

Parallelle testen

Parallelle testen zijn meestal paren van twee (X en Y) testen die gelijk zijn aan elkaar. Dit geeft de mogelijkheid om met ware data een schatting te maken van de betrouwbaarheid. Twee testen kunnen parallel genoemd worden als aan alle aannames van de KTT voldaan wordt en als voldaan wordt aan de volgende twee assumpties:

De ware scores van de ene test zijn precies gelijk aan die van de andere test.
Beide testen hebben dezelfde errorvariantie.

Een gevolg van deze assumpties is dat de geobserveerde scores van deze testen hetzelfde gemiddelde en dezelfde standaard error zullen hebben.

Volgens KTT is de correlatie tussen twee parallelle testen gelijk aan de betrouwbaarheid.

Rxoyo = St² / So²

Domain Sampling Theorie

Volgens deze theorie is betrouwbaarheid de gemiddelde grootte van de correlaties tussen alle mogelijke paren van testen met N items geselecteerd uit een gebied (‘domain’) van test items. De logica van deze theorie is het fundament van de generalizability theory, dit zal uitgebreid worden besproken in hoofdstuk dertien.

Hoe kunnen empirische schattingen gedaan worden? Chapter 6 (2)

Testscores kunnen gebruikt worden om betrouwbaarheidsscores te schatten en om de meetfout te schatten. In dit hoofdstuk worden drie methodes besproken om de betrouwbaarheid te schatten. Ook wordt er in dit hoofdstuk gekeken naar de betrouwbaarheid van de verschilscores die gebruikt worden bij onder andere cognitieve groei, symptoom reductie, persoonlijkheidsverandering, etc.

Betrouwbaarheid van wisselende vormen

De eerste methode is een paralleltest om de betrouwbaarheid te schatten. Bij de paralleltest zijn er twee testen: De test die men wilt uitvoeren waar scores uitkomen en een tweede test waar ook scores uitkomen. Met deze twee scores kan de correlatie tussen de test scores en de scores van de paralleltest berekend worden. De correlatie is dan te interpreteren als een schatter van de betrouwbaarheid. De twee testen zijn parallel als beide testen dezelfde set ware scores meten en als ze allebei evenveel errorvariantie hebben. De correlatie tussen de twee paralleltesten is gelijk aan de betrouwbaarheid van de testscores. Een praktisch probleem bij het gebruik van een paralleltest is dat men nooit zeker weet of de paralleltest kan voldoen aan de aannames van de klassieke testtheorie. We kunnen er nooit zeker van zijn dat de ware scores van de eerste vorm gelijk zullen zijn aan de ware scores van de parallelvorm. Verschillende testvormen hebben een andere inhoud wat dus problemen kan geven bij de paralleltest. Als de paralleltest niet goed overeenkomt met de eerste test dan is de correlatie geen goede schatter van de betrouwbaarheid.

Een ander mogelijk probleem bij de paralleltest is overdracht of besmetting, door herhaaldelijk testen. De proefpersonen kunnen al beïnvloed zijn door de eerdere test en de toestand van de proefpersonen kan tijdens de paralleltest anders zijn. Hierdoor kan de prestatie van de proefpersonen anders zijn en is de test minder betrouwbaar. Bij de klassieke testtheorie is de error bij elke test toevallig. Als de proefpersonen beïnvloed zijn hebben de errorscores van de testen een correlatie met elkaar terwijl dat volgens de klassieke testtheorie niet kan. Dit betekent dan ook dat de twee testen niet helemaal parallel aan elkaar zijn.

Twee aannames voor een paralleltest zijn dat de ware scores hetzelfde zijn en dat de errorvariantie in beide testen hetzelfde is. Ook moeten het gemiddelde van de geobserveerde scores van beide testen hetzelfde zijn en moeten de testen dezelfde standaarddeviaties hebben. Als dit allemaal klopt en we echt het idee hebben dat de twee testen hetzelfde construct meten dan kunnen we dit gebruiken als schatting van de betrouwbaarheid. Deze schatter van betrouwbaarheid wordt de betrouwbaarheid van wisselende vormen genoemd.

Test-hertest betrouwbaarheid

Deze methode is bruikbaar voor het meten van stabiele psychologische concepten zoals intelligentie en extraversie. Men kan dezelfde mensen dezelfde test meerdere keren laten uitvoeren. Als de aannames kloppen kan de correlatie berekend worden tussen de eerste scores en de herhaalde scores. Deze correlatie is dan de schatter van de test-hertest betrouwbaarheid. De toepasbaarheid van de test-hertest hangt af van een aantal aannames om een goede betrouwbaarheid te krijgen. Net zoals bij de paralleltest moeten de ware scores bij beide testen gelijk zijn. Ook moet de errorvariantie van de eerste test gelijk zijn aan de errorvariantie van de tweede test. Als aan deze aannames wordt voldaan dan kunnen we zeggen dat de correlatie tussen de scores van de twee testafnames een schatter is van de betrouwbaarheid van de score.

De aanname dat de ware scores bij beide testen gelijk zijn is niet altijd na te streven. Ten eerste zijn sommige concepten minder stabiel dan andere concepten. Humeurtesten zijn bijvoorbeeld minder stabiel dan een test over een eigenschap. Bij een test over het gevoel kan men zich bij de eerste test heel blij voelen terwijl de proefpersoon bij de tweede test een tijdje later zich meer depressief kan voelen. Dit geeft verschillende ware scores en maakt de test minder betrouwbaar. De lengte van de tussenperiodes (intervallen) kan als tweede factor tellen bij de stabiliteit van de testen. Grotere intervallen kunnen grotere psychologische veranderingen hebben en de ware scores kunnen daardoor veranderen. Korte tussenperiodes kunnen voor overdracht of besmettingseffecten zorgen. Veel test-hertest analyses hebben een tussenperiode van 2 tot 8 weken. Een derde factor is de periode waarin de testen worden afgenomen. Men kan net een periode van ontwikkeling (vooral bij kinderen) doormaken tussen de twee testen en ook dan zijn de ware scores niet meer gelijk.

Als de ware scores gelijk blijven over de twee testen, dan geeft de correlatie tussen de twee testen de mate weer waarin de meetfout de testscores beïnvloedt. Hoe lager de correlatie, des te meer invloed de meetfouten hebben gehad en des te onbetrouwbaarder de testen zijn. Een moeilijkheid bij de test-hertestmethode is dat men nooit zeker weet of de ware scores gelijk zijn gebleven bij beide testen. Als de ware scores veranderen geeft de correlatie niet alleen de invloed van de meetfouten weer, maar ook de mate van verandering van de ware scores. Dit is met simpele formules niet uit te rekenen. Het zou dus kunnen zijn dat een test-hertestcorrelatie laag uitvalt door verschillen in de ware scores, terwijl de betrouwbaarheid wel hoog is in de test. De parallelmethode en de test-hertest methode kunnen theoretisch wel handig zijn, maar in de praktijk zijn ze vaak lastig. Ze kunnen erg duur en tijdrovend zijn. Daarom worden deze methodes niet snel toegepast.

De betrouwbaarheid bij interne consistentie

Interne consistentie is een goed alternatief voor de paralleltest en de test-hertestmethode. Het voordeel van interne consistentie is dat men maar één test afneemt op één moment. Een samengestelde score is een score berekend uit meerdere items en is de totaalscore van de reacties van de proefpersonen. Interne consistentie kan dus gebruikt worden bij testen die meer dan één item hebben. Het idee bij interne consistentie is dat delen (items of groepen van items) van een test als verschillende vormen van een test behandeld kunnen worden. Op veel gebieden van de gedragswetenschap wordt de interne consistentie gebruikt. Twee factoren beïnvloeden de betrouwbaarheid van de testscores. De eerste is of de delen uit de test gelijk zijn aan elkaar. Als deze delen sterk met elkaar correleren, dan is de test betrouwbaar. De lengte van de test is de tweede factor die meetelt. Een lange test is sneller betrouwbaar dan een korte test. Er zijn drie verschillende manieren om interne consistentie te onderzoeken: de split-half methode, de ‘raw alpha’ methode en de ‘standardized alpha’ methode.

Schattingen van Split-half betrouwbaarheid

De split-half betrouwbaarheid krijgt men wanneer men de test in tweeën opsplitst en de correlatie tussen de twee delen berekent. In dit geval heeft men er eigenlijk twee kleine paralleltestjes van gemaakt. Het proces om de split-half methode te gebruiken verloopt in drie stappen. De eerste stap is om de scores in tweeën te verdelen. De tweede stap is de correlatie tussen de twee delen te bereken. Deze split-half correlatie (r_hh) geeft de mate waarin de twee delen gelijk zijn aan elkaar weer. De derde stap is de correlatie in een formule stoppen om een schatting van de betrouwbaarheid (R_xx) te berekenen. Dit gebeurt met de Spearman-Brown formule:

R_xx = 2*r_hh / 1 + r_hh

Bij deze correlatie moet de formule gebruikt worden, omdat het om een halve test gaat en niet zoals bij de andere methodes om een hele test. Omdat het om een correlatie binnen een test gaat wordt deze correlatie de schatter van de betrouwbaarheid van de interne consistentie genoemd. De twee helften in de test moeten wel dezelfde ware scores en dezelfde errorvariantie hebben. Ook moeten de gemiddelden en standaard deviaties gelijk zijn. Als de twee helften niet aan deze criteria voldoen is de betrouwbaarheid van de test minder. Men kan dan een andere splitsing van de items maken, maar omdat de helften niet parallel zijn kan daar kan een andere correlatie uitkomen. Om deze reden wordt de split-half betrouwbaarheid niet vaak gebruikt.

Het meten van betrouwbaarheid door middel van interne consistentie heeft nog een bijkomend probleem met betrekking tot powertesten en snelheidstesten. Bij de powertesten hebben de proefpersonen alle tijd om de vragen te beantwoorden en verschillen de vragen in moeilijkheid. Bij de snelheidstesten hebben de proefpersonen een bepaalde tijd waarin zoveel mogelijk vragen beantwoord moeten worden en zijn de vragen gelijk in moeilijkheid. Als je de split-half methode gebruikt bij een snelheidstest dan geeft deze weer wat de betrouwbaarheid is van iemands reactiesnelheid. Aangezien alle vragen van dezelfde moeilijkheidsgraad zijn zal de proefpersoon aan elke vraag ongeveer evenveel tijd hebben besteed. Hierdoor is de betrouwbaarheid bijna altijd rond de 1.0 en daarom wordt split-half bijna nooit gebruikt bij snelheidstesten.

Cronbach’s Alpha (ruwe alpha)

Wanneer men elk item als een subtest gaat beschouwen komt men een stuk verder met interne consistentie. Het berekenen van de interne consistentie op itemniveau gaat aan de hand van twee stappen. In de eerste stap worden alle statistieken berekend. In de tweede stap worden de statistieken toegepast in berekeningen om de betrouwbaarheid van de hele test te schatten. De meest gebruikte methode is de Cronbach’s Alpha. Hiervoor berekenen we eerst de variantie van de scores over de hele test (s_x²). Daarna wordt de covariantie tussen elk paar items berekend. Als de covariantie van een paar items 0 is dan kan het zijn dat niet elk item hetzelfde construct meet of dat de meetfout een grote invloed heeft op dat item. Dit betekent dat de test wat problemen heeft. Nadat alle covarianties berekend zijn worden ze bij elkaar opgeteld. Hoe groter dit getal is, hoe meer de items overeenkomen met elkaar. De volgende stap is de betrouwbaarheid schatten met de volgende formule:

α = geschatte Rxx = (k/k-1) * (∑c_ií / s_x²)

K is het aantal items in de test.

Er zijn verschillende formules voor het berekenen van Cronbach’s Alpha. Een andere formule is: α = geschatte Rxx = (k/k-1) * (1- (∑s_i²/ s_x²))

Gestandaardiseerde coëfficiënt van Alpha

Een andere methode is het gebruiken van de algemene Spearman-Brown formule, ook wel de geschatte gestandaardiseerde Alpha genoemd. Deze methode geeft een ongeveer gelijke uitkomst als de gewone Cronbach’s Alpha, het is populair bij computerprogramma’s zoals SPSS en deze methode geeft het meest duidelijke beeld van de betrouwbaarheid. Als een test gebruik maakt van gestandaardiseerde scores of z-scores dan geeft de gestandaardiseerde alpha een betere schatting van de betrouwbaarheid. De gestandaardiseerde Alpha is gebaseerd op correlaties. Als eerste stap berekenen we net als bij de ruwe Alpha de correlatie tussen elk paar items. Deze correlaties geven weer in hoeverre de verschillen tussen de reacties van de deelnemers met elkaar overeenkomen. Daarna berekenen we het gemiddelde van alle correlaties (r_ií) die verkregen zijn. De volgende stap is deze correlatie in te voeren in deze algemenere vorm van de Spearman-Brown formule:

Rxx = k*r_ií / 1 + (k-1)* r_ií

Cronbach’s Alpha voor binaire items: KR₂₀

Veel psychologische testen hebben binaire items (hierbij kan men kiezen uit twee antwoorden). Voor deze testen kan een speciale formule gebruikt worden om de betrouwbaarheid te schatten, namelijk de Kuder-Richardson 20 formule. Deze gaat aan de hand van twee stappen. Eerst worden alle statistieken verzameld.

Dit zijn de proportie goed beantwoorde vragen (p) en de proportie fout beantwoorde vragen (q). Daarna wordt de variantie van elk item berekend met s_i² = pq en de variantie van alle testscores (s_x²). De tweede stap is deze statistieken in de formule van Kuder en Richardson (KR₂₀) te verwerken:

Rxx = (k/k-1) * (1- (∑pq / s_x²))

Theorie en realiteit van nauwkeurigheid en het gebruik van interne consistentie schatters

Veel onderzoekers kijken niet naar de aannames die gemaakt moeten worden bij het berekenen van de Alpha. Alpha is de methode die meestal wordt gekozen om de betrouwbaarheid te berekenen. Dit omdat het makkelijk te berekenen is en de proefpersonen niet meer dan één keer nodig zijn. Er wordt niet veel op de aannames gelet, omdat de aannames minder nauwkeurig (dus sneller tevreden) zijn bij de Alpha. Wanneer de items ongeveer gelijk zijn aan elkaar dan is de schatting betrouwbaar. Hier hoeven de errorvarianties niet aan elkaar gelijk te zijn. Als de items ongeveer gelijk zijn aan elkaar zijn de schattingen van de KR₂₀ en van de alpha coëfficiënt betrouwbaar. Als de items niet gelijk zijn aan elkaar, dan zullen de KR₂₀ en de Alpha de betrouwbaarheid onderschatten. De betrouwbaarheid kan ook overschat worden. Dit omdat er bij de berekening van Alpha maar één test gebruikt wordt en hierdoor misschien de errorvariantie onderschat wordt. Over het algemeen wordt de Cronbach’s Alpha het meest gebruikt, omdat die het makkelijkst is wat betreft de aannames, en een goede betrouwbare score geeft.

Interne consistentie en dimensionaliteit

De interne consistentie van items is gescheiden van de conceptuele homogeniteit (items zijn eendimensionaal) van de items. De betrouwbaarheid van een test kan hoog zijn, zelf als de test meerdere eigenschappen meet (conceptuele heterogeniteit/multidimensionaal). Het is dus niet handig om met de betrouwbaarheid van interne consistentie te kijken naar de conceptuele homogeniteit of de dimensies (meerdere eigenschappen) van de test.

Factoren die de betrouwbaarheid van testscores beïnvloeden

Er zijn twee factoren die bijdragen aan de betrouwbaarheid van interne consistentie. De eerste factor is de gelijkheid tussen de delen van de test. Dit heeft een direct effect op de schatting van de betrouwbaarheid. Als de correlatie positief is zijn de delen consistent met elkaar. Dit is wel afhankelijk van de grootte van de correlatie. Men kan items uit de test verwijderen of herschrijven als de items niet goed zijn voor de correlatie. Hierdoor kan er een hogere correlatie uit komen. Dit betekent dat er een hogere interne consistentie is en dus ook een hogere betrouwbaarheid.

De tweede factor die de betrouwbaarheid kan beïnvloeden is de lengte van de test. Lange testen zijn betrouwbaarder dan korte testen. Bij langere testen stijgt de variantie van de ware score sneller dan de errorvariantie. Betrouwbaarheid kan ook berekend worden met deze formule:

Rxx = s_t² / (s_t² + s_e²)

Hierbij is s_t² de variantie van de ware score en s_e² de errorvariantie en s_t² + s_e² = s_o² (de geobserveerde score). Als we de lengte van de test te verdubbelen krijgen we de volgende formule voor het berekenen van de ware score variantie:

s_t²-_dubbel = 4* s_t²-_{1 deel}

Uit deze formule kunnen we opmaken dat wanneer we de lengte van de test verdubbelen, de variantie van de ware score vier keer zoveel wordt. De errorvariantie krijgt een andere formule bij het verlengen van de test:

s_e²-_dubbel = 2* s_e²-_{1 deel}

Hier kunnen we zien dat wanneer de test verdubbelt, de errorvariantie ook verdubbelt. Na berekening van deze cijfers kunnen we ze invullen in een formule om de betrouwbaarheid te schatten:

Rxx_-dubbel = 4(s_t²-_{1 deel}) / (4(s_t²-_{1 deel}) + 2(s_e²-_{1 deel}))

Deze formule kan omgeschreven worden naar de volgende formule:

Rxx_-dubbel = 2Rxx-_origineel/ 1 + Rxx-_origineel
De algemene formule voor een test die verlengd of verkort is, is een Spearman-Brown formule (voorspellingsformule):

Rxx-_{verlengd of verkort} = n*Rxx-_origineel / 1 + (n-1) Rxx-_origineel of

Rxx = k*ŕ_ií / 1 + (k-1)*ŕ_ií

N is met welke factor de test verlengd of verkort is. Rxx_-origineelis de betrouwbaarheidsschatting van de originele versie van de test. Bij de tweede formule is K het aantal items in de nieuwe versie van de test. r_iiis de gemiddelde inter-item correlatie.

De gemiddelde inter-item correlatie kan berekend worden als we de gestandaardiseerde Alpha en het aantal items weten:

r_ií = Rxx / k-(k-1) Rxx

Het is dus handig voor de betrouwbaarheid om een test te verlengen, maar aan de andere kant moeten de nieuwe items die erbij komen wel precies parallel zijn aan de items die al in de test zitten. Bij langere testen heeft het minder nut om nog meer items toe te voegen dan bij testen die minder lang zijn.

Homogeniteit en algemene betrouwbaarheid

Een andere factor die de betrouwbaarheid beïnvloedt is heterogeniteit. Hoe groter de variabiliteit (heterogeniteit) tussen de proefpersonen (en hun ware scores) is, des te groter de betrouwbaarheidscoëfficiënt. Als men een eigenschap onderzoekt waarbij veel heterogeniteit aan de orde is, dan is de betrouwbaarheid hoger dan bij een onderzoek met een eigenschap met weinig heterogeniteit. Dit heeft twee belangrijke implicaties. Als eerst wordt benadrukt dat betrouwbaarheid een kenmerk is van de testscores en niet van de test zelf. De volgende implicatie is dat voorbeelden van heterogeniteit gebruikt kunnen worden in reliability generalization studies. Bij deze studies wordt gekeken naar de mate waarin de betrouwbaarheidsschattingen van andere studies met dezelfde test op elkaar lijken en hoe de betrouwbaarheidsschattingen gebruikt zijn. Deze studies kunnen gebruikt worden om te identificeren en te begrijpen op welke manier de karakteristieken van een steekproef de betrouwbaarheid van testscores beïnvloeden.

De betrouwbaarheid van verschilscores

Er zijn ook onderzoeken waarin gekeken wordt naar hoeveel een groep proefpersonen verandert ten opzichte van een andere groep proefpersonen. Dit heeft ook te maken met variabiliteit. Men wil weten hoeveel variatie er is in de verandering van alle proefpersonen. Een methode om te kijken hoeveel een proefpersoon veranderd is wat betreft de eigenschap, is twee keer de test afnemen en dan de eerste score van de laatste score af te trekken. Hiermee berekent men de verschilscore (D_i= X_i – Y_i). Een positieve score is een verbetering, een negatieve score is een vermindering en een score van 0 betekent dat er geen verandering heeft plaatsgevonden.

Er zijn verschillende soorten verschilscores. Een verschilscore kan binnen een persoon berekend worden (intra-individuele score), hierbij wordt twee keer dezelfde test afgenomen. Een ander type verschilscore is intra-individuele discrepantie score, waarbij er ook twee metingen bij dezelfde persoon gedaan worden, maar er wordt een andere test gebruikt de tweede keer. Daarnaast kan er nog een verschilscore tussen twee personen berekend worden waarbij twee verschillende personen dezelfde test maken en de score van de ene persoon afgetrokken wordt van de score van de andere persoon.

Betrouwbaarheid van de verschilscores schatten

De schatting van de betrouwbaarheid van de verschilscores heeft drie dingen nodig: De betrouwbaarheid van beide testen die gebruikt zijn om de verschilscores te berekenen (Rxx en Ryy). De variabiliteit van de geobserveerde scores van de test (S_xo², S_yo², S_xo, S_yo). En de correlatie tussen de geobserveerde testscores (r_xoyo).

De formule voor de betrouwbaarheid van de verschilscores is:

Rd = S_xo²* Rxx + S_yo² * Ryy – 2r_xoyo * S_xo * S_yo / S_xo2 + S_yo²– 2r_xoyo * S_xo S_yo.

Factoren die de betrouwbaarheid van de verschilscores beïnvloeden

Er zijn twee factoren die bepalen of een set verschilscores een goede betrouwbaarheid zal hebben. De eerste is de correlatie tussen de geobserveerde scores van de testen. Als de correlatie tussen de testen hoger wordt, daalt de betrouwbaarheid van de verschilscores. De tweede factor is de betrouwbaarheid van de twee testen die gebruikt zijn om de verschilscores te berekenen. Als de testen een hoge betrouwbaarheid hebben zullen de verschilscores over het algemeen ook een hoge betrouwbaarheid hebben.

De betrouwbaarheid van de verschilscores kan niet hoger zijn dan de gemiddelde betrouwbaarheid van de twee individuele testscores. Maar de betrouwbaarheid van de verschilscores kan wel veel kleiner zijn dan de betrouwbaarheid van de twee individuele testscores.

Ongelijke variabiliteit

In sommige gevallen zijn verschilscores geen duidelijke afspiegeling van de psychologische realiteit. De verschilscores zijn dan een afspiegeling van maar één van de twee variabelen. Dit kan gebeuren als de twee testen ongelijke variabiliteit hebben, wat bijvoorbeeld kan komen doordat de testen verschillende meetschalen gebruiken. De scores moeten dan eerst gestandaardiseerd worden om de verschilscores uit te kunnen rekenen. Dat betekent dat de variabelen een gemiddelde van 0 hebben en de standaarddeviatie 1 is. Alleen dan kunnen de proefpersonen op een nauwkeurige manier met elkaar vergeleken worden. Hieruit kan dan een verschilscore berekend worden. De verschilscore hoeft echter nog niets te beteken, ook al zijn de metrische schalen gelijk. Het heeft alleen zin om een verschilscore te berekenen als de testscores een psychologische eigenschap met elkaar gemeen hebben.

Vooral bij het analyseren van discrepantie scores is het belangrijk om eerst de testen te standaardiseren voordat de verschilscores berekend worden.

Wat is het belang van betrouwbaarheid? Chapter 7 (2)

Gedragsonderzoek

In deze sectie wordt uitgelegd hoe betrouwbaarheid en meetfouten de resultaten van gedragsonderzoek beïnvloeden. Bewustwording van deze effecten is cruciaal voor gedragsonderzoek.

Er zijn twee belangrijke bronnen van informatie die ons kunnen helpen bij het evalueren van een individuele testscore. De eerste is een puntschatter (point estimate), dit is een waarde die wordt geïnterpreteerd als de beste schatting van iemand zijn score op een psychologische eigenschap. De tweede is een betrouwbaarheidsinterval (confidence interval), deze geeft gebied met waardes waarin de ware score van een persoon ligt. Als de ware score een groot betrouwbaarheidsinterval heeft dan weten we dat de geobserveerde score een slechte puntschatter is van de ware score.

Puntschatters

Twee soorten puntschatters kunnen uit een individuele geobserveerde score gehaald worden. De eerste puntschatter is gebaseerd op de geobserveerde test score alleen. Wanneer een proefpersoon de test op een bepaald moment maakt komt er een geobserveerde score uit. Dit is dan een schatter van de ware score. De tweede puntschatter rekent ook de meetfout mee. Door met de score van de eerste test te schatten wat de proefpersoon in de tweede test zal gaan scoren kan aan de hand van deze schatting een aangepaste ware score worden geschat.

Wanneer een proefpersoon de test voor een tweede keer maakt zal de score de tweede keer dichter bij het groepsgemiddelde liggen. Dit heet regressie naar het gemiddelde (regression to the mean). Deze voorspelling is gebaseerd op de logica van de klassieke test-theorie en de random meetfout. Een schatting van de aangepaste ware score laat het verschil zien tussen iemand zijn geobserveerde score op de eerste test en de geobserveerde score op de tweede test. De grootte en de richting van het verschil is afhankelijk van drie factoren: (1) de betrouwbaarheid van de testscores, (2) de grootte van het verschil tussen de originele geobserveerde testscore en het gemiddelde van de testscores, en (3) de richting van het verschil tussen de originele score en het gemiddelde van de testscores. Voor de schatting van de aangepaste ware score is de volgende formule:

X_est = X_gem + Rxx(X_o – X_gem)

X_est is de schatting van de aangepaste ware score, X_gem is het gemiddelde van de testscore, Rxx is de betrouwbaarheid van de test en X_o is de geobserveerde score. De betrouwbaarheid van de test beïnvloedt het verschil tussen de geschatte ware score en de geobserveerde score. Bij een kleinere betrouwbaarheid wordt het verschil tussen de geschatte ware score en de geobserveerde score groter. De geobserveerde score zelf heeft ook invloed op het verschil tussen de geschatte ware score en de geobserveerde score. Bij extremere geobserveerde scores zal het verschil groter zijn.

Een reden om de geschatte ware score niet uit te rekenen is dat een geobserveerde score al een goede schatter van het psychologische kenmerk is en er kan weinig reden zijn om dat te corrigeren. Een tweede reden is dat de geschatte waarde niet altijd tot een regressie naar het gemiddelde leidt.

Betrouwbaarheidsintervallen van de ware score

Betrouwbaarheidsintervallen geven de nauwkeurigheid van de puntschatter van een individuele ware score weer. De nauwkeurigheid van het betrouwbaarheidsinterval en de betrouwbaarheid hebben een link door de standaard meetfout (se_m). Hoe groter de standaard meetfout, des te groter het gemiddelde verschil tussen geobserveerde scores en ware scores. Voor het berekenen van een betrouwbaarheidsinterval van 95% is de volgende formule:

95% confidence interval = X_o ± (1.96) (se_m)

X_o is de geobserveerde score, se_m is de standaard meetfout van de testscores en 1.96 (de z-score) geeft aan dat we een betrouwbaarheidssinterval van 95% uitrekenen. De interpretatie van een betrouwbaarheidsinterval is dat we met 95% zekerheid kunnen zeggen dat de ware score ergens in het betrouwbaarheidsinterval te vinden is. Testen met een hoge betrouwbaarheid zullen een kleiner betrouwbaarheidsinterval nodig hebben dan testen met een lagere betrouwbaarheid. De betrouwbaarheid heeft invloed op het vertrouwen, de nauwkeurigheid en de precisie waarmee iemands ware score wordt geschat.

Betrouwbaarheidsintervallen kunnen op verschillende manieren worden berekend en met verschillende maten (95%,90%, etc.)

De intervallen kunnen berekend worden met de standaard meetfout of de standaard schattingsfout (die ook beïnvloed wordt door de betrouwbaarheid). De schattingen van de ware scores, en de betrouwbaarheidsintervallen die daarbij horen, zijn belangrijk in het maken van beslissingen. En betrouwbaarheid speelt een grote rol daarin.

Betrouwbaarheid, geobserveerde correlaties en zuivere correlaties

Volgens de klassieke testtheorie is de correlatie van de geobserveerde scores van twee metingen (r_xoyo) afhankelijk van twee factoren: de correlatie tussen de ware scores van de twee psychologische constructen (r_xtr_yt) en de betrouwbaarheden van de twee metingen(Rxx en Ryy).

r_xoyo = r_xtyt*√(Rxx*Ryy)

De correlatie tussen twee sets geobserveerde scores is:

r_xoyo = c_xtyt / s_xos_yo

De geobserveerde standaarddeviatie kunnen we berekenen met de betrouwbaarheid en de standaarddeviatie van de ware scores. Zie hieronder:

s_xo = s_xt / √Rxx en s_yo = s_yt / √Ryy

De klassieke testtheorie laat zien dat de correlatie tussen twee metingen bepaald wordt door de correlatie tussen psychologische constructen en de betrouwbaarheid van de metingen.

De meetfout onderdrukt de correlatie tussen metingen

Er is een verschil tussen de correlatie van de geobserveerde scores en de correlatie van de ware scores. Dit heeft vier belangrijke consequenties:

De geobserveerde correlaties (tussen metingen) zullen altijd zwakker zijn dan de correlaties van de ware scores (tussen psychologische constructen). Dit komt doordat metingen nooit perfect zullen zijn en imperfecte metingen maken de geobserveerde correlaties zwakker.
De mate van verzwakking hangt af van de betrouwbaarheid van de metingen. Zelfs als maar één van de testen een lage betrouwbaarheid heeft wordt de correlatie van de geobserveerde scores een stuk zwakker in vergelijking met de correlatie van de ware scores.
Error beperkt de maximale correlatie die gevonden kan worden. Hierdoor kan de geobserveerde correlatie van twee metingen lager uitvallen dan verwacht.
Het is mogelijk de ware correlatie te schatten tussen een tweetal constructen. Onderzoekers kunnen alle onderdelen uit de formule schatten op de correlatie van de ware scores na. Bij omzetten van de formule komt er het volgende uit:

r_xtyt = r_xoyo / √Rxx*Ryy

Deze formule wordt de correctie van de verzwakking (correction for attenuation) genoemd, omdat onderzoekers hieraan kunnen zien wat de correlatie zou zijn als die niet beïnvloed zou worden door verzwakking. De geschatte correlatie heeft namelijk een perfecte betrouwbaarheid en bij een perfecte betrouwbaarheid is de geobserveerde correlatie gelijk aan de ware correlatie.

Betrouwbaarheid en verzwakking

Doordat de meetfout de geobserveerde correlatie omlaag haalt geeft dat nadelen voor het interpreteren en het leiden van het onderzoek. Resultaten moeten altijd geïnterpreteerd worden met hulp van de betrouwbaarheid. Een belangrijk resultaat van een onderzoek is de effectgrootte. Sommige effectgroottes laten zien in welke mate de variabelen met elkaar samenhangen en anderen laten de grootte van de verschillen tussen groepen zien.

Een voorbeeld van een effectgrootte die laat zien in welke mate twee variabelen met elkaar samenhangen, is de correlatiecoëfficiënt. Hoge betrouwbaarheid zorgt voor grotere geobserveerde effectgroottes en lagere betrouwbaarheid vermindert de geobserveerde effectgroottes.

Er zijn drie veelvoorkomende effectgroottes die gebruikt worden bij onderzoeken: correlaties, Cohen’s d en N². Deze effectgroottes worden elk gebruikt in verschillende analytische situaties. 1. Correlatie wordt meestal gebruikt om het verband tussen twee continue variabelen weer te geven. 2. Cohen’s d wordt meestal gebruikt wanneer er gekeken wordt naar het verband tussen een dichotome variabele en een continue variabele. 3. N² wordt meestal gebruikt wanneer er gekeken wordt naar het verband tussen een categorische variabele met meer dan twee levels, en een continue variabele.

Een tweede belangrijk resultaat van een onderzoek is statistische significantie. Statistische significantie geeft zekerheid van een resultaat. Als een resultaat statistisch significant is dan wordt het gezien als een echte vondst en niet gewoon een toevalstreffer. Bij statistische significantie wordt er een duidelijk verschil aangetoond. Het geobserveerde effect heeft een grote invloed op de statistische significantie. Wanneer de effectgrootte groter wordt, dan is de test eerder statistisch significant.

Het effect van de betrouwbaarheid op de effectgrootte en de statistische significantie is erg belangrijk bij het kijken naar de resultaten van een onderzoek.

Het meerekenen van betrouwbaarheid wanneer je psychologische conclusies trekt uit een onderzoek, heeft drie belangrijke implicaties. De eerste is dat onderzoekers altijd de effecten van betrouwbaarheid op de verkregen resultaten moeten meenemen wanneer ze effectgroottes en statistische significantie interpreteren. De tweede is dat onderzoekers metingen moeten gebruiken die een hoge betrouwbaarheid hebben. Op die manier kan het probleem van verzwakking kan tot een minimum gebracht worden. Toch zijn er twee redenen waarom een onderzoeker ook wel eens metingen met een lage betrouwbaarheid gebruikt. De eerste reden is dat de interesse op een gebied kan liggen waar heel moeilijk een hoge betrouwbaarheid te krijgen is. Een tweede reden kan zijn dat onderzoekers werken met een lage betrouwbaarheid, omdat niet lang genoeg gezocht is naar een meetmethode met een hogere betrouwbaarheid. Het kan veel tijd, geld en moeite kosten om een goede methode te vinden met een hoge betrouwbaarheid. Onderzoekers maken de afweging van de moeite die ze erin willen stoppen en de betrouwbaarheid die ze willen bereiken.

De derde implicatie van het meerekenen van betrouwbaarheid is dat onderzoekers betrouwbaarheidsschattingen van hun metingen zouden moeten rapporteren. Dit is nodig omdat de lezers de resultaten moeten kunnen interpreteren.

Testconstructies en verbeteringen

Bij testconstructie en verbetering wordt de aandacht gevestigd op de consistentie van de testdelen en dan wordt er vooral gekeken naar de items. Testontwikkelaars testen de items uit een test en kijken welke items verwijderd kunnen worden of welke moeten worden versterkt om de kwaliteit van psychometrische testen te verbeteren.

Om te kijken of een item bijdraagt aan de interne consistentie wordt er gekeken naar het itemgemiddelde, de itemvariantie en de itemdiscriminatie. Het is belangrijk om te weten dat de procedures en concepten die hierna beschreven worden, uitgevoerd moeten worden voor elke dimensie die gemeten wordt door de test. Dus bij een eendimensionale test zouden de volgende analyses uitgevoerd worden op alle test items samen als één groep. En bij een multidimensionale test zouden de volgende analyses apart voor elke dimensie uitgevoerd worden.

Itemdiscriminatie en andere informatie bij interne consistentie

Een belangrijke factor voor de betrouwbaarheid van interne consistentie is de mate waarin de testitems consistent zijn aan elkaar. De interne consistentie heeft een intrinsieke link met de correlaties tussen de items. Met een lage correlatie heeft een item weinig consistentie met de andere items en gaat de interne consistentie omlaag.

Om de correlatie tussen items uit te rekenen kan men met SPSS kijken naar de ‘inter-item correlatiematrix’, maar omdat veel testen uit veel items bestaan is dit niet de handigste methode. Itemdiscriminatie is de mate waarin een item onderscheid maakt tussen mensen die hoog scoren op een test en mensen die laag scoren op een test. Voor een goede betrouwbaarheid zijn hoge discriminatiewaarden nodig. Er zijn meerdere manieren om een itemdiscriminatie uit te rekenen. Een daarvan is de item-totaalcorrelatie. We kunnen een totale score uitrekenen en dan de correlatie tussen een item en de totale score uitrekenen. Deze item-totaalcorrelatie laat zien hoe groot het verschil in reacties is bij het item ten opzichte van hoe groot het verschil in reacties in totaal is. Een hoge item-totaalcorrelatie geeft aan dat het item consistent is met de test als geheel.

Bij SPSS wordt het aangegeven als corrected item-total correlations en dan wordt voor elk item de correlatie met de totale score berekend. Het is ‘corrected’ omdat het item zelf niet meetelt bij de totale score. Een andere manier van itemdiscriminatie voor binaire items is de item discriminatie index (D). Deze vergelijkt de proportie (p) van mensen die hoog scoorden op de test en het item goed beantwoordden, met de proportie (p) van mensen die laag scoorden op de test en het item goed beantwoordden. Van die twee groepen wordt de proportie goed beantwoorde vragen in de groep berekend. Het verschil tussen de twee groepen kan dan berekend worden door de proportie van de laagste groep af te trekken van de proportie van de hoogste groep.

D = p_hoog – p_laag

Items met hoge D-scores zijn beter voor de interne consistentie. SPSS heeft nog twee andere manieren om naar de interne consistentie van een test te kijken, namelijk de squared multiple correlation en de Cronbach’s Alpha if item deleted. Het laatste geeft de correlatie van de totale test als één item uit de lijst verwijderd wordt.

Itemvariantie en moeilijkheid van het item

Het itemgemiddelde en de itemvariantie zijn belangrijke factoren die de kwaliteit van een psychometrische test kunnen beïnvloeden. Zij kunnen bijdragen aan hoe consistent een item met de rest van de items is. Dit is van belang voor de betrouwbaarheid van de test. Een variabele heeft variabiliteit nodig om te kunnen correleren met een andere variabele.

Als alle proefpersonen hetzelfde antwoorden is er geen variabiliteit. Bij een goede betrouwbaarheid is er variabiliteit nodig.

Een link tussen de itemvariabiliteit en de psychometrische kwaliteit kan gelegd worden door het itemgemiddelde. Het itemgemiddelde kan iets zeggen over de itemvariabiliteit. Een item met een gelimiteerde variabiliteit geeft weinig bijdrage aan de psychometrische kwaliteit. De gemiddeldes kunnen ook opgevat worden als moeilijkheid. Als bij de ene vraag meer mensen een goed antwoord hebben dan bij de andere vraag, dan is de moeilijkheid verschillend. Als het gemiddelde bijvoorbeeld 0.70 is dan betekent dit dat 70% van de mensen het item goed beantwoord heeft. De klassieke test-theorie suggereert dat binaire testitems een gemiddelde van 0.50 moeten hebben, zodat alle items een maximale variabiliteit hebben.

Hoe ziet de conceptuele basis van validiteit er uit? Chapter 8 (2)

Het meten van validiteit is een van de belangrijkste dingen bij psychologische metingen.

Validiteit

Validiteit is de mate waarin bewijs en theorie de interpretaties van de testscores die voortvloeien uit de voorgestelde doeleinden ondersteunen. Een meting zelf kan niet beoordeeld worden als valide of invalide, maar het gebruik van de scores en de interpretatie van de scores kunnen beoordeeld worden als valide of invalide. Validiteit is gerelateerd aan het beoogde gebruik van de scores. Scores kunnen voor een eigenschap als valide worden beschouwd, terwijl de scores voor de andere eigenschap als invalide kunnen worden beschouwd. Validiteit wordt gemeten in bepaalde hoeveelheden. Een test kan een sterke of een zwakke validiteit hebben. Er is geen grens die bepaalt wanneer de validiteit sterk of zwak is. De validiteit van de interpretatie van een test is gebaseerd op bewijs en theorie. Belangrijk is dat er genoeg empirisch bewijs moet zijn voor de interpretatie en het gebruik van testscores.

Veel psychologische testen hebben na veel ontwikkeling een sterke validiteit gekregen, maar er zijn ook nog heel veel psychologische testen die geen sterke validiteit hebben. Tegenwoordig moet er een psychologische theorie en empirisch bewijs zijn voor een goede ondersteuning van de interpretatie van de testscores. De gegevens moeten van een kwalitatief goed onderzoek komen en moeten dienen als bewijs voor bepaalde interpretaties van de scores.

Lange tijd hebben psychologen validiteit gezien als een opdeling van drie factoren, de inhoudsvaliditeit, de criteriumvaliditeit en de begripsvaliditeit.

Validiteit is belangrijk

In de psychometrische kwaliteit is validiteit een belangrijk onderdeel. Zonder validiteit zijn de metingen voor de wetenschap zinloos. Validiteit beïnvloedt de nauwkeurigheid van ons begrip van de wereld. Voor belangrijke beslissingen zijn goede valide testen nodig. Ook voor beslissingen die betrekking hebben op maar één persoon kan lage validiteit een nadelige uitkomst hebben voor diegene.

Begripsvaliditeit

Begripsvaliditeit is de mate waarin testscores kunnen worden geïnterpreteerd als weergave van een bepaald psychologisch construct. Drie grote organisaties hebben in 1999 een herziening op ‘standards for educational and psychological testing’ gemaakt met de huidige perspectieven op onderzoek. Deze publicatie bevatte vijf relevante aspecten voor de begripsvaliditeit. Dit zijn testinhoud, interne structuur van de test, responsprocessen, associaties met andere variabelen en de gevolgen van testgebruik.

De testinhoud

De validiteit van de testinhoud is gebaseerd op de overeenkomst tussen de werkelijke inhoud van de test en de inhoud die bedoeld was in de test. Dit is ook wel de inhoudsvaliditeit.

Inhoudsvaliditeit

Een test mag geen inhoud bevatten die niet relevant is voor het construct van de test. De test bevat dan irrelevante inhoud voor het construct. Wanneer de test irrelevante inhoud ten opzichte van het construct bevat wordt de validiteit verlaagd.
Een test moet zoveel mogelijk relevante inhoud bevatten voor het construct. Als dit niet het geval is, wordt de ondervertegenwoordiging van het construct (construct underrepresentation) genoemd. Wanneer er niet genoeg relevante inhoud in het construct zit, wordt ook de validiteit verlaagd.

Er is geen duidelijke regel voor de hoeveelheid relevante inhoud die een construct moet bevatten. Tijd, moeheid van de proefpersonen en de hoeveelheid aandacht van de proefpersonen beperken de hoeveelheid relevante inhoud die een test kan bevatten.

Face validiteit tegen inhoudsvaliditeit

Face validiteit is de mate waarin een meting valide is in de ogen van niet-experts zoals de mensen waarbij de test wordt afgenomen. Een test heeft face validiteit als de proefpersoon het zelf relevant vindt. Deze vorm van validiteit is minder belangrijk dan de andere vormen van validiteit. Proefpersonen kunnen wel meer gemotiveerd zijn en de test serieuzer nemen wanneer ze het idee hebben dat de test valide is. Het verschil tussen inhoudsvaliditeit en face validiteit is belangrijk. Inhoudsvaliditeit meet of er daadwerkelijk gemeten wordt wat men wil weten. Deze validiteit is alleen te beoordelen door degene die alles weet van het construct wat gebruikt wordt in de test. Dit is dus weggelegd voor de experts. Face validiteit is de mate waarin de niet-experts de inhoud als relevant beoordelen. Inhoudsvaliditeit is een belangrijkere vorm van validiteit in de evaluatie van construct (begrips-)validiteit dan de face validiteit.

De interne structuur van een test

Wat ook van belang is bij de validiteit van de interpretatie van de testscores is de interne structuur van een test. De interne structuur is de manier waarop de verschillende delen van de test gerelateerd zijn aan elkaar. Belangrijk is dat de echte interne structuur zoveel mogelijk overeenkomt met de structuur die de test zou moeten hebben. Als dit goed met elkaar overeenkomt is er een hoge validiteit.

Voor het meten van de interne structuur passen testontwikkelaars factoranalyse toe. Uit de factoranalyse wordt duidelijk welke items sterk met elkaar correleren en welke items minder sterk met elkaar correleren. Wanneer een aantal items sterk met elkaar correleert zijn ze samen een factor. Factoranalyse helpt bij:

Het vinden van een paar factoren in een groot aantal items. Het aantal factoren is van belang bij de sterkte van de validiteit.
Het onthullen van de samenhang tussen de factoren in een multidimensionale test. Wanneer de factoren geen correlatie hebben zijn de factoren onafhankelijk van elkaar.
Welke items bij welke factoren horen. Voor de kwaliteit van de meting is het belangrijk dat de items waarvan we denken dat die bij een bepaalde factor horen, ook daadwerkelijk bij die factor horen en niet bij een andere.

De interne structuur is erg belangrijk bij constructvaliditeit. De interne structuur moet zoveel mogelijk overeenkomen met de structuur van het construct dat men beoogt te meten om een zo hoog mogelijke validiteit te krijgen.

Respons processen

De overeenkomst tussen psychologische processen die de proefpersonen gebruiken en de processen die ze zouden moeten gebruiken, is ook van belang bij validiteit. Proefpersonen maken gebruik van een bepaald proces als zij een vraag beantwoorden. Wanneer de proefpersonen een ander proces gebruiken dan de testontwikkelaar in gedachten heeft, zijn de scores van de test niet goed te interpreteren.

Associaties met andere variabelen

Het begrijpen van de theorie bij het construct helpt ook bij het kijken naar de validiteit. Wanneer men de theorie achter een bepaald construct weet, verwacht men bepaalde patronen van verbinding tussen de testscores en andere variabelen. Dus verbindingen tussen een meting en andere metingen moeten zoveel mogelijk overeenkomen met de verbindingen die men verwacht had. Als de werkelijke correlaties met andere testen niet overeenkomen met de verwachte correlaties dan meet de test waarschijnlijk niet het construct dat we willen meten.

Bij het evalueren van het patroon van validiteit tussen een meting en andere metingen is het belangrijk om verschillende soorten bewijs na te gaan. Convergent bewijs is de mate waarin testscores correleren met andere testen van een soortgelijk construct. Voor het interpreteren van de scores voor de validiteit vragen de onderzoekers vaak of de proefpersonen meerdere testen van hetzelfde construct willen invullen. Convergent bewijs komt vaak neer op correlaties tussen verschillende manieren die hetzelfde construct meten. Tegenover convergent bewijs is er discriminant bewijs. Hierin wordt gekeken naar de mate waarin de testscores niet correleren met testen van niet-gerelateerde constructen. Discriminant bewijs is een belangrijk en subtiel concept. Testgebruikers moeten precies weten welke psychologische variabelen gemeten worden. Wanneer niet-gerelateerde variabelen met elkaar correleren is de discriminante validiteit laag en dat kan leiden tot verkeerde conclusies.

Bij dit soort bewijs kan een onderscheid gemaakt worden tussen concurrent bewijs voor validiteit (concurrent validity evidence) en voorspellend bewijs voor validiteit (predictive validity evidence). Bij concurrent bewijs voor validiteit wordt gekeken naar de correlatie tussen de testscores en andere relevante variabelen die op dezelfde tijd gemeten zijn in de eerste test. En voorspellend bewijs voor validiteit is de correlatie tussen testscores en andere relevante variabelen die op een bepaald moment in de toekomst gemeten zullen worden. Beide concepten verwijzen naar de overeenkomsten (correlaties) tussen de testscores en andere relevante variabelen. En met overeenkomsten kunnen we spreken van convergent bewijs, dus concurrent validiteit en voorspelde validiteit zijn variaties van convergent bewijs.

Gevolgen van testgebruik

Een verschil met het huidige perspectief op validiteit en het traditionele perspectief op validiteit is dat het huidige perspectief de constructvaliditeit boven de inhoudsvaliditeit en de criteriumvaliditeit stelt.

Een test kan ook sociale gevolgen met zich meebrengen. Vrouwen of mannen kunnen bijvoorbeeld benadeeld worden in sommige testen. Bijna iedereen zou het ermee eens zijn dat testontwikkelaars zich bezig moeten houden met de mogelijkheid dat een test uiteindelijk toch oneerlijk kan zijn of een ander effect kan geven dan verwacht. Maar sommigen zijn het niet eens met de menging van de gevolgen die uit een test kunnen komen en het objectieve wetenschappelijke proces. Voorstanders van consequential validity zeggen dat wetenschap nooit gescheiden kan zijn van persoonlijke en sociale waardes. De vragen die onderzocht worden worden gevormd door sociale waardes en de eigen persoonlijke waardes. De aannames die onderzoekers maken zijn voor een deel gebaseerd op hun eigen waarde oordelen en zelfs de labels die onderzoekers aan het theoretische construct plakken zijn deels gevormd door waardeoordelen. Waardeoordelen kunnen soms een groot en soms een klein effect hebben op het wetenschappelijke proces.

Een test kan nadelige gevolgen hebben voor een persoon of een groep personen, maar toch een eerlijke test zijn. Wanneer een test een bias bevat kan het bijvoorbeeld zijn dat vrouwen hoger scoren dan mannen, omdat de test wel een goede meting is voor vrouwen, maar niet voor mannen. Dan is er sprake van oneerlijkheid, maar wanneer de test geen bias heeft kan toch zo zijn dat vrouwen hoger scoren dan mannen, omdat vrouwen gewoon hoger scoren op die eigenschap. Dan is de test eerlijk, maar kan het voor sommige proefpersonen toch nadelige gevolgen hebben.

Andere perspectieven

Er zijn drie andere perspectieven voor het beoordelen van de validiteit.

Criteriumvaliditeit legt minder nadruk op de conceptuele betekenis of interpretaties van de testscores. Testgebruikers willen soms gewoon groepen gescheiden krijgen door middel van een test en dan vinden ze het niet van belang welk construct erachter zit. Criteriumvaliditeit is de mate waarin de testscores de criteriumvariabelen kunnen voorspellen. Hierbij horen ook de concurrente validiteit en de voorspellende validiteit. De psychologische betekenis van testscores is relatief onbelangrijk, omdat het enige belangrijke is dat de groepen gescheiden worden. Tegenwoordig vindt men dat criteriumvaliditeit een onderdeel is geworden van de constructvaliditeit.
Een ander alternatief is te leren wat de testscores werkelijk betekenen in plaats van het testen van bepaalde theoretische hypothesen over de testscores. Onderzoekers kunnen ook naar de echte betekenis van de testscores kijken en daar een evaluatie uit opmaken. Dit wordt de inductieve benadering van validiteit genoemd. Het doel van de inductieve benadering is achter de volle betekenis van de testscores komen. Hierdoor kan het construct later ook weer veranderd worden. In toegepast onderzoek kan het bijvoorbeeld gebruikt worden om een specifieke job performance test te krijgen. In het onderzoeksveld wordt het toegepast om nieuwe gebieden te ontdekken en daar een theoretische basis voor te ontwikkelen. Testontwikkelaars besteden over het algemeen niet veel tijd en moeite aan het verder ontwikkelen van al bestaande onderzoeken.
Men kan ook kijken naar de validiteit door de verbinding tussen testen en psychologische constructen te benadrukken. Een test is alleen een valide meting van het construct als het construct bij de test de prestatie van de proefpersonen beïnvloedt. Volgens Borsboom, Mellenbergh en van Heerden (2004) is de eerste doelstelling van validiteit de theoretische verklaring geven voor de uitkomst van de meting.

Betrouwbaarheid en validiteit

Het is van belang goed het verschil te weten tussen betrouwbaarheid en validiteit. Betrouwbaarheid is de mate waarin de verschillen in de testscores tussen mensen overeenkomt met de echte verschillen in de eigenschap, welke eigenschap dat ook mag zijn. We kunnen over de betrouwbaarheid van de test discussiëren zonder de interpretatie van de testscores. Met betrouwbaarheid kijkt men naar de reacties op de test en met validiteit wordt er gekeken naar de interpretatie van de testscores. Validiteit is ook meer verbonden aan de psychologische theorieën, terwijl het bij betrouwbaarheid meer iets van de kwantiteit is. Conceptueel heeft men vaak geen validiteit zonder betrouwbaarheid, maar de betrouwbaarheid kan wel zonder de validiteit. Als een test betrouwbaar is wil dat niet zeggen dat hij ook valide is. Testen kunnen betrouwbaar en niet valide zijn.

Wat is er allemaal van belang bij validiteit? Chapter 9 (2)

Het schatten en evalueren van convergent en discriminant validiteitbewijs

Psychologische constructen zijn vastgelegd in een theoretische context. De basis van het construct heeft weer connecties met de basis van andere psychologische constructen. De connectie tussen het construct en andere gerelateerde constructen wordt een nomologisch netwerk genoemd. Volgens dit netwerk zouden metingen van een bepaald construct sterk geassocieerd worden met sommige andere constructen, maar zwak correleren met metingen van andere constructen. Voor de validiteit is het van belang dat de testscores zoveel mogelijk overeenkomen met de verwachte associaties.

Methodes voor het evalueren van de convergente en discriminante validiteit

Voor het kijken naar convergente en discriminante associaties zijn er vier methodes. De volgende vier methodes zijn gebruikelijke methodes om de convergente validiteit en de discriminante validiteit te evalueren.

1. Focus op bepaalde associaties

Bij sommige metingen is het vrij duidelijk welke specifieke variabelen eraan gerelateerd zijn. Voor de validiteit van de interpretaties kan dan gekeken worden naar het verband tussen de testscores en die specifieke variabelen. Wanneer de testscores hoog gecorreleerd zijn met de variabelen is er een sterke validiteit en als de correlaties laag zijn kan de validiteit in twijfel getrokken worden. Testontwikkelaars krijgen meer vertrouwen in de test als de correlatie met relevante variabelen hoog is. Deze correlaties worden validiteitcoëfficiënten genoemd. De kwaliteit van een test is hoger wanneer de validiteitcoëfficiënten hoog zijn.

Een proces waarbij alle validiteitcoëfficiënten getest worden in meerdere studies wordt validiteitgeneralisatie genoemd. Het meeste validiteitbewijs komt van relatief kleine studies. De correlatie wordt dan berekend tussen de testscores die gemeten zijn en de scores op de criteriumvariabelen. De kleine studies worden vaak gedaan en zijn ook wel bruikbaar, maar er zit ook een nadeel aan. Als er op de ene locatie of bij een bepaalde populatie een test is uitgevoerd waar een prima validiteitscore uitkomt, hoeft dat nog niet te betekenen dat het op een andere locatie of bij een andere populatie hetzelfde zal zijn.

Onderzoeken die kijken naar de validiteitgeneralisatie zijn bedoeld om de bruikbaarheid van de testscores te onderzoeken. Dit soort onderzoeken zijn een soort meta-analyses, ze combineren de resultaten van verschillende kleinere onderzoeken tot één grote analyse. Er zitten drie belangrijke dingen aan validiteit generalisatie:

Het kan een algemeen niveau onthullen van de voorspelde validiteit van alle kleinere studies.
Het kan de mate van variabiliteit tussen de kleinere studies onthullen.
Het houdt zich bezig met de bron van de variabiliteit tussen de kleinere studies. Verdere analyse van kleine studies kan verschillen tussen deze studies verklaren.

2. Correlatiesetjes

Het nomologische netwerk van een construct kan associaties hebben met andere constructen van verschillende niveaus. Hierdoor kan bij het evalueren van de convergente validiteit en de discriminante validiteit gekeken worden naar een grote hoeveelheid criteriumvariabelen.

De onderzoekers berekenen meestal alle correlaties tussen de variabele en de criteriumvariabelen. Van daaruit wordt er subjectief gekeken naar welke correlaties en dus welke criteriumvariabelen relevant zijn. Dus welke criteriumvariabelen er in het nomologische netwerk gaan. Deze benadering van het evalueren van de validiteit is gebruikelijk bij onderzoekers. Eerst verzamelen de onderzoekers zoveel mogelijk data en doen veel relevante metingen. Daarna wordt er naar de correlatiepatronen gekeken en worden de patronen die iets betekenen voor de test bij de test betrokken.

3. Multitrait-multimethode matrixen

Campbell en Fiske hebben de multitrait-multimethode matrix (MTMMM) ontwikkeld vanuit de conceptuele basis van Cronbach en Meehl. Met de MTMMM analyse wordt de constructvaliditeit verkregen door middel van metingen van meerdere eigenschappen en er wordt gebruik gemaakt van meerdere verschillende methodes. Het doel van de MTMMM analyse is een duidelijke evaluatie krijgen van de convergente validiteit en de discriminante validiteit. Twee belangrijke bronnen van variantie kunnen de correlaties tussen de metingen beïnvloeden. Dit zijn de eigenschapsvariantie en de variantie in de methodes. Een hoge correlatie tussen twee eigenschappen kan betekenen dat ze eigenschapsvariantie delen. Een correlatie kan ook hoog zijn omdat beide eigenschappen met dezelfde methode gemeten zijn. Ze hebben dan een gedeelde methodevariantie. Dit kan ervoor zorgen dat er een correlatie uitkomt terwijl de eigenschappen helemaal geen correlatie hebben. Maar omdat het met dezelfde test is gedaan is er een correlatie door de wijze waarop de proefpersoon denkt. De proefpersoon kan bijvoorbeeld beide testen met een laag zelfbeeld maken, dan is het logisch dat er bij twee eigenschappen een correlatie kan zijn. Een hoge correlatie kan dus duiden op het delen van de eigenschap variantie, maar het kan ook duiden op een gedeelde methode variantie. Een correlatie kan ook zwak zijn omdat er juist twee verschillende methodes zijn gebruikt, terwijl de eigenschappen in werkelijkheid wel een correlatie kunnen hebben. Dit maakt het interpreteren van de constructvaliditeit lastig. Elke correlatie is een mix van eigenschapsvariantie en methodevariantie. De MTMMM analyse organiseert relevante informatie en maakt het voor de onderzoekers makkelijker de correlaties te interpreteren.

Een MTMMM analyse moet een goede toets zijn van verschillende correlaties die verschillende eigenschap en methode varianties weergeven. Dit kan bijvoorbeeld met twee correlaties:

Een correlatie waarbij dezelfde eigenschap met twee verschillende metingen is getoetst.
Een correlatie waarbij verschillende eigenschappen met één soort meting is getoetst.

Men verwacht dat de eerste correlatie sterk is en de tweede correlatie zwakker is. Wanneer men de methode variantie erbij betrekt kan verwacht worden dat juist de eerste correlatie zwakker is en de tweede correlatie sterker.

Campbell en Fiske (1959) hebben vier typen correlaties uit de MTMMM afgeleid:

Hetero-eigenschap - heteromethode correlaties: dit zijn verschillende eigenschappen, gemeten met verschillende methoden.
Hetero-eigenschap – mono-methode correlaties: hier worden verschillende eigenschappen aan dezelfde methode onderworpen.
Mono-eigenschap – heteromethode correlaties: dezelfde eigenschap (construct) wordt gemeten met verschillende methoden.
Mono-eigenschap – mono-methode correlaties: een eigenschap wordt met een methode gemeten. Deze correlaties geven de betrouwbaarheid weer; de correlatie van de meting met zichzelf.

Het evalueren van de constructvaliditeit, de eigenschapsvariantie en de methodevariantie met de verschillende correlaties kan met de MTMMM analyse overzichtelijk naar worden gekeken. De convergente validiteit kan gevonden worden door te kijken naar de mono-eigenschap – heteromethode correlaties. De correlaties van de metingen die de eigenschapsvariantie delen en geen methodevariantie delen moeten groter zijn dan de correlaties van de metingen die geen eigenschapsvariantie en geen methodevariantie delen. Ook moeten de correlaties van de metingen die de eigenschapsvariantie delen en geen methodevariantie delen groter zijn dan de correlaties van de metingen die de eigenschapsvariantie niet delen en de methodevariantie juist weer wel.

Tegenwoordig wordt er nog steeds gekeken naar verbeteringen voor de MTMMM analyse. Ondanks de bekendheid van de MTMMM analyse wordt het niet vaak toegepast.

4. Het kwantificeren van de constructvaliditeit (QCV)

Bij deze methode kwantificeren onderzoekers de mate waarin de theoretische voorspellingen voor de convergente en discriminante correlatie passen met de werkelijke verkregen correlaties. Tot nu toe is bewijs voor convergente validiteit en discriminante validiteit voornamelijk subjectief geweest. De een kan de correlatie sterk vinden terwijl de ander het als minder sterk ervaart. De QCV procedure is ontwikkeld om een zo objectief en precies mogelijke validiteit te krijgen. Dit maakt de vierde methode verschillend van de andere drie methodes.

Uit de QCV analyse worden als eerst de effectmaten gehaald. Hier wordt dus gekeken naar de mate waarin de werkelijke correlaties overeenkomen met de voorspelde correlaties. Deze effectmaten worden r_alerting-CV en r_contrast-CV.genoemd. Hoge en positieve correlaties willen zeggen dat de werkelijke convergente en discriminante correlaties veel overeenkomen met de voorspelde convergente en discriminante correlaties. Als tweede volgt uit de QCV analyse een toets van de statistische significantie. Bij de statistische significantie wordt gekeken of de overeenkomst tussen de twee correlaties niet door toeval is gebeurd.

De QCV analyse verloopt in drie fasen:

Onderzoekers maken duidelijke voorspellingen over de verwachte convergente en discriminante validiteit correlaties. Er moet goed nagedacht worden over de criteria die aan de metingen zitten en van elke correlatie die relevant is voor de test moet een voorspelling gemaakt worden.
In de tweede fase verzamelen de onderzoekers de gegevens en worden de werkelijke convergente en discriminante correlaties berekend. Deze correlaties laten de werkelijke correlaties zien tussen de variabele waarin we geïnteresseerd zijn en de criterium variabelen.
In de derde fase wordt de mate waarin de voorspelde correlaties en werkelijke correlaties overeenkomen gekwantificeerd. Wanneer de correlaties goed met elkaar overeenkomen betekent dit een hoge validiteit. Wanneer de correlaties niet goed met elkaar overeenkomen betekent dit een lage validiteit. De test wordt weergegeven met twee soorten resultaten, de effectmaten en de statistische significantie. Voor de effectmaat r_alerting-CVwordt de correlatie tussen de voorspelde correlaties en de werkelijke correlaties berekend. Een hoge, positieve correlatie betekent dat de voorspelde correlaties en de werkelijke correlaties goed met elkaar overeenkomen. Voor de r_constrast-CVgeldt hetzelfde, hoe groter de correlatie, hoe beter het is voor de convergente en discriminante validiteit. De r_constrast-CVlijkt op de r_alerting-CV, maar is gecorrigeerd voor de onderlinge correlaties tussen de criteriumvariabelen en het absolute niveau van de correlaties tussen de hoofdtest en de criteriumvariabelen. Ook wordt in de derde fase van de QCV analyse gekeken naar de statistische significantie. Hierin wordt gekeken naar de grootte van de test en de hoeveelheid convergente en discriminante validiteit. Met een z-toets wordt dan berekend of de correlaties niet door toeval verkregen zijn.

De QCV benadering kan een goede benadering zijn, maar het is niet perfect. De effectmaten kunnen lage waardes hebben door verkeerde voorspellingen terwijl het bewijs voor validiteit dan wel hoog kan zijn. Er kan ook een verkeerde keuze gemaakt worden in het kiezen van de criteriumvariabelen. Een ander punt van kritiek is dat onderzoekers hoge waarden voor de effectmaten hadden maar dat voorspelde convergente en discriminante correlaties niet goed overeenkwamen met de werkelijke convergente en discriminante correlaties.

Meerdere strategieën zijn bruikbaar in de analyse van testen. Hoewel de QCV analyse niet perfect is, heeft het toch voordelen ten opzichte van de andere methodes. Ten eerste laat de QCV analyse de onderzoekers goed kijken naar het patroon van de convergente en discriminante validiteit dat theoretisch logisch zou zijn. Ten tweede laat het de onderzoekers expliciete voorspellingen maken over de associaties met andere variabelen. Ten derde houdt de QCV analyse de aandacht gericht op de variabele van interesse. Ten slotte geeft het een interpreteerbare waarde die weergeeft in hoeverre de werkelijke uitkomsten met de voorspelde uitkomsten overeenkomen en de QCV analyse bevat bovendien statistische significantie.

Factoren die de validiteit coëfficiënten beïnvloeden

De associaties tussen constructen

Een factor die de correlatie beïnvloedt is de ware associatie tussen twee constructen. Wanneer twee constructen sterk met elkaar geassocieerd zijn dan zal er waarschijnlijk een hoge correlatie uitkomen. Met voorspellingen wordt er een correlatie verwacht, omdat men denkt dat er dan een verband is tussen de constructen.

De meetfout en betrouwbaarheid

Meetfouten kunnen de correlaties beïnvloeden en daarmee dus ook de validiteitcoëfficiënten. De correlatie tussen testen van twee constructen is:

r_xoyo = r_xtyt √(Rxx*Ryy)

r_xoyois hier de correlatie tussen de twee testen, r_xtytis hier de werkelijke correlatie tussen de twee constructen, Rxx is de betrouwbaarheid van de testvariabele en Ryy is de betrouwbaarheid van de criteriumvariabele. Om de convergente validiteit te evalueren moeten onderzoekers de correlaties met de verwachte correlaties vergelijken. Bij het evalueren van de validiteitcorrelatie moet men rekening houden met het feit dat er met twee betrouwbaarheden gerekend wordt. De betrouwbaarheid van de test en de betrouwbaarheid van de criteriumtest. De criteriumtest kan een lage betrouwbaarheid hebben waardoor de validiteit ook lager is. Als de betrouwbaarheid van een van de testen laag is kan dit op twee manieren aangepakt worden. De eerste is om minder gewicht te geven aan de test met lage betrouwbaarheid bij het beoordelen van validiteit. De tweede is om de validiteitscoëfficiënt aan te passen door middel van de correction for attenuation. Als je de coëfficiënt aan wilt passen voor de betrouwbaarheid van één test dan kan deze vorm van de formule gebruikt worden:

r_XY-adjusted = r_XY-original / √Ryy

r_XY-originalis de originele validiteitscorrelatie, Ryy is de geschatte betrouwbaarheid van de criteriumvariabele en r_XY-adjusted is de aangepaste validiteitscorrelatie.

Een beperkte range

Een correlatiecoëfficiënt laat de covariabiliteit tussen twee verdelingen van scores zien. De hoeveelheid variabiliteit in de verdelingen kan de correlaties tussen de twee setjes van scores beïnvloeden. De correlatie kan dus beperkt worden door een beperkte range in beide verdelingen en hierdoor geeft het relatief slechter bewijs van validiteit.

Voor de mate van convergente en discriminante validiteit wordt er naar correlaties gekeken. De correlaties worden gebruikt om naar de kwaliteit van de psychologische meting te kijken. Bij verwachte sterke correlaties wordt er gekeken naar het convergente bewijs. De correlaties kunnen lager uitvallen door de invloed van een beperkte range.

De relatieve proporties

De scheefheid (skew) van de verdelingen van de scores heeft ook invloed op de grootte van de validiteitscoëfficiënt. Als de twee variabelen die correleren met elkaar een andere scheefheid hebben dan zal de correlatie tussen deze variabelen verminderd worden. Dus als er onderzoek wordt gedaan naar een variabele met een hele scheve verdeling dan kan het zijn dat er een relatief kleine validiteitscoëfficiënt uitkomt.

De formule voor de correlatie tussen een continue en een dichotome variabele (r_CD) is:

r_CD = c_CD / s_Cs_D

c_CDis de covariantie tussen de twee variabelen, s_Cis de standaard deviatie van de continue variabele en s_Dis de standaard deviatie van de dichotome variabele. Door de proportie van observaties in de twee groepen met de dichotome variabele worden de covariantie en de standaard deviatie direct beïnvloed. De covariantie hiervoor is:

c_CD = p₁p₂ (C_2gem – C_1gem)

p₁is de proportie deelnemers is groep 1, p₂is de proportie deelnemers in groep 2, C_1gemis het gemiddelde van de continue variabele in groep 1 en C_2gemis het gemiddelde van de continue variabele in groep 2. De standaard deviatie van de dichotome variabele is de tweede term die beïnvloed wordt door de proportie van observaties. Hiervoor is de formule:

s_D = √ p₁p₂

De berekening voor de correlatie kan omgezet worden om de directe invloed van de relatieve proporties te laten zien:

r_CD = √p₁p₂(C_2gem – C_1gem) / s_C

Deze formule laat de invloed van de groepsproporties op de validiteitcorrelaties zien. Wanneer de validiteitcoëfficiënt gebaseerd is op een continue variabele en een dichotome variabele kan de validiteit beïnvloed worden door verschillen en de grootte van de groepen. De validiteit kan lager uitvallen bij verschil in de grootte van de groepen.

De methode variantie

Dit is eerder besproken bij de MTMMM analyse. Correlaties tussen twee verschillende methodes zijn kleiner dan correlaties tussen metingen van één methode. Wanneer er maar één methode gebruikt wordt is de kans groot dat de correlatie groter is, omdat het ook een gedeelde methodevariantie bevat.

Tijd

Validiteitcoëfficiënten gebaseerd op correlaties die berekend zijn uit metingen op verschillende tijden zijn kleiner dan correlaties die berekend zijn uit metingen op dezelfde tijden. En langere perioden tussen twee momenten in tijd zullen kleinere voorspellende validiteitscorrelaties produceren.

De voorspellingen van enkele gebeurtenissen

Een belangrijke factor die de validiteitcoëfficiënt kan beïnvloeden is of de criteriumvariabele één gebeurtenis is geweest of een opsomming van meerdere gebeurtenissen. Eenmalige gebeurtenissen zijn moeilijker te voorspellen dan een opsomming van meerdere gebeurtenissen. Het is waarschijnlijker om grote validiteitscoëfficiënten te verkrijgen wanneer de criteriumvariabele gebaseerd is op de opsomming van meerdere gebeurtenissen.

Het interpreteren van de validiteitcoëfficiënt

Nadat de validiteitcoëfficiënt bepaald is, moet besloten worden of het hoog genoeg is voor convergent bewijs, of laag genoeg is voor zekerheid van discriminante validiteit. Hoewel er een precieze manier is om het verband tussen twee metingen te kwantificeren, zal het niet altijd intuïtief gebeuren. Vooral voor onervaren onderzoekers, het evalueren van de validiteit kan dan problematisch zijn. Hij of zij weet niet goed wanneer een correlatie sterk of zwak is.

De verklaarde variantie en gekwadrateerde correlaties

In psychologisch onderzoek is het gebruikelijk om gekwadrateerde correlaties te gebruiken. Deze laten de proporties variantie in de ene variabele zien, die verklaard worden door de andere variabele. De verklaarde variantie interpretatie is aantrekkelijk, omdat eerdere beweringen zeggen dat onderzoek in het algemeen om het meten en begrijpen van variabiliteit gaat. Hoe meer variabiliteit men kan verklaren hoe beter het begrepen kan worden. Voor de verklaarde variantie wordt de variantie-analyse toegepast (ANOVA).

Er zijn drie redenen van kritiek op de gekwadrateerde variantie:

In sommige gevallen is het technisch fout.
Sommige experts zeggen dat de variantie zelf een niet-intuïtieve metriek is. Bij een meting van verschillen in een set van scores is de variantie gebaseerd op de gekwadrateerde deviaties van het gemiddelde.
Het kwadrateren van de correlatie kan het verband tussen twee variabelen kleiner laten lijken.

De gekwadrateerde correlatie benadering voor het interpreteren van de validiteitcoëfficiënten is veelgebruikt, maar het kan ook misleidend zijn. Verder heeft het een aantal technische en logische problemen.

Het schatten van praktische effecten

Een manier om de correlatie te interpreteren is te schatten hoeveel effect het heeft in het echte leven. Hoe groter de correlatie tussen de test en de criteriumvariabele, des te succesvoller het gebruikt kan worden bij beslissingen over de criteriumvariabele.

Er zijn vier procedures ontwikkeld om de correlaties goed te kunnen voorspellen:

1. Binominal Effect Size Display (BESD)

Deze procedure is ontwikkeld om de praktische gevolgen te laten zien van het gebruiken van correlaties om beslissingen te maken. Met de BESD kan gekeken worden hoeveel voorspellingen succesvol en hoeveel voorspellingen niet succesvol gemaakt zullen worden op basis van de correlatie. Dat kan met een 2x2 model bekeken worden. Om het aantal mensen te voorspellen in een cel van de tabel wordt de volgende formule gebruikt:

Cel A = 50 + 100 (r/2)

r is hier de correlatie tussen de test en het criterium. Voor cel B geldt de volgende formule:

Cel B = 50 – 100 (r/2)

Cel C heeft dezelfde formule als Cel B en Cel D heeft dezelfde formule als Cel A.

Door de validiteitcorrelatie in een soort tabel te zetten en de getallen om te zetten in succesvolle voorspellingen, is het makkelijker te zien of de test een goede validiteit heeft. De kritiek is dat de test alleen geschikt is als er evenveel mensen hoog als laag scoren. En het is gemaakt voor een situatie waarin de helft van de steekproef ‘succesvol’ is op het criterium en de andere helft niet succesvol. De BESD gaat uit van gelijke relatieve proporties.

2. Taylor Russel Tabellen

Deze tabellen kunnen gebruikt worden wanneer de aanname van gelijke proporties ongegrond is.

Deze tabellen geven de kans dat een voorspelling, gebaseerd op een ‘acceptabele’ testscore, tot een succesvolle uitvoering zal leiden op het criterium. De Taylor-Russel tabellen hebben net als BSED voor de test en de uitkomsten dichotome variabelen. Het verschil met de BSED is dat de Taylor-Russel tabellen beslissingen kunnen maken die gebaseerd zijn op verschillende proporties. Voor de Taylor-Russel tabellen moeten we weten wat de grootte is van de validiteitcoëfficiënt, wat de selectieproportie is en wat de succesvolle selectieproportie is als de selectie gemaakt zou zijn zonder de test.

3. Utility Analyse

De utility analyse formuleert validiteit op het gebied van kosten tegenover voordelen. Onderzoekers moeten geldige waardes toeschrijven aan verschillende aspecten van het testen en het beslissen in het proces. Eerst moet geschat worden wat het voordeel is van het gebruiken van deze test om beslissingen te maken in vergelijking met andere methodes die gebruikt kunnen worden. Daarna moet de onderzoeker schatten wat de kosten (nadelen) zijn als deze test gebruikt wordt om een beslissing te maken.

4. Gevoeligheid en specifiekheid

Dit is vooral bruikbaar bij testen die ontworpen zijn om een categorisch verschil te identificeren. Het vermogen van de test om de juiste identificaties te maken wat betref het categorische verschil kan dan geëvalueerd worden. Een voorbeeld is een diagnose waarbij de stoornis aanwezig of afwezig kan zijn. Er zijn vier mogelijke uitkomsten:

Waar positief, de test geeft een goede identificatie waarbij de stoornis echt aanwezig is.
Waar negatief, de test geeft een goede identificatie waarbij de stoornis niet aanwezig is.
Onwaar positief, de test geeft aan dat de stoornis aanwezig is terwijl het in werkelijkheid niet zo is.
Onwaar negatief, de test geeft aan dat de stoornis afwezig is terwijl het in werkelijkheid aanwezig is.

Waardes van gevoeligheid en specifiekheid zijn waardes die de proporties van goede identificaties samenvatten. De gevoeligheid laat de kans zien dat iemand met een stoornis correct geïdentificeerd wordt door de test. Specifiekheid laat de kans zien dat iemand die de stoornis niet heeft correct geïdentificeerd wordt door de test. In werkelijkheid kan men nooit weten of iemand een stoornis heeft, maar het is een richtlijn die vertrouwd wordt.

Richtlijnen en normen op het veld

Een andere manier om naar de correlaties te kijken is het evalueren van de context. In het ene onderzoeksveld gelden andere eisen dan in het andere onderzoeksveld. In de fysieke wetenschap worden dingen gevonden die veel krachtiger zijn dan bevindingen in de gedragswetenschap. Volgens de richtlijnen van Cohen (1988) worden, in de psychologie, correlaties van 0.10 als klein gezien, worden correlaties van 0.30 als medium gezien en worden correlaties van 0.50 als groot gezien. Tegenwoordig heeft Hemphill (2003) nieuwe richtlijnen gemaakt. Nu is een correlatie onder de 0.20 klein, tussen de 0.20 en 0.30 is medium en boven de 0.30 is de correlatie groot.

Statistische significantie

Statistische significantie is een belangrijk onderdeel bij de inferentiële statistieken. Inferentiële statistieken zijn procedures die ons helpen bij het maken van beslissingen over populaties. De meeste studies hebben een klein aantal deelnemers. De meeste onderzoekers gebruiken dit kleine aantal deelnemers als voorbeeld voor de hele populatie. En gaan ervanuit dat deze data een goede weergave is van de data die ze zouden verkrijgen als ze de gehele populatie zouden onderzoeken. Toch zijn de onderzoekers zich er wel van bewust dat men niet zomaar dingen over de hele populatie kan zeggen zoals het in de steekproef het geval is.

De inferentiële statistieken worden gebruikt om meer vertrouwen te krijgen in uitspraken over een hele populatie indien alleen steekproeven zijn gebruikt. Wanneer een steekproef statistisch significant is dan is deze representatief voor de populatie. Als er geen sprake is van statistische significantie dan kunnen de correlaties de werkelijkheid niet goed weergeven en kunnen de correlaties dus door toeval verkregen zijn. Het is dus logisch dat veel onderzoekers statistische significantie erg belangrijk vinden.

Bij het evalueren van de convergente validiteit verwacht men dat de validiteitscoëfficiënten statistisch significant zijn. Bij het evalueren van de discriminante validiteit wordt verwacht dat de validiteitscoëfficiënten niet statistisch significant zijn. Bij statistische significantie komt de vraag: geloven we dat er een validiteitscorrelatie (niet nul) in de populatie is waarvan de steekproef is genomen? En hoe zeker zijn we dat het zo is? En zijn we zeker genoeg om dat te concluderen? Twee factoren die de vragen beïnvloeden zijn de grootte van de correlatie in de steekproef en de grootte van de steekproef. Het vertrouwen stijgt wanneer de correlatie in de steekproef niet nul is, maar het kan dus voorkomen dat de correlatie in een steekproef niet nul is terwijl het over de hele populatie wel nul kan zijn. Een tweede factor is de omvang van de steekproef. Het vertrouwen in de steekproef is groter naarmate er meer proefpersonen zijn. Dus grotere correlaties en grotere steekproeven maken de kans groter dat een test statistisch significant is.

Zijn we wel zeker genoeg dat de correlatie in de populatie niet nul zal zijn? Onderzoekers hebben vastgesteld dat er bij een test bij een betrouwbaarheidsinterval van 95% sprake is van statistische significantie. Dus een test is statistisch significant als er 5% kans is dat men ernaast zit (dit is het alpha-niveau). Het kan voorkomen dat er lage correlaties zijn en dat de test toch statistisch significant is of dat er hoge correlaties zijn en dat de test niet statistisch significant is.

Een niet significante convergente validiteitscorrelatie kan komen door een kleine correlatie of door een kleine steekproef. Als de correlatie klein is dan is dit bewijs tegen de convergente validiteit van een test. Als de correlatie medium tot groot is, maar de steekproef is klein dan hoeft het niet zo te zijn dat e convergente validiteit in werkelijkheid slecht is. In dit geval is het onderzoek slecht, omdat de steekproef te klein was.

Bij discriminante validiteit geeft een hoge correlatie bewijs tegen de discriminante validiteit. Een significante discriminante validiteitscorrelatie kan ontstaan doordat de correlatie groot is of doordat de steekproef groot is. Als de correlatie groot is dan is dit bewijs tegen de discriminante validiteit van een test. Als de correlatie klein is, maar de steekproef is groot dan hoeft het niet zo te zijn dat de discriminante validiteit in werkelijkheid slecht is. In dit soort gevallen zegt de statistische significantie niks en kan het beter genegeerd worden.

Welke soorten reactiebias zijn er? Chapter 10 (2)

De reactiebias houdt in dat reacties van respondenten de kwaliteit van de psychologische meting (negatief) beïnvloeden. Bias betekent het vooroordeel of de vooringenomenheid van reacties/uitkomsten, die vaak niet kloppen.

Er zijn verschillende types van de reactiebias:

beïnvloed door inhoud of opzet van een test
beïnvloed door factoren van de test context
beïnvloed door bewuste mogelijkheden om op een ongeldige manier te reageren
beïnvloed door onbewuste factoren

Acquiescence bias (ja-zeggen en nee-zeggen)

De Acquienscence bias ontstaat wanneer een individu meegaat/het eens is met stellingen zonder terug te kijken/aandacht te besteden aan de betekenis van de stellingen. Dit komt veel voor bij psychologisch karakter testen, vragenlijsten over je eigen standpunt/mening, interessevragenlijsten en klinische onderzoeken.

Wanneer iemand alle vragen in ‘’één richting’’ beantwoordt, (dit wil zeggen, óf alleen maar positief beantwoorden óf alleen maar negatief beantwoorden) dan kunnen deze reacties een valide set van reacties weergeven, of ze geven juist een reactie bias weer.

De correlatie tussen dezelfde soort testen (van deze respondent) is sterk. Want wanneer de respondent een acquiescente reactie geeft, is de kans groot dat deze respondent ook een acquiescente reactie zal geven bij andere testen.

De oorzaken van deze reactie bias zijn:

De items zijn complex (te moeilijk) of ambigu (lijken op elkaar).
De test situatie creëert afleidingen.
De respondent begrijpt het materiaal gewoon niet, dus vult maar wat in.

Nee-zeggen: bias creëert lage test scores naar dezelfde (negatieve) richting.

Ja-zeggen: bias creëert hoge test scores naar dezelfde (positieve) richting.

Gevolg: er worden hogere/sterkere correlaties gecreëerd dan er eigenlijk zijn.

Extreme en gemiddelde reacties

Ook al hebben twee respondenten hetzelfde niveau van de desbetreffende kenmerk/stelling dat/die wordt gesteld in een test, de ene respondent is meer geneigd om ‘’extreme’’ antwoorden te geven, terwijl de andere respondent liever ‘’gemiddelde’’ antwoorden geeft.

Voorbeeld: de stelling is ‘ik ben spiritueel’ en de reactieopties zijn: helemaal niet, niet echt, geen van beide/neutraal, een beetje, helemaal wel. Een ‘extreme’ respondent geeft een van de uiterste antwoorden; of ‘helemaal niet’ of ‘helemaal wel’. Een ‘gemiddelde’ respondent geeft een minder extreem antwoord; of ‘niet echt’ of ‘een beetje’.

Deze extreme of gemiddelde reacties zijn op zichzelf geen bias. Het geeft het karakterniveau van het individu weer. Mensen met meer extreme karaktereigenschappen behoren namelijk meer extreme reacties te geven en mensen met meer gemiddelde karaktereigenschappen behoren meer gemiddelde reacties te geven.

Er ontstaan wel problemen als:

mensen met identieke karaktereigenschappen verschillende niveaus gebruiken, bijvoorbeeld de ene respondent gebruikt extreme reacties en de andere respondent gebruikt gemiddelde reacties.
mensen met verschillende karaktereigenschappen hetzelfde niveau gebruiken, bijvoorbeeld beide reageren extreem of beide reageren gemiddeld.

Sociale wenselijkheid

De sociale wenselijkheid reactie bias is wanneer het de bedoeling van de respondent is om te reageren op een manier die sociaal acceptabel is, afgezien van zijn/haar werkelijke karaktereigenschappen.

Dit wordt beïnvloed door:

de test inhoud: wanneer het onderwerp van de test linkt met sociale
wenselijkheid.
de test context: wanneer de gevolgen van de gegeven reacties van belang zijn.
de persoonlijkheid van de respondenten: sommige mensen zijn meer geneigd sociaal wenselijk te reageren.

Correlaties zijn hier ook weer hoger tussen variabelen dan ze in werkelijkheid zijn.

Del Paulhus: deed veel onderzoek naar sociaal wenselijke reacties als aspect van persoonlijkheid. Volgens hem zijn er twee processen:

Impressiemanagement: intentie om sociaal wenselijk over te komen (wordt soms ‘faking good’ genoemd).
Zelfbedrog: onrealistisch positief beeld van jezelf. Bijvoorbeeld het overschatten van psychologische karaktereigenschappen.

Er kan ook een ander onderscheid gemaakt worden:

State-like: impressiemanagement (bewust reageren op een manier die gepast is in een bepaalde situatie).
Trait-like: zelfbedrog (de een heeft meer aanleg voor zelfbedrog dan de ander).

Simulatie/'faking bad’

Het overdrijven van psychologische problemen. Of zelfs doen alsof er iets mis met je is, terwijl er eigenlijk niets mis is. Dit is het tegenovergestelde van de sociale wenselijkheid bias.

Willekeurig reageren

Het willekeurig reageren zorgt voor betekenisloze scores. Door elk item willekeurig te beantwoorden, onafhankelijk van de iteminhoud, zijn de testscores betekenisloos.

Gokken

Gokken komt voor bij vragen die enkel één goed antwoord hebben. Gevolg: inconsistentie tussen geobserveerde verschillen en werkelijke verschillen tussen respondenten, omdat de een wel geluk heeft met gokken en de ander niet.

Strategieën voor het omgaan met reactie bias

managen van de test context
managen van de test inhoud en/of scores
gebruik maken van speciaal ontworpen ‘bias’-testen.

Doelen

minimaliseren van het ontstaan van reactie bias
minimaliseren van de effecten van reactie bias
ontdekken van reactie bias, eventueel ingrijpen.

Deze drie doelen worden hieronder één voor één uitgebreider behandeld.

1. Minimaliseren ontstaan reactie bias à managen test context

Het ontstaan van reactie bias kan geminimaliseerd worden, door het managen van de manier waarop de test wordt gepresenteerd aan de respondent en door het managen van de voorwaarden die gesteld worden aan de respondent binnen de test situatie.

het verminderen van situationele factoren die sociaal wenselijke reacties kunnen veroorzaken.
vertel de respondent dat het anoniem verwerkt wordt, zo zijn de respondenten minder geneigd om sociaal wenselijk te reageren. De persoonlijke reacties hebben namelijk geen gevolgen voor de respondent, dus zijn ze eerder geneigd eerlijk te antwoorden.

Een nadeel van anonimiteit is dat ze minder moeite willen doen of een lage motivatie hebben. Met snel en willekeurig reageren als gevolg hiervan.

Oplossing: vertel respondenten dat de validiteit wordt gemeten van hun reacties op de items. Ofwel, valse/ongeldige reacties worden gedetecteerd en verwijderd. Dit is vooral een goede oplossing bij simulatie (het overdrijven van psychologische problemen).

2. Minimaliseren ontstaan reactie bias à managen testinhoud

Het kiezen van bepaalde vormen van testinhoud om het ontstaan van reactie bias te verminderen.

De items zo formuleren dat ze makkelijk te begrijpen zijn.
Neutrale termen in de items gebruiken. Zodat er geen link kan worden gebracht met sociaal wenselijke/acceptabele antwoorden door respondenten.
Gedwongen keuze (forced-choice): er zijn maar twee antwoorden (die duidelijk van elkaar verschillen) waaruit je kunt kiezen. Je moet aangeven welke term het meeste past bij jouw persoonlijkheid. Bijvoorbeeld, timide óf argumentatief.

Dit is een goede oplossing bij extremiteitkeuzes. Bijvoorbeeld, ja óf nee antwoorden.

3. Minimaliseren effecten reactie bias à managen testinhoud / scores

Het gebruiken van gespecialiseerde score procedures om het effect van reactie bias te verminderen.

één van die gespecialiseerde score procedures is de zogenaamde ‘evenwichtige schalen’. Dit wordt gebruikt als oplossing voor de acquiescence bias (ja-zeggen en nee-zeggen). Een probleem is namelijk dat er geen onderscheid gemaakt kan worden tussen degenen die werkelijk hoge of juist lage scores hebben, en de degenen die zomaar voor elk item een positieve of juist negatieve richting kiezen. Evenwichtige schalen zijn testen of vragenlijsten die expres bepaalde positiefgerichte items én negatiefgerichte items bevatten. En niet alleen maar positiefgerichte of alleen maar negatiefgerichte items bevatten.

Gevolg: op deze manier moeten de respondenten opletten wat de soort vraagstelling is, negatief- of positiefgericht. Bovendien worden de mensen die dat niet doen, er zo uitgepikt. Op deze manier wordt er onderscheid gemaakt tussen de respondenten die werkelijk eerlijk en oplettend zijn en de respondenten die in een eenrichtingsverkeer (ongeldige manier) reageren.

Een andere gespecialiseerde score procedure is om incorrect beantwoorde items anders mee te laten wegen dan onbeantwoorde items. Dit wordt vooral gebruikt als oplossing bij gokken. Een correct beantwoord item krijgt bijvoorbeeld één punt, een incorrect item resulteert in dat er ¼ punt af wordt gehaald en een onbeantwoord item krijgt nul punten. Hierdoor wordt het effect van gokken geminimaliseerd.

4. Managen van test content om reactie bias te ontdekken + ingrijpen

Het identificeren van respondenten die een vorm van reactie bias hebben/bezitten. Er worden valide schalen gebruikt, die de patronen van de reacties onderzoeken tijdens de test en de mate evalueren waarin dat patroon verschillende dingen reflecteert als: willekeurige reacties, acquiescence reacties, kunstmatige ‘goede’ reacties, en kunstmatige ‘foute’ antwoorden, etc.

L-schaal: meetinstrument om sociale wenselijkheid bias te detecteren.
F-schaal: meetinstrument om bijv. simulatie te detecteren.
K-schaal: meetinstrument om ‘faking good’ te detecteren.
VRIN-schaal: meetinstrument om willekeurig reageren te detecteren.
TRIN-schaal: meetinstrument om acquiescence bias te detecteren.

Door middel van de omgekeerde schaal en de evenwichtige schaal kunnen we de acquiescence bias detecteren.

Ingrijpen: na het ontdekken van reactie bias(en), wordt er ingegrepen waar het mogelijk is.

Testscores van een individu niet meenemen in verdere analyse.
Behouden van (verdachte) scores, maar voorzichtig met de scores omgaan.
Behouden van (ongeldige) scores, en gebruik maken van statistische controle procedures voor potentiële ongeldige scores.

5. Gebruik maken van speciale ‘bias’ test om reactie bias te ontdekken + ingrijpen

Verscheidene schalen gebruiken voor het meten van reactie bias.

Deze schalen staan testgebruikers toe om potentiële ongeldige reacties te identificeren en te verwijderen. En ze staan testgebruikers toe om de effecten van reactie bias statistisch te controleren.

Gebruik van deze schalen op twee manieren:

de reactie bias beter begrijpen door het bestuderen van oorzaken, implicaties, correlaties met andere variabelen, etc.
gebruik schalen om de mate van (eventuele) reactie bias in test scores te meten, waar de testscores mogelijk door zijn beïnvloed.

Er zijn ook schalen die individuele verschillen in de neiging om sociaal wenselijk te antwoorden, meten. Bijvoorbeeld ‘Marlow-Crowne Social Desirable Scale’. Dit doet hij door middel van vraagstellingen die waar- of niet waar antwoorden bevatten.

Er zijn ook testen die simulatie kunnen onthullen. Één zo’n test is de Dot Counting Test (DCT). In deze test moeten mensen zo snel mogelijk de punten tellen op twaalf verschillende kaarten. Er is sprake van simulatie wanneer respondenten net zoveel tijd nodig hebben met het tellen van zowel kaarten met puntjes die willekeurig verspreid zijn als kaarten met puntjes die in groepen verdeeld zijn.

Terminologie

reactie setjes: tijdelijke aspecten van test situaties óf van de test op zichzelf. (=situatie gerelateerd).
reactie stijlen: stabiele karakteristieken van individuen (=persoon gerelateerd).

Welke soorten testbias zijn er? Chapter 11 (2)

Test bias ontstaat wanneer de ware scores en de geobserveerde scores verschillen tussen twee groepen. Denk bijvoorbeeld aan mannen en vrouwen als twee groepen.

1. Construct bias

Een construct bias betreft een relatie tussen ware en geobserveerde scores. Hiermee wordt bedoeld dat de test verschillende interpretaties van betekenis vanuit de twee groepen bevat. Wanneer de interpretatie verschilt per groep, dan ontstaat er een test construct bias. Dit leidt tot situaties waarin twee groepen dezelfde gemiddelde ware scores hebben, maar verschillende gemiddelde geobserveerde scores in een test hebben.

2. Voorspellende bias

Een voorspellende bias betreft een relatie tussen scores van twee verschillende testen. Wanneer de ene test (de zogenaamde predictor test) scores bevat die gebruikt worden als voorspeller voor de scores van de andere test (de zogenaamde outcome test). Er is sprake van een voorspellende bias wanneer de relatie tussen de predictor test (ware scores) en de outcome test (geobserveerde scores) verschilt tussen twee groepen. Ofwel, bij de ene groep is de predictor test een goede voorspeller, maar voor de andere groep is de predictor test een slechte voorspeller.

Construct bias: bias wat betreft de betekenis van een test.

Voorspellende bias: bias wat betreft de bruikbaarheid van een test.

Deze twee soorten test bias zijn onafhankelijk van elkaar. Ofwel, de ene bias kan zonder de andere bias bestaan in een bepaalde test.

Twee categorieën van procedures om een testscore bias te identificeren:

Interne methoden die construct bias identificeren.
Externe methoden die voorspellende bias identificeren.

Hoewel er een verschil is in test scores tussen twee groepen, betekent dit niet meteen dat er sprake is van een test bias. Misschien is het verschil wel gebaseerd op de werkelijkheid. Bijvoorbeeld: wanneer uit een test komt dat het gewicht van mannen gemiddeld hoger ligt dan het gewicht van vrouwen, dan is dit gebaseerd op de werkelijkheid. Maar je kunt je twijfels hebben wanneer het over wiskundevaardigheden gaat. Bijvoorbeeld, het is niet logisch gezegd dat de wiskundevaardigheden van mannen hoger liggen dan de wiskundevaardigheden van vrouwen.

Ontdekken van construct bias

Een item is biased wanneer:

Mensen die behoren tot verschillende groepen op verschillende manieren reageren op het item.
Verschillende reacties niet gerelateerd zijn aan de groepsverschillen.

Een psychologische test is eigenlijk een samengestelde test. Het bevat namelijk verscheidene items/vragen. Het gevolg hiervan is dat wanneer één of meer items een test bias bevatten, de totale test aan een test bias lijdt.

Aangezien we nooit de ware scores van een persoon weten, wordt er gebruik gemaakt van procedures die een schatting geven van het bestaan en de mate van een construct bias.

Om erachter te komen of er sprake is van een construct bias, gebruiken we interne structuren. Deze bevatten een patroon van correlaties tussen items onderling en/of correlaties tussen elk item en de totale score. Evaluatie gaat als volgt: we vergelijken de interne structuren voor een test gescheiden voor twee groepen. Als de twee groepen dezelfde interne structuren vertonen wat betreft hun testreacties, dan kunnen we concluderen dat de test niet lijdt aan construct bias. Andersom, als de twee groepen wel verschillen in interne structuren wat betreft de testreacties, dan is er wel sprake van construct bias.

Er zijn vier methoden om construct bias te ontdekken:

item discriminatie index
factor analyse
differentiële item functie analyse
rank order

1. Item discriminatie index

Item discriminatie index weergeeft de mate waarin het item samenhangt met de totale test score. Item discriminatie index onderscheidt de variëteit in niveaus van het construct dat gemeten wordt tussen mensen.

Een item maakt sterk onderscheid tussen mensen met variërende niveaus van het construct dat gemeten wordt, wanneer mensen met een hoge capaciteit een grote kans hebben om de desbetreffende vraag, die over dezelfde capaciteit gaat, goed te beantwoorden. Mensen met een lage capaciteit hebben echter een kleine kans om de desbetreffende vraag, die over dezelfde capaciteit gaat, goed te beantwoorden (= hoge item discriminatie index waarde, vb. 0.90). Dit betekent dat het item een goede afspiegeling is van het construct dat gemeten wordt door de test.

Een item maakt niet goed onderscheid tussen mensen met variërende niveaus van het construct dat gemeten wordt, wanneer mensen met een lage capaciteit bijna net zoveel goede antwoorden geven als mensen met een hoge capaciteit.

(=lage item discriminatie index waarde, vb. 0.10)

De item discriminatie index kan gebruikt worden om construct bias te schatten. Er wordt een item geselecteerd, hiervan berekenen we de item discriminatie index gescheiden voor elke groep. Vervolgens vergelijken we de groepsindexen per item. Gelijke indexen = geen test bias. Ongelijke indexen = waarschijnlijk test bias. Belangrijk om te weten is dat de item discriminatie index onafhankelijk is van het aantal mensen in een groep.

2. Factor analyse

Het evalueren van interne structuren van een test voor twee groepen mensen. We combineren varianties en/of covarianties tussen test items in clusters/factoren:

Factor: als bepaalde items hoog correleren met elkaar en dus met elkaar samenhangen.
eendimensionaal: als alle items gelijkelijk met elkaar correleren/samenhangen. Er is dus sprake van één factor.
Multidimensioneel: als er meerdere factoren zijn.

De mannen hebben binnen een test een eendimensionale structuur, ofwel één factor. De vrouwen hebben ook een eendimensionale structuur. Hier is dus geen sprake van een construct bias. De mannen hebben binnen een test een eendimensionale structuur, maar de vrouwen hebben twee of meer factoren. Hier is dus wel sprake van een construct bias.

3. Differentiële item functie analyse

Differentiële item functie analyse geeft de mogelijkheid om direct vanuit test data scores een schatting te geven van de respondent zijn/haar karakteristieke niveaus. Dit worden ook wel de ware scores genoemd. We vergelijken vervolgens voor alle mensen in de twee groepen de karakteristieke niveaus (ware scores) met de item reacties (geobserveerde scores), en kijken of ze matchen. Zo niet, dan lijdt het item aan bias.

Wel construct bias: twee mensen (man en vrouw) hebben hetzelfde karakteristieke niveau, maar de item karakteristieke curve (ICC) is niet gelijk. Ofwel de kans dat de twee mensen een goed antwoord geven is niet gelijk aan elkaar.
Geen construct bias: twee mensen (man en vrouw) hebben hetzelfde karakteristieke niveau en de item karakteristieke curve is gelijk. Ofwel de kans dat de twee mensen een goed antwoord geven is gelijk aan elkaar.
Uniforme bias: verschillen in groep qua curve locatie. De twee lijnen overlappen of kruisen elkaar niet. Mensen uit de ene groep met hetzelfde karakteristieke niveau als mensen uit de andere groep hebben toch minder kans om de vraag goed te beantwoorden.
Non-uniforme bias: verschil in groep qua curve locatie én vorm. De twee lijnen overlappen/kruisen elkaar. Op sommige niveaus is het item makkelijker voor mannen en op sommige niveaus is het item makkelijker voor vrouwen.

Bij uniforme en non-uniforme bias meet de test verschillende karakteristieken voor mannen en vrouwen.

4. Rank order

In volgorde zetten van moeilijkheidsgraad van de testvragen voor twee gescheiden groepen. Dit wordt vaak gecombineerd met item discriminatie index.

Construct bias: de volgorde van items verschilt tussen groepen. Blijkbaar meten sommige of alle items iets andere voor elke groep.
Geen construct bias: de volgorde van items is hetzelfde voor beide groepen.

Spearman’s rho: correlatie tussen twee groepen qua rangorde items. Een lage rho is < 0,90. Hier is sprake van een construct bias. Een hoge rho is > 0,90. Geen construct bias.

Ontdekken van voorspellende bias

Het controleren of test scores (voorspellende, ware scores) goed voorspellen voor twee of meer groepen mensen (geobserveerde scores).

Wanneer testscores voor de ene groep een betere voorspeller zijn dan voor de andere groep à voorspellende test score bias.

Wanneer de testscores voor beide groepen een even goede voorspeller zijn à geen bias.

Er worden scores van twee variabelen/metingen verkregen. Vervolgens wordt er gekeken in welke mate de scores van de eerste test gebruikt kunnen worden om de scores van de tweede test (die gerelateerd is aan de scores van de eerste test) te voorspellen.

Twee issues:

Helpt de test je werkelijk de uitkomst te voorspellen?
Voorspelt de test de uitkomst gelijkmatig voor verscheidene groepen?

Door middel van regressieanalyse gaan we dit onderzoeken.

Regressieanalyse

Regressieanalyse bevat lineaire relaties tussen testscores (ware scores) en uitkomstscores (geobserveerde scores).

Ŷ = a + b (X), waarbij X de capaciteit score aan geeft

a = intercept (begint bij X=0);
b = de richtingscoëfficiënt;
Ŷ = voorspelde waarde voor individu.

De geobserveerde scores komen nooit precies allemaal op de lineaire regressielijn terecht. De regressielijn is namelijk gevormd uit voorspelde scores, en de geobserveerde scores komen niet altijd precies overeen.

‘’One size fits all’’: De regressievergelijking is toepasbaar op alle groepen. Verschillende groepen delen een overeenkomstige regressielijn, afgezien van het geslacht, etniciteit, cultuur, of andere groepsverschillen.

Onderzoeken of de test bias bevat doe je door een regressieformule te maken aan de hand van data (bijvoorbeeld, van zowel de man als de vrouw). Dit wordt de gemeenschappelijke regressielijn genoemd. We moeten voor elke groep apart (dus voor man en vrouw) een regressielijn maken en deze vergelijken met de gemeenschappelijke regressielijn. Als deze niet gelijk zijn, dan is er sprake een voorspellende bias. Als deze wel gelijk zijn, dan is er geen sprake van een bias.

Soorten bias

1. Intercept bias

De richtingscoëfficiënt van de twee groepsregressieanalyses komt overeen met de gemeenschappelijke richtingscoëfficiënt. Maar het intercept van de twee groepsregressieanalyses komt niet overeen met het gemeenschappelijke intercept

‘One size does not fit all’, dus een voorspellende bias. Ofwel, er zijn verschillende geobserveerde scores voor man en vrouw. Er is sprake van verschilconsistentie, omdat het verschil tussen man en vrouw gelijk blijft naarmate de X stijgt/daalt. De twee regressielijnen (van de mannen en van de vrouwen) zijn parallel aan elkaar.

2. Slope bias

Het intercept van de twee groepsregressieanalyses is gelijk aan het gemeenschappelijke intercept. Maar de richtingscoëfficiënt van de twee groepsregressieanalyses is niet gelijk aan de gemeenschappelijke richtingscoëfficiënt.

‘One size does not fit all’, dus een voorspellende bias. Ofwel, er zijn hier ook verschillende geobserveerde scores voor man en vrouw. Er is geen sprake van verschilconsistentie, omdat het verschil tussen man en vrouw telkens verandert naarmate de X stijgt/daalt. De regressielijnen (van de mannen en van de vrouwen) kruisen elkaar niet.

3. Intercept en slope bias

Het intercept van de groepen is niet gelijk aan het gemeenschappelijke intercept en de richtingscoëfficiënt van de groepen is niet gelijk aan de gemeenschappelijke richtingscoëfficiënt.

Dit komt veel vaker voor dan dat één deel wel een bias bevat en dat het andere deel geen bias bevat. Hier is uiteraard ook sprake van ‘one size does not fit all’. De regressielijnen (van de mannen en van de vrouwen) kruisen elkaar wel degelijk. Daarom:

Lage X-scores zorgen ervoor dat de ene groep (vb. mannen) hogere geobserveerde scores haalt dan de andere groep (vb. vrouwen).
Hoge X-scores zorgen ervoor dat de andere groep (dus vrouwen) hogere geobserveerde scores haalt dan de ene groep (dus mannen).

Uitkomst/geobserveerde score bias: we nemen telkens aan dat de scores van de eerste test (waarmee we de scores van de tweede test voorspellen) een bias bevatten, maar de scores van de tweede test kunnen dat net zo goed!

Test fairness is geen psychometrisch aspect van een test. Test fairness heeft te maken met een passend gebruik van testscores, op het gebied van sociale en/of wettelijke regels en dergelijke.

Hoe ziet een confirmatieve factoranalyse er uit? Chapter 12 (2)

Confirmatieve factoranalyse (CFA) wordt gebruikt om de dimensionaliteit van een test te onderzoeken wanneer er al hypotheses zijn over het aantal onderliggende factoren (dimensies), de verbindingen tussen items en factoren, en de samenhang van de factoren.

Gebruik van CFA om meetmodellen te evalueren

Met CFA evalueren we hypotheses over de interne structuur of dimensionaliteit van een meetmodel. CFA laat de mate zien waarin de veronderstelde meetmodellen overeenkomen met de werkelijke data van de respondenten. Daarna kan, als dat nodig is, het veronderstelde model worden aangepast zodat het beter overeenkomt met de werkelijke data.

CFA uitvoeren

Nadat een specifiek meetmodel geëvalueerd is wordt het model meestal aangepast en dan wordt het aangepaste model weer geëvalueerd met behulp van CFA. Vaak wordt een model meerdere keren aangepast en geëvalueerd.

Voordat je een CFA gaat uitvoeren zijn er drie belangrijke dingen die je moet doen. Ten eerste moet je duidelijk maken welk psychologisch construct je gaat meten en alvast een aantal test items ontwikkelen. Ten tweede moet je moet je genoeg mensen vinden die de test gaan maken. Tot slot moeten alle items dezelfde richting hebben, dus negatief gecodeerde items moet je omgekeerd scoren.

Stap 1

De gegevens invoeren in een statistisch softwareprogramma. Je maakt een figuur van het meetmodel en het programma zet dit dan om in formules. Eerst moet het aantal dimensies (ook wel factoren of latente variabelen genoemd) worden vastgesteld. Daarna moet worden vastgesteld welke items verbonden zijn met welke factoren. Ten minste één item is verbonden met elke factor. En elk item is meestal verbonden met maar één latente variabele. Als een model multidimensionaal is dan moet er ook vastgesteld worden welke factoren mogelijk samenhangen met andere factoren. We hoeven alleen vast te stellen of er verbindingen zijn of niet, de software gaat daarna schatten wat de precieze waarden van deze verbindingen zijn.

Stap 2

Nadat we alle details van het meetmodel hebben ingevoerd laten we het programma een CFA uitvoeren. Hoewel deze berekeningen ‘achter de schermen’ worden uitgevoerd is het toch handig om het statistische proces te kennen. De basis berekeningen hebben vier fases:

De data wordt gebruikt om de werkelijke item varianties en covarianties tussen items te berekenen.
De werkelijke varianties en covarianties van de items worden gebruikt om de parameters te schatten. Er zijn verschillende belangrijke parameters. Één ervan is defactorlading(en) van elk item. Dit is de mate waarin een item verbonden is met een factor. Een tweede parameter is de verbindingen tussen verschillende factoren. CFA berekent ook de significantie van elke parameter.
De geschatte parameter waarden worden gebruikt om geïmpliceerde item varianties en covarianties te berekenen. Dus het programma berekent item varianties en covarianties zoals ze geïmpliceerd worden door de geschatte parameters. Als het veronderstelde model goed is dan komen de geïmpliceerde varianties en covarianties overeen met de werkelijke varianties en covarianties uit de eerste stap.
Het softwareprogramma geeft informatie met betrekking tot de algemene geschiktheid of “fit” van het veronderstelde model. Het vergelijkt geïmpliceerde varianties/covarianties met werkelijke varianties/covarianties en het berekent een ‘model fit’ en ‘aanpassingen indexen’ (modification indices). Deze aanpassingen indexen geven specifieke manieren waarop het meetmodel verbeterd zou kunnen worden.

Stap 3

Na het invoeren van de gegevens en het berekenen van paramaters en de ‘fit’ van het model worden de resultaten geïnterpreteerd.

Eerst bekijken we de fit van het model. Een ‘goede fit’ (‘good fit’) geeft aan dat het veronderstelde model overeenkomt met de werkelijke reacties op de test, dit ondersteunt de validiteit van het model. Een ‘slechte fit’ (‘poor fit’) wijst erop dat het veronderstelde aantal dimensies niet overeenkomt met de werkelijke reacties op de test. De chi-kwadraat is een maat die gebruikt wordt om de mate van ‘poorness of fit’ van het model weer te geven. Grote, significante chi-kwadraat waarden duiden op een slechte fit, en kleine, niet significante chi-kwadraat waarden duiden op een goede fit van het model. Steekproefgrootte heeft invloed op de chi-kwadraat. Een grote steekproef zorgt voor grote chi-kwadraat waarden, die weer voor statistische significantie zorgen. Naast de chi-kwadraat geeft een CFA nog een aantal andere fit indexen. Deze indexen produceren geen statistische significantie en al deze indexen hebben verschillende schalen en normen.

Als de fit indexen erop wijzen dat het model niet geschikt is dan worden de aanpassing indexen bekeken en wordt er gekeken hoe het model verbeterd zou kunnen worden. Als de fit indexen erop wijzen dat het model wel geschikt is, dan worden de parameter schattingen bekeken.

Als de hypothese is dat een item samenhangt met een bepaalde factor, dan verwachten we om een grote, positieve, en statistisch significante factorlading te vinden. Als we dat vinden dan is het item een goede reflectie van de onderliggende psychologische dimensie. En behouden we dit item in de test. Als de factorlading klein en/of niet significant is dan is het item niet gerelateerd aan de psychologische dimensie en wordt het item verwijderd uit de test. Dan wordt het model aangepast en worden alle berekeningen opnieuw gedaan.

Stap 4

Als het model niet geschikt is dan gaan we over op het bekijken van de aanpassingen indexen en het aanpassen van het veronderstelde meetmodel. Een aanpassingen index geeft de potentiële invloed weer van het aanpassen van een specifieke parameter. Na het aanpassen van het model wordt het opnieuw geanalyseerd, dus worden alle berekeningen opnieuw gedaan.

Betrouwbaarheid

CFA wordt ook wel eens gebruikt als methode om betrouwbaarheid te schatten. Eerst gebruiken we CFA om het basis meetmodel van de test te evalueren. Daarna, als het nodig is, passen we het meetmodel aan en analyseren we het opnieuw. Tot slot gebruiken we de niet gestandaardiseerde paramater schattingen om de betrouwbaarheid van de test te schatten:

Betrouwbaarheid = ware variantie / (ware variantie + error variantie)

Dus, geschatte betrouwbaarheid = (∑גi)²/ ((∑גi)² + ∑өii + 2∑өij)

גi = factorlading van een item.

Өii = errorvariantie van een item.

Өij = covariantie tussen de errors van twee items.

(∑גi)²= is de variantie van de ware scores.

∑өii + 2∑өij = de random error variantie.

Validiteit

CFA kan ook op verschillende manieren validiteit evalueren. Ten eerste geeft CFA inzicht in het ‘interne structuur’ aspect van validiteit. Ten tweede als reacties op een test worden gemeten samen met metingen van gerelateerde constructen of criteria, dan kunnen we de samenhang tussen de test en die variabelen evalueren. Dit geeft belangrijke informatie over de psychologische betekenis van de testscores. Er zijn twee manieren waarop we CFA kunnen gebruiken om deze onderdelen van validiteit te bekijken. We kunnen CFA gebruiken om convergente en discriminante validiteit te evalueren door CFA toe te passen op multitrait-multimethod matrixen. Daarnaast kunnen we convergente validiteit evalueren door een test en één of meer criteriumvariabelen te bekijken met behulp van CFA.

Wat stelt de Generalizability Theory? Chapter 13 (2)

Generalizability Theory (G theorie) helpt ons om de effecten van meerdere facetten te scheiden en om vervolgens verschillende meetstrategieën te gebruiken. Het is een ideaal ‘framework’ voor complexe meetstrategieën waarin meerdere facetten de meetkwaliteit beïnvloeden. Dit is een fundamenteel verschil in vergelijking met de CTT.

Facetten

Volgens de G theorie kunnen meetfouten gedifferentieerd worden in verschillende facetten.

G theorie kan gebruikt worden om te onderzoeken welk effect de verschillende aspecten van een meetstrategie hebben op de totale kwaliteit van de meting. Op deze manier kunnen dus ook de verschillende items onderzocht worden. Wanneer bijvoorbeeld onderzocht wordt welke items een relatie hebben met het ontstaan van agressie, dan kan elke combinatie items apart van elkaar onderzocht worden. Elk onderdeel van de meetstrategie wordt een facet genoemd en verschillende meetstrategieën zijn deels gedefinieerd door het aantal facetten. Hoe meer facetten een meetstrategie heeft, des te complexer de strategie is. Een voorbeeld van drie facetten is: items, observeerders en situaties.

Variantie componenten

Het begrip generaliseerbaarheid is, zoals de naam al doet vermoeden, erg belangrijk binnen de G theorie. De meetkwaliteit wordt meestal geëvalueerd in termen van het vermogen om gevolgtrekkingen te doen van een beperkt aantal observaties naar een onbeperkt aantal observaties. Wanneer een psychologische of gedragsvariabele geobserveerd wordt kan er slechts een beperkt aantal observaties gemaakt worden. Het doel bij de G theorie is om scores te verkrijgen die representatief zijn voor de scores die verkregen zouden zijn als alle mogelijke items die het construct kunnen meten gebruikt zouden zijn.

Ook het begrip consistentie is erg belangrijk binnen de G theorie. Het is belangrijk om te kijken of de mate van variabiliteit van de testscores van een individu consistent zijn met de variabiliteit van universele scores. Bij de G theorie worden schattingen van generaliseerbaarheid gebaseerd op variantiecomponenten, die de mate waarin verschillen bestaan binnen het ‘universum’ representeren voor elk element van het ontwerp. Een variantiecomponent is de variantie van universele scores binnen de populatie van individuen. De grootte van de variantiecomponent van een facet geeft de mate aan waarin het facet invloed heeft op geobserveerde scores.

G studies en D studies

De G theorie kan gebruikt worden voor meerdere soorten analyses, maar een basis psychometrische analyse bestaat uit een proces met twee fases. In de eerste fase worden de variantie componenten geschat. Bij zo een studie worden factoren geïdentificeerd die de geobserveerde variantie (en dus de generaliseerbaarheid) beïnvloeden. Deze fase wordt een G studie genoemd, omdat het gebruikt wordt om te identificeren in welke mate de verschillende facetten de generaliseerbaarheid zouden kunnen beïnvloeden.

In de tweede fase worden de resultaten van fase één gebruikt om de generaliseerbaarheid van de verschillende combinaties van facetten te schatten. Deze fase is bekend als een D studie, omdat de fase gebruikt wordt om beslissingen te doen over toekomstige meetstrategieën.

Hieronder worden de verschillende stappen behorend bij de twee studies uitgebreider besproken.

G studie

In deze fase wordt variantieanalyse (ANOVA) gebruikt om schattingen van variantie componenten te genereren voor iedere factor. Het doel van ANOVA is om de variabiliteit van een score distributie te onderzoeken en om de mate te bekijken waarin deze variabiliteit geassocieerd is met andere factoren.

In een design met één facet zijn er drie factoren die de variabiliteit kunnen beïnvloeden.

De mate waarin de targets verschillen.
De mate waarin de items verschillen.
Meetfouten.

Voor deze drie factoren zijn verschillende formules om de variantiecomponenten te berekenen (zie tabel 13.3 in het boek).

In een design met één facet geeft de ANOVA twee hoofdeffecten en een residu (error).

Het resultaat waar we het meest in geïnteresseerd zijn is het target effect. Dit geeft de mate weer waarin targets verschillende gemiddeldes hebben. Het target effect is het ‘signaal’ dat een onderzoeker probeert te ontdekken. In een design met één facet is het residual effect de ‘noise’ die potentieel het signaal van het target effect markeert. Wanneer er goed gemeten is dan zullen participanten die op één item hoog scoren dit ook op de andere items doen. Wanneer de items inconsistent zijn, dan geeft dit aan dat er geen duidelijke verschillen zijn tussen de individuen en dat de items mogelijk geen goede reflecties zijn van het construct.

D studie

Gedurende deze fase wordt de psychometrische kwaliteit van verschillende meetstrategieën geschat die kunnen helpen bij het plannen van een goede meetstrategie voor het desbetreffende onderzoek. Bij deze fase worden coefficients of generalizability voor verschillende meetstrategieën geschat. Deze coëfficiënten variëren tussen 0 en 1.0. Hierbij geldt:

Signal

Generalizability coëfficiënt = ----------------

Signal + Noise

Voor een voorbeeldformule om de relatieve generaliziblity coëfficiënt van de verschillen tussen targets te berekenen, zie boek pagina 366.

Er is een belangrijk verschil tussen een design met één facet en een design met meerdere facetten. Dit verschil ligt in de complexiteit van de componenten die de variabiliteit in de data beïnvloeden. Wanneer er een nieuw facet toegevoegd wordt, dan worden er ook nieuwe componenten toegevoegd. Deze complexiteit maakt het ´noise’ of ‘error element’ van de generaliseerbare coëfficiënten complexer.

Voorbeelden van ‘one-facet designs’ en ‘multiple facet designs’ zijn te zien in het boek.

Andere meet designs

Er zijn ten minste vier belangrijke manieren waarop een G theorie analyse kan verschillen in vergelijking met een andere G analyse. Dit hangt af van het ontwerp van de meetstrategie en waarvoor de scores gebruikt gaan worden.

1. Het aantal facetten.

Hoe meer facetten er zijn, des te groter en complexer het ontwerp en des te meer effecten er zijn die variantie componenten genereren. De basislogica en het proces van de G theorie is echter gelijk met designs met minder facetten.

2. Random vs. Fixed Facets

Wanneer er sprake is van een random facet, dan zijn de items van het facet random gekozen uit een steekproef van een universeel aantal items.

Wanneer er sprake is van een fixed (vast) facet, dan zijn alle condities van het facet opgenomen in de analyse. Men wilt dan niet generaliseren buiten de condities die gebruikt worden in de analyze.

Het verschil tussen het gebruiken van random of fixed facetten kan belangrijke psychometrische gevolgen hebben. Het kan de psychometrische kwaliteit van het onderzoek beïnvloeden. Daarnaast kan het gevolgen hebben voor de generaliseerbaarheid van de kwaliteit van de metingen.

3. Crossed vs. Nested Designs

In een analyse met meerdere facetten zijn de paren van facetten crossed (gekruist) of nested (genest). Wanneer een paar gekruist is, dan zijn alle mogelijke combinaties van twee facetten in de analyse opgenomen. Wanneer niet alle mogelijke combinaties inbegrepen zijn, dan is er sprake van een genest design. Het bepalen hiervan is belangrijk, omdat het bepaalt welke effecten geschat kunnen worden in een G analyse.

4. Relatieve vs. Absolute Beslissingen

Een G theorie kan gebruikt worden om twee soorten beslissingen te maken. Relatieve beslissingen bevatten de relatieve volgorde van participanten. Wanneer testen gebruikt worden om relatieve beslissingen te nemen, dan worden zij vaak norm-referenced tests genoemd. Absolute beslissingen zijn gebaseerd op het absolute niveau van de score van een individu. Wanneer testen zulke beslissingen nemen, dan heten zij criterion-referenced tests. Het bepalen van het verschil tussen deze twee beslissingen is belangrijk, omdat het de manier beïnvloedt waarop ‘noise’ of error wordt waargenomen. Het beïnvloedt het aantal variantiecomponenten die bijdragen aan error wanneer generalizibility coëfficiënten worden berekend. In de meeste onderzoeken zijn onderzoekers meer geïnteresseerd in het relatieve perspectief dan het absolute perspectief. Ze zijn meer geïnteresseerd in het begrijpen van relatieve verschillen tussen scores van participanten op een meting. Dus waarom sommige mensen relatief hoog scoren en anderen relatief laag.

Wat stelt de Item Reactie Theorie en hoe ziet het Rasch model er uit? Chapter 14 (2)

De Item reactie theorie (IRT) is een alternatief voor de klassieke test theorie (CTT). De IRT identificeert en analyseert de metingen in gedragswetenschappen. De reactie van het individu op een bepaald test item wordt beïnvloed door eigenschappen van het individu (trait level) en eigenschappen van het item (difficulty level).

Bij een moeilijke item/vraag heeft iemand een hoog ‘trait level’ nodig om een goed antwoord te kunnen geven.
Andersom, bij een makkelijke item/vraag heeft iemand aan een laag ‘trait level’ genoeg om een goed antwoord te geven.

Voorbeeld:

Stelling 1: ik houd ervan met mijn vrienden te kletsen.

Stelling 2: ik houd ervan voor een groot publiek te spreken.

Stelling 1 heeft een laag extraversieniveau (=trait level) nodig om het hiermee eens te zijn.

Stelling 2 heeft een hoog extraversieniveau (=trait level) nodig om het hiermee eens te zijn.

IRT-analyse heeft een verdeling van (0;1) het gemiddelde is 0, en de standaard deviatie is 1.

Dus als een item een moeilijkheidsniveau van 0 heeft dan:

Heeft een individu met een gemiddeld trait level (dus 0), 50% kans op een goed antwoord.
Heeft een individu met een hoog trait level (dus hoger dan 0), een grotere kans dan 50% op een goed antwoord.
Heeft een individu met een laag trait level (dus lager dan 0), een kleinere kans dan 50% op een goed antwoord.

Item discriminatie

Het onderscheiden van individuen in lage en hoge trait levels. De discriminatiewaarde van het item geeft de relevantie van het desbetreffende item aan ten opzichte van het trait level dat gemeten wordt.

Positieve discriminatie ≥ 0 : relatie tussen item en trait (eigenschap) die gemeten wordt. Dit betekent dat hoge trait scores zorgen voor een grotere kans om het item correct te beantwoorden en lage trait scores zorgen voor een kleinere kans om het item correct te beantwoorden.
Negatieve discriminatie ≤ 0: inconsistentie tussen item en trait. Dit betekent dat hoge trait scores zorgen voor een kleinere kans om het item goed te beantwoorden.
Discriminatiewaarde = 0: geen relatie tussen item en trait (eigenschap) die gemeten wordt door de test.

Dus: hoe groter (positief) de discriminatiewaarde, des te consistenter, des te beter.

Een derde component waar rekening mee moet worden gehouden is gokken. Bij multiple choice of waar/niet waar vragen gaan mensen misschien gokken als ze het antwoord niet weten. Hierdoor geven ze soms het goede antwoord, terwijl ze eigenlijk het goede antwoord niet wisten. IRT kan gokken als component meenemen in de analyse.

De IRT modellen als meetmodel laten de wiskundige link zien tussen de geobserveerde scores en de componenten die de scores beïnvloeden. Dit zijn zowel de eigenschappen van het individu als de eigenschappen van het item.

Rasch model

Het Rasch model (one-parameter logistic model) (=1PL) heeft alleen de eigenschappen van het individu en de eigenschappen van het item als componenten die de scores beïnvloeden.

P(Xis=1| Өs, βi) = (e ^{(Өs – βi)}) / (1 + e ^{(Өs – βi)} )

P = kans op een bepaald antwoord op item i van respondent s.

Xis = reactie X op item i van respondent s. ‘Xis = 1’ wijst op een correcte beantwoording van dit item.

Өs = trait level van respondent s.

Βi = moeilijkheidswaarde item i.

e = logaritme, dit kun je op je rekenmachine vinden.

Twee-parameter model

Het Twee-parameter model (2PL) heeft drie componenten die de scores beïnvloeden, namelijk de eigenschappen van het individu, de eigenschappen van het item en de item discriminatie.

De formule hierbij is:

P(Xis=1| Өs, βi, αi) = (e ^{(αi (Өs – βi))} / (1 + e ^{(αi (Өs – βi))} )

α = de discriminatie van item i.

Graded Response Model

Het 1PL en 2PL model zijn gemaakt voor items met binaire antwoordopties. Het Graded Response Model (GRM) is gemaakt voor testen e.d. waarbij meer dan twee antwoordmogelijkheden zijn. Net als bij de vorige modellen gaat dit model ervanuit dat de reactie van een persoon op een item beïnvloed wordt door het trait level van die persoon, item moeilijkheid en item discriminatie. Maar het GRM heeft verschillende moeilijkheidsparameters voor één item.

Als er een m aantal antwoordmogelijkheden zijn of categorieën, dan kan er m-1 keer een onderscheid worden gemaakt tussen antwoordmogelijkheden. Bijvoorbeeld voor een item met vijf antwoordmogelijkheden (zeer oneens, oneens, neutraal, mee eens, helemaal mee eens) zijn er vier verschillen. Zoals het verschil tussen ‘mee eens’ en ‘helemaal mee eens’. Elk van deze verschillen kan op de volgende manier weergegeven worden:

P(Xis ≥ j| Өs, βij, αi) = (e ^{(αi (Өs – βi))}) / (1 + e ^{(αi (Өs – βi))} )

J = de antwoordoptie.

βij = moeilijkheidsparameter voor antwoordoptie j op item i.

Andere parameters zijn hetzelfde als bij de vorige modellen.

P is de kans dat een persoon met trait level s op item i zal kiezen voor antwoordoptie j of hoger.

Er zijn m – 1 moeilijkheidsparameters (βij) voor elk item.

Je kan ook de kans berekenen dat iemand voor een specifiek antwoord kiest op een bepaald item:

P(Xis = j| Өs, βij, αi) = P(Xis ≥ j – 1| Өs, βij, αi) - P(Xis ≥ j| Өs, βij, αi).

J = de antwoordoptie (vb. helemaal mee eens).

J – 1 = de antwoordoptie ervoor (vb. mee eens).

Parameters schatten

Proportie correct beantwoorde items voor elke respondent = proportie goed beantwoorde items delen door het totaal aantal beantwoorde items.
Trait level: Өs = LN (Ps / 1-Ps)
Ps = proportie correct beantwoorde items door respondent s.
LN = (natural) Log.

Proportie correcte reacties voor elk item: aantal respondenten dat goed geantwoord heeft delen door het totale aantal respondenten dat geantwoord heeft.
Item moeilijkheid: βi = LN (1-Pi / Pi)
Pi = proportie correcte reacties/goede antwoorden voor item i
LN = (natural) Log

Item karakter curve

Een item karakter curve geeft de kans op een correct antwoord op een item voor een persoon met een bepaald trait level.

x-as: trait level (met 0.00 = gemiddelde)
y-as: kans op goed antwoord (tussen 0.00 en 1.00)
van links naar rechts à makkelijkste item (links) à moeilijkste item (rechts)

Iteminformatie en testinformatie

Perspectief van de CTT: er is één enkele betrouwbaarheid voor een test.

Perspectief van de IRT: er is meer dan één betrouwbaarheid. De psychometrische kwaliteit van een test is beter bij sommige mensen dan bij andere mensen. Dus een test geeft misschien betere informatie voor sommige trait levels dan andere trait levels.

Bijvoorbeeld als er twee moeilijke vragen zijn en vier respondenten: twee ervan hebben een laag trait level, de andere twee hebben een hoog trait level. De test geeft dan meer informatie over de twee mensen met hoge trait levels. De mensen met lage trait levels beantwoorden allebei de moeilijke vragen fout, dus zelfs als zij een verschillend laag trait level hebben zie je dat niet op deze test. Bij de twee mensen met de hoge trait levels beantwoordt één van hen misschien één item correct en de ander beantwoordt beide items correct. De test geeft dus meer informatie over mensen met hoge trait levels, omdat kleine verschillen in trait level in deze groep wel opgemerkt worden.
Item informatie kan berekend worden met behulp van de volgende formule:

I (Ө) = Pi (Ө) (1 – Pi (Ө))

I (Ө) is de iteminformatie op een bepaald traitlevel (Ө).

Pi (Ө) is de kans dat een respondent met een bepaald trait level het item correct zal beantwoorden.

Hogere iteminformatie waardes wijzen op een betere psychometrische kwaliteit van het item.

Als we informatie waardes berekenen voor verschillende trait levels dan kunnen we deze weergeven in een iteminformatie curve. Hogere curves duiden op betere kwaliteit. De top van een curve geeft het trait level weer waarop het item de meeste informatie geeft.

Iteminformatiewaardes van een specifiek trait level kunnen bij elkaar opgeteld worden om de testinformatiewaarde van dat trait level te bepalen. Als we testinformatiescores berekenen voor meerdere trait levels kunnen we deze weergeven in een testinformatiecurve. Hieruit kun je aflezen hoeveel informatie de test geeft op verschillende trait levels.

Toepassingen van IRT

Evaluatie en verbeteren van psychometrische eigenschappen van items en testen.
De aanwezigheid van differential item functioning (DIF) evalueren. DIF is wanneer de eigenschappen van een item in de ene groep anders zijn dan in een andere groep. Bijvoorbeeld een man en een vrouw met hetzelfde trait level hebben een andere kans om het item correct te beantwoorden.
Analyseren van Person Fit. Dit is een poging om mensen te identificeren waarvan het reactiepatroon niet past bij de patronen van reacties die verwacht worden op een set items.
Computerized Adaptive Testing (CAT). CAT is een methode die bedoeld is om accuraat en efficiënt iemand zijn trait level vast te stellen, door computergestuurd testen af te nemen. De test past de vragen aan aan iemand zijn trait level. Heb je een vraag correct beantwoord dan is de volgende vraag moeilijker, beantwoord je die goed dan krijg je weer een moeilijkere vraag, beantwoord je de moeilijke vraag fout dan krijg je juist weer een makkelijkere vraag. Op deze manier kan sneller iemand zijn trait level vastgesteld worden.

Access:

Public

Click & Go to more related summaries or chapters

Studiegids voor samenvattingen bij Psychometrics: An introduction van Furr

Samenvatting van Psychometrics: An Introduction van Furr - 4e druk - Exclusive

Samenvatting van Psychometrics: An Introduction van Furr - 3e druk - Exclusive

BulletPointsamenvatting van Psychometrics: An Introduction van Furr - 3e druk

TentamenTests bij Psychometrics: An Introduction van Furr - 3e druk

Samenvatting van Psychometrics: An Introduction van Furr en Bacharach - 2e druk

TentamenTests bij Psychometrics: An Introduction van Furr en Bacharach - 2e druk

Study Guide for summaries with Psychometrics: An introduction by Furr

Assortimentwijzer voor samenvattingen bij Psychologie Bachelor 2 Blok 1 - UL Leiden

Assortment Pointer for summaries with Psychology Bachelor 2 Block 1 - LU Leiden

Statistics: summaries and study assistance - Theme

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Going abroad?

Insure your way around the world

International expat insurances

Travel & Worldsupporter insurances (NL)

Study with summaries

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Spotlight: topics

Check how to use summaries on WorldSupporter.org

Submenu: Summaries & Activities

Follow the author: Psychology Supporter

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics

Search a summary, study help or student organization

Select any filter and click on Search to see results

Samenvatting van Psychometrics: An Introduction van Furr en Bacharach - 2e druk

Wat omvat de psychometrie allemaal? Chapter 1 (2)

Observeerbaar gedrag en onobserveerbare psychologische attributen

Psychologische testen: definitie en typen

Wat is psychometrie?

Uitzonderingen in psychologische metingen

Individuele verschillen

Wat is belangrijk bij het toekennen van cijfers aan psychologische eigenschappen? Chapter 2 (2)

Problemen met cijfers

Identiteit

Rangorde

Kwantiteit

Het getal nul

De meetgrootheid

Toevoegen en tellen

Toevoegen

Tellen

De meetschalen

De nominale schaal

De ordinale schaal

De intervalschaal

De ratioschaal

Bijkomend punt bij meetschalen

Wat betekenen variabiliteit en co-variabiliteit? Chapter 3 (2)

Variabiliteit

Co-variabiliteit

Richting en sterkte

Consistentie

Variantie-Covariantie matrix

Interpretatie van test scores

Genormaliseerde scores

Wat zijn dimensies en factoranalyse? Chapter 4 (2)

Eendimensionaal

Multi-dimensionaal mèt correlerende dimensies

Multi-dimensionaal zònder correlerende dimensies

Factoranalyse

Exploratieve factoranalyse

Uitvoeren en interpreteren van een EFA

Confirmatieve factoranalyse

Wat houdt het basisbegrip betrouwbaarheid in? Chapter 5 (2)

Vier benaderingen betrouwbaarheid

1. Betrouwbaarheid in termen van ‘proporties van de variantie’

2. Betrouwbaarheid in termen van ‘gebrek aan meetfout error’

3. Betrouwbaarheid in termen van ‘correlaties’

4. Betrouwbaarheid in termen van ‘gebrek aan correlatie’

Betrouwbaarheid en de standaard meetfout

Parallelle testen

Domain Sampling Theorie

Hoe kunnen empirische schattingen gedaan worden? Chapter 6 (2)

Betrouwbaarheid van wisselende vormen

Test-hertest betrouwbaarheid

De betrouwbaarheid bij interne consistentie

Schattingen van Split-half betrouwbaarheid

Cronbach’s Alpha (ruwe alpha)

Gestandaardiseerde coëfficiënt van Alpha

Cronbach’s Alpha voor binaire items: KR20

Theorie en realiteit van nauwkeurigheid en het gebruik van interne consistentie schatters

Interne consistentie en dimensionaliteit

Factoren die de betrouwbaarheid van testscores beïnvloeden

Homogeniteit en algemene betrouwbaarheid

De betrouwbaarheid van verschilscores

Betrouwbaarheid van de verschilscores schatten

Factoren die de betrouwbaarheid van de verschilscores beïnvloeden

Ongelijke variabiliteit

Wat is het belang van betrouwbaarheid? Chapter 7 (2)

Gedragsonderzoek

Puntschatters

Betrouwbaarheidsintervallen van de ware score

Betrouwbaarheid, geobserveerde correlaties en zuivere correlaties

De meetfout onderdrukt de correlatie tussen metingen

Betrouwbaarheid en verzwakking

Testconstructies en verbeteringen

Itemdiscriminatie en andere informatie bij interne consistentie

Itemvariantie en moeilijkheid van het item

Hoe ziet de conceptuele basis van validiteit er uit? Chapter 8 (2)

Validiteit

Validiteit is belangrijk

Begripsvaliditeit

De testinhoud

Inhoudsvaliditeit

Cronbach’s Alpha voor binaire items: KR₂₀