Wat betekenen betrouwbaarheid en validiteit?

Betrouwbaarheid en validiteit
Meetfouten (‘measurement error’)
Meetfouten en betrouwbaarheid
Betrouwbaarheid als systematische variantie
Soorten betrouwbaarheid
Validiteit

Betrouwbaarheid en validiteit

Betrouwbaarheid en validiteit zijn twee centrale begrippen binnen de statistiek. De betrouwbaarheid houdt in dat het meetinstrument consistente resultaten geeft. Als je twee keer dezelfde meting doet, geeft een betrouwbaar meetinstrument twee keer hetzelfde resultaat. Validiteit beschrijft of het gemeten concept inderdaad gemeten wordt door het meetinstrument. De validiteit hangt af van het doel van het onderzoek: voor het ene concept kan een meetinstrument valide zijn, maar voor het andere concept niet. Een valide meting is noodzakelijkerwijs ook een betrouwbare meting, maar andersom geldt dit niet: als een meetinstrument consistent de verkeerde resultaten geeft is het wel betrouwbaar, maar niet valide.

Meetfouten (‘measurement error’)

De score van een deelnemer op een meting bestaat uit twee onderdelen: (1) de ware score van de deelnemer en (2) meetfouten (‘measurement error’). Kortom; geobserveerde score = ware score + meetfouten. De ware score (‘true score’) is de score die een deelnemer zou hebben als een meettechniek perfect was en er dus geen sprake van meetfouten zou kunnen zijn. De meettechnieken die wetenschappers gebruiken zijn echter nooit helemaal foutloos. Alle meettechnieken bevatten meetfouten. Door deze meetfouten komen wetenschappers niet achter de exacte score van een deelnemer.

Meetfouten en betrouwbaarheid

Meetfouten verminderen de betrouwbaarheid van een meting. Als een meting een lage betrouwbaarheid heeft, dan zijn de meetfouten groot en weet de onderzoeker weinig over de ware score van een deelnemer. Als een meting een hoge betrouwbaarheid heeft, dan zijn er weinig meetfouten. De geobserveerde score van een deelnemer is dan juist een goede (maar niet perfecte) weerspiegeling van de ware score van een deelnemer.

Betrouwbaarheid als systematische variantie

Wetenschappers weten nooit precies hoeveel meetfouten er in een studie bestaan en wat de ware scores van deelnemers precies zijn. Ook weten ze niet precies hoe betrouwbaar hun meting is, maar ze kunnen aan de hand van statistische analyses wel inschatten hoe betrouwbaar hun meting is. Als zij zien dat hun meting niet betrouwbaar genoeg is, dan kunnen ze proberen hun meting meer betrouwbaar te maken. Is ook het betrouwbaarder maken van de meting niet mogelijk, dan kunnen ze ervoor kiezen om de meting helemaal niet te gebruiken in het onderzoek.

De totale variantie in een dataset van scores bestaat uit twee onderdelen: (1) variantie door ware scores en (2) variantie door meetfouten. In formulevorm is dit: totale variantie = variantie door ware scores + variantie door meetfouten.
We kunnen ook zeggen dat de proportie totale variantie die samenhangt met de ware scores van de deelnemers systematische variantie is, omdat de ware scores op systematische wijze gerelateerd zijn aan de meting.
De variantie die door meetfouten ontstaat is errorvariantie omdat deze variantie niet gerelateerd is aan wat de wetenschapper onderzoekt.
We zeggen daarom dat de betrouwbaarheid wordt berekend door de ware score variantie te delen door de totale variantie, dus: betrouwbaarheid = ware score variantie/totale variantie. De betrouwbaarheid van een meting ligt tussen de 0 en de 1. Een betrouwbaarheid van .00 zegt ons dat er helemaal geen ware score variantie aanwezig is in de data en dat de scores alleen maar staan voor meetfouten. Bij een betrouwbaarheid van 1.00 is het precies omgekeerd; daar is er alleen sprake van ware score variantie en zijn er geen meetfouten. De vuistregel is dat een meting betrouwbaar genoeg is als deze minimaal een betrouwbaarheid van .70 heeft. Dit betekent dat 70% van de variantie in de data staat voor ware score variantie.

Soorten betrouwbaarheid

Onderzoekers maken gebruik van drie soorten betrouwbaarheid bij het analyseren van hun data: (1) ‘test-hertest’ betrouwbaarheid, (2) ‘interitem’ betrouwbaarheid en (3) ‘interrater’ betrouwbaarheid. Een correlatiecoëfficiënt is een statistiek die aangeeft hoe sterk de relatie tussen twee metingen is. Deze statistiek ligt tussen de .00 (geen relatie tussen de metingen) en 1.00 (perfecte relatie tussen metingen). Correlatiecoëfficiënten kunnen positief of negatief zijn. Als deze statistiek wordt gekwadrateerd, dan zien we in welke mate de proportie van de totale variantie van beide metingen systematisch is. Hoe hoger de correlatie, hoe meer twee variabelen gerelateerd zijn. Hieronder wordt ingegaan op drie soorten betrouwbaarheid.

Test-hertestbetrouwbaarheid

Bij test-hertestbetrouwbaarheid gaat het om de consistentie van de responsen van deelnemers door de tijd heen. Proefpersonen worden twee keer gemeten. Tussen deze twee metingen zit meestal een periode van een aantal weken. Als we ervan uitgaan dat een kenmerk stabiel is, dan zou iemand twee keer dezelfde score moeten hebben op dezelfde test. Als iemand de eerste keer een score van 110 heeft op een IQ-test, dan is het de bedoeling dat hij de volgende keer ook een score van rond de 110 heeft op dezelfde test. Dit omdat intelligentie een relatief stabiel kenmerk is. Toch zullen beide metingen niet hetzelfde zijn, omdat er altijd sprake zal zijn van meetfouten. Als beide IQ-scores een hoge correlatie hebben (minstens .70), dan heeft een meting (dus de IQ-test) een goede test-hertestbetrouwbaarheid. We verwachten een hoge test-hertestbetrouwbaarheid voor intelligentie-, attitude- en persoonlijkheidstesten. Bij minder stabiele eigenschappen, zoals honger of vermoeidheid, heeft het meten van test-hertestbetrouwbaarheid geen nut.

Inter-itembetrouwbaarheid

De inter-itembetrouwbaarheid is van belang bij metingen die bestaan uit meer dan één item. Inter-itembetrouwbaarheid gaat dan ook over de mate van consistentie tussen meerdere items op een schaal. Persoonlijkheidsvragenlijsten bestaan bijvoorbeeld vaak uit meerdere items die iets zeggen over bijvoorbeeld de extraversie of het zelfvertrouwen van deelnemers. Deze items worden vervolgens opgeteld tot een score. Wanneer wetenschappers de antwoorden van deelnemers optellen om een enkele score te krijgen, moeten ze er wel zeker van zijn dat alle items hetzelfde construct (bijvoorbeeld extraversie) meten. Om te kijken in hoeverre items met elkaar samenhangen, kan voor elke combinatie van items een item-totaalcorrelatie berekend worden. Dit is de correlatie tussen een item en de rest van alle items bij elkaar. Elk item op de schaal zou moeten correleren met de rest van de items. Een item-totaalcorrelatie van .30 of hoger per item wordt als voldoende beschouwd. Naast het feit dat berekend moet worden of elk item samenhangt met alle andere items is het ook nodig om de betrouwbaarheid van alle items bij elkaar te berekenen. In het verleden werd hiervoor de split-halfbetrouwbaarheid berekend. Eerst werd met de split-halfmethode de inter-itembetrouwbaarheid berekend.

Bij de split-halfbetrouwbaarheid worden de items over twee sets verdeeld. Daarna wordt voor elke set een totaalscore berekend. Vervolgens wordt er een correlatie tussen beide sets berekend. Als de items in beide sets hetzelfde construct meten, dan zou er een hoge correlatie tussen beide sets moeten zijn. Onder een hoge correlatie wordt ook in dit verband .70 of hoger verstaan. Het nadeel van de split-halfbetrouwbaarheid, is dat correlatie die gevonden wordt afhangt van welke items je in welke set plaatst. Als je de sets net iets anders indeelt, kan er een hele andere split-halfbetrouwbaarheid uitkomen.

Om deze reden wordt tegenwoordig de ‘Cronbach’s alpha coëfficiënt’ berekend. Met de Cronbach’s alpha bereken je (door middel van een simpele formule) het gemiddelde van alle mogelijke split-halfbetrouwbaarheden. Wetenschappers gaan ervan uit dat de inter-itembetrouwbaarheid goed is als Cronbach’s alpha .70 of hoger is. de Cronbach’s alpha kan als volgt berekend worden:

$\alpha=\frac{K}{K-1} 1-\frac{\sum_kV(X_k)}{V(\sum_kX_k)}$

oftewel:

$\alpha=\frac{items}{items-1}1-\frac{optelsom variantie elk item}{totale variantie hele schaal}$

Interrater-betrouwbaarheid

Interrater-betrouwbaarheid wordt ook wel ‘interjudge’ of ‘interobserver’ betrouwbaarheid genoemd. Het gaat hierbij om de mate waarin twee of meerdere onderzoekers het gedrag van de proefpersonen hetzelfde observeren en opslaan. Als de onderzoekers soortgelijke beoordelingen maken (dus bij een hoge interrater-betrouwbaarheid), dan zou de correlatie tussen hun beoordelingen .70 of hoger moeten zijn.

Validiteit

Meettechnieken moeten niet alleen betrouwbaar, maar ook valide zijn. Validiteit staat voor de mate waarin een meettechniek meet wat het hoort te meten. De vraag is dus of we meten wat we willen meten. Het is belangrijk om op te merken dat betrouwbaarheid en validiteit twee verschillende dingen zijn. Een meetinstrument kan tegelijkertijd betrouwbaar maar niet valide zijn. Een hoge betrouwbaarheid vertelt ons dat het meetinstrument iets meet, maar niet precies wat het meetinstrument precies meet. Om daar achter te komen is het van belang om naar de validiteit te kijken. Validiteit is niet een vaststaand kenmerk van een meettechniek. Een meting kan voor het ene doel valide zijn, terwijl deze niet valide is voor een ander doel. Er wordt enerzijds onderscheid gemaakt tussen interne validiteit en externe validiteit. Bij interne validiteit gaat het erom dat een onderzoeker de juiste conclusies trekt over de effecten van de onafhankelijke variabele. Interne validiteit wordt gewaarborgd door experimentele controle. Dit zorgt er namelijk voor dat de onafhankelijke variabele het enige is wat verschilt tussen de condities. Als deelnemers in verschillende condities systematisch van elkaar verschillen op meer dan alleen de onafhankelijke variabele spreken we van confounding. Externe validiteit gaat over de mate waarin gevonden onderzoeksresultaten generaliseerbaar zijn naar andere steekproeven. Onderzoekers maken anderzijds onderscheid tussen drie soorten validiteit: (1) ‘face’ validiteit, (2) construct validiteit en (3) ‘criterion-related’ validiteit.

Face-validiteit

Face-validiteit gaat over de mate waarin een meting lijkt te meten wat hij hoort te meten. Een meting heeft face-validiteit als mensen denken dat dat zo is. Deze vorm van validiteit kan dus niet statistisch berekend worden, maar is meer een oordeel van mensen die de meting gevoelsmatig beoordelen. De face-validiteit wordt vastgesteld door de onderzoeker, door de proefpersonen en/of door experts op het betreffende vakgebied. Als een meting geen face-validiteit heeft, dan vinden proefpersonen het niet van belang om echt mee te doen. Als een persoonlijkheidstest geen face-validiteit heeft en proefpersonen moeten deze test wel invullen, dan snappen ze de toegevoegde waarde van de test niet. Dit verlaagt hun motivatie om deel te nemen aan het onderzoek. Het is van belang om drie dingen te onthouden: (1) dat een meting face-validiteit heeft, betekent niet dat deze ook echt valide is, (2) wanneer een meting geen face-validiteit heeft, hoeft dit niet te betekenen dat er in het echt geen sprake is van validiteit en (3) soms willen onderzoekers hun doelen maskeren. Als ze bijvoorbeeld bang zijn dat deelnemers gevoelige vragen niet eerlijk zullen beantwoorden, kunnen zij meetinstrumenten ontwerpen die geen face-validiteit hebben.

Constructvaliditeit

Vaak zijn onderzoekers geïnteresseerd in hypothetische constructen. Dit zijn constructen die niet direct geobserveerd kunnen worden op basis van empirisch bewijs. Het is de vraag hoe we kunnen weten of de meting van een hypothetisch construct (dat niet waarneembaar is) valide is. Cronbach en Meehl stellen dat de we de validiteit van de meting van een hypothetisch construct kunnen vaststellen door deze meting te vergelijken met andere metingen. Het is dus van belang om te kijken naar de relatie tussen de verschillende metingen. Scores op een meetinstrument voor zelfvertrouwen zouden bijvoorbeeld positief gecorreleerd moeten zijn met metingen op optimisme, maar negatief gecorreleerd moeten zijn met meetinstrumenten die onzekerheid en angst meten. Een meetinstrument heeft constructvaliditeit als deze (1) in hoge mate correleert met meetinstrumenten waar het mee zou moeten correleren (convergente validiteit) en (2) niet correleert (of in lage mate correleert) met meetinstrumenten waar het niet mee zou moeten correleren (discriminante validiteit).

Criterionvaliditeit

Criterionvaliditeit gaat over de mate waarin een meetinstrument ervoor zorgt dat we onderscheid kunnen maken tussen deelnemers op basis van een bepaald gedragscriterium. Een vraag is bijvoorbeeld of verschillende scores op een motivatietest op het VWO iets zeggen over wie het wel en niet goed zullen doen tijdens een universitaire studie. Het gedragscriterium is in dit geval de universitaire studie. Er wordt vooral gebruik gemaakt van criteriumvaliditeit in toegepaste onderzoekssettings. Denk hierbij aan onderwijssettings of sollicitaties. Onderzoekers maken onderscheid tussen twee primaire soorten van criteriumvaliditeit: (1) concurrente en (2) predictieve validiteit. Het belangrijkste verschil tussen deze twee soorten criteriumvaliditeit is de hoeveelheid tijd tussen de afname van het meetinstrument en het vaststellen van het gedragscriterium.

Van concurrente validiteit is sprake wanneer twee meetinstrumenten ongeveer op hetzelfde moment worden gebruikt. De vraag is of het meetinstrument op een goede manier onderscheid kan maken tussen mensen die hoog en laag scoren op het gedragscriterium op dat specifieke moment. Wanneer scores op het meetinstrument gerelateerd zijn aan gedragingen waar ze op dat moment zelf aan gerelateerd zouden moeten zijn, dan heeft het meetinstrument concurrente validiteit.
We spreken van predictieve validiteit wanneer een meetinstrument onderscheid kan maken tussen mensen op een gedragscriterium in de toekomst, dus of het instrument een goede voorspelling kan geven. Vooral in de onderwijssetting is dit van belang.

Access:

Public