Betrouwbaarheid en validiteit
Betrouwbaarheid en validiteit zijn twee centrale begrippen binnen de statistiek. De betrouwbaarheid houdt in dat het meetinstrument consistente resultaten geeft. Als je twee keer dezelfde meting doet, geeft een betrouwbaar meetinstrument twee keer hetzelfde resultaat. Validiteit beschrijft of het gemeten concept inderdaad gemeten wordt door het meetinstrument. De validiteit hangt af van het doel van het onderzoek: voor het ene concept kan een meetinstrument valide zijn, maar voor het andere concept niet. Een valide meting is noodzakelijkerwijs ook een betrouwbare meting, maar andersom geldt dit niet: als een meetinstrument consistent de verkeerde resultaten geeft is het wel betrouwbaar, maar niet valide.
Meetfouten (‘measurement error’)
De score van een deelnemer op een meting bestaat uit twee onderdelen: (1) de ware score van de deelnemer en (2) meetfouten (‘measurement error’). Kortom; geobserveerde score = ware score + meetfouten. De ware score (‘true score’) is de score die een deelnemer zou hebben als een meettechniek perfect was en er dus geen sprake van meetfouten zou kunnen zijn. De meettechnieken die wetenschappers gebruiken zijn echter nooit helemaal foutloos. Alle meettechnieken bevatten meetfouten. Door deze meetfouten komen wetenschappers niet achter de exacte score van een deelnemer.
Meetfouten en betrouwbaarheid
Meetfouten verminderen de betrouwbaarheid van een meting. Als een meting een lage betrouwbaarheid heeft, dan zijn de meetfouten groot en weet de onderzoeker weinig over de ware score van een deelnemer. Als een meting een hoge betrouwbaarheid heeft, dan zijn er weinig meetfouten. De geobserveerde score van een deelnemer is dan juist een goede (maar niet perfecte) weerspiegeling van de ware score van een deelnemer.
Betrouwbaarheid als systematische variantie
Wetenschappers weten nooit precies hoeveel meetfouten er in een studie bestaan en wat de ware scores van deelnemers precies zijn. Ook weten ze niet precies hoe betrouwbaar hun meting is, maar ze kunnen aan de hand van statistische analyses wel inschatten hoe betrouwbaar hun meting is. Als zij zien dat hun meting niet betrouwbaar genoeg is, dan kunnen ze proberen hun meting meer betrouwbaar te maken. Is ook het betrouwbaarder maken van de meting niet mogelijk, dan kunnen ze ervoor kiezen om de meting helemaal niet te gebruiken in het onderzoek.
- De totale variantie in een dataset van scores bestaat uit twee onderdelen: (1) variantie door ware scores en (2) variantie door meetfouten. In formulevorm is dit: totale variantie = variantie door ware scores + variantie door meetfouten.
- We kunnen ook zeggen dat de proportie totale variantie die samenhangt met de ware scores van de deelnemers systematische variantie is, omdat de ware scores op systematische wijze gerelateerd zijn aan de meting.
- De variantie die door meetfouten ontstaat is errorvariantie omdat deze variantie niet gerelateerd is aan wat de wetenschapper onderzoekt.
- We zeggen daarom dat de betrouwbaarheid wordt berekend door de ware score variantie te delen door de totale variantie, dus: betrouwbaarheid = ware score variantie/totale variantie. De betrouwbaarheid van een meting ligt tussen de 0 en de 1. Een betrouwbaarheid van .00 zegt ons dat er helemaal geen ware score variantie aanwezig is in de data en dat de scores alleen maar staan voor meetfouten. Bij een betrouwbaarheid van 1.00 is het precies omgekeerd; daar is er alleen sprake van ware score variantie en zijn er geen meetfouten. De vuistregel is dat een meting betrouwbaar genoeg is als deze minimaal een betrouwbaarheid van .70 heeft. Dit betekent dat 70% van de variantie in de data staat voor ware score variantie.
Soorten betrouwbaarheid
Onderzoekers maken gebruik van drie soorten betrouwbaarheid bij het analyseren van hun data: (1) ‘test-hertest’ betrouwbaarheid, (2) ‘interitem’ betrouwbaarheid en (3) ‘interrater’ betrouwbaarheid. Een correlatiecoëfficiënt is een statistiek die aangeeft hoe sterk de relatie tussen twee metingen is. Deze statistiek ligt tussen de .00 (geen relatie tussen de metingen) en 1.00 (perfecte relatie tussen metingen). Correlatiecoëfficiënten kunnen positief of negatief zijn. Als deze statistiek wordt gekwadrateerd, dan zien we in welke mate de proportie van de totale variantie van beide metingen systematisch is. Hoe hoger de correlatie, hoe meer twee variabelen gerelateerd zijn. Hieronder wordt ingegaan op drie soorten betrouwbaarheid.
Test-hertestbetrouwbaarheid
Bij test-hertestbetrouwbaarheid gaat het om de consistentie van de responsen van deelnemers door de tijd heen. Proefpersonen worden twee keer gemeten. Tussen deze twee metingen zit meestal een periode van een aantal weken. Als we ervan uitgaan dat een kenmerk stabiel is, dan zou iemand twee keer dezelfde score moeten hebben op dezelfde test. Als iemand de eerste keer een score van 110 heeft op een IQ-test, dan is het de bedoeling dat hij de volgende keer ook een score van rond de 110 heeft op dezelfde test. Dit omdat intelligentie een relatief stabiel kenmerk is. Toch zullen beide metingen niet hetzelfde zijn, omdat er altijd sprake zal zijn van meetfouten. Als beide IQ-scores een hoge correlatie hebben (minstens .70), dan heeft een meting (dus de IQ-test) een goede test-hertestbetrouwbaarheid. We verwachten een hoge test-hertestbetrouwbaarheid voor intelligentie-, attitude- en persoonlijkheidstesten. Bij minder stabiele eigenschappen, zoals honger of vermoeidheid, heeft het meten van test-hertestbetrouwbaarheid geen nut.
Inter-itembetrouwbaarheid
De inter-itembetrouwbaarheid is van belang bij metingen die bestaan uit meer dan één item. Inter-itembetrouwbaarheid gaat dan ook over de mate van consistentie tussen meerdere items op een schaal. Persoonlijkheidsvragenlijsten bestaan bijvoorbeeld vaak uit meerdere items die iets zeggen over bijvoorbeeld de extraversie of het zelfvertrouwen van deelnemers. Deze items worden vervolgens opgeteld tot een score. Wanneer wetenschappers de antwoorden van deelnemers optellen om een enkele score te krijgen, moeten ze er wel zeker van zijn dat alle items hetzelfde construct (bijvoorbeeld extraversie) meten. Om te kijken in hoeverre items met elkaar samenhangen, kan voor elke combinatie van items een item-totaalcorrelatie berekend worden. Dit is de correlatie tussen een item en de rest van alle items bij elkaar. Elk item op de schaal zou moeten correleren met de rest van de items. Een item-totaalcorrelatie van .30 of hoger per item wordt als voldoende beschouwd. Naast het feit dat berekend moet worden of elk item samenhangt met alle andere items is het ook nodig om de betrouwbaarheid van alle items bij elkaar te berekenen. In het verleden werd hiervoor de split-halfbetrouwbaarheid berekend. Eerst werd met de split-halfmethode de inter-itembetrouwbaarheid berekend.
- Bij de split-halfbetrouwbaarheid worden de items over twee sets verdeeld. Daarna wordt voor elke set een totaalscore berekend. Vervolgens wordt er een correlatie tussen beide sets berekend. Als de items in beide sets hetzelfde construct meten, dan zou er een hoge correlatie tussen beide sets moeten zijn. Onder een hoge correlatie wordt ook in dit verband .70 of hoger verstaan. Het nadeel van de split-halfbetrouwbaarheid, is dat correlatie die gevonden wordt afhangt van welke items je in welke set plaatst. Als je de sets net iets anders indeelt, kan er een hele andere split-halfbetrouwbaarheid uitkomen.
Om deze reden wordt tegenwoordig de ‘Cronbach’s alpha coëfficiënt’ berekend. Met de Cronbach’s alpha bereken je (door middel van een simpele formule) het gemiddelde van alle mogelijke split-halfbetrouwbaarheden. Wetenschappers gaan ervan uit dat de inter-itembetrouwbaarheid goed is als Cronbach’s alpha .70 of hoger is. de Cronbach’s alpha kan als volgt berekend worden:
$$\alpha=\frac{K}{K-1} 1-\frac{\sum_kV(X_k)}{V(\sum_kX_k)}$$
oftewel:
$$\alpha=\frac{items}{items-1}1-\frac{optelsom variantie elk item}{totale variantie hele schaal}$$
Interrater-betrouwbaarheid
Interrater-betrouwbaarheid wordt ook wel ‘interjudge’ of ‘interobserver’ betrouwbaarheid genoemd. Het gaat hierbij om de mate waarin twee of meerdere onderzoekers het gedrag van de proefpersonen hetzelfde observeren en opslaan. Als de onderzoekers soortgelijke beoordelingen maken (dus bij een hoge interrater-betrouwbaarheid), dan zou de correlatie tussen hun beoordelingen .70 of hoger moeten zijn.
Validiteit
Meettechnieken moeten niet alleen betrouwbaar, maar ook valide zijn. Validiteit staat voor de mate waarin een meettechniek meet wat het hoort te meten. De vraag is dus of we meten wat we willen meten. Het is belangrijk om op te merken dat betrouwbaarheid en validiteit twee verschillende dingen zijn. Een meetinstrument kan tegelijkertijd betrouwbaar maar niet valide zijn. Een hoge betrouwbaarheid vertelt ons dat het meetinstrument iets meet, maar niet precies wat het meetinstrument precies meet. Om daar achter te komen is het van belang om naar de validiteit te kijken. Validiteit is niet een vaststaand kenmerk van een meettechniek. Een meting kan voor het ene doel valide zijn, terwijl deze niet valide is voor een ander doel. Er wordt enerzijds onderscheid gemaakt tussen interne validiteit en externe validiteit. Bij interne validiteit gaat het erom dat een onderzoeker de juiste conclusies trekt over de effecten van de onafhankelijke variabele. Interne validiteit wordt gewaarborgd door experimentele controle. Dit zorgt er namelijk voor dat de onafhankelijke variabele het enige is wat verschilt tussen de condities. Als deelnemers in verschillende condities systematisch van elkaar verschillen op meer dan alleen de onafhankelijke variabele spreken we van confounding. Externe validiteit gaat over de mate waarin gevonden onderzoeksresultaten generaliseerbaar zijn naar andere steekproeven. Onderzoekers maken anderzijds onderscheid tussen drie soorten validiteit: (1) ‘face’ validiteit, (2) construct validiteit en (3) ‘criterion-related’ validiteit.
Face-validiteit
Face-validiteit gaat over de mate waarin een meting lijkt te meten wat hij hoort te meten. Een meting heeft face-validiteit als mensen denken dat dat zo is. Deze vorm van validiteit kan dus niet statistisch berekend worden, maar is meer een oordeel van mensen die de meting gevoelsmatig beoordelen. De face-validiteit wordt vastgesteld door de onderzoeker, door de proefpersonen en/of door experts op het betreffende vakgebied. Als een meting geen face-validiteit heeft, dan vinden proefpersonen het niet van belang om echt mee te doen. Als een persoonlijkheidstest geen face-validiteit heeft en proefpersonen moeten deze test wel invullen, dan snappen ze de toegevoegde waarde van de test niet. Dit verlaagt hun motivatie om deel te nemen aan het onderzoek. Het is van belang om drie dingen te onthouden: (1) dat een meting face-validiteit heeft, betekent niet dat deze ook echt valide is, (2) wanneer een meting geen face-validiteit heeft, hoeft dit niet te betekenen dat er in het echt geen sprake is van validiteit en (3) soms willen onderzoekers hun doelen maskeren. Als ze bijvoorbeeld bang zijn dat deelnemers gevoelige vragen niet eerlijk zullen beantwoorden, kunnen zij meetinstrumenten ontwerpen die geen face-validiteit hebben.
Constructvaliditeit
Vaak zijn onderzoekers geïnteresseerd in hypothetische constructen. Dit zijn constructen die niet direct geobserveerd kunnen worden op basis van empirisch bewijs. Het is de vraag hoe we kunnen weten of de meting van een hypothetisch construct (dat niet waarneembaar is) valide is. Cronbach en Meehl stellen dat de we de validiteit van de meting van een hypothetisch construct kunnen vaststellen door deze meting te vergelijken met andere metingen. Het is dus van belang om te kijken naar de relatie tussen de verschillende metingen. Scores op een meetinstrument voor zelfvertrouwen zouden bijvoorbeeld positief gecorreleerd moeten zijn met metingen op optimisme, maar negatief gecorreleerd moeten zijn met meetinstrumenten die onzekerheid en angst meten. Een meetinstrument heeft constructvaliditeit als deze (1) in hoge mate correleert met meetinstrumenten waar het mee zou moeten correleren (convergente validiteit) en (2) niet correleert (of in lage mate correleert) met meetinstrumenten waar het niet mee zou moeten correleren (discriminante validiteit).
Criterionvaliditeit
Criterionvaliditeit gaat over de mate waarin een meetinstrument ervoor zorgt dat we onderscheid kunnen maken tussen deelnemers op basis van een bepaald gedragscriterium. Een vraag is bijvoorbeeld of verschillende scores op een motivatietest op het VWO iets zeggen over wie het wel en niet goed zullen doen tijdens een universitaire studie. Het gedragscriterium is in dit geval de universitaire studie. Er wordt vooral gebruik gemaakt van criteriumvaliditeit in toegepaste onderzoekssettings. Denk hierbij aan onderwijssettings of sollicitaties. Onderzoekers maken onderscheid tussen twee primaire soorten van criteriumvaliditeit: (1) concurrente en (2) predictieve validiteit. Het belangrijkste verschil tussen deze twee soorten criteriumvaliditeit is de hoeveelheid tijd tussen de afname van het meetinstrument en het vaststellen van het gedragscriterium.
- Van concurrente validiteit is sprake wanneer twee meetinstrumenten ongeveer op hetzelfde moment worden gebruikt. De vraag is of het meetinstrument op een goede manier onderscheid kan maken tussen mensen die hoog en laag scoren op het gedragscriterium op dat specifieke moment. Wanneer scores op het meetinstrument gerelateerd zijn aan gedragingen waar ze op dat moment zelf aan gerelateerd zouden moeten zijn, dan heeft het meetinstrument concurrente validiteit.
- We spreken van predictieve validiteit wanneer een meetinstrument onderscheid kan maken tussen mensen op een gedragscriterium in de toekomst, dus of het instrument een goede voorspelling kan geven. Vooral in de onderwijssetting is dit van belang.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Contributions: posts
Spotlight: topics
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the summaries home pages for your study or field of study
- Use the check and search pages for summaries and study aids by field of study, subject or faculty
- Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
- Check or follow authors or other WorldSupporters
- Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Main summaries home pages:
- Business organization and economics - Communication and marketing -International relations and international organizations - IT, logistics and technology - Law and administration - Leisure, sports and tourism - Medicine and healthcare - Pedagogy and educational science - Psychology and behavioral sciences - Society, culture and arts - Statistics and research
- Summaries: the best textbooks summarized per field of study
- Summaries: the best scientific articles summarized per field of study
- Summaries: the best definitions, descriptions and lists of terms per field of study
- Exams: home page for exams, exam tips and study tips
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
- Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
- Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
734 |
Add new contribution