Aantekeningen college Betrouwbaarheid en Validiteit - Universiteit Utrecht (2022-2023)

Hoorcollege 8

Tentamentickets:

  • Morling H5 is aanvullende literatuur.
  • Voor elk college is er een theoretische opgave waar je kan oefenen.
  • Alle formules die langskomen zijn op een formuleblad te vinden op BB onder assignments.
  • Formuleblad krijg je op het tentamen.
  • Betekenis van de symbolen moet je je zelf eigen maken.
  • Veel komt aan bod in responsiecolleges.
  • 2 onderwerpen worden besproken bij responsiecolleges.
  • Na practicum maak je de eindopdracht. Dit staat in de practicumopdracht beschreven. De antwoorden van de eindopdracht moet je invoeren in remindo.

Beroepscode van het NIP:

  • Integer
  • Respectvol
  • Verantwoordelijk
  • Deskundig

Hier moet je aan voldoen als psycholoog. Persoonskenmerken waarover je moet gaan beschikken. Deze kenmerken kan je meten, maar het zijn abstracte concepten.

Die schatting beschouw je als een puntschatting. Deze metingen zijn feilbaar, niet perfect. Je moet een grens interval geven waartussen het sowieso ligt. Dit is een intervalschatting. Puntschatting is een te ambitieuze uiting van waar je denkt dat het zit. Intervalschatting is een interval. Je moet iets weten van de betrouwbaarheid (precisie) voor je een intervalschatting kan maken.

Operationalisatie

  • Theoretisch concept
  • De beschrijving van handelingen (operaties) die nodig zijn om de bedoelde eigenschap te meten
  • Operationaliseren is lastig.

Valide: dat het integriteit betreft.

Betrouwbaarheid: dat het iets meet dat het ook bij de mensen aanwezig is.

Een puntschatting is een beslissing in onzekerheid. Het is waarschijnlijk geen perfecte meting. Dus je moet weten hoe precies die score 11 is en of dit een goede weergave is. Je moet de onzekerheid dus quantificeren.

Model klassieke testtheorie

Testscore X (testscore) wordt bepaald door:

  • Latente of ware score T
  • Toevallige meetfout E (error)

Twee invloeden op de testscore.

  • De T is de ware score, de echte mate van integriteit die Vera heeft.
  • E is de toevallige meetfout (error).

Invloeden:

  • De toevallige meetfout. Persoon, Omgeving, Test en Testleider kunnen dit beïnvloeden.
  • Je krijgt dus geen indicatie van de precieze ware score.
  • Gestandaardiseerde test maken: dan blijft de toevallige meetfout E zo klein mogelijk.

De E kan een + of een - zijn.

Testscores (meetwaarden X)

  1. Systematische invloeden
    1. Wat test beoogt te meten
    2. Systematische meetfout
  2. Toevallige invloeden

Ware score T, draagt systematisch bij aan de uitslag van de score. Als je heel integer bent, heb je een hogere score en als je corrupt bent, heb je een lagere score. Maar je hebt ook toevallige invloeden of een systematische meetfout. Over een week ben ik niet minder integer. Dus dan verandert alleen de toevallige meetfout. Dat is dus de betrouwbaarheid. Vaak heb je maar 1 afname.

Validiteit gaat over of de score wel een representatie is van wat je wil meten.

  • Valide meting is altijd betrouwbaar, maar daar komt ook bij dat er geen systematische meetfout bij zit.
  • Onbetrouwbare meting kan nooit valide zijn.
  • Valide meting is per definitie betrouwbaar.
  • Gemiddelde (t) is de ware score.
  • Maar er is een mate van spreiding. Standaardafwijking zegt iets over de spreiding rond de ware score.
  • Hoe groter de spreiding hoe meer het voorkomt dat een testscore heel erg afwijkt van de ware score.
  • Je ziet maar 1 score van jouw afname.

Alle verschillen kan je bij elkaar optellen en het gemiddelde daarvan is de gemiddelde afstand tot de ware score. Dat is de standaardafwijking sigma. Dat is dus de standaardmeetfout, want het gaat om een meetinstrument. Standaardmeetfout sigma.

Het zegt iets over de precisie van de meting die ik doe. Standaardmeetfout is een mate van spreiding van meetfouten rond de ware score.

Standaardmeetfout is een maat voor de spreiding van de toevallige meetfout

  • De systematische meetfout is gwn de meetfout.
  • Het gemiddelde van al die meetfouten is gelijk aan 0. Soms score je iets hoger, dan iets lager.
  • Gemiddeld is het gelijk aan 0.
  • Voor een individu is de gemiddelde meetfout gelijk aan nul.
  • Ook binnen een populatie waar je een vragenlijst afneemt is de gemiddelde meetfout gelijk aan 0.
  • Toevallige meetfout is niet systematisch en correleert nergens mee.
  • Er is geen samenhang tussen het begrip dat je wil meten en de vastgestelde meetfout.
  • Meetfout die bij een ene test maakt, betekent niet dat bij een andere test de meetfout hetzelfde is.

Symbolen

  • De rho staat voor correlatie.
  • E is de meetfout. E’ is de andere meetfout
  • T is de ware score.

Standaardmeetfout

  • Standard error of mearuement
  • Spreiding van de toevallige meetfout bij oneindig aantal replicaties
  • Geeft indicatie van de nauwkeurigheid van de meting in een populatie
  • De standaardmeetfout is identiek voor alle individuen waarbijje het instrument afneemt (=aanname)
  • Met de standaardmeetfout kunnen we het betrouwbaarheidsinterval afleiden voor de ware score

Standaardmeetfout = de SE, de spreiding van de toevallige fout rondom de ware score bij een oneindig aantal replicaties. Denk aan de normaalverdeling. De standaardfout is identiek voor alle individuen waarbij je het instrument afneemt. Het heeft niet te maken met de integriteit van de onderzoeker.

In de formule: SX is de spreiding van scores op een test

rxx’ is een schatting van de betrouwbaarheid.

Model klassieke testtheorie: model die uit probeert te leggen hoe je komt tot een testscore.

  • j staat voor het moment
  • i staat voor het persoon
  • Dat staat soms zo: Eij
  • Standaardmeetfout is nodig om te komen tot een intervalschatting.
  • Autoriteit op het gebied van tests is de COTAN.
  • Doel van de test heeft invloed op wat de eisen van de betrouwbaarheid zijn.

 

  • Testscore is de waarde die je krijgt van de test, de ware score met de toevallige meetfout.
  • Groepsafname: veel verschillende afnames op een test
  • De spreiding op alle testscores = som van de spreiding van ware scores + de spreiding van toevallige meetfouten.
  • De S kwadraat staat voor variantie. Dit is een maat voor spreiding van scores.

Dan kunnen we betrouwbaarheid berekenen.

  • Betrouwbare testscore is een score waar met name het ware score deel, bijna volledig bepalend is voor de testscore die je krijgt.
  • Als het 1 is, dan is de ware score hetzelfde als de testscore. Dat is eigenlijk nooit, want je hebt te maken met de toevallige meetfout.
  • Dat is de onderste rxx’ formule.
  • Hoe dichter bij 1, hoe betrouwbaarder de test. Hoe dichter bij 0, hoe onbetrouwbaarder de test.
  • Error neemt toe? Neemt rxx’ af. Als error 0 wordt, is rxx’ 1.
  • De betrouwbaarheid zegt iets over het aandeel van de ware score op het totaal.

De ware score kennen we helemaal niet. We moeten de betrouwbaarheid moeten we dus op een andere manier schatten dan deze formule. De ware score moeten we juist weten door de test. We kunnen het dus niet gebruiken voor het vaststellen van de betrouwbaarheid.

Schatting betrouwbaarheid

  1. Test-hertest betrouwbaarheid
  2. Paralleltest betrouwbaarheid
  3. Split-half betrouwbaarheid
  4. Cronbach's alfa

Error is een andere naam voor de toevallige meetfout.

Test-hertest methode. 

  • Over de tijd zijn de scores op hetzelfde instrument hetzelfde bij dezelfde groep.
  • Correlatie is een getal tussen -1 en +1. Negatieve betrouwbaarheid bestaat niet. Dus tussen 0 en 1 is een schatting van de betrouwbaarheid.
  • Probleem: je kent het instrument al: leereffect.

Oplossing?

  • Een andere test gebruiken die uit dezelfde verzameling van vragen getrokken worden. Een parallel test.
  • De ene test noemen we X en de andere test noemen we X’. Andere test, maar wel een gelijkwaardige test.
  • Probleem: moeilijk te realiseren om een strikte parallelle test te maken.
  • Maar bij cognitieve tests lukt dat wel: rekenvaardigheid en taalvaardigheid.

Oplossing:

  • Binnen een test twee helften van een test nemen.
  • Correlatie tussen die helften geeft een schatting voor de betrouwbaarheid.
  • Gecorrigeerde correlatie is het, hoef je niet te weten.
  • Probleem: hoe splits je dan? Elke tweedeling levert een iets andere schatting van de betrouwbaarheid op.

Laatste optie

  • Het gemiddelde van alle split-half correlaties.
  • Alle splitsingen en dan de gemiddelde correlatie daartussen.
  • Dan heb je de Cronbach’s alfa.
  • Meet de samenhang tussen de items.
  • Probleem: van toepassing bij schalen met een Likert schalen. Geordende antwoordcategorieën met meer dan 3, 4, 5 categorieën.
  • Cronbach’s alfa voor items met meer dan 2 geordende antwoordcategorieën.
  • De verzameling van items moeten allemaal een beroep doen op het kenmerk dat je wil meten. Elk item afzonderlijk moet dat hebben.

 

Som van de itemvarianties.  Werkelijke betrouwbaarheid is waarschijnlijk wel ietsje hoger. Daarom ondergrens voor de schatting van de betrouwbaarheid. De waardering is afhankelijk doel van de meting. Gebruikt worden voor diagnostiek: belangrijke beslissingen.

Ondergrens voor de Cronbach's alfa is vaak .080. Dit ligt echter aan het niveau waarop je de test uitvoert.

  • Hoe meer vragen in een test, hoe betrouwbaarder de test.
  • Als de groep homogeen is over het kenmerk dat ik wil meten, dan heeft dat invloed op de betrouwbaarheidsschatting.
  • Ik moet een goede representatie van de doelgroep van de test hebben. Die moet hetzelfde zijn als mijn doelgroep.
  • Hoe meer spreiding in ware scores, hoe betrouwbaarder de test. Je moet een heterogene groep hebben.
  • Speedtest in een bepaalde tijd. Speedtest is niet geschikt om cronbach’s alfa te gebruiken. Sommige vragen kunnen dan niet beantwoord worden.

Je hebt een ondergrens en een bovengrens voor een betrouwbaarheidsinterval.

  • Rondom de verkregen score. Xij + is de bovengrens, - is de ondergrens. 
  • z-scores zijn gestandaardiseerde scores. Drie z-scores zijn belangrijk.

Puntschatting is de testscore die je krijgt. Hercodering is nodig, want veel punten is veel integriteit. Maar niet elke vraag is in de juiste richting.

  • Spreiding van de scores is 3.35
  • Schatting van betrouwbaarheid was 0.86
  • Nu kan je het betrouwbaarheidsinterval berekenen.
  • Voor IQ heb je ook een betrouwbaarheidsinterval. Dus soms kan je in rechtszaken niet weten of iemand ontoerekeningsvatbaar.

Leer de 7 criteria voor de COTAN.

  • Is er een systematische invloed op de test?
  • Meting betrouwbaar? Toevallige fout is gering. Maar kan nog steeds groot aandeel hebben van een systematische fout.
  • Valide meting heeft kleine toevallige en kleine systematische fout.

Inhoudsvaliditeit.

  • Deskundigen oordeel
  • Gebruikersoordeel: face validity: of aan deskundigen of aan gebruikers vragen we: wat denken jullie dat deze test meet?

Begripsvaliditeit.

  • Relaties van mijn testscores met andere kenmerken waar het wel of niet mee samenhangt.
  • Binnen een instrument ook verwachting over relaties. Alle afzonderlijke items moeten samenhangen. Daar meer over later.

Criteriumvaliditeit.

  • Als een test als doel heeft om iets te voorspellen in de toekomst.
  • Dan zou dat chill zijn als hij dat ook doet. Is hij bruikbaar voor zo’n voorspelling?

We gebruiken bij inhoudsvaliditeit deskundigen of gebruikers.

Leer inhoudsvaliditeit, begripsvaliditeit, convergente en divergente validiteit en criteriumvaliditeit. (Zie mijn aantekeningen van KOM voor meer uitleg).

Dit zijn dus allemaal vormen om te beoordelen of de test meet wat het beoogt te meten en doet wat het beoogt te doen.

Image

Access: 
Public

Image

Join WorldSupporter!
Search a summary

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Check the related and most recent topics and summaries:

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Follow the author: Hugo
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
1311