Hoorcollege 3: Betrouwbaarheid (testtheorie) - Grondslagen van psychologische diagnostiek en testtheorie (GPDTT) aan de Universiteit Utrecht

Puntschatting: een testscore van meetinstrument. Deze score is niet perfect, je kan beter intervalschatting gebruiken om de onnauwkeurigheid in de schatting mee te nemen.

Om een intervalschatting te krijgen heb je een schatting van de betrouwbaarheid nodig.

Theoretisch construct: abstract kenmerk, eigenschap, variabele, concept, begrip, trait or state

Klassieke meetmodel: een testscore X wordt bepaald door de ware score T en door de toevallige meetfout E --> X = T + E

Een testscore (X) komt tot stand door systematische invloeden (het theoretisch construct dat de test wil meten + systematische meetfout (bijvoorbeeld sociale wenselijkheid) en door toevallige invloeden. Dus twee soorten meetfouten: systematische meetfout en toevallige meetfout.

Een score is betrouwbaar bij afwezigheid van toevallige meetfout.          Een score is valide bij afwezigheid van toevallige meetfout én systematische meetfout.

Als iemand oneindig vaak dezelfde test uitvoert ontstaat er uiteindelijk een normaalverdeling met een gemiddelde (is gelijk aan de ware score T) en een standaardafwijking σ (is gelijk aan de standaardmeetfout σE).

De standaardmeetfout σE is de spreiding van de toevallige meetfout en geeft een indicatie van de nauwkeurigheid van de meting. Is identiek voor alle individuen bij hetzelfde meetinstrument. Hiermee kan je het betrouwbaarheidsinterval berekenen.

Eigenschappen van meetfout E:

  • Bij replicaties geldt E=0.
  • In populaties correleert de meetfout niet met de ware score: de meetfout komt alleen door toevallige invloeden tot stand.
  • De meetfout van verschillende tests correleert niet.

Testvariantie (S2X) = ware scorevariantie (S2T) + errorvariantie (S2E) + 2x de covariantie (2STE)

Betrouwbaarheid (rxx’) = S2T / (S2T + S2E )

Bronnen van toevallige meetfouten kan de inhoud zijn (verschil items op steekproef en domein van items; content sampling error) en de tijd (tijdstip heeft invloed op resultaat; time sampling error).

De betrouwbaarheid kan geschat worden door middel van:

  1. Test-hertest: correlatie tussen testafname X1 en X2. Nadelen: leereffect (carryover effects), kort tijd tussen afnames (herinnering, ervaring), lange tijd tussen afnames (wijziging ware scores).
  2. Paralleltest betrouwbaarheid: correlatie tussen parallele tests X en X’ (X’ is vergelijkbaar met, maar verschillend van X). Nadelen: parallelle test zijn moeilijk te realiseren.
  3. Split-half methode: gecorrigeerde correlatie tussen testhelften. Nadelen: test moeilijk in twee delen te splitsen, een andere tweedeling levert een andere schatting. Oplossing: met computer gemiddelde van alle splitsingen nemen

Bij testverlenging of testverkorting kan met parallelle items een schatting van de betrouwbaarheid gegeven worden volgens de Spearman-Brown formule. De verlengingsfactor bereken je met nieuwe aantal items/ oude aantal.

  1. Kuder-richardson formule 20: met de kuder-richardson formule 20 kan je voor dichotome items (1=goed, 0=fout) en voor homogene set van items (eendimensionaal) een betrouwbaarheidsschatting maken. Je hoeft niet met deze formule te rekenen, alleen weten welke dingen nodig zijn om de betrouwbaarheid te bepalen: dit zijn het aantal items (k), de proportie goede antwoorden (p), proportie fouten antwoorden (q) en de variantie van de testscores (S2X).
  2. Cronbach’s alfa: voor items met meer dan twee categorieën. In de formule moet het aantal items, de som van de afzonderlijke itemvarianties en de variantie van de testscores ingevuld worden. Kan geïnterpreteerd worden als het gemiddelde van alle split-half betrouwbaarheden en ondergrens voor schatting betrouwbaarheid.Alfa=.80 betekent dat minimaal 80% van variantie in testscores wordt veroorzaakt door variantie in ware scores.

De COTAN beoordeelt als volgt:

  • Individueel belangrijk niveau – Voldoende: .80 < rxx’ < .90. Goed: rxx’ > .90
  • Individueel minder belangrijk niveau - Voldoende: .70 < rxx’ < .80. Goed: rxx’ > .80
  • Groepsniveau - Voldoende: .60 < rxx’ < .70. Goed: rxx’ > .70

Invloeden van betrouwbaarheid zijn de lengte van de test (hoe langer, hoe betrouwbaarder), de samenstelling van de steekproef (hoe meer spreiding, hoe betrouwbaarder) en het tijdslimiet ( bij tijdsgebrek worden niet alle items beantwoord; dan zijn de split-halfmethode, KR20 en Cronbach’s alpha niet geschikt).

Image

Access: 
Public

Image

Join WorldSupporter!
This content is used in:

Hoorcolleges Grondslagen van psychologische diagnostiek en testtheorie

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Image

Spotlight: topics

Check the related and most recent topics and summaries:
Activities abroad, study fields and working areas:
Countries and regions:
Institutions, jobs and organizations:
This content is also used in .....

Image

Check how to use summaries on WorldSupporter.org
Submenu: Summaries & Activities
Follow the author: JuliaV
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
Search a summary, study help or student organization