HC1 - Testtheorie: Betrouwbaarheid

Sheetnotes 15/16

Welke onderwerpen worden behandeld in het hoorcollege? 
In dit hoorcollege wordt het onderwerp betrouwbaarheid besproken. De bijbehorende literatuur is H4 uit Mastery Modern Psychological Testing.

Welke onderwerpen worden besproken die niet worden behandeld in de literatuur?
De onderwerpen uit dit hoorcollege komen overeen met de literatuur. 

Welke recente ontwikkelingen in het vakgebied worden besproken?
Er worden geen recente ontwikkelingen besproken.

Welke opmerkingen worden er tijdens het college gedaan door de docent met betrekking tot het tentamen?
Er worden geen opmerkingen over het tentamen gemaakt.

Welke vragen worden behandeld die gesteld kunnen worden op het tentamen? 
Er worden geen tentamenvragen behandeld.

Hoorcollege aantekeningen 15/16

COTAN

De COTAN is het beoordelingssysteem voor de kwaliteit van tests. De COTAN beoordeelt de volgende punten:

  1. Uitgangspunten van de testconstructie
  2. Kwaliteit van het testmateriaal
  3. Kwaliteit van de handleiding
  4. Normen
  5. Betrouwbaarheid
  6. Begripsvaliditeit
  7. Criteriumvaliditeit

De categorieën worden beoordeeld met een onvoldoende (1), voldoende (2) of een goed (3).

Operationalisering = de specificatie van operaties die nodig zijn om de bedoelde eigenschap te meten.

Meetmodel voor testscore

Testscore X wordt bepaald door:

  • Latente of ware score T (true score) en
  • Toevallige meetfout E (error)

Xij =Ti +Eij
Xij = geobserveerde score van persoon i bij afname j
Ti = ware score van persoon i
Eij = toevallige meetfout van persoon i bij afname j (Xij - Ti)

Testscore wordt beïnvloed door systematische invloeden (wat de test beoogt te meten en systematische meetfouten) en toevallige invloeden (toevallige meetfouten). 

Meetfout

Een meetfout kan toevallig of systematisch zijn.
Betrouwbaarheid is de mate van precies meten, de mate van herhaalbaarheid. Er is geen toevallige meetfout aanwezig.
Validiteit is de mate waarin je meet wat je wilt meten. De toevallige meetfout en de systematische meetfout moeten afwezig zijn.

Model Klassieke testtheorie

Eigenschappen meetfout E:

  1. Bij replicaties is verwachtingswaarde E = 0
    Voor individu is gemiddelde meetfout gelijk aan nul.
    In populatie is gemiddelde meetfout gelijk aan nul.
  2. Meetfout correleert in populatie niet met ware score T: ρET = 0
    Meetfout komt uitsluitend door toevallige invloeden tot stand.
  3. Meetfout van verschillende tests correleren niet: ρEE’ = 0

Correlatie wordt weergegeven met het symbool ρ.

Testvariantie

Testvariantie (S2x) is som van ware scorevariantie (S2T) plus errorvariantie (S2E) plus twee keer covariantie (2STE)
S2: variantie boek: σ2
S2x = S2T + S2E

Betrouwbaarheid

Betrouwbaarheid is verhouding tussen ware scorevariantie en testvariantie. = aandeel van de ware score

S2T is onbekend, dus betrouwbaarheid moet geschat worden : ῤXX

page2image316333808

Bronnen van toevallige fouten:

  • Inhoud (content sampling error): verschil tussen steekproef van items en domein van items.
  • Tijd (time sampling error): het tijdstip van testafname is van invloed op het testresultaat.

Schatting van betrouwbaarheid

  1. Test-hertest betrouwbaarheid (test-retest)
    Correlatie tussen testafnames X1 en X2 als schatting voor betrouwbaarheid.
    page3image315301008
    Problemen: leereffect, korte tijd tussen afnames zorgt voor herinnering, lange tijd voor wijziging van de ware score.

  2. Paralleltest betrouwbaarheid (alternate form)
    Correlatie tussen parallelle tests X en X ’ als schatting voor betrouwbaarheid.
    page3image315301344
    Problemen: moeilijk te realiseren.

  3. Split-halfbetrouwbaarheid
    (gecorrigeerde) correlatie tussen parallelle testhelften als schatting voor betrouwbaarheid.
    page3image315301616
    page3image315301888= Schatting betrouwbaarheid gehele test
    RH1H2 = Correlatie tussen testhelft H1 en H2

  4. Kuder Richardson formula 20 (KR-20)
  • voor dichotome items (goed = 1,fout = 0)
  • voor homogene set van items (eendimensionaal)

page3image315302352
k = aantal items
pi = proportie mensen die goed geantwoord heeft
qi = proportie mensen die het antwoord fout hebben SD2X = variantie testscores

 5. Cronbachs alfa (coëfficiënt alpha)

  • Populaire methode betrouwbaarheidschatting testscore.
  • Voor items met meer dan twee geordende categorieën.
  • Voor ‘inwisselbare’ items.
    page3image315302624
    k = aantal items
    page3image315302896= som afzonderlijke itemvarianties SD2X = variantie testscores

Interpretatie Cronbachs alfa:

  • Gemiddelde van alle split-half betrouwbaarheden
  • Ondergrens voor schatting betrouwbaarheid rxx ≥ alfa
  • Alfa = 0.80 betekent dat minimaal 80% van variantie in testscores wordt veroorzaakt door variantie in ware scores

Testverlenging

Bij testverlenging of testverkorting met parallelle (gelijkwaardige) items → schatting betrouwbaarheid verlengde test V met:
Spearman-Brown formule

page4image316611216

v = verlengingsfactor
rOO’ = schatting betrouwbaarheid oorspronkelijke test
rVV‘= schatting van betrouwbaarheid na testverlenging/verkorting

Stel je hebt een test met tien items:
- verlengen met 2: v = 12/10=1.2 (v > 1 bij testverlenging)
- verkorten met 4: v = 6/10=0.6 (v < 1 bij testverkorting) 

Criteria beoordeling betrouwbaarheid (COTAN)

  • Belangrijke beslissingen over indidivueel niveau (selectie):
    Voldoende: .80 ≤ rxx ≤ .90 goed: rxx ≥ .90
  • Minder belangrijke individueel niveau (voortgang e.d.)
    Voldoende: .70 ≤ rxx ≤ .90 goed: rxx ≥ .80
  • Testgebruik voor onderzoek op groepsniveau
    Voldoende: .60 ≤ rxx ≤ .70 goed: rxx ≥ .70

Invloeden op de betrouwbaarheid

  1. Lengte van de test:
    Een langere test is betrouwbaarder. 
    Spearman brown formule
  2. Samenstelling van de groep:
    Heterogene groep geeft een hogere betrouwbaarheid dan homogene groep.
    page4image316611552
  3. Tijdslimiet
    Stel je hebt een groot aantal goed-fout items, dan is er bij tijdgebrek meer overeenkomst in antwoorden van niet gemaakte items. Dit leidt tot een overschatting van de betrouwbaarheid. Er zijn twee verschillende soorten:
    • Speedtest (zo snel mogelijk)
    • Powertest (zo goed mogelijk)

Standaardmeetfout ( σE )

  • Spreiding toevallige meetfout bij oneindig aantal replicaties
  • Indicatie voor hoe precies je meet; hoe kleiner standaardmeetfout hoe preciezer de meting
  • Met σE betrouwbaarheidsinterval afleiden voor ware score
    page4image316611824

Te schatten met:

page4image316612096

Intervalsschatting:

page4image316612560

SE = standaardmeetfout
1/2α = halve betrouwbaarheid

Image

Access: 
Public

Image

Join: WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check: concept of JoHo WorldSupporter

Concept of JoHo WorldSupporter

JoHo WorldSupporter mission and vision:

  • JoHo wants to enable people and organizations to develop and work better together, and thereby contribute to a tolerant and sustainable world. Through physical and online platforms, it supports personal development and promote international cooperation is encouraged.

JoHo concept:

  • As a JoHo donor, member or insured, you provide support to the JoHo objectives. JoHo then supports you with tools, coaching and benefits in the areas of personal development and international activities.
  • JoHo's core services include: study support, competence development, coaching and insurance mediation when departure abroad.

Join JoHo WorldSupporter!

for a modest and sustainable investment in yourself, and a valued contribution to what JoHo stands for

Check: more related
Grondslagen van de Psychologische Diagnostiek en Testtheorie - Hoorcollege aantekeningen 15/16
Check: how to help
Share: this page!
Follow: Britt van Dongen (author)
Add: this page to your favorites and profile
Statistics
2492
Submenu & Search

Search only via club, country, goal, study, topic or sector