Hoorcollege 3: Betrouwbaarheid (testtheorie) - Grondslagen van psychologische diagnostiek en testtheorie (GPDTT) aan de Universiteit Utrecht

Puntschatting: een testscore van meetinstrument. Deze score is niet perfect, je kan beter intervalschatting gebruiken om de onnauwkeurigheid in de schatting mee te nemen.

Om een intervalschatting te krijgen heb je een schatting van de betrouwbaarheid nodig.

Theoretisch construct: abstract kenmerk, eigenschap, variabele, concept, begrip, trait or state

Klassieke meetmodel: een testscore X wordt bepaald door de ware score T en door de toevallige meetfout E --> X = T + E

Een testscore (X) komt tot stand door systematische invloeden (het theoretisch construct dat de test wil meten + systematische meetfout (bijvoorbeeld sociale wenselijkheid) en door toevallige invloeden. Dus twee soorten meetfouten: systematische meetfout en toevallige meetfout.

Een score is betrouwbaar bij afwezigheid van toevallige meetfout. Een score is valide bij afwezigheid van toevallige meetfout én systematische meetfout.

Als iemand oneindig vaak dezelfde test uitvoert ontstaat er uiteindelijk een normaalverdeling met een gemiddelde (is gelijk aan de ware score T) en een standaardafwijking σ (is gelijk aan de standaardmeetfout σ_E).

De standaardmeetfout σ_Eis de spreiding van de toevallige meetfout en geeft een indicatie van de nauwkeurigheid van de meting. Is identiek voor alle individuen bij hetzelfde meetinstrument. Hiermee kan je het betrouwbaarheidsinterval berekenen.

Eigenschappen van meetfout E:

Bij replicaties geldt E=0.
In populaties correleert de meetfout niet met de ware score: de meetfout komt alleen door toevallige invloeden tot stand.
De meetfout van verschillende tests correleert niet.

Testvariantie (S²_X) = ware scorevariantie (S²_T) + errorvariantie (S²_E) + 2x de covariantie (2S_TE)

Betrouwbaarheid (r_xx’) = S²_T / (S²_T + S²_E )

Bronnen van toevallige meetfouten kan de inhoud zijn (verschil items op steekproef en domein van items; content sampling error) en de tijd (tijdstip heeft invloed op resultaat; time sampling error).

De betrouwbaarheid kan geschat worden door middel van:

Test-hertest: correlatie tussen testafname X1 en X2. Nadelen: leereffect (carryover effects), kort tijd tussen afnames (herinnering, ervaring), lange tijd tussen afnames (wijziging ware scores).
Paralleltest betrouwbaarheid: correlatie tussen parallele tests X en X’ (X’ is vergelijkbaar met, maar verschillend van X). Nadelen: parallelle test zijn moeilijk te realiseren.
Split-half methode: gecorrigeerde correlatie tussen testhelften. Nadelen: test moeilijk in twee delen te splitsen, een andere tweedeling levert een andere schatting. Oplossing: met computer gemiddelde van alle splitsingen nemen

Bij testverlenging of testverkorting kan met parallelle items een schatting van de betrouwbaarheid gegeven worden volgens de Spearman-Brown formule. De verlengingsfactor bereken je met nieuwe aantal items/ oude aantal.

Kuder-richardson formule 20: met de kuder-richardson formule 20 kan je voor dichotome items (1=goed, 0=fout) en voor homogene set van items (eendimensionaal) een betrouwbaarheidsschatting maken. Je hoeft niet met deze formule te rekenen, alleen weten welke dingen nodig zijn om de betrouwbaarheid te bepalen: dit zijn het aantal items (k), de proportie goede antwoorden (p), proportie fouten antwoorden (q) en de variantie van de testscores (S²_X).
Cronbach’s alfa: voor items met meer dan twee categorieën. In de formule moet het aantal items, de som van de afzonderlijke itemvarianties en de variantie van de testscores ingevuld worden. Kan geïnterpreteerd worden als het gemiddelde van alle split-half betrouwbaarheden en ondergrens voor schatting betrouwbaarheid.Alfa=.80 betekent dat minimaal 80% van variantie in testscores wordt veroorzaakt door variantie in ware scores.

De COTAN beoordeelt als volgt:

Individueel belangrijk niveau – Voldoende: .80 < r_xx’ < .90. Goed: r_xx’ > .90
Individueel minder belangrijk niveau - Voldoende: .70 < r_xx’ < .80. Goed: r_xx’ > .80
Groepsniveau - Voldoende: .60 < r_xx’ < .70. Goed: r_xx’ > .70

Invloeden van betrouwbaarheid zijn de lengte van de test (hoe langer, hoe betrouwbaarder), de samenstelling van de steekproef (hoe meer spreiding, hoe betrouwbaarder) en het tijdslimiet ( bij tijdsgebrek worden niet alle items beantwoord; dan zijn de split-halfmethode, KR20 en Cronbach’s alpha niet geschikt).

Access:

Public

Verzekeren bij een faire en solidaire zorgverzekeraar?

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check: concept of JoHo WorldSupporter

Concept of JoHo WorldSupporter

JoHo WorldSupporter mission and vision:

JoHo wants to enable people and organizations to develop and work better together, and thereby contribute to a tolerant tolerant and sustainable world. Through physical and online platforms, it support personal development and promote international cooperation is encouraged.

JoHo concept:

As a JoHo donor, member or insured, you provide support to the JoHo objectives. JoHo then supports you with tools, coaching and benefits in the areas of personal development and international activities.
JoHo's core services include: study support, competence development, coaching and insurance mediation when departure abroad.