BulletPointsamenvatting per hoofdstuk bij de 3e druk van Psychometrics: An Introduction van Furr - Chapter

Wat omvat de psychometrie allemaal? - BulletPoints 1
Wat is belangrijk bij het toekennen van cijfers aan psychologische eigenschappen? - BulletPoints 2
Wat betekenen variabiliteit en covariabiliteit? - BulletPoints 3
Wat is test dimensionaliteit en wat is factor analyse? - BulletPoints 4
Wat houdt het basisbegrip betrouwbaarheid in? - BulletPoints 5
Hoe kunnen empirische schattingen van de betrouwbaarheid worden gedaan? - BulletPoints 6
Wat is het belang van betrouwbaarheid? - BulletPoints 7
Wat is validiteit? - BulletPoints 8
Hoe kun je bewijs voor convergente en discriminante validiteit evalueren? - BulletPoints 9
Welke soorten reactiebias zijn er? - BulletPoints 10
Welke soorten test bias zijn er? - BulletPoints 11
Hoe ziet een confirmatieve factor analyse eruit? - BulletPoints 12
Wat stelt de "generalizability theory" (G theorie)? - BulletPoints 13
Wat stelt de Item Response Theorie (IRT) en welke modellen zijn er? - BulletPoints 14

Wat omvat de psychometrie allemaal? - BulletPoints 1

Volgens Cronbach is een psychologische test een systematische procedure voor het vergelijken van het gedrag van twee of meer mensen. Deze test moet aan drie voorwaarden voldoen: (1) de test moet gedragssteekproeven hebben; (2) de gedragsteekproeven moeten verzameld worden op een systematische manier en; (3) het doel van de test moet zijn om het gedrag van twee of meer mensen te meten (inter-individuele verschillen). Ook kan het zo zijn dat we het gedrag van een individu op verschillende tijdstippen meten, in dat geval spreken we van intra-individuele verschillen.
Criterium referent-testen (ook wel domein referent testen genoemd) komen het meest voor in situaties waar er een uitspraak moet worden gedaan over een bepaalde vaardigheid van een persoon. Eén van te voren vastgestelde cutoff score wordt gebruikt om mensen in twee groepen in te delen: (1) mensen wiens score hoger is dan de cutoff score en; (2) mensen wiens score lager is dan de cutoff score.
Norm referent-testen worden voornamelijk gebruikt om de scores van een persoon te vergelijken met scores uit de normgroep. Er is tegenwoordig moeilijk onderscheid te maken tussen criterium referent-testen en norm referent-testen.
Een ander bekend onderscheid tussen testen is het onderscheid tussen de zogenaamde speed testen (snelheid) en power testen. Speed testen zijn tijdsgebonden testen. Het komt hierbij vaak voor dat men niet alle vragen kan beantwoorden in een vragenlijst. Hierbij wordt gekeken hoeveel vragen men correct kan beantwoorden in de gegeven tijd. Powertesten zijn geen tijdsgebonden testen. Hier is het hoogst waarschijnlijk dat men alle vragen kan beantwoorden in een vragenlijst. Deze vragen worden vaak steeds moeilijker en hier wordt gekeken hoeveel vragen men correct beantwoord heeft.
Psychometrie is de verzameling van procedures die gebruikt worden om variabiliteit te meten in het menselijk gedrag en deze metingen vervolgens te combineren tot psychologische fenomenen. De psychometrie is een relatieve jonge, maar snel ontwikkelende wetenschappelijke discipline.

Wat is belangrijk bij het toekennen van cijfers aan psychologische eigenschappen? - BulletPoints 2

Er zijn twee potentiële betekenissen van nul. Nul kan de betekenis hebben dat het object of de persoon niet bestaat (absolute nul). Dit is bijvoorbeeld bij de reactietijd. Nul kan ook een arbitraire hoeveelheid zijn van een eigenschap (arbitraire nul). In dit geval kan men denken aan een klok of thermometer. Het is belangrijk om te kijken of de nul in een psychologische test relatief of absoluut is. Het kan voorkomen dat de test nul aangeeft terwijl de persoon die eigenschap wel heeft. Dan kan je het opvatten als een relatieve nul terwijl het eerst als absolute nul bedoeld was. Identiteit, rangorde, kwantiteit en de betekenis van nul vormen belangrijke zaken bij het begrijpen van scores op psychologische testen.
Meten is het toevoegen van cijfers aan observaties van gedrag om duidelijk de verschillen te kunnen zien tussen psychologische eigenschappen. Er zijn vier meetniveau’s, ofwel vier schalen: nominaal, ordinaal, interval, en ratio.

Wat betekenen variabiliteit en covariabiliteit? - BulletPoints 3

Scores van een groep mensen of scores van één persoon op verschillende tijdstippen kun je kwantitatief weergeven in een zogenaamde distributie van scores. Een distributie van scores is kwantitatief, omdat de verschillen tussen scores in cijfers worden uitgedrukt. Het verschil tussen scores binnen een distributie wordt de variabiliteit genoemd.
Bij een variantie wordt het verschil binnen één set van scores berekend. Bij een covariabiliteit, ook wel covariantie genoemd, wordt het verschil van een set van scores vergeleken met het verschil van een andere set van scores. Ofwel: bij een covariantie wordt gezocht naar de relatie tussen twee variabelen, bijvoorbeeld IQ en GPA. Bij een variantie wordt er één variabele gebruikt.
De richting van de relatie tussen de twee variabelen kan een positieve of een negatieve samenhang hebben. Er is sprake van een positief (of direct) verband wanneer er op een moment hoge scores bij de eerste variabele en hoge scores bij de tweede variabele voorkomen. Er is sprake van een negatief verband wanneer er op een moment hoge scores bij de eerste variabele en lage scores bij de tweede variabele voorkomen. Dit kan ook omgekeerd, dus lage scores op de eerste variabele en hoge scores op de tweede variabele.

Wat is test dimensionaliteit en wat is factor analyse? - BulletPoints 4

Wanneer een psychologische test items bevat die één enkele karaktertrek van een persoon reflecteren, en de reacties niet beïnvloed zijn door andere karaktertrekken van die persoon, dan betekent dit dat de test eendimensionaal is. Het begrip conceptuele homogeniteit betekent dat alle reacties op de items/vragen beïnvloed worden door één en dezelfde psychologische karaktertrek.
Wanneer een psychologische test items bevat die meer dan één karaktertrek van een persoon reflecteren, dan is de test onder te verdelen in dimensies (multidimensionaal). Deze dimensies zijn multidimensionaal met correlerende dimensies of multidimensionaal zonder correlerende dimensies.
Factoranalyse is de meest gebruikte statistische procedure om dimensionaliteit te meten en testen. Er zijn twee typen factoranalyse: exploratieve factoranalyse (EFA) en confirmatieve factoranalyse (CFA). EFA is het type dat het vaakst gebruikt wordt.

Wat houdt het basisbegrip betrouwbaarheid in? - BulletPoints 5

Volgens de Klassieke Testtheorie (KTT) kan de betrouwbaarheid worden bepaald aan de hand van geobserveerde scores (Xo), ware scores (Xt), en willekeurige scores (Xe). Willekeurige scores worden ook wel meetfouten (measurement errors) genoemd.
R_xx (betrouwbaarheidscoëfficiënt) = S_t² / S_o²
R_xx = 0 betekent dat iedereen dezelfde ware score heeft. (S_t² = 0)
R_xx = 1 betekent dat de variantie van de ware scores gelijk is aan de variantie van de geobserveerde scores. Ofwel: er zijn geen meetfouten!
Hoe groter de correlatie tussen de geobserveerde scores en de error scores, des te kleiner is R_xx. Dus betrouwbaarheid zal relatief hoog zijn als de geobserveerde scores een lage correlatie hebben met de error scores.
Een betrouwbaarheid van 1.0 geeft aan dat de verschillen tussen de geobserveerde test scores perfect overeenkomen met de verschillen tussen de ware scores. Een betrouwbaarheid van 0.0 geeft aan dat de verschillen tussen de geobserveerde scores en de ware scores totaal tegenstrijdig zijn.
Hoewel we inderdaad niet met zekerheid kunnen bepalen wat de betrouwbaarheid of standaard meetfout van een test is, zijn er wel geavanceerde methoden ontwikkeld om deze te schatten. Voorbeelden van dergelijke technieken zijn het geven van twee versies van de test, dezelfde test twee keer afnemen, enzovoort. In deze sectie worden vier methoden besproken om de betrouwbaarheid en standaard meetfout van een test te schatten: (1) parallelle testen; (2) het tau-equivalente test model; (3) essentially tau-equivalente test model; (4) congenerisch (congeneric) test model. Ieder model biedt een perspectief op hoe twee of meer tests gelijk zijn aan elkaar.

Hoe kunnen empirische schattingen van de betrouwbaarheid worden gedaan? - BulletPoints 6

Er zijn drie methoden om de betrouwbaarheid te schatten: (1) paralleltest; (2) test-hertest; (3) interne consistentie.
De eerste methode om de betrouwbaarheid te schatten is de paralleltest. Bij de paralleltest zijn er twee testen: De test die men wilt uitvoeren waar scores uitkomen en een tweede test waar ook scores uitkomen. Met deze twee scores kan de correlatie tussen de test scores en de scores van de paralleltest berekend worden. De correlatie is dan te interpreteren als een schatter van de betrouwbaarheid. De twee testen zijn parallel als beide testen dezelfde set ware scores meten en als ze allebei evenveel errorvariantie hebben. De correlatie tussen de twee paralleltesten is gelijk aan de betrouwbaarheid van de testscores. Een praktisch probleem bij het gebruik van een paralleltest is dat men nooit zeker weet of de paralleltest kan voldoen aan de aannames van de klassieke testtheorie. We kunnen er nooit zeker van zijn dat de ware scores van de eerste vorm gelijk zullen zijn aan de ware scores van de parallelvorm. Verschillende testvormen hebben een andere inhoud wat dus problemen kan geven bij de paralleltest. Als de paralleltest niet goed overeenkomt met de eerste test dan is de correlatie geen goede schatter van de betrouwbaarheid.
De tweede methode om de betrouwbaarheid te schatten is de test-hertest methode. Deze methode is bruikbaar voor het meten van stabiele psychologische concepten zoals intelligentie en extraversie. Men kan dezelfde mensen dezelfde test meerdere keren laten uitvoeren. Als de aannames kloppen kan de correlatie berekend worden tussen de eerste scores en de herhaalde scores. Deze correlatie is dan de schatter van de test-hertest betrouwbaarheid. De toepasbaarheid van de test-hertest hangt af van een aantal aannames om een goede betrouwbaarheid te krijgen. Net zoals bij de paralleltest moeten de ware scores bij beide testen gelijk zijn. Ook moet de errorvariantie van de eerste test gelijk zijn aan de errorvariantie van de tweede test. Als aan deze aannames wordt voldaan dan kunnen we zeggen dat de correlatie tussen de scores van de twee testafnames een schatter is van de betrouwbaarheid van de score.
De derde methode om de betrouwbaarheid te schatten is de split-half betrouwbaarheid. De split-half betrouwbaarheid krijgt men wanneer men de test in tweeën opsplitst en de correlatie tussen de twee delen berekent. In dit geval heeft men er eigenlijk twee kleine paralleltestjes van gemaakt. Het proces om de split-half methode te gebruiken verloopt in drie stappen. De eerste stap is om de scores in tweeën te verdelen. De tweede stap is de correlatie tussen de twee delen te bereken. Deze split-half correlatie (r_hh) geeft de mate waarin de twee delen gelijk zijn aan elkaar weer. De derde stap is de correlatie in een formule stoppen om een schatting van de betrouwbaarheid (R_xx) te berekenen. Dit gebeurt met de Spearman-Brown formule: R_xx = 2*r_hh / 1 + r_hh.
De accuraatheid van alpha en omega hangt af van de validiteit van bepaalde assumpties. Samengevat komt het erop neer dat de alpha methode alleen accurate schattingen van de betrouwbaarheid heeft wanneer de items essentially tau-equivalent of parallel zijn (zie hoofdstuk 5 voor een bespreking van deze modellen). De omega is breder toepasbaar; de omega geeft ook accurate schattingen van de betrouwbaarheid voor congenerische tests.
Veel psychologische testen hebben binaire items (hierbij kan men kiezen uit twee antwoorden). Voor deze testen kan een speciale formule gebruikt worden om de betrouwbaarheid te schatten, namelijk de Kuder-Richardson 20 formule. Deze gaat aan de hand van twee stappen. Eerst worden alle statistieken verzameld. Dit zijn de proportie goed beantwoorde vragen (p) en de proportie fout beantwoorde vragen (q). Daarna wordt de variantie van elk item berekend met s_i² = pq en de variantie van alle testscores (s_x²). De tweede stap is deze statistieken in de formule van Kuder en Richardson (KR₂₀) te verwerken: R_xx = (k/k-1) * (1- (∑pq / s_x²))

Wat is het belang van betrouwbaarheid? - BulletPoints 7

Er zijn twee belangrijke bronnen van informatie die ons kunnen helpen bij het evalueren van een individuele testscore. De eerste is een puntschatter (point estimate), dit is een waarde die wordt geïnterpreteerd als de beste schatting van iemand zijn score op een psychologische eigenschap. De tweede is een betrouwbaarheidsinterval (confidence interval), deze geeft gebied met waardes waarin de ware score van een persoon ligt. Als de ware score een groot betrouwbaarheidsinterval heeft dan weten we dat de geobserveerde score een slechte puntschatter is van de ware score.
Volgens de klassieke testtheorie is de correlatie van de geobserveerde scores van twee metingen (r_xoyo) afhankelijk van twee factoren: de correlatie tussen de ware scores van de twee psychologische constructen (r_xtr_yt) en de betrouwbaarheden van de twee metingen(R_xx en R_yy).
Doordat de meetfout de geobserveerde correlatie omlaag haalt geeft dat nadelen voor het interpreteren en het leiden van het onderzoek. Resultaten moeten altijd geïnterpreteerd worden met hulp van de betrouwbaarheid. Een belangrijk resultaat van een onderzoek is de effectgrootte. Sommige effectgroottes laten zien in welke mate de variabelen met elkaar samenhangen en anderen laten de grootte van de verschillen tussen groepen zien.
Een tweede belangrijk resultaat van een onderzoek is statistische significantie. Statistische significantie geeft zekerheid van een resultaat. Als een resultaat statistisch significant is dan wordt het gezien als een echte vondst en niet gewoon een toevalstreffer. Bij statistische significantie wordt er een duidelijk verschil aangetoond. Het geobserveerde effect heeft een grote invloed op de statistische significantie. Wanneer de effectgrootte groter wordt, dan is de test eerder statistisch significant. De derde implicatie van het meerekenen van betrouwbaarheid is dat onderzoekers betrouwbaarheidsschattingen van hun metingen zouden moeten rapporteren. Dit is nodig omdat de lezers de resultaten moeten kunnen interpreteren.

Wat is validiteit? - BulletPoints 8

Meer dan 60 jaar lang ging men uit van de volgende basis definitie van validiteit: Validiteit is de mate waarin een test meet wat het beoogd te meten. Hoewel deze definitie erg veel gebruikt is, en nog steeds wordt, wordt het concept van validiteit iets te simpel voorgesteld middels deze definitie. Een betere defintie zou zijn dat validiteit de mate is waarin de interpretatie van test scores voor een bepaald doeleinde wordt ondersteund door bewijs en theorie.
Validiteit heeft drie belangrijke implicaties. (1) Validiteit heeft betrekking op de interpretatie van test scores betreffende een specifiek psychologisch construct, het gaat niet om de test zelf. Dit betekent dus dat een meting niet valide of niet-valide is, maar dat validiteit betrekking heeft op de interpretatie en het gebruik van metingen. (2) Validiteit is een kwestie van graad, het is niet een "alles of niets" construct. (3) Validiteit is volledig gebaseerd op empirisch bewijs en theorie.
Jarenlang was er een traditioneel perspectief betreffende validiteit, waarbij er drie typen validiteit werden onderscheiden: (1) inhoudsvaliditeit (content validity); (2) criterium validiteit (criterion validity); (3) construct validiteit (construct validity). Tegenwoordig wordt construct validiteit als het essentiële concept in validiteit gezien. Construct validiteit is de mate waarin een test score geïnterpreteerd kan worden als reflectie van een bepaald psychologisch construct.
Drie belangrijke organisaties (AERA, APA, en NCME) hebben in 2014 een revisie gepubliceerd van Standards for Educational and Psychological Testing waarin ze vijf facetten van construct validiteit benadrukken. Construct validiteit wordt bepaald door vijf typen informatie: (1) inhoud; (2) interne structuur; (3) respons proces; (4) associaties; (5) consequenties.

Hoe kun je bewijs voor convergente en discriminante validiteit evalueren? - BulletPoints 9

Voor het kijken naar convergente en discriminante associaties zijn er vier methodes. De volgende vier methodes zijn gebruikelijke methodes om de convergente validiteit en de discriminante validiteit te evalueren: (1) focus op bepaalde associaties; (2) correlatiesets; (3) multitrait-multimethode matrixen; (4) kwantificeren van de constructvaliditeit (QCV).
Validiteitscoëfficiënten zijn statische resultaten die de mate van associate tussen een test en één of meer criterium variabelen weergeven. Het is belangrijk om op de hoogte te zijn van de factoren die de validiteitscoëfficiënten kunnen beïnvloeden.
Gevoeligheid en specifiekheid worden gebruikt om de proporties van goede identificaties samen te vatten. De gevoeligheid (sensitivity) laat de kans zien dat iemand met een stoornis correct geïdentificeerd wordt door de test. Specifiekheid (specificity) laat de kans zien dat iemand die de stoornis niet heeft correct geïdentificeerd wordt door de test. In werkelijkheid kan men nooit weten of iemand een stoornis heeft, maar het is een richtlijn die vertrouwd wordt. Beide begrippen zullen we illustreren met een voorbeeld.
Gevoeligheid = ware positieven / (ware positieven + onware negatieven).
Specificiteit = ware negatieven / (ware negatieven + onware positieven)

Welke soorten reactiebias zijn er? - BulletPoints 10

Bewust of onbewust, coöperatief of niet, zelfverbeterend of juist zichzelf wegcijferend, reactiebias (Engels: response bias) speelt een constante rol in psychologische metingen. Reactiebias houdt in dat reacties van respondenten de kwaliteit van de psychologische meting (negatief) beïnvloeden. Bias betekent het vooroordeel of de vooringenomenheid van reacties/uitkomsten, die vaak niet kloppen.
Er zijn verschillende types van de reactiebias, elk type wordt beïnvloed door andere factoren (de inhoud/opzet van een test, de test context, bewuste mogelijkheden om op een ongeldige manier te reageren, onbewuste factoren, enzovoort). Deze factoren leidden tot zes typen reactiebias: (1) acquiescence bias (ja-zeggen en nee-zeggen); (2) extreme (vs. gemiddelde) reacties; (3) sociale wenselijkheid ("faking good); (4) simulatie ("faking bad"); (5) willekeurig of zorgeloos reageren; (6) gokken.
Er zijn globaal drie strategieën te onderscheiden voor het omgaan met reactiebias: (1) Managen van de test context; (2) Managen van de test inhoud en/of scores; (3) Gebruik maken van speciaal ontworpen ‘bias’-testen.
Daarnaast kunnen we drie doelen onderscheiden bij het omgaan met reactiebias: (1) Minimaliseren van het ontstaan van reactie bias; (2) Minimaliseren van de effecten van reactie bias; (3) Ontdekken van reactie bias, eventueel ingrijpen.
Deze strategieën en doelen kunnen worden gecombineerd om zo verschillende methoden voor reactiebias samen te vatten.
Strategie 1 + doel 1 = anonimiseren, minimaliseren frustratie, waarschuwingen
Strategie 2 + doel 1 = simpele items, neutrale items, gedwongen keuzes, minimale keuze
Strategie 2 + doel 2 = gebalanceerde schalen, kans correcties
Strategie 2 + doel 3 = ingebedde validiteitsschalen
Strategie 3 + doel 3 = sociale wenselijkheid tests, extremiteitstests, acquiescence tests

Welke soorten test bias zijn er? - BulletPoints 11

Er zijn globaal twee soorten test bias te onderscheiden: construct bias en voorspellende bias. Construct bias: bias wat betreft de betekenis van een test. Voorspellende bias: bias wat betreft de bruikbaarheid van een test. Deze twee soorten test bias zijn onafhankelijk van elkaar. Ofwel, de ene bias kan zonder de andere bias bestaan in een bepaalde test.
Hoewel er een verschil is in test scores tussen twee groepen, betekent dit niet meteen dat er sprake is van een test bias. Misschien is het verschil wel gebaseerd op de werkelijkheid. Bijvoorbeeld: wanneer uit een test komt dat het gewicht van mannen gemiddeld hoger ligt dan het gewicht van vrouwen, dan is dit gebaseerd op de werkelijkheid. Maar je kunt je twijfels hebben wanneer het over wiskundevaardigheden gaat. Bijvoorbeeld, het is niet logisch gezegd dat de wiskundevaardigheden van mannen hoger liggen dan de wiskundevaardigheden van vrouwen.
Om erachter te komen of er sprake is van een construct bias, gebruiken we interne structuren. Deze bevatten een patroon van correlaties tussen items onderling en/of correlaties tussen elk item en de totale score. Evaluatie gaat als volgt: we vergelijken de interne structuren voor een test gescheiden voor twee groepen. Als de twee groepen dezelfde interne structuren vertonen wat betreft hun testreacties, dan kunnen we concluderen dat de test niet lijdt aan construct bias. Andersom, als de twee groepen wel verschillen in interne structuren wat betreft de testreacties, dan is er wel sprake van construct bias. Er zijn vijf methoden om construct bias te ontdekken: (1) Betrouwbaarheid; (2) Rangorde (rank order); (3) Item discriminatie index; (4) Factor analyse; (5) Differentiële item functie analyse.
Om de voorspellende bias te ontdekken, is een externe evaluatie van de test nodig. Twee overwegingen hierbij zijn: (1) Helpt de test je werkelijk de uitkomst te voorspellen? (2) Voorspelt de test de uitkomst gelijkmatig voor verscheidene groepen? Dit kunnen we onderzoeken aan de hand van regressieanalyse.
Test bias is niet hetzelfde als test fairness. Test fairness heeft te maken met een passend gebruik van testscores, op het gebied van sociale en/of wettelijke regels en dergelijke. Test fairness is geen psychometrisch aspect van een test. Test bias daarentegen is wel een psychometrisch concept, ingebed in theorie over test score validiteit. Test bias wordt gedefinieerd aan de hand van specifieke statistische en onderzoeksmethoden, die de onderzoeker in staat stellen om beslissingen te nemen over de test bias. Beide zijn belangrijk voor psychologisch testen.

Hoe ziet een confirmatieve factor analyse eruit? - BulletPoints 12

Er zijn twee soorten factor analyse: exploratory factor analysis (EFA) en confirmatory factor analysis (CFA). Deze twee soorten factor analyse zijn het meest geschikt voor verschillende fasen van test ontwikkeling en evaluatie. EFA is het meest geschikt voor de eerste fasen van testgebruik (het verduidelijken van het construct en de test). CFA is het meest geschikt in latere fasen van testgebruik, na de initiële evaluaties van item eigenschappen en dimensionaliteit en na grote revisies van de testinhoud (dus wanneer de testinhoud zo goed als vastligt). Confirmatieve factoranalyse (CFA) wordt gebruikt om de dimensionaliteit van een test te onderzoeken wanneer er al hypotheses zijn over het aantal onderliggende factoren (dimensies), de verbindingen tussen items en factoren, en de samenhang van de factoren.
Het uitvoeren van een CFA bestaat uit vier stappen: (1) specificatie van het meetmodel; (2) berekeningen; (3) interpreteren en rapporteren van de uitkomsten; (4) model wijzigingen en nieuwe analyse (indien nodig). Deze vier stappen worden hieronder besproken.
Measurement invariance kan in kaart worden gebracht met CFA door groepen te vergelijken in termen van specifieke parameters (zoals de lambda, de theta, enzovoort) van meetmodellen. Wanneer groepen verschillende waardes hebben voor een parameter, dan is dit bewijs voor een gebrek aan invariantie voor de parameter (en dus bewijs voor een bepaalde mate van construct bias, omdat de parameters verschillen tussen groepen). De mate waarin er verschillen zijn, kunnen worden samengevat in vier verschillende levels van measurement invariance: (1) configural; (2) weak/metric; (3) strong/scalar; (4) strict. Kortom, hoe groter het verschil, des te minder robuust de test is voor measurement invariance (het eerste level is dus het zwakste, minst robuuste level).

Wat stelt de "generalizability theory" (G theorie)? - BulletPoints 13

De Generalizability Theory (G theorie) helpt ons om de effecten van meerdere facetten te onderscheiden en om vervolgens verschillende meetstrategieën te gebruiken. Het is een ideaal raamwerk voor complexe meetstrategieën waarin meerdere facetten de meetkwaliteit beïnvloeden. Dit is een fundamenteel verschil in vergelijking met de klassieke testtheorie (KTT), waar er niet wordt uitgegaan van verschillende facetten.
De G theorie kan gebruikt worden voor meerdere soorten analyses, maar een basis psychometrische analyse bestaat uit een proces met twee fases: de G studie en de D studie. In de eerste fase worden de variantie componenten geschat. Bij zo een studie worden factoren geïdentificeerd die de geobserveerde variantie (en dus de generaliseerbaarheid) beïnvloeden. Deze fase wordt een G studie genoemd, omdat het gebruikt wordt om te identificeren in welke mate de verschillende facetten de generaliseerbaarheid zouden kunnen beïnvloeden. In de tweede fase worden de resultaten van fase één gebruikt om de generaliseerbaarheid van de verschillende combinaties van facetten te schatten. Deze fase is bekend als een D studie, omdat de fase gebruikt wordt om beslissingen te doen over toekomstige meetstrategieën.

Wat stelt de Item Response Theorie (IRT) en welke modellen zijn er? - BulletPoints 14

De Item Response Theorie (IRT) is een alternatief voor de klassieke test theorie (KTT). De IRT identificeert en analyseert de metingen in gedragswetenschappen. De reactie van het individu op een bepaald test item wordt beïnvloed door eigenschappen van het individu (trait level) en eigenschappen van het item (difficulty level).
Item discriminatie verwijst naar het onderscheiden van individuen in lage en hoge trait levels. De discriminatiewaarde van het item geeft de relevantie van het desbetreffende item aan ten opzichte van het trait level dat gemeten wordt.
- Positieve discriminatie ≥ 0 : relatie tussen item en trait (eigenschap) die gemeten wordt.
- Negatieve discriminatie ≤ 0: inconsistentie tussen item en trait.
- Discriminatiewaarde = 0: geen relatie tussen item en trait (eigenschap) die gemeten wordt door de test.
Het Rasch model (one-parameter logistic model) (=1PL) heeft alleen de eigenschappen van het individu en de eigenschappen van het item als componenten die de scores beïnvloeden.
Het twee-parameter model (2PL) heeft drie componenten die de scores beïnvloeden, namelijk de eigenschappen van het individu, de eigenschappen van het item en de item discriminatie.
In het drie-parameter model wordt ook de gokkans meeenomen. Het 3PL model kan worden gezien als een variatie op het 2PL model, waarbij één component is toegevoegd (de gokkans): c_iverwijst naar de ondergrenskans op het juist beantwoorden van item i. Volgens het 3PL model wordt de kans op een juist antwoord dus beïnvloed door: (1) de eigenschappen van het individu, i.e. het "trait level" Ө; (2) de item moeilijkheid β; (3) de item discriminatie α; (4) de "gok parameter".
Het Graded Response Model (GRM) is gemaakt voor testen e.d. waarbij meer dan twee antwoordmogelijkheden zijn. Net als bij de vorige modellen gaat dit model ervanuit dat de reactie van een persoon op een item beïnvloed wordt door het trait level van die persoon, item moeilijkheid en item discriminatie. Maar het GRM heeft verschillende moeilijkheidsparameters voor één item.

Access:

Public

Join WorldSupporter!

Join with a free account for more service, or become a member for full access and support of WordSupporter

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Search other summaries?

Associate with your Field of Study

Search Summaries or Notes

Start using Summaries

Add a Summary

Click & Go to related summaries or chapters

Study guide with Psychometrics: An introduction by Furr & Bacharach - 2023/2024

Study guide with Psychometrics: An introduction

Online summaries and study assistance with Psychometrics: An introduction on joho.org

More summaries and study assistance with Psychometrics: An introduction on worldsupporter.org

For summaries, bulletpoints, practice exams and glossaries
see the supporting content of this study guide with Psychometrics: An introduction by Furr & Bacharach

Prints & Pickup with Psychometrics through joho.org

Nederlandse printsamenvatting bij Psychometrics: An introduction
Pre-order and pickup or use the postal service
- Print- & Pickup shop Labyrint

Table of content (Inhoudsopgave)

Hoofdstuk 1 - Wat omvat de psychometrie allemaal?
Hoofdstuk 2 - Wat is belangrijk bij het toekennen van cijfers aan psychologische eigenschappen?
Hoofdstuk 3 - Wat betekenen variabiliteit en covariabiliteit?
Hoofdstuk 4 - Wat is test dimensionaliteit en wat is factor analyse?
Hoofdstuk 5 - Wat houdt het basisbegrip betrouwbaarheid in?
Hoofdstuk 6 - Hoe kunnen empirische schattingen van de betrouwbaarheid worden gedaan?
Hoofdstuk 7 - Wat is het belang van betrouwbaarheid?
Hoofdstuk 8 - Wat is validiteit?
Hoofdstuk 9 - Hoe kun je bewijs voor convergente en discriminante validiteit evalueren?
Hoofdstuk 10 - Welke soorten reactiebias zijn er?
Hoofdstuk 11 - Welke soorten test bias zijn er?
Hoofdstuk 12 - Hoe ziet een confirmatieve factor analyse eruit?
Hoofdstuk 13 - Wat stelt de generalizability theory (G theorie)?
Hoofdstuk 14 - Wat stelt de Item Response Theorie (IRT) en welke modellen zijn er?

Add new contribution

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams
Using and finding summaries, study notes en practice exams on JoHo WorldSupporter
Quicklinks to fields of study (main tags and taxonomy terms)

Online access to all summaries, study notes en practice exams

Check out: Register with JoHo WorldSupporter: starting page (EN)
Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)

Using and finding summaries, study notes en practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

Starting Pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
Use the menu above every page to go to one of the main starting pages
Tags & Taxonomy: gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
Follow authors or (study) organizations: by following individual users, authors and your study organizations you are likely to discover more relevant study materials.
Search tool : 'quick & dirty'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject. The search tool is also available at the bottom of most pages

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Check out: Why and how to add a WorldSupporter contributions
JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form

Quicklinks to fields of study (main tags and taxonomy terms)

Field of study

Access level of this page

Public
WorldSupporters only
JoHo members
Private

Statistics

1121