Collegeaantekeningen en Werkgroepen - Psychometrie - UL - 2014/2015

Bevat de college- en werkgroepaantekeningen week 1 t/m 7 van 2014/2015


HC 1: Schaling en Normering

02-09-2014 Marian Hickendorff

Psychometrie:

In de psychometrie bestudeert men de testscore. Hierbij gaat men van kwalitatief materiaal (antwoorden op testitems) naar kwantitatieve testscores. Daarbij stelt men zich de vraag wat de kwaliteit is van deze scores.

Psychologische eigenschappen zijn moeilijk te meten omdat ze een hele brede verscheidenheid hebben en omdat ze niet observeerbaar zijn. Toch willen we het graag meten en weten. Het psychologische construct dat niet observeerbaar is (de latente variabele) beïnvloedt het observeerbare gedrag. Om toch iets te weten te komen over het construct draaien we het om: het observeerbare gedrag (de operationele definities) vertelt iets over het onobserveerbare. Met behulp van deze redenering voert men psychologische testen uit.

Een psychologische test is eigenlijk een systematische gedragssteekproef. Met de uitkomsten kunnen we vergelijkingen maken, bijvoorbeeld tussen verschillende personen. Deze heten inter-individuele verschillen. Intra-individuele verschillen zijn vergelijkingen gemaakt tussen condities of tijdstippen binnen personen.

Testscores:

Met testscores bepalen we de kwaliteit van bepaalde items. De eisen voor kwaliteit zijn van groot belang voor psychologische testen. Belangrijk zijn hierbij de betrouwbaarheid en de validiteit. Bij betrouwbaarheid gaat het om de afwezigheid van toevalsmeetfouten en bij validiteit gaat het om de afwezigheid van systematische meetfouten (‘meet ik wel wat ik wil meten?’). Het is belangrijk om ervoor te zorgen dat een test zo betrouwbaar en valide mogelijk is. Daarnaast zijn er nog andere factoren die het moeilijk kunnen maken:

  • participantreactiviteit (de participanten weten dat ze in een onderzoek zitten en reageren daarom soms anders door sociaal gewenste antwoorden te geven, antwoorden te verzinnen/overdrijven of verwachtingen hebben over hun uitslag van de test en hiernaar antwoorden) en

  • expectation bias (verwachten dat jouw groep lager scoort en hiernaar antwoorden); scoresensitiviteit (de test heeft bijvoorbeeld soms niet de goede balans in schalen bij verschillende items). Daarnaast staat niet iedereen stil bij de kwaliteit van de toets (bijvoorbeeld een leraar die niet nadenkt over de kwaliteit van zijn proefwerk).

Schaling:

Schaling van testscores gaat om het bepalen van testscores of categorieën uit itemresponsen. Denk hierbij aan de verschillende meetniveaus (nominaal, ordinaal, interval en ratio). Zie hiervoor de tabel op dia 15.

De totaalscore en het gemiddelde zijn twee veel voorkomende schaalscores. De totaalscore is de som van de itemscores. Het gemiddelde is de totaalscore gedeeld door het aantal items.

Ruwe scores kunnen op zichzelf slecht worden geïnterpreteerd. De hoogte van een testscore is namelijk afhankelijk van het aantal items en de verschillende itemscores. Om de ruwe scores te interpreteren worden er normen gesteld. Voorbeelden van deze normen zijn percentiel- en standaardscores.

Percentielscores en standaardscores:
Bij percentielscores wordt gekeken naar een percentage personen met eenzelfde of een lagere score. Zie dia 22 voor de berekening van een percentielscore. De boeken zijn hier nog weleens verschillend in, maar deze regel wordt gehanteerd op het tentamen:
Standaardscores zijn het aantal standaarddeviaties in afwijking van het gemiddelde. De verdeling zal hierbij echter hetzelfde blijven. De ruwe scores kunnen worden omgezet naar Z-scores door middel van de volgende formule:

Zx = (X-Mx)/SDx

Waarbij geldt SDz = 1 en Mz = 0

Ook kunnen er T-scores worden uitgerekend. Deze zijn veel beter te begrijpen doordat er geen negatieve scores meer voorkomen. T-scores worden berekend met de volgende formule:

Tx = 10*Zx + 50

Waarbij geldt SDT = 10 en MT = 50

Normtabellen bevatten elke voorkomende ruwe score, geordend van laag naar hoog, gekoppeld aan normscores en eventueel met verwachtingen.

Er bestaan twee typen normen, namelijk normgerichte interpretatie en domeingerichte/criteriumgerichte interpretatie. Normgerichte interpretatie is een relatieve norm zoals het percentiel en de Z- en T-scores: de norm wordt aangepast aan de resultaten. De criteriumgerichte interpretatie is een absolute norm. Hierbij worden vaste standaarden of grensscores gehanteerd.

 

 

WG 1: Schaling en Normering

 

Opdracht 1

  1. Psychometrie is de studie naar procedures die gebruikt worden om psychologische fenomenen te meten. Deze psychologische fenomenen zijn vaak niet direct meetbaar. Bepaald gedrag van mensen wordt door een test gerelateerd aan deze achterliggende psychologische fenomenen.

  1. Een voorbeeld van een psychologische meting is het meten van de reactietijd. Dit is direct observeerbaar. Meten van persoonlijkheid is indirect observeerbaar.

  2. Een psychologische test is een systematische procedure om het gedrag van twee of meer mensen met elkaar te vergelijken op individueel niveau. De dimensies die hierbij van belang zijn volgens Furr & Bacharach (2008):

  1. Inhoud

  2. Soort response (open/gesloten)

  3. Methode van afname (individueel/groep)

  4. Gebruiksdoel (criterium of norm; bij criterium wordt er gekeken naar een vast punt en bij de norm naar het gemiddelde. Bij criterium kan iedereen een ‘winnaar’ zijn.

  5. Tijdslimiet (speeded test/powertest)

De IQ test is een voorbeeld van: norm-referenced en power.

4. Differentiële psychologie houdt zich bezig met de verschillen tussen mensen. O&O en KLIG houden zich hier veel mee bezig, bij hun staat het individu centraal. Bij COG en S&O staan de wetmatigheden meer centraal en speelt differentiële psychologie een minder grote rol.

  1. Meten is het toekennen van getallen aan gedrag of gebeurtenissen De betekenis van deze getallen hebben betrekking tot het psychologische fenomeen. Schalen is het toekennen van waarden aan psychologische attributen, ofwel meetniveaus. Hierbij betekent de afstand tussen getallen iets.

    1. Nominaal; Identiteit van de categorie, welke wederzijds uitsluitend en exclusief moeten zijn. (bv. sekse)

    2. Ordinaal: Nominaal + rangorde (bv. opleidingsniveau)

    3. Interval: Ordinaal + kwantiteit van de rangorde. Dus 3-2 = 8-7. (bv. temperatuur)

    4. Ratio: Interval + vast nulpunt. Dus 6*2 = 12. (bv. lengte)

  2. + g en h

 

 

Interval

Binaire scores

Gestandaardiseerde scores

Univariaat:

 

 

 

Gemiddelde

Xgem = (∑X)/N

Xgem = (∑X)/N = p

Zgem = 0

Sum of squares

∑(X-Xgem)2

N*p*(p-1)

∑Z2 = N

Variantie

S2 = (∑(X-Xgem)2)/N

S2 = p*(p-1)

S2 =1

Standaarddeviatie

S= √(variantie)

 

S =√(variantie)

S = 1

Bivariaat:

 

 

 

Crossproduct

Cp = ∑(X-Xgem)(Y-Ygem)

 

 

 

Covariantie

Covxy = (∑(X-Xgem)(Y-Ygem))/N

 

 

Correlatie

Covxy/(SxSy)

 

 

 

Opdracht 2

  1. De codes van de tien vormen van necrofilie uit het artikel van Aggrawal (2009), voldoen niet helemaal aan een nominale schaal. Niet alle categorieën zijn namelijk wederzijds uitsluitend; dat betekent dat een persoon in meerdere categorieën zou ingedeeld kunnen worden. Ook is er geen sprake van wederzijde uitputting.

 

  1. Er is een klein beetje sprake van een ordinale schaal. Er is wel ordening in de codes, maar dit zijn veel verschillende soorten. Bovendien stellen we bij a) dat het geen nominale schaal is en dit is een voorwaarde voor de ordinale schaal.

 

  1. Als er een nul zou bestaan zou dat een absolute nul zijn: afwezigheid van necrofilie. Deze vraag is alleen relevant wanneer we te maken hebben met een ratio-schaal. De afstand tussen de schalen is niet hetzelfde.

 

Opdracht 3

  1. De categorieën zijn niet wederzijds uitsluitend en ook niet uitputtend.

  2. Er is sprake van een soort ordening, maar er is geen sprake van een ordinale schaal omdat er ordening is in heel veel verschillende aspecten (frequentie, intensiteit, wanhoop)

 

  1. Er is waarschijnlijk geen interval schaal. Beoordelingsonderzoek laat ongelijke intervallen zien.

 

  1. Geen ratioschaal, want er is ook geen intervalschaal.

 

Opdracht 4

  1. De schaalscore is het aantal correcte items (0-8, dus 9). Het meetniveau is zeker ordinaal, en hopelijk interval.

  2. Hieronder volgt een berekening van normscores uit de Tabel 3.1(p 34) van Furr & Bacharach (2008).

Z(x) = ((ruw-M)/S)

T(x) = (10x ((ruw-M) /s) + 50

  1. Relatieve normen, er wordt namelijk vergeleken met het gemiddelde van de groep.

  2. Absoluut, want het gaat om een vast aantal dat los van de groep staat.

  3. 5.5 op absolute norm. Relatief behoort hij tot de laagste 43%.

 

Opdracht 5

 

IQ ruw

%

Z

T

90

16,7%

-1.54

34.6

100

33,3%

-0.77

42.3

110

66,6%

0

50

120

83,3%

0.77

57.7

130

100%

1.54

65.4

 

 

HC 2: Betrouwbaarheid

09-09-2014 Peter de Heus

Betrouwbaarheid is te beschrijven aan de hand van de vraag ‘In hoeverre zijn verschillen in testscores een functie van werkelijke individuele verschillen?’ Testen kunnen nooit de werkelijke score meten, zij geven alleen de testscore weer. Bij de test ontstaan namelijk ook random meetfouten, welke errors genoemd worden.

In de klassieke testtheorie wordt hiervoor de volgende formule weergeven.
Xo = Xt + Xe. Waarbij de geobserveerde score (Xo) de optelling is van de ware score (Xt) en de error (Xe).

De ware score (Xt) is dus niet direct observeerbaar. Daarom wordt dit een latente variabele genoemd, welke geschat moet worden.

Aan de klassieke testtheorie zitten drie assumpties vast. Aangezien Xo de som is van twee onbekende factoren, wat onoplosbaar is, geldt:

  1. µe = 0. De gemiddelde errorscore in de populatie is nul.

  2. ret = 0. De correlatie tussen error en ware score is nul. Iedereen heeft een gelijke kans, de errors zijn dus ongecorreleerd met de ware scores.

  3. reiej = 0. De error van persoon 1 zegt niets over de error van persoon 2 en zijn dus niet gecorreleerd; volledig random.

De variantie van XO is SO 2 = ST2 + SE2. In de ideale test is ST2 gelijk aan SO 2 en zijn er dus geen random meetfouten gemaakt (SE2=0). In alle andere gevallen is er wel een error, welke negatief of positief kan zijn.

Betrouwbaarheidscoëfficiënt:

Rxx is de betrouwbaarheidscoëfficiënt, wat gelijk staat aan de proportie verklaarde variantie van XO door XT. Rxx = ST2/ SO 2 of Rxx = 1 – (SE2/ SO 2). Rxx zit tussen de nul en één, en is verder gelijk aan de gekwadrateerde correlatie rOT2 (oftewel: 1- roe2 ).

Aangezien ware scores, errors en varianties onbekend zijn, moeten voor het schatten van de betrouwbaarheid minstens twee observaties zijn gedaan per persoon. Dit kan gedaan worden met parallelle metingen.

Parallelle metingen:

Parallelle metingen zijn metingen waarbij de errors ongecorreleerd zijn en de varianties van de errorscores gelijk zijn. De metingen moeten ook dezelfde ware scores meten. Dit allemaal zodat alles wat meting X en Y gemeen hebben van de ware score komt. De correlatie tussen twee parallelle tests geeft een schatting voor de betrouwbaarheid van beide tests, want paralleltests hebben altijd dezelfde betrouwbaarheid.

Er zijn drie manieren van parallelle metingen: Alternate forms, test-hertest en split-half. Bij alternate forms zijn er twee verschillende test voor hetzelfde construct. Hierbij kan wel het carry-over effect ontstaan; test 1 beïnvloedt resultaat test 2, wat tot een overschatting van de betrouwbaarheid leidt. Een ander probleem is dat we nooit zeker weten of de tests werkelijk parallel zijn.
Bij test-hertest wordt dezelfde test twee keer afgenomen op een ander tijdstip, maar ook hier kunnen carry-over effecten optreden. Daarnaast is er het probleem dat mensen veranderen over tijd.
Bij split-half worden er in één test twee parallelle helften gemaakt. De betrouwbaarheid voor de hele test wordt vervolgens berekend met de Spearman-Brown formule.

N is in deze formule de factor waarmee een test vergroot of verkleind wordt, en dus niet het aantal items!

Er kunnen natuurlijk uitputtend veel tweedelingen worden gemaakt. Daarom kan er ook voor worden gekozen om alle items van de test als aparte test te zien. Er kunnen nu berekeningen worden uitgevoerd met de Cronbach’s alpha. Voor formules, zie de powerpoint op Blackboard.

Standaard meetfout:

De standaard meetfout kan men als volgt berekenen: SE2 = SO 2 * √(1-Rxx). De standaard meetfout wordt vaak afgekort met Sem. Deze geeft de nauwkeurigheid van individuele metingen aan en is ook de standaarddeviatie van de error. Er wordt vaak ook een 95% betrouwbaarheidsinterval bij gegeven. Als de scores negatief zijn, zitten de ware scores onder het gemiddelde en vice versa.

Wanneer je hierbij ook rekening houdt met de regressie, gebruik je de volgende formule:

Deze schatting is preciezer, maar minder vaak gebruikt en het geeft geen betrouwbaarheidsinterval.

Kritische kijk op gebruikte aannames

We hebben enkele feiten aangenomen om Rxx te schatten, maar deze zijn niet altijd (helemaal) waar:

  • de drie CTT-aannames (µe = 0; ret = 0; = 0) – deze zijn in de praktijk niet altijd gelijk aan nul!

  • tau-equivalentie – in de praktijk meten de items van twee parallelle testen niet altijd precies dezelfde feiten: de testen zijn namelijk eigenlijk niet precies parallel te maken!

  • Identieke error varianties - in de praktijk zijn de varianties van twee parallelle testen niet precies hetzelfde: de testen zijn namelijk eigenlijk niet precies parallel te maken!

Deze kritiekpunten moeten we in ons achterhoofd houden bij het schatten van Rxx.

 

WG 2: Betrouwbaarheid van testscores

 

Opdracht 1

  1. Ware scores zijn onderdeel van de geobserveerde scores. Ware scores zijn latente variabelen en moeten worden geschat.

  2. In welke mate worden verschillen in test-scores veroorzaakt door echte verschillen tussen mensen?

  3. 1: de proportie verklaarde variantie van geobserveerde scores door ware scores. 2: gekwadrateerde correlatie tussen geobserveerde scores en ware scores.

  4. Standaard error of measurement is de standaarddeviatie van de error. Functie: geeft duidelijkheid over individuele metingen.

  5. Alternate forms = twee testen die hetzelfde meten. Test-retest = dezelfde test op verschillende momenten afnemen. Internal consistency = correlatie tussen delen van de test meten.

  6. De ware correlatie schatten als metingen perfect betrouwbaar zouden zijn.

 

Opdracht 2

  1. Rxx = 75/100 = 0,75

De bijbehorende formule is: Rxx = S2t / S2o = S2t / (S2t + S2e)

  1. De standaardmeetfout heeft te maken met error. Je kunt de standaard meetfout op twee manieren berekenen:

    1. So√1-Rxx = 10*√1-0.75 = 5

    2. √Se2 = √25 = 5

  2. Het 95% betrouwbaarheidsinterval voor Harry’s score:

100 – 1.96*5 < Xb < 100 + 1.96*5

90,20 < Xb < 109,80

De bijbehorende formule is: Xo +/- 1,96*Sem, Sem = So√1-Rxx

  1. De betrouwbaarheid van de test met een lagere ware score variantie:

So2 =85, Rxx = 60/85 = 0,71

  1. De betrouwbaarheid van de nieuwe test:

Se2= 15, 60/75 = 0,80 (kinderen), 75/90 = 0,83 (volwassenen)

 

Opdracht 3

  1. (2*0.5)/(1+0.5) = 0.667

  1. Alternate forms: Rxx = rxy = 0.50

  1. Discrepantie: Mogelijk zijn test X en Y niet parallel.

 

Opdracht 4

  1. (k/k-1)(1-((Σsi2)/(Sx2)) = 0.69

  2. (k/k-1)(1-((Σpiqi2)/(Sx2)) = 0.86

  3. (k*rii)/(1+(k-1)rii) = 0.77

(q = 1-p)

 

Opdracht 5

  1. K = 1: betrouwbaarheid 0.14

K= 2: betrouwbaarheid: 0,25

K = 8: betrouwbaarheid: 0,57

K = 16: betrouwbaarheid: 0,73

De bijbehorende formules zijn:

Rxxrevised = (n*Rxxoriginal)/(1 + (n-1) Rxxoriginal)

n = Krevised/ Koriginal

 

 

Opdracht 6

  1. De correlatie tussen onderliggende ware scores X en Y is 0,20/√0,7x0.8 = 0.27

 

  1. De maximale correlatie als Rx = 1 * √0,7x0.8 = 0,75

 

Opdracht 7

  • Betrouwbaarheid neemt toe bij een hogere gemiddelde inter-item correlatie (r).

Dit is aanvaardbaar wanneer alle items inhoudelijk verschillen maar wel dezelfde construct meten. Dit is onaanvaardbaar als telkens dezelfde items gemeten worden maar in net iets andere woorden.

  • Betrouwbaarheid neemt ook toe bij een groter aantal items.

Een groter aantal items is aanvaardbaar als de test ondanks een lage r wel een 1 dimensionale structuur heeft (als de errorvariantie per item groot is vergeleken met de ware-score variantie, maar wel volledig random). Dit is onaanvaardbaar als de test meerdimensionale structuur heeft.

Bijvoorbeeld een deel van de items (P) meet positieve gevoelens en een deel van de items (N) meet ontbreken van negatieve gevoelens. Ook als P-N correlaties nul zijn, is gemiddelde correlatie nog steeds positief (wegens positieve P-P en N-N correlaties) zo kan een groter aantal items ‘compenseren voor de gebruikte dimensionaliteit).

 

 

HC 3: Validiteit

16-09-2013 van Putten

 

Validiteit:

Bij validiteit kijken we of een instrument meet wat het beoogt te meten. Een test is valide in die mate dat er juiste, betekenisvolle en bruikbare gevolgtrekkingen mee gemaakt kunnen worden. Ofwel: in hoeverre is een test vrij van systematische fouten.

In het boek van Furr en Bacharach wordt validiteit besproken als de interpretatie en het gebruik van testscores in relatie tot bepaalde doelen. Validiteit gaat dus niet over de waarden op zich, maar over wat men hiermee doet (niet de test, maar de conclusies uit de test zijn valide of niet). Validiteit is multidimensionaal ( heeft meerdere eigenschappen) en gradueel (er is een bepaalde mate van validiteit, het is niet zomaar aanwezig of afwezig).

Constructvaliditeit:

Constructvaliditeit (ook wel begripsvaliditeit) is de interpretatie van een test als weergave van een psychologisch construct. Men kijkt hierbij dus in hoeverre de interpretatie overeenkomst met de gemeten constructen. Er zijn 5 soorten bewijs voor constructvaliditeit:

  1. testinhoud

  2. interne structuur van de test

  3. response processen

  4. associaties met andere variabelen

  5. gevolgen van testgebruik

 

a. Inhoudsvaliditeit:

Bij inhoudsvaliditeit wordt gekeken of de items van de test aansluiten bij de belangrijkste deelconstructen. Bedreigingen die hierbij opspelen zijn dat items of informatie bij vragen soms irrelevant zijn voor een test (construct-irrelevante inhoud) en dat deelconstructen soms niet goed vertegenwoordigd worden, door te weinig of geen items (construct-ondervertegenwoordiging).

b. Interne structuur van een test:

De hoofdvraag bij het bekijken van de interne structuur van een test is of de items en subtests van een test één samenhangend geheel vormen.

Wanneer het antwoord op deze vraag ja is, is er sprake van homogeniteit. Er is één onderliggende dimensie aan het construct. Zo nee, dan is er sprake van heterogeniteit en zijn er meerdere onderliggende dimensies. In week 4 wordt het aantal dimensies verder behandeld.

c. Responsprocessen:

Bij responsprocessen gaat het om in hoeverre er overeenkomst is tussen de psychologische processen die personen verondersteld worden te gebruiken, en die personen werkelijk gebruiken bij het doen van de test.

d. Relaties met andere variabelen:

Predictieve validiteit is het voorspellen van een uitkomst in de toekomst, en vaak is dit een praktisch relevant criterium.

 

Multitrait- multimethod matrix ( MTMMM):

Als je kijkt naar sheet 11 van de slides zie je een matrix. Deze matrix gaat over de correlaties tussen bepaalde groepen. De dikgedrukte getallen zijn de Cronbach’s alfa’s voor de desbetreffende scores. Onder de Cronbach’s alfa staat de correlatie tussen 2 constructen.

Convergente evidentie: correlaties tussen dezelfde traits zijn hoog in verschillende testen. Discriminante evidentie: correlaties tussen verschillende traits zijn laag en dus onafhankelijk van elkaar.

Als we weer terugblikken op de matrix zien we dat de onderstreepte getallen de convergente evidenties zijn.

 

Taylor- Russell tabel:

Op sheet 14 zien we een voorbeeld van een Taylor-Russell tabel. Deze wordt gebruikt bij ja/nee kwesties. Hier staat bovenin de base rate genoemd. Met de base rate bedoelen we in dit geval een toelating tot de opleiding Geneeskunde. We zien dat dit op dit moment het geval is als 44 procent wordt toegelaten en de predictieve validiteit gelijk is aan 0. Als we deze ophogen tot 0.2 zien we dat de base rate al verhoogt met 0.06-0.07.

 

Bias:

Er bestaat zowel test bias als item bias.

Test bias komt voor wanneer een test andere dingen meet bij verschillende groepen.

Predictieve bias is het fenomeen waarbij het voorspellen van scores verschillende consequenties heeft voor verschillende groepen. In een figuur is dit te zien als de regressielijn anders gaat lopen. Wanneer er sprake is van andere regressieformules, is er een bias aanwezig. Er zijn verschillende soorten predictieve bias. Bij intercept bias hebben de regressielijnen dezelfde hellingshoek, maar een verschillend ‘intercept’. Bij een slope bias hebben de regressielijnen een verschillende hellingshoek.

Constructbias is het fenomeen waarbij een test verschillende constructen meet in verschillende groepen.

Wanneer men een bias vermoedt, dan kan men aan de verschillende groepen verschillende behandelingen geven. Zo kan men bij een predictieve bias adviezen geven op basis van de regressielijn die de verschillende groepen hebben.

Item bias (ook wel differential item funtioning (DIF)) komt voor wanneer personen uit verschillende groepen met dezelfde vaardigheid een ongelijke kans hebben om een item goed te maken. Denk hierbij bijvoorbeeld aan geslacht of etniciteit.

 

WG 3: Validiteit van testscores

 

Opdracht 1

  1. Validiteit is de mate waarin bewijs en theorie de interpretatie van testscores ondersteunen die het voorgenomen gebruik van de test met zich meebrengt. Validiteit is dus een toepassing. Een nieuwe titel zou kunnen zijn: Validiteit van interpretatie en toepassingen van testscores. Het gaat namelijk om de interpretatie van de testscores, niet om de testscores zelf.

 

  1. Construct validiteit is de mate waarin testscores geïnterpreteerd kunnen worden als weergave van een psychologisch construct.
    De vijf theoretische aspecten daarbij zijn:

    1. Inhoud: Representatief voor domein?

    2. Response: reactie zoals beoogt.

    3. Interne structuur: relaties tussen items van de test

    4. De associatie met andere variabelen (convergent/discriminant)

    5. Gevolgen: gunstig/ongunstig voor proefpersoon; kan gezien worden als ethische richtlijn.

 

  1. Bij inhoudsvaliditeit reflecteert de inhoud van een meting het volle domein van het construct. Bedreigingen hierbij zijn:

  • Construct irrelevante inhoud: items die (gedeeltelijk) irrelevant zijn voor een construct.

  • Construct-ondervertegenwoordiging: geen of te weinig items voor sommige deelconstructen. .

 

  1. De interne structuur is de mate waarin de idicatoren (items, substests) voor één construct een samenhangend geheel vormen. Dit kan onderzocht worden met PCA, FA of IRT.

 

  1. Als de psychologische processen die personen ‘verondersteld worden’ te gebruiken niet gelijk zijn aan de psychologische processen die ze daadwerkelijk gebruiken bij het doen van een test, is dit een bedreiging voor de validiteit van de test.

 

  1. Convergente en divergentie evidentie gaan over de relaties tussen testen op basis van correlaties.

Convergentie: hoge correlaties tussen hetzelfde kenmerk.

Discriminant: lage correlatie tussen verschillende kenmerken.

MTMMM staat voor multitrait-multimethodmatrix.

 

  1. Bij consequential validity is er geen sprake van test bias.

  2. Van test bias is sprake wanneer een test twee verschillende dingen voorspelt/meet.

 

 

Opdracht 2

  1. De betrouwbaarheid van multi-point is hoog (0.88), die van t-p redelijk (0.76) en die van selfreport is ook redelijk (0.73).

 

  1. De convergente validiteit van Burnout is hoger dan die van Depressie.

 

  1. De discriminante validiteit is goed, want Burnout heeft een lage correlatie met Order.

 

Opdracht 3

  1. Gecorrigeerde correlaties zijn: MP: 0.65, TF: 0.88 en SR: 0.93.
    Hierbij is de volgende formule gebruikt: rxt = rxoyo / √(RxxRyy)

  1. Deze correctie heet attenuatie correctie; wat zoiets betekent als vermindering.

  1. De hoogst mogelijke correlaties zijn: MP: 0.88, TF: 0.78 en SR: 0.65.
    Hierbij is de volgende formule gebruikt: Rxoyo = rxtyt√(RxxRyy)

 

Opdracht 4

Deze vraag gaat over de verwachte succeskans na het gebruik van een selectietest. De predictieve validiteit is de correlatie tussen testscore en criteriumscore. De selectieratio is de proportie mensen die nu worden doorgelaten.

 

  1. De base rate is de succeskans zonder selectie test, dus 0.60.

 

  1. Er is een verbetering van 0.09 na de selectietest, dus 9 procentpunt.

 

  1. De selectieratio moet 0.10 zijn om de beoogde resultaten te krijgen

 

  1. De predicitieve validiteit moet 0.40 zijn met een validiteit van 0.75.

 

HC 4: PCA en FA

 

PCA en FA:

Principale Componenten Analyse en Factor Analyse zijn analyses waarbij het reduceren van data het doel is. Datareductie is een grote set variabelen verkleinen tot een veel kleinere set onderliggende dimensies. Dit kan nuttig zijn voor overzicht en om te veel overlap te voorkomen tussen de dimensies: zoals alle persoonlijkheidseigenschappen die kunnen worden gereduceerd tot de Big Five. Deze variabelen moeten van interval niveau zijn. Deze week worden PCA en exploratieve factoranalyse (EFA) besproken, waarbij er geen exacte vraag wordt gesteld.

Het verschil tussen Principale Componenten Analyse en Factor Analyse is dat Factor Analyse een expliciet model heeft en je bij Principale Componenten Analyse alleen een a-theoretische ‘herschrijving’ maakt van variabelen tot componenten. Bij Factor Analyse gaan we een gedetailleerde hypothese bekijken of het idee wat we over de data hebben ook daadwerkelijk klopt. Bij Principale Componenten Analyse gaan we kijken naar de data zonder verwachtingen. Er wordt dus alleen geobserveerd. Ook heeft Factor analyse een expliciet model voor error, PCA niet.

 

Functie van PCA:

PCA kunnen we op zowel een algebraïsche manier als een geometrische manier bekijken. Als we kijken naar de algebraïsche manier is een principale component een lineaire combinatie van variabelen. De eerste component moet zoveel mogelijk variantie verklaren van de variabelen. Zo komt de eerste component het dichtste in de buurt met het beschrijven van de variabelen. Ieder opvolgende component probeert ook zoveel mogelijk variantie te verklaren, maar is totaal niet gecorreleerd aan de voorafgaande component (orthogonaliteit). Hierdoor zal een aantal componenten een overgroot deel van de variantie verklaren en kunnen de belangrijkste componenten geselecteerd worden. De data zijn nu gereduceerd.

Als we PCA op de geometrische manier bekijken zijn de componenten gelijk aan vectoren. Hoe meer deze naar rechts of naar boven gelegen is, hoe hoger de score op een van de componenten. De opvolgende vector is niet gecorreleerd aan de voorafgaande vector en staat daarom loodrecht op de eerste vector. Het is lastig om dit model te maken voor meer dan 2 variabelen, omdat er dan een ruimtelijke structuur ontstaat.

 

Communaliteit en componentlading:

Cij is de componentlading. Dit is de correlatie van variabele Xi met component j. Wanneer de componentlading gelijk is aan 0, hebben de variabele en het component niets met elkaar gemeen. Als je de componentlading kwadrateert (Cij2 ) krijg je de proportie variantie van variabele Xi verklaard door component j.

De ‘uniekheid’ van een variabele wordt aangegeven met de communaliteit. Hoe lager de communaliteit, hoe unieker de variabele. Het is de proportie verklaarde variantie per variabele. Verder is het de som van gekwadrateerde componentladingen.

In deze formule is k het maximaal aantal componenten, hi2 is de communaliteit, Cij2 is de componentlading in het kwadraat.

 

Eigenwaarde:

De eigenwaarde van een variabele is de som van de gekwadrateerde componentladingen per component. Het is de hoeveelheid verklaarde variantie van alle variabelen bij elkaar. Als we dit delen door het aantal variabelen krijgen we de proportie verklaarde variantie.

 

Criteria voor het aantal componenten:

Om te bepalen tot hoeveel componenten men het best kan reduceren, zijn er een aantal richtlijnen, namelijk:

  1. de eigenwaarde moet groter zijn dan 1. Je kunt alle componenten gebruiken die een eigenwaarde hebben die groter is dan 1.

  2. Knik: als we naar de grafiek op sheet 12 kijken, zien we een grafiek met daarin een lijn die componenten aangeeft en hun bijbehorende eigenwaarde. We zien dat de lijn erg snel afneemt met het toenemen van het aantal componenten. Als we een grens willen stellen voor het aantal componenten die gebruikt kunnen worden voor de analyse, moeten we kijken naar de knik in de lijn. Dit is een vage omschrijving, maar meestal geeft dit wel het juiste antwoord. Vaak kan er ook 1 component meer of minder worden gebruikt.

  3. Interpreteerbaarheid: alle oplossingen bekijken en dan de oplossing kiezen waar je het beste een verhaal van kunt maken, de meest begrijpelijke/praktische oplossing. Dit is een hele vage methode.

 

Interpretatie

Componentladingen kunnen worden gebruikt voor de interpretatie van een PCA-oplossing. Als dit algebraïsch wordt gedaan, moeten de ladingen worden onderstreept met de absolute waarde boven een grenswaarde (meestal wordt de grenswaarde 0.40 gehanteerd, maar dit kan verschillen). Daarna moet worden bepaald voor variabelen met hoge ladingen op hetzelfde component of deze wat gemeenschappelijk hebben, en of dit gemeenschappelijke deze variabelen onderscheidt van variabelen die niet op de component laden.

Als we meetkundig gaan interpreteren maken we een grafiek waarin de variabelen als vectoren in de componentenruimte staan. De lijn loopt vanuit de oorsprong naar het punt van componentenlading. Er wordt dan gekeken naar de verschillende lengtes (hoe langer de vector, hoe beter de variabele verklaard wordt) en naar de hoek (hoe scherper de hoek tussen de vectoren, hoe hoger de correlatie tussen de variabelen).

 

Rotatie

Als we kijken naar sheet 15 zien we hierop een plaatje met vectoren. Wanneer de hoek tussen de verschillende vectoren klein is, zullen de vectoren meer met elkaar correleren. Een hoek kleiner dan 90 graden geeft een correlatie aan. Als de hoek gelijk is aan 90 graden, zullen de componenten die zijn uitgebeeld via de vectoren onderling niet correleren.

Bij rotatie wordt er anders gekeken naar de oplossing: het assenstelsel wordt veranderd. Zo krijg je een ‘simple structure’ (de meest ideale situatie) waarbij een interpretatie makkelijker wordt. VARIMAX is de meest gebruikte rotatie, waarbij nieuwe assen worden gekozen op zo’n manier dat varianties van gekwadrateerde factorladingen per factor zo hoog mogelijk zijn. Voorbeelden met SPSS zijn te zien in de slides vanaf dia 19.

 

WG 4: PCA en Factoranalyse:

 

Opdracht 1:

 

  1. Theoretisch gezien is een component onderliggende dimensie in een test (psychologisch construct).

Algebraïsch is het een lineaire combinatie (= gewogen som) van variabelen. (zodanig dat zo veel mogelijk variantie wordt verklaard en orthogonaal t.o.v. alle andere componenten)

Geometrisch is een component een vector (richting in de variabele ruimte).

 

  1. Een communaliteit is de som van de gekwadrateerde componentladingen voor een

variabele. Als de communaliteit laag is, wordt de variabele niet goed verklaard door

alle componenten en is deze uniek/anders dan de rest. Maar dit hangt af van de

context

 

  1. De eigenwaarde is de som van gekwadrateerde componentladingen per component j. Het geeft de hoeveelheid variantie van alle variabelen tezamen die wordt verklaard door component. Als deze laag is dan voorspelt de component weinig variantie, die

variantie wordt dan verklaard door een component met een hogere eigenwaarde. De eigenwaarde kan groter zijn dan1, want de totale variantie bij p gestandaardiseerde variabele is: p x 1 = p.

 

  1. Een factor lading is de correlatie van een variabele met component (factor).

Bij een negatieve lading: item correleert negatief met factor, er is een negatief verband (vooral bij contrastfactoren). Als de factorlading nul is dan wordt er geen variantie verklaard.

 

 

Opdracht 2:

  1. Op basis van de eigenwaarde moet je kiezen voor 14 componenten, dit is de

bovengrens.

 

  1. Op basis van de knik kies je 7 (6 of 8) componenten. Kies dus de 6-factor of nog 1 of 2 meer. Een oplossing met minder componenten is makkelijker te interpreteren dus vaak wordt hierbij voor 6 gekozen.

 

  1. Alle geroteerde oplossingen tussen 1-factor en 14-factor-oplossing zo goed mogelijk interpreteren. Dit is erg veel werk bij 14 componenten, misschien 8.

 

Opdracht 3:

 

  1. De communaliteiten zijn: 0.760; 0.685; 0.621; 0.435; 0.707.

(tel de gekwadreerde factorladingen op per rij, deze zijn gelijk voor de niet-geroteerde en de geroteerde tabel)

 

  1. De eigenwaarden zijn:

Component 1: 2.272;

Component 2: 0.936.

Rotatie 1: 1.763

Rotatie 2: 2: 1.444

(tel de gekwadrateerde factorladingen op per kolom)

 

  1. Proportie verklaarde variantie:

Component 1: 0.4544

Component 2: 0.187

Rotatie 1: 0.352

Rotatie 2: 2:0.289

Totaal voor beiden: 0.642

(eigenwaarde delen door het aantal variabelen, in dit geval p = 5)

 

  1. Plaatje: Omhoog vector 2 en 4. Naar rechts en onder de Y-as, vector 6, 7, 8.

 

  1. Item 2 en 4 gaan meer over aansporing, je ‘moet’. Dit is afwezig bij item 6,7en 8 die meer theorieën over anderen zijn.

 

Opdracht 4:

  1. Uit de vier-factor oplossing, 1 soort motivatie op elke component. Dus alle items van één motivatie moeten hoog op dezelfde component laden en laag op alle andere componenten.

 

  1. Eigenwaarde: 5.

Knik: 4 (3 of 5).

 

  1.  

    1. Factor 1: positieve ladingen van alle faalangst items en alle angst-voor-afwijzing items.

    2. Factor 1: negatieve motivatie
      Factor 2: positieve affiliatie-motivatie

    3. Factor 1: negatieve motivatie
      Factor 2: positieve affiliatie-motivatie
      Factor 3: positieve prestatiemotivatie

    4. Factor 1: negatieve motivatie
      Factor 2: positieve affiliatie-motivatie
      Factor 3: onduidelijk
      Factor 4: onduidelijk

    5. Het 4-factor model is minder goed interpreteerbaar dan het 3-factor model, dus 3 factoren heeft dus de voorkeur.

 

  1. Het grootste probleem: faalangst en angst voor afwijzing worden niet goed van elkaar onderscheiden

Ander probleem: sommige items laden niet op de ‘juiste’ factor.

Oplossing:

  • Misschien zijn de begrippen echt niet te (onder) scheiden constructen, hier kun je niets aan doen

  • Alternatief: op zoek naar nieuwe items die faalangst en angst voor afwijzing maximaal onderscheiden.

 

HC 5: Confirmatieve factoranalyse

 

CFA en SEM:

CFA is een onderdeel van de SEM, wat staat voor ‘structural equation modelling’. Met SEM onderzoek je expliciete modellen voor (causale) relaties van 3 of meer variabelen. Het is een toets voor een model als geheel. Bij SEM zijn manifeste en latente variabelen goed te onderscheiden en kunnen de onderlinge relaties worden geschat en getoetst.

 

SEM cyclus toegepast op CFA:

Er zijn een aantal stappen die standaard worden doorlopen in het SEM model. Dit heet de SEM cyclus en hieronder vallen de volgende stappen:

  • Modelspecificatie

Hierbij wordt uit de theorie of hypothese een model gevormd, die verschillende onderdelen bevat. Manifeste variabelen zijn testscores. Latente variabelen zijn psychologische constructen. Alle manifeste variabelen hebben error. Error zelf is een latente variabele.
Ook hebben we pijlen nodig voor het model. Een eenrichtingspijl toont een causaal verband aan en een wederkerige pijl laat een correlatie zien. Bij het SEM model voor CFA bestaan er alleen inkomende pijlen, waarbij alle pijlen van latent naar manifest gaan. Als er geen pijlen tussen factoren aanwezig zijn, betekent dit ook meteen dat er geen relatie is tussen de factoren: die staat op 0 en wordt dus ‘vastgezet’.
Bij elke pijl hoort een modelparameter. De structurele vergelijkingen per manifeste variabelen zijn te vinden in de powerpoint.

  • Modelidentificatie

Hierbij moet na worden gegaan of het model geschat of getoetst kan worden. Wanneer we het SEM model willen gaan toetsen, moeten er niet teveel onbekende variabelen in de vergelijking zitten. We kunnen dit zien aan het aantal vrijheidsgraden. Als dat getal positief is (groter dan 0), is het model toetsbaar. Je kunt het aantal vrijheidsgraden op de volgende manier berekenen:

Df = V – P. Waarin het aantal relaties (pijlen) in het model is P en het aantal varianties en covarianties V = (k(k+1)/2).

  • Parameterschatting

Men kan kijken of er ‘warnings’ zijn. Warnings zijn varianties of covarianties die op bepaalde factoren hoog scoren, terwijl ze niet mogen correleren of andersom. Op sheet 20 is een variantie-covariantiematrix te zien. Hierin mogen tussen X1, X2, X3 en X4,X5,X6 geen hoge covarianties aanwezig zijn.

  • Model-evaluatie

Met een Chi-kwadraat toets evalueren we het model. Wanneer er een significant resultaat wordt gevonden, klopt ons model niet. H0 wordt dan namelijk verworpen. In dit geval is H0 dat de data en het model overeenstemmen.

Er zijn wel wat problemen met de Chi-kwadraat toets, zoals dat deze erg snel significant wordt bevonden met een groot aantal deelnemers. We kijken daarom ook naar de volgende fit-maten:

RMSEA (deze meet standaarderror): een fitmaat kleiner dan 0.06 is goed, kleiner dan .10 is acceptabel.

NFI: een fitmaat groter dan 0.9 is goed

NNFI: een fitmaat groter dan 0.9 is goed

CFI: een fitmaat groter dan 0.95 is goed

Deze fitmaten kunnen elkaar (en dus ook de Chi-kwadraat) nog wel eens tegenspreken, in dit geval kijk je naar de meerderheid.

  • Modelbijstelling

Als blijkt dat het model niet klopt, kunnen we kijken of er toch meer factoren zijn, die we eerst op 0 hadden gezet (geen pijl hadden gegeven), die correleren en aan de hand daarvan het model wijzigen. In dia 27 zie je voorbeelden van mogelijk vergeten pijlen die nog wel logisch kunnen zijn.

 

Residuen:

Residuen kunnen ons helpen bij de keuze hoe we een model kunnen verbeteren. Een residu is het verschil tussen de covariantie en de terug geschatte covariantie. We rekenen graag met gestandaardiseerde residuen: Zresij= rij- r(gem)ij.

Een residu is groot wanneer het groter is dan 0.10 of kleiner dan -0.10. Als residuen voor een bepaalde variabele groot zijn, is het model voor die variabele niet goed. Ook moet er worden gekeken naar de verdeling van de residuen (normaal verdeeld, symmetrie, gecentreerd rond nulpunt).

 

Het verbeteren van een slechte fit:

Men kan de fit verbeteren door de parameters vrij te maken. Dit kan door meer pijlen aan het model toe te voegen. Men kan zien of deze pijlen ontbreken door te kijken naar een patroon in residuen. Wanneer deze allemaal positief of allemaal negatief zijn, kan het zo zijn dat er een correlatie is tussen twee factoren.

 

Wanneer is een model bewezen?

Met de CFA kan men eigenlijk alleen een model falsifiëren. Een model bewijzen is erg moeilijk. Men kan een modeltoets doen om te kijken of het bewerkte model een significante verbetering heeft ten opzichte van het eerdere model. Dit kan aan de hand van de volgende formules:

Δ X2 = X2 (1) – X2 (2), in andere woorden: X2complex model - X2 simpel model. Dit komt altijd uit op een positief getal. Is dit niet het geval, heb je waarschijnlijk het complexe model van het simpele model afgetrokken. Het complexe model is het model met de meeste pijlen.

Δ df= df(1) – df(2)

De uitkomst hiervan kunnen we vergelijken met de tabel van de Chi-kwadraat toets en zo de bijbehorende p-waarde vinden. De toets kan alleen worden uitgevoerd wanneer beide modellen genest zijn met elkaar. Dit betekent dat alle pijlen van Model A (simpel) ook in Model B (complex) aanwezig zijn, maar model B heeft ook nog extra pijlen.

 

Tot slot:

SEM modellen hebben wel een aantal problemen en beperkingen. Deze modellen vereisen bijvoorbeeld een groot aantal personen. Ook maken SEM modellen zware assumpties over de data en de SEM modellen zijn minder robuust tegenover schendingen hiervan dan andere technieken. Daarnaast is CFA niet werkelijk toetsend. Je nieuwe model is gebaseerd op het vorige model. Hierdoor gaat men steeds meer geloven in het model en smokkelen we eigenlijk met de statistische regels.

 

HC 6: Item Response Theorie en Personeelsselectie

 

IRT als alternatief voor KTT

Het verschil tussen KTT (de klassieke testtheorie) en IRT (de item-responstheorie) ligt bij de stap van het berekenen en evalueren van testscores. Bij KTT is betrouwbaarheid het centrale begrip. Er wordt gekeken in hoeverre de testscores overeenkomen met de ware scores, hierbij spelen de item-kenmerken geen rol. De statistieken van KTT zijn dus populatie-afhankelijk.
Het doel van IRT is om personen en items op dezelfde schaal te ordenen. Doordat bij IRT de itemkenmerken ook mee worden genomen in het model, zijn deze niet populatie-afhankelijk.
Het persoonskenmerk is de vaardigheid (θ), een latente variabele, waarbij geldt: hoe hoger de vaardigheid, hoe waarschijnlijker het is dat deze persoon een correct antwoord geeft. Een itemkenmerk uit het model is de moeilijkheidsgraad β. Als deze hoog ligt, dan is het onwaarschijnlijk dat er een correct antwoord wordt gegeven. Tussen de vaardigheid en de moeilijkheidsgraad ligt een verband, dat bepaald wordt door specifieke IRT-modellen.

 

Specifieke IRT-Modellen

We zullen drie verschillende modellen bespreken. De verschillen tussen deze modellen zitten in de itemkenmerken en de uitkomsten.

Het Guttman model:

Dit is het eerst IRT model; hierbij wordt de respons volledig verklaard door de vaardigheid en de moeilijkheidsgraad. Hierdoor ontstaat er een stapsgewijze curve en is er geen vloeiende overgang aanwezig. Dit noemen we ook wel een deterministisch model. Als de vaardigheid kleiner is dan de moeilijkheidsgraad is het antwoord fout (0). Ligt de vaardigheid hoger dan is het antwoord goed (1). Dit model is erg beperkend, aangezien er maar k + 1 antwoordmogelijkheden zijn (je kunt nooit makkelijke vragen fout hebben en moeilijke goed).

Er is een alternatief bedacht voor het restrictieve Guttman-model, namelijk probabilistische modellen. Bij probabilistische modellen is de lijn wel vloeiend en stijgt de curve langzaam van 0 naar 1. Het is een S-curve. Dit model wordt weergegeven met een logaritmische functie, waardoor er 2k antwoordmogelijkheden zijn. Sommige antwoordpatronen zijn echter onwaarschijnlijker dan andere, dus je moet je afvragen of de toevoeging van enkele mogelijkheden wel nuttig is. Voorbeelden van probabilistische modellen die we nu gaan bespreken zijn de 1PL en 2PL, die verschillen in het aantal parameters.

Één-parameter logistisch model (1PL): het Rasch-model:

Het Rasch-model is een 1-dimensionaal model. Dit betekent dat er slechts één itemparameter relevant is. Dit is de moeilijkheidsgraad β; het persoonskenmerk is nog steeds de vaardigheid θ. Wanneer de moeilijkheidsgraad gelijk is aan het vaardigheidsniveau, dan is de kans dat een persoon een item goed beantwoordt 50%. De formule die hierbij hoort:

Dit is de kans dat het antwoord goed is, gegeven de vaardigheid en de moeilijkheidsgraad.

Twee-parameter logistisch model (2PL):

Het 2PL model is een model waarbij twee itemparameters relevant zijn. Dat zijn de moeilijkheidsgraad en de αi (het onderscheidend vermogen). Dit is de mate waarin een item personen met een laag en hoog niveau van elkaar kan onderscheiden. Deze kan voor elk item anders zijn. Dit leidt tot de volgende formule:

 

De discriminatieparameter αi geeft de steilheid van curve aan, op het steilste punt snijdt deze de kans van 50%. Hier geldt θ = β.

Wel moet hier vermeld worden dat het 1PL-model nu is uitgelegd alsof alle alpha’s 1 zijn, maar de alpha’s hoeven niet perse 1 te zijn, als ze maar gelijk zijn voor alle items. De formule voor het 1PL-model is dan hetzelfde als die voor het 2PL-model, maar dan zonder subscript bij de alpha.
Er zijn ook 3PL modellen, hierbij zijn ook nog items met een gokkans toegevoegd, bijvoorbeeld een multiple choice item.

 

Kwaliteit van items en testen:

Wat zeggen de scores eigenlijk over de betrouwbaarheid? Dit hangt af van de vaardigheid van de persoon, een makkelijke test is meer onderscheidend voor mensen met een laag vaardigheidsniveau. Deze geeft dus meer informatie. Voor het 1PL-model is de formule voor item-informatie:

 

En voor het 2PL-model is de formule voor item-informatie:

 

De informatie is dus het hoogste op het moeilijkheidsniveau. Door deze afzonderlijke item-informatie scores bij elkaar op te tellen, kom je tot de test informatie. Deze is nuttiger dan de item-informatie omdat we geïnteresseerd zijn in de gehele test, en niet alleen in de losse items.

 

Toepassingen van IRT:

Er zijn verschillende toepassingen van IRT. Zo kunnen testen worden verbeterd, door te kijken welk item de meeste informatie geeft of het best onderscheid maakt. Ook kan gekeken worden naar de test-informatie.
Bij het equivaleren van testen wordt er onderscheid gemaakt tussen de moeilijkheid en de vaardigheid, door bij twee testen gebruik te maken van anker-items. Deze items overlappen in beide toetsen.
Bij vragen over of er een item-bias aanwezig is in een toets kan met IRT onderzocht worden of elk construct gelijk is voor bijvoorbeeld mannen en vrouwen.
Bij person-fit kunnen door middel van IRT de onwaarschijnlijke antwoordpatronen worden opgespoord. Hierdoor kan bijvoorbeeld afkijken of het random invullen van een test worden herkend.
Als laatste wordt IRT gebruikt bij CAT. Dit staat voor computergestuurd adaptief testen. Op de computer worden antwoorden gegeven op items. Aan de hand van de antwoorden gaat de computer naar elk item een herberekening maken van de vaardigheid van de persoon. Op basis hiervan wordt het volgende item gekozen. Het is dus een toets op maat, die leidt tot maximale informatie. Dit is echter wel lastig om uit te voeren, omdat je een grote database moet hebben aan items van verschillende moeilijkheidsgraden. Bovendien moet je ook aan de computer vertellen wat de moeilijkheidsgraad van elk item is.

 

WG 6: Item-responstheorie

 

Opdracht 1 – Test je kennis

  1. De persoonskenmerken en item kenmerken bepalen de respons op een bepaald item volgens de IRT.

 

  1. IRT: β = moeilijkheidsgraad (het vaardigheidsniveau dat nodig is om 50% kans te hebben op een goed antwoord) en α = de discriminatie (mate van onderscheid kunnen maken tussen mensen met een hoge en lage vaardigheid).
    KTT: proportie correct-waarde en de item-rest correlatie (alpha-if-item-deleted).

 

  1. Item informatie is de psychometrische kwaliteit van een item voor verschillende vaardigheidsniveau’s. Een item is maximaal informatief voor het vaardigheidsniveau dat aansluit op de moeilijkheidsgraad.

 

  1. Bij IRT is het kernbegrip test-informatie (afhankelijk van vaardigheden)
    Bij KTT is het kernbegrip betrouwbaarheid (populatie-afhankelijkheid, één getal)

 

  1. Het doel van CFA en IRT is het modelleren van continue latente dimensies die ten grondslag liggen aan responsen op test-items. CFA en IRT zijn latente variabele modellen.

 

  1. Het meetniveau van de itemresponsen en de dimensies verschillen:
    CFA: Intervalniveau en meerdere dimensies
    IRT: Dichotoom (0/1) en één dimensie

 

  1. 1. Het ontwikkelen en verbeteren van test; items kiezen op variablitity in β en op hoge α.

2. Equivaleren van tests; hoe maak je twee verschillende testen equivalent.

3. Item-bias; bv. sommige groepen mensen kunnen bepaalde vragen beter beantwoorden.

4. Person-fit: voorbeeld: afwijkend responspatroon door testangst; onwaarschijnlijke responspatronen vinden.

5. computerized adaptive testing; tent aanpassen aan vaardigheden persoon.

 

Opdracht 2 – Rasch en 2PL model (1)

Rasch Model

  1. Het Rasch model is probablistisch; kansen liggen tussen 0 en 1.

  2. Item 3 is een moeilijke vraag; er is een hoge vaardigheid nodig om 50% kans op een goed antwoord te hebben. In de curve is dit te zien doordat het item ver naar rechts ligt.

  3. Het vaardigheidsniveau is hoger dan de moeilijkheidsgraad; er is dus meer dan 50% kans op een goed antwoord. Bij een vaardigheid van 0,8 en een moeilijk van 0 is de kans 0,69 op een goed antwoord.

  4. I.C.: naar links. I.I.: naar links. T.I.: krijgt een extra punt.

  5. Als α stijgt worden curves stijler omdat er meer informatie wordt gegeven. Wanneer α oneindig wordt ontstaat er een deterministisch model; het Guttman model.

2PL Model

  1. Dit item heeft een groter onderscheidend vermogen.

  2. Een Rasch model

  3. Dan is dit item niet representatief voor het onderliggende construct; er ontstaat een platte lijn. Iedereen heeft dan 50% kans op een goed antwoord; het hangt niet meer samen met een vaardigheidsniveau.

  4. Als α hoger wordt ontstaan er stijlere curves en hoge pieken

  5. De kans is 0.83 op een correct antwoord.

 

Opdracht 3 – Rasch en 2PL model (2)

  1. Het maximum aantal is altijd 2k met k = aantal items
    Het mogelijk aantal scorepatronen is 23, dit is dus 2x2x2= 8.
    000 (alles fout)
    100 010 001 (één goed)
    101 110 011 (twee goed)
    111 (alles goed)

  2. 2PL: 2k. Rasch: 2k. Bij een deterministisch model is het onmogelijk om makkelijke vragen fout te hebben en vervolgens moeilijke vragen goed. Dus de formule is K+1. Bij drie items zijn er zijn vier verschillende scorepatronen mogelijk; de score patronen zijn: 000 100, 110, 111.

  3. Met een vaardigheid van -0.75 zal het scorepatroon waarschijnlijk 100 zijn. Serena heeft de beste person fit; item 2 is het moeilijkst, dus het is logischer dat ze die fout heeft dan item 1 of 3.

  4. De factor lading uit het Factor analyse model is vergelijkbaar met de discriminatie parameter uit het 2PL model.

  5. Hier is de kans op een goed antwoord 0,10. De kans op een fout antwoord is dan 1 – 0,10 = 0.90.

  6. De kans is hier 0.75 op een correct antwoord. De kans op een fout antwoord is dan 1-0.75 = 0.25.

 

 

Opdracht 4 – Toepassen van IRT op wiskunde-data

  1. Het is te zien dat dit een Rasch model is omdat alle discriminatieparameters gelijk zijn aan elkaar (1,8286). Item 2 is het makkelijkst (laagste β) en item 1 is het moeilijkst (hoogste β).

 

  1. Item 10 heeft het laagst onderscheidend vermogen, dit wordt bepaald door de geschatte discriminatieparameters. Item 9 heeft het hoogste onderscheidend vermogen. De varierende α-parameters voegen niet veel toe omdat ze niet bijzonder veel uiteen lopen; de winst is dus maar gering.

 

  1. De kans op een goed antwoord is bij 1PL: 0,68 en bij 2PL: 0,67. Dus bijna dezelfde kans.

 

  1. De hoogste informatie geldt bij een vaardigheid van 1.1995. Dit is in de grafiek de top van de curve van item 1.

 

  1. Als alle informatie item curves bij elkaar worden opgeteld krijg je de test informatie curve.

 

  1. Bij een vaardigheid van 0 geeft de test als geheel de meeste informatie. Dit geldt dus voor de leerlingen met een gemiddeld niveau.

 

Opdracht 5 – Toepassen van IRT op een creativiteitsschaal

  1. Een lage probability-correct voorspelt een hoge β. Een hoge item-rest correlatie voorspelt een hoge α.

  2. Items met een lage α en/of een extreem hoge β. Items 25 tot 30 hebben bijvoorbeeld een erg grote moeilijkheidsgraad.

  3. Voor nul. Als item 1 wordt weggehaald verdwijnt er een piek; dit item gaf veel informatie. Als item 2 wordt weggehaald gebeurt er bijna niks; dit item had een lage α.

 

HC 7: Classificatie en discriminantanalyse

21-10-2014, Peter de Heus

Dimensioneel en classificatie:

Scores zijn in te delen op schalen op de dimensionale manier en via classificatie. Bij dimensionaal onderverdelen gaat het om het zo goed mogelijk indelen van personen op bepaalde dimensies. Bij classificatie gaat het erom dat mensen worden toegewezen aan bepaalde groepen.

Classificatieprocedure:

Bij classificatie is er altijd sprake van een grenswaarde. Dit punt noemen we het cut-off point. De procedure die gebruikt wordt bij classificatie is als volgt; Eerst worden gegevens verzameld over de variabele (X) waarbij de classificatie al bekend is. Deze classificatie is een bepaalde groep (Y). Daarna wordt een optimale voorspellingsregel gezocht om Y zo goed mogelijk te voorspellen uit X. Ten slotte wordt deze voorspellingsregel gebruikt om nieuwe variabele X ook te classificeren

Dimensies:

In het meest eenvoudige geval is er sprake van één dimensie, waar twee groepen op scoren. Het cut-off point zit daar waar de verhouding tussen valse positieven en valse negatieven optimaal is (hangt af van de situatie). Zie dia 6 voor een schematisch overzicht. Van valse positieven is sprake wanneer er wel een diagnose is gesteld, terwijl dit in werkelijkheid niet had gemoeten. Van valse negatieven is sprake wanneer er geen diagnose is gesteld, terwijl dit in werkelijkheid wel had gemoeten. Het hangt vervolgens van de situatie af welke fouten het minst erg zijn; als de valse positieven erger zijn (zwaarder wegen) dan verschuift het cut-off point bijvoorbeeld naar rechts.

Bij meerdere dimensies kunnen we niet meer spreken van een cut-off point. Hierbij gaat het om een ruimtelijk geheel en zal sprake zijn van een cut-off lijn of een cut-off vlak. Hierbij wordt ook een andere analyse toegepast, namelijk een logistische regressie analyse (cursus MVDA) of een discriminantanalyse.

Discriminantanalyse:

Bij een discriminantanalyse zijn er twee doelen. Voor deze cursus is het van belang dat we individuele voorspellingen willen doen, oftewel classificatie. Dit doen we met de predicitieve discriminantanalyse.

Er zijn 3 problemen die zich bij deze analyse voordoen:

  1. Hoe moeten de meerdere dimensies gecombineerd worden om tot een optimale indeling te komen?

  2. Hoe goed is de uiteindelijke indeling?

  3. Hoe kunnen we generaliseren naar andere situaties?

Toewijzing aan groepen (1)

Om de individuen toe te wijzen aan groepen, moet de afstand tot alle groepspunten (centroïden) worden berekend met de (gegeneraliseerde) stelling van Pythagoras (zie slide 10 voor de formule).

Hoe goed is een oplossing? (2)

Met een classificatietabel, waarin de voorspelde waarden worden afgezet tegen de geobserveerde waarden, kunnen we zien hoe goed een uiteindelijke oplossing is. Er kunnen verschillende maten worden afgeleid uit deze tabel. De PAC (Percentage accuracy in classification) is een ruwe maat voor het bekijken van hoe goed een oplossing is. Hierbij worden alle juiste voorspellingen gedeeld door het totaal aantal voorspellingen. Er zijn ook andere maten, zoals de specificiteit en de sensitiviteit.

Bij de specificiteit wordt het aantal juist voorspelde gevallen die niet de ziekte hebben gedeeld door het totaal aantal niet gediagnosticeerde deelnemers. Bij de sensitiviteit wordt het aantal juist voorspelde gevallen die wel de ziekte hebben gedeeld door het totaal aantal gediagnosticeerde deelnemers. Specificiteit en sensitiviteit bepalen samen de kwaliteit van het meetinstrument.

Ook kan er van uit het individu worden gekeken naar de percentages. Als individu wil je namelijk weten hoe groot de kans is dat de diagnose klopt. Ook hiervoor zijn twee maten; de positieve en negatieve voorspelde waarde: De positief voorspellende waarde is het aantal goed voorspelde gevallen met ziekte gedeeld door het totaal aantal voorspeldlingen met ziekte. Dit is dus de kans dat de diagnose ‘ziekte’ juist is. De negatieve voorspellende waarde is het aantal goed voorspelde gevallen zonder ziekte gedeeld door het totaal aantal voorspelde niet zieken. Dit is dus de kans dat de diagnose ‘niet ziek’ juist is.

Bij een goede steekproef zijn de specificiteit en de sensitiviteit onafhankelijk van de proporties gediagnosticeerde personen en de proporties niet-gediagnosticeerde personen in de onderzochte groep. Voor de positieve en negatieve voorspellende waarden geldt dit niet.

Generaliseren naar de gehele populatie:

Bij het generaliseren naar de gehele populatie wordt de betrouwbaarheid van de individuele diagnose niet alleen bepaald door de kwaliteit van de instrumenten, maar ook door de base rate. Dit is hoe vaak een bepaalde ziekte voorkomt in de gehele populatie.

Je kan een classificatietabel maken met behulp van de gegevens van de algemene populatie en de specificiteit en de sensitiviteit van de steekproef. Uit deze tabel kunnen dan weer de voorspellende waarden worden berekent. Hieruit kan je opmaken of de steekproef wel of niet generaliseerbaar is naar de populatie.

Ook de base rate bepaalt de betrouwbaarheid van de diagnose en heeft invloed op de voorspellende waarde. Dat kan er toe leiden dat de diagnostische informatie soms tot slechtere voorspellingen leidt.

De stelling van Bayes maakt het mogelijk om kansen te berekenen voor de gehele populatie, zonder dat daarbij de omvang bekend is. De formule staat op sheet 22 en een grafische weergave is te vinden op sheet 23.Voor de formule van Bayes zijn alleen proporties nodig.

WG 7: Classificatie en discriminatie analyse

Opdracht 1 – Check your comprehension:

  1. Independent: interval (binair)
    Dependent: Nominaal

  2. De afstand berekenen van subject-punten naar alle groep-punten. Daarna ieder subject toewijzen aan de groep met de kortste afstand.

  3. PAC is een ‘global measure’, dus het maakt geen onderscheid tussen soorten error (false positive vs. false negative).

  4. Sensitivity = p(X+|Y+). Dit is de conditionele kans dat iemand met een ziekte (Y+) een positieve diagnose (X+) krijgt. De ‘positive predicitive value’ = p(Y+|X+). Dit is de conditionele kans dat iemand met een positieve diagnose (X+) de ziekte ook echt heeft (Y+).

  5. Specificity = p(X-|Y-). Dit is de conditionele kans dat iemand zonder de ziekte (Y-) een negatieve diagnose (X-) krijgt. ‘Negative predictive value’ = p(Y-|X-). Dit is de conditionele kans dat iemand met een negatieve diagnose (X-) de ziekte ook echt niet heeft (Y-).

  6. De ‘base rate’ zal de percentages correcte diagnoses niet zal veranderen als de groepen (met ziekte en zonder ziekte) de populatie vertegenwoordigen, dus Sensitivity en Specificity zullen niet veranderen. Echter, een veranderende ‘base rate’ heeft wel effect op het aantal ‘true positives’ en ‘false positives’. Voorbeeld: als de ‘base rate’ voor ‘geen ziekte’ het hoogst is, zullen er meer ‘false positives’ zijn in vergelijking met het aantal ‘false negatives’, dus de ‘positive predicitive value’ wordt lager.

 

Opdracht 2 – Find an optimal cut-off point:

  1. zeven cut-off points:

Cut-off point Xc:

  • diagnose positief (X+) als X is groter of gelijk aan Xc

  • diagnose negatief (X-) als X is kleiner dan Xc

voorbeeld Xc = 3,5

obstipatie (Y+) controle (Y-)

 

Cut-off point

0,5

1,5

2,5

3,5

4,5

5,5

6,5

Valse neg. (n)

0

0

5

15

45

125

200

Valse pos. (p)

200

180

130

70

30

5

0

 

  1. als we allebei de fouten (positief en negatief) even erg vinden:

 

som = n + p

200

180

135

85

75

130

200

 

  1. als we negatieve fouten zwaarder willen laten wegen (2x) dan positieve fouten. Je ziet dat het laagste punt naar links verschuift (eerst 75 en nu 100).

 

Som = 2n + p

200

180

140

100

120

255

400

 

 

Opdracht 3 – Assignment of individuals to groups:

Wijs Joe toe aan de dichtstbijzijnde groep in de driedimensionale ‘variabele ruimte’ (snelheid, basale ritmes en complexe ritmes). Reken de afstand uit van Joe’s punt (11,14,13) naar de drie groep-punten; Rock (14,11,10), Jazz (13,15,15) en Klassiek (9,15,16). Maak hierbij gebruik van de ‘Pythagorean theorem’.

 

Dit doe je ook voor Jazz = 3,0 en voor Klassiek = 3,7.

De afstand bij Jazz is het kleinst dus Joe hoort bij de jazz groep.

 

Opdracht 4 – Discriminant analysis with SPSS:

  1. Afhankelijk: Groep (= leerstoornis)  de voorspelling
    Onafhankelijk: PERF, INFO, VERBEXP, AGE  voorspellend

 

  1. De ‘memory groep’ lijkt vooral lager te schoren op INFO dan de andere groepen (M = 7.00 vs. 11.67 en 9.67).
    De ‘perceptie-groep’ lijkt vooral lager te scoren op PERF dan de andere groepen (M= 87.67 vs. 98.67 en 100.33)
    De ‘communicatie-groep’ lijkt vooral lager te scoren op VERBEXP dan de andere groepen (M= 28.33 vs. 36.33 en 38.33)

 

  1. Wilks’lambda = 0.010,
    X2 (8) = 20.51,
    p < 0.01
    Dus het antwoord is ja, de voorspelling is beter dan verwacht op basis van kans.
    (let op: Neem altijd de bovenste Wilk’s lambda)

 

  1. Dit moet je bekijken per groep.

PAC = (3+3+3)/9 = 1
Sensitiviteit (memory) = 3/3 = 1. Hetzelfde geldt voor perceptie en communicatie.
Specificiteit (memory) = (3+3+0+0)/6 = 1. Hetzelfde geldt voor perceptie en communicatie.

 

  1. PAC = (3+3+3)/10 = 0.90 (was 1)
    Sensitiviteit:
    Memory: 3/3 = 1.
    Perceptie: 3/4 = 0.75 (was 1).
    Communication = 3/3 = 1.
    Specificiteit:
    Memory: ( 3+3)/ 7 = 0.86 (was 1).
    Perceptie (3+3)/ 6 = 1.
    Communication = (3 + 1+ 3)/7 = 1

 

Opdracht 5 – Classification and Bayer’s rule:

  1. PAC: (195 + 190) / 400 = 0.9625
    Sensitiviteit: p(X+ | Y+) 195/200 = 0.975
    False positives: p(X+|Y-) 10/200 = 0.05

 

  1. Regel van Bayes: rekening houden met hoe vaak de ziekte voorkomt in de hele bevolking (corrigeren).
    Bevolking: P(Y+) = 0.0001, dus P(Y-) = 0.9999

 

P(Y+|X+) = (0,975*0.0001)/(0,975*0,0001 + 0,05*0,9999) = 0,0019
Vanwege de lage ‘base rate’ is er een erg lage ‘positive predicitive value’.

Methodologen: P(Y+) = 0,25, dus P(Y-) = 0,75
P(Y+|X+) = (0,975*0,25)/(0,975*0,25 + 0,05*0,75) = 0,867
Een hogere base rate (25%)  bij een positieve diagnose nu wel een grote kans op discriminantose (86,7%)

 

  1. Zonder diagnose X: voorspel bij iedereen de meest voorkomende categorie: niet ziek.
    Met diagnose : voorspel Y+ na positieve diagnose X+. Voorspel Y- na negatieve diagnose X-.

 

Nederlandse bevolking: zonder diagnose: voorspel altijd Y-, want P(Y-) = 0,9999  PACzonderdiagnose = 0.9999

 

 

Diagnose: D

Diagnose: N

Totaal

Werkelijk D

 

(0,975 * 1)

= ongeveer 1

(0,025 * 1)

= ongeveer 0

1

Werkelijk N

(0,05 * 9999)

= ongeveer 500

(0,95 * 9999)

= ongeveer 9499

9999

Totaal

501

9499

10000

 

Tabel: with diagnosis 1: classification table with numbers (N=10000).

 

PACwith = (1 + 9499) / 10000 = 0.95. Door gebruik van diagnostische informatie is er sprake van een lagere PAC (0,95) dan zonder gebruik hiervan (0,9999).
Deze methode is niet precies aangezien het aantal mensen wordt afgerond, maar als een overzicht werkt het goed.

 

 

Diagnose: D

Diagnose: N

Totaal

Werkelijke D

 

(0,975 * 0.0001)

= 0.0000975

(0,025 * 0.0001)

= 0.0000025

0.0001

Werkelijke ND

(0,05 * 0.9999)

= 0.049995

(0,95 * 9999)

= 0.949905

0.9999

Totaal

0.0500925

0.9499075

1

 

Tabel: with diagnosis 2: classification table with proportions.

 

 

 

 

 

 

Access: 
Public

Image

This content is also used in .....

College- en werkgroepaantekeningen bij Psychometrie - UL

College-aantekeningen bij Psychometrie aan de Universiteit Leiden - 2018/2019

College-aantekeningen bij Psychometrie aan de Universiteit Leiden - 2018/2019


Hoorcollege 1: Schaling en Normering

Psychometrie

In de psychometrie bestudeert men de testscore. Hierbij gaat men van kwalitatief materiaal (antwoorden op testitems) naar kwantitatieve testscores. Daarbij stelt men zich de vraag wat de kwaliteit is van deze scores.

Psychologische eigenschappen zijn moeilijk te meten omdat ze een hele brede verscheidenheid hebben en omdat ze niet direct observeerbaar zijn. Toch willen we het graag meten en weten. Het psychologische construct dat niet observeerbaar is (de latente variabele) beïnvloedt het observeerbare gedrag. Om toch iets te weten te komen over het construct draaien we het om: het observeerbare gedrag (de operationele definities) vertelt iets over hetgeen dat niet direct observeerbaar is. Met behulp van deze redenering voert men psychologische testen uit.

Een psychologische test is een systematische gedragssteekproef, waarmee mensen een vaste set items moeten beantwoorden. Voor iedereen moeten deze items hetzelfde zijn, en de test moet op dezelfde manier bij iedere participant worden afgenomen. Met de uitkomsten kunnen er vergelijkingen worden gemaakt, bijvoorbeeld tussen verschillende personen, ook wel inter-individuele verschillen. Intra-individuele verschillen zijn vergelijkingen die gemaakt worden tussen condities of tijdstippen binnen personen.

Testscores

Met testscores wordt de kwaliteit van bepaalde items bepaald. De eisen voor kwaliteit zijn van groot belang voor psychologische testen. Belangrijk zijn hierbij de betrouwbaarheid en de validiteit. Bij betrouwbaarheid gaat het om de afwezigheid van toevalsmeetfouten en bij validiteit gaat het om de afwezigheid van systematische meetfouten (‘meet ik wel wat ik wil meten?’). Het is belangrijk om ervoor te zorgen dat een test zo betrouwbaar en valide mogelijk is. 

Schaling

Schaling van testscores gaat om de manier waarop er getallen worden toegewezen aan psychologische eigenschappen. Er worden testscores of categorieën bepaald uit itemresponsen. Denk hierbij aan de verschillende meetniveaus (nominaal, ordinaal, interval en ratio). Zie hiervoor de tabel op dia 16.

De totaalscore en het gemiddelde zijn twee veel voorkomende schaalscores. De totaalscore is de som van de itemscores. Het gemiddelde is de totaalscore gedeeld door het aantal items.

Ruwe scores kunnen op zichzelf slecht worden geïnterpreteerd. De hoogte van een testscore is namelijk afhankelijk van het aantal items en de verschillende itemscores. Om de ruwe scores te interpreteren worden er normen gesteld. Voorbeelden van deze normen zijn percentiel- en standaardscores.

Percentielscores en standaardscores

Bij percentielscores wordt gekeken naar een percentage personen met eenzelfde of een lagere score. Zie dia 29 voor de berekening van percentielscores.

.....read more
Access: 
JoHo members
College- en werkgroepaantekeningen bij Psychometrie aan de Universiteit Leiden - 2016/2017

College- en werkgroepaantekeningen bij Psychometrie aan de Universiteit Leiden - 2016/2017


Hoorcollege 1: Schaling en Normering

Psychometrie

In de psychometrie bestudeert men de testscore. Hierbij gaat men van kwalitatief materiaal (antwoorden op testitems) naar kwantitatieve testscores. Daarbij stelt men zich de vraag wat de kwaliteit is van deze scores.

Psychologische eigenschappen zijn moeilijk te meten omdat ze een hele brede verscheidenheid hebben en omdat ze niet direct observeerbaar zijn. Toch willen we het graag meten en weten. Het psychologische construct dat niet observeerbaar is (de latente variabele) beïnvloedt het observeerbare gedrag. Om toch iets te weten te komen over het construct draaien we het om: het observeerbare gedrag (de operationele definities) vertelt iets over hetgeen dat niet direct observeerbaar is. Met behulp van deze redenering voert men psychologische testen uit.

Een psychologische test is een systematische gedragssteekproef, waarmee mensen een vaste set items moeten beantwoorden. Voor iedereen moeten deze items hetzelfde zijn, en de test moet op dezelfde manier bij iedere participant worden afgenomen. Met de uitkomsten kunnen er vergelijkingen worden gemaakt, bijvoorbeeld tussen verschillende personen, ook wel inter-individuele verschillen. Intra-individuele verschillen zijn vergelijkingen die gemaakt worden tussen condities of tijdstippen binnen personen.

Testscores

Met testscores wordt de kwaliteit van bepaalde items bepaald. De eisen voor kwaliteit zijn van groot belang voor psychologische testen. Belangrijk zijn hierbij de betrouwbaarheid en de validiteit. Bij betrouwbaarheid gaat het om de afwezigheid van toevalsmeetfouten en bij validiteit gaat het om de afwezigheid van systematische meetfouten (‘meet ik wel wat ik wil meten?’). Het is belangrijk om ervoor te zorgen dat een test zo betrouwbaar en valide mogelijk is. Daarnaast zijn er nog andere factoren die een psychologische test lastig maken:

  • Participantreactiviteit:
    - ‘Demand characteristics’: de participanten weten dat ze in een onderzoek zitten en passen hun gedrag aan.
    - Sociale wenselijkheid: de participanten reageren soms anders door sociaal gewenste antwoorden te geven.
    - Malingering: Participanten verzinnen/overdrijven antwoorden. Of hebben verwachtingen over hun uitslag van de test en antwoorden hiernaar.

  • Expectation bias: Er wordt verwacht dat de desbetreffende groep waarin men zit lager scoort en er wordt hiernaar geantwoord.

Daarnaast staat niet iedereen stil bij de kwaliteit van de toets (bijvoorbeeld een leraar die niet nadenkt over de kwaliteit van zijn proefwerk).

Schaling

Schaling van testscores gaat om de manier waarop er getallen worden toegewezen aan psychologische eigenschappen......read more

Access: 
JoHo members
College-aantekeningen bij Psychometrie aan de Universiteit Leiden - 2015/2016

College-aantekeningen bij Psychometrie aan de Universiteit Leiden - 2015/2016


College 1: Schaling en Normering

Psychometrie

In de psychometrie bestudeert men de testscore. Hierbij gaat men van kwalitatief materiaal (antwoorden op testitems) naar kwantitatieve testscores. Daarbij stelt men zich de vraag wat de kwaliteit is van deze scores.

Psychologische eigenschappen zijn moeilijk te meten omdat ze een hele brede verscheidenheid hebben en omdat ze niet direct observeerbaar zijn. Toch willen we het graag meten en weten. Het psychologische construct dat niet observeerbaar is (de latente variabele) beïnvloedt het observeerbare gedrag. Om toch iets te weten te komen over het construct draaien we het om: het observeerbare gedrag (de operationele definities) vertelt iets over hetgeen dat niet direct observeerbaar is. Met behulp van deze redenering voert men psychologische testen uit.

Een psychologische test is een systematische gedragssteekproef, waarmee mensen een vaste set items moeten beantwoorden. Voor iedereen moeten deze items hetzelfde zijn, en de test moet op dezelfde manier bij iedere participant worden afgenomen. Met de uitkomsten kunnen er vergelijkingen worden gemaakt, bijvoorbeeld tussen verschillende personen, ook wel inter-individuele verschillen. Intra-individuele verschillen zijn vergelijkingen die gemaakt worden tussen condities of tijdstippen binnen personen.

Testscores

Met testscores wordt de kwaliteit van bepaalde items bepaald. De eisen voor kwaliteit zijn van groot belang voor psychologische testen. Belangrijk zijn hierbij de betrouwbaarheid en de validiteit. Bij betrouwbaarheid gaat het om de afwezigheid van toevalsmeetfouten en bij validiteit gaat het om de afwezigheid van systematische meetfouten (‘meet ik wel wat ik wil meten?’). Het is belangrijk om ervoor te zorgen dat een test zo betrouwbaar en valide mogelijk is. Daarnaast zijn er nog andere factoren die een psychologische test lastig maken:

  • Participantreactiviteit:
    - ‘Demand characteristics’: de participanten weten dat ze in een onderzoek zitten en passen hun gedrag aan.
    - Sociale wenselijkheid: de participanten reageren soms anders door sociaal gewenste antwoorden te geven.
    - Malingering: Participanten verzinnen/overdrijven antwoorden. Of hebben verwachtingen over hun uitslag van de test en antwoorden hiernaar.

  • Expectation bias’: Er wordt verwacht dat de desbetreffende groep waarin men zit lager scoort en er wordt hiernaar geantwoord.

Daarnaast staat niet iedereen stil bij de kwaliteit van de toets (bijvoorbeeld een leraar die niet nadenkt over de kwaliteit van zijn proefwerk).

Schaling

Schaling van testscores gaat om de manier waarop er getallen worden toegewezen aan psychologische eigenschappen. Er worden testscores of categorieën bepaald uit itemresponsen. Denk hierbij aan de verschillende meetniveaus (nominaal, ordinaal, interval en ratio). Zie hiervoor de tabel op dia 16.

De totaalscore en het gemiddelde zijn twee veel voorkomende schaalscores. De totaalscore is de som van de itemscores. Het gemiddelde is de totaalscore gedeeld door het aantal.....read more

Access: 
JoHo members
Werkgroepaantekeningen - Psychometrie - UL - 2015/2016

Werkgroepaantekeningen - Psychometrie - UL - 2015/2016


Werkgroep 1: Schaling en Normering

Opdracht 1

  1. What is psychometrics (as defined in F&B)?
    Psychometrie is de studie naar procedures die gebruikt worden om psychologische fenomenen te meten. Deze psychologische fenomenen zijn vaak niet direct meetbaar.
    Door middel van een psychologische test wordt bepaald gedrag van mensen gerelateerd aan deze niet direct meetbare fenomenen. Psychometrie evalueert de kenmerken van psychologische tests, waarbij drie kenmerken belangrijk zijn:
    1) Het type informatie dat wordt gebruikt bij psychologische tests (dit gaat vaak om scores),
    2) De betrouwbaarheid van de gegevens die gebruikt worden voor psychologische tests,
    3) De validiteit van de gegevens afkomstig van de psychologische tests.

  1. Give a few examples of psychological measurement. Which of these are related to directly observable behaviour, and which are related to psychological features that cannot be directly observed?
    Een voorbeeld van een psychologische meting is het meten van de reactietijd. Dit is direct observeerbaar. Kennis, intelligentie, geheugen, depressie of extraversie zijn voorbeelden die niet direct observeerbaar zijn (Furr & Bacharach, 2008). Hiervoor worden dan ook psychologische tests gebruikt, zoals bijvoorbeeld een IQ test, een cognitieve test of het meten van de persoonlijkheid.

     

  2. What is (the definition of) a psychological test? Give two very different examples of psychological tests. Classify your examples according to the dimensions mentioned in F&B (p. 7-8).
    Een psychologische test is een systematische procedure waarbij het doel is om het gedrag van twee of meer mensen met elkaar te vergelijken op individueel niveau. Er moeten vergelijkingen kunnen worden gemaakt tussen verschillende personen. Dit worden ook wel interindividuele verschillen genoemd. Tevens moeten er vergelijkingen kunnen worden gemaakt tussen condities en tijdstippen binnen personen. Dit worden ook wel intraindividuele verschillen genoemd.

    Een voorbeeld van een psychologische test is het ‘Beck Depression Inventory’. Dit is een test waarmee depressie wordt gemeten door middel van een multipile-choice test die bestaat uit 21 items (Furr & Bacharach, 2008). ‘The House-Tree-Person Test’ is een test waarbij kinderen wordt gevraagd om een huis, een boom en een persoon te tekenen. Deze tekeningen worden vervolgens geëvalueerd. Kinderen kunnen vervolgens in verschillende groepen worden geplaatst die staan voor verschillende karaktereigenschappen.

    Deze twee psychologische tests kunnen worden toegepast op de verschillende dimensies die van belang zijn bij psychologische tests (Furr & Bacharach, 2008):

1) Inhoud
2) Soort respons (open of gesloten vragen): Bij de ‘Beck Depression Inventory’ wordt gebruikgemaakt van open vragen en bij ‘The House-Tree-Person Test’ wordt gebruik gemaakt van tekeningen, en.....read more

Access: 
Public
Collegeaantekeningen en Werkgroepen - Psychometrie - UL - 2014/2015

Collegeaantekeningen en Werkgroepen - Psychometrie - UL - 2014/2015

Bevat de college- en werkgroepaantekeningen week 1 t/m 7 van 2014/2015


HC 1: Schaling en Normering

02-09-2014 Marian Hickendorff

Psychometrie:

In de psychometrie bestudeert men de testscore. Hierbij gaat men van kwalitatief materiaal (antwoorden op testitems) naar kwantitatieve testscores. Daarbij stelt men zich de vraag wat de kwaliteit is van deze scores.

Psychologische eigenschappen zijn moeilijk te meten omdat ze een hele brede verscheidenheid hebben en omdat ze niet observeerbaar zijn. Toch willen we het graag meten en weten. Het psychologische construct dat niet observeerbaar is (de latente variabele) beïnvloedt het observeerbare gedrag. Om toch iets te weten te komen over het construct draaien we het om: het observeerbare gedrag (de operationele definities) vertelt iets over het onobserveerbare. Met behulp van deze redenering voert men psychologische testen uit.

Een psychologische test is eigenlijk een systematische gedragssteekproef. Met de uitkomsten kunnen we vergelijkingen maken, bijvoorbeeld tussen verschillende personen. Deze heten inter-individuele verschillen. Intra-individuele verschillen zijn vergelijkingen gemaakt tussen condities of tijdstippen binnen personen.

Testscores:

Met testscores bepalen we de kwaliteit van bepaalde items. De eisen voor kwaliteit zijn van groot belang voor psychologische testen. Belangrijk zijn hierbij de betrouwbaarheid en de validiteit. Bij betrouwbaarheid gaat het om de afwezigheid van toevalsmeetfouten en bij validiteit gaat het om de afwezigheid van systematische meetfouten (‘meet ik wel wat ik wil meten?’). Het is belangrijk om ervoor te zorgen dat een test zo betrouwbaar en valide mogelijk is. Daarnaast zijn er nog andere factoren die het moeilijk kunnen maken:

  • participantreactiviteit (de participanten weten dat ze in een onderzoek zitten en reageren daarom soms anders door sociaal gewenste antwoorden te geven, antwoorden te verzinnen/overdrijven of verwachtingen hebben over hun uitslag van de test en hiernaar antwoorden) en

  • expectation bias (verwachten dat jouw groep lager scoort en hiernaar antwoorden); scoresensitiviteit (de test heeft bijvoorbeeld soms niet de goede balans in schalen bij verschillende items). Daarnaast staat niet iedereen stil bij de kwaliteit van de toets (bijvoorbeeld een leraar die niet nadenkt over de kwaliteit van zijn proefwerk).

Schaling:

Schaling van testscores gaat om het bepalen van testscores of categorieën uit itemresponsen. Denk hierbij aan de verschillende meetniveaus (nominaal, ordinaal, interval en ratio). Zie hiervoor de tabel op dia 15.

De totaalscore en het gemiddelde zijn twee veel voorkomende schaalscores. De totaalscore is de som van de itemscores. Het gemiddelde is de totaalscore gedeeld door het aantal.....read more

Access: 
Public
Collegeaantekeningen - Psychometrie - UL - 2013/2014

Collegeaantekeningen - Psychometrie - UL - 2013/2014

Deze samenvatting is gebaseerd op het studiejaar 2013-2014.


College 1: Schaling en Normering

Psychometrie:
In de psychometrie bestudeert men de testscore. Hierbij gaat men van kwalitatief materiaal (antwoorden op testitems) naar kwantitatieve testscores. Daarbij stelt men zich de vraag wat de kwaliteit is van deze scores. Psychologische eigenschappen zijn moeilijk te meten omdat ze een hele brede verscheidenheid hebben en omdat ze niet observeerbaar zijn. Toch willen we het graag meten en weten. Het psychologische construct dat niet observeerbaar is (de latente variabele) beïnvloedt het observeerbare gedrag. Om toch iets te weten te komen over het construct draaien we het om: het observeerbare gedrag vertelt iets over het onobserveerbare. Met behulp van deze redenering voert men psychologische testen uit.

Een psychologische test is eigenlijk een systematische gedragssteekproef. Met de uitkomsten kunnen we vergelijkingen maken, bijvoorbeeld tussen verschillende personen. Dit heten inter-individuele verschillen. Intra-individuele verschillen zijn vergelijkingen gemaakt tussen condities of tijdstippen binnen personen.

Testscores:
Met testscores bepalen we de kwaliteit van bepaalde items. De eisen voor kwaliteit zijn van groot belang voor psychologische testen. Belangrijk zijn hierbij de betrouwbaarheid en de validiteit. Bij betrouwbaarheid gaat het om de afwezigheid van toevalsmeetfouten en bij validiteit gaat het om de afwezigheid van systematische meetfouten.

Schaling:
Schaling van testscores gaat om het bepalen van testscores of categorieën uit itemresponsen. Denk hierbij aan de verschillende meetniveaus (nominaal, ordinaal, interval en ratio).

De totaalscore en het gemiddelde zijn twee veel voorkomende schaalscores. De totaalscore is de som van de itemscores en het gemiddelde is het totaal gedeeld door het aantal items.

Ruwe scores kunnen op zichzelf slecht worden geïnterpreteerd. De hoogte van een testscore is namelijk afhankelijk van het aantal items en de verschillende itemscores. Om de ruwe scores te interpreteren worden er normen gesteld. Voorbeelden van deze normen zijn percentiel- en standaardscores.

Percentielscores en standaardscores:
Bij percentielscores wordt gekeken naar een percentage personen met eenzelfde of een lagere score. De boeken zijn hier nog weleens verschillend in, maar deze regel wordt gehanteerd op het tentamen!

Standaardscores zijn het aantal standaarddeviaties in afwijking van het gemiddelde. De verdeling zal hierbij echter hetzelfde blijven. De ruwe scores kunnen worden omgezet naar Z-scores door middel van de volgende formule:

Zx = (X-Mx)/SDx

Waarbij geldt SDz = 1 en Mz = 0

Ook kunnen er T-scores worden uitgerekend. Deze zijn veel beter te begrijpen zijn doordat er geen negatieve scores meer voorkomen. Deze T-scores worden berekend met de volgende formule:

Tx = 10*Zx + 50

Waarbij geldt SDT = 10 en MT = 50

Normtabellen bevatten elke voorkomende ruwe.....read more

Access: 
Public
Werkgroepaantekeningen - Psychometrie - UL - 2013/2014

Werkgroepaantekeningen - Psychometrie - UL - 2013/2014

Deze samenvatting is gebaseerd op het studiejaar 2013-2014.


Week 1: Schaling en Normering

 

Opdracht 1

  1. Psychometrie is de studie naar procedures die gebruikt worden om psychologische fenomenen te meten. Deze psychologische fenomenen zijn vaak niet direct meetbaar. Bepaald gedrag van mensen wordt door een test gerelateerd aan deze achterliggende psychologische fenomenen.
  2. Een voorbeeld van een psychologische meting is de IQ-test, welke betrekking heeft op niet direct observeer baar gedrag, namelijk je intelligentie. Ook een tentamen is een goed voorbeeld. Hierbij wordt je hoeveelheid kennis over een bepaald onderwerp getest, ook dit is niet direct observeer baar gedrag.
  3. Een psychologische test is een systematische procedure om het gedrag van twee of meer mensen met elkaar te vergelijken op individueel niveau. De dimensies die hierbij van belang zijn volgens Furr & Bacharach (2008):
  • Inhoud
  • Soort response (open of gesloten)
  • Methode van afname (individueel of groep)
  • Gebruiksdoel (criterium of norm; bij criterium wordt er gekeken naar een vast punt en bij de norm naar het gemiddelde. Bij criterium kan iedereen een ‘winnaar’ zijn.
  • Tijdslimiet (speed of power)

De IQ test is een voorbeeld van: norm referenced en power.

  1. Differentiële psychologie houdt zich bezig met de verschillen tussen mensen. O&O en KLIG houden zich hier veel mee bezig, bij hun staat het individu centraal. Bij COG en S&O staan de wetmatigheden meer centraal en speelt differentiële psychologie een minder grote rol.
  2. Meten is het toekennen van getallen aan gedrag of gebeurtenissen De betekenis van deze getallen hebben betrekking tot het psychologische fenomeen. Schalen is het toekennen van waarden aan psychologische attributen, ofwel meetniveaus.
  • Nominaal; Identiteit van de categorie, welke wederzijds uitsluitend en exclusief moeten zijn. (bv. Sekse)
  • Ordinaal: Nominaal + rangorde
  • Interval: Ordinaal + kwantiteit van de rangorde. Dus 3-2 = 8-7. Bijv. IQ test.
  • Ratio: Interval + vast nulpunt. Dus 6*2 = 12. Dit geldt niet voor een IQ test.

 

f) + g en h

 

.....read more

 

Gewoon

Binair

Standaard

Gemiddelde

Xgem = ∑X

              N

Xgem = ∑X/N = p

Zgem = 0

Kwadraatsom

∑(X-Xgem)2

 

N*p*(p-1)

∑Z2 = N

Access: 
Public
Psychometrie Collegeaantekeningen 1 t/m 6
Psychometrie Werkgroepantwoorden week 1t/m6
Psychometrie - UL - Notes (PDF)
Psychometrie - Samenvattingen, uittreksels, aantekeningen en oefenvragen - UL

Psychometrie - Samenvattingen, uittreksels, aantekeningen en oefenvragen - UL

Image

In deze bundel worden o.a. samenvattingen, oefententamens en collegeaantekeningen gedeeld voor het vak Psychometrie voor de opleiding Psychologie, jaar 2, aan de Universiteit Leiden

Voor een compleet overzicht van de door JoHo aangeboden samenvattingen & studiehulp en de beschikbare geprinte samenvattingen voor dit vak ga je naar de Startpagina Psychologie - universiteit Leiden op JoHo.org

Comments, Compliments & Kudos:

HC 7 niet meer bruikbaar!

In collegejaar 18/19 gaat hoorcollege 7 niet meer over Classificatie en discriminantanalyse, maar over Test Bias. Let erop dat je deze aantekeningen voor dit collegejaar dus niet meer kunt gebruiken! Hoorcollege 8 zal wel over Classificatie gaan, maar of dit dezelfde stof is, is op dit moment nog niet duidelijk. De overige colleges zijn wel bruikbaar. 

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
Promotions
oneworld magazine
Check how to use summaries on WorldSupporter.org


Online access to all summaries, study notes en practice exams

Using and finding summaries, study notes en practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Starting Pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
  2. Use the menu above every page to go to one of the main starting pages
  3. Tags & Taxonomy: gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
  4. Follow authors or (study) organizations: by following individual users, authors and your study organizations you are likely to discover more relevant study materials.
  5. Search tool : 'quick & dirty'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject. The search tool is also available at the bottom of most pages

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study (main tags and taxonomy terms)

Field of study

Check related topics:
Activities abroad, studies and working fields
Institutions and organizations
WorldSupporter and development goals
Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
3614 1 1