College- en werkgroepaantekeningen bij Psychometrie aan de Universiteit Leiden - 2016/2017

Hoorcollege 1: Schaling en Normering

Psychometrie

In de psychometrie bestudeert men de testscore. Hierbij gaat men van kwalitatief materiaal (antwoorden op testitems) naar kwantitatieve testscores. Daarbij stelt men zich de vraag wat de kwaliteit is van deze scores.

Psychologische eigenschappen zijn moeilijk te meten omdat ze een hele brede verscheidenheid hebben en omdat ze niet direct observeerbaar zijn. Toch willen we het graag meten en weten. Het psychologische construct dat niet observeerbaar is (de latente variabele) beïnvloedt het observeerbare gedrag. Om toch iets te weten te komen over het construct draaien we het om: het observeerbare gedrag (de operationele definities) vertelt iets over hetgeen dat niet direct observeerbaar is. Met behulp van deze redenering voert men psychologische testen uit.

Een psychologische test is een systematische gedragssteekproef, waarmee mensen een vaste set items moeten beantwoorden. Voor iedereen moeten deze items hetzelfde zijn, en de test moet op dezelfde manier bij iedere participant worden afgenomen. Met de uitkomsten kunnen er vergelijkingen worden gemaakt, bijvoorbeeld tussen verschillende personen, ook wel inter-individuele verschillen. Intra-individuele verschillen zijn vergelijkingen die gemaakt worden tussen condities of tijdstippen binnen personen.

Testscores

Met testscores wordt de kwaliteit van bepaalde items bepaald. De eisen voor kwaliteit zijn van groot belang voor psychologische testen. Belangrijk zijn hierbij de betrouwbaarheid en de validiteit. Bij betrouwbaarheid gaat het om de afwezigheid van toevalsmeetfouten en bij validiteit gaat het om de afwezigheid van systematische meetfouten (‘meet ik wel wat ik wil meten?’). Het is belangrijk om ervoor te zorgen dat een test zo betrouwbaar en valide mogelijk is. Daarnaast zijn er nog andere factoren die een psychologische test lastig maken:

  • Participantreactiviteit:
    - ‘Demand characteristics’: de participanten weten dat ze in een onderzoek zitten en passen hun gedrag aan.
    - Sociale wenselijkheid: de participanten reageren soms anders door sociaal gewenste antwoorden te geven.
    - Malingering: Participanten verzinnen/overdrijven antwoorden. Of hebben verwachtingen over hun uitslag van de test en antwoorden hiernaar.

  • Expectation bias: Er wordt verwacht dat de desbetreffende groep waarin men zit lager scoort en er wordt hiernaar geantwoord.

Daarnaast staat niet iedereen stil bij de kwaliteit van de toets (bijvoorbeeld een leraar die niet nadenkt over de kwaliteit van zijn proefwerk).

Schaling

Schaling van testscores gaat om de manier waarop er getallen worden toegewezen aan psychologische eigenschappen. Er worden testscores of categorieën bepaald uit itemresponsen. Denk hierbij aan de verschillende meetniveaus (nominaal, ordinaal, interval en ratio). Zie hiervoor de tabel op dia 16.

De totaalscore en het gemiddelde zijn twee veel voorkomende schaalscores. De totaalscore is de som van de itemscores. Het gemiddelde is de totaalscore gedeeld door het aantal items.

Ruwe scores kunnen op zichzelf slecht worden geïnterpreteerd. De hoogte van een testscore is namelijk afhankelijk van het aantal items en de verschillende itemscores. Om de ruwe scores te interpreteren worden er normen gesteld. Voorbeelden van deze normen zijn percentiel- en standaardscores.

Percentielscores en standaardscores

Bij percentielscores wordt gekeken naar een percentage personen met eenzelfde of een lagere score. Zie dia 23 voor de berekening van een percentielscore.
Standaardscores zijn het aantal standaarddeviaties die afwijken van het gemiddelde. De verdeling zal hierbij echter hetzelfde blijven. De ruwe scores kunnen worden omgezet naar Z-scores door middel van de volgende formule:
Zx = (X-Mx)/SDx
Waarbij geldt SDz = 1 en Mz = 0

Ook kunnen er T-scores worden uitgerekend. Deze zijn veel beter te begrijpen doordat er geen negatieve scores meer voorkomen. T-scores worden berekend met de volgende formule:

Tx = 10*Zx + 50

Waarbij geldt SDT = 10 en MT = 50

Normtabellen bevatten elke voorkomende ruwe score, geordend van laag naar hoog, gekoppeld aan normscores en eventueel met verwachtingen.

Er bestaan twee typen normen, namelijk normgerichte interpretatie en domeingerichte/criteriumgerichte interpretatie. Normgerichte interpretatie is een relatieve norm zoals het percentiel en de Z- en T-scores: de norm wordt aangepast aan de resultaten. De criteriumgerichte interpretatie is een absolute norm. Hierbij worden vaste standaarden of grensscores gehanteerd.

Werkgroep 1: Schaling en Normering

Opdracht 1

  • What is psychometrics (as defined in F&B)?

Psychometrie is de studie naar procedures die gebruikt worden om psychologische fenomenen te meten. Deze psychologische fenomenen zijn vaak niet direct meetbaar.
Door middel van een psychologische test wordt bepaald gedrag van mensen gerelateerd aan deze niet direct meetbare fenomenen. Psychometrie evalueert de kenmerken van psychologische tests, waarbij drie kenmerken belangrijk zijn:

  1. Het type informatie dat wordt gebruikt bij psychologische tests (dit gaat vaak om scores),

  2. De betrouwbaarheid van de gegevens die gebruikt worden voor psychologische tests,

  3. De validiteit van de gegevens afkomstig van de psychologische tests.

  4. Give a few examples of psychological measurement. Which of these are related to directly observable behaviour, and which are related to psychological features that cannot be directly observed?
    Een voorbeeld van een psychologische meting is het meten van de reactietijd. Dit is direct observeerbaar. Kennis, intelligentie, geheugen, depressie of extraversie zijn voorbeelden die niet direct observeerbaar zijn (Furr & Bacharach, 2008). Hiervoor worden dan ook psychologische tests gebruikt, zoals bijvoorbeeld een IQ test, een cognitieve test of het meten van de persoonlijkheid.

  5. What is (the definition of) a psychological test? Give two very different examples of psychological tests. Classify your examples according to the dimensions mentioned in F&B (p. 7-8).
    Een psychologische test is een systematische procedure waarbij het doel is om het gedrag van twee of meer mensen met elkaar te vergelijken op individueel niveau. Er moeten vergelijkingen kunnen worden gemaakt tussen verschillende personen. Dit worden ook wel interindividuele verschillen genoemd. Tevens moeten er vergelijkingen kunnen worden gemaakt tussen condities en tijdstippen binnen personen. Dit worden ook wel intraindividuele verschillen genoemd.

    Een voorbeeld van een psychologische test is het ‘Beck Depression Inventory’. Dit is een test waarmee depressie wordt gemeten door middel van een multipile-choice test die bestaat uit 21 items (Furr & Bacharach, 2008). ‘The House-Tree-Person Test’ is een test waarbij kinderen wordt gevraagd om een huis, een boom en een persoon te tekenen. Deze tekeningen worden vervolgens geëvalueerd. Kinderen kunnen vervolgens in verschillende groepen worden geplaatst die staan voor verschillende karaktereigenschappen.

    Deze twee psychologische tests kunnen worden toegepast op de verschillende dimensies die van belang zijn bij psychologische tests (Furr & Bacharach, 2008):

1) Inhoud
2) Soort respons (open of gesloten vragen): Bij de ‘Beck Depression Inventory’ wordt gebruikgemaakt van open vragen en bij ‘The House-Tree-Person Test’ wordt gebruik gemaakt van tekeningen, en dan ook niet van open en gesloten vragen.
3) Methode van afname (individueel/groep): De ‘Beck Depression Inventory’ wordt individueel afgenomen. Bij de ‘The House-Tree-Person Test’ wordt er individueel een tekening gemaakt door de kinderen, en vervolgens worden er aan de hand van de evaluatie groepen gevormd.
4) Gebruikersdoel (‘criterium referenced’ of ‘norm referenced’): Bij ‘Beck Depression Inventory’ kan er gesproken worden over ‘criterium referenced’. Bij een bepaalde score kan er namelijk gesproken worden van een depressie, of juist geen depressie. Tegelijkertijd zou er ook gesproken kunnen worden van ‘norm referenced’, aangezien de test gebaseerd is depressiviteit van de mens, en dus iets zegt over de populatie (echter, kom je uiteindelijk altijd bij norm referenced uit, omdat alles gebaseerd is op de populatie). Bij ‘The House-Tree-Person Test’ is lastiger in te delen. Aangezien dit een veel minder systematische test is. Er kan niet gesteld worden dat een bepaalde “score” representatief is voor de populatie (‘norm referenced’). Tevens kan er niet gezegd worden dat er bij een bepaalde “score” sprake is van een criterium.
5) Tijdslimiet (‘speeded tests’ of ‘powertests’): Zowel de ‘Beck Depression Inventory’ en de ‘The House-Tree-Person Test’ zijn voorbeelden van ‘power tests’. Er is namelijk geen tijdslimiet, en er wordt verwacht dat alle vragen beantwoord zijn bij de ‘Beck Depression Inventory’ en bij ‘The House-Tree-Person Test’ de tekening af is.

  • What is the difference between differential psychology and experimental psychology?
    Differentiële psychologie staat bekend als de studie van de individuele verschillen, zoals bijvoorbeeld persoonlijkheidsverschillen. Terwijl de experimentele psychologie zich richt op de gemiddelde persoon (Furr & Bacharach, 2008). Voor minder error is een grotere n nodig.

  • Provide a general definition of measurement and scaling
    Meten is het toewijzen van een cijfer aan objecten of aan kenmerken van individueel gedrag volgens een bepaalde schaal. Schalen is een manier van toewijzen van getallen aan psychologische eigenschappen. Het betreft de eigenschappen van getallen en de meetniveaus van de testscores.
    Hierbij heeft de afstand tussen de getallen een bepaalde betekenis:

Nominaal: Identiteit van de categorie, welke wederzijds uitsluitend en exclusief moeten zijn (bv. sekse).

Ordinaal: Nominaal + rangorde (bv. opleidingsniveau).

Interval: Ordinaal + kwantiteit van de rangorde (elke stap is even groot). Dus 3-2 = 8-7 (bv. Temperatuur, waarbij de 0 een betekenis heeft).

Ratio: Interval + vast nulpunt. Dus 6*2 = 12 (bv. lengte).

  • Why do we need norms in psychological measurement? What is the difference between relative and absolute norms?
    Er zijn normen nodig voor psychologische metingen, omdat men op deze manier een interpretatie kan geven aan de testscore (‘wat betekent het?’). Het verschil tussen een absolute norm en relatieve norm is dat men bij een relatieve norm wil weten hoe de testscore vergeleken kan worden met andere mensen, en bij een absolute norm wil men de testscore vergelijken met een vast standaard.

  • What is the meaning of and formula for:
    Betekenissen:

  • Mean: “een waarde die de typische score in een distributie van scores vertegenwoordigt” (Furr & Bacharach, 2008).

  • Sum of squares: Som van de kwadraten van de verschillen van de waarnemingen met hun gemiddelde, ook wel: “de teller van de variantie”.

  • Variance: Het verschil tussen scores. Echter, in deze cursus geen N-1, omdat we niet meer hoeven te corrigeren.

  • Standard deviation: De spreiding rondom het gemiddelde.

  • Cross product (and sum): Kruislings vermenigvuldigen waarbij de kruisproducten in een tabel aan elkaar gelijk staan.

  • Covariance: Een set scores wordt met elkaar vergeleken. Er wordt gekeken of er een relatie tussen bestaat

     

    Interval

    Binaire scores

    Gestandaardiseerde scores

    Univariaat:

     

     

     

    Gemiddelde

    Xgem = (∑X)/N

    Xgem = (∑X)/N = p

    Zgem = 0

    Sum of squares

    ∑(X-Xgem)2

    N*p*(p-1)

    ∑Z2 = N

    Variantie

    S2 = (∑(X-Xgem)2)/N

    S2 = p*(p-1)

    S2 =1

    Standaarddeviatie

    S= √(variantie)

     

    S =√(variantie)

    S = 1

    Bivariaat:

     

     

     

    Crossproduct

    Cp = ∑(X-Xgem)(Y-Ygem)

     

     

     

    Covariantie

    Covxy = (∑(X-Xgem)(Y-Ygem))/N

     

     

    Correlatie

    Covxy/(SxSy)

     

     

     

  • Product-moment correlation: De samenhang tussen twee variabelen op interval/ratio niveau wordt hiermee berekend.
    Voor formules zie onderstaande tabel vraag h).

  • What is the formula for mean, sum of squares, variance and standard deviation in the case of binary scores?
    Bij binaire scores heeft men bij het beantwoorden van een vraag de keuze uit twee antwoorden, bijvoorbeeld: ja of nee. Zie bovenstaande tabel voor formules.

  • What is the formula for mean, sum of squares, variance and standard deviation in the case of standardized scores?
    Zie onderstaande tabel voor formules.

Opdracht 2

  • Check whether the codes for these 10 classes of necrophilia meet the requirements of a nominal scale.
    De codes van de tien vormen van necrofilie uit het artikel van Aggrawal (2009),

voldoen niet geheel aan een nominale schaal. Niet alle categorieën zijn namelijk

wederzijds uitsluitend; dat betekent dat een persoon in meerdere categorieën zou

ingedeeld kunnen worden. Ook is er geen sprake van wederzijde uitputting. We weten nooit of we alle schalen hebben die er bestaan. Dit is niet te checken.

  • To what extent does this involve an ordinal scale?
    Er kan gesteld worden dat er niet helemaal sprake is van een ordinale school, aangezien het niet geheel een nominale schaal is en dit een voorwaarde is voor een ordinale schaal. Er is wel ordening in de codes, echter betreft de ordening veel verschillende soorten.

  • To what extent does this involve an interval scale?
    Als er een nul zou bestaan zou dat een absolute nul zijn: afwezigheid van necrofilie. Deze vraag is alleen relevant wanneer we te maken hebben met een ratio-schaal. De afstand tussen de schalen is niet hetzelfde.

Opdracht 4

a) What is the range of possible values of this mathematics scale? What measurement level do you think the scale has?

De schaalscore staat voor het aantal correcte items. De tabel weergeeft dat er 1 tot en met 8 correcte items De schaalscore is hier dan ook 8. Echter, wanneer er rekening gehouden wordt met 0 correcte items, kan er gesproken worden over een schaalscore van 9. Het meetniveau is ordinaal.

b) Create a norm table for this test based on this reference sample, consisting of the following columns:
1) all possible raw scores, in ascending order
2) z-scores (standard scores)
3) T-scores (converted standard scores with a mean of 50 and a standard deviation of 10)
4) percentile ranks

Raw scores

Z-scores

T-scores

Percentiel

GRADES

0

-2.86

21

0

1

1

-2.344

26.56

3.4

1

2

-1.825

31.75

9.1

1

3

-1.307

36.93

16.9

2.5

4

-.788

42.12

29.4

4

5

-.268

47.32

43.1

5.5 (absolute norm)

6

.563

55.63

61.3

7

7

.767

7.67

85.0

8.5

8

1.286

62.86

100.0

10

c) Are these relative or absolute norm scores?
De scores zijn relatieve normen, aangezien er wordt vergeleken met het gemiddelde van de groep.

A mathematics teacher uses this test as an exam and computes grades (1-10) from the raw scale scores X. All items solved correctly yields the grade 10.0, and each incorrect answer costs 1.5 grade points, with a minimum grade of 1.0. The grade needs to be 5.5 or higher to pass the exam.

d) What kind of norm score is this grade, relative or absolute?
Absoluut, want het gaat om een vast aantal dat los van de groep staat. 5.5 betekent dat het tentamen gehaald is.

e) Add a column to the norm table with the norm score GRADE.
Zie tabel.

f) Lionel solved 5 items correctly. How would you interpret this score using the different norm scores?
Lionel heeft een 5.5 behaald op de absolute norm. Relatief gezien heeft 43% hetzelfde of een slechter cijfer volgens de definitie van Moore & McCabe (1999). De z-score betekent hier dat de persoon -.268 onder het gemiddelde heeft gescoord.

Hoorcollege 2: Betrouwbaarheid

Zie bijlage

Werkgroep 2: Betrouwbaarheid

Zie bijlage

Hoorcollege 3: Validiteit

Validiteit

Bij validiteit wordt er gekeken of een instrument meet wat het beoogt te meten. Een test is valide wanneer er juiste, betekenisvolle en bruikbare gevolgtrekkingen mee gemaakt kunnen worden. Ofwel: in hoeverre is een test vrij van systematische fouten.

In het boek van Furr en Bacharach (2014) wordt validiteit besproken als de interpretatie en het gebruik van testscores in relatie tot bepaalde doelen. Validiteit gaat dus niet over de waarden op zich, maar over wat men hiermee doet (niet de test, maar de conclusies uit de test zijn valide of niet). Validiteit is multidimensionaal ( heeft meerdere eigenschappen) en gradueel (er is een bepaalde mate van validiteit, het is niet zomaar aanwezig of afwezig).

Constructvaliditeit

Constructvaliditeit (ook wel begripsvaliditeit) is de interpretatie van een test als weergave van een psychologisch construct. Men kijkt hierbij dus in hoeverre de interpretatie overeenkomt met de gemeten constructen. Er zijn 5 soorten bewijs voor constructvaliditeit:

  1. Testinhoud

  2. Interne structuur van de test

  3. Response processen

  4. Associaties met andere variabelen

  5. Gevolgen van testgebruik

a. Inhoudsvaliditeit:

Bij inhoudsvaliditeit wordt gekeken of de items van de test aansluiten bij de belangrijkste deelconstructen. Bedreigingen die hierbij opspelen zijn dat items, of informatie over vragen, soms irrelevant zijn voor een test (construct-irrelevante inhoud) en dat deelconstructen soms niet goed vertegenwoordigd worden, door te weinig of geen items (construct-ondervertegenwoordiging).

b. Interne structuur van een test:

De hoofdvraag bij het bekijken van de interne structuur van een test is of de items en subtests van een test één samenhangend geheel vormen.

Wanneer het antwoord op deze vraag ‘ja’ is, is er sprake van homogeniteit. Er is één onderliggende dimensie aan het construct. Wanneer het antwoord op deze vraag ‘nee’ is, dan is er sprake van heterogeniteit en zijn er meerdere onderliggende dimensies.

c. Responsprocessen:

Bij responsprocessen gaat het om in hoeverre er overeenkomst is tussen de psychologische processen die personen verondersteld worden te gebruiken, en die personen werkelijk gebruiken bij het doen van de test.

d. Relaties met andere variabelen:

Predictieve validiteit is het voorspellen van een uitkomst in de toekomst, en vaak is dit een praktisch relevant criterium.

Multitrait- multimethod matrix ( MTMMM)

Deze matrix gaat over de correlaties tussen bepaalde groepen. De dikgedrukte getallen zijn de Cronbach’s alfa’s voor de desbetreffende scores. Onder de Cronbach’s alfa staat de correlatie tussen 2 constructen.

Convergente evidentie: correlaties tussen dezelfde ‘traits’ zijn hoog in verschillende testen. Discriminante evidentie: correlaties tussen verschillende ‘traits’ zijn laag en dus onafhankelijk van elkaar.

Als er wordt gekeken naar de matrix zien we dat de onderstreepte getallen de convergente evidenties zijn.

Taylor- Russell tabel

De Taylor-Russell wordt gebruikt bij ‘ja/nee’ kwesties. Bovenin de tabel staat de ‘base rate’ genoemd. Met de ‘base rate’ wordt in dit geval een toelating tot de opleiding Geneeskunde bedoeld. Er is sprake van de ‘base rate’ als 44 procent wordt toegelaten en de predictieve validiteit gelijk is aan 0. Als deze met 0.2 verhoogd wordt, kan er gezegd worden dat de ‘base rate’ verhoogt met 0.06-0.07.

Bias

Er bestaat zowel test bias als item bias.

Test bias komt voor wanneer een test andere dingen meet bij verschillende groepen.

Predictieve bias is het fenomeen waarbij het voorspellen van scores verschillende consequenties heeft voor verschillende groepen. In een figuur is dit te zien als de regressielijn anders gaat lopen. Wanneer er sprake is van andere regressieformules, is er een bias aanwezig. Er zijn verschillende soorten predictieve bias. Bij intercept bias hebben de regressielijnen dezelfde hellingshoek, maar een verschillend ‘intercept’. Bij een slope bias hebben de regressielijnen een verschillende hellingshoek.

Constructbias is het fenomeen waarbij een test verschillende constructen meet in verschillende groepen.

Wanneer men een bias vermoedt, dan kan men aan de verschillende groepen verschillende behandelingen geven. Zo kan men bij een predictieve bias adviezen geven op basis van de regressielijn die de verschillende groepen hebben.

Item bias (ook wel ‘differential item funtioning (DIF)) komt voor wanneer personen uit verschillende groepen met dezelfde vaardigheid een ongelijke kans hebben om een item goed te maken. Denk hierbij bijvoorbeeld aan geslacht of etniciteit.

Werkgroep 3: Validiteit van testscores

Opdracht 1

  • What general definition of validity is emphasised in Furr & Bacharach (F&B)?
    Validiteit is de mate waarin bewijs en theorie de interpretatie van testscores ondersteunen die het voorgenomen gebruik van de test met zich meebrengt. Validiteit is dus een toepassing. Een nieuwe titel zou kunnen zijn: Validiteit van interpretatie en toepassingen van testscores. Het gaat namelijk om de interpretatie van de testscores, niet om de testscores zelf. Ook kan er gesteld worden dat validiteit multidimensioneel is, omdat het verschillende doelen heeft. En tegelijkertijd gradueel is, aangezien het de mate van validiteit betreft. Het gaat dan ook niet om een wel-niet situatie. Empirisch onderzoek en theorie is nodig om validiteit te onderbouwen.

  • What is construct validity? Which five theoretical and empirical aspects do F&B

distinguish in this context?
Construct validiteit is de mate waarin testscores geïnterpreteerd kunnen worden als

weergave van een psychologisch construct. De vijf theoretische aspecten daarbij zijn:

  • Inhoud:
    De centrale vraag is hier: Is het representatief voor domein? De items van de test dienen overeen te komen met de belangrijkste sub constructen van het construct dat de test meet.

    Response:
    In welke mate is er overeenstemming tussen de psychologische processen die respondenten zouden moeten gebruiken bij een test, en psychologische processen die respondenten écht gebruiken bij het maken van de test.

    Interne structuur:
    De relaties tussen items van de test. Bv. Of de items van een test een geheel vormen. Wanneer de items een geheel vormen wordt dit homogeniteit genoemd. Wanneer de items geen geheel vormen wordt dit heterogeniteit genoemd.

    De samenhang met andere variabelen:
    - Convergent
    - Discriminant

    Gevolgen:
    Deze kunnen gunstig of ongunstig zijn voor proefpersoon. Er moet rekening worden gehouden met verschillende waarden.

  • What is content validity? What can endanger content validity?
    Bij inhoudsvaliditeit reflecteert de inhoud van een meting het volle domein van het construct.
    Bv. Als een test bedoeld is om een bepaald construct te meten, dan dienen de items van de test overeen te komen met de belangrijkste sub constructen van dat construct.
    Bedreigingen hierbij zijn:

  • Construct irrelevante inhoud:
    Items die (gedeeltelijk) irrelevant zijn voor een construct.

  • Construct-ondervertegenwoordiging: Geen of te weinig items voor sommige deelconstructen.

  • What is meant by the internal structure of a test? Which family of techniques can be

used to study the internal structure of a test?
De interne structuur is de mate waarin de idicatoren (items, substests) voor één construct een samenhangend geheel vormen. Dit kan onderzocht worden met PCA, FA of IRT.

  • What do response processes have to do with validity?
    Als de psychologische processen die personen ‘verondersteld worden’ te gebruiken niet gelijk zijn aan de psychologische processen die ze daadwerkelijk gebruiken bij het doen van een test, is dit een bedreiging voor de validiteit van de test.

  • What is meant by convergent and discriminant validity evidence? What does the

acronym MTMMM stand for?

Convergente en divergentie evidentie gaan over de relaties tussen testen op basis

van correlaties.

Convergentie: hoge correlaties tussen hetzelfde kenmerk.

Discriminant: lage correlatie tussen verschillende kenmerken.

MTMMM staat voor multitrait-multimethodmatrix.

  • What is meant by consequential validity?
    Bij consequential validity is er geen sprake van test bias. De wetenschap kan nooit gescheiden zijn van persoonlijke en sociale waardes (Furr & Bacharach, 2014). De vragen die onderzocht worden worden gevormd door sociale waardes en de eigen persoonlijke waardes.

  • What is meant by test bias?

Van test bias is sprake wanneer een test twee verschillende dingen voorspelt/meet. Bv. Dat vrouwen hoger scoren dan mannen, omdat de test wel een goede meting is voor vrouwen, maar niet voor mannen (Furr & Bacharach, 2014).

  • In what way can measurement error and reliability affect a validity coefficient? And how

does a skewed distribution or restricted range affect a validity coefficient?

  • Measurement error
    Reliability: Er kan gecorrigeerd worden voor betrouwbaarheid. Dat maakt Rxy kleiner.
    Skewed distribution: Bij een scheef verdeelde variabele zullen geobserveerde correlaties de werkelijke correlatie onderschatten.
    Restricted range: bij beperkt bereik van scores zullen geobserveerde correlaties een
    onderschatting van de werkelijke correlatie zijn.

Opdracht 2

The data provided on Blackboard (abstract, table) come from a study on the validity of theburnout’ construct (Meier, 1984). Use this table to draw conclusions about the following:

  • The reliability of the measurements of the intended constructs.
    De betrouwbaarheid van ‘multi-point’ is hoog (0.88), die van ‘true-false’ redelijk (0.76) en die van ‘simple self ratings’ is ook redelijk (0.73).

  • The convergent validity of ‘burnout’ as compared to ‘depression’.
    De convergente validiteit van Burnout is hoger dan die van Depressie.

  • The discriminant validity of ‘burnout’ as compared to ‘order’.
    De discriminante validiteit is goed, want Burnout heeft een lage correlatie met Order.

Opdracht 3

The MTMM table from Blackboard displays the correlation between the observed scores for ‘burnout’ and ‘depression’ for each measurement instrument (TF, MP, and SR).

  • Correct these three correlations for measurement errors. See Furr & Bacharach, p. 177

(formula 7.6) and p. 240 (formula 9.1).
Gecorrigeerde correlaties zijn: MP: 0.65, TF: 0.88 en SR: 0.93

Hierbij is de volgende formule gebruikt: rxt = rxoyo / √(RxxRyy)

  • What is this kind of correction called?
    Deze correctie heet attenuatie correctie; wat zoiets betekent als vermindering.

  • Taking measurement errors into account, what are the highest possible correlations

between these observed scores?

De hoogst mogelijke correlaties zijn: MP: 0.88, TF: 0.78 en SR: 0.65

Hierbij is de volgende formule gebruikt: Rxoyo = rxtyt√(RxxRyy)

Opdracht 4

For a long time now there has been some form of pre-selection for University programmes in

Medicine. The important psychometric question in this context is: What would be the effect of a

weighted lottery based on high-school examination results (current situation) versus an

additional selection instrument such as an interview or essay (which some universities have

been experimenting with the past few years)? In order to answer this question you will need to

use a Taylor-Russell table. A Taylor-Russell table with a Base Rate of 0.60 can be found on

Blackboard

  • What does a Base Rate of 0.60 mean in this case?
    De base rate is de succeskans zonder selectie test, dus 0.60.

  • Assuming a selection ratio of 40%: how much improvement in study results can we

expect to result if we introduce an additional selection instrument with a predictive

validity of 0.25?
Er is een verbetering van 0.09 na de selectietest, dus 9 procentpunt.

 

  • If we use the above-mentioned additional selection instrument, how stringently will we

have to select in order to ensure an improvement in study results of at least 15

percentage points?

De selectieratio moet 0.10 zijn om de beoogde resultaten te krijgen

  • Once again assuming a selection ratio of 40%: how high does the predictive validity of an additional selection instrument have to be in order to guarantee an improvement in

study success of 15 percentage points?

De predictieve validiteit moet 0.40 zijn met een validiteit van 0.75.

Hoorcollege 4: PCA en Factoranalyse

Zie bijlage

Werkgroep 4: PCA en Factoranalyse

Opdracht 1

  • Theoretisch gezien is een component onderliggende dimensie in een test (psychologisch construct).

Algebraïsch is het een lineaire combinatie (= gewogen som) van variabelen (zodanig dat zo veel mogelijk variantie wordt verklaard en orthogonaal t.o.v. alle andere componenten).

Geometrisch is een component een vector (richting in de variabele ruimte).

  • Een communaliteit is de som van de gekwadrateerde componentladingen voor eenvariabele. Als de communaliteit laag is, wordt de variabele niet goed verklaard dooralle componenten en is deze uniek/anders dan de rest. Maar dit hangt af van decontext

  • De eigenwaarde is de som van gekwadrateerde componentladingen per component j. Het geeft de hoeveelheid variantie van alle variabelen tezamen die wordt verklaard door component. Als deze laag is dan voorspelt de component weinig variantie, die

variantie wordt dan verklaard door een component met een hogere eigenwaarde. De eigenwaarde kan groter zijn dan1, want de totale variantie bij p gestandaardiseerde variabele is: p x 1 = p.

  • Een factor lading is de correlatie van een variabele met component (factor).

Bij een negatieve lading: item correleert negatief met factor, er is een negatief verband (vooral bij contrastfactoren). Als de factorlading nul is dan wordt er geen variantie verklaard.

Opdracht 2

  • Op basis van de eigenwaarde moet je kiezen voor 14 componenten, dit is de

bovengrens.

 

  • Op basis van de knik kies je 7 (6 of 8) componenten. Kies dus de 6-factor of nog 1 of 2 meer. Een oplossing met minder componenten is makkelijker te interpreteren dus vaak wordt hierbij voor 6 gekozen.

  • Alle geroteerde oplossingen tussen 1-factor en 14-factor-oplossing zo goed mogelijk interpreteren. Dit is erg veel werk bij 14 componenten, misschien 8.

Opdracht 3

Niet-geroteerd

 

F1

F2

F12

F22

Som

(=cummunaliteit)

Tru1

0,610

0,623

0,372

0,388

0,760

Tru4

0,694

0,451

0,482

0,203

0,685

Tru6

0,731

-0,295

0,534

0,087

0,621

Tru7

0,586

-0,302

0,343

0,091

0,435

Tru8

0,735

-0,408

0,540

0,166

0,707

Som (=eigenwaarde):

Som/5 (= VAF):

2,272

0,936

3,208

0,454

0,187

0,642

Geroteerd:

 

F1

F2

F12

F22

Som

(=cummunaliteit)

Tru1

0,096

0,866

0,009

0,750

0,759

Tru4

0,268

0,783

0,072

0,613

0,685

Tru6

0,757

0,219

0,573

0,048

0,621

Tru7

0,647

0,124

0,419

0,015

0,434

Tru8

0,832

0,132

0,691

0,017

0,708

Som (=eigenwaarde):

Som/5 (= VAF):

1,763

1,444

3,207

0,353

0,289

0,642

 

  • De communaliteiten zijn: 0.760; 0.685; 0.621; 0.435; 0.707.

(tel de gekwadreerde factorladingen op per rij, deze zijn gelijk voor de niet-geroteerde en de geroteerde tabel)

  • De eigenwaarden zijn:

Component 1: 2.272;

Component 2: 0.936.

Rotatie 1: 1.763

Rotatie 2: 2: 1.444

(tel de gekwadrateerde factorladingen op per kolom)

  • Proportie verklaarde variantie:

Component 1: 0.4544

Component 2: 0.187

Rotatie 1: 0.352

Rotatie 2: 2:0.289

Totaal voor beiden: 0.642

(eigenwaarde delen door het aantal variabelen, in dit geval p = 5)

  • Plaatje: Omhoog vector 2 en 4. Naar rechts en onder de Y-as, vector 6, 7, 8.

  • Item 2 en 4 gaan meer over aansporing, je ‘moet’. Dit is afwezig bij item 6,7 en 8 die meer theorieën over anderen zijn.

Opdracht 4

  • Uit de vier-factor oplossing, 1 soort motivatie op elke component. Dus alle items van één motivatie moeten hoog op dezelfde component laden en laag op alle andere componenten.

  • Eigenwaarde: 5.

Knik: 4 (3 of 5).

  • Factor 1: positieve ladingen van alle faalangst items en alle angst-voor-afwijzing items.

  • Factor 1: negatieve motivatie
    Factor 2: positieve affiliatie-motivatie

    • Factor 1: negatieve motivatie
      Factor 2: positieve affiliatie-motivatie
      Factor 3: positieve prestatiemotivatie

    • Factor 1: negatieve motivatie
      Factor 2: positieve affiliatie-motivatie
      Factor 3: onduidelijk
      Factor 4: onduidelijk

    • Het 4-factor model is minder goed interpreteerbaar dan het 3-factor model, dus 3 factoren heeft dus de voorkeur.

  • Het grootste probleem: faalangst en angst voor afwijzing worden niet goed van elkaar onderscheiden

  • Ander probleem: sommige items laden niet op de ‘juiste’ factor.

Oplossing:

Misschien zijn de begrippen echt niet te (onder) scheiden constructen, hier kun je niets aan doen

  • Alternatief: op zoek naar nieuwe items die faalangst en angst voor afwijzing maximaal onderscheiden.

Hoorcollege 5: Confirmatieve factoranalyse

CFA en SEM:
CFA is een onderdeel van de SEM, wat staat voor ‘structural equation modelling’. Met SEM onderzoekt men expliciete modellen voor (causale) relaties van drie of meer variabelen. Het is een toets voor een model als geheel. Bij SEM zijn manifeste en latente variabelen goed te onderscheiden en kunnen de onderlinge relaties worden geschat en getoetst.

SEM cyclus toegepast op CFA:
Er zijn een aantal stappen die standaard worden doorlopen in het SEM model. Dit heet de SEM cyclus en hieronder vallen de volgende stappen:

  • Modelspecificatie:

Hierbij wordt uit de theorie of hypothese een model gevormd, die verschillende onderdelen bevat. Manifeste variabelen zijn testscores. Latente variabelen zijn psychologische constructen. Alle manifeste variabelen hebben een error. De error zelf is een latente variabele. Ook hebben we pijlen nodig voor het model. Een eenrichtingspijl toont een causaal verband aan en een wederkerige pijl laat een correlatie zien. Bij het SEM model voor CFA bestaan er alleen inkomende pijlen, waarbij alle pijlen van latent naar manifest gaan. Als er geen pijlen tussen factoren aanwezig zijn, betekent dit ook meteen dat er geen relatie is tussen de factoren: deze staat dan op 0 en wordt dus ‘vastgezet’. Bij elke pijl hoort een modelparameter. De structurele vergelijkingen per manifeste variabelen zijn te vinden in de slides van week 5.

  • Modelidentificatie:

Hierbij moet na worden gegaan of het model geschat of getoetst kan worden. Wanneer we het SEM model willen gaan toetsen, moeten er niet teveel onbekende variabelen in de vergelijking zitten. Dit kan men zien aan het aantal vrijheidsgraden. Als dat getal positief is (groter dan 0), is het model toetsbaar. Je kunt het aantal vrijheidsgraden op de volgende manier berekenen:

Df = V – P. Waarin het aantal relaties (pijlen) in het model is P en het aantal varianties en covarianties V = (k(k+1)/2).

  • Parameterschatting:

Men kan kijken of er ‘warnings’ zijn. ‘Warnings’ zijn varianties of covarianties die op bepaalde factoren hoog scoren, terwijl ze niet mogen correleren of andersom. In een variantie-covariantiematrix mogen tussen X1, X2, X3 en X4,X5,X6 geen hoge covarianties aanwezig zijn.

  • Model-evaluatie:

Met een Chi-kwadraattoets evalueren we het model. Wanneer er een significant resultaat wordt gevonden, klopt ons model niet. H0 wordt dan namelijk verworpen. In dit geval is H0 dat de data en het model overeenstemmen.

Er zijn wel wat problemen met de Chi-kwadraattoets, zoals dat deze erg snel significant wordt bevonden met een groot aantal deelnemers. We kijken daarom ook naar de volgende fit-maten:

  • RMSEA (deze meet standaarderror): een fitmaat kleiner dan 0.06 is goed, kleiner dan .10 is acceptabel.

  • NFI: een fitmaat groter dan 0.9 is goed.

  • NNFI: een fitmaat groter dan 0.9 is goed.

  • CFI: een fitmaat groter dan 0.95 is goed.

Deze fitmaten kunnen elkaar (en dus ook de Chi-kwadraat) nog wel eens tegenspreken, in dit geval kijk je naar de meerderheid.

  • Modelbijstelling:

Als blijkt dat het model niet klopt, kunnen we kijken of er toch meer factoren zijn, die we eerst op 0 hadden gezet (geen pijl hadden gegeven), die correleren en aan de hand daarvan het model wijzigen.

Residuen:
Residuen kunnen ons helpen bij de keuze hoe we een model kunnen verbeteren. Een residu is het verschil tussen de covariantie en de terug geschatte covariantie. We rekenen graag met gestandaardiseerde residuen: Zresij= rij- r(gem)ij.

Een residu is groot wanneer het groter is dan 0.10 of kleiner dan -0.10. Als residuen voor een bepaalde variabele groot zijn, is het model voor die variabele niet goed. Ook moet er worden gekeken naar de verdeling van de residuen (normaal verdeeld, symmetrie, gecentreerd rond nulpunt).
Het verbeteren van een slechte fit:
Men kan de fit verbeteren door de parameters vrij te maken. Dit kan door meer pijlen aan het model toe te voegen. Men kan zien of deze pijlen ontbreken door te kijken naar een patroon in residuen. Wanneer deze allemaal positief of allemaal negatief zijn, kan het zo zijn dat er een correlatie is tussen twee factoren.

Wanneer is een model bewezen?
Met de CFA kan men eigenlijk alleen een model falsifiëren. Een model bewijzen is erg moeilijk. Men kan een modeltoets doen om te kijken of het bewerkte model een significante verbetering heeft ten opzichte van het eerdere model. Dit kan aan de hand van de volgende formules:

Δ X2 = X2 (1) – X2 (2), in andere woorden: X2complex model - X2 simpel model. Dit komt altijd uit op een positief getal. Is dit niet het geval, heb je waarschijnlijk het complexe model van het simpele model afgetrokken. Het complexe model is het model met de meeste pijlen.

Δ df= df(1) – df(2)

De uitkomst hiervan kunnen we vergelijken met de tabel van de Chi-kwadraat toets en zo de bijbehorende p-waarde vinden. De toets kan alleen worden uitgevoerd wanneer beide modellen genest zijn met elkaar. Dit betekent dat alle pijlen van Model A (simpel) ook in Model B (complex) aanwezig zijn, maar model B heeft ook nog extra pijlen.

Tot slot:
SEM modellen hebben wel een aantal problemen en beperkingen. Deze modellen vereisen bijvoorbeeld een groot aantal personen. Ook maken SEM modellen zware assumpties over de data en de SEM modellen zijn minder robuust tegenover schendingen hiervan dan andere technieken. Daarnaast is CFA niet werkelijk toetsend. Je nieuwe model is gebaseerd op het vorige model. Hierdoor gaat men steeds meer geloven in het model en smokkelen we eigenlijk met de statistische regels.

Werkgroep 5: Confirmatieve factoranalyse

Zie bijlage

Hoorcollege 6: IRT als alternatief voor KTT

Het verschil tussen KTT (de klassieke testtheorie) en IRT (de item-responstheorie) ligt bij de stap van het berekenen en evalueren van testscores. Bij KTT is betrouwbaarheid het centrale begrip. Er wordt gekeken in hoeverre de testscores overeenkomen met de ware scores, hierbij spelen de item-kenmerken geen rol. De statistieken van KTT zijn dus populatie-afhankelijk. Voorbeeld: Wanneer een rekentoets wordt afgenomen bij kinderen op de basisschool, kan dit hele andere resultaten opleveren wanneer dezelfde rekentoets gegeven wordt aan studenten op de universiteit. Dit kan de betrouwbaarheid belemmeren. Dit is een tekortkoming van KTT.
Het doel van IRT is om personen en items op dezelfde schaal te ordenen. Doordat bij IRT de itemkenmerken ook mee worden genomen in het model, zijn deze niet populatie-afhankelijk.
Het persoonskenmerk is de vaardigheid (θ), een latente variabele, waarbij geldt: hoe hoger de vaardigheid, hoe waarschijnlijker het is dat deze persoon een correct antwoord geeft. Een itemkenmerk uit het model is de moeilijkheidsgraad β. Als deze hoog ligt, dan is het onwaarschijnlijk dat er een correct antwoord wordt gegeven. Tussen de vaardigheid en de moeilijkheidsgraad ligt een verband, dat bepaald wordt door specifieke IRT-modellen.

Specifieke IRT-Modellen

Er zullen drie verschillende modellen worden beschreven, namelijk: Guttman model, één-parameter logistisch model (1PL): het Rasch-model en het twee-parameter logistisch model (2PL). De verschillen tussen deze modellen zitten in de itemkenmerken en de uitkomsten.

Het Guttman model

Dit is het eerste IRT model; hierbij wordt de respons volledig verklaard door de vaardigheid en de moeilijkheidsgraad. Hierdoor ontstaat er een stapsgewijze curve en is er geen vloeiende overgang aanwezig. Dit noemen we ook wel een deterministisch model. Als de vaardigheid kleiner is dan de moeilijkheidsgraad is het antwoord fout (0). Ligt de vaardigheid hoger dan is het antwoord goed (1). Dit model is erg beperkend, aangezien er maar k + 1 antwoordmogelijkheden zijn (je kunt nooit makkelijke vragen fout hebben en moeilijke goed).

Er is een alternatief bedacht voor het restrictieve Guttman-model, namelijk probabilistische modellen. Bij probabilistische modellen is de lijn wel vloeiend en stijgt de curve langzaam van 0 naar 1. Het is een S-curve. Dit model wordt weergegeven met een logaritmische functie, waardoor er 2kantwoordmogelijkheden zijn. Sommige antwoordpatronen zijn echter onwaarschijnlijker dan andere, dus je moet je afvragen of de toevoeging van enkele mogelijkheden wel nuttig is. Voorbeelden van probabilistische modellen die we nu gaan bespreken zijn de 1PL en 2PL, die verschillen in het aantal parameters.

Één-parameter logistisch model (1PL): het Rasch-model:

Het Rasch-model is een 1-dimensionaal model. Dit betekent dat er slechts één itemparameter relevant is. Dit is de moeilijkheidsgraad β; het persoonskenmerk is nog steeds de vaardigheid θ. Wanneer de moeilijkheidsgraad gelijk is aan het vaardigheidsniveau, dan is de kans dat een persoon een item goed beantwoordt 50%.

De formule die hierbij hoort is:

P(Xis=1|θs βi) = e(θs-βi) / 1+e(θs-βi)

Dit is de kans dat het antwoord goed is, gegeven de vaardigheid en de moeilijkheidsgraad.

Twee-parameter logistisch model (2PL)

Het 2PL model is een model waarbij twee itemparameters relevant zijn. Dat zijn de moeilijkheidsgraad en de αi (het onderscheidend vermogen). Dit is de mate waarin een item personen met een laag en hoog niveau van elkaar kan onderscheiden. Deze kan voor elk item anders zijn. Dit leidt tot de volgende formule:

P(Xis=1|θs βi αi) = e[αi(θs-βi)] / 1+e[αi(θs-βi)]

De discriminatieparameter αi geeft de steilheid van curve aan, op het steilste punt snijdt deze de kans van 50%. Hier geldt θ = β.

Wel moet hier vermeld worden dat het 1PL-model nu is uitgelegd alsof alle alpha’s 1 zijn, maar de alpha’s hoeven niet perse 1 te zijn, als ze maar gelijk zijn voor alle items. De formule voor het 1PL-model is dan hetzelfde als die voor het 2PL-model, maar dan zonder subscript bij de alpha.
Er zijn ook 3PL modellen, hierbij zijn ook nog items met een gokkans toegevoegd, bijvoorbeeld een multiple choice item.

Kwaliteit van items en testen

Wat zeggen de scores eigenlijk over de betrouwbaarheid? Dit hangt af van de vaardigheid van de persoon, een makkelijke test is meer te onderscheiden voor mensen met een laag vaardigheidsniveau. Deze geeft dus meer informatie. De informatie is dus het hoogst op het moeilijkheidsniveau. Door deze afzonderlijke item-informatie scores bij elkaar op te tellen, kom je tot de testinformatie. Deze is nuttiger dan de item-informatie omdat we geïnteresseerd zijn in de gehele test, en niet alleen in de losse items.

Toepassingen van IRT

Er zijn verschillende toepassingen van IRT. Zo kunnen testen worden verbeterd, door te kijken welk item de meeste informatie geeft of het best onderscheid maakt. Ook kan gekeken worden naar de test-informatie.

Bij het equivaleren van testen wordt er onderscheid gemaakt tussen de moeilijkheid en de vaardigheid door bij twee testen gebruik te maken van anker-items. Deze items overlappen in beide toetsen.

Bij vragen over of er een item-bias aanwezig is in een toets kan met IRT onderzocht worden of elk construct gelijk is voor bijvoorbeeld mannen en vrouwen.

Bij person-fit kunnen door middel van IRT de onwaarschijnlijke antwoordpatronen worden opgespoord. Hierdoor kan bijvoorbeeld afkijken of het random invullen van een test worden herkend.
Als laatste wordt IRT gebruikt bij CAT. Dit staat voor computergestuurd adaptief testen. Op de computer worden antwoorden gegeven op items. Aan de hand van de antwoorden gaat de computer naar elk item een herberekening maken van de vaardigheid van de persoon. Op basis hiervan wordt het volgende item gekozen. Het is dus een toets op maat, die leidt tot maximale informatie. Dit is echter wel lastig om uit te voeren, omdat je een grote database moet hebben aan items van verschillende moeilijkheidsgraden. Bovendien moet je ook aan de computer vertellen wat de moeilijkheidsgraad van elk item is.

Werkgroep 6: IRT als alternatief voor KTT

Opdracht 1 – Test je kennis

  • De persoonskenmerken en item kenmerken bepalen de respons op een bepaald item volgens de IRT. De IRT zegt dan ook niet dat het alleen ligt aan wat iemand daadwerkelijk kann scoren.

  • IRT: β = moeilijkheidsgraad (het vaardigheidsniveau dat nodig is om 50% kans te hebben op een goed antwoord) en α = de discriminatie (mate van onderscheid kunnen maken tussen mensen met een hoge en lage vaardigheid). Een lage discriminatie betekent weinig onderscheid tussen goed of fout.
    KTT: proportie correct-waarde en de item-rest correlatie (alpha-if-item-deleted).

  • Item informatie is de psychometrische kwaliteit van een item voor verschillende vaardigheidsniveau’s. Een item is maximaal informatief voor het vaardigheidsniveau dat aansluit op de moeilijkheidsgraad. Om dit gemakkelijker te verwoorden zegt item informatie dus iets over hoeveel men heeft aan een item. Als men er veel aan heeft is het mogelijk om heel goed verschillen te meten tussen mensen (hoe hoger de curve, hoe meer informatie).

  • Bij IRT is het kernbegrip test-informatie (afhankelijk van vaardigheden).
    Bij KTT is het kernbegrip betrouwbaarheid (populatie-afhankelijkheid, één getal). We hopen dat deze betrouwbaarheid hoog is. Hoe hoger de betrouwbaarheid, hoe beter. Echter is dit wel afhankelijk van de populatie.

  • Het doel van CFA en IRT is het modelleren van continue latente dimensies die ten grondslag liggen aan responsen op test-items. CFA en IRT zijn latente variabele modellen. Echter hebben ze ook verschillen. Dit ligt bijvoorbeeld in het meetniveau. Zo gaat CFA uit van het intervalmeetniveau en IRT van dichotome uitkomsten.

  • Het meetniveau van de itemresponsen en de dimensies verschillen:
    CFA: Intervalniveau en meerdere dimensies.
    IRT: Dichotoom (0/1) en één dimensie.

  • Het ontwikkelen en verbeteren van test; items kiezen op variablitity in β en op hoge α.

  • Equivaleren van tests; hoe maak je twee verschillende testen equivalent.

  • Item-bias; bv. sommige groepen mensen kunnen bepaalde vragen beter beantwoorden.

  • Person-fit: voorbeeld: afwijkend responspatroon door testangst; onwaarschijnlijke responspatronen vinden.

  • computerized adaptive testing; tent aanpassen aan vaardigheden persoon.

Opdracht 2 – Rasch en 2PL model (1)

Rasch Model

  • Het Rasch model is probablistisch; kansen liggen tussen 0 en 1.

  • Item 3 is een moeilijke vraag; er is een hoge vaardigheid nodig om 50% kans op een goed antwoord te hebben. In de curve is dit te zien doordat het item ver naar rechts ligt.

  • Het vaardigheidsniveau is hoger dan de moeilijkheidsgraad; er is dus meer dan 50% kans op een goed antwoord. Bij een vaardigheid van 0,8 en een moeilijk van 0 is de kans 0,69 op een goed antwoord.

  • I.C.: naar links. I.I.: naar links. T.I.: krijgt een extra punt.

  • Als α stijgt worden curves stijler omdat er meer informatie wordt gegeven. Wanneer α oneindig wordt ontstaat er een deterministisch model; het Guttman model.

2PL Model

  • Dit item heeft een groter onderscheidend vermogen.

  • Er is hier sprake van een Rasch model.

  • Dan is dit item niet representatief voor het onderliggende construct; er ontstaat een platte lijn. Iedereen heeft dan 50% kans op een goed antwoord; het hangt niet meer samen met een vaardigheidsniveau.

  • Als α hoger wordt ontstaan er stijlere curves en hoge pieken.

  • De kans is 0.83 op een correct antwoord.

Opdracht 3 – Rasch en 2PL model (2)

  • Het maximum aantal is altijd 2kmet k = aantal items
    Het mogelijk aantal scorepatronen is 23, dit is dus 2x2x2= 8.
    000 (alles fout)
    100 010 001 (één goed)
    101 110 011 (twee goed)
    111 (alles goed)

  • 2PL: 2k. Rasch: 2k. Bij een deterministisch model is het onmogelijk om makkelijke vragen fout te hebben en vervolgens moeilijke vragen goed. Dus de formule is K+1. Bij drie items zijn er zijn vier verschillende scorepatronen mogelijk; de score patronen zijn: 000 100, 110, 111.

  • Met een vaardigheid van -0.75 zal het scorepatroon waarschijnlijk 100 zijn. Serena heeft de beste person fit; item 2 is het moeilijkst, dus het is logischer dat ze die fout heeft dan item 1 of 3.

  • De factor lading uit het Factor analyse model is vergelijkbaar met de discriminatie parameter uit het 2PL model.

  • Hier is de kans op een goed antwoord 0,10. De kans op een fout antwoord is dan 1 – 0,10 = 0.90.

  • De kans is hier 0.75 op een correct antwoord. De kans op een fout antwoord is dan 1-0.75 = 0.25.

Opdracht 4 Toepassen van IRT op wiskunde-data

  • Het is te zien dat dit een Rasch model is omdat alle discriminatieparameters gelijk zijn aan elkaar (1,8286). Item 2 is het makkelijkst (laagste β) en item 1 is het moeilijkst (hoogste β).

  • Item 10 heeft het laagst onderscheidend vermogen, dit wordt bepaald door de geschatte discriminatieparameters. Item 9 heeft het hoogste onderscheidend vermogen. De varierende α-parameters voegen niet veel toe omdat ze niet bijzonder veel uiteen lopen; de winst is dus maar gering.

  • De kans op een goed antwoord is bij 1PL: 0,68 en bij 2PL: 0,67. Dus bijna dezelfde kans.

  • De hoogste informatie geldt bij een vaardigheid van 1.1995. Dit is in de grafiek de top van de curve van item 1.

  • Als alle informatie item curves bij elkaar worden opgeteld krijg je de test informatie curve.

  • Bij een vaardigheid van 0 geeft de test als geheel de meeste informatie. Dit geldt dus voor de leerlingen met een gemiddeld niveau.

Opdracht 5 – Toepassen van IRT op een creativiteitsschaal

  • Een lage probability-correct voorspelt een hoge β. Een hoge item-rest correlatie voorspelt een hoge α.

  • Items met een lage α en/of een extreem hoge β. Items 25 tot 30 hebben bijvoorbeeld een erg grote moeilijkheidsgraad.

  • Voor nul. Als item 1 wordt weggehaald verdwijnt er een piek; dit item gaf veel informatie. Als item 2 wordt weggehaald gebeurt er bijna niks; dit item had een lage α.

Hoorcollege 7: Classificatie en discriminantanalyse

Dimensioneel en classificatie:

Scores zijn in te delen op schalen op de dimensionale manier en via classificatie. Bij dimensionaal onderverdelen gaat het om het zo goed mogelijk indelen van personen op bepaalde dimensies. Bij classificatie gaat het erom dat mensen worden toegewezen aan bepaalde groepen.

Classificatieprocedure:

Bij classificatie is er altijd sprake van een grenswaarde. Dit punt noemen we het ‘cut-off point’. De procedure die gebruikt wordt bij classificatie is als volgt; Eerst worden gegevens verzameld over de variabele (X) waarbij de classificatie al bekend is. Deze classificatie is een bepaalde groep (Y). Daarna wordt een optimale voorspellingsregel gezocht om Y zo goed mogelijk te voorspellen uit X. Ten slotte wordt deze voorspellingsregel gebruikt om nieuwe variabele X ook te classificeren

Dimensies:

In het meest eenvoudige geval is er sprake van één dimensie, waar twee groepen op scoren. Het cut-off point zit daar waar de verhouding tussen valse positieven en valse negatieven optimaal is (hangt af van de situatie). Zie dia 6 voor een schematisch overzicht. Van valse positieven is sprake wanneer er wel een diagnose is gesteld, terwijl dit in werkelijkheid niet had gemoeten. Van valse negatieven is sprake wanneer er geen diagnose is gesteld, terwijl dit in werkelijkheid wel had gemoeten. Het hangt vervolgens van de situatie af welke fouten het minst erg zijn; als de valse positieven erger zijn (zwaarder wegen) dan verschuift het cut-off point bijvoorbeeld naar rechts.

Bij meerdere dimensies kunnen we niet meer spreken van een cut-off point. Hierbij gaat het om een ruimtelijk geheel en zal sprake zijn van een cut-off lijn of een cut-off vlak. Hierbij wordt ook een andere analyse toegepast, namelijk een logistische regressie analyse (cursus MVDA) of een discriminantanalyse.

Discriminantanalyse:

Bij een discriminantanalyse zijn er twee doelen. Voor deze cursus is het van belang dat we individuele voorspellingen willen doen, oftewel classificatie. Dit wordt gedaan met de predicitieve discriminantanalyse.

Er zijn 3 problemen die zich bij deze analyse voordoen:

  1. Hoe moeten de meerdere dimensies gecombineerd worden om tot een optimale indeling te komen?

  2. Hoe goed is de uiteindelijke indeling?

  3. Hoe kunnen we generaliseren naar andere situaties?

Toewijzing aan groepen (1)

Om de individuen toe te wijzen aan groepen, moet de afstand tot alle groepspunten (centroïden) worden berekend met de (gegeneraliseerde) stelling van Pythagoras (zie slide 10 voor de formule).

Hoe goed is een oplossing? (2)

Met een classificatietabel, waarin de voorspelde waarden worden afgezet tegen de geobserveerde waarden, kunnen we zien hoe goed een uiteindelijke oplossing is. Er kunnen verschillende maten worden afgeleid uit deze tabel. De PAC (‘Percentage accuracy in classification’) is een ruwe maat voor het bekijken van hoe goed een oplossing is. Hierbij worden alle juiste voorspellingen gedeeld door het totaal aantal voorspellingen. Er zijn ook andere maten, zoals de specificiteit en de sensitiviteit.

Bij de specificiteit wordt het aantal juist voorspelde gevallen die niet de ziekte hebben gedeeld door het totaal aantal niet gediagnosticeerde deelnemers. Bij de sensitiviteit wordt het aantal juist voorspelde gevallen die wel de ziekte hebben gedeeld door het totaal aantal gediagnosticeerde deelnemers. Specificiteit en sensitiviteit bepalen samen de kwaliteit van het meetinstrument.

Ook kan er van uit het individu worden gekeken naar de percentages. Als individu wil je namelijk weten hoe groot de kans is dat de diagnose klopt. Ook hiervoor zijn twee maten; de positieve en negatieve voorspelde waarde: De positief voorspellende waarde is het aantal goed voorspelde gevallen met ziekte gedeeld door het totaal aantal voorspellingen met ziekte. Dit is dus de kans dat de diagnose ‘ziekte’ juist is. De negatieve voorspellende waarde is het aantal goed voorspelde gevallen zonder ziekte gedeeld door het totaal aantal voorspelde niet zieken. Dit is dus de kans dat de diagnose ‘niet ziek’ juist is.

Bij een goede steekproef zijn de specificiteit en de sensitiviteit onafhankelijk van de proporties gediagnosticeerde personen en de proporties niet-gediagnosticeerde personen in de onderzochte groep. Voor de positieve en negatieve voorspellende waarden geldt dit niet.

Generaliseren naar de gehele populatie:

Bij het generaliseren naar de gehele populatie wordt de betrouwbaarheid van de individuele diagnose niet alleen bepaald door de kwaliteit van de instrumenten, maar ook door de base rate. Dit is hoe vaak een bepaalde ziekte voorkomt in de gehele populatie.

Je kan een classificatietabel maken met behulp van de gegevens van de algemene populatie en de specificiteit en de sensitiviteit van de steekproef. Uit deze tabel kunnen dan weer de voorspellende waarden worden berekent. Hieruit kan je opmaken of de steekproef wel of niet generaliseerbaar is naar de populatie.

Ook de ‘base rate’ bepaalt de betrouwbaarheid van de diagnose en heeft invloed op de voorspellende waarde. Dat kan er toe leiden dat de diagnostische informatie soms tot slechtere voorspellingen leidt.

De stelling van Bayes maakt het mogelijk om kansen te berekenen voor de gehele populatie, zonder dat daarbij de omvang bekend is. Voor de formule van Bayes zijn alleen proporties nodig.

Werkgroep 7: Classificatie en discriminantanalyse

Zie bijlage

Bron

Aantekeningenbundel te gebruiken bij Psychometrie, geschreven in 2016/2017. De aantekeningen bij het college Validiteit 2 (week 7) ontbreken.

Image

Access: 
Public

Image

Join WorldSupporter!
This content is related to:
Psychometrie - UL - Notes (PDF)
Search a summary

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Check the related and most recent topics and summaries:
Institutions, jobs and organizations:
Activities abroad, study fields and working areas:

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Follow the author: Psychology Supporter
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
5606 1 1