Collegeaantekeningen Testtheorie- en Praktijk - UvA - B1

Dit zijn collegeaantekingen gebaseerd op de colleges zoals gegeven in het collegejaar 2014-2015

College 1
College 2
College 3
College 4
College 5

College 1

Het doel van dit vak is leren hoe je een test moet maken en hoe je moet testen of de test goed is. De eindopdracht is 50% van het eindcijfer, de andere 50% is het tentamen op 26 juni. Dit tentamen bestaat uit 15 meerkeuze vragen. In de werkgroepen word je begeleid bij het maken van de eindopdracht, deze werkgroepen zijn niet verplicht.

Psychologische meetinstrumenten

Eerst moet bepaald worden of iets een maximale prestatietest is of een typische gedragstest. Bij een maximale prestatietest gaat het om een test waar iemand een prestatie moet leveren (bijvoorbeeld IQ test). Maximale prestatietesten zijn onderverdeeld in enkelvoudige algemene niveautests, meervoudige algemene niveautests, een speciale niveautest en een vorderingstest/studietoets. Bij een enkelvoudige algemene niveautest worden algemene vaardigheden gemeten. Bij een speciale niveautest wordt een specifieke vaardigheid getest. Bij een vorderingstest/studietoets worden de vorderingen met betrekking op de ontwikkeling van een bepaalde vaardigheid gemeten. Vorderingstesten kunnen zowel norm georiënteerd zijn als criterium georiënteerd. Criterium georiënteerd zijn bijvoorbeeld autorijlessen, hierbij moet aan verschillende criteria voldaan worden. Als je heel goed kan inparkeren kan dit niet compenseren voor een andere vaardigheid waar je niet goed op scoort. Maximale prestatietesten zijn altijd reactief, dat betekent dat de proefpersoon er aan mee werkt. Onder typische gedragingen valt observatie, somato-fysiologische metingen, zelfbeoordeling en kwalitatieve prestatietest. Observatie testen hoeven niet altijd reactief te zijn, je kan mensen observeren zonder dat ze het weten. Om ethische redenen moet de proefpersoon echter vaak wel worden ingelicht.

Design

Er zijn verschillende designs: intuïtieve methode, inductieve methode en deductieve methode. Bij de intuïtieve methode heb je geen of alleen informele kennis over het construct. Bij inductieve methode heb je weinig of alleen globale kennis over het construct. Bij de deductieve methode heb je veel kennis over het construct.

Bij de intuïtieve methode kan je gebruik maken van de rationele methode. Hierbij is er een één op één relatie tussen verbale rapportage en het construct. Hierbij gebruikt de constructeur alles wat hij/zij weet over het construct (bijvoorbeeld Wikipedia, ervaringen). Ook de prototypische methode valt onder de intuïtieve methode. Hierbij wordt de test gemaakt aan de hand van een prototype. De item constructie is hier door middel van inbeelden het construct in grote mate te bezitten.

Onder de inductieve methode vallen de interne methode en de externe methode. Bij de interne methode wordt een groot aantal bestaande items op basis van de inhoud verzameld. Achteraf worden de meest homogene items geselecteerd. De validiteit is hierbij betwijfelbaar want je selecteert items die eigenlijk al andere constructen meten, maar die raken aan het construct dat jij wil onderzoeken. Ook bij de externe methode worden bestaande items geselecteerd. Achteraf worden de items geselecteerd die het hoogst samenhangen met het criterium.

Onder de deductieve methode vallen de construct methode en de facet methode. Bij de construct methode wordt een constructie gemaakt op basis van theoretisch verwachte verbanden met andere constructen, dit heet een nomologisch netwerk. Bij een nomologisch netwerk wordt het construct aan andere constructen gekoppeld (lengte staat in verband tot sekse, gewicht, leeftijd, enz).

Bij de facet methode wordt het construct zo concreet mogelijk beschreven aan de hand van facetten. Alle facetten worden op een systematische manier gemeten aan de hand van een aantal vragen (per facet).

Item constructie

Vermijd dubbele vragen, dubbele ontkenningen en feitelijke uitspraken en aannamen. Bijvoorbeeld 'ik ben blij met het werk dat ik doe', hierbij wordt er vanuit gegaan dat de proefpersoon werkt. Ook jargon en vage bewoordingen moeten vermeden worden. Verder is het belangrijk om het belangrijkste idee achteraan de zin te zetten. Items worden verdeeld in indicatieve en contra-indicatieve items. Indicatieve items zijn items waarbij je hoger op het construct scoort als je hoger op het item scoort. Bij contra-indicatieve vragen scoor je lager op het construct als je hoger op het item scoort. Hiermee vermijd je vertekening van tendensies en worden respondenten scherp gehouden. Verder moet er een antwoordschaal voor je antwoorden worden gekozen. De likert-schaal is een schaal van 1 tot 5, er kunnen ook ja/nee vragen of een lijnsegment (helemaal mee eens/oneens) gebruikt worden. Soms wordt de middelste optie uit een schaal gehaald zodat mensen een kant moeten kiezen. Hiermee doe je echter afbreuk aan de validiteit van je test want sommige mensen zitten nou eenmaal ergens tussen in. Belangrijk is dat de schaal symmetrisch is, een gemiddeld antwoord moet in het midden zitten. Anders is er meer mogelijkheid om iets heel goed of heel slecht te beoordelen.

Bij de likert-schaal staat oneens aan de linker kant en mee eens aan de rechter kant, het is belangrijk om dit niet om te draaien. Bij een lijnsegment is het vaak lastig om een valide antwoord te geven, sommige mensen zullen eerder de uitersten gebruiken, terwijl andere eerder het midden zullen gebruiken. Alle testen moeten hetzelfde zijn voor verschillende proefpersonen: zelfde uitslag/vragen/volgorde. De antwoordschaal is belangrijk omdat getallen nodig zijn om de schaal te interpreteren.

Bij klassieke testheorie wordt de som van de itemscores genomen. Bij a priori gewogen somscores worden items gewogen (bijvoorbeeld rapportcijfers op de middelbare school). Bij empirisch gewogen somscores worden sommige items zwaarder gewogen dan anderen, omdat deze beter bij het construct aansluiten dan anderen. Contra-inducatieve items moeten worden omgescoord (1=5, 2=4, 3=3)

College 2

Notatie

Xij = X item nummer, persoons nummer = X36 (= rij 3, column 6. Afhankelijk van of de personen/items op de rij of de column staat)

N= het aantal personen

n = het aantal items

i = betreffende item i

j = betreffende persoon j

Xij is de score van persoon j op item i

test score = is alle som scores van de personen bij elkaar opgeteld.

Niet-dichotome items

Niet-dichotome items hebben meer dan twee antwoordopties. Om iets te kunnen zeggen over een test moeten het gemiddelde en de variantie berekend worden (test gemiddelde, item gemiddelde, test variantie, item variantie). Verder moet de inter-item covariantie en inter-item correlatie berekend worden.

Centrummaten zijn de populatie parameter, de gemiddelde testscore en het itemgemiddelde.

De formule voor de populatieparameter staat in de syllabus en in de slides op blackboard. Een schatting maken uit de steekproef doe je door het gemiddelde te berekenen. Om de gemiddelde testscore te berekenen moet het gemiddelde van alle somscores worden berekend. De somscores zijn de totaal scores per persoon. Het item gemiddelde is het gemiddelde per item.

Spreidingsmaten zijn de variantie en de standaardafwijking. Met de test variantie wordt berekend hoe groot de spreiding per antwoord is. Hier voor wordt bij elke testscore het gemiddelde er af gehaald en dat gekwadrateerd. Vervolgens wordt het gedeeld door het aantal proefpersonen –1.

De standaardafwijking is de wortel uit de variantie.

Covariantie is een schaal voor samenhang tussen twee items. De formule voor de covariantie van de kansvariabelen Y en Z staat in de syllabus en in de slides op blackboard.

Dichotome items

De centrummaat bij dichotome items is de p-waarde. Spreidingsmaten zijn de variantie en de standaardafwijking. Samenhangsmaten zijn de covariantie en de phi-coëfficiënt. Phi-coëfficiënt is de correlatie tussen twee dichotome variabelen.

In een variantie-covariantie matrix komt de variantie van item 1 in de kolom en regel van item 1. De covariantie van item 1 en item 2 komt in de kolom van item 1 en de rij van item 2.

	Item 1	Item 2	Item 3
Item 1	Variantie item 1	Covariantie item 2 en item 1	Coavariantie item 3 en item 1
Item 2	Covariantie item 1 en item 2	Variantie item 2	Covariantie item 3 en item 2
Item 3	Covariantie item 1 en item 3	Covariantie item 2 en item 3	Variantie item 3

De test variantie is de som van alle getallen uit de variantie-covariantie matrix. Variantie item 1 + variantie item 2+ variantie item 3.

College 3

De kwaliteit van een test wordt gekwantificeerd aan de hand van validiteit en betrouwbaarheid. Validiteit geeft aan of het meetinstrument meet wat het moet meten. Betrouwbaarheid geeft aan hoeveel ruis er in de test zit.

Eén persoon, één test

Klassieke testtheorie is gebaseerd op het idee dat een persoon een test maakt, daarna wordt de persoon gebrainwasht en maakt nog een keer een test. Er wordt dus vanuit gegaan dat er geen leereffecten zijn, de persoon weet niet meer wat hij de keer daarvoor heeft geantwoord. Hierbij geldt Xj = tj + Ej. Dit houdt in dat de testscore van die persoon = de ware score van die persoon + meetfout (ruis). Je ware score is de score die je zou halen in een perfecte wereld, zonder ruis en met het perfecte meetinstrument. De ware score kunnen we echter nooit precies meten, alleen bij benadering. Ruis in de meting ontstaat door toevallige invloeden. Meetfouten zijn niet-systematische invloeden die verschillen per persoon. Bij klassieke testtheorie is de standaarddeviatie gelijk aan de standaarddeviatie van de meetfouten. Alle afwijkingen van de ware testscore komen namelijk door meetfouten. De variantie van de testscore is gelijk aan de variantie van de ware score van een persoon + de variantie van de meetfout. De verwachtte waarde van de meetfout over een oneindig aantal replicaties is 0. De meetfouten zouden dus op de lange termijn elkaar wegstrepen. Als dit niet zo is, is er sprake van een systematische fout en dus niet van ruis.

Meerdere personen, één test

Bij meerdere proefpersonen noemen we de scores t. Hiervoor geldt X = T + E, hierbij is T de score van één iemand uit de populatie. De verwachte waarde van de meetfout over personen en over replicaties is 0. Als de verwachte waarde voor elk persoon gelijk is aan 0, is de verwachte waarde over personen ook gelijk aan 0. De variantie van de meetfout over de hele populatie is gelijk aan het gemiddelde van de meetfoutvariantie per persoon. De correlatie tussen de ware score en de meetfout is 0, dit komt omdat de meetfout toevallige invloeden zijn. Het is dus bijvoorbeeld niet zo dat slimmere mensen meer meetfouten maken dan dommere mensen, of extraverte mensen meer meetfouten dan introvert. De testvariantie bestaat uit de ware-score variantie en de variantie van de meetfout.

Meerdere personen, meerdere tests

Om te weten hoeveel meetfout er op een meting zit, moet worden nagegaan hoeveel procent van de variantie de ware-score variantie is. Een deel van de variantie is gevolg van het construct dat je wil meten (de variantie tussen personen). Een ander deel van de variantie is gevolg van meetfouten. De betrouwbaarheidscoëfficient is de ware-score variantie gedeeld door de totale testvariantie (dus met meetfout). Het moeilijke hieraan is het achterhalen van de ware meetvariantie. Hiervoor worden parallel-test gebruikt. Dit zijn verschillende testen die precies hetzelfde meten. Dit betekent dat de ware-score van de ene test overeenkomt met de ware-score van de andere test. Als de testen hetzelfde meten moet het gemiddelde, de test score variantie en de ware-score variantie hetzelfde zijn. De testscore op de ene test is gelijk aan de ware-score variantie van de ene test gedeeld door de ware-score variantie op de andere test.

Betrouwbaarheid is de onvoorwaardelijke meet precisie, het is namelijk niet voorwaardelijk voor één persoon.

College 4

Parallel test

Zoals in het vorige college gezegd is, zijn bij parallelle tests het gemiddelde, de ware-score variantie en de test variantie hetzelfde. Parallelle tests worden tegelijk afgenomen, de betrouwbaarheid is de correlatie tussen beide testen.

Test-hertest

Bij de test-hertest wordt twee keer dezelfde test afgenomen. De betrouwbaarheid is weer de correlatie tussen beide testen. De tijd tussen de afnames moet niet te kort zijn want dan is er sprake van herinneringen en leereffecten. De testen moeten echter ook niet te lang na elkaar worden afgenomen want dan zou de ware-score veranderd kunnen zijn. De hertest wordt dan ook afgeraden bij sterk flucterende constructen zoals bijvoorbeeld stemming.

Split halves

Bij split halves wordt de test in tweeën gedeeld. Het eerste deel is de test en het tweede deel is de parallel-test. De betrouwbaarheid van elk deel is de correlatie tussen beide delen. Om de betrouwbaarheid van het geheel te berekenen is de Spearman-Brown formule nodig. Hierbij wordt het aantal parallelle delen x de betrouwbaarheid van één deel, gedeeld door 1 + het aantal parallelle delen -1 en dat keer de betrouwbaarheid van één deel.

Split halves heeft ook nadelen, het is namelijk onwaarschijnlijk dat de twee helften parallel zijn. Deze aanname wordt twee keer gebruikt, eerst bij het berekenen van de correlatie tussen de helften en dan voor de betrouwbaarheid van de hele test. Daarbij is het afhankelijk van de manier van splitsen.

Cronbach's (alpha) bij niet-dichotome items

Bij Cronbach's test wordt elk item als een afzonderlijke parallelle test behandeld. Vervolgens kan de betrouwbaarheid als volgt berekend worden: het aantal items gedeeld door het aantal items – 1. Keer 1 – de som van de item variantie gedeeld door de testvariantie. Kijk voor de formule in de syllabus of de slides op blackboard. Belangrijk is om te bedenken dat het zeer onwaarschijnlijk is dat alle items parallel zijn. In de meeste gevallen kun je deze aanname dus niet waar maken. Daarom geeft deze formule geen precieze betrouwbaarheid aan maar de ondergrens van de betrouwbaarheid. Bijvoorbeeld de betrouwbaarheid is minsten 0.8 (α ≤ 0.8) Bij dichotome items wordt een andere formule gebruikt (zie syllabus).

Attenuatie

Attenuatie is verzwakking. Een onderzoeker is geïnteresseerd in de correlatie tussen twee constructen. Om te corrigeren voor attenuatie zijn twee formules nodig (zie de syllabus). Je corrigeert omdat er ruis zit tussen de scores en de test. Om verwarring te voorkomen moet altijd de normale correlatie en de gecorrigeerde correlatie gerapporteerd worden.

Testverlengen

Wanneer test X uit 20 items bestaat en hiervoor een betrouwbaarheid geldt van 0.6 is de vraag wat de betrouwbaarheid is wanneer de test verlengd wordt tot 28 vragen. Hiervoor kan je opnieuw K gebruiken, het bijvoegen van nieuwe parallelle delen. K kan worden uitgerekend met een formule (zie syllabus). K moet vervolgens vermenigvuldigd worden met het aantal items. Dit antwoord is het aantal items dat de test moet hebben om de target betrouwbaarheid te halen. Om de betrouwbaarheid target te behalen moet het aantal items dat je toevoegt altijd naar boven afgerond worden. Wanneer het antwoord 65,1 is moeten er in totaal dus 66 items in de test. Wanneer de vraag is hoeveel items moeten worden toegevoegd is het belangrijk om te bedenken hoeveel items de test al heeft. In bovenstaand voorbeeld heeft de test 20 items, dus zouden er 66-20 items moeten worden toegevoegd.

Analyse verschilscores

Om de betrouwbaarheid van de verschilscores te meten wordt de nameting van de voormeting afgetrokken. Vervolgens wordt dit ingevuld in een formule (zie syllabus). Hoe hoger de correlatie, hoe lager de betrouwbaarheid.

Standaardmeetfout

Om de meetfout variantie te berekenen is er ook een formule (zie syllabus). Vaak wordt gekeken naar de standaarddeviatie van de meetfout. Hoe hoger de betrouwbaarheid, hoe kleiner de standaarmeetfout.

College 5

Item analyse

Om te bepalen of items goed zijn wordt gekeken naar item moeilijkheid, item aantrekkelijkheid, itemvariantie, inter-item correlatie en item discriminatie. Moeilijke items worden door meer mensen fout gemaakt. Bij persoonlijkheidstest wordt niet over moeilijkheid gesproken maar aantrekkelijkheid. Bij een aantrekkelijk item scoren meer mensen hoger. Bij de klassieke testtheorie zijn de item moeilijkheid en de item aantrekkelijkheid gelijk aan item gemiddelden. Bij algemene meetinstrumenten wil je zowel moeilijke als makkelijke items. Bij criterium-georiënteerde tests worden vragen gesteld rond de moeilijkheid/aantrekkelijkheid van het criterium. Items met weinig variantie/spreiding voegen niet veel toe, je wil namelijk de verschillen tussen mensen meten. Verder zorgen hoge item correlaties voor een hoge betrouwbaarheid, dit betekend namelijk dat alle items hetzelfde meten. Item discriminatie zegt hoe goed een item onderscheidt kan maken tussen mensen die hoog of laag scoren op een test. Bij een tentamen wordt een goed item bijvoorbeeld goed gemaakt door de studenten met een hoog cijfer. Een slecht item wordt slecht gemaakt door studenten met een hoog eindcijfer. Item discriminatie gaat er dus om hoe goed een item de hele test voorspelt. Wanneer je een item met de test correleert correleer je het item ook met zichzelf, hij zit immers ook in de test. Dit zorgt dat de correlatie hoger wordt. Daarom wordt gekeken naar de rest correlatie. Dus de correlatie tussen het item en de test zonder het item.

Access:

Public

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check: concept of JoHo WorldSupporter

Concept of JoHo WorldSupporter

JoHo WorldSupporter mission and vision:

JoHo wants to enable people and organizations to develop and work better together, and thereby contribute to a tolerant tolerant and sustainable world. Through physical and online platforms, it support personal development and promote international cooperation is encouraged.

JoHo concept:

As a JoHo donor, member or insured, you provide support to the JoHo objectives. JoHo then supports you with tools, coaching and benefits in the areas of personal development and international activities.
JoHo's core services include: study support, competence development, coaching and insurance mediation when departure abroad.