College 3 Betekenis van testscores
Als je bekijkt wat een test betekent, moet je altijd kijken naar de context en het referentiekader. Ruwe scores zeggen namelijk niks als je de context niet weet. Wat voor kleding trek je bijvoorbeeld aan als de temperatuur 98,6 Fahrenheit is? Wat de betekenis van een score is, hangt af van waar je de score mee vergelijkt.
Om gedrag te vergelijken, zijn er twee verschillende vormen van interpretatie, namelijk: normgerichte interpretatie of criteriumgerichte interpretatie. Bij normgerichte interpretatie wordt het prestatieniveau bepaald aan de hand van een normgroep en hierbij is de keuze van de normgroep heel belangrijk. De normgroep moet zorgvuldig worden geselecteerd en moet de groep mensen representeren bij wie de test wordt afgenomen. Eerst moet de populatie worden gedefinieerd (voor wie is de test gemaakt?) en vervolgens moet er random een steekproef getrokken worden. Om een normgroep te controleren, moet je je afvragen of de groep representatief en actueel is, of de omvang van voldoende grootte is en of de afnameprocedure gestandaardiseerd is.
Er zijn verschillende typen normgerichte scores. Ten eerste zijn er grade/age equivalent scores. Hierbij wordt de gemiddelde ruwe score toegewezen aan het niveau van de klas. Grade/age equivalent scores zijn makkelijk te interpreteren, maar zouden weinig gebruikt moeten worden. Ze zijn namelijk niet vergelijkbaar tussen (sub)tests, ze zijn op ordinale schaal (je kunt dus geen getallen manipuleren) en de assumptie is dat alle kinderen het klassenniveau moeten bereiken. Dit kan echter niet, omdat het klassenniveau een gemiddelde is van de leerlingen. Er zullen dus altijd leerlingen zijn die lager scoren. Een tweede soort normatieve scores zijn percentiel rangordes. Hierbij wordt gekeken naar het percentage individuen dat onder een bepaald punt van de verdeling scoort. De range loopt van 1 tot 99 en de mediaanprestatie ligt op het 50e percentiel. Tot slot kan er gebruik gemaakt worden van standaardscores. Ruwe scores worden dan getransformeerd naar een gewenste schaal met een bekend gemiddelde en bekende standaarddeviatie. Bij lineaire transformaties behoudt de verdeling zijn originele vorm. Dit is het geval bij z-scores (waarbij wordt bepaald hoeveel standaarddeviaties de score van het gemiddelde afligt) en t-scores (waarbij gebruik wordt gemaakt van een verdeling met een gemiddelde van 50 en een standaarddeviatie van 10). T-scores lijken heel erg op z-scores, maar dan zonder negatieve getallen of decimalen. Bij genormaliseerde standaardscores (non-lineaire transformaties) is de steekproef niet normaal verdeeld. Er wordt dan gebruik gemaakt van een transformatie om een normale verdeling te krijgen. Hierdoor verandert de originele vorm van de verdeling. Voorbeelden van genormaliseerde standaardscores zijn stanine-scores (met een gemiddelde van 5 en standaarddeviatie van 2) en normale curve equivalenten (ook wel NCE’s, met een gemiddelde van 50 en standaarddeviatie van 21,06).
Bij een criteriumgerichte interpretatie worden scores vergeleken met een specifiek prestatieniveau. Interpretaties zijn niet relatief, maar absoluut en de scores benadrukken wat een persoon weet of kan. Er zijn twee typen: mastery testing en standaard gebaseerde interpretaties. Bij mastery testing wordt aan de hand van een test bepaald of iemand iets wel of niet beheerst. Er wordt dus een ja/nee-beslissing gemaakt. Bij standaard gebaseerde interpretaties zijn er prestatiecategorieën (bijvoorbeeld goed, ruim voldoende, voldoende en onvoldoende). Belangrijk is dat criteriumgerichte interpretaties toch een normatief aspect bevatten. De inhoud van testen en betekenis van testscores worden namelijk vastgelegd op een normatieve of culturele basis.
Betrouwbaarheid
Wat is betrouwbaarheid?
Betrouwbaarheid is een kenmerk van de score zelf en niet van de toets. Vooral de nauwkeurigheid van de meetprocedure is een belangrijk aspect. Hierbij is de vraag of de scores consistent en reproduceerbaar zijn (als we nog een keer dezelfde toets doen, krijgen we dan dezelfde scores?). Betrouwbaarheid is een vereiste voor validiteit.
Een testscore bestaat uit de werkelijke score van de persoon en de meetfout. De meetfout is het verschil tussen de geobserveerde waarde en de ware score. De formule die hierbij hoort is de geobserveerde score = ware score + meetfout (of X = T + e).
Waar komen meetfouten vandaan?
Ten eerste kunnen factoren van de persoon zelf meetellen, zoals vermoeidheid, angst of leereffecten. Ten tweede kunnen omgevingsfactoren meespelen. Hierbij maken we onderscheid tussen natuurlijke factoren, zoals regen, zon en temperatuur en gecontroleerde factoren, zoals licht, afleiding en temperatuur. Ook taakfactoren kunnen meespelen, zoals content sampling (selectie van items voor meetinstrument verschilt per taak) en testprocedures (tijd, papier en instructies). Tot slot speelt ook de omvang van de sample een rol. Een kleine sample zorgt niet voor een stabiele en betrouwbare representatie. Dus hoe meer items je hebt, hoe betrouwbaarder de test wordt.
Manieren om betrouwbaarheid uit te drukken
Betrouwbaarheid is de mate waarin twee metingen met elkaar overeenkomen. De personen staan in dezelfde positie ten opzichte van elkaar, maar doordat elk persoon anders is ontstaat variantie. Bij betrouwbaarheid kijken we naar de hoeveelheid variantie in de geobserveerde scores die veroorzaakt wordt door (ware) verschillen tussen individuen.
Als er over betrouwbaarheid wordt gesproken, dan wordt er meestal gepraat over de Standard Error of Measurement (SEM, standaardmeetfout) of de betrouwbaarheidscoëfficiënt.
Statistisch gezien is de SEM de standaarddeviatie van de variaties in de metingen. Dit is dus de spreiding van de geobserveerde scores rondom de ‘ware’ score. De SEM is op individueel niveau en de meetfout is op steekproef niveau. Conceptueel gezien is de SEM de variatie of inconsistentie in scores die je verwacht wanneer je heel veel (bijvoorbeeld 300) herhaalde metingen zou doen. In de praktijk is het echter niet mogelijk om zoveel herhaalde metingen uit te voeren. Wanneer je dus een toets af hebt genomen met bijvoorbeeld score 10, hoe weet je dan hoe betrouwbaar de scores zijn? Dit moet je kunnen schatten zonder de toets heel vaak uit te moeten voeren. Geobserveerde metingen zullen rondom de ‘ware meting’ liggen. Het is alleen nooit bekend wat de ‘ware score’ is en dus nemen we het gemiddelde en hopen we dat dit in de buurt van de ‘ware score’ ligt. We gebruiken de betrouwbaarheid van het meten om de SEM te schatten en dus om de ‘ware score’ de bepalen.
Als de SEM kleiner is, dan is de betrouwbaarheid hoger en is er een grotere consistentie in scores. Er is dan namelijk een hogere correlatie als je de toets twee keer afneemt bij een groep proefpersonen. Als er minder fouten in de geobserveerde score zitten, is de kans groter dat de rangorde van de groep proefpersonen gelijk blijft. En als de rangorde gelijk blijft, dan is de correlatie tussen factor A en B gelijk. Een meer gelijke rangordening betekent dus een hogere correlatie tussen versie 1 en 2 van een test en dit betekent een hogere betrouwbaarheid van scores.
De formule om de SEM te berekenen is als volgt: (SEM) SDe = SDX * √(1 – rtt). In deze formule is SDX de standaarddeviatie van de geobserveerde score X (pooled standard deviation) en rtt is de correlatie tussen twee metingen.
Manieren om betrouwbaarheid te beoordelen
Er zijn over het algemeen drie manieren om een test te beoordelen.
Ten eerste de test-hertest methode. Bij een groep personen wordt twee keer dezelfde test afgenomen en tussen deze twee testen bereken je de correlatiecoëfficiënt. Dit is dan je betrouwbaarheid. Door testen gelijktijdig, dus snel na elkaar te geven, heb je geen last van effecten van tijd, zoals rijping. Dit heb je wel bij uitgestelde testen, waarbij er een paar dagen of paar weken tijd tussen de metingen zitten. De test-hertest methode is niet geschikt voor alle taken. Er kan namelijk sprake zijn van carry-over effecten of familiariteit. Omdat een proefpersoon twee keer precies dezelfde test maakt, herkent hij/zij waarschijnlijk de tweede keer items uit de test. Dit kan invloed hebben op de behaalde score.
Ten tweede heb je de parallel-test methode. Een groep personen maakt twee verschillende versies van een test die gelijksoortig zijn qua inhoud, moeilijkheid en tijd. Hierdoor worden oefen- en geheugeneffecten gereduceerd. Als de afname gelijktijdig wordt afgenomen (dus beide versies op hetzelfde moment) dan zijn er geen effecten van groei die er wel zijn als er een langere periode tussen de testen zit. De parallel-test is de meest belangrijke methode om de betrouwbaarheid van scores te evalueren, maar als test wordt het meestal niet gebruikt, omdat het maken van een parallel-test lastig is. Vaak zijn er onvoldoende middelen en is er onvoldoende tijd.
Ten derde is er de interne consistentie. Dit is de nauwkeurigheid van een meetinstrument op een bepaald tijdstip. Dus eigenlijk binnen de test, hoe betrouwbaar en stabiel de test is. Dit kan door de test in twee gelijke delen te verdelen (split-half). Dit kan bijvoorbeeld door onderscheid te maken tussen even/oneven of eerste helft/tweede helft. Je berekent dan de correlatie tussen de scores op beide delen. De Spearman-Brown formule probeert de betrouwbaarheid van de hele test te schatten: geschatte betrouwbaarheid van de gehele test = 2 (correlatie tussen de twee helften) / (1 + correlatie tussen de twee helften). Dit soort betrouwbaarheid is het minst informatief, maar wordt het meest gebruikt. Je weet bij deze test niet of de scores overeenkomen als je de test vandaag of morgen maakt, je weet alleen of de items intern consistent zijn. De split-half betrouwbaarheid veronderstelt alleen homogeniteit tussen de twee delen, niet tussen items.
Een andere methode om de interne consistentie te meten is met de item-analyse. Hierbij meet je de consistentie van antwoorden voor individuele items van een toets en hiermee probeer je de betrouwbaarheid te schatten. Dit doe je door te berekenen of de rangorde van item tot item hetzelfde zou zijn. Het is het gemiddelde van alle mogelijke split-half coëfficiënten. Om dit te berekenen gebruik je de Kuder-Richardson formule 20 (test items zijn goed of fout) of de coëfficiënt alpha (ook wel Chronbach’s alpha, scores hebben meerdere waarden, zoals meerkeuze vragen). Item-analyse veronderstelt homogeniteit tussen alle items.
Er zijn echter ook beperkingen aan het meten van de interne consistentie. Ten eerste worden de metingen op een bepaald moment uitgevoerd en is de uitkomst van de test dan ook een momentopname. Ten tweede zijn items binnen een test misschien wel meer aan elkaar gelijk dan items tussen parallelversies van testen, maar dit betekent niet dat de scores dan betrouwbaarder zijn. Ten derde is de aanname dat twee items hetzelfde kenmerk meten niet per se waar. Tot slot kan de test niet worden gebruikt als mensen een bepaalde tijd krijgen om te antwoorden. Niet iedereen kan dan evenveel vragen beantwoorden.
Hoe betrouwbaar een test moet zijn, hangt heel erg van de beslissingen af die moeten worden genomen op basis van de test. Als je bijvoorbeeld moet beslissen of een kind medicijnen moet gaan slikken, dan moet de test heel betrouwbaar zijn, maar als het gaat om de tijd dat een kind elke dag moet lezen, is het minder belangrijk of een test betrouwbaar is.
Interpretatie van betrouwbaarheidsdata
Elke keer dat je een test afneemt is er de ware score en een meetfout. Zoals eerder genoemd is de standaardmeetfout (SEM) het aantal keer dat de geobserveerde score verschilt van de ware score. Dit wordt uitgedrukt in standaarddeviaties.
In een normale verdeling is te zien hoeveel procent van de gevallen tussen twee scores zal liggen en hieruit kan je ook concluderen hoeveel een score van een persoon zal veranderen met een hertest. Een voorbeeld: de geobserveerde score is 100 en de standaardmeetfout is 4.7. In de normaalverdeling zien we dan dat de ware score 34,1% + 34,1% = 68,2% van de keren dat je de hertest afneemt tussen de 95.3 en 104.7 zal liggen (100 ± 4.7). Er is dan een afwijking van één standaardmeetfout (hoger of lager dan de geobserveerde score) en dit komt overeen met de genoemde percentages (zie hiervoor de afbeelding van de normaalverdeling in de sheets op Blackboard). Let op: bij een normaalverdeling van standaarddeviaties gaat het om het percentage mensen met een bepaalde score. Bij de standaardmeetfout gaat het om de verdeling van scores van een individu.
Het interpreteren van betrouwbaarheidsdata kan ook op een makkelijkere manier, namelijk met de betrouwbaarheidscoëfficiënt. Deze is nuttiger voor het maken van een vergelijking tussen twee testen.
Als je twee testen hebt die praktisch gelijk zijn en op validiteit hetzelfde scoren, dan moet je altijd gaan voor de test die het meest betrouwbaar is. Als je test namelijk niet betrouwbaar is, kun je minder goed conclusies trekken over een individu of een groep.
Factoren van invloed op betrouwbaarheid
Variabiliteit van groep: als scores dichter bij elkaar liggen, dan is de kans groter dat de rangordening zal veranderen en is de betrouwbaarheid dus laag. Als de variabiliteit te groot is, is de betrouwbaar ook te groot (er is dan sprake van inflatie). Dit is bijvoorbeeld zo als je de scores op een toets van kinderen uit groep 3 vergelijkt met de scores van kinderen uit groep 8.
Prestatieniveau van de groep: als een toets te moeilijk is voor de groep, dan ligt het grootste deel van de scores aan de lage kant van de verdeling. Dit heet het bodemeffect. Hierbij zijn de variabiliteit en de betrouwbaarheid laag. Het plafondeffect staat daar tegenover en dit ontstaat als de test te makkelijk is. De scores liggen dan aan de hoge kant van de verdeling. Ook dan zijn de variabiliteit en de betrouwbaarheid laag.
Leergedrag observatie systeem
Er zijn verschillende gedragscategorieën waarin een leerling kan vallen. Ten eerste is er het actief leergedrag (ALG). Hierbij reageert de leerling bijvoorbeeld op de vragen van de docent. De leerling speelt een actieve rol in het leerproces. Ten tweede kan de leerling aan taak (AT) zijn, waarbij de leerling gericht bezig is met een taak die de ouders of leraar hem/haar hebben opgelegd. Daartegenover staat de niet aan taak (NAT) waarbij de leerling op andere dingen is gefocust dan op de leertaak zelf. Tot slot kan er ook storend gedrag (SG) zijn en hierbij verstoort de leerling de leeromgeving voor zichzelf en voor andere leerlingen door bijvoorbeeld lawaai te maken en niet op zijn/haar plek te blijven zitten.
Ook voor een leraar zijn er verschillende gedragscategorieën. Ten eerste kan de leerkracht een verbale of non-verbale positieve opmerking maken (PO), bijvoorbeeld ‘wat ben je goed aan het werk’. Ten tweede zijn er de negatieve opmerkingen (NO) die ook zowel verbaal als non-verbaal kunnen zijn. Dit is bijvoorbeeld als een leraar zegt: ‘Let nou eens op!’ Tot slot zijn er ook de corrigerende opmerkingen (CO) waarbij de leraar duidelijk laat merken welk gedrag verwacht wordt van de leerling (bijvoorbeeld ‘steek je hand op als je iets wil zeggen’).
Met een observatieformulier kun je bijhouden welke gedragscategorieën voorkomen bij de leerling en bij de leraar. Ook kun je hierin bijhouden hoe lang bepaald gedrag bij de leerling voorkomt, voordat de leraar hierop reageert.
College 4: Validiteit
Validiteit is meet de test wat het moet meten. En hangt af van de mate waarin interpretaties van testscores gebruikt kunnen worden om een beslissing te maken. Er moet dan rekening gehouden worden met wat de bedoeling is van de testscores en wat we ermee willen gaan doen. Om te bepalen of een test valide is, moeten we ons dus eerst afvragen wat we precies willen meten.
Vroeger onderscheidde men drie vormen van validiteit: content, criterion-related en construct. Tegenwoordig spreken we van één algemene validiteit en vijf verschillende vormen van bewijs: content-related (In hoeverre is de toets goed), criterion-related (een oonstruct meten waarbij vraag 1 en 2 een hoge correlatie hebben voor het construct te meten.), internal structure (Hoe de structuur van de test is opgebouwd, moet gebaseerd zijn op theorie), response processes (doen de participanten de test op de juiste manier) en consequential (wat is de consequentie van de test voor de persoon). De verschillende soorten bewijs zijn de bronnen die worden gebruikt om beslissingen te maken over validiteit.
De verschillende soorten validiteitsbewijs zullen nu één voor één worden besproken.
Content-related bewijs: in hoeverre komt de inhoud van de test overeen met wat we willen meten?
Om de inhoud van een test vast te stellen, kun je verschillende stappen volgen: 1) identificeer en definieer wat je wil meten, 2) ontwikkel een table of specifications, 3) schrijf de items van de test, 4) herzie de inhoud systematisch en kijk naar de relevantie van items en dekking van de inhoud.
De table of specifications geeft weer wat er wordt gemeten en hoe dit gemeten gaat worden. Het gaat hierbij om de inhoud van de test en om cognitieve processen. De cognitieve processen bestaan uit herkenning, identificatie van feiten, identificatie van principes, evaluatie en toepassing/generalisatie naar nieuwe situaties.
Er zijn een paar beslissingen die gemaakt moeten worden. Ten eerste het relatieve belang van de inhoud en processen in een test. Hoe belangrijker een onderwerp is, hoe meer testitems aan dit onderwerp moeten worden toegewezen. Ten tweede moet het type items vastgesteld worden. Hierbij wordt onderscheid gemaakt in selectierespons (bijvoorbeeld meerkeuzevragen) en geconstrueerd respons (bijvoorbeeld korte essayvragen). Ten derde moet de lengte van de test bepaald worden, waarbij rekening moet worden gehouden met praktische zaken, zoals de leeftijd van leerlingen en de tijdsduur. Tot slot moet de moeilijkheidsgraad van de test worden bepaald. Dit hangt af van het doel van de test.
Face validity (indruksvaliditeit) is de eerste indruk die mensen hebben van een test. Als de test op het eerste gezicht lijkt te meten wat je iemand wil meten, dan zal iemand sneller kiezen voor die test. Face validiteit is geen echte validiteit.
Er zijn drie vormen van criterion-related evidence
Ten eerste concurrent validiteit. Twee verschillende meetinstrumenten worden dan op hetzelfde moment aangeboden en de correlatie tussen de scores op de twee testen wordt gemeten.
Het tweede is predictieve validiteit en hierbij wordt het instrument met de criterion measure in de toekomst aangeboden. Ook hierbij wordt de correlatie berekend tussen de scores van de twee testen. Het gaat erom of een test bijvoorbeeld kan bepalen wat het niveau van een kind zal worden. Je kunt een kind aan het begin van het jaar een test geven en aan het eind van het jaar een test geven en dan de scores vergelijken. Er moet dan een hoge correlatie zijn tussen de twee testen.
De derde vorm is groepsverschil. Dit houdt in dat je verschil verwacht tussen groepen, bijvoorbeeld dat een oudere leerling beter zal scoren dan een jongere leerling.
Het is altijd lastig om het criterium te bepalen. Alle meetmethoden hebben hun beperkingen en dit heeft invloed op de validiteit. Een goede criterion measure moet valide (relevant) zijn, vrij zijn van bias (dus niet bepaalde groepen bevoor- of benadelen), betrouwbaar zijn en gemakkelijk en beschikbaar. Het beste is om verschillende criteria te gebruiken.
De correlatie tussen een predictor en een criterium variabele is de validiteitscoëfficiënt. Bij het interpreteren van de validiteitscoëfficiënten moeten we ons afvragen hoeveel nieuwe informatie is verkregen. Dus hoeveel verder komen wij met toets, vergeleken met zonder toets? Levert de toets iets op?
De correlatie kan op meerdere manieren bekeken worden:
Ten eerste is er convergent bewijs. Dit betekent dat twee toetsen hetzelfde construct meten en een hoge correlatie laten zien.
Ten tweede is er discriminant bewijs. Twee toetsen meten dan een ander construct en laten een lage correlatie zien, bijvoorbeeld een leestoets en een rekentoets.
Ten derde is er de multi-trait, multi-method benadering waarbij er meerdere aspecten gemeten moeten worden. Deze worden op verschillende manieren gemeten. Een voorbeeld: de methoden zijn een wedstrijd, een vaardighedentest en een rating op de gebieden van voetbal, schaken en piano. We verwachten dat er geen correlatie is tussen bijvoorbeeld de vaardighedentest van voetbal en schaken. Er moet gekeken worden naar de betrouwbaarheid en de validiteit; voetbal meten met een vaardighedentest en dit vergelijken met de competitie. Hiertussen zal een hoge correlatie zijn, want we meten twee keer voetbal. Maar er mag geen correlatie zijn tussen het meten van schaken en voetbal. Het meetinstrument voor schaken moet niet voetbal kunnen meten. De vaardighedentest van schaken mag niet hoog correleren met de competentietest voor voetbal.
De standaarderror is de afwijking van de geobserveerde waarden ten opzichte van de verwachte waarden. Dit kun je in beeld brengen door de regressielijn te berekenen. In een voorbeeld van zo’n regressielijn is de horizontale as de leestoets (predictor) en de verticale as de CITO (criterium variabele). Als de correlatie 1 of -1 is, dan is er een perfect verband. Met de regressielijn kun je vanuit de leestoets een voorspelling maken voor de CITO. De standaarderror moet zo klein mogelijk zijn.
Bij groepsstudies onderzoek je scores van verschillende groepen, omdat je verwacht dat deze anders zijn. Je verwacht bijvoorbeeld dat kinderen met dyslexie slechter scoren op een leestoets dan kinderen zonder dyslexie.
Op basis van scores kunnen ook selectiebeslissingen gemaakt worden. Het is dan de vraag in hoeverre de selectie helpt bij het maken van een beslissing. Een voorbeeld: bij het solliciteren naar een functie moeten mensen soms een toets maken. Hoe belangrijk die test is, hangt af van het aantal sollicitanten en het aantal plaatsen (selectie ratio). Als er 60 sollicitanten zijn en maar 1 plek, dan speelt de test een belangrijke rol bij de beslissingen. Als er echter 90 sollicitanten zijn en 100 plekken dan is de test niet belangrijk. Daarnaast moet ook gekeken worden naar de base rate (het aantal sollicitanten dat succesvol zal zijn).
Interne structuur: hierbij onderzoek je of de relaties tussen de verschillende items van een test consistent zijn. Dit kan je doen door een factoranalyse uit te voeren. Hierbij kijk je naar bijvoorbeeld 10 items die allemaal de balvaardigheid meten en dan onderzoek je of deze items met elkaar samenhangen.
Response processes: analyse om te bepalen of de processen die personen gebruiken geschikt zijn voor een bepaald construct. Een voorbeeld is een taalkundige redeneertest: zijn leerlingen echt taalkundig aan het redeneren wanneer ze de test maken?
Bij value implications gaat het ten eerste om labels en de betekenis van labels. Zo moet er bijvoorbeeld worden gekeken of het plakken van een label (zoals ADHD) positieve of negatieve gevolgen heeft voor een leerling. Ten tweede gaat het om de selectie van constructen die gemeten moeten worden: wat zullen we meten op het tentamen / op de CITO-toets / op het schoolexamen etc.? Tot slot gaat het ook om de manier waarop we scores gebruiken. Hoeveel waarde hechten we aan scores? Wanneer moeten keuzes gemaakt worden? Hoe aannemelijk is het dat een persoon verandert.
In social implications komen alle andere facetten van validiteit samen. Zowel bedoelde als onbedoelde consequenties moeten overwogen worden. Is het gebruik van de test acceptabel als we kijken naar de consequenties ervan voor een individu en/of voor de maatschappij? Is het bijvoorbeeld wel een goed idee om dyslexietesten af te nemen wanneer er geen geld beschikbaar is voor hulp? Verder is de dreiging op constructvaliditeit van belang. Hiervan zijn twee vormen: construct-onderrepresentatie (niet alle aspecten van een construct zijn inbegrepen) en construct-irrelevante testvariantie (variantie is ontstaan door factoren die niet aan het construct gerelateerd zijn). Bij construct-irrelevante testvariantie is de test te makkelijk of te moeilijk voor specifieke (groepen) leerlingen.
Tot nu toe zijn alleen normgerichte toetsten besproken, maar er zijn natuurlijk ook criteriumgerichte toetsen. Stel dat de helft van de studenten een toets heeft gehaald en de andere helft niet. Deze twee groepen kun je vijf jaar later nog een keer vergelijken met een toets. Door te kijken naar de scores op deze toets, kun je checken of de criteria die toen gesteld zijn valide waren. De test behoort de verschillen tussen de twee groepen te maximaliseren.
College 5: Item-analyse
Latent trait theory / Item Response Theory (IRT)
Latent trait theory / Item Response Theory (IRT) is een methode die gebaseerd is op klassieke methoden. Door het gebruik van computers heeft deze theorie een nieuwe twist gekregen. Hierbij gaat het om iets wat we niet direct kunnen meten, maar om het onderliggende vermogen dat iemands succes bepaald op een bepaalde taak. Zo is het zo dat iedereen een bepaalde ‘hoeveelheid’ IQ heeft, maar we kunnen het niet zien. We kunnen het wel meten met een toets. Iemand met ‘meer’ intelligentie IQ, scoort hoger score op een IQ-test.
Een ander voorbeeld is het meten van taekwondo. Er moet een toets worden gemaakt met verschillende items om de taekwondo-vaardigheid te meten. Eén van deze items zou het breken van een plank met de voet kunnen zijn. Het vermoeden is dat de vrijwilligers nog nooit zoiets hebben gedaan en we willen dus meten welke persoon het meeste ‘talent’ heeft.
De vraag is dan: is een klein, dun plankje voldoende om de bekwaamheid te meten? Het antwoord hierop is ‘nee’, omdat zowel ongetrainde als de getrainde mensen dit kunnen. Nu is de vraag of de personen drie grote planken kunnen breken en het antwoord hierop is ‘nee’. Daarom wordt er gekozen voor een tussenvorm die bestaat uit één grote plank. Hierbij zien we differentiatie: het lukt niet iedereen om de plank te breken. Dit betekent dat dit item beter is dan de eerder genoemde items (klein plankje en drie grote planken).
Omdat de meer talentvolle leerlingen de plank wel kunnen doorbreken en de minder talentvolle niet. Het item ‘grote plank breken’ maakt dus onderscheid in de vaardigheid.
Er kan een item kenmerk curve gemaakt worden. Dit is een grafiek van de verhouding tussen de vaardigheid en de kans op een correct respons van de personen. Het is een voorspelling. Het punt waar de grafiek het meest steil is, is het discriminatiepunt. Daar is het item het best en dit is het punt waar de omslag is van onervaren naar ervaren.
Item analyse procedures
Er zijn drie klassieke methoden om items te analyseren.
Ten eerste is er de item moeilijkheidsindex. Als je bijvoorbeeld wilt weten welke vragen het best zijn om aardrijkskundige kennis te meten, dan moet je kijken naar het aantal mensen dat een vraag goed kan beantwoorden. Als ongeveer 60% van de studenten weet wat de hoofdstad van de VS is, dan is de moeilijkheidsgraad van dit item goed. Wanneer 90% van de studenten het antwoord zou weten, dan zou het item te makkelijk te zijn. Als slechts 2% het goede antwoord weet, is het item te moeilijk.
Je moet kijken naar de item moeilijkheidsindex p. Deze waarde bereken je door het aantal mensen met een correct antwoord op het item te delen door het totale aantal mensen. De waarde van p kan tussen de 0 en 1 liggen. Hierbij geven items met een index van 0 en 1 te weinig informatie over de moeilijkheidsgraad.
Hoe bereik je de optimale item moeilijkheid?
Je moet eerst nadenken over wat voor vragen je stelt. Bij constructed-response items (open vragen) ligt de optimale item moeilijkheid bij een gemiddelde van 0.50 (met een range van 0.40 tot 0.60), maar als je kiest voor een selected-response item (meerkeuzevragen) dan is de item moeilijkheid optimaal bij hogere percentages. De kans dat mensen hierbij het juiste antwoord gokken is namelijk groter. De optimale item moeilijkheid hangt bij meerkeuzevragen af van het aantal keuze-opties. Bij 2 keuzes is de moeilijkheidsgraad 85%, bij 3 keuzes 77%, 4 keuzes 74% en 69% bij 5 keuzes. De optimale waarden van p zijn per aantal keuze-opties weergegeven in een tabel.
Bovenstaande richtlijnen gelden voor normgerichte testen. Voor criteriumgerichte testen ligt de optimale item moeilijkheid hoger.
Ten tweede is er item discriminatie. Dit gaat over in hoeverre een test verschil maakt tussen mensen met veel bekwaamheid en weinig bekwaamheid. Als mensen bijvoorbeeld een algebraïsche som voorgelegd krijgen, moet er onderscheid worden gemaakt in mensen die wel en niet goed zijn in rekenen.
Bij normgerichte testen zijn er twee methodes om de item discriminatie index te berekenen: het groepsverschil en de item-totaal correlatie. Bij groepsverschillen selecteer je de onderste en de bovenste groep, bijvoorbeeld de hoogste 25% en laagste 25%. Je wil dat de mensen met een hoge score het item goed beantwoord hebben en mensen met de lage score hem fout hebben. De moeilijkheid bereken je voor elk item voor elke aparte groep: pT voor de bovenste groep (top) en pB voor de onderste groep (bottom). De item discriminatie index van een item is D. Er geldt: D = pT - pB. Wanneer D negatief is, is er sprake van een fout. Een D-waarde van 0.30 of hoger is acceptabel/goed en een waarde van 0.40 of hoger is uitstekend. Bij de item-totaal correlatie bereken je of de hele prestatie samenhangt met de prestatie op een bepaald item. Je berekent de point-biserial correlatie: de correlatie tussen een item en de totale testscore. Als hierbij sprake is van een grote correlatie dan meet het item hetzelfde als de hele test en discrimineert het item tussen mensen die hoog en laag scoren bij de test.
Bij criteriumgerichte testen wordt de item discriminatie index gebruikt voor groepsvergelijkingen (studenten met/zonder instructie, studenten die de taak wel/niet beheersen) en tijdvergelijkingen (voor en na instructie).
Ten derde is er nog de afleider (distracter) analyse. De afleiders zijn de foute alternatieven bij een MC-tentamen. Hierbij moet je je twee dingen afvragen. Ten eerste: Heeft iemand ze gekozen? Als niemand gekozen heeft voor een bepaald antwoord, dan is het geen goede afleider en dan moet deze eigenlijk worden vervangen door een andere. Ten tweede: Is het gekozen door meer mensen in de onderste dan de bovenste groep? Je moet nagaan of mensen met een lage score vaker kiezen voor een bepaalde afleider dan mensen met een hoge score. Als dit zo is, is er sprake van negatieve discriminatie en is de afleider effectief.
College 6 Besluitvorming
Besluitvorming is de belangrijkste punt van diagnostiek en assessment
De besluitvorming is afhankelijk van de gedachte en cultuur in een land en kan veranderen per tijdseenheid Zo was de data vroeger(15 jaar geleden) in het onderwijs om te onderscheiden of het onderwijs op de scholen goed of slecht is. Hedendaags wordt data over onderwijs ook gebruikt om het onderwijs te verbeteren.
Data moet door onder andere pedagogen goed geïnterpreteerd worden. Waarbij opgelet moet worden dat wij allen een idee hebben van wat belangrijk is, maar dat bij assessment meerdere facetten worden meegenomen buiten de belangrijkste punten om. Behalve wat belangrijk is nemen we ook nog onze eigen waarden mee over kenmerken die belangrijk zijn,
Het maken van assessment- en onderwijsbeslissingen
Assessment wordt gebruikt om het maken van beslissingen te verbeteren. De beslissingen die worden gemaakt, hangen samen met de waarden die heersen binnen de samenleving. Er kunnen vier soorten beslissingen worden gemaakt op basis van assessment.
Ten eerste classificatie en plaatsing: met behulp van assessment kan bijvoorbeeld worden bepaald of leerlingen wel of geen extra hulp nodig hebben. Wanneer wordt bepaald of een kind wel of geen extra hulp nodig heeft, moet je als eerst kijken naar het punt waarop waarden en assessment elkaar kruisen. Hierbij ligt de primaire focus op de persoon die wordt beoordeeld en de secundaire focus op de waarden binnen de maatschappij.
Ten tweede zijn er curriculaire beslissingen, waarbij het er bijvoorbeeld om gaat of leerlingen meer taallessen moeten krijgen in plaats van wiskundelessen. Er moet dan nagedacht worden over hoe en waarom deze verschillen ontstaan en welke waarden belangrijk zijn binnen een cultuur.
Ten derde is er de instructie die eventueel aangepast kan worden. Wat moeten de leerlingen leren? Hoe moeten ze het leren? En hebben ze uiteindelijk het leerdoel bereikt? Dit zijn vragen die gesteld moeten worden om te kijken of het niveau binnen de klas hoog genoeg is en of er op de ‘goede’ manier is onderwezen. Er zijn vier benaderingen om deze vragen te beantwoorden:
Prestatie in relatie tot perfectie: een 10 is perfect. Hierbij is het probleem dat bijna niemand een 10 haalt en dit zou dus betekenen dat het niet perfect was. Daarbij ontwikkelen wij ons steeds voort, dus als bijvoorbeeld een turner een 10 haalt in 1990 kan het best zo zijn dat de standaarden moeten worden aangepast, want anders kan iemand die beter is, niet hoger dan een 10 halen.
Prestatie in relatie tot het gemiddelde: de prestatie moet bekeken worden ten opzichte van anderen. Het probleem is dat de progressie soms moeilijk te interpreteren is en dus moeten de standaarddeviaties worden vergeleken.
Prestatie in relatie tot potentieel: verschilscores van een individu (dus zelf-gerichte prestatie) tussen moment A en moment B. Een probleem hierbij is dat de verschilscores inherent niet betrouwbaar zijn.
De huidige prestatie in relatie tot prestatie in het verleden: dit zijn de groei en ontwikkeling van het individu. Hierbij is het probleem dat er van tevoren moeilijk bepaald kan worden hoeveel een individu zal gaan groeien.
Tot slot is er de selectie, waarbij het gaat om individuen die geschikt zijn voor een bepaald niveau, bepaalde baan of bepaalde instelling. Een voorbeeld hiervan is het vaststellen welke studenten de studie wel of niet zullen halen.
Formatieve vs summatieve assessment
- Summatieve assessment: informantie verzamelen over het prestatieniveau van alle kinderen m een bepaald niveau
- Formatieve evaluatie: informatie over assessment verzamelen als terugkoppeling naar de docent. (de herhalingsvragen aan het einde van het college)
Bias in assessment en ethiek
Een bias is een systematische fout in een testscore door een overschatting of onderschatting van de prestaties van een bepaalde groep. Mogelijke bronnen voor bias zijn: de inhoud van de test, voorspellingen als gevolg van een testscore en weinig bewijs van bias bij gestandaardiseerde testen. Om bias vast te stellen kun je gebruik maken van item kenmerk curves van bijvoorbeeld groep A en B. Wanneer er bij één item een verschil te zien is tussen de curves, maar bij de andere items niet, dan is er iets mis met dat item.
Assessment moet geïnterpreteerd worden in verschillende contexten en moet dus ook voldoen aan gedrags- en ethische standaarden van de beroepen. Voor professionals is het dan ook van belang dat ze kiezen voor valide, betrouwbare en non-biased testen en dat ze data op de juiste manier gebruiken. Het is van groot belang dat er met respect en waardigheid omgegaan wordt met anderen. Zo moeten de privacy en vertrouwelijkheid worden gewaarborgd en moet er goed worden gekeken hoe de informatie wordt gebruikt. Daarnaast moet nagedacht worden over de sociale verantwoordelijkheid, waarbij gekeken wordt naar de kosten en baten van een diagnose en assessment.
Zes principes
Met betrekking tot assessment en het maken van beslissingen zijn er zes principes op te stellen. 1) We moeten ons bewust zijn van de waarden die een rol spelen bij het maken van beslissingen: eigen waarden en waarden van de maatschappij. 2) We moeten ons realiseren dat testscores slechts indicatoren of signalen van een bepaald construct zijn. 3) We moeten testresultaten zien als slechts één type beschrijvende informatie. Voor het nemen van een goede beslissing zijn ook andere informatiebronnen belangrijk. 4) Het is belangrijk om testresultaten in verband te brengen met deze andere beschikbare informatie. 5) We moeten ons realiseren dat er altijd sprake is van een error. Dit houdt dus in dat beslissingen eigenlijk altijd worden gemaakt op basis van gebrekkige informatie. 6) We moeten altijd voorzichtig zijn met het maken van beslissingen: menselijke kennis kent gebreken. Wees eerlijke over wat je wel en niet weet.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Contributions: posts
Spotlight: topics
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the summaries home pages for your study or field of study
- Use the check and search pages for summaries and study aids by field of study, subject or faculty
- Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
- Check or follow authors or other WorldSupporters
- Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Main summaries home pages:
- Business organization and economics - Communication and marketing -International relations and international organizations - IT, logistics and technology - Law and administration - Leisure, sports and tourism - Medicine and healthcare - Pedagogy and educational science - Psychology and behavioral sciences - Society, culture and arts - Statistics and research
- Summaries: the best textbooks summarized per field of study
- Summaries: the best scientific articles summarized per field of study
- Summaries: the best definitions, descriptions and lists of terms per field of study
- Exams: home page for exams, exam tips and study tips
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
- Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
- Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
4228 |
Add new contribution