Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Deze samenvatting is gebaseerd op het studiejaar 2013-2014.
- College 1: Introductie in assessment en COTAN – 21-02-2014
- College 2: Aspecten met betrekking tot assessment – 24-02-2013
- College 3: De betekenis van testscores – 28-02-2014
- College 4: Betrouwbaarheid – 07-03-2014
- College 5: Validiteit – 14-03-2014
- College 6: Item-analyse en besluitvorming – 21-03-2013
- College 7: Speciale populaties en accommodaties - 28-03-2013
College 1: Introductie in assessment en COTAN – 21-02-2014
Assessment in het onderwijs
Kinderen brengen een groot deel van hun tijd op school door en er is dan ook veel informatie beschikbaar over de leerprestaties van een kind. Deze leerprestaties hebben invloed als er een diagnose wordt gesteld (bijvoorbeeld dyslexie) of een interventie wordt uitgevoerd. De leraar, remedial teacher, orthopedagoog en gezinspedagoog mogen beslissingen nemen over het kind, een eventuele diagnose en/of een interventie. Dit heeft vaak gevolgen voor de ontwikkeling en toekomst van het kind.
Docenten (maar ook leerlingen en studenten) gebruiken assessment als hulpmiddel. Onder assessment verstaan we de procedures om te bepalen of het onderwijs effectief is geweest en of de vooropgestelde doelen zijn bereikt. Assessment helpt dus bij het stellen, verfijnen en verhelderen van realistische doelen en het nagaan in hoeverre zo’n doel is bereikt. Daarnaast kan het een indicatie geven voor het bepalen, evalueren en het aanpassen van de instructie, waardoor de leerling effectiever zal gaan leren. Ook kan het helpen bij entry-assessment. Dit is om te bepalen of het kind een bepaald doel kan bereiken, bijvoorbeeld of het vwo-niveau voor een kind haalbaar is. Het voordeel van entry-assessment is dat kenmerken van een leerling of student bekend zijn bij aanvang van een onderwijsonderdeel. Bovendien geeft het een indicatie voor het bepalen van realistische doelen voor het betreffende onderdeel.
Assessment kan ook als hulpmiddel voor de leerlingen dienen. Door assessment weten leerlingen wat de doelen zijn van het onderwijs. Dit beïnvloedt hun motivatie en studiegedrag. Daarnaast krijgen ze ook feedback door assessment en hierdoor leren kinderen hun sterke en zwakke kanten kennen.
Instrumenten
Assessment vindt plaats met behulp van verschillende instrumenten. Ten eerste kan assessment plaatsvinden door middel van een leerpotentieel-test (aptitude test). Dit is een test waarin wordt gekeken naar wat iemand zou kunnen, bijvoorbeeld met behulp van bepaalde instructie, en niet naar wat iemand al kan. In een prestatie-test (achievement test) wordt juist wel gekeken naar wat iemand al kan; dit geeft informatie over de sterke en zwakke punten van een leerling bij een vak. Er zijn ook diagnostische instrumenten. Deze zijn niet gericht op wat iemand al kan, maar meer op wat iemand nog niet beheerst. Diagnostische instrumenten geven specifieke informatie over een bepaald probleem, bijvoorbeeld een probleem met lezen. Tot slot kunnen ouders en leerkrachten informatie geven, dit is ook een ‘instrument’.
Formatieve en summatieve assessment
Bij formatieve assessment wordt kennis getoetst tijdens het leerproces. Deze vorm van assessment wordt gebruikt om het leerproces te verbeteren. Sterke en zwakke punten van een leerling bij het verwerven van leerdoelen kunnen worden vastgesteld. Op basis hiervan weten leerlingen waar ze meer aandacht aan moeten besteden en kan de leerkracht de instructie aanpassen aan de leerling. Een centraal begrip bij formatieve assessment is feedback. Voorbeelden van formatieve assessment zijn diagnostische toetsen, projecten, observaties, schriftelijke opdrachten en gesprekken met en tussen leerlingen.
Bij summatieve assessment wordt kennis getoetst na het leerproces. Het gaat hierbij om een eindbeoordeling of eindcijfer. Het doel hiervan is om te bepalen of een leerling een zeker niveau heeft bereikt na het volgen van een vak. Voorbeelden van summatieve assessment zijn schriftelijke overhoringen en centrale toetsen (large scale), zoals de CITO-toets. Centrale toetsen geven inzicht in het niveau van de individuele leerling en maken het ook mogelijk om de leerling te vergelijken met een normgroep. De overheid gebruikt centrale toetsen om scholen met elkaar te vergelijken en om beslissingen te maken over de selectie en plaatsing van leerlingen en studenten. Bij deze toetsen gaat het niet om feedback voor de onderwijspraktijk, maar enkel om een beoordeling aan de hand van de betreffende centrale toets.
Op formatieve wijze kan gebruik gemaakt worden van summatieve toetsen. Dit is bijvoorbeeld het geval als leerlingen moeten reflecteren op hun eigen werk, bijvoorbeeld door tussentijdse beoordelingen te gebruiken ter voorbereiding op een summatieve toets. Daarnaast kunnen leerlingen helpen met het ontwikkelen met een scoringsmodel en vragen nabespreken die voor problemen hebben gezorgd. Ten derde kunnen leerlingen ook zelf oefenvragen verzinnen als voorbereiding op de summatieve toets.
Invloed van assessment op leren
Ten eerste is er het pre-assessment effect. Dit houdt in dat leerlingen een verwachting hebben van de gestelde eisen en de vorm van assessment (bijvoorbeeld open vragen of meerkeuzevragen) en hun leergedrag hierop aanpassen. Leerlingen stellen vaak andere doelen dan leerkrachten en door dit verschil in perceptie worden summatieve toetsen vaak als oneerlijk gezien. Dit heeft geleid tot nieuwe vormen van assessment (zoals deep learning) en deze vinden leerlingen vaak eerlijker.
Ten tweede is er het post-assessment effect. Dit effect is het grootst bij formatieve assessment en houdt in dat leerlingen terugkijken en reflecteren op een assessment taak (zoals een tentamen). Hierdoor leren leerlingen veel: door het terugkijken ontwikkelen ze cognitieve en academische vaardigheden. Daarnaast raken leerlingen meer gemotiveerd en zien ze deze vormen van assessment als eerlijker en interessanter. Ook leidt dit vaak tot meer samenwerking.
Tot slot is er het ware assessment effect. Dit gaat om wat je leert tijdens het maken van een assessment taak.
Assessment for learning
Assessment for learning is eigenlijk gelijk aan formatieve assessment en assessment of learning is gelijk aan summatieve assesment. Black en Williams (1998) hebben onderzoek gedaan naar de werking van formatieve assessment. Zij stelden vast dat kinderen hierdoor vooruitgaan in hun leerprestaties en dat dit geldt voor verschillende leeftijden, schoolvakken en landen. Alle leerlingen gaan vooruit, maar het verschil tussen zwakke en sterke leerlingen wordt kleiner doordat het effect van formatieve assessment bij zwakke leerlingen groter is. Dat leerlingen zoveel vooruit gaan komt doordat vormen van formatieve assessment leiden tot meer zelfvertrouwen en motivatie. Daarnaast leren leerlingen hun talenten beter te benutten.
Problemen met assessment
Assessment kent ook verschillende problemen. Ten eerste leiden veel vormen van assessment tot oppervlakkig leren en daarnaast ligt de focus vooral op de cijfers die leerlingen behalen en niet op wat leerlingen daadwerkelijk kunnen. Hierdoor ontstaat een competitie tussen leerlingen om wie de hoogste cijfers haalt en richten leerlingen zich niet op persoonlijke ontwikkeling (wat in de praktijk belangrijker is). Tot slot ondervinden ook leraren problemen met assessment, omdat zij vooral bezig zijn met klassenmanagement en het invullen van het LeerlingVolgSysteem. Ze zouden zich meer moeten bezighouden met persoonlijke feedback en het identificeren van leervragen.
Het leren verbeteren door assessment
Ten eerste kan het leren worden verbeterd door effectieve feedback. Hierin worden de sterke en de zwakke punten van de leerling besproken en wordt advies gegeven over hoe het werk verbeterd kan worden. Daarom moet er sprake zijn van feed forward: hierbij is de leerling bewust van het einddoel en van waar hij of zij nu staat. Er moet dan een plan worden bedacht om de kloof daartussen te dichten en het einddoel te bereiken.
Ten tweede moet er sprake zijn van self assessment. Dit houdt in dat leerlingen een actieve rol spelen in hun eigen leerproces, want dit leidt tot leerdoelgericht leren. Leerdoelen en standaarden moeten helder en duidelijk worden opgesteld.
Ten derde speelt peer assessment een belangrijke rol, omdat de mening van leeftijdsgenoten vaak acceptabeler en begrijpelijker is (feedback is in leerling-taal) dan de docentbeoordeling. De leerlingen die feedback moeten geven, leren hier zelf ook van en docenten houden meer tijd over om te observeren en te reflecteren.
Ten vierde is het belangrijk dat leerlingen en docenten met elkaar praten: er moet interactie zijn. Dit is belangrijk, omdat de leerling dan de kans krijgt om te vertellen wat hij/zij vindt van een bepaalde situatie (bijvoorbeeld wat de leerling vindt van de hoeveelheid huiswerk). Het is van belang dat de overdracht goed is en dat de leerling reflecteert. De leraar moet de leerlingen stimuleren om hun mening te geven en ze de ruimte geven om dit te doen.
Ten vijfde moeten opdrachten en huiswerk leerdoel-gerelateerd en duidelijk zijn. Feedback moet worden gegeven zodat de leerling zijn/haar werk kan verbeteren en de leerling moet dan ook de kans krijgen om het werk te verbeteren.
Ten zesde moet de feedback die is gegeven in beoordelingsmomenten worden gebruikt om in samenwerking met de leerlingen de volgende onderwijs- en leeractiviteiten op te stellen of te ontwerpen.
Tot slot moet de leraar er vanuit gaan dat elke student de capaciteiten en motivatie heeft om zich te verbeteren en te ontwikkelen.
Uit dit alles blijkt dat er nog veel winst valt te behalen in het onderwijs. Dit kan door onderzoek naar bestaande en nieuwe principes van onderwijs en effectief leren en door het evalueren en passend maken van instructievormen en –methoden voor het onderwijs. Hier ligt een belangrijke taak voor onderwijskundigen en pedagogen!
COTAN
COTAN staat voor commissie testaangelegenheden Nederland en is onderdeel van het Nederlands Instituut van Psychologen (NIP). De COTAN beschrijft en beoordeelt testen, vragenlijsten, observatieschalen en psychodiagnostische instrumenten op grond van zeven criteria: uitgangspunten van de testconstructie, kwaliteit van het testmateriaal, kwaliteit van de handleiding, normen, betrouwbaarheid, begripsvaliditeit en criteriumvaliditeit.
In het werk van een pedagoog zijn onder andere dyslexieonderzoeken en intelligentietesten belangrijk. Het doel van de COTAN is dan ook om informatie te geven aan testgebruikers over de kwaliteit van meetinstrumenten, zodat mensen een goede keuze kunnen maken bij het testen van een kind. Daarnaast geeft de COTAN ook feedback op een test en dit kan voor testauteurs belangrijk zijn. Zij kunnen dan controleren of de test klopt en hem eventueel aanpassen en/of verbeteren.
De zeven criteria:
1. Uitgangspunten van de testconstructie: hierin wordt de theoretische achtergrond van een test besproken. De meetpretentie (is het doel van de test duidelijk beschreven?), de doelgroep en de functie van de test (is het intelligentie meten of behandelingsadvies geven?) zijn de belangrijkste aspecten die aan bod komen.
2. Kwaliteit van het testmateriaal: hierbij gaat het erom of de testopgaven, de scoringsprocedures en de instructies zijn gestandaardiseerd (iedereen doet het op dezelfde manier) en goed te begrijpen zijn.
3. Kwaliteit van de handleiding: een test afnemen is lastig, omdat er strikte regels aan verbonden zitten. Het is dan ook belangrijk dat de juiste informatie aangeboden wordt aan de testgebruiker voor de afname en interpretatie van de test.
4. Normen: het is belangrijk om een goede normgroep uit te kiezen om de test mee te testen. Een normgroep is een steekproef die de ‘norm’ aan moet geven en daarom moet deze overeenkomen met de werkelijkheid. Daarbij is het belangrijk om te bedenken of er sprake is van een normgerichte interpretatie (in vergelijking met de normatieve groep) of criteriumgerichte/domeingerichte interpretatie (vergeleken met de criteria van een deskundige die vindt dat een kind iets op een bepaald moment moet kunnen, bijvoorbeeld kunnen lopen als het twee jaar oud is).
5. Betrouwbaarheid: dit gaat over de vraag in hoeverre de uitslag van een test geloofwaardig is en klopt met de werkelijkheid. Daarnaast moet er ook gekeken worden in hoeverre de uitkomst van de test hetzelfde zal zijn bij het herhalen ervan.
6. Begripsvaliditeit: hierbij gaat het erom of de test het vooraf gestelde doel heeft gehaald en of er correcte conclusies getrokken kunnen worden uit de testscores.
7. Criteriumvaliditeit: kan de test een voorspelling geven over het gedrag van de testpersoon (de predictieve validiteit)?
Beoordelingsprocedure
Om te bepalen of de test wel of niet geschikt is, worden eerst de test zelf en ander relevant materiaal door de testauteur naar de COTAN gestuurd. Dit materiaal wordt dan bekeken door twee beoordelaars en als deze erg van mening verschillen wordt er nog een derde persoon bij gehaald die de test nogmaals beoordeelt. Vervolgens gaat de test met de feedback weer terug naar de testauteur en die krijgt de kans om te reageren op de feedback. Als de testauteur met de feedback akkoord gaat, wordt de beoordeling gepubliceerd in de COTAN documentatie. Als er nieuwe normen en waarden ontstaan in de samenleving of er nieuwe onderzoeksgegevens beschikbaar komen, dan zal de test opnieuw worden beoordeeld.
Hoe de site van COTAN werkt, staat beschreven in de slides op Blackboard.
In dit college is begonnen met het maken van een dataset, zodat termen en begrippen makkelijker uitgelegd kunnen worden in de volgende colleges. De data zijn verzameld met behulp van een maze-taak. Dit is een leestaak waarbij je een verhaal moet lezen en tussendoor steeds moet kiezen uit drie woorden waarvan er slechts één in de zin correct is. De studenten werden in drie groepen opgesplitst. De eerste groep mocht één minuut lezen, de tweede groep anderhalve minuut en de derde groep twee minuten. Dit is gedaan om verschil in scores te creëren (universitaire studenten zijn geen representatieve groep). Na de test moest iedereen opschrijven wat hij/zij zich van het verhaal kon herinneren (recall). Het aantal correct gekozen woorden van de maze-taak en het aantal woorden van de recall moesten geteld worden.
College 2: Aspecten met betrekking tot assessment – 24-02-2013
Wat is assessment?
Voordat assessment kan plaatsvinden, moet er eerst een test worden uitgevoerd en moet deze test gemeten worden (measurement). Met een test wordt het middel of de procedure bedoeld die je gebruikt om aan informatie (over bijvoorbeeld gedrag) te komen. Een voorbeeld van zo’n test is een enquête. Vervolgens moeten de uitkomsten worden verwerkt. Dit gebeurt door regels op te stellen, waardoor nummers toegekend kunnen worden aan de verschillende testonderdelen. Een voorbeeld is het uitrekenen van een cijfer voor een vak. Als je iemand een 5 geeft, zegt dit nog niets over hoe goed dit is. Om getallen te kunnen interpreteren is assessment nodig. Hierbij worden procedures opgesteld om te kunnen bepalen wat getallen inhouden. Zo is het cijfer 5 in Nederland onvoldoende, maar in de VS zegt dit cijfer niets (want daar gebruiken ze letters). Getallen hebben dus pas een waarde als je er een betekenis aan hebt gegeven.
Beslissingen die gemaakt kunnen worden met behulp van assessment
Met behulp van assessment kunnen verschillende beslissingen worden gemaakt. In het onderwijs kan bijvoorbeeld worden bepaald of de manier waarop staartdelingen worden aangeleerd, veranderd moet worden. Deze manier is al meerdere keren veranderd, omdat bleek dat kinderen de oude manier niet goed snapten. Als gevolg daarvan werd er een nieuwere methode ontwikkeld. Met behulp van assessment kunnen er dus beslissingen worden gemaakt over het wel of niet veranderen van een methode. Daarnaast kunnen er ook curriculaire beslissingen worden genomen: beslissingen met betrekking tot de studieonderdelen. Er kan bijvoorbeeld worden gekeken naar de hoeveelheid talen die kinderen op de middelbare school moeten leren en hoeveel tijd daaraan besteed moet worden. Zo is het in Nederland belangrijk dat kinderen meerdere talen leren, maar in de VS ligt de nadruk meer op wiskunde en natuurkunde. Ook kan er met behulp van assessment worden vastgesteld wat de invloed is van bijvoorbeeld een Engelse les minder per week. Het onderwijsprogramma wordt dus aangepast met behulp van assessment en waar de nadruk op ligt is cultuurafhankelijk. Met assessment kunnen ook beslissingen worden gemaakt over selectie. Op basis van welke factoren wordt bijvoorbeeld bepaald of iemand naar de universiteit mag? Tot slot kan ook worden gekeken naar classificatie en plaatsing. Welke problemen hebben leerlingen? En waar zullen zij het beste op hun plaats zijn (bijvoorbeeld voor extra instructie)?
Veronderstellingen van assessment
Assessment doet de veronderstelling dat psychologische constructen en onderwijsconstructen bestaan en gemeten kunnen worden. Een construct is een idee waar een definitie aan gegeven moet worden. Dit is hetgeen dat je wil meten, maar zonder definitie kun je het niet meten. Een construct is niet te observeren en niet tastbaar: het is abstract. Voorbeelden van constructen zijn blijheid en intelligentie.
In elk onderzoek zitten meetfouten en dit komt doordat een construct moeilijk te meten is. Als je een hoeveelheid wilt meten is dit vaak makkelijk, maar hoe meet je blijheid? Hoe meer error er is bij het onderzoek, hoe minder bruikbaar de meting is. Constructen zijn op verschillende manieren te meten. Bijvoorbeeld met testen (MC of open), huiswerk, projecten of presentaties.
Welke vorm van assessment je ook kiest, er zullen altijd sterke en zwakke kanten zijn. De vraag hierbij is: wegen de sterke punten op tegen de zwakke punten? Er moet hier een soort balans worden gevonden. Daarnaast is het ook belangrijk om het doel van de assessment in de gaten te houden. Om de assessment zo betrouwbaar mogelijk te maken, is het goed om meerdere informatiebronnen te gebruiken.
Prestaties op testen kunnen vaak worden gegeneraliseerd naar non-test gedrag. Een bepaalde CITO-score bij een kind kan bijvoorbeeld een voorspeller zijn van zijn/haar schoolprestaties op latere leeftijd. Assessment kan dus gebruikt worden om gedrag te voorspellen.
Met behulp van testen kan ook informatie worden ingewonnen over de kennis van een leerling op een bepaald gebied. Je kunt beter beoordelen wat je iemand geleerd heeft met behulp van een tentamen (assessment) dan zonder een tentamen.
In sommige gevallen is er sprake van oneerlijkheid. Als de uitslag van een test bijvoorbeeld afhankelijk is van geslacht of cultuur, dan is er sprake van bias en dit is niet eerlijk. Een veronderstelling van assessment is dat het op een eerlijke manier kan worden uitgevoerd.
Tot slot zitten er vele voordelen aan verbonden voor de hele maatschappij. Met behulp van assessment kan worden bepaald of iemand de capaciteiten heeft om bijvoorbeeld chirurg te worden, pedagoog te worden of het rijbewijs te halen. Als iemand namelijk niet aan de eisen voldoet, verdient deze persoon ook bepaalde titels of diploma’s niet.
Stappen in het assessmentproces
Het identificeren en definiëren van een construct.
Je wil een eigenschap van iets of iemand weten, maar voordat je iets kunt meten, heb je een definitie nodig. Het is van belang om je definitie te operationaliseren. Je moet een kenmerk kunnen observeren en meten. Een voorbeeld hierbij is intelligentie. Sommige mensen hebben een hele hoge opleiding, maar kunnen nog geen kast in elkaar zetten. Het hangt van je definitie van intelligentie af of je zo’n persoon dan intelligent vindt of niet.
Het bepalen van procedures voor de meting.
De manier waarop we het kenmerk willen meten, hangt af de definitie die net is gegeven. Wat is bijvoorbeeld de beste manier om geschiedeniskennis te meten? Open vragen of MC-vragen? Jaartallen of gebeurtenissen? Dit hangt af van je definitie van geschiedeniskennis.
Kwantificeren.
Geef de precieze omschrijving van wat je bedoelt en probeer zoveel mogelijk in kwantitatieve begrippen uit te drukken, dus in getallen. Dit is van belang, omdat het de communicatie verbetert en het hierdoor mogelijk is om wiskundige berekeningen toe te passen. Daarnaast is de context ook van belang, want zonder context kun je geen conclusies trekken. Bijvoorbeeld: Als Daniël zijn toets maakt en hierbij 60% van de vragen goed beantwoordt, is dat dan goed of niet? Dit hangt van de context af, want als Daniël in groep 2 zit en de toets voor groep 6 leerlingen is (gemiddelde score 70%), wat zegt de score dan over Daniël?
Huidige discussiepunten met betrekking tot assessment
Allereerst is het van belang dat testen niet leiden tot een bias. Hiermee krijg je onder andere te maken als je iemand test uit een minderheidsgroep. Tijdens zo’n test is het belangrijk om duidelijk vast te stellen of je dezelfde doelen hebt voor beide groepen en na de test is het belangrijk om te kijken hoe de testscores gebruikt worden.
Ten tweede moet de privacy worden gewaarborgd. Het is dan ook niet toegestaan om gegevens aan anderen te laten zien zonder toestemming van de ouder of het kind. Daarom moet er rekening gehouden worden met ‘Wat kunnen we testen?’ en met ‘Hoe worden de scores gebruikt?’
Daarnaast moeten we ons afvragen of er wel of geen normatieve vergelijkingen gemaakt moeten worden. Door een normatieve verdeling weten mensen wat hoog en laag is. Dit hangt samen met het zelfbeeld dat de persoon heeft. Als je jezelf met anderen vergelijkt qua lengte, dan kijk je naar de mensen om je heen. Iemand in China zal iemand van 1,80 lang vinden, terwijl wij dit in Nederland ‘normaal’ vinden.
Een ander belangrijk punt zijn de externe factoren. Om een goede assessment te kunnen maken, moet hier rekening mee gehouden worden. Dyslexie of angst zijn voorbeelden van externe factoren.
Tot slot moet er ook rekening gehouden worden met rechten en verantwoordelijkheden. Want hoe vertel je ouders dat een kind dyslexie heeft? De hulpverlener moet dan ook rekening houden met de manier waarop ze iets vertellen en welke impact dit heeft op de ouders. Het is de taak van de hulpverlener om de ouders te steunen als zij het moeilijk hebben.
College 3: De betekenis van testscores – 28-02-2014
Basisprincipes van assessment
Sensitiviteit vs. specificiteit: Stel dat je een toets wil maken, zodat je kunt voorspellen wie volleybalspelers zijn, en je maakt een indeling op basis van lengte (als je groter bent dan 1,80 meter, dan ben je volleybalspeler). Wanneer de meerderheid van de mensen die langer zijn dan 1,80 ook volleybal speelt, dan is je toets sensitief. Sensitiviteit betekent namelijk dat je een assessmentprocedure gebruikt waarbij jouw groep de meerderheid van de personen bevat of ‘vangt’ die bij die groep horen. De meerderheid van de groep heeft dan dat ene kenmerk. Wanneer de meeste personen die kleiner zijn dan 1,80 ook volleybal spelen, dan is de test wel sensitief, maar niet specifiek. Wanneer de meeste personen die kleiner zijn dan 1,80 geen volleybal spelen, dan is de test zowel specifiek als sensitief. Specificiteit is namelijk de mate waarin een assessmentprocedure alleen de personen bevat of ‘vangt’ die bij die groep horen (of niet de personen bevat die niet bij de groep horen).
Het tweede voorbeeld heeft betrekking op vloeiend lezen en dyslexie. Bij dit voorbeeld is de sensitiviteitsvraag: ‘Hebben (de meeste) leerlingen met het label dyslexie een lagere score op een test voor vloeiend lezen?’ Als het antwoord hierop ‘ja’ is, dan is de test voor vloeiend lezen sensitief. De specificiteitsvraag is: ‘Hebben (de meeste) leerlingen zonder het label dyslexie ook een lagere score op een test voor vloeiend lezen?’ Als het antwoord op deze vraag ‘nee’ is, dan is het ook een specifieke test. Als het antwoord ‘ja’ is, dan is het geen specifieke test. Dit komt omdat er dan ook andere factoren kunnen meespelen, zoals slecht onderwijs, taalarme omgeving, ADHD, faalangst etc. Het is lastig om een specifieke test te maken; een sensitieve test is makkelijker.
Continuüm vs. unieke kwaliteit: Wanneer er een diagnose wordt gesteld, is er vaak sprake van het ‘wel’ of ‘niet’ hebben van een probleem of stoornis (unieke kwaliteit). Je hebt bijvoorbeeld wel ADHD of geen ADHD. Hulpverleners moeten vaak een keuze maken, maar eigenlijk bestaat er een heel continuüm van ADHD. Het ene kind heeft bijvoorbeeld meer aandachtsproblemen dan het andere kind. Bij het opstellen van een diagnose moet er ergens een grens worden gesteld.
Heterogeniteit: Binnen een groep is er altijd verschil. Als er bijvoorbeeld in een groep wordt gezegd dat degenen met blond haar mogen opstaan, dan staan er een aantal mensen op met lichtblond haar en een aantal met donkerblond haar. Niet iedereen in de groep heeft dus exact hetzelfde kenmerk. Ook verschilt het per cultuur wat blond is en wat niet. Wat wij in Nederland zien als donkerblond wordt bijvoorbeeld in Amerika gezien als lichtbruin.
Hetzelfde geldt voor ADHD. Sommige kinderen met ADHD hebben gedragsproblemen, anderen hebben leerproblemen en weer anderen voelen zich depressief. Deze kenmerken gelden echter niet voor alle kinderen met ADHD: de kenmerken binnen de groep verschillen per kind.
‘Person First’ taalgebruik: Een diagnose is een beschrijving van een kenmerk van de persoon. Hierbij moet er in de gaten worden gehouden dat we niet zeggen ‘Jantje is een autist’, maar dat er wordt gezegd ‘dit is Jantje en hij heeft autisme’. Een diagnose geeft namelijk aan wat de persoon heeft of doet, maar niet wat de persoon is. Noem dus eerst de persoon en daarna pas de kenmerken van die persoon.
Implicaties voor de behandeling: Er is nu een diagnose gesteld, maar wat kun je daarmee? Stel dat je weet dat iemand ADHD heeft, dan weet je wat de oorzaak is van de problemen (oorzaak), maar wat je eraan kunt doen (de behandeling) en hoe de toekomst eruit ziet (de prognose) verschilt per persoon. Daarnaast is er nog een vraag: doet de naam meer kwaad of helpt het iemand juist verder? In sommige gevallen hebben kinderen er veel aan dat er een diagnose is gesteld (bijvoorbeeld bij dyslexie: weten dat het niet komt omdat je niet je best doet of omdat je dom bent), maar in sommige andere gevallen heeft het label nadelen.
Statistiek van assessment
Measurement bestaat uit de regels die worden gebruikt om nummers toe te kennen aan het gedrag van een individu. Er zijn verschillende schalen van measurement: nominaal, ordinaal, interval en ratio. Elke schaal heeft zijn eigen eigenschappen, type informatie dat wordt overgebracht en hiërarchie (sommige metingen zijn verfijnder en geven meer informatie).
Nominaal: een nominale schaal wordt gebruikt om ergens een naam aan te geven en om gegevens te ordenen in categorieën of klassen. Dit is bijvoorbeeld het geval als je een lijst met voetbalclubs hebt en deze een nummer geeft dat staat voor de regio waar ze vandaan komen. In dit geval zeggen de nummers niets over hoe goed de clubs zijn: nummer 1 is niet beter dan nummer 2. Er kunnen geen rekensommen mee gemaakt worden. Andere voorbeelden zijn studierichting en geboorteplaats.
Ordinaal: met een ordinale schaal kan er worden gezegd welke club op dat moment het beste is. Het is een rangorde, maar zegt niet hoeveel verschil er is tussen de verschillende groepen. Je kunt dus ook niet rekenen met deze schaal (want 2 is niet 2 keer zo goed als 4). Een ander voorbeeld is het op schaal weergeven van voorkeuren of prestaties, zoals 1 = goed, 2 = minder goed, 3 = matig, 4 = slecht. Er is een rangordening van goed tot slecht, maar de precieze mate van verschil tussen de rangen is onduidelijk.
Interval: er is een rangordening waarbij er gelijke verschillen zijn tussen de eenheden. Hier kun je mee rekenen, want het verschil tussen bijvoorbeeld 70 en 71 is net zo groot als het verschil tussen 37 en 38. Er is echter geen nulpunt, wat betekent dat je geen conclusies uit de getallen kunt trekken (bijv. een IQ van 100 is niet twee keer zo groot als een IQ van 50).
Ratio: deze schaal heeft dezelfde eigenschappen als de intervalschaal. Het verschil is dat de ratioschaal een absoluut nulpunt heeft, waardoor je ermee kunt rekenen én er conclusies uit kunt trekken (bijv. club 1 is twee keer zo goed als club 2). Er zijn weinig gevallen waarin je ratioschalen gebruikt in de pedagogiek, ze worden vooral gebruikt voor lengte, gewicht en percentage correcte antwoorden op een test.
Beschrijving van testscores
Distributie/verdeling
De verdeling kan worden weergeven met behulp van tabellen of grafieken. Als de verdeling symmetrisch is, dan is er sprake van een normale verdeling. De mediaan, het gemiddelde en de modus zijn precies in het midden te vinden. Als dit niet het geval is, dan is de verdeling vaak scheef. Er kan sprake zijn van een negative skew (weinig scores aan de lage kant, de staart van de verdeling zit links) of een positive skew (weinig scores aan de hoge kant, de staart van de verdeling zich rechts). Als je kijkt naar de leeftijd van pedagogiekstudenten dan is er een sprake van positive skew (veel jonge mensen), maar als je kijkt naar de gemiddelde leeftijd bij het biljarten dan zal er sprake zijn van een negative skew (veel ouderen).
Centrummaten
Er zijn verschillende manieren om het centrum te bepalen. Ten eerste kun je het gemiddelde berekenen door alle scores bij elkaar op te tellen en dit te delen door het aantal scores. Het gemiddelde is heel gevoelig voor extreme scores en kan alleen worden toegepast bij ratio en interval data. Ten tweede is er de mediaan, deze deelt de verdeling door de helft. De helft van alle scores valt dus onder de mediaan en de heft valt erboven. Het voordeel is dat deze niet gevoelig is voor extreme waarden. De mediaan kan gebruikt worden bij ratio, interval en ordinale data. Ten derde is er de modus en dit is de meest voorkomende score. Er kunnen meerdere modi zijn en de modus kan bij alle meetschalen (ratio, interval, ordinaal en nominaal) worden bepaald. De positie van het gemiddelde, de mediaan en de modus hangt af van de vorm van de verdeling. Bij een normale verdeling liggen ze alle drie precies in het midden. Als de verdeling scheef is, liggen ze niet op dezelfde plek. Het gemiddelde verandert sterker door extreme waarden, dus ligt altijd aan de kant van de staart. De modus ligt op het hoogste punt en de mediaan ligt tussen de modus en het gemiddelde in (deelt de verdeling in tweeën).
Metingen van variabiliteit
Het bereik is de afstand tussen de laagste en de hoogste score in de verdeling. De standaarddeviatie is de gemiddelde afstand waarin scores afwijken van het gemiddelde. Deze bereken je door de wortel te trekken uit de variantie. De variantie is het gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde.
Correlatie coëfficiënt
Hiermee kun je de relatie tussen twee variabelen bepalen. De correlatie kan variëren tussen de -1 en de 1. Als de correlatie coëfficiënt vlakbij één van deze getallen liggen, dan is de correlatie groot en is er een sterke samenhang tussen de variabelen. De plus of min geeft de richting van het verband aan. Een positieve correlatie houdt in dat ze samen dezelfde richting op gaan (hoe groter A, hoe groter B) en een negatieve correlatie houdt in dat ze allebei een andere richting opgaan (hoe groter A, hoe kleiner B). Als de correlatie 0 is, dan is er geen relatie tussen twee getallen en zegt de score op A niks over de score op B. Een correlatie van 1 of -1 is de perfecte correlatie: als je A dan weet, dan weet je B ook. Als je de correlatie coëfficiënt weet dan moet deze worden geïnterpreteerd. Of er een groot of klein effect is, hangt af van de onderzoeksvraag.
De correlatie kan op verschillende manieren worden weergegeven. Een scatterplot is een grafiek die de relatie tussen twee variabelen weergeeft. Lineaire regressie is een rekenkundige procedure waarbij je de waarde van de ene variabele kunt voorspellen uit een andere variabele.
Correlatie is niet hetzelfde als causaliteit: een correlatie zegt namelijk niets over oorzaak of gevolg. Bij het vaststellen van causaliteit kunnen fouten worden gemaakt. Bij reverse causation stelt de onderzoeker vast dat A veroorzaakt wordt door B, terwijl het eigenlijk andersom is. Bij bidirectional causation leidt A tot B en B tot A. Er is sprake van wederzijdse beïnvloeding in plaats van een duidelijke oorzaak-gevolgrelatie. Er kan ook sprake zijn van een common causal variable. Dit is een derde factor C, die zowel A als B veroorzaakt. Tot slot kan er sprake zijn van toeval. Twee variabelen veranderen dan per toeval gelijktijdig, waardoor het lijkt alsof het één het ander veroorzaakt.
Betekenis van testscores
Als je bekijkt wat een test betekent, moet je altijd kijken naar de context en het referentiekader. Ruwe scores zeggen namelijk niks als je de context niet weet. Wat voor kleding trek je bijvoorbeeld aan als de temperatuur 98,6 Fahrenheit is? Wat de betekenis van een score is, hangt af van waar je de score mee vergelijkt.
Om gedrag te vergelijken, zijn er twee verschillende vormen van interpretatie, namelijk: normgerichte interpretatie of criteriumgerichte interpretatie. Bij normgerichte interpretatie wordt het prestatieniveau bepaald aan de hand van een normgroep en hierbij is de keuze van de normgroep heel belangrijk. De normgroep moet zorgvuldig worden geselecteerd en moet de groep mensen representeren bij wie de test wordt afgenomen. Eerst moet de populatie worden gedefinieerd (voor wie is de test gemaakt?) en vervolgens moet er random een steekproef getrokken worden. Om een normgroep te controleren, moet je je afvragen of de groep representatief en actueel is, of de omvang van voldoende grootte is en of de afnameprocedure gestandaardiseerd is.
Er zijn verschillende typen normgerichte scores. Ten eerste zijn er grade/age equivalent scores. Hierbij wordt de gemiddelde ruwe score toegewezen aan het niveau van de klas. Grade/age equivalent scores zijn makkelijk te interpreteren, maar zouden weinig gebruikt moeten worden. Ze zijn namelijk niet vergelijkbaar tussen (sub)tests, ze zijn op ordinale schaal (je kunt dus geen getallen manipuleren) en de assumptie is dat alle kinderen het klassenniveau moeten bereiken. Dit kan echter niet, omdat het klassenniveau een gemiddelde is van de leerlingen. Er zullen dus altijd leerlingen zijn die lager scoren. Een tweede soort normatieve scores zijn percentiel rangordes. Hierbij wordt gekeken naar het percentage individuen dat onder een bepaald punt van de verdeling scoort. De range loopt van 1 tot 99 en de mediaanprestatie ligt op het 50e percentiel. Tot slot kan er gebruik gemaakt worden van standaardscores. Ruwe scores worden dan getransformeerd naar een gewenste schaal met een bekend gemiddelde en bekende standaarddeviatie. Bij lineaire transformaties behoudt de verdeling zijn originele vorm. Dit is het geval bij z-scores (waarbij wordt bepaald hoeveel standaarddeviaties de score van het gemiddelde afligt) en t-scores (waarbij gebruik wordt gemaakt van een verdeling met een gemiddelde van 50 en een standaarddeviatie van 10). T-scores lijken heel erg op z-scores, maar dan zonder negatieve getallen of decimalen. Bij genormaliseerde standaardscores (non-lineaire transformaties) is de steekproef niet normaal verdeeld. Er wordt dan gebruik gemaakt van een transformatie om een normale verdeling te krijgen. Hierdoor verandert de originele vorm van de verdeling. Voorbeelden van genormaliseerde standaardscores zijn stanine-scores (met een gemiddelde van 5 en standaarddeviatie van 2) en normale curve equivalenten (ook wel NCE’s, met een gemiddelde van 50 en standaarddeviatie van 21,06).
Bij een criteriumgerichte interpretatie worden scores vergeleken met een specifiek prestatieniveau. Interpretaties zijn niet relatief, maar absoluut en de scores benadrukken wat een persoon weet of kan. Er zijn twee typen: mastery testing en standaard gebaseerde interpretaties. Bij mastery testing wordt aan de hand van een test bepaald of iemand iets wel of niet beheerst. Er wordt dus een ja/nee-beslissing gemaakt. Bij standaard gebaseerde interpretaties zijn er prestatiecategorieën (bijvoorbeeld goed, ruim voldoende, voldoende en onvoldoende). Belangrijk is dat criteriumgerichte interpretaties toch een normatief aspect bevatten. De inhoud van testen en betekenis van testscores worden namelijk vastgelegd op een normatieve of culturele basis.
College 4: Betrouwbaarheid – 07-03-2014
Wat is betrouwbaarheid?
Betrouwbaarheid is een kenmerk van de score zelf en niet van de toets. Vooral de nauwkeurigheid van de meetprocedure is een belangrijk aspect. Hierbij is de vraag of de scores consistent en reproduceerbaar zijn (als we nog een keer dezelfde toets doen, krijgen we dan dezelfde scores?). Betrouwbaarheid is een vereiste voor validiteit.
Een testscore bestaat uit de werkelijke score van de persoon en de meetfout. De meetfout is het verschil tussen de geobserveerde waarde en de ware score. De formule die hierbij hoort: geobserveerde score = ware score + meetfout (of X = T + e).
Waar komen meetfouten vandaan?
Ten eerste kunnen factoren van de persoon zelf meetellen, zoals vermoeidheid, angst of leereffecten. Ten tweede kunnen omgevingsfactoren meespelen. Hierbij maken we onderscheid tussen natuurlijke factoren, zoals regen, zon en temperatuur en gecontroleerde factoren, zoals licht, afleiding en temperatuur. Ook taakfactoren kunnen meespelen, zoals content sampling (selectie van items voor meetinstrument verschilt per taak) en testprocedures (tijd, papier en instructies). Tot slot speelt ook de omvang van de sample een rol. Een kleine sample zorgt niet voor een stabiele en betrouwbare representatie. Dus hoe meer items je hebt, hoe betrouwbaarder de test wordt.
Manieren om betrouwbaarheid uit te drukken
Betrouwbaarheid is de mate waarin twee metingen met elkaar overeenkomen. De personen staan in dezelfde positie ten opzichte van elkaar, maar doordat elk persoon anders is ontstaat variantie. Bij betrouwbaarheid kijken we naar de hoeveelheid variantie in de geobserveerde scores die veroorzaakt wordt door (ware) verschillen tussen individuen.
Als er over betrouwbaarheid wordt gesproken, dan wordt er meestal gepraat over de Standard Error of Measurement (SEM, standaardmeetfout) of de betrouwbaarheidscoëfficiënt.
Statistisch gezien is de SEM de standaarddeviatie van de variaties in de metingen. Dit is dus de spreiding van de geobserveerde scores rondom de ‘ware’ score. Conceptueel gezien is de SEM de variatie of inconsistentie in scores die je verwacht wanneer je heel veel (bijvoorbeeld 300) herhaalde metingen zou doen. In de praktijk is het echter niet mogelijk om zoveel herhaalde metingen uit te voeren. Wanneer je dus een toets af hebt genomen met bijvoorbeeld score 10, hoe weet je dan hoe betrouwbaar de scores zijn? Dit moet je kunnen schatten zonder de toets heel vaak uit te moeten voeren. Geobserveerde metingen zullen rondom de ‘ware meting’ liggen. Het is alleen nooit bekend wat de ‘ware score’ is en dus nemen we het gemiddelde en hopen we dat dit in de buurt van de ‘ware score’ ligt. We gebruiken de betrouwbaarheid van het meten om de SEM te schatten en dus om de ‘ware score’ de bepalen. Als de SEM kleiner is, dan is de betrouwbaarheid hoger en is er een grotere consistentie in scores. Er is dan namelijk een hogere correlatie als je de toets twee keer afneemt bij een groep proefpersonen. Als er minder fouten in de geobserveerde score zitten, is de kans groter dat de rangorde van de groep proefpersonen gelijk blijft. En als de rangorde gelijk blijft, dan is de correlatie tussen factor A en B gelijk. Een meer gelijke rangordening betekent dus een hogere correlatie tussen versie 1 en 2 van een test en dit betekent een hogere betrouwbaarheid van scores.
De formule om de SEM te berekenen is als volgt: (SEM) SDe = SDX * √(1 – rtt). In deze formule is SDX de standaarddeviatie van de geobserveerde score X (pooled standard deviation) en rtt is de correlatie tussen twee metingen.
Manieren om betrouwbaarheid te beoordelen
Er zijn over het algemeen drie manieren om een test te beoordelen.
Ten eerste de test-hertest methode. Bij een groep personen wordt twee keer dezelfde test afgenomen en tussen deze twee testen bereken je de correlatiecoëfficiënt. Dit is dan je betrouwbaarheid. Door testen gelijktijdig, dus snel na elkaar te geven, heb je geen last van effecten van tijd, zoals rijping. Dit heb je wel bij uitgestelde testen, waarbij er een paar dagen of paar weken tijd tussen de metingen zitten. De test-hertest methode is niet geschikt voor alle taken. Er kan namelijk sprake zijn van carry-over effecten of familiariteit. Omdat een proefpersoon twee keer precies dezelfde test maakt, herkent hij/zij waarschijnlijk de tweede keer items uit de test. Dit kan invloed hebben op de behaalde score.
Ten tweede heb je de parallel-test methode. Een groep personen maakt twee verschillende versies van een test die gelijksoortig zijn qua inhoud, moeilijkheid en tijd. Hierdoor worden oefen- en geheugeneffecten gereduceerd. Als de afname gelijktijdig wordt afgenomen (dus beide versies op hetzelfde moment) dan zijn er geen effecten van groei die er wel zijn als er een langere periode tussen de testen zit. De parallel-test is de meest belangrijke methode om de betrouwbaarheid van scores te evalueren, maar als test wordt het meestal niet gebruikt, omdat het maken van een parallel-test lastig is. Vaak zijn er onvoldoende middelen en is er onvoldoende tijd.
Ten derde is er de interne consistentie. Dit is de nauwkeurigheid van een meetinstrument op een bepaald tijdstip. Dus eigenlijk binnen de test, hoe betrouwbaar en stabiel de test is. Dit kan door de test in twee gelijke delen te verdelen (split-half). Dit kan bijvoorbeeld door onderscheid te maken tussen even/oneven of eerste helft/tweede helft. Je berekent dan de correlatie tussen de scores op beide delen. De Spearman-Brown formule probeert de betrouwbaarheid van de hele test te schatten: geschatte betrouwbaarheid van de gehele test = 2 (correlatie tussen de twee helften) / (1 + correlatie tussen de twee helften). Dit soort betrouwbaarheid is het minst informatief, maar wordt het meest gebruikt. Je weet bij deze test niet of de scores overeenkomen als je de test vandaag of morgen maakt, je weet alleen of de items intern consistent zijn. De split-half betrouwbaarheid veronderstelt alleen homogeniteit tussen de twee delen, niet tussen items.
Een andere methode om de interne consistentie te meten is met de item-analyse. Hierbij meet je de consistentie van antwoorden voor individuele items van een toets en hiermee probeer je de betrouwbaarheid te schatten. Dit doe je door te berekenen of de rangorde van item tot item hetzelfde zou zijn. Het is het gemiddelde van alle mogelijke split-half coëfficiënten. Om dit te berekenen gebruik je de Kuder-Richardson formule 20 (test items zijn goed of fout) of de coëfficiënt alpha (ook wel Chronbach’s alpha, scores hebben meerdere waarden). Item-analyse veronderstelt homogeniteit tussen alle items.
Er zijn echter ook beperkingen aan het meten van de interne consistentie. Ten eerste worden de metingen op een bepaald moment uitgevoerd en is de uitkomst van de test dan ook een momentopname. Ten tweede zijn items binnen een test misschien wel meer aan elkaar gelijk dan items tussen parallelversies van testen, maar dit betekent niet dat de scores dan betrouwbaarder zijn. Ten derde is de aanname dat twee items hetzelfde kenmerk meten niet per se waar. Tot slot kan de test niet worden gebruikt als mensen een bepaalde tijd krijgen om te antwoorden. Niet iedereen kan dan evenveel vragen beantwoorden.
Hoe betrouwbaar een test moet zijn, hangt heel erg van de beslissingen af die moeten worden genomen op basis van de test. Als je bijvoorbeeld moet beslissen of een kind medicijnen moet gaan slikken, dan moet de test heel betrouwbaar zijn, maar als het gaat om de tijd dat een kind elke dag moet lezen, is het minder belangrijk of een test betrouwbaar is.
Interpretatie van betrouwbaarheidsdata
Elke keer dat je een test afneemt is er de ware score en een meetfout. Zoals eerder genoemd is de standaardmeetfout (SEM) het aantal keer dat de geobserveerde score verschilt van de ware score. Dit wordt uitgedrukt in standaarddeviaties.
In een normale verdeling is te zien hoeveel procent van de gevallen tussen twee scores zal liggen en hieruit kan je ook concluderen hoeveel een score van een persoon zal veranderen met een hertest. Een voorbeeld: de geobserveerde score is 100 en de standaardmeetfout is 4.7. In de normaalverdeling zien we dan dat de ware score 34,1% + 34,1% = 68,2% van de keren dat je de hertest afneemt tussen de 95.3 en 104.7 zal liggen (100 ± 4.7). Er is dan een afwijking van één standaardmeetfout (hoger of lager dan de geobserveerde score) en dit komt overeen met de genoemde percentages (zie hiervoor de afbeelding van de normaalverdeling in de sheets op Blackboard). Let op: bij een normaalverdeling van standaarddeviaties gaat het om het percentage mensen met een bepaalde score. Bij de standaardmeetfout gaat het om de verdeling van scores van een individu.
Het interpreteren van betrouwbaarheidsdata kan ook op een makkelijkere manier, namelijk met de betrouwbaarheidscoëfficiënt. Deze is nuttiger voor het maken van een vergelijking tussen twee testen.
Als je twee testen hebt die praktisch gelijk zijn en op validiteit hetzelfde scoren, dan moet je altijd gaan voor de test die het meest betrouwbaar is. Als je test namelijk niet betrouwbaar is, kun je minder goed conclusies trekken over een individu of een groep.
Factoren van invloed op betrouwbaarheid
Variabiliteit van groep: als scores dichter bij elkaar liggen, dan is de kans groter dat de rangordening zal veranderen en is de betrouwbaarheid dus laag. Als de variabiliteit te groot is, is de betrouwbaar ook te groot (er is dan sprake van inflatie). Dit is bijvoorbeeld zo als je de scores op een toets van kinderen uit groep 3 vergelijkt met de scores van kinderen uit groep 8.
Prestatieniveau van de groep: als een toets te moeilijk is voor de groep, dan ligt het grootste deel van de scores aan de lage kant van de verdeling. Dit heet het bodemeffect. Hierbij zijn de variabiliteit en de betrouwbaarheid laag. Het plafondeffect staat daar tegenover en dit ontstaat als de test te makkelijk is. De scores liggen dan aan de hoge kant van de verdeling. Ook dan zijn de variabiliteit en de betrouwbaarheid laag.
Lengte van de test: over het algemeen kan worden gezegd dat er een hogere betrouwbaarheid ontstaat wanneer een test langer is. Scores zullen dan meer consistent zijn en dus meer gelijk blijven bij herhaalde metingen.
Procedures die gebruikt worden om de betrouwbaarheid te schatten: welke procedure wordt gebruikt om de betrouwbaarheid te bepalen, bepaalt grotendeels de betrouwbaarheid. Alleen de parallelprocedure bevat alle vier mogelijke foutenbronnen.
Praktisch vs. theoretisch betrouwbaar: er wordt vaak gesproken over praktische vs. theoretische betrouwbaarheid. Als je de maze wilt gebruiken op scholen om te kijken of kinderen beter kunnen lezen, moet je je afvragen wat de betrouwbaarheid van deze maze is. Stel dat je dezelfde maze op vier scholen geeft, dan moet je je bijvoorbeeld afvragen wie de maze afneemt (leraar of onderzoeker?). De leraar is vertrouwd en dus fijner voor de kinderen, maar een onderzoeker is onafhankelijk, omdat deze de kinderen niet kent. Je moet dus altijd een afweging maken in wat er mogelijk is op basis van praktijk en theorie.
Bij verschilscores (posttest – pretest) toets je twee keer en krijg je dus ook twee keer te maken met de standaardmeetfout. Dit vormt een probleem, want hierdoor wordt de betrouwbaarheid kleiner. De betrouwbaarheid van verschilscores is dus altijd kleiner dan de betrouwbaarheid van twee testen apart.
Als je een criterium-gerichte test gebruikt is het anders. Hierbij gebruik je herhaalde metingen of twee testvormen en maak je een classificatie van participanten: mastery (de participant heeft iets wel gehaald) of non-mastery (de participant heeft iets niet gehaald).
De totale overeenstemming tussen de testen is het percentage waarbij de participanten op beide testen hetzelfde hebben behaald (allebei ‘mastery’ of allebei ‘non-mastery’).
Leergedrag observatie systeem
Er zijn verschillende gedragscategorieën waarin een leerling kan vallen. Ten eerste is er het actief leergedrag (ALG) en hierbij reageert de leerling bijvoorbeeld op de vragen van de docent. De leerling speelt een actieve rol in het leerproces. Ten tweede kan de leerling aan taak (AT) zijn, waarbij de leerling gericht bezig is met een taak die de ouders of leraar hem/haar hebben opgelegd. Daartegenover staat de niet aan taak (NAT) waarbij de leerling op andere dingen is gefocust dan op de leertaak zelf. Tot slot kan er ook storend gedrag (SG) zijn en hierbij verstoort de leerling de leeromgeving voor zichzelf en voor andere leerlingen door bijvoorbeeld lawaai te maken en niet op zijn/haar plek te blijven zitten.
Ook voor een leraar zijn er verschillende gedragscategorieën. Ten eerste kan de leerkracht een verbale of non-verbale positieve opmerking maken (PO), bijvoorbeeld ‘wat ben je goed aan het werk’. Ten tweede zijn er de negatieve opmerkingen (NO) die ook zowel verbaal als non-verbaal kunnen zijn. Dit is bijvoorbeeld als een leraar zegt: ‘Let nou eens op!’ Tot slot zijn er ook de corrigerende opmerkingen (CO) waarbij de leraar duidelijk laat merken welk gedrag verwacht wordt van de leerling (bijvoorbeeld ‘steek je hand op als je iets wil zeggen’).
Met een observatieformulier kun je bijhouden welke gedragscategorieën voorkomen bij de leerling en bij de leraar. Ook kun je hierin bijhouden hoe lang bepaald gedrag bij de leerling voorkomt, voordat de leraar hierop reageert.
College 5: Validiteit – 14-03-2014
Om te bepalen of een test echt goed is, moet je altijd kijken naar de validiteit. Validiteit is het meest belangrijke aspect van een test. Wanneer we naar validiteit kijken, hebben we het daarom ook wel over ‘het moment van de waarheid’.
Na een test hebben we verschillende scores op die test. De vraag is dan: In hoeverre vertellen de scores ons wat we willen meten? Dit wordt bedoeld met de validiteit.
Validiteit is de mate waarin interpretaties van testscores gebruikt kunnen worden om een beslissing te maken. Er moet dan rekening gehouden worden met wat de bedoeling is van de testscores en wat we ermee willen gaan doen. Om te bepalen of een test valide is, moeten we ons dus eerst afvragen wat we precies willen meten.
Vroeger onderscheidde men drie vormen van validiteit: content, criterion-related en construct. Tegenwoordig spreken we van één algemene validiteit en vijf verschillende vormen van bewijs: content-related, criterion-related, internal structure, response processes en consequential. De verschillende soorten bewijs zijn de bronnen die worden gebruikt om beslissingen te maken over validiteit.
Om te bepalen of een test wel of niet valide is, moet je bepalen welke factoren belangrijk zijn (bijvoorbeeld om te bepalen of iemand wel of niet gezond is). Welke onderdelen moeten er gemeten worden? Daarnaast moet er ook altijd nagedacht worden over wat de consequenties zijn van die toets (consequential evidence). Dit moet je ook meenemen om te bepalen of een toets valide is of niet. Bijvoorbeeld: het is van belang om te weten dat Armstrong drugs heeft gebruikt voordat er een beslissing wordt gemaakt over of hij wel of niet een terechte winnaar is. Een woordweb waarin alle eisen weergegeven kunnen worden, heet een nomological net.
De verschillende soorten validiteitsbewijs zullen nu één voor één worden besproken.
Content-related bewijs: in hoeverre komt de inhoud van de test overeen met wat we willen meten? Hierbij is het belangrijk om na te gaan of de test is ontworpen om een representatieve proef te geven van een specifiek domein of gedrag. Dus welke eisen er worden gesteld, hangt ook af van de cultuur. Om de inhoud van een test vast te stellen, kun je verschillende stappen volgen: 1) identificeer en definieer wat je wil meten, 2) ontwikkel een table of specifications, 3) schrijf de items van de test, 4) herzie de inhoud systematisch en kijk naar de relevantie van items en dekking van de inhoud.
De table of specifications geeft weer wat er wordt gemeten en hoe dit gemeten gaat worden. Het gaat hierbij om de inhoud van de test en om cognitieve processen. De cognitieve processen bestaan uit herkenning, identificatie van feiten, identificatie van principes, evaluatie en toepassing/generalisatie naar nieuwe situaties.
Er zijn een paar beslissingen die gemaakt moeten worden. Ten eerste het relatieve belang van de inhoud en processen in een test. Hoe belangrijker een onderwerp is, hoe meer testitems aan dit onderwerp moeten worden toegewezen. Ten tweede moet het type items vastgesteld worden. Hierbij wordt onderscheid gemaakt in selectierespons (bijvoorbeeld meerkeuzevragen) en geconstrueerd respons (bijvoorbeeld korte essayvragen). Ten derde moet de lengte van de test bepaald worden, waarbij rekening moet worden gehouden met praktische zaken, zoals de leeftijd van leerlingen en de tijdsduur. Tot slot moet de moeilijkheidsgraad van de test worden bepaald. Dit hangt af van het doel van de test.
Face validity (indruksvaliditeit) is de eerste indruk die mensen hebben van een test. Als de test op het eerste gezicht lijkt te meten wat je iemand wil meten, dan zal iemand sneller kiezen voor die test. Face validiteit is geen echte validiteit.
Criterion-related evidence is de mate waarin een test gerelateerd is aan andere variabelen. Zo’n andere variabele is de criterion measure. Er zijn drie vormen van dit soort bewijs. Ten eerste concurrent validiteit. Twee verschillende meetinstrumenten worden dan op hetzelfde moment aangeboden en de correlatie tussen de scores op de twee testen wordt gemeten. Het tweede is predictieve validiteit en hierbij wordt het instrument met de criterion measure in de toekomst aangeboden. Ook hierbij wordt de correlatie berekend tussen de scores van de twee testen. Het gaat erom of een test bijvoorbeeld kan bepalen wat het niveau van een kind zal worden. Je kunt een kind aan het begin van het jaar een test geven en aan het eind van het jaar een test geven en dan de scores vergelijken. Er moet dan een hoge correlatie zijn tussen de twee testen. De derde vorm is groepsverschil. Dit houdt in dat je verschil verwacht tussen groepen, bijvoorbeeld dat een oudere leerling beter zal scoren dan een jongere leerling.
Het is altijd lastig om het criterium te bepalen. Alle meetmethoden hebben hun beperkingen en dit heeft invloed op de validiteit. Een goede criterion measure moet valide (relevant) zijn, vrij zijn van bias (dus niet bepaalde groepen bevoor- of benadelen), betrouwbaar zijn en gemakkelijk en beschikbaar. Het beste is om verschillende criteria te gebruiken.
De correlatie tussen een predictor en een criterium variabele is de validiteitscoëfficiënt. Bij het interpreteren van de validiteitscoëfficiënten moeten we ons afvragen hoeveel nieuwe informatie is verkregen. Dus hoeveel verder komen wij met toets, vergeleken met zonder toets? Levert de toets iets op?
De correlatie kan op meerdere manieren bekeken worden:
Ten eerste is er convergent bewijs. Dit betekent dat twee toetsen hetzelfde construct meten en een hoge correlatie laten zien. Ten tweede is er discriminant bewijs. Twee toetsen meten dan een ander construct en laten een lage correlatie zien, bijvoorbeeld een leestoets en een rekentoets. Ten derde is er de multi-trait, multi-method benadering waarbij er meerdere aspecten gemeten moeten worden. Deze worden op verschillende manieren gemeten. Een voorbeeld: de methoden zijn een wedstrijd, een vaardighedentest en een rating op de gebieden van voetbal, schaken en piano. We verwachten dat er geen correlatie is tussen bijvoorbeeld de vaardighedentest van voetbal en schaken. Er moet gekeken worden naar de betrouwbaarheid en de validiteit; voetbal meten met een vaardighedentest en dit vergelijken met de competitie. Hiertussen zal een hoge correlatie zijn, want we meten twee keer voetbal. Maar er mag geen correlatie zijn tussen het meten van schaken en voetbal. Het meetinstrument voor schaken moet niet voetbal kunnen meten. De vaardighedentest van schaken mag niet hoog correleren met de competentietest voor voetbal.
De standaarderror is de afwijking van de geobserveerde waarden ten opzichte van de verwachte waarden. Dit kun je in beeld brengen door de regressielijn te berekenen. In een voorbeeld van zo’n regressielijn is de horizontale as de leestoets (predictor) en de verticale as de CITO (criterium variabele). Als de correlatie 1 of -1 is, dan is er een perfect verband. Met de regressielijn kun je vanuit de leestoets een voorspelling maken voor de CITO. De standaarderror moet zo klein mogelijk zijn.
Bij groepsstudies onderzoek je scores van verschillende groepen, omdat je verwacht dat deze anders zijn. Je verwacht bijvoorbeeld dat kinderen met dyslexie slechter scoren op een leestoets dan kinderen zonder dyslexie.
Op basis van scores kunnen ook selectiebeslissingen gemaakt worden. Het is dan de vraag in hoeverre de selectie helpt bij het maken van een beslissing. Een voorbeeld: bij het solliciteren naar een functie moeten mensen soms een toets maken. Hoe belangrijk die test is, hangt af van het aantal sollicitanten en het aantal plaatsen (selectie ratio). Als er 60 sollicitanten zijn en maar 1 plek, dan speelt de test een belangrijke rol bij de beslissingen. Als er echter 90 sollicitanten zijn en 100 plekken dan is de test niet belangrijk. Daarnaast moet ook gekeken worden naar de base rate (het aantal sollicitanten dat succesvol zal zijn).
Interne structuur: hierbij onderzoek je of de relaties tussen de verschillende items van een test consistent zijn. Dit kan je doen door een factoranalyse uit te voeren. Hierbij kijk je naar bijvoorbeeld 10 items die allemaal de balvaardigheid meten en dan onderzoek je of deze items met elkaar samenhangen.
Response processes: analyse om te bepalen of de processen die personen gebruiken geschikt zijn voor een bepaald construct. Een voorbeeld is een taalkundige redeneertest: zijn leerlingen echt taalkundig aan het redeneren wanneer ze de test maken? En ander voorbeeld is een test voor begrijpend lezen. Zijn mensen echt aan het begrijpend lezen tijdens de test? Ook analyse van processen die gebruikt worden door personen die de test afnemen en scoren hoort bij response processes. Hieronder valt bijvoorbeeld het hanteren van de juiste criteria bij het scoren van rekensommen.
Bovenstaand bewijs was allemaal evidential bewijs, maar zoals eerder genoemd moet er bij validiteit ook rekening worden gehouden met consequential bewijs.
Consequential bewijs gaat over de consequenties die het gebruik van een meetinstrument heeft. Dit kan worden onderverdeeld in value implications (normen en waarden) en social implications (maatschappelijke gevolgen).
Bij value implications gaat het ten eerste om labels en de betekenis van labels. Zo moet er bijvoorbeeld worden gekeken of het plakken van een label (zoals ADHD) positieve of negatieve gevolgen heeft voor een leerling. Ten tweede gaat het om de selectie van constructen die gemeten moeten worden: wat zullen we meten op het tentamen / op de CITO-toets / op het schoolexamen etc.? Tot slot gaat het ook om de manier waarop we scores gebruiken. Hoeveel waarde hechten we aan scores? Wanneer moeten keuzes gemaakt worden? Hoe aannemelijk is het dat een persoon verandert.
In social implications komen alle andere facetten van validiteit samen. Zowel bedoelde als onbedoelde consequenties moeten overwogen worden. Is het gebruik van de test acceptabel als we kijken naar de consequenties ervan voor een individu en/of voor de maatschappij? Is het bijvoorbeeld wel een goed idee om dyslexietesten af te nemen wanneer er geen geld beschikbaar is voor hulp? Verder is de dreiging op constructvaliditeit van belang. Hiervan zijn twee vormen: construct-onderrepresentatie (niet alle aspecten van een construct zijn inbegrepen) en construct-irrelevante testvariantie (variantie is ontstaan door factoren die niet aan het construct gerelateerd zijn). Bij construct-irrelevante testvariantie is de test te makkelijk of te moeilijk voor specifieke (groepen) leerlingen.
Tot nu toe zijn alleen normgerichte toetsten besproken, maar er zijn natuurlijk ook criteriumgerichte toetsen. Stel dat de helft van de studenten een toets heeft gehaald en de andere helft niet. Deze twee groepen kun je vijf jaar later nog een keer vergelijken met een toets. Door te kijken naar de scores op deze toets, kun je checken of de criteria die toen gesteld zijn valide waren. De test behoort de verschillen tussen de twee groepen te maximaliseren.
College 6: Item-analyse en besluitvorming – 21-03-2013
Latent trait theory / Item Response Theory (IRT)
Latent trait theory / Item Response Theory (IRT) is een methode die gebaseerd is op klassieke methoden. Door het gebruik van computers heeft deze theorie een nieuwe twist gekregen. Hierbij gaat het om iets wat we niet direct kunnen meten, maar om het onderliggende vermogen dat iemands succes bepaald op een bepaalde taak. Zo is het zo dat iedereen een bepaalde ‘hoeveelheid’ IQ heeft, maar we kunnen het niet zien. We kunnen het wel meten met een toets. Iemand met ‘meer’ IQ, scoort hoger op een IQ-test.
Een ander voorbeeld is het meten van taekwondo. Er moet een toets worden gemaakt met verschillende items om de taekwondo-vaardigheid te meten. Eén van deze items zou het breken van een plank met de voet kunnen zijn. Het vermoeden is dat de vrijwilligers nog nooit zoiets hebben gedaan en we willen dus meten welke persoon het meeste ‘talent’ heeft.
De vraag is dan: is een klein, dun plankje voldoende om de bekwaamheid te meten? Het antwoord hierop is ‘nee’, omdat zowel ongetrainde als de getrainde mensen dit kunnen. Nu is de vraag of de personen drie grote planken kunnen breken en het antwoord hierop is ‘nee’. Daarom wordt er gekozen voor een tussenvorm die bestaat uit één grote plank. Hierbij zien we differentiatie: het lukt niet iedereen om de plank te breken. Dit betekent dat dit item beter is dan de eerder genoemde items (klein plankje en drie grote planken).
Er kan een item kenmerk curve gemaakt worden. Dit is een grafiek van de verhouding tussen de vaardigheid en de kans op een correct respons van de personen. Het is een voorspelling. Het punt waar de grafiek het meest steil is, is het discriminatiepunt. Daar is het item het best en dit is het punt waar de omslag is van onervaren naar ervaren.
Item analyse procedures
Er zijn drie klassieke methoden om items te analyseren.
Ten eerste is er de item moeilijkheidsindex. Als je bijvoorbeeld wilt weten welke vragen het best zijn om aardrijkskundige kennis te meten, dan moet je kijken naar het aantal mensen dat een vraag goed kan beantwoorden. Als ongeveer 60% van de studenten weet wat de hoofdstad van de VS is, dan is de moeilijkheidsgraad van dit item goed. Wanneer 90% van de studenten het antwoord zou weten, dan zou het item te makkelijk te zijn. Als slechts 2% het goede antwoord weet, is het item te moeilijk.
Je moet kijken de item moeilijkheid p. Deze waarde bereken je door het aantal mensen met een correct antwoord op het item te delen door het totale aantal mensen. De waarde van p kan tussen de 0 en 1 liggen. Hierbij geven items met een index van 0 en 1 te weinig informatie over de moeilijkheidsgraad.
Hoe bereik je de optimale item moeilijkheid?
Je moet eerst nadenken over wat voor vragen je stelt. Bij constructed-response items (open vragen) ligt de optimale item moeilijkheid bij een gemiddelde van 0.50 (met een range van 0.40 tot 0.60), maar als je kiest voor een selected-response item (meerkeuzevragen) dan is de item moeilijkheid optimaal bij hogere percentages. De kans dat mensen hierbij het juiste antwoord gokken is namelijk groter. De optimale item moeilijkheid hangt bij meerkeuzevragen af van het aantal keuze-opties. Bij bijvoorbeeld 4 keuze-opties is de item moeilijkheid optimaal als 74% van de mensen het juiste antwoord geeft (p = 0.74). De optimale waarden van p zijn per aantal keuze-opties weergegeven in een tabel (als hier een vraag over komt op het tentamen, wordt de tabel erbij gegeven).
Bovenstaande richtlijnen gelden voor normgerichte testen. Voor criteriumgerichte testen ligt de optimale item moeilijkheid hoger.
Ten tweede is er item discriminatie. Dit gaat over in hoeverre een test verschil maakt tussen mensen met veel bekwaamheid en weinig bekwaamheid. Als mensen bijvoorbeeld een algebraïsche som voorgelegd krijgen, moet er onderscheid worden gemaakt in mensen die wel en niet goed zijn in rekenen.
Bij normgerichte testen zijn er twee methodes om de item discriminatie index te berekenen: het groepsverschil en de item-totaal correlatie. Bij groepsverschillen selecteer je de onderste en de bovenste groep, bijvoorbeeld de hoogste 25% en laagste 25%. Je wil dat de mensen met een hoge score het item goed beantwoord hebben en mensen met de lage score hem fout hebben. De moeilijkheid bereken je voor elk item voor elke aparte groep: pTvoor de bovenste groep (top) en pB voor de onderste groep (bottom). De item discriminatie index van een item is D. Er geldt: D = pT - pB. Wanneer D negatief is, is er sprake van een fout. Een D- waarde van 0.30 of hoger is acceptabel/goed en een waarde van 0.40 of hoger is uitstekend. Bij de item-totaal correlatie bereken je of de hele prestatie samenhangt met de prestatie op een bepaald item. Je berekent de point-biserial correlatie: de correlatie tussen een item en de totale testscore. Als hierbij sprake is van een grote correlatie dan meet het item hetzelfde als de hele test en discrimineert het item tussen mensen die hoog en laag scoren bij de test.
Bij criteriumgerichte testen wordt de item discriminatie index gebruikt voor groepsvergelijkingen (studenten met/zonder instructie, studenten die de taak wel/niet beheersen) en tijdvergelijkingen (voor en na instructie).
Ten derde is er nog de afleider (distracter) analyse. De afleiders zijn de foute alternatieven bij een MC-tentamen. Hierbij moet je je twee dingen afvragen. Ten eerste: Heeft iemand ze gekozen? Als niemand gekozen heeft voor een bepaald antwoord, dan is het geen goede afleider en dan moet deze eigenlijk worden vervangen door een andere. Ten tweede: Is het gekozen door meer mensen in de onderste dan de bovenste groep? Je moet nagaan of mensen met een lage score vaker kiezen voor een bepaalde afleider dan mensen met een hoge score. Als dit zo is, is er sprake van negatieve discriminatie en is de afleider effectief.
Het maken van assessment- en onderwijsbeslissingen
Assessment wordt gebruikt om het maken van beslissingen te verbeteren. De beslissingen die worden gemaakt, hangen samen met de waarden die heersen binnen de samenleving. Er kunnen vier soorten beslissingen worden gemaakt op basis van assessment.
Ten eerste classificatie en plaatsing: met behulp van assessment kan bijvoorbeeld worden bepaald of leerlingen wel of geen extra hulp nodig hebben. Wanneer wordt bepaald of een kind wel of geen extra hulp nodig heeft, moet je als eerst kijken naar het punt waarop waarden en assessment elkaar kruisen. Hierbij ligt de primaire focus op de persoon die wordt beoordeeld en de secundaire focus op de waarden binnen de maatschappij.
Ten tweede zijn er curriculaire beslissingen, waarbij het er bijvoorbeeld om gaat of leerlingen meer taallessen moeten krijgen in plaats van wiskundelessen. Er moet dan nagedacht worden over hoe en waarom deze verschillen ontstaan en welke waarden belangrijk zijn binnen een cultuur.
Ten derde is er de instructie die eventueel aangepast kan worden. Wat moeten de leerlingen leren? Hoe moeten ze het leren? En hebben ze uiteindelijk het leerdoel bereikt? Dit zijn vragen die gesteld moeten worden om te kijken of het niveau binnen de klas hoog genoeg is en of er op de ‘goede’ manier is onderwezen. Er zijn vier benaderingen om deze vragen te beantwoorden:
· Prestatie in relatie tot perfectie: een 10 is perfect. Hierbij is het probleem dat bijna niemand een 10 haalt en dit zou dus betekenen dat het niet perfect was.
· Prestatie in relatie tot het gemiddelde: de prestatie moet bekeken worden ten opzichte van anderen. Het probleem is dat de progressie soms moeilijk te interpreteren is en dus moeten de standaarddeviaties worden vergeleken.
· Prestatie in relatie tot potentieel: verschilscores van een individu (dus zelf-gerichte prestatie) tussen moment A en moment B. Een probleem hierbij is dat de verschilscores inherent niet betrouwbaar zijn.
· De huidige prestatie in relatie tot prestatie in het verleden: dit zijn de groei en ontwikkeling van het individu. Hierbij is het probleem dat er van tevoren moeilijk bepaald kan worden hoeveel een individu zal gaan groeien.
Tot slot is er de selectie, waarbij het gaat om individuen die geschikt zijn voor een bepaald niveau, bepaalde baan of bepaalde instelling. Een voorbeeld hiervan is het vaststellen welke studenten de studie wel of niet zullen halen.
Bias in assessment en ethiek
Een bias is een systematische fout in een testscore door een overschatting of onderschatting van de prestaties van een bepaalde groep. Mogelijke bronnen voor bias zijn: de inhoud van de test, voorspellingen als gevolg van een testscore en weinig bewijs van bias bij gestandaardiseerde testen. Om bias vast te stellen kun je gebruik maken van item kenmerk curves van bijvoorbeeld groep A en B. Wanneer er bij één item een verschil te zien is tussen de curves, maar bij de andere items niet, dan is er iets mis met dat item.
Assessment moet geïnterpreteerd worden in verschillende contexten en moet dus ook voldoen aan gedrags- en ethische standaarden van de beroepen. Voor professionals is het dan ook van belang dat ze kiezen voor valide, betrouwbare en non-biased testen en dat ze data op de juiste manier gebruiken. Het is van groot belang dat er met respect en waardigheid omgegaan wordt met anderen. Zo moeten de privacy en vertrouwelijkheid worden gewaarborgd en moet er goed worden gekeken hoe de informatie wordt gebruikt. Daarnaast moet nagedacht worden over de sociale verantwoordelijkheid, waarbij gekeken wordt naar de kosten en baten van een diagnose en assessment.
Zes principes
Met betrekking tot assessment en het maken van beslissingen zijn er zes principes op te stellen. 1) We moeten ons bewust zijn van de waarden die een rol spelen bij het maken van beslissingen: eigen waarden en waarden van de maatschappij. 2) We moeten ons realiseren dat testscores slechts indicatoren of signalen van een bepaald construct zijn. 3) We moeten testresultaten zien als slechts één type beschrijvende informatie. Voor het nemen van een goede beslissing zijn ook andere informatiebronnen belangrijk. 4) Het is belangrijk om testresultaten in verband te brengen met deze andere beschikbare informatie. 5) We moeten ons realiseren dat er altijd sprake is van error. Dit houdt dus in dat beslissingen eigenlijk altijd worden gemaakt op basis van gebrekkige informatie. 6) We moeten altijd voorzichtig zijn met het maken van beslissingen: menselijke kennis kent gebreken.
College 7: Speciale populaties en accommodaties - 28-03-2013
Wat zijn accommodaties?
Een accommodatie is een verandering in een standaard test of beoordelingsprocedure. Accommodaties verminderen / minimaliseren de gevolgen van kenmerken van de persoon die construct-irrelevant zijn, dus kenmerken die niet van belang zijn voor het construct. Bij iemand met een beperking wordt een test dus aangepast, zodat de assessmentprocedure eerlijker wordt. Het doel van accommodaties is om te zorgen voor valide en nauwkeurige metingen voor elke persoon op het gemeten construct. Belangrijk hierbij zijn de validiteit, betrouwbaarheid en de beslissing die moet worden gemaakt op basis van de testscore.
Accommodaties zijn niet geschikt wanneer het vermogen dat gemeten wordt direct van belang is voor het construct. Wanneer we bijvoorbeeld vloeiend lezen willen testen, is het niet de bedoeling dat we bij leerlingen met dyslexie gebruikmaken van een accommodatie (zoals het voorlezen van de test). Ook zijn accommodaties niet geschikt wanneer de test het doel heeft om de aanwezigheid, mate en ernst van een beperking vast te stellen.
Soorten accommodaties
Accommodaties bestaan in verschillende soorten. Ten eerste is er het presentatieformaat. Hierbij vinden veranderingen plaats in de methode om de test te presenteren. Een voorbeeld hiervan is het gebruik van brailleschrift voor een persoon die blind is of het gebruik van een groter lettertype voor leerlingen met dyslexie. Ten tweede kan het antwoordformaat veranderd worden. De betreffende persoon mag dan op een andere manier antwoorden dan normaal, bijvoorbeeld mondeling in plaats van met pen en papier. Dit kan bijvoorbeeld het geval zijn bij leerlingen die last hebben van spasme. Ten derde kan er een verandering zijn in de timing: de tijd die iemand krijgt om een test te maken. Leerlingen met dyslexie krijgen bijvoorbeeld extra tijd voor leesteksten. Tot slot kan de omgeving aangepast worden. Bij kinderen met ADHD kan er bijvoorbeeld voor gekozen worden om de test in een aparte ruimte af te nemen, omdat het kind daar minder afgeleid wordt dan in een klaslokaal.
Naast bovenstaande soorten accommodaties worden er in het boek ook nog twee andere genoemd: adaptive devices / supports (dit heeft te maken met het antwoordformaat) en het gebruik van een alternatieve test of een deel van een test.
Beoordeelde domeinen
Binnen een individu kunnen we verschillende domeinen meten:
Intelligentie en cognitief functioneren. Het construct dat gemeten wordt hierbij is de inherente vaardigheid om te leren.
Adaptief gedrag / zelfhulpvaardigheid. Dit domein wordt vaak gebruikt bij het diagnosticeren van mentale achterstanden. Het construct dat hierbij hoort is de benodigde steun voor het leven in een gemeenschap en de benodigde vaardigheden voor het dagelijks leven.
Sociaal-emotioneel en gedragsmatig functioneren. De constructen die we hierbij meten zijn sociale en emotionele vaardigheden en gedragingen die we verwachten op een bepaalde leeftijd. Betrokkenen oordelen hier veel over.
Neuropsychologisch functioneren. De te meten constructen hierbij zijn de structuur en werking van de hersenen bij specifiek gedraging en psychische processen. Voorbeelden zijn taal, geheugen en intelligentie.
Naast domeinen binnen het individu zijn er ook domeinen die betrekking hebben op het academisch functioneren.
Het academisch functioneren zelf. Het gemeten construct is een prestatie in een schoolse setting, zoals een prestatie op een aardrijkskundetoets of wiskundetoets.
Academische progressie. Het construct is de groei of verandering van een leerling, bijvoorbeeld op het gebied van lezen of rekenen.
Tot slot zijn er nog twee belangrijke punten om rekening mee te houden. Ten eerste moet je niet alleen nadenken over wat je test, maar ook over wie je test en wat de gevolgen van diagnostisering, beoordeling en/of besluitvorming zijn voor deze persoon (zie Messick: value implications en social consequenses, onderdeel van validiteit). Ten tweede moet je eraan denken dat een label niet het leven van een persoon bepaalt.
Contributions: posts
Spotlight: topics
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why would you use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, study notes and practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the menu above every page to go to one of the main starting pages
- Starting pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
- Use the topics and taxonomy terms
- The topics and taxonomy of the study and working fields gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
- Check or follow your (study) organizations:
- by checking or using your study organizations you are likely to discover all relevant study materials.
- this option is only available trough partner organizations
- Check or follow authors or other WorldSupporters
- by following individual users, authors you are likely to discover more relevant study materials.
- Use the Search tools
- 'Quick & Easy'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject.
- The search tool is also available at the bottom of most pages
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Field of study
- All studies for summaries, study assistance and working fields
- Communication & Media sciences
- Corporate & Organizational Sciences
- Cultural Studies & Humanities
- Economy & Economical sciences
- Education & Pedagogic Sciences
- Health & Medical Sciences
- IT & Exact sciences
- Law & Justice
- Nature & Environmental Sciences
- Psychology & Behavioral Sciences
- Public Administration & Social Sciences
- Science & Research
- Technical Sciences
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
1989 |
Add new contribution