Deze samenvatting is gebaseerd op collegejaar 2012-2013.
College 1: Introductie in assessment
Wat is assessment?
Voordat assessment kan plaatsvinden, moeten er eerst een test worden uitgevoerd en moet deze test gemeten worden (measurement). Met een test wordt het middel of de procedure bedoeld die je gebruikt om aan informatie (over bijvoorbeeld gedrag) te komen. Een voorbeeld van zo’n test is een enquête. Vervolgens moeten de uitkomsten worden verwerkt. Dit gebeurt door regels op te stellen waardoor nummers toegekend kunnen worden aan de verschillende testonderdelen. Bijvoorbeeld bij het uitrekenen van het cijfer. Als je iemand een 5 geeft, zegt dit nog niks over hoe goed dit is. Om deze getallen te interpreten is assessment nodig. Hierbij worden procedures opgesteld om getallen te interpreteren. Zo is het cijfer 5 in Nederland onvoldoende, maar in de VS zegt dit cijfer niks (want daar gebruiken ze letters). Dus totdat je een betekenis aan de getallen hebt gegeven, zeggen de getallen niks.
Beslissingen die gemaakt kunnen worden met behulp van assessment
Met behulp van assessment kunnen verschillende beslissingen worden gemaakt. In bijvoorbeeld het onderwijs kan worden bepaald of de manier waarop staartdelingen worden aangeleerd, verandert moet worden. Deze manier is al meerdere keren veranderd, omdat het bleek dat kinderen de oude manier niet goed snapte en dus werd er een nieuwere methode ontwikkelt. Met behulp van assessment kunnen er beslissingen worden gemaakt over het wel of niet veranderen van de methode. Daarnaast kan ook worden gekeken naar de hoeveelheid talen die kinderen op de middelbare school moeten leren (curriculaire). Zo is het in Nederland belangrijk dat kinderen meerdere talen leren (zodat ze zich overal verstaanbaar kunnen maken), maar in de VS ligt de nadruk meer op wiskunde en natuurkunde (de VS willen onder andere de beste zijn in de ruimtevaart, want op deze manier konden ze de achterstand ten opzichte van Rusland wegwerken). Het onderwijsprogramma wordt dus aangepast met behulp van assessment en waar de nadruk op ligt is cultuurafhankelijk. Met assessment kunnen ook beslissingen worden gemaakt over selectie. Op basis van welke factoren wordt bepaald of iemand naar de universiteit mag? In de VS wordt gekeken naar het gemiddelde schoolcijfer over alle jaren, maar in Nederland moet er eerst gekozen worden welk niveau middelbare school je gaat doen en aan de hand van het behaalde diploma wordt bepaald of je naar de universiteit mag. Tot slot kan ook worden gekeken naar classificatie en plaatsing. Welke problemen hebben leerlingen? En waar zullen zij het beste op hun plaats zijn (bijvoorbeeld voor extra instructie)?
Veronderstellingen van assessment
Een construct is een idee waar een definitie aan gegeven moet worden. Dit is hetgeen dat je wil meten, maar zonder definitie kan je het niet meten. Het is erg belangrijk, maar het is vaak lastig om te zien en te omschrijven. Dit komt doordat een construct vaak niet te observeren is; het is abstract. Een voorbeeld van een construct is blijheid of intelligentie. In elk onderzoek zitten meetfouten en dit komt doordat een construct moeilijk te meten is. Als je een hoeveelheid wilt meten is dit vaak makkelijk, maar hoe meet je blijheid? Hoe meer error er is bij het onderzoek, hoe minder bruikbaar de meting is. Constructen zijn op verschillende manieren te meten. Bijvoorbeeld met testen (MC of open), huiswerk, projecten of presentaties.
Welke vorm van assessment je ook kiest, er zullen altijd sterke en zwakke kanten zijn. De vraag hierbij is: wegen de sterke punten op tegen de zwakke punten? Er moet hier een soort balans worden gevonden. Daarnaast is het ook belangrijk om het doel van de assessment in de gaten te houden. Om de assessment zo betrouwbaar mogelijk te maken, is het goed om meerdere informatiebronnen te gebruiken.
Ook kunnen de prestaties op testen ook vaak worden gegeneraliseerd naar non-test gedrag. Hiermee wordt bedoeld dat als een kind een hele goede CITO-score heeft, ook vaak een hoog niveau doet op de middelbare school. De testen kunnen dus gebruikt worden om gedrag te voorspellen.
Met behulp van testen kan informatie worden ingewonnen over bijvoorbeeld de kennis van een leerling op het gebied van rekenen. Om te bepalen of zo’n test nut heeft, gebruikt men assessments en met behulp van deze assessment kunnen er betere beslissingen worden gemaakt. Een voorbeeld hiervan is: wel of geen CITO-toets?
In sommige gevallen is er sprake van oneerlijkheid. Als er bijvoorbeeld op geslacht of op cultuur wordt geselecteerd is dit niet eerlijk. Assessment kan erbij helpen om het eerlijker te maken.
Tot slot zitten er vele voordelen aan verbonden voor de hele maatschappij. Een voorbeeld hiervan is de rede waarom er zoveel geld wordt geïnvesteerd in de CITO-toets. De hele maatschappij heeft hier voordeel van, want met behulp van een CITO kan worden bepaald of iemand de capaciteiten heeft om chirurg te worden. Als iemand namelijk niet die capaciteiten heeft, verdient deze persoon ook niet de titel (want niemand zit te wachten op een chirurg zonder goede diploma’s).
Stappen in het assessmentproces
Het identificeren en definiëren van een construct. Je wil een eigenschap van iets of iemand weten, maar voordat je iets wilt meten, heb je een definitie nodig (het is van belang om het te operationaliseren). Je moet een kenmerk kunnen observeren en meten. Een voorbeeld hierbij is: intelligentie. Sommige mensen hebben een hele hoge opleiding, maar kunnen nog geen kast in elkaar zetten. Intelligentie is dus heel relatief en wat intelligentie precies is, hangt dus samen met de definitie die iemand eraan geeft.
De manier waarop we het kenmerk willen meten, hangt af de definitie die net is gegeven. Bijvoorbeeld: Wat is de beste manier om geschiedeniskennis te meten? (Open vragen of MC-vragen? Jaartallen of gebeurtenissen?)
Geef de precieze omschrijving van wat je bedoelt. Probeer zoveel mogelijk in kwantitatieve begrippen uit te drukken, dus in getallen. Dit is van belang, omdat het de communicatie verbeterd en het hierdoor mogelijk is om wiskundige berekeningen toe te passen. Daarnaast is de context ook van belang, want zonder kan je geen conclusies trekken. Bijvoorbeeld als Daniël zijn toets maakt en hierbij 60% van de vragen goed beantwoord. Is dat goed of niet? Dit hangt van de context af, want als Daniël in groep 2 zit en de toets voor groep 6 leerlingen is en in groep 6 is de gemiddelde score 70%. Wat zegt de score dan over Daniël?
Huidige discussiepunten met betrekking tot assessment
Allereerst is het van belang dat testen niet leidt tot een bias. Hiermee krijg je onder andere te maken als je iemand test uit een minderheidsgroep. Tijdens zo’n test is het belangrijk om duidelijk vast te stellen of je dezelfde doelen hebt voor beide groepen en na de test is het belangrijk om te kijken hoe de testscores gebruikt worden. In het filmpje over de schoolsegratie kwam naar voren dat de manier waarop je een scheiding tussen leerlingen bekijkt, samenhangt met of het wel of niet positief is. Zo is de één van mening dat je door het scheiden van beide groepen juist sterker staat (groepen kunnen elkaar beïnvloeden en hebben vaak hetzelfde niveau en dezelfde problemen), maar de ander zei dat je juist de discriminatie versterkt door twee groepen te maken.
Ten tweede moet de privacy worden gewaarborgd. Het is dan ook niet toegestaan om gegevens aan anderen te laten zien zonder toestemming van de ouder/kind. Daarom moet er rekening gehouden worden met ‘Wat kunnen we testen?’ en met ‘Hoe worden de scores gebruikt?’
Daarnaast moeten we ons afvragen of er wel of geen normatieve vergelijkingen gemaakt moeten worden. Door een normatieve verdeling weten mensen wat hoog en laag is. Dit hangt samen met het zelfbeeld wat de persoon heeft. Als je jezelf met anderen vergelijkt qua lengte, dan kijk je naar de mensen om je heen. Iemand in China zal iemand van 1,80 lang vinden, terwijl wij dit in Nederland ‘normaal’ vinden. Dus om een vergelijking te kunnen maken, moet je heel goed nadenken over een eventuele vergelijking.
Een ander belangrijk punt zijn de externe factoren. Om een goede assessment te kunnen maken, moet hier rekening mee gehouden worden. Dyslexie of angst zijn voorbeelden van externe factoren.
Tot slot moet er ook rekening gehouden worden met rechten en verantwoordelijkheden. Want hoe vertel je ouders dat een kind dyslexie heeft? De hulpverlener moet dan ook rekening houden met de manier waarop ze iets vertellen en welke impact dit heeft op de ouders. Een ander voorbeeld is epilepsie. Veel ouders vinden het lastig om dit woord te gebruiken, omdat een kind met epilepsie een ander leven heeft dan een kind zonder epilepsie (en een ander leven dan de ouders voor ogen hadden). Ouders willen niet dat hun kind het heeft en mijden daarom het woord. Het is dan ook de taak van de hulpverlener om de ouders te steunen als deze het moeilijk hebben.
Op sheet 20 staat een scenario beschreven wat een voorbeeld zou kunnen zijn van een tentamenvraag.
College 2: COTAN: Beoordelingssysteem t.b.v. de kwaliteit van tests
Wat is COTAN?
COTAN staat voor commissie testaangelegenheden Nederland en is onderdeel van het Nederlands Instituut van Psychologen (NIP). De COTAN beschrijft en beoordeelt testen, vragenlijsten, observatieschalen en psychodiagnostische instrumenten op grond van zeven criteria: uitgangspunten van de testconstructie, kwaliteit van het testmateriaal, kwaliteit van de handleiding, normen, betrouwbaarheid, begripsvaliditeit en criteriumvaliditeit.
In toekomstig werk van een pedagoog zijn onder andere dyslexieonderzoeken en intelligentietesten belangrijk. Het doel van de COTAN is dan ook om informatie te geven aan testgebruikers over de kwaliteit van meetinstrumenten, zodat mensen een goede keuze kunnen maken bij het testen van een kind. Het is hierbij van belang dat een test betrouwbaar is en de COTAN kan helpen bij het beoordelen van zo’n test.
Daarnaast geeft de COTAN ook feedback op een test en dit kan voor testauteurs belangrijk zijn. Ze kunnen controleren of de test klopt en hem eventueel aanpassen en/of verbeteren.
Beoordelingsprocedure
Om te bepalen of de test wel of niet geschikt is wordt er als eerst de test zelf en ander relevant materiaal door de testauteur naar de COTAN gestuurd. Dit materiaal wordt dan bekeken door twee beoordelaars en als deze erg van mening verschillen wordt er nog een derde persoon bij gehaald die de test nogmaals beoordeelt. Vervolgens gaat de test met de feedback weer terug naar de testauteur en die krijgt de kans om te reageren op de feedback van de beoordelaars. Als hij met de feedback akkoord gaat wordt de beoordeling gepubliceerd in de COTAN documentatie. Stel, dat er nieuwe normen en waarden ontstaan in de samenleving of er komen nieuwe onderzoeksgegevens beschikbaar, dan zal de test opnieuw worden beoordeelt.
De zeven criteria:
1. Uitgangspunten van de testconstructie: hierin wordt de theoretische achtergrond van een test besproken. De meetpretentie (is het doel van de test duidelijk beschreven?), de doelgroep en de functie van de test (is het intelligentie meten of behandelingsadvies geven?) zijn de belangrijkste aspecten die aan bod komen.
2. Kwaliteit van het testmateriaal: hierbij gaat het erom of de testopgaven, de scoringsprocedures en de instructies zijn gestandaardiseerd (iedereen doet het op dezelfde manier) en goed te begrijpen.
3. Kwaliteit van de handleiding: een test afnemen is lastig, omdat er strikte regels aan verbonden zitten, zodat er een goed antwoord uitkomt. Het is dan ook belangrijk dat er informatie aangeboden wordt aan de testgebruiker voor de afname en interpretatie van de test.
4. Normen: het is belangrijk om een goede normgroep uit te kiezen om de test mee te testen. Een normgroep is een steekproef die ‘norm’ aan moet geven en daarom moet deze overeenkomen met de werkelijkheid. Daarbij is het belangrijk om te bedenken of er sprake is van een normgerichte interpretatie (in vergelijking met de normatieve groep) of criteriumgerichte/domeingerichte interpretatie (vergeleken met de criteria van een deskundige die vindt dat een kind dat op een bepaald moment moet kunnen. Bijv. een kind moet kunnen lopen als het twee jaar oud is).
5. Betrouwbaarheid: gaat over de vraag in hoeverre de uitslag van een test geloofwaardig is en klopt met de werkelijkheid. Daarnaast moet er ook gekeken worden in hoeverre het betrouwbaarheidsonderzoek betrouwbaar is, want als dit niet klopt, klopt de ‘echte’ betrouwbaarheid ook niet.
6. Begripsvaliditeit: hierbij gaat het erom of de test het vooraf gestelde doel heeft gehaald en of er conclusies getrokken kunnen worden uit de testscores.
7. Criteriumvaliditeit: kan de test een voorspelling geven over het gedrag van de testpersoon (dit heet predictieve validiteit) .
Vervolgens wordt uitgelegd hoe de COTAN werkt, dit staat duidelijk beschreven in de slides op blackboard.
Vervolgens gaan we zelf een dataset maken, zodat in de volgende colleges termen en begrippen makkelijker uitgelegd kunnen worden. De data worden verzameld met behulp van een maze-taak. Dit is een leestaak waarbij je een verhaal moet lezen en je tussendoor steeds moet kiezen uit drie woorden waarvan één van drie woorden klopt. Het gaat erom dat je zoveel mogelijk goede woorden aankruist. Om te beginnen wordt de groep in drie delen gedeeld. De eerst groep mag 1 minuut lezen, de tweede groep anderhalve minuut en de derde groep 2 minuten. Dit is gedaan om zo verschil in scores te creëren (universitaire studenten zijn geen representatieve groep). Na de test moest iedereen opschrijven wat die van de test kan herinneren. Dit heet de recall.
Het tweede deel van het college was een gastcollege over Assessment for Learning
Kinderen zitten een groot deel van hun tijd op school en er is dan ook veel informatie beschikbaar over de leerprestaties van een kind. Deze leerprestaties hebben invloed als er een diagnose wordt gesteld (bijv. dyslexie) of er een interventie wordt uitgevoerd. De leraar, remedial teacher, orthopedagoog en gezinspedagoog mogen beslissingen nemen over het kind, een eventuele diagnose en/of een interventie. Dit heeft vaak gevolgen voor de ontwikkeling en toekomst van het kind.
Maar hoe komt de informatie over leerprestaties tot stand? Docenten (maar ook leerlingen en studenten) gebruiken assessment als hulpmiddel. Assessment zijn de procedures om te bepalen of het onderwijs effectief is geweest en of de vooropgestelde doelen zijn bereikt.
Assessment helpt bij het stellen, verfijnen en verhelderen van realistische doelen en het nagaan in hoeverre zo’n doel is bereikt. Daarnaast kan het een indicatie geven voor het bepalen, evalueren en het aanpassen van de instructie, waardoor de leerling effectiever zal gaan leren. Ook kan het helpen bij de entry-assessment. Dit is om te bepalen of het kind een bepaald doel kan bereiken, bijv. welke eisen stellen aan kinderen die VWO willen gaan doen.
Hoe kan je bepalen of een kind iets wel of niet kan?
Als eerst is er een aptitude test. Dit is ook wel een leerpotentieel test en meet welke leermogelijkheden een kind heeft. Er wordt gekeken naar de leerwinst. Dit is kijken naar het begin- en eindniveau van een leerling. Met een aptitude test kan ook worden bepaald of een school goed of slecht is. Je kijkt dan naar de begin- en eindresultaten van de leerlingen en niet alleen naar de eindresultaten (zoals nu wordt gedaan door de schoolinspectie). Ten tweede is er een achievements test die informatie geeft over de sterke en zwakke kanten van een leerling (bijv. een leerling kan heel goed rekenen, maar minder goed spellen). Tot slot kan je ook informatie gebruiken die je krijgt van ouders en leraren.
Assessment kan ook als hulpmiddel voor de leerlingen dienen. Door assessment weten leerlingen wat de doelen zijn van het onderwijs. En dit beïnvloed hun motivatie en studiegedrag. Daarnaast krijgen ze ook feedback door assessment en hierdoor leren kinderen hun sterke en zwakke kanten kennen.
Assessment heeft verschillende vormen:
Ten eerste formative assessment: dit is een indirecte vorm van assessment en heeft dus geen directe consequenties voor de leerling. Een voorbeeld hiervan is een oefententamen. Maar ook een project of schriftelijke opdracht is een formative assessment methode. Deze vorm bevordert het leerproces, omdat duidelijk wordt wat je al beheerst en wat je nog moet leren. Daarnaast geeft het de leraar informatie over wat de leerlingen nog moeten leren en hierdoor kan hij gerichter aan de slag gaan.
Ten tweede is er summative assessment: het toetsen van het eindoordeel. Hiermee kan worden bepaald of een leerling een bepaald niveau heeft behaald. Dit kan bijv. door een tentamen te geven. Aan de hand van zo’n tentamen kan je het niveau van de leerling testen t.o.v. de normgroep, worden gebruikt door de overheid om scholen te vergelijken (gemiddelde cijfers van eindexamens) en worden gebruikt om te bepalen wat het niveau van een leerling is (selectie en plaatsing voor bijv. middelbare school). Summative assessment geven geen feedback over de leerprestaties van een kind.
Hoe kunnen formatieve wijzen worden gebruikt om summatieve toetsen te maken?
Als leerlingen moeten reflecteren op hun eigen werk, bijv. door tussentijdse beoordelingen te gebruiken als voorbereiding op een summatieve toets. Daarnaast kunnen leerlingen helpen met het ontwikkelen met een scoringsmodel en door vragen na te bespreken die voor problemen hebben geleid. Ten derde kunnen leerlingen ook zelf vragen verzinnen als voorbereiding op de summatieve toets (bijv. als leerlingen een oefententamen opstellen, waarbij elke leerling één vraag moet bedenken).
Invloed van assessment op leren
Ten eerste is er het pre-assessment effect. Dit is dat leerlingen een verwachting hebben van eisen en assessment vormen en hierop passen ze hun leergedrag aan. Leerlingen stellen vaak andere doelen dan leerkrachten en door het verschil in perceptie worden summatieve toetsen vaak als oneerlijk gezien. Dit heeft geleid tot nieuwe vormen van assessment (zoals deep learning) en deze vinden leerlingen vaak eerlijker.
Ten tweede is er het post-assessment effect. Dit is het leren door terugkijken en reflecteren op een assessment taak (bijv. een tentamen). Hierdoor leert de leerling heel veel. Door het terugkijken ontwikkelen kinderen cognitieve en academische vaardigheden. Daarnaast worden leerlingen gemotiveerder en zien ze deze vormen van assessment als eerlijker en interessanter. Ook leidt dit tot meer samenwerking. Samenwerking is een activerende werkvorm, waarbij leerlingen meer gestimuleerd worden en dus meer leren.
En tot slot is er het ware assessment effect en dit gaat om hetgeen dat je leert tijdens het maken van een assessment taak.
Assessment for learning
Black en Williams hebben onderzoek gedaan naar de werking van formative assessment. Hieruit blijkt dat kinderen vooruitgaan en dit geldt voor verschillende leeftijden, schoolvakken en landen. Vooral de zwak presterende leerlingen gaan vooruit. Dat leerlingen zoveel vooruit gaan komt doordat vormen van formative assessment leiden tot meer zelfvertrouwen en motivatie en daarnaast leren leerlingen hun talenten beter te benutten.
Problemen met assessment
Assessment heeft ook verschillende problemen. Ten eerst leiden veel vormen van assessment tot oppervlakkig leren en daarnaast ligt de focus vooral op de cijfers die leerlingen behalen dan op wat leerlingen daadwerkelijk kunnen. Hierdoor ontstaat een competitie tussen leerlingen om wie de hoogste cijfers haalt, maar richten leerlingen zich niet op persoonlijke ontwikkeling (wat in de praktijk belangrijker is). Tot slot ondervinden ook leraren problemen met assessment, omdat zij vooral bezig zijn met klassenmanagement en het invullen van het LeerlingVolgSysteem. Ze zouden zich meer moeten bezighouden met persoonlijke feedback en het identificeren van leervragen.
Het leren verbeteren door assessment
Ten eerste kan het leren worden verbeterd door effectieve feedback. Hierin worden de sterke en de zwakke punten van de leerling worden besproken en wordt advies gegeven over hoe het werk verbeterd kan worden. Daarom moet er sprake zijn van feed forward: hierbij is de leerling bewust van het einddoel en van waar hij nu staat. Er moet dan een plan worden bedacht om de kloof te dichten en het einddoel te bereiken.
Ten tweede moet er sprake zijn van self assessment. Dit houdt in dat leerlingen een actieve rol moeten spelen in hun eigen leerproces, want dit leidt tot leerdoelgericht leren. Leerdoelen en standaarden moeten helder en duidelijk worden opgesteld.
Ten derde speelt peer assessment een belangrijke rol, omdat de mening van peers vaak acceptabeler en begrijpelijker (feedback is in leerling-taal) is dan de docentbeoordeling. Ook leert de leerling die feedback moet geven van de feedback, omdat de leerlingen er beide bewuster mee bezig zijn. Tot slot hebben docenten meer tijd om te observeren en te reflecteren.
Ten vierde is het belangrijk dat leerlingen en docenten met elkaar praten (er moet interactie zijn). Dit is belangrijk om de leerling dan de kans krijgt om te vertellen wat hij/zij vind van een bepaalde situatie (bijv. wat de leerling vindt van de hoeveelheid huiswerk). Het moet wel belangrijk zijn de overdracht goed is en dat de leerling reflecteert. De leraar moet de leerling stimuleren om hun mening te geven en hun de ruimte geven om dit te doen.
Ten vijfde moeten opdrachten en huiswerk leerdoel gerelateerd zijn en ook voor de leerling moet dit duidelijk zijn. Feedback moet worden gegeven zodat de leerling zijn/haar werk kan verbeteren en de leerling moet dan ook de kans krijgen om het werk te verbeteren.
Ten zesde moet de feedback die is gegeven in beoordelingsmomenten worden gebruikt om in samenwerking met de leerlingen de volgende onderwijs- en leeractiviteiten op te stellen of te ontwerpen.
Tot slot moet de leraar er vanuit gaan dat elke student de capaciteiten en motivatie heeft om zich te verbeteren en ontwikkelen.
Uit dit alles blijkt dat er nog veel winst valt te behalen in het onderwijs. Dit kan door onderzoek naar bestaande en nieuwe principes van onderwijs en effectief leren en dat instructievormen en –methoden geëvalueerd en passend gemaakt moeten worden voor het onderwijs. Hier ligt een belangrijke taak voor onderwijskundigen en pedagogen!
College 3: De betekenis van testscores
Basisprincipes van assessment
Sensitiviteit vs. specificiteit: stel dat je een toets wil maken, zodat je kan voorspellen wie volleybal spelers zijn en maakt een indeling op basis van lengte (als je groter bent dan 1,80 meter dan ben je volleybalspeler). Je ziet dat deze toets sensitief is, omdat iedereen die langer was dan 1,80 meter opstond. Als een toets sensitief is, betekent dit dat je een assessment procedure gebruikt waarbij je iedereen in de groep krijgt die erin hoort (dus iedereen in de groep heeft dan ene kenmerk). Maar als niet iedereen die langer is dan 1,80 meter volleybal speelt is je toets niet meer sensitief. Het meetinstrument dat je gebruikt is dus niet specifiek, omdat het ook mensen bevat die niet bij de groep horen. Je kan dus niet zeggen: je bent 1,80 meter dus je speelt volleybal (het is dan wel specifiek, maar niet sensitief).
Het tweede voorbeeld dat wordt gegeven, heeft betrekking op vloeiend lezen en dyslexie. Bij dit voorbeeld is de sensitiviteitsvraag ‘Hebben leerlingen met het label dyslexie een lagere score op een test voor vloeiend lezen?’ Het antwoord hierop is ‘ja’. Maar de specifiteitsvraag hierbij is: ‘Hebben leerlingen zonder het label dyslexie ook een lagere score op een test voor vloeiend lezen?’ Als het antwoord op deze vraag ‘nee’ is dan is het ook een specifieke test, maar als het antwoord ‘ja’ is, is het geen specifieke test. Dit komt omdat er dan ook andere factoren kunnen meespelen (zoals slecht onderwijs, taalarme omgeving, ADHD, faalangst etc.). Het label dyslexie kan wel specifiek zijn als er geen andere factoren meespelen en dus dyslexie de enige reden is dat je lager scoort op een test voor vloeiend lezen.
Hieruit blijkt dus dat het lastig is om een specifieke test te maken. Een sensitieve test is, daarentegen, makkelijker.
Continuüm vs. unieke kwaliteit: Wanneer er een diagnose wordt gesteld, is het vaak je hebt het wel of je hebt het niet. Bijv. je hebt wel of geen ADHD. Hulpverleners moeten vaak ‘ja’ of ‘nee’ antwoorden, maar eigenlijk heb je een heel continuüm aan ADHD. Bijv. sommige mensen hebben meer aandachtsproblemen dan de ander. Je hebt een klein deel die veel aandacht hebben, een klein deel die heel weinig aandacht hebben en het grootste gedeelte zit daartussen in. Bij het opstellen van een diagnose moet er ergens een grens worden gesteld.
Heterogeniteit: binnen een groep is er altijd verschil. Bijv. als in een groep wordt gevraagd ‘Wie blond haar heeft, mag opstaan’ dan staan er een aantal mensen op met lichtblond haar en een aantal met donkerblond haar. Wat blond is verschilt dus per persoon. Niet iedereen in de groep heeft dus exact hetzelfde kenmerk. Ook verschilt het per cultuur wat blond is en wat niet. In bijv. Amerika zijn minder mensen met blond haar en zeggen mensen met donkerblond haar dus dat ze lichtbruin haar hebben.
Ditzelfde geldt voor ADHD. Sommige kinderen met ADHD hebben gedragsproblemen, anderen hebben leerproblemen en weer anderen voelen zich depressief. Dus de kenmerken binnen de groep ADHD verschilt ook per kind.
‘Person First’ taalgebruik: een diagnose is een beschrijving van een kenmerk van de persoon. Hierbij moet er in de gaten worden gehouden dat we niet zeggen ‘Jantje is een autist’, maar moet er worden gezegd ‘Dit is Jantje en hij heeft autisme’. Het is namelijk is wat de persoon heeft of doet, maar niet wat de persoon is. Dus eerst de persoon noemen en daarna pas de kenmerken van die persoon.
Implicaties voor de behandeling:
Er is nu een diagnose gesteld, maar wat moet je daarmee? Stel dat ik weet dat jij ADHD hebt, dan weet ik wat de oorzaak is van de problemen (oorzaak), maar wat ik eraan kan doen (de behandeling) en hoe de toekomst eruit ziet (de prognose) verschilt per persoon. Daarnaast is er nog een vraag: ‘Doet de naam meer kwaad of kan je verder komen met de naam?’ In sommige gevallen hebben kinderen er veel aan dat er een diagnose is gesteld (bijv. bij dyslexie, weten dat het niet komt omdat je niet je best doet of doordat je dom bent), maar in sommige andere gevallen heeft het label nadelen.
Vervolgens komt er een video over de gevolgen die de diagnose dyslexie heeft gehad voor verschillende mensen.
Statistiek van assessment
Measurement zijn de regels die worden gebruikt om nummers toe te kennen aan het gedrag van een individu. Er zijn verschillende schalen van measurement: nominaal, ordinaal, interval en ratio. Elke schaal heeft zijn eigen eigenschappen, typen informatie die worden overgebracht en hiërarchie (sommige metingen zijn verfijnder en geven meer informatie).
Nominaal: een nominale schaal wordt gebruikt om ergens een naam aan te geven en om gegevens te ordenen in categorieën of klassen. Als je een lijst met voetbalclubs ziet en deze een nummer geeft dat zegt uit welke regio ze komen. Maar je hebt geen informatie over hoe goed de clubs zijn, alleen uit welk deel van het land ze komen (dus nummer 1 is niet beter dan nummer 2). Er kunnen geen rekensommen mee gemaakt worden. Een ander voorbeeld is studierichting of geboorteplaats.
Ordinaal: met een ordinale schaal kan er worden gezegd welke club op dat moment het beste is. Het is een rangorde, maar zegt niet hoeveel verschil er is tussen de verschillende groepen. Dus je kan ook niet rekenen met deze schaal (want 2 is niet 2 keer zo goed als 4). Als je kijkt naar de standen bij het voetbal, dan kan je dus zien wie op dat moment de beste is, maar je kan nog niet zeggen welke club kampioen wordt, omdat je niet weet hoeveel punten verschil er zit tussen de rangen.
Interval: het is een rangordening waarbij er gelijke eenheden tussen de verschillende clubs zitten en dus kan je ermee rekenen (want het verschil tussen 70 en 71 is net zo groot als het verschil tussen 37 en 38). Maar er is geen nulpunt, wat betekent dat je geen conclusies uit de getallen kunt trekken (bijv. een IQ van 100 is niet twee keer zo groot als een IQ van 50). Bij het voetbalclub voorbeeld heb je nu een score op basis van kwaliteit van de clubs, maar je kan alsnog niet zeggen welke club kampioen wordt (omdat er misschien nog andere factoren zijn die meetellen). Daarnaast heb je geen nulpunt en dus kan je alsnog niet zien hoeveel verschil er tussen de teams is.
Ratio: bij deze schaal is er absoluut nulpunt en dus kan je er mee rekenen en kan je conclusies trekken (club 1 is twee keer zo goed als club 2). Er zijn weinig gevallen waarin je ratio schalen gebruikt in de pedagogiek (vooral lengte en gewicht). Als je in de tabel kijkt van de voetbalteams zie je daar het totaal aantal behaalde punten en je zou als een prognose kunnen geven over wie kampioen wordt.
Beschrijving van testscores
Distributie en verdeling kunnen op verschillende vormen weergeven m.b.v. tabellen of grafieken. Als de verdeling symmetrisch is, dan is er sprake van een normale verdeling (de mediaan en de modus zijn in het midden te vinden). En als die niet het geval is, dan is de verdeling scheef. Dan kan er sprake zijn van een negative skew (weinig scores aan de lage kant) of een positve skew (weinig scores aan de hoge kant). Als je kijkt naar de leeftijd van pedagogiek studenten dan is er een sprake van positve skew (veel jonge mensen), maar als je kijkt naar de gemiddelde leeftijd bij het biljarten dan zal er sprake zijn van een negative skew (veel ouderen). Bij het verwerken van de toets scores, wordt er eerst een lijst gemaakt van alle namen met de cijfers erachter en vervolgens worden de leerlingen in groepjes verdeeld op basis van hun cijfer. Bij een grafiek gebruik je meestal de frequentie (bijv. het aantal keren dat een cijfer voorkomt).
Centrummaten
Er zijn verschillende manieren om het centrum te bepalen. Ten eerste het gemiddelde dat wordt berekend door alle scores bij elkaar op te tellen en het te delen door het aantal scores. Het gemiddelde is heel gevoelig voor extreme scores. Ten tweede is er de mediaan wat het middelste getal is. Het voordeel is, is dat deze niet gevoelig is voor extreme waarden. Ten derde is er de modus en dit is de meest voorkomende scores. Het kunnen meerderen zijn.
De positie van deze drie getallen, hangt af van de vorm van de verdeling. Bij een normale verdeling liggen de modus, de mediaan en het gemiddelde op dezelfde plek. Als de verdeling scheef is, liggen deze drie niet op dezelfde plek. Het gemiddelde ligt altijd aan de kant van de staart, want die wordt die kan opgetrokken door de extreme waarden. De modus ligt altijd op het hoogste punt en de mediaan is altijd het middelste getal.
Metingen van variabiliteit
Het bereik is de afstand tussen de laagste en de hoogste score in de verdeling. En de standaarddeviatie is de gemiddelde afstand waarin scores afwijken van het gemiddelde (dit bereken je door de wortel te trekken uit de variantie).
Correlatie coëfficiënt
Hiermee kan je de relatie tussen twee variabelen weten en kan variëren tussen de -1 en de 1. Als de correlatie coëfficiënt vlakbij één van deze getallen liggen, dan is de correlatie groot (er is een sterke samenhang tussen getallen). De plus of min geeft de richting van de correlatie aan. Een plus houdt in dat ze samen dezelfde richting op gaan en een min correlatie houdt in dat ze allebei een andere richting opgaan (hoe hoger A, hoe lager B). Als de correlatie 0 is, dan is er geen relatie tussen twee getallen en zegt de score op A niks over de score op B. En 1 is de perfecte correlatie, als je A dan weet, dan weet je B ook.
Als je de correlatie coëfficiënt weet dan moet deze worden geïnterpreteerd. Om te bepalen of het een groot of klein effect is, hangt af van de onderzoeksvraag.
De correlatie kan op verschillende manieren worden weergegeven. Een scatterplot is een grafiek die de relatie tussen twee variabelen weergeeft. Een lineaire regressie is een rekenkundige procedure waarbij je de waarde van de ene variabel kan voorspellen uit een andere variabele.
Correlatie vs. causaliteit: dit is niet hetzelfde. Bij een reverse causation is het als A leidt tot B, maar B leidt niet meteen tot A en bij een bidirectional causation leidt A tot B en B tot A. En er kan ook nog een derde factor meespelen.
Betekenis van testscores
Als je bekijkt wat een test betekent, moet je altijd kijken naar de context en het referentiekader. Ruwe scores zeggen namelijk niks als je de context niet weet. Want wat voor kleding trek je aan als de temperatuur 98,6 Fahrenheit is. Wat de betekenis van een score is, heeft namelijk veel te maken met waar je de score mee vergelijkt.
Om gedrag te vergelijken, zijn er twee verschillende vormen van interpretatie, namelijk: normgerichte interpretatie (in vergelijking met de scores van andere mensen) of criteriumgerichte interpretatie (in vergelijking met een specifiek prestatieniveau, dus de eisen die gesteld worden). Hierbij wordt het prestatieniveau ook vaak bepaald aan de hand van een normgroep en hierbij is de keuze van de normgroep heel belangrijk.
De normgroep moet dan ook zorgvuldig worden geselecteerd en moet de groep mensen representeren waarbij de test wordt afgenomen. Om een goede normgroep te selecteren, moet eerst een populatie worden gedefinieerd (voor wie is de test gemaakt?) en vervolgens moet er random een steekproef getrokken worden. Om een normgroep te controleren, moet je je afvragen of de groep representatief en actueel is, of de omvang van voldoende grootte is en of de afnameprocedure is gestandaardiseerd is.
College 4: Betrouwbaarheid
Wat is betrouwbaarheid?
De betrouwbaarheid gaat over de scores die op de test worden behaald en niet over te test zelf. Vooral de nauwkeurigheid van de meetprocedure is een belangrijk aspect. Hierbij is de vraag of de scores reproduceerbaar is (als we nog een keer dezelfde toets doen, krijg je dan dezelfde scores?). De betrouwbaarheid is een kenmerk van de score zelf en niet van de toets.
Een testscore bestaat uit de werkelijke score van de persoon en de meetfout (dit is het verschil tussen de geobserveerde waarde en de ware score). De formule die hierbij hoort: geobserveerde score = ware score + meetfout
Waar komen meetfouten vandaan?
Ten eerste kunnen factoren van de persoon zelf meetellen, zoals vermoeidheid, angst of leereffecten. Ten tweede kunnen ook omgevingsfactoren meespelen. Natuurlijke factoren, zoals regen, zon en temperatuur en gecontroleerde factoren, zoals licht, afleiding en temperatuur zijn twee vormen van omgevingsfactoren. Ook taak factoren kunnen meespelen. Dit is content sampling (selectie van items voor meetinstrument verschilt per taak) en testprocedures (tijd, papier en instructies). Tot slot speelt ook de omvang van de sample een rol. Een kleine sample zorgt niet voor een stabiele en betrouwbare representatie. Dus hoe meer items je hebt, hoe betrouwbaarder de test wordt.
Manieren om betrouwbaarheid uit te drukken
Betrouwbaarheid is de mate waarin twee metingen met elkaar overeenkomen. De personen staan in dezelfde positie t.o.v. elkaar, maar doordat elk persoon anders is ontstaat variantie.
Als er over betrouwbaarheid wordt gesproken, dan wordt er meestal gepraat over de Standard Error of Measurement (SEM) of de betrouwbaarheidscoëfficiënt.
Bij elke normale verdeling verwacht men meetfouten. Dit houdt in dat hoe verder je score van de 10 afzit, hoe minder deze score voorkomt. Er zullen veel scores zijn die rondom de 10 liggen. Dus de geobserveerde metingen, zullen rondom de ‘ware meting’ liggen. Het is alleen nooit bekend wat de ‘ware score’ is en dus nemen we het gemiddelde en hopen we dat dit in de buurt van de ‘ware score ligt’. We gebruiken de betrouwbaarheid van het meten om de SEM te schatten en dus om de ‘ware score’ de bepalen. Als de SEM kleiner is, dan is de betrouwbaarheid hoger. Dit komt doordat als er minder fouten in de geobserveerde score zitten, de kans dat de rangorde van de groep studenten gelijk blijft groter is. En als de rangorde gelijk blijft, dan is de correlatie tussen factor A en B gelijk. In het voorbeeld komen de scores op de test 1 en test 2 niet overeen en dus is de betrouwbaarheid erg klein.
De rangorde is belangrijk. Als je eerst aan 200 mensen vraagt en dan nog een keer aan dezelfde 200 mensen de vraag stelt dan moet je vervolgens de standaarddeviatie, het gemiddelde en de betrouwbaarheid over de 1e en 2e keer berekenen. Als je deze getallen hebt berekent, dan moet de rangorde van beide testen overeenkomen.
Manieren om betrouwbaarheid te beoordelen
Er zijn over het algemeen drie manieren om een test te beoordelen.
Ten eerste de test-hertest methode. Bij een groep personen wordt twee keer dezelfde test afgenomen en tussen deze twee testen bereken je de correlatie coëfficiënt en dit is dan je betrouwbaarheid. Door testen snel na elkaar te geven (simultaneous) heb je geen last van effecten van tijd, zoals rijping. Dit heb je wel bij delayed testen.
Ten tweede heb je de parallel-test methode: twee groepen personen maken twee verschillende versies van een test die gelijk is qua inhoud, moeilijkheid en tijd. Hierdoor worden oefen- en geheugeneffecten gereduceerd. Als de afname gelijktijdig wordt afgenomen (dus beide versies op hetzelfde moment) dan zijn er geen effecten van groei die er wel zijn als er lange periode tussen de testen zit. Deze test kan worden gebruikt om de betrouwbaarheid van een test te evalueren, maar als test wordt het meestal niet gebruikt, omdat de tijd en middelen vaak lastig zijn.
Ten derde is er de interne consistentie: dit is de nauwkeurigheid van een meetinstrument op een bepaald tijdstip. Dus eigenlijk binnen de test, hoe betrouwbaar en stabiel de test is. Dit kan door de test in twee gelijke delen te verdelen (split-half). Dit kan bijv. door eerste vs. tweede helft of oneven vs. even nummers. Je berekent dan de correlatie tussen de scores op beide delen. Als je een test met 50 items afneemt en je gebruikt er per groep 25, dan neemt de betrouwbaarheid kleiner (omdat je minder items hebt). De Spearman-Brown formule probeert de betrouwbaarheid van de hele test te controleren. Deze soort betrouwbaarheid is het minst informatief, maar wordt het meest gedaan. Je weet bij deze test niet of de scores overeenkomen als je de test vandaag of morgen maakt, je weet alleen of de items intern consistent zijn. Een andere methode om de interne consistentie te meten is met de item analyse. Hierbij meet je de consistentie van antwoorden voor individuele items van een toets en hiermee probeer je de betrouwbaarheid te schatten. Dit doe je door te berekenen of de rangorde over alle items hetzelfde zou zijn. Hiervoor gebruik je de Kuder-Richardson formule (test items zijn goed of fout) of de coëfficiënt alpha (scoren hebben meerdere waarden). Er zijn echter ook beperkingen aan het meten van de interne consistentie. Ten eerste omdat de metingen op een bepaald moment worden uitgevoerd en de uitkomst van de test dan ook een momentopname is en ten tweede is de aanname dat twee items hetzelfde kenmerk meten niet per se waar. Tot slot kan de test niet worden gebruikt als mensen een bepaalde tijd krijgen om te antwoorden (niet iedereen beantwoord dezelfde vragen).
Hoe betrouwbaar een test moet zijn, hangt heel erg van de test af. Van welke beslissingen er worden genomen op basis van de uitslag. Als je bijv. moet beslissen of een kind medicijnen moet gaan slikken of dat een kind naar een instelling moet, dan moet de test wel heel betrouwbaar zijn, maar als het gaat om de tijd dat een kind elke dag moet lezen, is het minder belangrijk of een test betrouwbaar is.
Interpretatie van betrouwbaarheidsdata
Elke keer dat je een test afneemt is er ‘ware score’ en een meetfout. De standaard meetfout is het aantal keer dat de geobserveerde score verschilt van de ‘ware score’. En dit wordt uitgedrukt in standaarddeviaties.
In een normale verdeling is te zien hoeveel procent van de gevallen tussen twee scores zal liggen en hieruit kan je ook concluderen hoeveel een score van een persoon zal veranderen met een hertest, maar dit met ook makkelijker kunnen met de betrouwbaarheidscoëfficiënt. Deze gebruik je voor het maken van een vergelijking tussen twee testen.
Als je twee testen hebt die praktisch gelijk zijn en op validiteit hetzelfde score, dan moet je altijd gaan voor degene die het meest betrouwbaar is. Als je test namelijk niet betrouwbaar is, kan je minder goed conclusies trekken over een individu of een groep.
Factoren van invloed op betrouwbaarheid
Variabiliteit van groep: als getallen dichter bij elkaar liggen dan is de kans groot dat de rangordening zal veranderen (en dus is de betrouwbaarheid laag). Als de variabiliteit groot is de betrouwbaar te groot (er is dan sprake van inflatie). Dit is bijv. als je de scores op een toets van kinderen uit groep 3 vergelijkt met de scores van kinderen uit groep 8.
Prestatieniveau van de groep: als een toets te moeilijk is voor de groep, dan ligt het grootste deel van de scores aan de lage kant van de verdeling. Dit heet het bodemeffect. Hierbij zijn de variabiliteit en de betrouwbaarheid laag. Het plafondeffect staat daar tegenover en dit ontstaat als de test te makkelijk is en dan liggen de scores aan de hoge kant van de verdeling. Ook dan zijn de variabiliteit en de betrouwbaarheid laag.
Lengte van de test: over het algemeen kan worden gezegd, dat wanneer een test langer is er ook meer vragen zijn en hierdoor ontstaat een hogere betrouwbaarheid. Daarnaast zijn de scores consistenter (ze blijven gelijk bij herhaalde metingen).
Procedures die gebruikt worden om de betrouwbaarheid te schatten: welke procedure wordt gebruikt om de betrouwbaarheid te bepalen, bepaalt grotendeels de betrouwbaarheid. Alleen de parallel procedure bevat alle vier de fout typen.
Praktisch vs. theoretisch betrouwbaar: er wordt vaak gesproken over praktische vs. theoretische betrouwbaarheid. Als je de maze wilt gebruiken op scholen om te kijken of kinderen beter kunnen lezen, moet je je afvragen wat de betrouwbaarheid van deze maze is. Stel dat je dezelfde maze op vier scholen geeft, dan moet je je bijv. afvragen wie de maze afneemt (leraar of onderzoeker?). De leraar is vertrouwd en dus fijner voor de kinderen, maar een onderzoeker is onafhankelijk, omdat deze de kinderen niet kent. Dus je moet altijd een afweging maken in wat is er mogelijk op basis van praktijk en theorie.
Als je twee testen bekijkt, zal er altijd verschil zijn. De betrouwbaarheid van de verschillen tussen scores is dan ook veel kleiner dan de betrouwbaarheid van de twee hele testen. Als je een criterium gerichte test gebruikt dan is het anders. Want bijv. bij de CITO haal je het wel of je haalt het niet. De betrouwbaarheid is dan de classificatie van de deelnemers in wel of niet. Dus als je de eerste keer een CITO maakt en je haalt een onvoldoende, dan zal je de tweede keer ook een onvoldoende halen en andersom (er zijn weinig mensen die de eerste keer iets anders halen dan de tweede keer). Mastery betekent dat je het wel hebt gehaald en non-mastery betekent dat je het niet hebt gehaald.
Leergedrag observatie systeem
Er zijn verschillende gedragscategorieën waarin een leerling kan vallen. Ten eerste is er het actief leergedrag en hierbij reageert de leerlingen op de vragen van de docent (bijv. tijdens het voorlezen reageren op wat er wordt gezegd). De leerling speelt een actieve rol. Ten tweede is er de aan taak waarbij de leerling gericht bezig is met een taak die de ouders of leraar hem hebben opgelegd (bijv. kijken van een documentaire). Daartegenover staat de niet aan taak waarbij de leerling op andere dingen is gefocust dan op de leertaak zelf (de leerling wordt afgeleid door bijv. wat andere leerlingen doen). Tot slot is er ook storend gedrag en hierbij verstoort de leerling de leeromgeving voor zichzelf en voor andere leerlingen door bijv. lawaai te maken, niet op zijn plek te blijven zitten of door lichamelijk contact te maken met andere leerlingen.
Ook voor een leraar zijn er verschillende gedragscategorieën. Ten eerste kan de leerkracht een verbale of non-verbale positieve opmerking maken (bijv. wat ben je goed aan het werk). Ten tweede zijn er de negatieve kenmerken die ook zowel verbaal als non-verbaal kunnen. Dit is als een leraar zegt: ‘Let nou eens op!’ Tot slot zijn er ook de corrigerende opmerkingen waarbij de leraar duidelijk laat merken welk gedrag verwacht wordt van de leerling (bijv. ‘Handen bij jezelf houden’).
Met een observatieformulier kan je bijhouden welke gedragscategorieën voorkomen bij de leerling en bij de leraar. Ook kan je hierin bijhouden hoe lang bepaald gedrag bij de leerling voorkomt, voordat de leraar hierop reageert.
College 5: Validiteit
Om te bepalen of een test echt werkt, moet je altijd kijken naar de validiteit, want als de test niet valide is, dan heb alsnog niks aan de test. Het moment om naar de validiteit te kijken, wordt dan ook wel het moment van de waarheid genoemd.
Na een test hebben we verschillende scores op die test. De vraag is dan: In hoeverre vertellen de scores ons wat we willen meten? Dit wordt bedoeld met de validiteit.
In het college werd een voorbeeld genoemd over Lance Armstrong met de vraag of hij een valide winnaar was. Officieel is hij de winnaar van de wedstrijd, maar nu er meer bekend is over hem (het gebruik van doping), is hij dan nog steeds de valide winnaar? Of mensen hem nog wel zien als winnaar hangt af van welke eisen zij stellen aan het ‘winnaar zijn’. Stel dat iedereen dezelfde hoeveelheid drugs gebruikt, is hij dan wel een valide winnaar? Ja, want dan zijn er minder meetfouten, omdat iedereen dezelfde hoeveelheid drugs heeft gebruikt, maar nu is hij de enige, is hij dan nog steeds de valide winnaar?
Een ander voorbeeld is Messi. Omdat zijn voetbalvaardigheid ontzettend goed en anders is, heeft hij het verdiend om twee keer tot beste voetballer ter wereld benoemd te worden. Maar stel dat er morgen in de krant staat dat hij zijn twee kinderen heeft mishandeld, is hij dan nog steeds de beste voetballer ter wereld? Of iemand dan nog steeds de beste is, hangt af van de criteria die je eraan stelt.
Validiteit is de mate waarin interpretaties van testscores gebruikt kunnen worden om een beslissing te maken. Er moet dan rekening gehouden worden met wat de bedoeling is van de testscores en wat we ermee willen gaan doen. Dus om te bepalen of een test valide is, moeten we ons eerst afvragen wat we precies willen meten.
Vroeger waren er drie vormen van validiteit: content, criterion-related en construct. Tegenwoordig is er één algemene validiteit en vijf verschillende vormen van bewijs: content-related, criterion-related, internal structure, response processes en consequential.
Evidential bewijs zijn de bronnen die worden gebruikt om beslissingen te maken. Dus als er bijvoorbeeld wordt gekeken naar voetbalvaardigheid naar welke aspecten moet je dan kijken? Aantal goals? Aantal gewonnen wedstrijden? Technische vaardigheden? Dit kan je weergeven in een soort web.
Bij consequential bewijs wordt gekeken naar de consequenties van een bepaald iets. Bijvoorbeeld: het is van belang om te weten dat Armstrong drugs heeft gebruikt voordat er een beslissing wordt gemaakt over of hij wel of niet een terechte winnaar is.
Om te bepalen of een test valide is, moet deze ook vergeleken worden met een andere toets. Als de correlaties overeenkomen (bijvoorbeeld hoe ouder een kind is, hoe beter een kind kan lezen) dan weten we dat de test valide is. De uitkomst is de uitkomst die we hadden verwacht. Als één aspect niet klopt, dan weten we dat de toets niet valide is en kunnen we hem niet gebruiken voor hetgeen dat we willen meten.
Bij het afnemen van een toets, moet altijd nagedacht worden over wat de consequenties zijn van die toets. En dit moet je ook meenemen om te bepalen of een toets valide is of niet. Denk bijvoorbeeld aan het panel tijdens het college. Heeft het wel of geen zin gehad dat er een diagnose is gesteld?
Een net waarin alle eisen weergegeven kunnen worden, heet een nomological net. Om te bepalen of een test wel of niet valide is, moet je bepalen welke factoren belangrijk zijn om bijvoorbeeld te bepalen of iemand wel of niet gezond is. Welke onderdelen moeten er gemeten worden?
Content-related bewijs: in hoeverre komt de inhoud van de test overeen met wat we willen meten. Hierbij is het belangrijk om na te gaan of de test is ontworpen om een representatieve proef te geven een specifiek domein of gedrag. Dus welke eisen er worden gesteld, hangt ook af van de cultuur. In Amerika, als je aan ouders vraagt hoe het met hun kinderen gaat, zullen ouders altijd als eerst over sport beginnen (ook al kunnen hun kinderen er niks van!). Sport is heel belangrijk in Amerika. In Nederland zullen ouders snel over de schoolprestaties van het kind beginnen.
Waar moet bijvoorbeeld de toets voor D&A uit bestaan? Dan moet er als eerst nagedacht worden uit wat het doel is van het college? Welke processen moeten er worden gemeten? Wat moeten de studenten begrijpen? Stel op de toets wordt een definitie van validiteit gegeven, moeten de studenten het dan herkennen of moeten ze echt zelf de principes weten?
De vraag is dan ook: Wat moeten jullie kennen en op welke manier?
Er moet dan ook rekening gehouden worden met de tijd die je hebt om het na te kijken. Het is onmogelijk om 500 toetsen na te kijken in 2 weken.
Face validity (indruksvaliditeit) is de eerst indruk die mensen hebben van een test. Als de test er op het eerste idee goed uitziet, dan zullen mensen sneller kiezen voor die test. Iemand doet onderzoek naar begrijpend lezen, maar er zijn hiervoor nog niet echt goede testen. Op het eerste gezicht lijkt een test niet op een begrijpend lezen test, maar soms meet het wel begrijpend lezen. Er moet ook eerst een definitie worden gegeven van wat begrijpend lezen is. Dit wordt een definitie op basis van wat zij vinden dat begrijpend lezen is en hiervoor ontwikkelen ze dan een test. Face validiteit is geen echt validiteit, alleen een indruk die hebt.
Criterion-related evidence is de mate waarin variabelen aan elkaar zijn gerelateerd in een test. Er zijn drie vormen: Ten eerste concurrent validiteit. Dit is als twee verschillende meetinstrumenten op hetzelfde moment worden aangeboden. Het tweede is predictive validiteit en dit is als er vooruit wordt gedacht. Deze test kan bijvoorbeeld bepalen wat het niveau van het kind zal worden. Je kan bijvoorbeeld het kind aan het begin van het jaar een test geven en aan het eind van het jaar een test geven en dan de scores vergelijken. Er moet dan een correlatie zijn tussen de twee testen. De derde vorm is groepsverschil. Dit is dat je verschil verwacht tussen groepen, bijvoorbeeld een oudere leerling zal beter scoren dan een jongere leerling.
Het is altijd lastig om het criterium te bepalen en alle meetmethoden hebben hun beperkingen en dit heeft invloed op de validiteit. Bijvoorbeeld de vraag: ‘Wie bepaalt wat kinderen moeten kunnen voor hun zwemdiploma A?’ Dan moet er rekening worden gehouden met validiteit, vrij van bias (de ene groep scoort heel hoog, maar de andere groep niet. Bijvoorbeeld Amerikaanse kinderen zwemmen veel minder goed dan Nederlandse kinderen, is de toets voor beide groepen valide?), betrouwbaarheid en gemak en beschikbaarheid.
Bij het interpreteren van de validiteitscoëfficiënten moeten we ons afvragen hoeveel nieuwe informatie is verkregen. Dus de vraag: ‘Hoeveel verder komen wij met het gebruiken van de toets dan zonder de toets?’ Levert de toets is iets op?
De correlatie kan op meerdere manieren bekeken worden:
Ten eerste is er convergent bewijs. Dit betekent dat twee toetsen hetzelfde construct meten en een hoge correlatie laten zien
Ten tweede is er discriminant bewijs waarbij bijvoorbeeld twee leestoetsen een hoge correlatie moeten hebben, maar een leestoets en een rekentoets moeten juist een lage correlatie hebben.
Ten derde is de multi-traid, multi-method benadering waarbij er drie aspecten gemeten moet worden en dit wordt dan op drie verschillende manieren gemeten. Bijvoorbeeld met een wedstrijd, vaardighedentest en rating op de gebieden van voetbal, schaken en piano. We verwachten dat er geen correlatie is tussen bijvoorbeeld de vaardighedentest van voetbal en schaken. Er moet eerst gekeken worden naar de betrouwbaarheid, daarna naar validiteit (voetbal meten met een vaardighedentest en dit vergelijken met de competitie). Hiertussen is een hoge correlatie, want we meten twee keer voetbal. Maar er mag geen correlatie zijn tussen het meten van schaken en voetbal. Het meetinstrument voor schaken moet niet voetbal kunnen meten. Vaardighedentest van schaken mag totaal niet correleren met de competentietest voor voetbal.
De standaarderror is hoeveel de geobserveerde waarden afwijken van de verwachte waarden en dit kan je doen door de regressielijn te berekenen. In een voorbeeld van zo’n regressielijn is de horizontale as de leestoets en de verticale as de CITO. Als de lijn heel steil is (1), dan is de correlatie perfect. Met de regressielijn kan je vanuit de leestoets een voorspelling maken voor de CITO. De standaarderror moet zo klein mogelijk zijn.
Bij groepsstudies onderzoek je scores van verschillende groepen, omdat je verwacht dat deze anders zijn. Bijvoorbeeld een Ajaxspeler moet een andere score hebben dan iemand die voetbalt bij Oegstgeest.
Selectiebeslissingen kunnen ook gemaakt worden op basis van scores. Het is dan de vraag in hoeverre de selectie helpt bij het maken van een beslissing. Bijvoorbeeld bij het solliciteren naar een functie moeten mensen soms een toets maken. Hoe belangrijk die test is hangt af van het aantal sollicitanten er zijn en hoeveel plekken (selectie ratio). Als er 60 sollicitanten zijn en maar 1 plek, dan speelt de test een belangrijke rol bij de beslissingen, maar als er 90 sollicitanten zijn en 100 plekken dan is de test minder belangrijk. Daarnaast moet ook gekeken worden naar de base rate (het aantal sollicitanten dat succesvol zal zijn).
Als de vraag is: ‘Hoe belangrijk is de recall bij een begrijpend lezen taak?’ Dan moet er eerst worden gekeken naar de verdeling van de test. Bij deze test is de verdeling niet scheef, maar ook niet normaal verdeeld. Er is sprake van curtadic: er is een piek (dus alle scores liggen rond één punt). Uit verder onderzoek blijkt dat er geen correlatie is tussen de maze en de recall en dus is de recall geen goede manier om de leesvaardigheid te meten.
Daarnaast is te zien dat er een lage correlatie is tussen de twee recalls, maar de testen zijn wel even goed (er is geen verschil is scores tussen de twee testen).
Als je alle gegevens in een scattergram zet dan is er ook geen relatie te zien.
Als je de maze vergelijkt met andere begrijpend lezen testen is er wel een correlatie tussen de verschillende scores op de testen. Dit is goed, omdat je dan weet dat de testen hetzelfde hebben gemeten.
Interne structuur: hierbij onderzoek je of de relaties tussen de verschillende items van een test consistent zijn. Dit kan je doen door een factoranalyse uit te voeren. Hierbij kijk je naar bijvoorbeeld 10 items die allemaal de balvaardigheid meten en dan onderzoek je of deze items allemaal samenhangen.
Response processes: analyse om te bepalen of de processen geschikt zijn voor een bepaald persoon of construct. Als er een taak wordt afgenomen, zegt dit dan iets over de validiteit? Bijvoorbeeld meet de maze technisch lezen of begrijpend lezen. Mensen lezen niet elk woord. Bij het lezen springen mensen van het ene naar het andere woord en kijken heel vaak terug. Mensen lezen niet alle woorden, omdat ze die zelf kunnen invullen dus de vraag is dan: ‘In hoeverre meet de maze begrijpend lezen?’ Met eyetracking kan worden gekeken hoe mensen lezen. Bij het onderzoek was de hypothese of mensen langer keken naar alle woorden of alleen naar het goede woord. De conclusie was dat mensen langer kijken naar het goede woord dan naar de foute woorden.
Het eerste deel ging over evidential bewijs, de rest van het college gaat over consequential bewijs. Dit gaat dan over de consequenties die het gebruik van een meetinstrument heeft. Zo moet er bijvoorbeeld worden gekeken of het plakken van een label (zoals ADHD) een positieve of negatieve gevolgen heeft voor een leerling.
Vervolgens wordt er een artikel besproken dat in de Volkskrant stond. Ze willen namelijk de CITO gaan gebruiken om te bepalen of een school goed is en wat niet. De CITO zegt zelf dat de test niet is bedoeld om scholen te meten, maar om de leerlingen te beoordelen en dus is het consequential bewijs. Want wat zijn de gevolgen als de CITO wordt gebruikt om scholen te beoordelen.
Stel dat kinderen in groep 1 nog geen Nederlands spreken en uit een milieu komen met een laag SES en deze school vergelijk je met een school met alleen Nederlandse kinderen met een hoog SES. Dan scoort de tweede school sowieso hoger, maar dit zegt niks over het niveau van de school. Daarvoor moet je namelijk naar de leercurves kijken van de leerlingen.
Het volgende artikel gaat over het feit dat er steeds meer kinderen naar havo of vwo gaan, maar hoe komt dit? Het vmbo heeft een slechte naam en dus willen ouders en leerlingen liever naar de havo. Deze verandering is het gevolg van de CITO scores, omdat leerlingen die een hoge score hebben op de CITO liever naar de havo gaan dan naar het vmbo.
Tot nu toe zijn alleen normgerichte toetsten besproken, maar er zijn natuurlijk ook criteriumgerichte toetsen. Stel dat de helft van de studenten een toets heeft gehaald en de andere helft niet. Vervolgens ga je deze twee groepen vijf jaar later nog een keer vergelijken met wat ze nog weten over assessment. Door te kijken naar de scores op deze toets, kan je checken of de criteria die toen gesteld zijn valide waren.
College 6: Item analyse & besluitvorming
Latent trait theory is een oud idee wat door het gebruik van computers een nieuwe twist heeft gekregen. Hierbij gaat het om iets dat we niet direct kunnen meten, maar het is een onderliggend vermogen dat iemands succes bepaald op een bepaalde taak. Zo is het zo dat iedereen een bepaalde ‘hoeveelheid’ IQ heeft, maar we kunnen het niet zien. We kunnen het wel meten met een toets. Iemand met ‘meer’ IQ, scoort hoger.
Een ander voorbeeld is: het meten van tae kwon do. Er moet een toets worden gemaakt met verschillende items om de tae kwon do te meten en één van deze items is het planken breken. Het vermoeden is dat de vrijwilligers nog nooit zoiets hebben gedaan en we willen dus meten welke persoon het meeste ‘talent’ heeft.
Eerst leren ze hoe ze moeten schoppen en daarna gaan ze het plankje breken. De vraag is dan: ‘Is het kleine plankje voldoende om de bekwaamheid te meten?’ Het antwoord hierop is ‘nee’, omdat zowel de ongetrainde als de getrainde mensen dit kunnen. Nu is de vraag of de personen drie grote planken kunnen breken en het antwoord hierop is ‘nee’. Daarom wordt er gekozen voor een tussenvorm die bestaat uit één grote plank. Na de test blijkt dat dit item ook niet goed is, omdat ook iedereen deze kan breken.
Bij de test waren vier mensen met een verschillende bekwaamheidsschaal en dus heb je een schaal nodig die voor iedereen moeilijk is. Deze test was te gemakkelijk, omdat ook onervaren mensen de plank kunnen breken. Naarmate de planken dikker en groter worden ga je meer verschil zien.
Er kan een item kenmerk curve gemaakt worden. Dit is een grafiek van de verhouding tussen de vaardigheden en de personen. Het is een voorspelling. Het punt waar het, het meeste stijgt, is het discriminatiepunt. Dit is het punt waar de omslag is van onervaren naar ervaren.
Item analyse procedures: er zijn drie manieren om te kijken hoe moeilijk iets is.
Ten eerste is er het item moeilijkheidsindex. Als je bijvoorbeeld wilt weten welke vragen het best zijn om aardrijkskunde kennis te meten, dan moet je kijken naar het aantal mensen dat een vraag goed kan beantwoorden. De hoofdstad van de VS wist ongeveer 60% van de studenten en dus is dit goed. De hoofdstad van Zweden wist ongeveer 90% en dus is deze te makkelijk. Daarentegen wisten maar 2 mensen wat de hoofdstad van Nieuw Zeeland is en dus is deze vraag te moeilijk.
Je moet kijken naar het aantal mensen dat het antwoord goed had ten opzichte van het aantal mensen dat de test heeft gemaakt. Dat bereken je door het aantal mensen dat het goed had te delen door het totale aantal mensen. Hierbij geven items tussen de 0 en 1 te weinig informatie over de moeilijkheidsgraad.
Hoe bereik je de optimale item moeilijkheid?
Ten eerste moet je nadenken over wat voor vragen je stelt. Bij een constructed-respons items (dat zijn open vragen) moet je een range kiezen van gemiddeld 0.50 (tussen 0.40 en 0.60), maar als je kiest voor een selected-response item (MC) dan moet de range kleiner zijn, aangezien de kans dat mensen goed gokken kleiner is. Je wilt hierbij dat ongeveer 74% van de mensen een goed antwoord kunnen geven.
Meestal wordt er gesproken over een normgerichte toets en hierbij wil je een verschil zien tussen mensen, zodat je een normaal verdeelde score krijgt. Hierbij hebben een aantal mensen een 0 en een aantal mensen een 10 en veel mensen rond de 5. Is dit een geschikte toets voor D&A? Hiervoor is deze toets niet goed, maar bijvoorbeeld wel goed voor de cito. Bij D&A moet nagegaan worden of mensen de basiskennis onder de knie hebben en dus moeten de meeste mensen gewoon een voldoende halen. Binnen de groep zijn dan mensen die beter hebben geleerd of de stof beter begrijpen dan anderen en die zullen een hoger cijfer halen. Voor het D&A tentamen moet dan ook een tussenvorm worden gezocht tussen een normgerichte en criteriumgerichte toets. Normgerichte toets, omdat er wel verschil moet zijn tussen mensen en criteriumgerichte toets, omdat je wil dat mensen bepaalde dingen weten.
Ten tweede is er item discriminatie. Dit gaat over in hoeverre een test verschil maakt tussen mensen met veel bekwaamheid en weinig bekwaamheid. Als mensen bijvoorbeeld een algebra som voorgelegd krijgen, moet er onderscheid worden gemaakt in mensen die wel en die niet goed zijn in rekenen.
Om de item discriminatie te berekenen moet je kijken naar de correlatie tussen de prestatie op het item en de hele test. Je kijkt dan naar de hoogste 25% en laagste 25%. Je wil dat de mensen met een hoge score het item goed beantwoord hebben en mensen met de lage score hem fout hebben.
Dit doe je door: D= Ptotaal – Pitem. Als het antwoord tussen de 0-0.1 ligt dan kan deze niet geïnterpreteerd worden, tussen de 0.11-0.29 dan is het zwak, tussen de 0.3-0.4 dan is het goed en boven de 0.4 is het, het best.
Met behulp van deze getallen kan de item-totaal correlatie worden berekend. Dan bereken je of de hele prestatie samenhangt met de prestatie op een bepaald item. Als hierbij sprake is van een grote correlatie dan meet het item hetzelfde als de hele test en discrimineert het item tussen mensen die hoog en laag scoren bij de test.
Ten derde is er nog de afleider analyse. De afleiders zijn de foute alternatieven bij een MC-tentamen. Hierbij moet je je twee dingen afvragen. Ten eerste: Heeft iemand ze gekozen? Als niemand gekozen heeft voor een bepaald antwoord dan is het geen goede afleider en dan moet deze eigenlijk worden vervangen door een andere. Ten tweede: Is het gekozen door meer mensen in de onderste dan de bovenste groep? Je moet nagaan of mensen met een lage score vaker kiezen voor een bepaalde afleider dan mensen met een hoge score.
Afleider analyse: als niemand een bepaald item heeft gekozen dan was het geen goede afleider. Je moet nagaan dat mensen met een lage score vaker een bepaalde afleider kiezen en mensen met een hogere score kiezen minder vaak een bepaalde afleider.
Het maken van assessment- en onderwijsbeslissingen
Assessment wordt gebruikt om het maken van beslissingen te verbeteren. De beslissingen die worden gemaakt hangt samen met de waarden die heersen binnen de samenleving. Er kunnen vier soorten beslissingen worden gemaakt op basis van assessment.
Ten eerste classificatie en plaatsing. Met behulp van assessment kan bijvoorbeeld worden bepaald of leerlingen wel of geen extra hulp nodig hebben. Wanneer wordt bepaald of een kind wel of geen extra hulp nodig heeft, moet je als eerst kijken naar het punt waarop waarden en assessment elkaar kruisen. Hierbij ligt de primaire focus op de persoon die wordt beoordeeld en de secundaire focus op de waarden binnen de maatschappij.
Ten tweede de curriculaire waarbij het bijvoorbeeld gaat of leerlingen meer taallessen moeten krijgen in plaats van wiskundelessen. Er moet dan nagedacht worden over hoe en waarom deze verschillen ontstaan en welke waarden belangrijk zijn binnen een cultuur.
Ten derde de instructie die eventueel aangepast kan worden. Wat moeten de leerlingen leren? Hoe moeten ze het leren? En hebben ze uiteindelijk het leerdoel bereikt? Dit zijn vragen die gesteld moeten worden om te kijken of het niveau binnen de klas hoog genoeg is en of er op de ‘goede’ manier is onderwezen. Er zijn vier benaderingen om deze vragen te beantwoorden: Ten eerste is er prestatie in relatie tot perfectie, waarbij een 10 perfect is. Hierbij is het probleem dat bijna niemand een 10 haalt en dit zou dus betekenen dat het niet perfect was. Ten tweede de prestatie in relatie tot het gemiddelde waarbij de prestatie bekeken moet worden ten opzichte van anderen. Het probleem is dat de progressie soms moeilijk te interpreteren is en dus moeten de standaarddeviaties worden vergeleken. Ten derde de prestatie in relatie tot potentieel, waarbij het vooral gaat over de verschil scores tussen moment A en moment B. Doordat de verschilscores niet altijd betrouwbaar zijn, kan er een probleem optreden. Ten vierde de huidige prestatie in relatie tot prestatie in het verleden. Dit is de groei en ontwikkeling van het individu. Hierbij is het probleem dat er slecht van tevoren bepaald kan worden hoeveel een individu gaat groeien.
Tot slot is er de selectie waarbij het gaat over bijvoorbeeld welke studenten de studie wel of niet zullen halen.
Bias in assessment. Een bias is een systematische fout in een testscore door een overschatting of onderschatting van de prestaties van een bepaalde groep. De oorzaken voor bias zijn: de inhoud van de test, voorspellingen als gevolg van een testscore, weinig bewijs van bias bij gestandaardiseerde testen.
Assessement moet geïnterpreteerd worden in verschillende contexten en moet dus ook voldoen aan gedrags- en ethische standaarden van de beroepen. Voor professionals is het dan ook van belang dat ze kiezen voor valide, betrouwbare en non-biased testen en dat ze data op de juiste manier gebruiken.
Bij ethiek is het van belang dat er met respect en waardigheid omgegaan wordt met anderen. Zo moeten de privacy en vertrouwelijkheid worden gewaarborgd en moet er goed worden gekeken hoe de informatie wordt gebruikt. Daarnaast moet nagedacht worden over de sociale verantwoordelijkheid waarbij gekeken wordt naar de kosten en baten van een diagnose en assessment.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Contributions: posts
Spotlight: topics
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the summaries home pages for your study or field of study
- Use the check and search pages for summaries and study aids by field of study, subject or faculty
- Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
- Check or follow authors or other WorldSupporters
- Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Main summaries home pages:
- Business organization and economics - Communication and marketing -International relations and international organizations - IT, logistics and technology - Law and administration - Leisure, sports and tourism - Medicine and healthcare - Pedagogy and educational science - Psychology and behavioral sciences - Society, culture and arts - Statistics and research
- Summaries: the best textbooks summarized per field of study
- Summaries: the best scientific articles summarized per field of study
- Summaries: the best definitions, descriptions and lists of terms per field of study
- Exams: home page for exams, exam tips and study tips
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
- Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
- Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
1472 |
Add new contribution