College-aantekeningen bij Diagnostiek en assessment in opvoeding, onderwijs en hulpverlening aan de Universiteit Leiden - 2015/2016

College 1: Wat is assessment?
College 2: Statistiek van assessment
College 3: Betrouwbaarheid
College 4: Validiteit
College 5: Observatie
College 6: Item-analyse
College 7: Speciale populaties en accommodaties
Bron

College 1: Wat is assessment?

Assessment gaat vooral over data verzamelen, scoren, interpreteren en rapporteren. Op basis hiervan ga je beslissingen nemen. Voordat assessment kan plaatsvinden, moet er eerst een test worden uitgevoerd en moet deze test gemeten worden (measurement).

Met een test wordt het middel of de procedure bedoeld die je gebruikt om aan informatie (over bijvoorbeeld gedrag) te komen. Een voorbeeld van zo’n test is een enquête. Je krijgt een representatieve sample van gedrag.
Vervolgens moeten de uitkomsten worden verwerkt (measurement). Dit gebeurt door regels op te stellen, waardoor nummers toegekend kunnen worden aan de verschillende testonderdelen. Een voorbeeld is het uitrekenen van een cijfer voor een vak. Als je iemand een 5 geeft, zegt dit nog niets over hoe goed dit is.
Om getallen te kunnen interpreteren is assessment nodig. Hierbij worden procedures opgesteld om te kunnen bepalen wat getallen inhouden. Zo is het cijfer 5 in Nederland onvoldoende, maar in de VS zegt dit cijfer niets (want daar gebruiken ze letters). Getallen hebben dus pas een waarde als je er een betekenis aan hebt gegeven.

In het voorbeeld van het jongetje die een plaatje aan moet wijzen, staat het aanwijzen voor de test. De measurement is de ruwe score samen met de gestandaardiseerde score. De assessment ontstaat als het gekoppeld wordt aan de normaalverdeling. Dit jongetje scoort redelijk laag vergeleken met zijn leeftijdsgenoten.

Waarom testen?

We kunnen niet zomaar besluiten dat het kind achterloopt. Dit proces kan worden beïnvloed door biases. Hier moet echt rekening mee worden gehouden.

Halo effect: deze bias ontstaat als iemand bijvoorbeeld een goede eerste indruk maakt. Hoe slecht diegene daarna ook presteert, dankzij het halo effect zal je niet vinden dat hij het slecht doet.
Response bias: iemand kan heel veel belangen hebben bij het krijgen van een subsidie en zich daardoor gaan gedragen alsof het heel slecht gaat met hem. Hierdoor krijg jij een andere respons.

Type testen

Maximum performance tests: achievement test of aptitude test. Een achievement test meet wat een persoon al kan, een aptitude test meet wat een persoon kan, maar nog niet gedaan heeft. Het meet potentieel. Bij een maximum performance test is een antwoord meestal goed of fout.
Typical response test: objectief of projective. De projectieve test zou bijvoorbeeld zijn wat je in bepaalde stippen ziet. Dit is ook weer afhankelijk van degene die aan het testen is.

Bij evalueren kan je twee soorten toetsen gebruiken:

Formatieve toetsen: tussendoor toetsen
Summatieve toetsen: op het einde toetsen

Casus Jim

Jim deed het eerst wel redelijk goed op de peuterspeelzaal. Groep 3 vond hij echter al minder leuk en door de jaren heen bleek hij steeds slechter te worden in rekenen en ontstonden er op een gegeven moment gedragsproblemen vanwege frustratie op school. De leraar vroeg zich toen af wat er met Jim gedaan moest worden.

We kunnen bijvoorbeeld allerlei testen afnemen, zoals intelligentietesten en gesprekken met de ouders. Vervolgens komt de assessment. Gedrag en toetsen wordt geëvalueerd. Dan wordt er gekeken of er sprake is van een diagnose die gesteld kan worden.

Aannames van assessment

We moeten eerst zeker weten dat psychologische- en onderwijsconstructen:

Bestaan (als je niet weet dat het bestaat, dan kan je het moeilijk gaan meten)
Meetbaar zijn
Nooit perfect gemeten kunnen worden: (let op: hoe meer error er is bij het onderzoek, hoe minder bruikbaar de meting is)
Op meerdere manieren gemeten kunnen worden

Wat is een construct?

Assessment doet de veronderstelling dat psychologische constructen en onderwijsconstructen bestaan en gemeten kunnen worden. Een construct is een eigenschap waar een test voor ontworpen is om het te meten. Zonder definitie kun je het niet meten. Een construct is niet te observeren en niet tastbaar: het is abstract. Voorbeelden van constructen zijn blijheid en intelligentie.

Het is dus belangrijk om het construct te definiëren voor je het kan meten.

Alle vormen van assessment hebben hun sterke en zwakke kanten: houd het doel dus goed voor ogen, samen met welke test daar het beste bij past. Wegen de sterke punten op tegen de zwakke punten? Ook kijken naar wat voor test het kind aankan (v.b.: duurt de test te lang voor de concentratie?)
Gebruik meerdere bronnen van informatie
Prestaties op testen kunnen gegeneraliseerd worden naar niet-getest gedrag: een bepaalde CITO-score bij een kind kan bijvoorbeeld een voorspeller zijn van zijn/haar schoolprestaties op latere leeftijd. Assessment kan dus gebruikt worden om gedrag te voorspellen.
Informatie uit assessment kan professionals helpen om betere beslissingen te nemen
Assessments kunnen op een eerlijke manier worden uitgevoerd: als de uitslag van een test bijvoorbeeld afhankelijk is van geslacht of cultuur, dan is er sprake van bias en dit is niet eerlijk. Met grote groepen zou je bijv. (als er geen taal bij komt kijken) geen verschil meer moeten vinden
De maatschappij en individuen hebben over het algemeen voordeel van assessment: met behulp van assessment kan worden bepaald of iemand de capaciteiten heeft om bijvoorbeeld chirurg te worden, pedagoog te worden of het rijbewijs te halen. Als iemand namelijk niet aan de eisen voldoet, verdient deze persoon ook bepaalde titels of diploma’s niet, maar testen zijn in principe niet heilig!

Huidige discussiepunten met betrekking tot assessment

Allereerst is het van belang dat testen niet leiden tot een bias. Hiermee krijg je onder andere te maken als je iemand test uit een minderheidsgroep. Tijdens zo’n test is het belangrijk om duidelijk vast te stellen of je dezelfde doelen hebt voor beide groepen en na de test is het belangrijk om te kijken hoe de testscores gebruikt worden.

Ten tweede moet de privacy worden gewaarborgd. Het is dan ook niet toegestaan om gegevens aan anderen te laten zien zonder toestemming van de ouder of het kind. Daarom moet er rekening gehouden worden met ‘Wat kunnen we testen?’ en met ‘Hoe worden de scores gebruikt?’

Daarnaast moeten we ons afvragen of er wel of geen normatieve vergelijkingen gemaakt moeten worden. Door een normatieve verdeling weten mensen wat hoog en laag is. Dit hangt samen met het zelfbeeld dat de persoon heeft. Als je jezelf met anderen vergelijkt qua lengte, dan kijk je naar de mensen om je heen. Iemand in China zal iemand van 1,80 lang vinden, terwijl wij dat in Nederland ‘normaal’ vinden.

Een ander belangrijk punt zijn de externe factoren. Om een goede assessment te kunnen maken, moet hier rekening mee gehouden worden. Dyslexie of angst zijn voorbeelden van externe factoren.

Tot slot moet er ook rekening gehouden worden met rechten en verantwoordelijkheden. Want hoe vertel je ouders dat een kind dyslexie heeft? De hulpverlener moet dan ook rekening houden met de manier waarop ze iets vertellen en welke impact dit heeft op de ouders. Het is de taak van de hulpverlener om de ouders te steunen als zij het moeilijk hebben.

Stappen in het assessmentproces

Bij assessment zijn testontwikkelaars, testafnemers en deelnemers aan de test betrokken. Bij het ontwikkelen van de test ga je verschillende stappen af:

Conceptualiseren: Je wil een eigenschap van iets of iemand weten, maar voordat je iets kunt meten, heb je een definitie nodig. Het is van belang om je definitie te operationaliseren. Je moet een kenmerk kunnen observeren en meten. Een voorbeeld hierbij is intelligentie. Sommige mensen hebben een hele hoge opleiding, maar kunnen nog geen kast in elkaar zetten. Het hangt van je definitie van intelligentie af of je zo’n persoon dan intelligent vindt of niet. De manier waarop we het kenmerk willen meten, hangt vervolgens af van de definitie die is gebruikt.
Kwantificeer het construct: druk de resultaten van metingen uit in kwantitatieve termen, dus in getallen. Dit is van belang, omdat het de communicatie verbetert en het hierdoor mogelijk is om wiskundige berekeningen toe te passen. Daarnaast is de context ook van belang, want zonder context kun je geen conclusies trekken. Bijvoorbeeld: Als Daniël zijn toets maakt en hierbij 60% van de vragen goed beantwoordt, is dat dan goed of niet? Dit hangt van de context af, want als Daniël in groep 2 zit en de toets voor groep 6 leerlingen is (gemiddelde score 70%), wat zegt de score dan over Daniël?

Bias voorkomen/ontdekken

Als jij denkt dat iemand heel goed symptomen kan faken, dan moet je daar rekening mee houden. Er zijn meerdere schalen om dat te doen:

Effort check: voeg hele makkelijke items toe om te kijken of ze de test wel invullen en erover nadenken
L-schaal: sociale wenselijkheid detecteren
F-schaal: overdrijving symptomen detecteren
V-schaal: het begrip van de vragen kan getoetst worden.

Standaardizeren

De normgroep is belangrijk zodat je een representatieve steekproef hebt van de populatie uit de doelgroep. Je toetst dus de norm van een bepaalde groep (zoals de taal die gesproken wordt).

Assessment in de praktijk

Om tot de besluitvorming te komen moet je eerst de test selecteren, dan afnemen, scoren, interpreteren en rapporteren. Er zijn natuurlijk wel ethische overwegingen & standaarden van toepassing.

Selectie

Het is belangrijk te letten op validatie, normdata (en zijn die representatief? Komt het bijv. uit 1990, dan is dat vrij oud), betrouwbaarheid/eerlijkheid en wat is de beste test die je kan doen? Het is ook de vraag wie de test mag afnemen en interpreteren. Daarnaast moet je letten op eventuele consequenties van het wel/niet testen (ethische consequenties). Op het gebied van ethiek zijn er verder allerlei standaarden waar je je aan moet houden. Ook de cliënt moet zich voorbereiden (indien nodig) en stoorfactoren die accuraat resultaat in de weg staan moet rekening mee worden gehouden.

College 2: Statistiek van assessment

Measurement bestaat uit de regels die worden gebruikt om nummers toe te kennen aan het gedrag van een individu. Er zijn verschillende schalen van measurement: nominaal, ordinaal, interval en ratio. Elke schaal heeft zijn eigen eigenschappen, type informatie dat wordt overgebracht en hiërarchie (sommige metingen zijn verfijnder en geven meer informatie).

Nominaal: een nominale schaal wordt gebruikt om ergens een naam aan te geven en om gegevens te ordenen in categorieën of klassen. Dit is bijvoorbeeld het geval als je een lijst met voetbalclubs hebt en deze een nummer geeft dat staat voor de regio waar ze vandaan komen. In dit geval zeggen de nummers niets over hoe goed de clubs zijn: nummer 1 is niet beter dan nummer 2. Er kunnen geen rekensommen mee gemaakt worden. Andere voorbeelden zijn studierichting en geboorteplaats.

Ordinaal: met een ordinale schaal kan er worden gezegd welke club op dat moment het beste is. Het is een rangorde, maar zegt niet hoeveel verschil er is tussen de verschillende groepen. Je kunt dus ook niet rekenen met deze schaal (want 2 is niet 2 keer zo goed als 4). Een ander voorbeeld is het op schaal weergeven van voorkeuren of prestaties, zoals 1 = goed, 2 = minder goed, 3 = matig, 4 = slecht. Er is een rangordening van goed tot slecht, maar de precieze mate van verschil tussen de rangen is onduidelijk.

Interval: er is een rangordening waarbij er gelijke verschillen zijn tussen de eenheden. Hier kun je mee rekenen, want het verschil tussen bijvoorbeeld 70 en 71 is net zo groot als het verschil tussen 37 en 38. Er is echter geen nulpunt, wat betekent dat je geen conclusies uit de getallen kunt trekken (bijv. een IQ van 100 is niet twee keer zo groot als een IQ van 50).

Ratio: deze schaal heeft dezelfde eigenschappen als de intervalschaal. Het verschil is dat de ratioschaal een absoluut nulpunt heeft, waardoor je ermee kunt rekenen én er conclusies uit kunt trekken (bijv. club 1 is twee keer zo goed als club 2). Er zijn weinig gevallen waarin je ratioschalen gebruikt in de pedagogiek, ze worden vooral gebruikt voor lengte, gewicht en percentage correcte antwoorden op een test.

Beschrijving van testscores

Distributie/verdeling

De verdeling kan worden weergeven met behulp van tabellen of grafieken. Als de verdeling symmetrisch is, dan is er sprake van een normale verdeling. De mediaan, het gemiddelde en de modus zijn precies in het midden te vinden. Als dit niet het geval is, dan is de verdeling vaak scheef. Er kan sprake zijn van een negative skew (weinig scores aan de lage kant, de staart van de verdeling zit links) of een positive skew (weinig scores aan de hoge kant, de staart van de verdeling zich rechts). Als je kijkt naar de leeftijd van pedagogiekstudenten dan is er een sprake van positive skew (veel jonge mensen), maar als je kijkt naar de gemiddelde leeftijd bij het biljarten dan zal er sprake zijn van een negative skew (veel ouderen).

Item formats

Er zijn selected response items, waarbij je alleen hoeft te selecteren wat goed is. Dit is bijvoorbeeld het geval bij multiple choice of waar/niet waar antwoorden. De constructed-response items gaan over open en korte antwoorden, maar ook essayvragen. De selected-response is moeilijk te maken en er is een gokkans aanwezig. Bij constructed-response is het moeilijk om bij het nakijken steeds dezelfde score aan te geven en de vraag zo te stellen dat er goed duidelijk is wat er gevraagd wordt. Het hangt er dus vanaf wat je wil meten.

Centrummaten

Er zijn verschillende manieren om het centrum te bepalen. Ten eerste kun je het gemiddelde berekenen door alle scores bij elkaar op te tellen en dit te delen door het aantal scores. Het gemiddelde is heel gevoelig voor extreme scores en kan alleen worden toegepast bij ratio en interval data.
Ten tweede is er de mediaan, deze deelt de verdeling door de helft. De helft van alle scores valt dus onder de mediaan en de heft valt erboven. Het voordeel is dat deze niet gevoelig is voor extreme waarden. De mediaan kan gebruikt worden bij ratio, interval en ordinale data. Ten derde is er de modus en dit is de meest voorkomende score. Er kunnen meerdere modi zijn en de modus kan bij alle meetschalen (ratio, interval, ordinaal en nominaal) worden bepaald.

De positie van het gemiddelde, de mediaan en de modus hangt af van de vorm van de verdeling. Bij een normale verdeling liggen ze alle drie precies in het midden. Als de verdeling scheef is, liggen ze niet op dezelfde plek. Het gemiddelde verandert sterker door extreme waarden, dus ligt altijd aan de kant van de staart. De modus ligt op het hoogste punt en de mediaan ligt tussen de modus en het gemiddelde in (deelt de verdeling in tweeën).

Metingen van variabiliteit

Het bereik (range) is de afstand tussen de laagste en de hoogste score in de verdeling. De standaarddeviatie is de gemiddelde afstand waarin scores afwijken van het gemiddelde. Deze bereken je door de wortel te trekken uit de variantie. De variantie is het gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde. Hoe groter de standaarddeviatie, hoe groter de variantie. Als deze beiden groot zijn, moet er waarschijnlijk opnieuw naar de data worden gekeken. Er kan namelijk sprake zijn van een uitbijter.

Correlaties

Hiermee kun je de relatie tussen twee variabelen bepalen. De correlatie kan variëren tussen de -1 en de 1. Als de correlatie coëfficiënt vlakbij één van deze getallen liggen, dan is de correlatie groot en is er een sterke samenhang tussen de variabelen. De plus of min geeft de richting van het verband aan. Een positieve correlatie houdt in dat ze samen dezelfde richting op gaan (hoe groter A, hoe groter B) en een negatieve correlatie houdt in dat ze allebei een andere richting opgaan (hoe groter A, hoe kleiner B). Als de correlatie 0 is, dan is er geen relatie tussen twee getallen en zegt de score op A niks over de score op B. Een correlatie van 1 of -1 is de perfecte correlatie: als je A dan weet, dan weet je B ook. Als je de correlatie coëfficiënt weet dan moet deze worden geïnterpreteerd. Of er een groot of klein effect is, hangt af van de onderzoeksvraag.

De correlatie kan op verschillende manieren worden weergegeven. Een scatterplot is een grafiek die de relatie tussen twee variabelen weergeeft. Lineaire regressie is een rekenkundige procedure waarbij je de waarde van de ene variabele kunt voorspellen uit een andere variabele.

Correlatie is niet hetzelfde als causaliteit: een correlatie zegt namelijk niets over oorzaak of gevolg. Bij het vaststellen van causaliteit kunnen fouten worden gemaakt. Er kan namelijk altijd een derde factor zijn die de relatie kan verklaren. Ook bij correlatie hangt de analyse af van het meetniveau. In een homogene groep zal je minder variantie vinden, dus je hebt kans op lagere correlaties. Als er bijvoorbeeld alleen een groep gymnasiumleerlingen wordt ondervraagd, dan zal je correlatie minder sterk zijn, omdat iedereen rond hetzelfde punt hangt.

Regressie

Bij regressie probeer je één variabele te voorspellen met behulp van een andere variabele. Als iemand een bepaalde score op een test haalt, voorspelt dat dan wat de score op een andere test wordt? Let wel op, want je hebt altijd te maken met meetfouten. Een correlatie van 1 zul je bijna nooit vinden. Er moet rekening worden gehouden met de standaard error. Als je meerdere, minder precieze metingen hebt gedaan, dan zal de standaard error groter zijn.

Verklaarde variantie en het betrouwbaarheidsinterval

De verklaarde variantie gaat over de overlap tussen de variabelen. Het 95% betrouwbaarheidsinterval stelt dat de ware, best passende regressielijn voor de populatie zich binnen het betrouwbaarheidsinterval bevindt. De SE is eigenlijk de 2,5 procent aan de buitenkant.

Basisprincipes van assessment

Sensitiviteit vs. specificiteit

Sensitiviteit met een toets kan je de meeste mensen vangen die je wilt vangen. Specifiek is als je met een test alleen de mensen vangt die je wilt vangen. Het voorbeeld van volleybalspelers was sensitief, want je vangt op basis van lengte de meeste mensen als ze langer zijn dan 1,80 meter. Maar het voorbeeld was niet specifiek, want je vangt bij mensen langer dan 1,80 meter, ook mensen die niet volleyballen.

Continuüm vs. unieke kwaliteit

Wanneer er een diagnose wordt gesteld, is er vaak sprake van het ‘wel’ of ‘niet’ hebben van een probleem of stoornis (unieke kwaliteit). Je hebt bijvoorbeeld wel ADHD of geen ADHD. Hulpverleners moeten vaak een keuze maken, maar eigenlijk bestaat er een heel continuüm van ADHD. Het ene kind heeft bijvoorbeeld meer aandachtsproblemen dan het andere kind. Bij het opstellen van een diagnose moet er ergens een grens worden gesteld.

Heterogeniteit

Binnen een groep is er altijd verschil. Als er bijvoorbeeld in een groep wordt gezegd dat degenen met blond haar mogen opstaan, dan staan er een aantal mensen op met lichtblond haar en een aantal met donkerblond haar. Niet iedereen in de groep heeft dus exact hetzelfde kenmerk. Ook verschilt het per cultuur wat blond is en wat niet. Wat wij in Nederland zien als donkerblond wordt bijvoorbeeld in Amerika gezien als lichtbruin. Hetzelfde geldt voor ADHD. Sommige kinderen met ADHD hebben gedragsproblemen, anderen hebben leerproblemen en weer anderen voelen zich depressief. Deze kenmerken gelden echter niet voor alle kinderen met ADHD: de kenmerken binnen de groep verschillen per kind.

Implicaties voor de behandeling

Er is nu een diagnose gesteld, maar wat kun je daarmee? Stel dat je weet dat iemand ADHD heeft, dan weet je wat de oorzaak is van de problemen (oorzaak), maar wat je eraan kunt doen (de behandeling) en hoe de toekomst eruit ziet (de prognose) verschilt per persoon. Daarnaast is er nog een vraag: doet de naam meer kwaad of helpt het iemand juist verder? In sommige gevallen hebben kinderen er veel aan dat er een diagnose is gesteld (bijvoorbeeld bij dyslexie: weten dat het niet komt omdat je niet je best doet of omdat je dom bent), maar in sommige andere gevallen heeft het label nadelen. Er zijn twee referentiekaders die je kan gebruiken bij het bepalen van een diagnose:

Norm-reference: relatief ten opzichte van andere\
Criterion-referenced interpretatie: is absoluut (je haalt de test, of je haalt het niet)

Het doel van lineaire transformatie is om scores te kunnen vergelijken, ofwel naar dezelfde ‘schaal’ te brengen. De z score is hier een voorbeeld van. Het heeft negatieve scores, dus dat is moeilijk te interpreteren. T-scores zijn daarentegen altijd positief.

Stanines zijn niet een precieze maat om iets in kaart te brengen. De afstanden tussen 2 3 4 zijn niet gelijk. 5 is ongeveer gemiddeld. Men wil namelijk niet zeggen of een kind afwijkend is, maar er wordt alleen een indicatie gegeven. Daarnaast zijn er grade/age equivalent scores. Hierbij wordt de gemiddelde ruwe score toegewezen aan het niveau van de klas. Grade/age equivalent scores zijn makkelijk te interpreteren, maar zouden weinig gebruikt moeten worden. Ze zijn namelijk niet vergelijkbaar tussen (sub)tests, ze zijn op ordinale schaal (je kunt dus geen getallen manipuleren) en de assumptie is dat alle kinderen het klassenniveau moeten bereiken. Dit kan echter niet, omdat het klassenniveau een gemiddelde is van de leerlingen. Er zullen dus altijd leerlingen zijn die lager scoren.

Een tweede soort normatieve scores zijn percentiel rangordes. Hierbij wordt gekeken naar het percentage individuen dat onder een bepaald punt van de verdeling scoort. De range loopt van 1 tot 99 en de mediaanprestatie ligt op het 50e percentiel. Tot slot kan er gebruik gemaakt worden van standaardscores. Ruwe scores worden dan getransformeerd naar een gewenste schaal met een bekend gemiddelde en bekende standaarddeviatie. Bij lineaire transformaties behoudt de verdeling zijn originele vorm. Dit is het geval bij z-scores (waarbij wordt bepaald hoeveel standaarddeviaties de score van het gemiddelde afligt) en t-scores (waarbij gebruik wordt gemaakt van een verdeling met een gemiddelde van 50 en een standaarddeviatie van 10). Bij genormaliseerde standaardscores (non-lineaire transformaties) is de steekproef niet normaal verdeeld. Er wordt dan gebruik gemaakt van een transformatie om een normale verdeling te krijgen. Hierdoor verandert de originele vorm van de verdeling. Voorbeelden van genormaliseerde standaardscores zijn stanine-scores (met een gemiddelde van 5 en standaarddeviatie van 2) en normale curve equivalenten (ook wel NCE’s, met een gemiddelde van 50 en standaarddeviatie van 21,06).

Bij een criteriumgerichte interpretatie worden scores vergeleken met een specifiek prestatieniveau. Interpretaties zijn niet relatief, maar absoluut en de scores benadrukken wat een persoon weet of kan. Er zijn twee typen: mastery testing en standaard gebaseerde interpretaties. Bij mastery testing wordt aan de hand van een test bepaald of iemand iets wel of niet beheerst. Er wordt dus een ja/nee-beslissing gemaakt. Bij standaard gebaseerde interpretaties zijn er prestatiecategorieën (bijvoorbeeld goed, ruim voldoende, voldoende en onvoldoende). Belangrijk is dat criteriumgerichte interpretaties toch een normatief aspect bevatten. De inhoud van testen en betekenis van testscores worden namelijk vastgelegd op een normatieve of culturele basis.

COTAN uitleg

COTAN staat voor COmmissie TestAangelegenheden Nederland en is onderdeel van het Nederlands Instituut van Psychologen (NIP). De COTAN beschrijft en beoordeelt testen, vragenlijsten, observatieschalen en psychodiagnostische instrumenten op grond van zeven criteria: uitgangspunten van de testconstructie, kwaliteit van het testmateriaal, kwaliteit van de handleiding, normen, betrouwbaarheid, begripsvaliditeit en criteriumvaliditeit.

In het werk van een pedagoog zijn onder andere dyslexieonderzoeken en intelligentietesten belangrijk. Het doel van de COTAN is dan ook om informatie te geven aan testgebruikers over de kwaliteit van meetinstrumenten, zodat mensen een goede keuze kunnen maken bij het testen van een kind. Daarnaast geeft de COTAN ook feedback op een test en dit kan voor testauteurs belangrijk zijn. Zij kunnen dan controleren of de test klopt en hem eventueel aanpassen en/of verbeteren.

De zeven criteria

Uitgangspunten van de testconstructie: hierin wordt de theoretische achtergrond van een test besproken. De meetpretentie (is het doel van de test duidelijk beschreven?), de doelgroep en de functie van de test (is het intelligentie meten of behandelingsadvies geven?) zijn de belangrijkste aspecten die aan bod komen.
Kwaliteit van het testmateriaal: hierbij gaat het erom of de testopgaven, de scoringsprocedures en de instructies zijn gestandaardiseerd (iedereen doet het op dezelfde manier) en of de testopgaven goed te begrijpen zijn.
Kwaliteit van de handleiding: een test afnemen is lastig, omdat er strikte regels aan verbonden zitten. Het is dan ook belangrijk dat de juiste informatie aangeboden wordt aan de testgebruiker voor de afname en interpretatie van de test.
Normen: het is belangrijk om een goede normgroep uit te kiezen om de test mee te testen. Een normgroep is een steekproef die de ‘norm’ aan moet geven en daarom moet deze overeenkomen met de werkelijkheid. Daarbij is het belangrijk om te bedenken of er sprake is van een normgerichte interpretatie (in vergelijking met de normatieve groep) of criteriumgerichte/domeingerichte interpretatie (vergeleken met de criteria van een deskundige die vindt dat een kind iets op een bepaald moment moet kunnen, bijvoorbeeld kunnen lopen als het twee jaar oud is).
Betrouwbaarheid: dit gaat over de vraag in hoeverre de uitslag van een test geloofwaardig is en klopt met de werkelijkheid. Daarnaast moet er ook gekeken worden in hoeverre de uitkomst van de test hetzelfde zal zijn bij het herhalen ervan.
Begripsvaliditeit: hierbij gaat het erom of de test het vooraf gestelde doel heeft gehaald en of er correcte conclusies getrokken kunnen worden uit de testscores.
Criteriumvaliditeit: kan de test een voorspelling geven over het gedrag van de testpersoon (de predictieve validiteit)?

Beoordelingsprocedure

Om te bepalen of de test wel of niet geschikt is, worden eerst de test zelf en ander relevant materiaal door de testauteur naar de COTAN gestuurd. Dit materiaal wordt dan bekeken door twee beoordelaars en als deze erg van mening verschillen wordt er nog een derde persoon bij gehaald die de test nogmaals beoordeelt. Vervolgens gaat de test met de feedback weer terug naar de testauteur en die krijgt de kans om te reageren op de feedback. Als de testauteur met de feedback akkoord gaat, wordt de beoordeling gepubliceerd in de COTAN documentatie. Als er nieuwe normen en waarden ontstaan in de samenleving of er nieuwe onderzoeksgegevens beschikbaar komen, dan zal de test opnieuw worden beoordeeld.

College 3: Betrouwbaarheid

Wat is betrouwbaarheid?

Betrouwbaarheid is een kenmerk van de score zelf en niet van de toets. Vooral de nauwkeurigheid van de meetprocedure is een belangrijk aspect. Hierbij is de vraag of de scores consistent en reproduceerbaar zijn (als we nog een keer dezelfde toets doen, krijgen we dan dezelfde scores?). Betrouwbaarheid is een vereiste voor validiteit.
Een testscore bestaat uit de werkelijke score van de persoon en de meetfout. De meetfout is het verschil tussen de geobserveerde waarde en de ware score. De formule die hierbij hoort is de geobserveerde score = ware score + meetfout (of X = T + e).

Classical test theory

De classical test theory is bedoeld om een schatting te maken van de betrouwbaarheid van scores. Een meting bestaat uit de werkelijke score en een meetfout. De formule is dan X(i) = T + E. X(i) staat voor de meting van proefpersoon i. De meting bestaat uit de werkelijke score (T) en de meetfout (E). Elk individu heeft één werkelijke score, maar hij kan verschillende geobserveerde scores hebben. Dit komt omdat in de geobserveerde scores een error component zit. Meetfouten hebben een cumulatief effect, dus de ene keer veroorzaken ze een hogere score, de andere keer een lagere. Als je het gemiddelde berekent kom je dus het dichtste bij de werkelijke score. CTT gaat over willekeurige meetfouten. Alles wat gestandaardiseerd leidt tot een meetfout is hier dus geen onderdeel van.

Oorzaken van meetfouten

De oorzaken van meetfouten kunnen meerdere oorzaken hebben:

De precisie van de meetinstrumenten die je gebruikt
Parallelle test kunnen andere resultaten opleveren
Interpretatie van de betrouwbaarheidsintervallen is niet mogelijk

Waar komen meetfouten vandaan?

Ten eerste kunnen factoren van de persoon zelf meetellen, zoals vermoeidheid, angst of leereffecten. Ten tweede kunnen omgevingsfactoren meespelen. Hierbij maken we onderscheid tussen natuurlijke factoren, zoals regen, zon en temperatuur en gecontroleerde factoren, zoals licht, afleiding en temperatuur. Ook taakfactoren kunnen meespelen, zoals content sampling (selectie van items voor meetinstrument verschilt per taak) en testprocedures (tijd, papier en instructies). Tot slot speelt ook de omvang van de sample een rol. Een kleine sample zorgt niet voor een stabiele en betrouwbare representatie. Dus hoe meer items je hebt, hoe betrouwbaarder de test wordt.

Validiteit

Validiteit: meet de test wat het moet meten. Het hangt af van de mate waarin interpretaties van testscores gebruikt kunnen worden om een beslissing te maken. Er moet dan rekening gehouden worden met wat de bedoeling is van de testscores en wat we ermee willen gaan doen. Om te bepalen of een test valide is, moeten we ons dus eerst afvragen wat we precies willen meten (ofwel: gebruiken we het juiste construct om het te meten?)

Manieren om betrouwbaarheid uit te drukken

Betrouwbaarheid is de mate waarin twee metingen met elkaar overeenkomen. De personen staan in dezelfde positie ten opzichte van elkaar, maar doordat elk persoon anders is ontstaat variantie. Bij betrouwbaarheid kijken we naar de hoeveelheid variantie in de geobserveerde scores die veroorzaakt wordt door (ware) verschillen tussen individuen. Als er over betrouwbaarheid wordt gesproken, dan wordt er meestal gepraat over de Standard Error of Measurement (SEM, standaardmeetfout) of de betrouwbaarheidscoëfficiënt. De standaardmeetfout wordt vooral gebruikt bij individuen.

Statistisch gezien is de SEM de standaarddeviatie van de variaties in de metingen. Dit is dus de spreiding van de geobserveerde scores rondom de ‘ware’ score. De SEM is op individueel niveau en de meetfout is op steekproef niveau. Conceptueel gezien is de SEM de variatie of inconsistentie in scores die je verwacht wanneer je heel veel (bijvoorbeeld 300) herhaalde metingen zou doen. In de praktijk is het echter niet mogelijk om zoveel herhaalde metingen uit te voeren. Wanneer je dus een toets af hebt genomen met bijvoorbeeld score 10, hoe weet je dan hoe betrouwbaar de scores zijn? Dit moet je kunnen schatten zonder de toets heel vaak uit te moeten voeren. Geobserveerde metingen zullen rondom de ‘ware meting’ liggen. Het is alleen nooit bekend wat de ‘ware score’ is en dus nemen we het gemiddelde en hopen we dat dit in de buurt van de ‘ware score’ ligt. We gebruiken de betrouwbaarheid van het meten om de SEM te schatten en dus om de ‘ware score’ de bepalen. Als de SEM kleiner is, dan is de betrouwbaarheid hoger en is er een grotere consistentie in scores. Er is dan namelijk een hogere correlatie als je de toets twee keer afneemt bij een groep proefpersonen. Als er minder fouten in de geobserveerde score zitten, is de kans groter dat de rangorde van de groep proefpersonen gelijk blijft. En als de rangorde gelijk blijft, dan is de correlatie tussen factor A en B gelijk. Een meer gelijke rangordening betekent dus een hogere correlatie tussen versie 1 en 2 van een test en dit betekent een hogere betrouwbaarheid van scores. De formule om de SEM te berekenen is als volgt: (SEM) SDe = SDX * √(1 – rtt). In deze formule is SDX de standaarddeviatie van de geobserveerde score X (pooled standard deviation) en rtt is de correlatie tussen twee metingen.

Manieren om betrouwbaarheid te beoordelen

Er zijn over het algemeen drie manieren om een test te beoordelen.Ten eerste de test-hertest methode. Bij een groep personen wordt twee keer dezelfde test afgenomen en tussen deze twee testen bereken je de correlatiecoëfficiënt. Dit is dan je betrouwbaarheid. Door testen gelijktijdig, dus snel na elkaar te geven, heb je geen last van effecten van tijd, zoals rijping. Dit heb je wel bij uitgestelde testen, waarbij er een paar dagen of paar weken tijd tussen de metingen zitten. De test-hertest methode is niet geschikt voor alle taken. Er kan namelijk sprake zijn van carry-over effecten of familiariteit. Omdat een proefpersoon twee keer precies dezelfde test maakt, herkent hij/zij waarschijnlijk de tweede keer items uit de test. Dit kan invloed hebben op de behaalde score.Ten tweede heb je de parallell-test methode. Een groep personen maakt twee verschillende versies van een test die gelijksoortig zijn qua inhoud, moeilijkheid en tijd. Hierdoor worden oefen- en geheugeneffecten gereduceerd. Als de afname gelijktijdig wordt afgenomen (dus beide versies op hetzelfde moment) dan zijn er geen effecten van groei die er wel zijn als er een langere periode tussen de testen zit. De parallel-test is de meest belangrijke methode om de betrouwbaarheid van scores te evalueren, maar als test wordt het meestal niet gebruikt, omdat het maken van een parallel-test lastig is. Vaak zijn er onvoldoende middelen en is er onvoldoende tijd. Ten derde is er de interne consistentie. Dit is de nauwkeurigheid van een meetinstrument op een bepaald tijdstip. Dus eigenlijk binnen de test, hoe betrouwbaar en stabiel de test is. Dit kan door de test in twee gelijke delen te verdelen (split-half). Dit kan bijvoorbeeld door onderscheid te maken tussen even/oneven of eerste helft/tweede helft. Je berekent dan de correlatie tussen de scores op beide delen. De Spearman-Brown formule probeert de betrouwbaarheid van de hele test te schatten: geschatte betrouwbaarheid van de gehele test = 2 (correlatie tussen de twee helften) / (1 + correlatie tussen de twee helften). Dit soort betrouwbaarheid is het minst informatief, maar wordt het meest gebruikt. Je weet bij deze test niet of de scores overeenkomen als je de test vandaag of morgen maakt, je weet alleen of de items intern consistent zijn. De split-half betrouwbaarheid veronderstelt alleen homogeniteit tussen de twee delen, niet tussen items.

Een andere methode om de interne consistentie te meten is met de item-analyse. Hierbij meet je de consistentie van antwoorden voor individuele items van een toets en hiermee probeer je de betrouwbaarheid te schatten. Dit doe je door te berekenen of de rangorde van item tot item hetzelfde zou zijn. Het is het gemiddelde van alle mogelijke split-half coëfficiënten. Om dit te berekenen gebruik je de Kuder-Richardson formule 20 (test items zijn goed of fout) of de coëfficiënt alpha (ook wel Chronbach’s alpha, scores hebben meerdere waarden, zoals meerkeuze vragen). Item-analyse veronderstelt homogeniteit tussen alle items.
Er zijn echter ook beperkingen aan het meten van de interne consistentie. Ten eerste worden de metingen op een bepaald moment uitgevoerd en is de uitkomst van de test dan ook een momentopname. Ten tweede zijn items binnen een test misschien wel meer aan elkaar gelijk dan items tussen parallelversies van testen, maar dit betekent niet dat de scores dan betrouwbaarder zijn. Ten derde is de aanname dat twee items hetzelfde kenmerk meten niet per se waar. Tot slot kan de test niet worden gebruikt als mensen een bepaalde tijd krijgen om te antwoorden. Niet iedereen kan dan evenveel vragen beantwoorden.
Hoe betrouwbaar een test moet zijn, hangt heel erg van de beslissingen af die moeten worden genomen op basis van de test. Als je bijvoorbeeld moet beslissen of een kind medicijnen moet gaan slikken, dan moet de test heel betrouwbaar zijn, maar als het gaat om de tijd dat een kind elke dag moet lezen, is het minder belangrijk of een test betrouwbaar is.

Interpretatie van betrouwbaarheidsdata

Elke keer dat je een test afneemt is er de ware score en een meetfout. Zoals eerder genoemd is de standaardmeetfout (SEM) het aantal keer dat de geobserveerde score verschilt van de ware score. Dit wordt uitgedrukt in standaarddeviaties. In een normale verdeling is te zien hoeveel procent van de gevallen tussen twee scores zal liggen en hieruit kan je ook concluderen hoeveel een score van een persoon zal veranderen met een hertest. Een voorbeeld: de geobserveerde score is 100 en de standaardmeetfout is 4.7. In de normaalverdeling zien we dan dat de ware score 34,1% + 34,1% = 68,2% van de keren dat je de hertest afneemt tussen de 95.3 en 104.7 zal liggen (100 ± 4.7). Er is dan een afwijking van één standaardmeetfout (hoger of lager dan de geobserveerde score) en dit komt overeen met de genoemde percentages (zie hiervoor de afbeelding van de normaalverdeling in de sheets op Blackboard). Let op: bij een normaalverdeling van standaarddeviaties gaat het om het percentage mensen met een bepaalde score. Bij de standaardmeetfout gaat het om de verdeling van scores van een individu. Het interpreteren van betrouwbaarheidsdata kan ook op een makkelijkere manier, namelijk met de betrouwbaarheidscoëfficiënt. Deze is nuttiger voor het maken van een vergelijking tussen twee testen. De coëfficiënt wordt uitgedrukt in r (correlaties). Het is de variantie van de werkelijke scores gedeeld door de variantie van de geobserveerde scores. De coëfficiënt is de proportie variantie in de testscores, als gevolg van variantie in de werkelijke scores. Als je twee testen hebt die praktisch gelijk zijn en op validiteit hetzelfde scoren, dan moet je altijd gaan voor de test die het meest betrouwbaar is. Als je test namelijk niet betrouwbaar is, kun je minder goed conclusies trekken over een individu of een groep.

Interbeoordelaars betrouwbaarheid

Beoordelingen kunnen subjectief zijn. Daarom is de betrouwbaarheid van de beoordelaars van belang. Interpretatie van een test kan lastig zijn. Bij deze betrouwbaarheid bepaal je de kans dat twee codeurs tot dezelfde conclusie komen. Dit kan door het percentage absolute overeenkomst te bepalen of om een correlatie te bepalen. De rangordes moeten dan hetzelfde zijn, ondanks dat de absolute waarden verschillen. Er zijn verschillende methoden om de betrouwbaarheid te berekenen. De kappa pas je toe als de data categorisch is. Dan moet je namelijk corrigeren voor kans. Dit omdat de keus kleiner is en er uit een aantal categorieën gekozen moet worden. De weighted kappa pas je toe op ordinale data. Het is daarnaast heel belangrijk dat de codeurs onafhankelijk zijn!

Normtesten

Een test waarbij de uitslag bepaalt of iemand voldoet aan een criterium waardoor ze bijv. naar een bepaald vervolgonderwijs mogen. Bij een normtest is er sprake van een beperkte variabiliteit. Je hebt bijv. maar twee categorieën waarbij iemand aan de norm voldoet. Daarom heb je andere methoden om de betrouwbaarheid vast te stellen. Het is te vergelijken met de intercodeursbetrouwbaarheid. Je kan:

Het percentage overeenkomst berekenen: de totale overeenkomst is 84%, door mastery mastery en non-mastery non-mastery op te tellen. De scores waren hier namelijk hetzelfde.
Kappa

Interpreteren

De vuistregel is dat r groter moet zijn dan 0,80. Soms zijn er andere normen omdat het niet anders kan. De interpretatie is ook afhankelijk van het construct: moeilijker te meten constructen resulteren in lagere betrouwbaarheid. Het is ook afhankelijk van de beschikbare tijd. Verder moet je rekening houden met het doel van de testen. Wil je wel dat de betrouwbaarheid hoog is? Het hangt ook af van de methode om de betrouwbaarheid te meten. Split-half leidt altijd tot een hogere betrouwbaarheid.

Factoren van invloed op betrouwbaarheid

Bereik van scores: een klein bereik leidt tot minder variantie. Een beperkt bereik leidt vervolgens tot lagere betrouwbaarheid.
Betrouwbaarheid is een functie van het niveau van de score: de precisie van een score is niet overal hetzelfde in de verdeling. De minst betrouwbare scores in de normaalverdeling zitten bij de uitersten. Hier zijn de laagste frequenties.
Lengte van een test: meer items zorgen voor een hogere betrouwbaarheid
Verschilscores: zijn minder betrouwbaar dan individuele scores. Betrouwbaarheid is hoger als individuele scores een hoge betrouwbaarheid hebben en zwak gecorreleerd zijn.
Samengestelde scores: hebben vaak een hogere betrouwbaarheid. De betrouwbaarheid is het resultaat van een aantal scores in de overall score.

College 4: Validiteit

De definitie van validiteit is: meet de test wat het moet meten? Het heeft te maken met de mate waarin interpretaties van testscores gebruikt kunnen worden om een beslissing te maken. Er moet dan rekening gehouden worden met wat de bedoeling is van de testscores en wat we ermee willen gaan doen. Om te bepalen of een de score van een toets valide is, moeten we ons dus eerst afvragen wat we precies willen meten.

Soorten validiteit

Vroeger onderscheidde men drie vormen van validiteit: content, criterion-related en construct. Tegenwoordig spreken we van één algemene validiteit (‘validity as a unitary concept’) en vijf verschillende vormen van bewijs: content-related (In hoeverre is de toets goed), criterion-related (een construct meten waarbij vraag 1 en 2 een hoge correlatie hebben voor het construct te meten.), internal structure (Hoe de structuur van de test is opgebouwd, moet gebaseerd zijn op theorie), response processes (doen de participanten de test op de juiste manier) en consequential (wat is de consequentie van de test voor de persoon). De verschillende soorten bewijs zijn de bronnen die worden gebruikt om beslissingen te maken over validiteit. Op dia 30 is een nomological net (nomologisch web) te zien. Als je validiteit vast wilt stellen, dan is het verstandig om zo’n web van bewijs te maken. De verschillende soorten validiteitsbewijs zullen nu één voor één worden besproken.

Content-related bewijs: in hoeverre komt de inhoud van de test overeen met wat we willen meten?

Om de inhoud van een test vast te stellen, kun je verschillende stappen volgen:

Identificeer en definieer wat je wil meten
Ontwikkel een table of specifications
Schrijf de items van de test
Herzie de inhoud systematisch en kijk naar de relevantie van items en dekking van de inhoud

De table of specifications geeft weer wat er wordt gemeten en hoe dit gemeten gaat worden. Het gaat hierbij om de inhoud van de test en om cognitieve processen. De cognitieve processen bestaan uit herkenning, identificatie van feiten, identificatie van principes, evaluatie en toepassing/generalisatie naar nieuwe situaties. Face validity (indruksvaliditeit) is de eerste indruk die mensen hebben van een test. Als de test op het eerste gezicht lijkt te meten wat je iemand wil meten, dan zal iemand sneller kiezen voor die test. Face validiteit is geen echte validiteit.

Bedreigingen voor de validiteit bij content-related bewijs

Construct underrepresentation: de test is te nauw. Er zijn bijvoorbeeld te weinig items op een test voor rekenen om de rekenvaardigheid goed te kunnen meten.
Construct-irrelevant test variance: de toets test iets anders dan je wilde testen. Er is bijvoorbeeld een toets voor wiskunde die een goede leesvaardigheid vereist.

Criterion-related bewijs: komen de scores overeen met een andere test?

Er zijn drie vormen van criterion-related evidence

Concurrent validiteit: twee verschillende meetinstrumenten worden dan op hetzelfde moment aangeboden en de correlatie tussen de scores op de twee testen wordt gemeten.
Predictieve validiteit: hierbij wordt het instrument met de criterion measure in de toekomst aangeboden. Ook hierbij wordt de correlatie berekend tussen de scores van de twee testen. Het gaat erom of een test bijvoorbeeld kan bepalen wat het niveau van een kind zal worden. Je kunt een kind aan het begin van het jaar een test geven en aan het eind van het jaar een test geven en dan de scores vergelijken. Er moet dan een hoge correlatie zijn tussen de twee testen.
Groepsverschil: dit houdt in dat je verschil verwacht tussen groepen, bijvoorbeeld dat een oudere leerling beter zal scoren dan een jongere leerling.

De correlatie tussen scores kan op meerdere manieren bekeken worden:

Convergent bewijs: dit betekent dat twee toetsen hetzelfde construct meten en een hoge correlatie laten zien
Discriminant bewijs: toetsen meten dan een ander construct en laten een lage correlatie zien, bijvoorbeeld een leestoets en een rekentoets.
Multi-trait, multi-method benadering: er moeten meerdere aspecten gemeten worden. Deze worden op verschillende manieren gemeten. Een voorbeeld: de methoden zijn een wedstrijd, een vaardighedentest en een rating op de gebieden van voetbal, schaken en piano. We verwachten dat er geen correlatie is tussen bijvoorbeeld de vaardighedentest van voetbal en schaken. Er moet gekeken worden naar de betrouwbaarheid en de validiteit; voetbal meten met een vaardighedentest en dit vergelijken met de competitie. Hiertussen zal een hoge correlatie zijn, want we meten twee keer voetbal. Maar er mag geen correlatie zijn tussen het meten van schaken en voetbal. Het meetinstrument voor schaken moet niet voetbal kunnen meten. De vaardighedentest van schaken mag niet hoog correleren met de competentietest voor voetbal.

De standaarderror (standard error of estimate) is de afwijking van de geobserveerde waarden ten opzichte van de verwachte waarden. Dit kun je in beeld brengen door de regressielijn te berekenen. In een voorbeeld van zo’n regressielijn is de horizontale as de leestoets (predictor) en de verticale as de CITO (criterium variabele). Als de correlatie 1 of -1 is, dan is er een perfect verband. Met de regressielijn kun je vanuit de leestoets een voorspelling maken voor de CITO. De standaarderror moet zo klein mogelijk zijn.

Bij groepsstudies onderzoek je scores van verschillende groepen, omdat je verwacht dat deze anders zijn. Je verwacht bijvoorbeeld dat kinderen met dyslexie slechter scoren op een leestoets dan kinderen zonder dyslexie.

Internal structure bewijs: structuur en theorie

Bij internal structure bewijs onderzoek je of de relaties tussen de verschillende items van een test consistent zijn. Daarnaast kijk je of de structuur van de toets goed te vergelijken is met de theorie over het onderwerp. Dit kan je doen door een factoranalyse uit te voeren. Hierbij kijk je naar bijvoorbeeld 10 items die allemaal de balvaardigheid meten en dan onderzoek je of deze items met elkaar samenhangen.

Screening is een speciale vorm van validiteit. Als je een toets geeft aan heel veel mensen, moet er beslist worden of er wel of niet een conditie is. Hebben de kinderen wel of niet Dyslexie?

Response processes bewijs

Dit is een analyse om te bepalen of de processen die personen gebruiken geschikt zijn voor een bepaald construct. Een voorbeeld is een taalkundige redeneertest: zijn leerlingen echt taalkundig aan het redeneren wanneer ze de test maken?

Sensitiviteit en specificiteit

Een sensitieve test weet precies de meeste mensen eruit te halen uit de doelgroep die je in kaart wil brengen. Een specifieke test omvat niemand die de conditie niet heeft. Als een toets een hoge positive predictive value heeft, dan houdt dat in dat veel mensen die de conditie hebben een positief resultaat hebben gekregen op de toets. De negative predictive value is hieraan tegenovergesteld: hoeveel mensen die de conditie niet hebben krijgen ook een negatief resultaat?

De false positives zijn de mensen die een positief resultaat op de test kregen, terwijl ze de conditie niet hebben. De true positives zijn de mensen die de conditie hebben en een positief resultaat kregen. De true negatives zijn de mensen die de conditie niet hebben en een negatief resultaat kregen. De false negatives zijn de mensen die de conditie wel hebben, maar een negatief resultaat kregen.

Er moet altijd worden gekeken naar de positive predictive value en de negative predictive value van de toets. Wat zijn de consequenties als je geen toets doet? Of wat zijn de consequenties als je niets vindt maar de test wel hebt afgenomen? Hoe duur is het om de test af te nemen?

“De oplossing”

Het is belangrijk om eerst met een screening te beginnen en een goede cut-off score te vinden. Een goede cut-off score is de plek waar sensitiviteit en specificiteit in balans zijn. Het is verstandig om een multiple gating procedure te gebruiken. Dit houdt in dat er meerdere keren getest wordt als er een positieve uitslag is. Na een aantal keer testen komt er dan een nog intensievere test. Een andere oplossing is te starten voor de diagnose vastgesteld is.

Consequential bewijs

Bij consequential bewijs wordt er gekeken naar de consequenties van de toets die je geeft. Dit zijn zowel bedoelde als onbedoelde consequenties. Is het gebruik van de test acceptabel als we kijken naar de consequenties ervan voor een individu en/of voor de maatschappij? Is het bijvoorbeeld wel een goed idee om dyslexietesten af te nemen wanneer er geen geld beschikbaar is voor hulp?

College 5: Observatie

Observeren kan op veel verschillende manieren. Bij gedragsobservaties maken we ook gebruik van aantallen, zoals hoe vaak iemand een ander aankijkt. Er wordt gekeken naar precedenten (wat kwam ervoor) en consequenten (wat gebeurt erna) van gedrag. In de pedagogiek kijken we verder naar houding, interesse, attitude, motivatie en gevoel. Ook dat kan je tellen en het zegt iets over hoe iemand in het leven staat. Bij gedrag is er nooit sprake van goed of fout. Er wordt eerder gekeken naar de redenen dat iemand iets doet en de motivaties erachter. We maken gebruik van manipulatie: als we iets manipuleren, kunnen we gedrag manipuleren en de reacties erop zien.

Multi-modaal

Wij focussen ons nooit op één informatiebron. Dit noemen we multi-modaal. Als we kijken naar gedrag vragen we de ouder, de leerkracht en het kind. Vaak wordt het kind vergeten op dit gebied. We kunnen door de vele informatiebronnen in meerdere settingen kijken (school, sportclub etc.).

De ouder als informatiebron

De ouders kunnen veel zeggen over de thuissituatie van het kind. Een ouder kan ook veel zeggen over structureren voor het kind. Moet bijvoorbeeld alles stap voor stap aan het kind worden uitgelegd? Een ouder kan ook subjectief zijn. Ze willen dat het kind het goed doet thuis en op school. Zo kan gedrag anders worden omschreven door de ouder. Als het kind thuis druk is, maar niet op school, dan moet er iets thuis gemanipuleerd worden.

De leerkracht

De leerkracht ziet het kind wel vijf uur per dag. De leerkracht ziet het kind in verschillende settingen, zoals individueel en bij groepsopdrachten. Deze informatie is belangrijk in het onderzoek. De leerkracht ziet ook het gedrag van het kind in combinatie met cognitieve vaardigheden. Hij weet dat er bepaalde leervaardigheden zijn. Vertoont het kind ook passend gedrag bij die leervaardigheden? We vergelijken gedrag in de klas vaak met gedrag thuis. Als een kind meerdere leerkrachten heeft, dan wordt er ook met meerdere leerkrachten gesproken. De relatie tussen leerkracht en leerling kan afhangen van het gedrag. Er wordt dan ook een vergelijking gemaakt tussen leraren: hangt het gedrag van het kind af van de ervaring van de leerkracht?

Het kind

Het cognitieve niveau van het kind is ook belangrijk, want dat heeft invloed op het gedrag. We kunnen ook informatie uit het kind zelf krijgen als het wat ouder is. We moeten wel altijd bedenken dat het een kind is en vanuit dat perspectief wordt verteld, dus dat moeten we ook meenemen in het onderzoek.

Sociale wenselijkheid

Vaak geven ouders sociaal wenselijke antwoorden en ook de leerkracht doet dit. Irritaties kunnen een rol spelen bij het invullen van een vragenlijst. Als er vaak uitersten worden ingevuld, dan is dat te zien op de fake bad index. Het geeft een indicatie over de betrouwbaarheid waarmee de vragenlijst wordt ingevuld. Veel uitersten op de vragenlijst leidt tot negatieve uitkomsten. Er kan sprake zijn van een plafondeffect of een bodemeffect. We willen graag veel spreiding op de vragenlijst met meer dan vijf opties, zodat de ouder minder op alle uitersten kan gaan zitten.

CBCL en TRF

We nemen altijd vragenlijsten af. Dat kunnen er verschillende zijn. De leerkracht wordt gevraagd de Teacher Report Form in te vullen. De ouders vullen de Child Behaviour Checklist in. Beiden zijn het vragenlijsten met antwoordschalen. Hierop kunnen ouders aangeven hoe het gedrag van het kind is. De ouders kunnen het vanaf 2,5 jaar invullen. De TRF is vanaf een jaar of 5 / 6. De vragenlijsten worden vervolgens vergeleken. De vragen passen in verschillende domeinen:

Affectie: bijvoorbeeld gehechtheid;
Angst: bijvoorbeeld faalangst;
Somatische klachten: heeft het kind vaak buikpijn, hoofdpijn?;
Aandacht: kort of lang?;
Oppositioneel: het kind gaat vaak in tegen wat de ouder zegt;
Antisociaal: gedrag die tegen algemene normen en waarden ingaat.

Eerst wordt er iets gevraagd over hobby’s en activiteiten van het kind. Is het kind sociaal, teruggetrokken, sportief? In TRF vragen ze vooral over vakken die het kind leuk vindt en hoe het samenwerkt met anderen. Is de score binnen de klinische range (verschil meer dan 1 standaarddeviatie van het gemiddelde) of de normale range?

Omnibus vs. één domein

Omnibus vragenlijsten stellen vragen op heel veel verschillende domeinen (zoals de CBCL en de TRF). Als een vragenlijst is afgenomen, dan wordt er gekeken waar het kind binnen de klinische range valt. Vervolgens wordt er een domeinspecifieke vragenlijst afgenomen. Deze gaat nog maar op dat ene gebied af. Er zijn verschillende methoden om het gedrag te meten, die hierna worden besproken.

Gedragsschalen

Er zijn meerdere antwoordopties beschikbaar. Soms zijn antwoordopties onduidelijk voor ouders omdat ze die anders interpreteren. Hier moet rekening mee worden gehouden. Een voordeel van deze schalen is dat het minder tijd en geld kost.

Gedragsinterview

We vragen met dit interview waarom iemand bepaald gedrag vertoont. We analyseren de factoren die daaraan bijdragen. Alle factoren worden doorgevraagd in dit interview. Een nadeel van deze interviews is dat je snel gaat meedenken met degene tegenover je en je observeert subjectief. Vaak worden eerst de vragen gesteld en dan codeert iemand anders. Met een interview worden er verschillende stappen gevolgd. Eerst moeten de problemen helder worden gekregen, waarna er wordt gekeken wat en hoe het probleem in stand wordt gehouden (de factoren). Als laatste willen we het gedrag veranderen/manipuleren. Dat plan voeren we vervolgens uit. Aan de hand van de interventie kijken we of het gedrag verbetert.

Gedragsobservaties

Dit wordt of in een natuurlijke setting, of in het lab gedaan. In het lab moet je er rekening mee houden dat het een onbekende situatie is. Sommigen worden meer teruggetrokken of meer baldadig. We doen gedragsobservaties door gedrag eerst te definiëren. Vervolgens wordt het gedrag geregistreerd en in een codeerschema gezet. We vergelijken met andere kinderen of het vaker/minder vaak gebeurt. Op basis van de analyse krijgen we uiteindelijk een resultaat. We kunnen bijvoorbeeld connecties leggen tussen het gedrag van de leraar en de leerling, door het observatieformulier in te vullen.

Zelfrapportage

Je laat hierbij, zoals de naam al zegt, het kind of de cliënt zelf een formulier of vragenlijst invullen.

Vergelijking interactie

Het is belangrijk de vragenlijsten met elkaar te vergelijken en de bronnen met elkaar te vergelijken. Je moet ook blijven lekken op sociaal wenselijke antwoorden. Een ouder wil nooit gezien worden als sociaal incompetent. De leerkrachten zullen vervelend gedrag overdrijven. Ouders zullen ook overdrijven op vragenlijsten, omdat ze graag ondersteuning/geld willen. Naast observaties is het ook belangrijk om cognitieve testen af te nemen.

De diagnostische cycli in de praktijk

Soms heb je wel een theoretische cyclus, maar die kan je niet altijd helemaal volgen. De diagnose/beslissing kan al duidelijk zijn, maar die kan zo niet specifiek zijn dat je er niet veel mee kunt. Vooral als behandeling geen effect blijkt te hebben.

College 6: Item-analyse

Toetsen in het onderwijs

Je wil een bepaald construct meten, zoals rekenvaardigheid. Je moet hierbij wel rekening houden met de individuele verschillen tussen het niveau van de vaardigheid. Dit is het uitgangspunt. Het liefst moet dat ook gekwanitificeerd worden. Dit doen we met een toets die bestaat uit een set items die sensitief zijn ten opzichte van het construct dat je wil meten. Als je rekenvaardigheid wil meten kan je Cito LVS gebruiken. Je neemt de toets af en je krijgt een dataset van responsen van de kinderen. Vervolgens wordt de toetsscore berekend en gebruikt. Dit is het aantal goed (som van de itemscores). De laagste mogelijke score is een 0 en de hoogste is een 10. Als laatste moet de toetsscore geïnterpreteerd worden.

Het psychologisch construct rekenvaardigheid kunnen we niet direct observeren. We gaan er wel vanuit dat je beantwoording afhangt van je niveau. Je kan dus beredeneren dat als deze link er is, dat als je genoeg observeert je rekenvaardigheid daaruit af te leiden is. Het gevaar zijn de meetfouten. Er zijn:

Toevalsmeetfouten: iemand was ziek
Systematische meetfouten: veel verhaaltjessommen, meet je dan ook lezen erbij?

Hoe meer toevallige meetfouten, hoe lager de betrouwbaarheid van je toets. Hoe meer systematische meetfouten, hoe lager de validiteit. Validiteit is dus de afwezigheid van systematische meetfouten.

Hoe komen we aan de toetsscores?

Je scoort alleen maar of het antwoord goed of fout is. De items staan in de kolommen, de kinderen in de rijen. De responsen worden op 0 of 1 gescoord. Je wil individuele scores uitrekenen. Per leerling tel je het aantal goede antwoorden en dat deel je door het aantal items.

Op zichzelf betekent een testscore niets. Je moet weten hoeveel opgaven er waren en hoeveel ze waard waren. Je moet ook weten met wie je het moet vergelijken. Wat is hoog en wat is laag? Twee referentiekaders:

Norm-referenced: verhouding van de score met anderen
Criterion-referenced: haal je een bepaalde grens? De absolute norm.

Item analyse procedures

Er zijn drie klassieke methoden om items te analyseren.

Moeilijkheidsindex

Ten eerste is er de item moeilijkheidsindex. Als je bijvoorbeeld wilt weten welke vragen het best zijn om aardrijkskundige kennis te meten, dan moet je kijken naar het aantal mensen dat een vraag goed kan beantwoorden. Als ongeveer 60% van de studenten weet wat de hoofdstad van de VS is, dan is de moeilijkheidsgraad van dit item goed. Wanneer 90% van de studenten het antwoord zou weten, dan zou het item te makkelijk te zijn. Als slechts 2% het goede antwoord weet, is het item te moeilijk.

Je moet kijken naar de item moeilijkheidsindex p. Deze waarde bereken je door het aantal mensen met een correct antwoord op het item te delen door het totale aantal mensen. De waarde van p kan tussen de 0 en 1 liggen. Hierbij geven items met een index van 0 en 1 te weinig informatie over de moeilijkheidsgraad.

Itemdiscriminatie of onderscheidend vermogen

Ten tweede is er item discriminatie. Dit gaat over in hoeverre een test verschil maakt tussen mensen met veel bekwaamheid en weinig bekwaamheid. Als mensen bijvoorbeeld een algebraïsche som voorgelegd krijgen, moet er onderscheid worden gemaakt in mensen die wel en niet goed zijn in rekenen. Meestal zitten 27% laagst presterende mensen in een groep en de 27% best presterende mensen in een groep. Het verschil in proportie is de D index.

De moeilijkheid bereken je voor elk item voor elke aparte groep: p_T voor de bovenste groep (top) en p_B voor de onderste groep (bottom). Er geldt: D = p_T- p_B. Wanneer D negatief is, is er sprake van een fout. Een D-waarde van 0.30 of hoger is acceptabel/goed en een waarde van 0.40 of hoger is uitstekend. Bij de item-totaal correlatie bereken je of de hele prestatie samenhangt met de prestatie op een bepaald item. Je berekent de correlatie tussen een item en de totale testscore. Als hierbij sprake is van een grote correlatie dan meet het item hetzelfde als de hele test en discrimineert het item tussen mensen die hoog en laag scoren bij de test. De gecorrigeerde item correlatie is de correlatie van een item met het totaal, nadat het item eruit is gefilterd. Een item correleert in het geheel namelijk perfect met zichzelf. Door dit eruit te halen ligt de gecorrigeerde correlatie daarom altijd lager.

Distractor analysis

Ten derde is er nog de afleider (distractor) analyse. De afleiders zijn de foute alternatieven bij een MC-tentamen. Hierbij moet je je twee dingen afvragen. Ten eerste: heeft iemand ze gekozen? Als niemand gekozen heeft voor een bepaald antwoord, dan is het geen goede afleider en dan moet deze eigenlijk worden vervangen door een andere. Ten tweede: is het gekozen door meer mensen in de onderste dan de bovenste groep? Je moet nagaan of mensen met een lage score vaker kiezen voor een bepaalde afleider dan mensen met een hoge score. Als dit zo is, is er sprake van negatieve discriminatie en is de afleider effectief.

Steekproef afhankelijk

Deze klassieke methode blijkt steekproefafhankelijk. Ze zijn alleen maar betrouwbaar voor en bepaalde groep. Zo komt er zelfs een gecorrigeerde correlatie van 0 uit, omdat de toets door een andere groep zo goed gemaakt wordt dat er niets meer valt te correleren.

Latent trait theory / Item Response Theory (IRT)

Latent trait theory / Item Response Theory (IRT) is een methode die gebaseerd is op klassieke methoden. Door het gebruik van computers heeft deze theorie een nieuwe twist gekregen. Het brengt de interactie tussen leerling en item in kaart. We hebben een groep leerlingen en een groepje opgaven. Er is één onderliggende schaal die van lage naar hoge vaardigheid loopt. Dit weergeeft de individuele verschillen. Ook de opgaven worden op deze schaal geordend. De kenmerken van een item hangen af van de moeilijkheidsgraad b en het discriminerend vermogen a. Hoe hoger b, hoe onwaarschijnlijker het is dat ieder kind de vraag goed beantwoord.

Item-karakteristieke curve (één parameter model, of Rasch model)

Dit is een grafiek van de verhouding tussen de vaardigheid en de kans op een correct respons van de personen. Horizontaal staat de vaardigheid van -3 tot +3. Dit zijn z-scores. Verticaal is de kans om het item goed te hebben. Als je een lage vaardigheid hebt is de kans klein dat je het goed hebt. Als je een hoge vaardigheid hebt, dan is de kans dat je het goed hebt hoger. B wordt gedefinieerd als het vaardigheidsniveau dat je nodig hebt om 50% kans te hebben dat je de opgave goed hebt. Voor de blauwe grafiek is dat -0,10, voor rood is dat +1,00. Hier is alleen de moeilijkheidsgraad belangrijk.

Twee-parameter model

Hierin zit de moeilijkheidsgraad, en de discriminatieparameter. Als we het item afnemen zien we de kans op een goed antwoord. In dit model verandert dat heel snel bij een bepaald vaardigheidsniveau. De rode lijn is weinig informatief over de verschillende niveaus, terwijl je bij de blauwe goed een verschil ziet. De a wordt bepaald door de steilheid van de curve, ofwel lokaal. Dit is waar de curve het steilste is, dus meestal rond de 0,5. Het punt waar de grafiek het meest steil is, is het discriminatiepunt. Daar is het item het best en dit is het punt waar de omslag is van onervaren naar ervaren.

Voordelen en toepassing van IRT

Voordelen IRT: a en b zijn niet steekproefafhankelijk, waardoor je beter groepen kan vergelijken. De vaardigheidsscores zijn van interval-meetniveau, wat beter is gewaarborgd dan in de klassieke theorie. Ook is de betrouwbaarheid/meetfout afhankelijk van het vaardigheidsniveau. Dat is dus niet één getal.

CAT

De kinderen moeten allemaal achter de computer een test maken. Elke keer dat je een antwoord geeft gaat de computer kijken bij welk vaardigheidsniveau je zit. Vervolgens wordt er weer een item geselecteerd. Je krijgt dus altijd een item die voor jou geschikt is. De toets is efficiënter en je bent veel sneller klaar.

Equivaleren

Verschillende toetsvormen proberen aan elkaar te schakelen. Het is erg moeilijk om de moeilijkheid van de specifieke toets te scheiden van de vaardigheid van de specifieke student. Met de klassieke aanpak is het erg lastig, met IRT is het beter te doen. Beide toetsen hebben een overlappend gedeelte zodat er één vaardigheidsschaal kan worden gecreëerd. Dan kan er ineens wel worden vergeleken tussen de toetsen. Deze items heten de anker-items. Dit is ook wat CITO toepast.

Bias in assessment en ethiek
Een bias is een systematische fout in een testscore door een overschatting of onderschatting van de prestaties van een bepaalde groep. Mogelijke bronnen voor bias zijn: de inhoud van de test, voorspellingen als gevolg van een testscore en weinig bewijs van bias bij gestandaardiseerde testen. Om bias vast te stellen kun je gebruik maken van item kenmerk curves van bijvoorbeeld groep A en B. Wanneer er bij één item een verschil te zien is tussen de curves, maar bij de andere items niet, dan is er iets mis met dat item.

College 7: Speciale populaties en accommodaties

Overzicht van de stof

Bij diagnostiek en assessment draait het vooral om scores en besluitvorming. Dit heeft allemaal te maken met betrouwbaarheid, validiteit, item-analyse, voorzieningen, ethiek, interpretatie en rapportage. Dit alles valt onder de noemer testen en observeren.

Scores

Testen bestaan uit maximum performance, criterion referenced, selected response en constructed item response. Het is de bedoeling dat je dit kan koppelen aan wat je met de score kan. Ook moet je dit kunnen interpreteren. Er zijn vier meetniveaus in scores. Let ook op de normaalverdeling en hoe iemand scoort daarop. Betrouwbaarheid en validiteit van de score hangen af van de kwaliteit van individuele items. Item-analyse kan je niet zomaar doen zonder iets te weten van betrouwbaarheid en validiteit.

Besluitvorming

Over besluitvorming zijn er tien basisaannames. Deze hoef je niet uit je hoofd te leren, maar je moet wel begrijpen wat het inhoudt. Bij de selectie van testen is het belangrijk wat je wil meten en welke test dat dan goed meet. Ook moet je letten op de afname: zijn hier hulpmiddelen bij gebruikt? Daarnaast is de scoring belangrijk. Wat is een z score, of een t score en hoe verhouden ze zich tot elkaar? Wanneer valt iemand binnen de klinische range?

Statistiek en analyse van assessment

Het schaaltype beïnvloedt de opties van je statistiek. Corelaties en regressie is belangrijk. Wat betekent een ruwe score? Wat zijn de range-beperkingen? Besteed aandacht aan de multi trait multi method matrix. Je moet je goed afvragen of het onobserveerbare gedrag meetbaar is gemaakt. Dit hangt ook samen met de moeilijkheidsgraad en het onderscheidende vermogen van je toets.

Wat zijn accommodaties/voorzieningen?

Een accommodatie is een verandering in een standaard test of beoordelingsprocedure. Bij accommodaties verminderen/minimaliseren worden de gevolgen van kenmerken van de persoon die construct-irrelevant zijn, dus kenmerken die niet van belang zijn voor het construct aangepast. Bij iemand met een beperking wordt een test dus aangepast, zodat de assessmentprocedure eerlijker wordt. Het doel van accommodaties is om te zorgen voor valide en nauwkeurige metingen voor elke persoon op het gemeten construct. Belangrijk hierbij zijn de validiteit, betrouwbaarheid en de beslissing die moet worden gemaakt op basis van de testscore.

Accommodaties zijn niet geschikt wanneer het vermogen dat gemeten wordt direct van belang is voor het construct. Wanneer we bijvoorbeeld vloeiend lezen willen testen, is het niet de bedoeling dat we bij leerlingen met dyslexie gebruik maken van een accommodatie (zoals het voorlezen van de test). Ook zijn accommodaties niet geschikt wanneer de test het doel heeft om de aanwezigheid, mate en ernst van een beperking vast te stellen.

Soorten accommodaties

Accommodaties bestaan in verschillende soorten. Ten eerste is er het presentatieformaat. Hierbij vinden veranderingen plaats in de methode om de test te presenteren. Een voorbeeld hiervan is het gebruik van brailleschrift voor een persoon die blind is of het gebruik van een groter lettertype voor leerlingen met dyslexie. Ten tweede kan het antwoordformaat veranderd worden. De betreffende persoon mag dan op een andere manier antwoorden dan normaal, bijvoorbeeld mondeling in plaats van met pen en papier. Dit kan bijvoorbeeld het geval zijn bij leerlingen die last hebben van spasme of verlamming. Ten derde kan er een verandering zijn in de timing: de tijd die iemand krijgt om een test te maken. Leerlingen met dyslexie krijgen bijvoorbeeld extra tijd voor leesteksten. Tot slot kan de omgeving aangepast worden. Bij kinderen met ADHD kan er bijvoorbeeld voor gekozen worden om de test in een aparte ruimte af te nemen, omdat het kind daar minder afgeleid wordt dan in een klaslokaal.

Naast bovenstaande soorten accommodaties worden er in het boek ook nog twee andere genoemd: adaptive devices / supports (dit heeft te maken met het antwoordformaat) en het gebruik van een alternatieve test of een deel van een test. Bij het gebruiken van een gedeelte van een test moet er wel op gelet worden dat het construct nog steeds voldoende gemeten wordt.

Belangrijke punten

Blijven betrouwbaarheid en validiteit van de scores gelijk als je extra voorzieningen hebt?
Welke beslissingen moeten gemaakt worden met de testscores?
Bevordert de voorziening onafhankelijkheid?
Her-evaluatie van voorzieningen: altijd te vroeg klaar of helemaal niet nodig?
Waar zit je in het assessmentproces?

Implicaties dagelijks leven

Mogen de toegestane hulpmiddelen in de klas ook gebruikt worden in de toets? Gebruik je de middelen om hem/haar te helpen met een hogere score, of doet hij/zij het slechter als je de hulpmiddelen weghaalt?

Definitie

Veel hangt af van de definitie. Is spelling wel of geen onderdeel van schrijfvaardigheid? Het gevolg van de definitie is hoe je dingen gaat meten.

Conclusie

Tot slot zijn er nog twee belangrijke punten om rekening mee te houden. Ten eerste moet je niet alleen nadenken over wat je test, maar ook over wie je test en wat de gevolgen van diagnostisering, beoordeling en/of besluitvorming zijn voor deze persoon (zie Messick: value implications en social consequenses, onderdeel van validiteit). Ten tweede moet je eraan denken dat een label niet het leven van een persoon bepaalt.

Bron

Deze aantekeningen zijn gebaseerd op de colleges uit 2015/2016.

Access:

Public

Click & Go to more related summaries or chapters

Studiegids met college-aantekeningen voor Diagnostiek en assessment in opvoeding, onderwijs en hulpverlening aan de Universiteit Leiden

College-aantekeningen bij Diagnostiek en assessment in opvoeding, onderwijs en hulpverlening aan de Universiteit Leiden - 2015/2016

Studiegids met college-aantekeningen voor Pedagogiek Bachelor 2 aan de Universiteit Leiden

College-aantekeningen bij Onderzoekspracticum 2 aan de Universiteit Leiden - 2015/2016

Werkgroepaantekeningen bij Onderzoekspracticum 2 aan de Universiteit Leiden - 2015/2016

College-aantekeningen bij Leren en cognitie aan de Universiteit Leiden - 2015/2016

College-aantekeningen bij Leren en cognitie aan de Universiteit Leiden - 2014/2015

College-aantekeningen bij Leren en cognitie aan de Universiteit Leiden - 2013/2014

College-aantekeningen bij Neurobiologische achtergronden van opvoeding en ontwikkeling aan de Universiteit Leiden - 2015/2016

College-aantekeningen bij Methoden van Kwalitatief Onderzoek (MKO) aan de Universiteit Leiden - 2015/2016

College-aantekeningen bij Gezinspedagogiek aan de Universiteit Leiden - 2015/2016

College-aantekeningen bij Gezinspedagogiek aan de Universiteit Leiden - 2014/2015

College-aantekeningen bij Gezinspedagogiek aan de Universiteit Leiden - 2013/2014

College-aantekeningen bij Diagnostiek en assessment in opvoeding, onderwijs en hulpverlening aan de Universiteit Leiden - 2015/2016

Pedagogiek Leiden: samenvattingen en studiehulp - Thema

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check more of topic:

Clinical pedagogics and orthopedagogy

Samenvattingen voor pedagogiek in Leiden via Emile en JoHo

Going abroad?

Insure your way around the world

International expat insurances

Travel & Worldsupporter insurances (NL)

Study with summaries

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Spotlight: topics

Check the related and most recent topics and summaries:

Activities abroad, study fields and working areas:

Follow the author: Social Science Supporter

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics

External and related links:

Orthopedagogiek & Klinische Pedagogiek - studie en kennis

Kinderverzorger & Jeugdwerker: stagelopen tot werken het buitenland

Werken in het buitenland als au pair verzekeren

Therapeutische vaardigheden: leren of versterken

Search a summary, study help or student organization

Select any filter and click on Search to see results