Samenvatting Handbook on measurement, assessment and evaluation in higher education (Secolsky & Denison). Deel 1

Eerste deel van de samenvatting bij Handbook on measurement, assessment and evaluation in higher education (Secolsky & Denison), geschreven in het studiejaar 2013-2014.

Hoofdstuk 2: De klassenassessment

De klas is een intuïtieve eenheid van analyse met betrekking tot het meten van het leren van studenten. Zo zullen de meeste studenten een specifieke klas of professor noemen wanneer hen wordt gevraagd naar hun meest betekenisvolle leerervaring in het hoger onderwijs. Daarom is assessment op het niveau van de klas veelbelovend voor het koppelen van de meting van leeruitkomsten van studenten aan het daadwerkelijke onderwijs en leerproces.

De term ‘assessment op klasniveau’ lijkt leermogelijkheden buiten de klas niet te omvatten. Echter, in dit hoofdstuk wordt de ‘klas’ beschouwd als iedere doelbewuste, georganiseerde mogelijkheid tot leren die door de instelling wordt aangeboden. De term omvat dan ook zogenaamde ‘onderwijskundige praktijken met een grote invloed’: leermogelijkheden die zorgen voor ‘diepere’ leerervaringen en meer betrokkenheid onder studenten, zoals congressen, samenwerkingsprojecten en stages.

 

Basisprincipes van een klassenassessment

Principe 1

Een assessment op klasniveau moet worden gedefinieerd in termen van de verbetering van het leren van studenten. Een definitie moet zich richten op de drie componenten van een assessment:

  • Proces: het verzamelen van informatie van verschillende bronnen en perspectieven over de prestaties van studenten.

  • Evaluatie: informatie moet worden geëvalueerd en geïnterpreteerd om te begrijpen wat studenten als gevolg van hun onderwijskundige ervaringen weten, begrijpen en met hun kennis kunnen doen.

  • Doel: het doel van een klassenassessment is het verbeteren van het leren van studenten door veranderingen in de strategie of het epistemologische perspectief.

 

Principe 2

Een klassenassessment is de taak van degene die het meest direct verantwoordelijk is voor de constructie van instructieomgevingen: de faculteit. Een dergelijke assessment vereist geen training in de psychometrie of de onderzoeksmethoden van de sociale wetenschappen. In plaats daarvan is de faculteit het best in staat om prestaties van studenten te evalueren en eventuele veranderingen te maken op basis van de assessment.

 

Principe 3

De klassenassessment wordt geïmplementeerd door middel van het gebruik van cursusopdrachten. Valide opdrachten stemmen overeen met de leerdoelen van de cursus, pedagogische praktijken, de cursusinhoud en kenmerken van de studenten. Opdrachten kunnen formatief of summatief zijn, kwalitatief of kwantitatief, en gedragsmatig, cognitief of affectief. Een opdracht kan dus verschillende vormen aannemen, variërend van meer traditioneel, zoals een multiple-choice tentamen, naar meer alternatief, zoals een video essay. Opdrachten bieden informatie over het leren en de prestaties van studenten, wat vervolgens geëvalueerd kan worden om het leren te verbeteren.

 

Principe 4

Omdat de klassenassessment een essentieel element zijn van de institutionele assessment, moeten faculteitsleden en uitvoerders van institutionele assessments samenwerken. De faculteit kan profiteren van anderen, die goede benaderingen hebben voor het meten van leeruitkomsten van studenten.

De vier principes richten zich op het leren van studenten door middel van de constructie van instructie-omgevingen, die opdrachten bevatten die gebruikt worden om zowel het leren van studenten als de effectiviteit van de instelling te verbeteren door de volgende aspecten op elkaar af te stemmen:

  • De doelen, inhoud en context van cursussen

  • Eerdere kennis en ervaringen van studenten

  • Instructiestrategieën en resources

  • Institutionele verbetering

 

Het belang van afstemming voor een klassenassessment

De assessmentcyclus bestaat uit de volgende onderdelen:

  • De identificatie en verheldering van leeruitkomsten van studenten

  • De verzameling en analyse van informatie over de prestaties van studenten

  • Het gebruik van informatie om het leren van studenten te verbeteren

 

Veel klassenassessments die minder succesvol zijn, worden gekenmerkt door een probleem in deze cyclus: een gebrek aan afstemming. Hoewel de faculteit geleerd heeft dat de gebruikte meetinstrumenten afgestemd moeten worden op de leeruitkomsten, stoppen de pogingen tot afstemming hier. De assessment moet gerelateerd zijn aan het ‘wat’, ‘wie’ en ‘hoe’ van onderwijs en leren.

 

Wat: Uitkomsten en inhoud

Bij het afstemmen van het onderwijs-, leer- en assessmentproces is het van groot belang om de leeruitkomsten expliciet te formuleren. Goed gedefinieerde leeruitkomsten specificeren de vaardigheden, kennis, overtuigingen of attitudes, die studenten geacht worden te ontwikkelen als gevolg van het volgen van een cursus. Soms worden uitkomsten geformuleerd als ‘Aan het eind van deze cursus, zullen studenten een paper schrijven’. Echter, een dergelijke formulering zegt alleen iets over de handelingen of gedragingen van studenten, maar specificeren niet de doelen waar studenten naartoe werken.

De cursusinhoud omvat niet alleen de relevante kennis, vaardigheden en attitudes, maar ook de opdrachten die studenten moeten maken. De cursusinhoud moet een reflectie zijn van de leeruitkomsten.

 

Wie: Kenmerken van de studenten

Het is belangrijk om de leeruitkomsten, de cursusinhoud en de verwachtingen af te stemmen op de kenmerken van de studenten, zoals de kennis waarover zij reeds beschikken. Deze kennis omvat niet alleen inhoudelijke kennis, maar ook overtuigingen, ervaringen studeerstrategieën en niet-academische kennis. Al deze kennis beïnvloedt hoe en wat studenten tijdens een cursus leren.

Faculteitsleden kunnen hun studenten op verschillende manieren leren kennen. Deze informatie kan nuttig zijn bij het afstemmen van het cursusmateriaal op de specifieke studenten die de cursus volgen, wat bevorderlijk is voor de verwerving, verwerking en opslag van cursusmateriaal. Voor het beoordelen van de kennis waarover studenten reeds beschikken, kan voorafgaand aan de cursus een test worden afgenomen. Informatie van een voormeting kan helpen bij het identificeren van de sterke en zwakke punten van de eerdere kennis van studenten. Naast eerdere kennis zijn er nog andere kenmerken die invloed hebben op het vermogen van de student om de gewenste leeruitkomsten van een cursus te bereiken, zoals motivatie en leerstrategieën.

 

Hoe: Instructiecontext en instructiestrategieën

Het belang van instructiecontexten en -strategieën in relatie tot afstemming kan worden gegeneraliseerd binnen het ‘encodeer specificiteit principe’. Dit principe stelt dat wanneer, waar, hoe en waarom kennis, vaardigheden en attitudes worden onderwezen, invloed heeft op hoe deze kennis, vaardigheden en attitudes worden onthouden en toegepast. Met andere woorden gaat dit principe ervan uit dat onderwijs en prestatie onlosmakelijk met elkaar verbonden zijn.

Instructiecontexten zijn twee soorten kenmerken van de instructieomgeving:

  • Fysiek: de algemene benadering van instructie (bijvoorbeeld face-to-face of online) en de specifieke kenmerken van instructie (bijvoorbeeld locatie en instrumenten).

  • Affectief: de fysiologische toestand (bijvoorbeeld angst en stress) en emotionele toestand (bijvoorbeeld vrolijk of verdrietig) van de student.

 

Instructiestrategieën zijn de instructie-activiteiten en de cognitieve verwerking die tijdens deze activiteiten plaatsvindt. De waarde van de instructie-activiteit ligt in het vermogen van de activiteit om relevante cognitieve verwerking te motiveren, niet alleen in de voltooiing van de activiteit. De aard en diepte van de cognitieve verwerking tijdens leren, heeft invloed op de aard en mate van opslag, toepassing en overdracht van kennis op het moment van presteren.

 

Technologie

Het verzamelen van informatie over het ‘wat’, ‘wie’ en ‘hoe’ van onderwijs en leren, kan moeilijk zijn. Hieronder zullen twee technologische hulpmiddelen worden besproken voor het verzamelen van data voor klassenassessments.

 

Clickers

Met behulp van clickers kunnen studenten elektronisch reageren op vragen die door de docent worden gesteld. Dit maakt het mogelijk om grote aantallen studenten te laten deelnemen aan colleges. Clickers worden gebruikt om de aanwezigheid van studenten in de gaten te houden en om hen actief te betrekken bij colleges. Tevens zijn ze nuttig voor het beoordelen van de leeruitkomsten van studenten. Aangezien direct zichtbaar is hoe de meerderheid van de studenten een vraag heeft beantwoord, is de docent in staat te reageren op misverstanden van studenten.

 

ePortfolio’s

Elektronische portfolio’s (ePortfolio’s) faciliteren de verzameling en archivering van werk van studenten. In tegenstelling tot de clicker, die vooral nuttig is voor het verzamelen van kwantitatieve data, kan de ePortfolio ook kwalitatieve informatie verschaffen over het leren van studenten. ePortfolio’s helpen bij het bevorderen van het vermogen van studenten tot:

  • Het integreren van theorie en praktijk

  • Het expliciet focussen op het reflectieve doeleinde van de ePortfolio

  • Het leggen van directe verbanden tussen opdrachten en praktijken in de klas

  • Kritisch denken

 

Rubrieken zijn een hulpmiddel voor het organiseren van de verzameling van werk in een ePortfolio. Rubrieken zijn scoringhulpmiddelen, die specifieke prestatiecriteria bieden. Met behulp van rubrieken worden leeruitkomsten afgestemd op specifieke opdrachten en worden de beoordelingscriteria duidelijk naar de studenten gecommuniceerd.

 

Het afstemmen van pedagogische praktijken

Bij het afstemmen van het wat, wie en hoe van onderwijs en leren dienen de volgende stappen te worden gevolgd:

  1. Bepaal de leeruitkomsten

  2. Stem de opdrachten af op de leeruitkomsten

  3. Bedenk welke informatie over de studenten je wilt verzamelen

  4. Bepaal de specifieke instructiecontext en instructiestrategieën

 

Hoofdstuk 3: Assessment van leeruitkomsten

Dit hoofdstuk geeft een overzicht van de achtergrond, het doel de context en de methodologie van een systeem om leeruitkomsten van studenten te beoordelen op institutioneel en programmaniveau.

 

Context

Decennialang hebben wetenschappers verschillende benaderingen gehanteerd om de leeruitkomsten van studenten te beoordelen. Het is aannemelijk dat de functie en praktijk van assessment in een instelling verloren kan gaan door de complexiteit. Veel assessmentprogramma’s verliezen hun focus en kampen met een gebrek aan effectiviteit, nut of relevantie. Verschillende auteurs hebben een stap-voor-stap benadering ontwikkeld voor het beoordelen van leeruitkomsten:

  1. Definieer de leerdoelen.

  2. Stem de curriculum activiteiten af op de leerdoelen.

  3. Verzamel bewijs met betrekking tot de leeruitkomsten.

  4. Gebruik de resultaten om het leren van studenten te verbeteren.

 

Achtergrond

De assessmentbeweging raakte in een stroomversnelling toen er vraag was naar verantwoording in het hoger onderwijs, omdat er nog weinig betrouwbare en nauwkeurige informatie was over de effecten van hoger onderwijs op studenten. In de brede zin van het woord is een uitkomstenassessment een onderdeel van een uitgebreid planning proces, waarbij de assessment van leeruitkomsten van studenten een aspect is van de assessment van de effectiviteit van een gehele instelling. De assessment van leeruitkomsten heeft tot doel het verbeteren van het leren van studenten door middel van een systematisch, doelbewust en lokaal proces.

 

Missie van de instelling en afstemming tussen doelen, het leersysteem en leeruitkomsten

Het startpunt voor een assessmentproces is de definiëring van de missie van de instelling. Deze missie stuurt de doelen en leeruitkomsten van een instelling. De afstemming tussen de missie en de doelen is een indicatie dat de instelling een duidelijk beeld heeft van de verwachtingen van studenten. Het curriculum verwijst naar ervaringen binnen en buiten de klas, die doelbewust zijn georganiseerd om te leiden tot de doelen. De activiteiten die het curriculum omvat, zijn afhankelijk van de leerdoelen.

 

Leeruitkomsten op institutioneel niveau: Algemeen onderwijs

Algemene onderwijsuitkomsten verwijzen naar de kennis en vaardigheden, die alle studenten worden geacht te verwerven, ongeacht de studie. Ze kunnen worden bereikt door middel van specifieke cursussen, het curriculum of een combinatie van strategieën. Hoewel instellingen hun eigen algemene uitkomsten kunnen bepalen, zijn er verschillende modellen die hierin begeleiding bieden. De ‘Association of American Colleges and Universities’ beschrijft bijvoorbeeld zeven gebieden voor algemeen onderwijs: (1) schriftelijke en mondelinge communicatie, (2) kritisch denken en onderzoeksvaardigheden, (3) kwantitatief redeneren, (4) ethisch redeneren, (5) maatschappelijke betrokkenheid, (6) interculturele vaardigheden, en (7) toepassen en integreren van kennis.

 

De gemeenschappelijkheid van deze uitkomstgebieden op het institutionele niveau kan worden benaderd door middel van verschillende categoriseersystemen. Zo heeft Astin een taxonomie beschreven met twee dimensie (psychologisch/gedragsmatig en cognitief/affectief), die gezamenlijk resulteren in een 2x2 taxonomie van leeruitkomsten. Een andere manier om algemene onderwijsuitkomsten te categoriseren, is door het te onderverdelen in gebieden van: kennis, vaardigheden, attitudes en relaties.

 

Leeruitkomsten op programmaniveau

Leeruitkomsten op programmaniveau zijn de uitkomsten voor een specifieke studie. De uitkomsten op institutioneel en programmaniveau kunnen erg op elkaar lijken, maar doelen op programmaniveau zouden gekenmerkt moeten worden door specifieke uitkomsten die de ene studie van de andere onderscheiden. Evenals bij algemene onderwijsuitkomsten, moeten uitkomsten op programmaniveau worden afgestemd met de missie van het programma, de algemene onderwijsuitkomsten en de missie van de instelling.

 

Prestatieniveaus

Een andere kwestie is het ontwikkelen van maatstaven voor prestatieniveaus. Hoewel het bepalen van maatstaven altijd gepaard gaat met een zekere mate van subjectiviteit, zijn er methoden voor het verduidelijken van aspecten van de maatstaven. Voor de cognitieve, affectieve en psychomotorische domeinen is Bloom’s taxonomie bijvoorbeeld nuttig voor het specificeren van het prestatieniveau dat minimaal wordt verwacht. Zo heeft het cognitieve domein zes niveaus van beheersing: (1) kennis op het meest simpele niveau, (2) begrip, (3) toepassing, (4) analyse, (5) synthese, (6) evaluatie. Als de mogelijke prestatieniveaus zijn vastgesteld, kan het niveau worden gespecificeerd dat zal dienen als maatstaf voor succes.

 

Echter, niet voor alle uitkomsten is het gemakkelijk om te bepalen wat de maatstaf is. Dit geldt bijvoorbeeld voor het doel ‘het begrijpen van globale kwesties en perspectieven’. Wat betekent het om te ‘begrijpen’ en hoe kan dit meetbaar worden gemaakt? Bloom beschouwt begrijpen als het tweede niveau van cognitieve activiteiten. Hij heeft ook werkwoorden bedacht, die handelingen beschrijven waarmee studenten hun begrip kunnen aantonen, zoals onderscheiden, uitleggen, voorbeelden geven en samenvatten. Deze werkwoorden kunnen worden gebruikt voor het definiëren van leeruitkomsten en het maken van assessmentinstrumenten.

 

Ook theorieën over de ontwikkeling van studenten kunnen worden gebruikt voor het ontwikkelen van maatstaven voor assessment. Dergelijke modellen beschrijven de ontwikkeling van studenten van egocentrisch naar interpersoonlijke sensitiviteit, van simpliciteit naar complexiteit, van afhankelijkheid naar onafhankelijkheid, van impulsiviteit naar zelfcontrole en van instinctief naar gebaseerd handelen. Door dergelijke ontwikkelingsmodellen te gebruiken bij het bepalen van maatstaven, kunnen er realistische verwachtingen van prestatieniveaus worden geformuleerd.

 

 

Methodologie

Het idee dat een assessment een oordeel velt, impliceert dat het oordeel gevormd is met vertrouwen in het ondersteunende bewijs. Oordelen kunnen worden gebaseerd op:

  • Maatstaven

  • Benchmarks: vergelijkingen tussen groepen peers

  • Persoonlijke groei: vergelijkingen tussen de prestaties van één individu op verschillende momenten

 

Deze drie contexten voor beoordeling zijn geschikt voor verschillende soorten leerdoelen. Als het doel bijvoorbeeld is dat studenten een kilometer kunnen hardlopen, zijn vergelijkingen tussen groepen peers en persoonlijke groei irrelevant.

 

Raamwerken voor assessment

Oordelen op basis van uitkomstdata kunnen met meer zekerheid worden gemaakt als de methodologie causaliteitsoordelen mogelijk maakt. Echte experimentele onderzoeksdesigns houden rekening met alle mogelijke invloeden op leeruitkomsten en variëren deze systematisch om de veroorzakende factoren te identificeren. Astin’s I-E-O model is een raamwerk voor het interpreteren van assessmentstudies die rekening houdt met drie factoren:

  • Inputs: de kwaliteiten, trekken, attitudes, vaardigheden of overtuigingen van studenten voorafgaand aan de assessment

  • Omgeving (environment): alle ervaringen tijdens de cursus

  • Uitkomsten (outcomes): de prestaties van de studenten

 

Inputs en de omgeving kunnen onafhankelijk en in interactie met elkaar invloed hebben op de uitkomsten. Het meest nuttige aspect van Astin’s I-E-O model is een verheldering van het soort conclusies dat getrokken kan worden over het verband tussen uitkomsten en verschillende combinaties van input en omgevingscomponenten:

  • Het ‘alleen-uitkomsten’ assessment model geeft enkel informatie over de vraag of studenten aan de standaard voldoen, en niet over causale verbanden tussen de inhoud van het programma en de uitkomsten.

  • Het ‘omgeving-uitkomsten’ model maakt vergelijkingen tussen instellingen of programma’s, zonder rekening te houden met input verschillen.

  • Het ‘alleen-omgeving’ model richt zich op elementen van het programma, zoals instructiematerialen en tekstboeken. Hoewel deze factoren bij kunnen dragen aan het vermogen van een instelling om een missie te bereiken, is er geen informatie over de mate waarin de missie is bereikt en of de omgeving hierop invloed heeft gehad.

 

Bronnen van bewijs

Cijfers representeren hoe individuele studenten presteren, maar bieden in de context van een assessment geen bewijs voor het maken van specifieke curriculaire beslissingen. Cijfers geven een algemeen beeld van de prestatie van studenten, maar wat kan een klassengemiddelde van 74% zeggen over de manier waarop uitkomsten verbeterd kunnen worden?

 

 

Directe en indirecte indicatoren

Direct bewijs is tastbaar, zichtbaar, duidelijk bewijs van wat studenten wel en niet hebben geleerd. Directe indicatoren demonstreren de prestaties van studenten op producten, zoals tentamens, presentaties of papers, die direct bewijs bieden van de leeruitkomsten van studenten. Indirect bewijs biedt daarentegen een indicatie van leren, maar is niet gebaseerd op observaties van de daadwerkelijke prestaties. Een voorbeeld van een indirecte indicator is een vragenlijst, die een subjectief oordeel van prestaties bieden.

 

Ingebedde en ‘add-on’ indicatoren

Instellingen voor hoger onderwijs verzamelen grote hoeveelheden data, van administratieve data tot tentamens. Niet alle data zijn relevant voor uitkomsten, maar een deel van deze dataverzameling kan worden gebruikt voor assessmentdoeleinden. Door de producten te identificeren die direct gerelateerd zijn aan uitkomsten van studenten, kan een assessment relatief efficiënt worden en minder inspanning kosten. Dit worden ingebedde indicatoren genoemd. Ingebedde indicatoren zijn niet altijd voldoende of beschikbaar voor het assessmentproces. Daarnaast bieden deze indicatoren geen mogelijkheid om groepen met elkaar te vergelijken. Als er een behoefte is aan vergelijkingen, vereist de assessment een genormeerd instrument.

 

Triangulatieprincipes

Direct en indirect bewijs dat wordt verzameld voor de assessment van leeruitkomsten van studenten kunnen aanzienlijk variëren in de mate van validiteit. Indirect bewijs kan door middel van triangulatie bijdragen aan de beoordeling van een bepaalde uitkomst. Triangulatie verwijst naar het gebruik van meerdere bronnen van bewijs om een construct te meten. Triangulatie kan resulteren in convergentie, inconsistentie en tegenstrijdigheid. Met behulp van triangulatie kan de mate van zekerheid worden vergroot waarmee conclusies worden getrokken en kunnen redenen worden onderzocht voor inconsistenties en tegenstrijdigheden.

 

Steekproef

Het is erg kostbaar en onpraktisch om bij iedere student data te verzamelen voor iedere leeruitkomst. Daarom kan met behulp van steekproeftrekking een representatieve groep studenten worden samengesteld, aan de hand waarvan met voldoende zekerheid conclusies kunnen worden getrokken. Steekproeftechnieken kunnen niet alleen worden gebruikt voor het aantal studenten dat wordt geobserveerd, maar ook voor de leeruitkomsten. Over de jaren heen kunnen op systematische wijze data worden verzameld van verschillende leeruitkomsten, zodat iedere leeruitkomst op institutioneel en programmaniveau op de lange termijn bewijs heeft.

 

Het gebruiken van assessments

De sleutel voor het creëren van een succesvolle assessment van leeruitkomsten van studenten is het gebruiken van een methode voor het rapporteren van en reageren op het bewijs. Een systematisch rapportageproces kan de kans vergroten dat het assessmentproces validiteit heeft. Een rapport zou data moeten samenvatten, op basis van het bewijs conclusies moeten trekken en aanbevelingen moeten doen voor curriculum en toekomstige assessments.

 

Casus

Zie bladzijde 41 tot en met 44 voor een casusbeschrijving van een assessment van algemene onderwijsuitkomsten.

 

Hoofdstuk 9: De klassieke testtheorie in het hoger onderwijs

 

Testen in het hoger onderwijs

Testen in het hoger onderwijs hebben verschillende functies:

  • Het selecteren van studenten. Het doel hiervan is dat studenten een beeld krijgen van de instellingen waartoe ze toegang hebben en dat instellingen een indicatie krijgen van het niveau van een bepaalde student.

  • Het testen van de vaardigheden van nieuwe studenten, om te bepalen welke studenten op welk niveau van een bepaalde cursus geplaatst moet worden.

  • Het testen van de mate waarin de studenten de cursusinhoud beheersen. Op dit gebied kan onderscheid worden gemaakt tussen testen om cijfers te geven (summatieve assessment) en testen om de instructie aan te passen op de behoeften van de studenten (formatieve assessment).

 

Een goede test wordt gekenmerkt door:

  • Validiteit: de mate waarin de beslissingen die we maken op basis van de testinformatie valide en rechtvaardig zijn.

  • Betrouwbaarheid: als de gemeten vaardigheden en kennis over de tijd heen niet zijn veranderd, moeten assessmentuitkomsten over de tijd heen ook consistent zijn.

 

De klassieke testtheorie

De klassieke testtheorie is een psychometrische theorie over hoe goed we een niet-observeerbare kwaliteit van een persoon, zoals kennis of vaardigheden, hebben gemeten. Een basisaanname van deze theorie is dat testscores de som zijn van twee theoretische componenten:

  • De daadwerkelijke score: de gemiddelde score van een persoon als hij/zij dezelfde test keer op keer zou maken, als de kennis en vaardigheden continu hetzelfde blijven en het geheugen na iedere testafname ‘gewist’ zou worden. De daadwerkelijke score representeert het daadwerkelijke vermogen van het individu.

  • De meetfout: het verschil tussen de gemeten score en de daadwerkelijke score, als gevolg van wisselvalligheden van de test en van het individu op het moment van de testafname.

 

De standaardafwijking geeft een goed beeld van hoe groot het verschil is tussen de daadwerkelijke score en de gemeten score. Als een persoon een score van 61% behaalt, de standaardafwijking 4% is en de verdeling van testscores normaal verdeeld is, ligt de daadwerkelijke score waarschijnlijk (met 68% zekerheid) tussen 57% en 65% en zeer waarschijnlijk (met 96% zekerheid) tussen 53% en 69%.

 

Betrouwbaarheid

Test-hertest betrouwbaarheid

Test-hertest betrouwbaarheid verwijst naar de consistentie tussen de scores op verschillende testafnames. Meetreactiviteit houdt in dat de eerste testafname op een bepaalde manier invloed heeft op de tweede testafname, bijvoorbeeld wanneer studenten de antwoorden op vragen gaan opzoeken waar ze tijdens de eerste afname geen antwoord op wisten. Om dit probleem op te lossen, kan tijdens de tweede afname gebruik worden gemaakt van een paralleltest: een test die zoveel mogelijk lijkt op de eerste test, met allemaal nieuwe items. De correlatie tussen een test en een paralleltest wordt paralleltest betrouwbaarheid genoemd. Op deze manier wordt een deel van de problemen van meetreactiviteit opgelost, maar niet allemaal. Zo kunnen studenten na een eerste biologietoets besluiten om bepaalde onderwerpen nog eens goed te bestuderen.

 

Split-half betrouwbaarheid

Zowel test-hertest als paralleltest betrouwbaarheid beoordelen de stabiliteit van de score over een korte tijdsperiode, waarin verwacht wordt dat er geen veranderingen plaatsvinden in de gemeten vaardigheden. Echter, een praktisch probleem hiervan is dat weinig mensen een week later opnieuw een test willen maken als dit niet noodzakelijk is. Daarom is het mogelijk om de twee testen in één sessie af te nemen. Er kan een twee keer zo lange test worden ontwikkeld, waarvan de resultaten in tweeën worden gesplitst. Vervolgens kan de correlatie tussen beide helften worden berekend.

 

Een probleem hiervan is dat mensen een vrij lange test moeten maken. Om dit probleem op te lossen, kan een test worden ontwikkeld van ‘normale’ lengte. Vervolgens wordt de correlatie berekend tussen de ene en de andere helft van de test. Dit wordt een split-half schatting van betrouwbaarheid genoemd. Het probleem hiervan is echter dat het een schatting is van de betrouwbaarheid van een test die de helft korter is dan de daadwerkelijke test. Een langere test is automatisch meer betrouwbaar. Om dit probleem op te lossen, kan een aanpassingsformule (Spearman-Brown voorspellingsformule) worden toegepast.

 

Een test kan op verschillende manieren in tweeën worden gesplitst. De Kuder-Richardson formule 20 neemt het gemiddelde van al deze mogelijke manieren. Deze formule is gebaseerd op het idee dat alle items worden gescoord als ‘goed’ of ‘fout’. Cronbach’s alpha (α) is een formule, die gebruikt kan worden als de items worden gescoord op schalen.

 

De split-half betrouwbaarheid, Kuder-Richardson formule 20 en Cronbach’s alpha (α) kijken niet naar de stabiliteit van een test over de tijd heen, omdat ze gebaseerd worden op data van één testafname. Ze bieden een indicatie van de mate waarin items op een test intern consistent zijn: de mate waarin ze betrekking hebben op hetzelfde domein.

 

Interbeoordelaarsbetrouwbaarheid

Sommige tests vereisen een scoring die gebaseerd is op het oordeel van beoordelaars. Interbeoordelaarsbetrouwbaarheid richt zich op de kwestie van variabiliteit tussen beoordelaars.

 

Validiteit

Validiteit in het algemeen verwijst naar de mate waarin de test meet wat je wilt meten. Er zijn verschillende soorten validiteit, waaronder:

  • Constructvaliditeit: de mate waarin de testresultaten daadwerkelijk een indicatie zijn voor het construct waarover je een uitspraak wilt doen.

  • Incrementele validiteit: de mate waarin de assessmentresultaten nieuwe informatie bieden en een bijdrage leveren aan het maken van de beslissing.

  • Behandel- of instructievaliditeit: de mate waarin de testscores een bijdrage leveren aan het maken van een beslissing. Het betreft hier de mate waarin de testscores informatie geven over de instructiebehoeften van de student en de manier waarop het best aan deze behoeften voldaan kan worden.

  • Consequentiële validiteit: de mate waarin de gevolgen van het gebruiken van een bepaald instrument in tegenstelling tot een alternatief instrument of helemaal geen instrument.

 

Concluderende opmerkingen over betrouwbaarheid en validiteit

Het is belangrijk om te benadrukken dat de informatie over de kwaliteit van een test alleen bruikbaar is voor mensen die beoordeeld zijn met dezelfde vorm van die specifieke test en die overeenkomstig zijn aan degenen voor wie de betrouwbaarheid- en validiteitschattingen zijn gemaakt. Met andere woorden: de schattingen van betrouwbaarheid en validiteit van een instrument zijn specifiek voor een bepaalde steekproef.

 

Tot slot moet worden opgemerkt dat betrouwbaarheid en validiteit niet gelijk aan elkaar zijn. Een hoge betrouwbaarheid biedt geen garantie voor validiteit.

 

Verschil tussen de klassieke testtheorie en de itemresponstheorie

De klassieke testtheorie kijkt naar testen, die ontwikkeld zijn om trekken van individuen te meten. Deze theorie probeert de betrouwbaarheid van testen te beoordelen en om instrumenten te verbeteren. De focus ligt op de test en consistentie van testresultaten van een groep individuen.

 

De itemresponstheorie kijkt minder naar testen en meer naar het meten van individuele prestatie en het beoordelen van de kwaliteit van die meting. De itemresponstheorie gaat ervan uit dat het prestatieniveau van een individu en testitems geplaatst kunnen worden op een continuüm van laag naar hoog. Als een persoon dezelfde bekwaamheid heeft als een item heeft diegene 50% kans om het item goed te beantwoorden. Om het vaardigheidsniveau van een individu te schatten, krijgt hij/zij een aantal items en wordt bekeken hoeveel items hij/zij correct heeft gemaakt. Vervolgens wordt gekeken waar op het continuüm het individu zich zou moeten bevinden om de grootste kans te hebben dat hij/zij de behaalde score zou halen. Bij dit proces is het ook mogelijk om een standaardmeetfout te schatten, specifiek voor deze situatie en deze score.

 

Er is veel werk nodig en er zijn veel proefpersonen nodig om itemresponstheorie schalen voor een bepaald gebied te ontwikkelen. Als er eenmaal een set items bestaat dat ‘geschaald’ is, is het mogelijk om iedere set items af te nemen die geschikt lijkt voor een individu en om een schatting te maken van het vaardigheidsniveau van het individu en de standaardmeetfout. Het voordeel hiervan is dat de test aangepast kan worden aan de vaardigheidsontwikkeling van het individu. Tevens kan de test worden aangepast aan de behoefte aan nauwkeurigheid: hoe meer items er worden afgenomen, hoe kleiner de standaardmeetfout. Een groot nadeel van de itemresponstheorie, zeker voor het hoger onderwijs, is dat het niet altijd mogelijk, of zelfs wenselijk, is om het werk te doen dat nodig is voor een itemresponstheorie benadering. Een voorbeeld hiervan is een tentamen voor een cursus waar maar een klein aantal studenten aan deelneemt.

 

De klassieke testtheorie in het hoger onderwijs

Testen voorafgaand aan toelating

Testen voorafgaand aan toelating voor het hoger onderwijs zijn gebaseerd op de itemresponstheorie. Deze metingen vereisen een hoog niveau van precisie en consistentie tussen verschillende afnames en de itemresponstheorie biedt hiervoor een meer robuust statistisch model dan de klassieke testtheorie.

 

Testen voor het plannen van de cursus

Voor het plannen van een cursus zijn er commerciële instrumenten beschikbaar en deze zijn soms gebaseerd op de klassieke testtheorie en soms op de itemresponstheorie. Andere instrumenten worden binnen de instelling ontwikkeld. Deze zijn meestal gebaseerd op de klassieke testtheorie. Dit proces begint met het definiëren van de constructen die gemeten moeten worden. Als de items eenmaal geselecteerd zijn, wordt een ruwe versie van de test ontwikkeld met meer items dan uiteindelijk nodig zijn, en wordt ‘getest’ op een steekproef individuen. Deze resultaten worden bestudeerd om de interne consistentie van de schaal, de moeilijkheidsgraad van de items en de correlaties tussen items en de totaalscore te bepalen.

 

Testen als deel van de cursusassessment

Bij het ontwikkelen van een toets voor een cursus, kan deze over het algemeen niet worden ‘getest’. Wel kunnen de data van een afname worden gebruikt om de toets voor het daaropvolgende jaar te verfijnen. Statistische programma’s, zoals SPSS, kunnen worden gebruikt om de betrouwbaarheid van een test te achterhalen. De betrouwbaarheid hoeft niet in alle situaties even hoog te zijn.

 

Assessment van ontwikkeling en leren in het hoger onderwijs

De klassieke testtheorie is ontwikkeld in de context van het meten van niet-observeerbare, maar over het algemeen redelijk stabiele trekken. Wanneer assessments op één moment worden gedaan, werkt een dergelijke benadering redelijk goed. Echter, in het onderwijs is men vaak geïnteresseerd in leren en verandering over de tijd heen. Doordat studenten en leercontexten uniek zijn, zijn assessments vaak beperkt in de mate waarin het mogelijk is om te voorspellen hoe een student op een bepaalde interventie zal reageren of welke aanpassingen beter voldoen aan de behoeften van de student. Om deze beperking te verminderen, zijn er twee assessmentbenaderingen ontwikkeld: dynamische assessment en systematische formatieve evaluatie.

 

Bij dynamische assessment krijgt de student taken niet op één gestandaardiseerde manier aangeboden, maar wordt instructie aangepast om de prestatie van een student in verschillende leercondities te beoordelen. Deze vorm van assessment kan bijvoorbeeld worden gebruikt voor het bepalen van de geschikte testaccommodaties voor studenten met beperkingen. De student krijgt dan korte verschillende vormen van tests aangeboden, om te bepalen welke accommodaties het meest geschikt zijn. Tevens kan de dynamische assessment worden gebruikt om de meest effectieve strategieën in de instructiecontext te evalueren. De student kan worden gevraagd om een academische taak onder verschillende omstandigheden uit te voeren, om vervolgens de prestatie in de verschillende omstandigheden te beoordelen.

 

Bij een systematische formatieve evaluatie wordt een instructionele aanpassing geïmplementeerd en wordt een assessment gedaan van de reactie op deze implementatie. Herhaaldelijke assessments bieden de kans om te onderzoeken of het prestatieniveau van de student is toegenomen en of het leertraject verbeterd is als gevolg van de interventie. Een systematische formatieve evaluatie heeft een aantal potentiële voordelen, waaronder de evaluatie van de specifieke instructiestrategie. Dit proces geeft meer inzicht in het verband tussen de kenmerken van de student, de taakeisen van de onderwijssetting en onderwijskundige accommodaties. Er bestaat ook een kans op positieve reactieve effecten op een systematische formatieve evaluatie. Voor de student kan het proces van deelname en voortdurende objectieve feedback de ontwikkeling van zelfgereguleerd leren en zelfbepaling faciliteren. Daarnaast kan de faculteit zich bewust worden van bepaalde strategieën, die vervolgens worden geïntegreerd in de onderwijspraktijken, waardoor de systematische formatieve evaluatie een positief reactief effect heeft op alle studenten.

 

Samenvattend kan worden gesteld dat dynamische assessment en systematische formatieve evaluatie gericht zijn op het verbeteren van de instructie en uiteindelijk het verbeteren van de leeruitkomsten door de reactie van studenten op interventies te onderzoeken.

 

Hoofdstuk 11: De itemresponstheorie in het hoger onderwijs

 

De itemresponstheorie is gebaseerd op de cognitieve psychologie en stelt dat zowel items of oefeningen als het vermogen van de respondent gerepresenteerd kunnen worden op een gemeenschappelijke schaal, die een nauwkeurige reflectie is van een bepaalde latente trek. Het is de bedoeling dat items en het vermogen van de respondent onafhankelijk van elkaar worden geschaald, zodat de items persoon-onafhankelijk zijn en personen item-onafhankelijk zijn.

 

Het ontwerpen van een schaal die op de itemresponstheorie is gebaseerd, is complex. Allereerst wordt een antwoord op een item door een respondent met een bepaald vermogen beoordeeld als correct of incorrect, wat informatie geeft over kenmerken van dat item. Deze evaluatie wordt herhaald voor vele respondenten, ieder met een ander, maar onbekend, vermogen, die samen een normaalverdeling van vermogens vormen. Een groot aantal respondenten is nodig voor dit item-evaluatieproces. De itemkenmerken die worden bepaald, zijn vaak de moeilijkheidsgraad, onderscheidend vermogen en de kans dat een respondent met een laag vermogen goed gokt. Dit proces wordt voor ieder item op de test herhaald.

 

Tegelijkertijd wordt een omgekeerd proces uitgevoerd voor respondenten, om hun vermogens met de itemresponstheorie schaal te bepalen. Bij dit proces wordt de kans berekend dat een respondent een item met bepaalde kenmerken correct beantwoordt. Dit proces wordt herhaald voor vele items met verschillende maten van ieder kenmerk. De items die de respondent moet beantwoorden, vertonen dus een reeks van waarden voor ieder itemkenmerk en het vermogen van de respondent wordt bepaald in relatie tot zijn/haar reacties binnen de reeks van itemkenmerken. Dit proces wordt herhaald, tot een stopcriterium wordt bereikt. Meestal wordt een criterium van 0.5 kans gebruikt als het stopcriterium: de respondent heeft 50% kans dat hij/zij items op dat niveau correct beantwoordt. Deze waarde is verschillend voor iedere respondent en wordt beschouwd als de beste schatting van het vermogen van een respondent.

 

De formules die worden gebruikt voor de hierboven beschreven processen, manifesteren belangrijke aannames van de itemresponstheorie, waaronder de volgende:

  1. De unidimensionaliteit van items en tests. Een enkel vermogen wordt gemeten door een set items: de latente dimensie. In de praktijk kan niet volledig aan deze aanname worden voldaan, omdat de prestatie op een test wordt beïnvloed door de interactie tussen vele irrelevante factoren (bijvoorbeeld testomstandigheden en persoonlijkheid). Desondanks veronderstelt deze aanname dat een enkele ‘latency’ dominant is in de combinatie van beïnvloedende factoren en dat de dominantie van dit facet voldoende is om het vermogen van een respondent te verklaren.

  2. Lokale onafhankelijkheid: een reactie op een item is een gevolg van die stimuli. Deze aanname veronderstelt dat een respondent bij het beantwoorden van een item geen gebruik maakt van aanwijzingen van een ander item of iets anders. De itemresponstheorie kijkt naar de kans dat een respondent een bepaald antwoord geeft op een item met bepaalde kenmerken. Omdat tests meerdere items bevatten, vermenigvuldigt deze kans zich met ieder extra item: de reactie op items is de kans op een correct antwoord op item 1 x een evenredige kans op een correct antwoord op item 2, enzovoorts. De reactie van een respondent op een set items is dus een gezamenlijke kans.

 

Bij itemresponstheorie schalen worden er vaak één, twee of drie itemkenmerken gebruikt: onderscheidend vermogen, moeilijkheidsgraad en/of pseudo-kans (gokken). Deze kenmerken kunnen worden weergegeven in een itemkenmerkcurve (zie figuur 1). Omdat de waarden voor ieder kenmerk verschillend zijn voor ieder item, zijn er evenveel itemkenmerkcurves als items.

 

Figuur 1. Itemkenmerkcurve

 

De X-as representeert het continuüm van de latente trek: het vermogen (θ). Niet het gehele continuüm wordt in de grafiek weergegeven, maar alleen het gemiddelde 0 plus en min drie standaardafwijkingen, omdat dit continuüm het grootste gedeelte van de populatie omvat. De Y-as toont de kans op vermogen: P(θ). Deze kans varieert van 0 (geen kans) tot en met 1 (perfecte kans). De itemkenmerkcurve is niet perfect lineair. Dit betekent dat de kans op een correct antwoord op het item niet uniform is voor de gehele reeks vermogens, hoewel de kans wel altijd stijgt. Zo hebben respondenten met een score op de X-as van -3 of -2 een bijna even grote kans op een correct antwoord, wat eveneens geldt voor respondenten met een X-score van 2 of 3. Dit is logisch, aangezien het onderscheidend vermogen van test items verschilt voor respondenten: meestal is het onderscheidend vermogen van een item voor respondenten met een zeer laag of zeer hoog vermogen kleiner. Het onderscheidend vermogen is het grootst voor respondenten in het midden (plus en min één standaardafwijking van het gemiddelde). De lijn verschilt voor ieder item: een item met een hoog onderscheidend vermogen heeft een veel steilere lijn dan een item met een laag onderscheidend vermogen.

 

Het punt waarop de kans op een correct antwoord ongeveer 0.5 is, wordt het buigpunt (‘inflection point’) genoemd, omdat de kromming van de lijn hier verandert. Het buigpunt ligt rond het gemiddelde (0). Met andere woorden: dit specifieke item is het meest geschikt voor respondenten met een gemiddeld vermogen in de latente trek. Het buigpunt reflecteert de moeilijkheidsgraad. Bij gemakkelijkere items ligt dit punt aan de linkerkant van het gemiddelde (0), terwijl het voor moeilijkere items aan de rechterkant van het gemiddelde ligt. De moeilijkheidsgraad voor een groep waarbij de latente trek normaal verdeeld is, is optimaal (0.5) als het inflectiepunt precies 0 is.

 

De mate waarin gokken invloed heeft op de prestatie van respondenten, kan in de itemkenmerkcurve worden afgelezen op het begin van het ogief, waar het vermogen zeer laag is. Voor het item in figuur 1 begint de kans op een correct antwoord met ongeveer 0.05: iemand met een vermogen van -3 (gemiddelde min drie standaardafwijkingen) heeft 5% kans om een antwoord correct te gokken.

 

Veelgebruikte itemresponstheorie modellen

Rasch model

Het meest voorkomende, en een van de simpelste itemresponstheorie modellen, is het Rasch model. Dit model wordt ook wel het een-parameter model genoemd, omdat de enige parameter in dit model de moeilijkheidsgraad is. Op basis van dit model is de kans op een correct antwoord groter voor een makkelijk dan een moeilijk item en voor een persoon met meer vermogen dan voor een persoon met minder vermogen. Als de moeilijkheidsgraad van een item hetzelfde is als het vermogen van een persoon, heeft hij/zij 50% kans om dat item correct te beantwoorden. Bij het Rasch model variëren de itemkenmerkcurves van alle items alleen in hun locatie op het continuüm van vermogen (X-as).

 

Twee-parameter logistiek model

Het twee-parameter logistiek model omvat niet alleen de moeilijkheidsgraad, maar ook het onderscheidend vermogen van een item. Bij dit model zijn items niet evenredig gerelateerd aan vermogen. Een item met een hoog onderscheidend vermogen overdrijft het verschil tussen de moeilijkheidsgraad en het vermogen.

 

Drie-parameter logistiek model

Het drie-parameter model neemt ook de kans in aanmerking dat een respondent met een laag vermogen een antwoord goed gokt. In dit model heeft een individu met een oneindig laag vermogen nog steeds een kans om het antwoord goed te gokken.

 

Itemresponstheorie modellen met polytome items

Er zijn ook itemresponstheorie modellen voor het schatten van itemkenmerken en het vermogen van respondenten voor polytome items, zoals Likert schaal of essays die een cijfer op een schaal krijgen.

 

Schatting van het vermogen van een individu

Er bestaan drie methoden voor het schatten van het vermogen van een individu:

  • Maximum kans schatting (‘maximum likelihood estimation’; MLE): het niveau van vermogen waarbij de kans op het reactiepatroon van het individu het grootst is, is de schatting.

  • Maximum a posteriori (MAP): Bayesiaanse schattingsmethode, waarbij een eerdere verdeling wordt gespecificeerd voor vermogen. Deze methode wordt vaak ‘Bayes modale schatting’ genoemd.

  • Verwacht a posteriori (‘expected a posteriori’; EAP): Bayesiaanse schattingsmethode, waarbij de eerdere verdeling bestaat uit een eindig aantal niveaus van vermogen. Het gemiddelde van de eerdere verdeling is de schatting van het vermogen van de persoon.

 

Itemkalibratie

Het schatten van parameters van items wordt ‘itemkalibratie’ genoemd. De meest gebruikte itemkalibratiemethoden zijn:

  • Gezamenlijke maximum kans (‘joint maximum likelihood’; JML): de parameters van items en personen worden gezamenlijk geschat. Door een procedure te herhalen, worden schattingen voor parameters iedere keer verbeterd totdat er bevredigende resultaten zijn bereikt. Kan gebruikt worden bij één-, twee- of drie-parameter modellen, of samen met Bayesiaanse methoden als er eerdere verdelingen van de items beschikbaar zijn.

  • Marginale maximum kans (MML): alleen item parameters worden geschat. Meestal is een groot aantal respondenten vereist om een goede verdeling van vermogen te krijgen. Kan gebruikt worden bij één-, twee- of drie-parameter modellen, of samen met Bayesiaanse methoden als er eerdere verdelingen van de items beschikbaar zijn.

  • Conditionele maximum kans (CML): kan alleen worden toegepast op het Rasch model, waarbij de totaalscores voldoende zijn en er geen integratie met de verdeling van vermogen noodzakelijk is.

 

Item en test informatie

Item informatie functie (IIF) is de mathematische manier om te berekenen hoeveel informatie iedere itemkenmerkcurve bevat. De hoeveelheid informatie is groter als de moeilijkheidsgraad dichter bij het niveau van vermogen ligt, als het onderscheidend vermogen groter is en als de lage asymptoot dichter bij 0 ligt. De test informatie functie (TIF) is de som van alle IIF’s in de test.

 

Fit van het model

Het is belangrijk om te achterhalen in welke mate de aannames van het itemresponstheorie model valide zijn voor de data en hoe goed de data passen op het model dat voor die specifieke situatie is geselecteerd. De fit van het model kan worden beoordeeld op model-, item- of persoonsniveau. Goodness-of-fit statistieken, zoals Pearsons chi-kwadraattoets, kunnen worden gebruikt om de fit tussen het model en de data te testen. Daarnaast kunnen ze worden gebruikt om genestelde modellen met elkaar te vergelijken. Zo is het één-parameter model in het twee-parameter model genesteld. Een niet-significant chi-kwadraat verschil duidt erop dat het simpele (één-parameter) model even goed op de data past als het meer complexe (twee-parameter) model. In dat geval dient het simpele model geselecteerd te worden. Bij een significant chi-kwadraat verschil daarentegen moet het twee-parameter model worden gekozen, omdat het één-parameter model dan niet voldoende parameters bevat om de data adequaat weer te geven.

 

Op itemniveau beoordeelt de ‘likelihood ratio’ (LR) test de discrepantie tussen het verwachte en het daadwerkelijke reactiepatroon van de respondenten op een bepaald item in relatie tot hun prestatie op de gehele test. Door een vergelijking te maken tussen de geschatte itemresponscurve (gebaseerd op het model) en een empirische itemresponscurve (gebaseerd op de daadwerkelijke data) kan het verschil tussen beide statistisch of grafisch worden weergegeven.

 

De fit op persoonsniveau wordt gebaseerd op de consistentie van het reactiepatroon van een persoon met het itemresponstheorie model. Door reactiepatronen te analyseren, kunnen mensen met afwijkende reacties worden geïdentificeerd. Afwijkende reactiepatronen kunnen het gevolg zijn van vermoeidheid, een lage motivatie, spieken, enzovoorts.

 

Hoofdstuk 13: Betrouwbaarheid

 

Scorebetrouwbaarheid verwijst naar de mate waarin een score ‘iets’ in plaats van ‘niets’ zegt. Scores zeggen bijvoorbeeld ‘niets’ als ze puur willekeurig zijn. Door de onvermijdelijke invloed van meetfouten zijn scores nooit perfect betrouwbaar. Over het algemeen zijn fysieke metingen betrouwbaarder dan scores die constructen reflecteren, die niet direct observeerbaar zijn, zoals intelligentie. Echter, zelfs fysieke metingen zijn niet perfect. De vraag is dus niet of scores perfect betrouwbaar zijn, maar in welke mate ze betrouwbaar zijn.

 

Betrouwbaarheidscoëfficiënten als variabiliteitsratio’s

Spearman stelde dat we van de variabiliteit in data, de proportie (het percentage) moesten kwantificeren dat niet-willekeurig is. Een betrouwbaarheidscoëfficiënt is altijd een ratio van twee statistieken die niet negatief kunnen zijn, is een betrouwbaarheidsefficiënt ook altijd positief.

 

Klassieke theorie

Spearman’s idee was dat men de daadwerkelijke score moet schatten om de betrouwbare kwadraatsom te berekenen. De daadwerkelijke score kan worden geconceptualiseerd als het gemiddelde van een oneindig grote steekproef van herhaaldelijke metingen van een individu, ervan uitgaande dat er geen leereffecten of effecten door veranderende motivatie plaatsvinden. Er zijn drie soorten betrouwbaarheidsschattingen, die gebaseerd zijn op de klassieke theorie.

 

Test-hertest of stabiliteitsbetrouwbaarheid

Een manier om de daadwerkelijke scores van een set participanten te schatten, is om een meting een aantal keren bij dezelfde participanten te herhalen. Als er twee sets van scores op een bepaald instrument worden verzameld, wordt de test-hertest betrouwbaarheid berekend met behulp van Pearson’s correlatie (r) tussen de twee sets scores.

 

Equivalentie betrouwbaarheid

Soms worden er meetinstrumenten ontwikkeld, die equivalent moeten zijn. Equivalente tests zijn bijvoorbeeld nuttig bij experimenten met een voor- en nameting en minimaliseren de kans op een leereffect. De equivalentie betrouwbaarheidscoëfficiënt wordt berekend met behulp van Pearson’s r tussen de scores van de participanten op versie A en versie B.

 

Interne consistentie betrouwbaarheid

Als de scores op verschillende items sterk met elkaar samenhangen, kan men ervan uitgaan dat dit instrument ‘iets’ in plaats van ‘niets’ zegt. De interne consistentie betrouwbaarheidscoëfficiënt wordt berekend door te kijken naar de correlaties tussen itemscores. Voor deze berekening kunnen twee benaderingen worden gebruikt.

 

Split-half betrouwbaarheid

Eén van deze benaderingen is om de items willekeurig in twee subsets op te splitsen. Vervolgens wordt de totaalscore voor iedere subset berekend en wordt Pearson’s r voor de twee sets van subset totaalscores berekend. Echter, bij deze formule wordt de betrouwbaarheid berekend voor een instrument dat de helft korter is dan het oorspronkelijke instrument. Om hiervoor te corrigeren, kan de aanvankelijke split-half betrouwbaarheidscoëfficiënt met behulp van de Spearman-Brown correctieformule worden omgezet. De Spearman-brown formule kan ook worden gebruikt om te achterhalen met hoeveel items de test moet worden uitgebreid om een gewenste betrouwbaarheid te bereiken.

 

Cronbach’s alpha

Een probleem met split-half betrouwbaarheid is dat er een groot aantal mogelijkheden is om de test in tweeën te splitsen. Dit aantal neemt met het aantal items op de test toe. Iedere mogelijkheid kan resulteren in een andere betrouwbaarheidscoëfficiënt. De Kruder-Richardson-20 formule (KR-20 formule) kan worden gebruikt om de gemiddelde betrouwbaarheidscoëfficiënt van al deze manieren te schatten, zonder al deze manieren uit te hoeven voeren en de bijbehorende berekeningen te moeten doen. De KR-20 formule kan alleen worden gebruikt voor meetinstrumenten met dichotome items. Omdat in de sociale wetenschappen vaak gebruik worden gemaakt van items die niet dichotoom zijn, is Cronbach’s alpha (α) ontwikkeld.

 

De totale scorevariantie heeft een grote invloed op de scorebetrouwbaarheid. Scorebetrouwbaarheid verwijst naar de stabiliteit van de rangordering van participanten. Als de scores op zowel meting 1 als meting 2 aanzienlijk variëren, is de scorebetrouwbaarheid groter, omdat dan de kans kleiner is dat kleine willekeurige fluctuaties op één of beide metingen invloed hebben op de rangordening van participanten op deze twee sets. Dus hoe groter de totale scorevariantie, hoe groter de betrouwbaarheid.

 

Moderne theorie

Sinds 1970 zijn er nieuwe psychometrische modellen ontwikkeld, die meer geavanceerd en complex zijn. Met betrekking tot scorebetrouwbaarheid is de generaliseerbaarheidstheorie, ook wel de G theorie genoemd, wellicht de belangrijkste moderne theorie. De G theorie gebruikt variantieanalyse (ANOVA) om de verschillende bronnen van systematische en meetfouten te verdelen, die ten grondslag liggen aan een set scores. Deze theorie heeft in vergelijking met de klassieke theorie drie belangrijke voordelen:

  • Schattingen op basis van de G theorie kunnen alle bronnen van meetfouten tegelijkertijd in aanmerking nemen, terwijl schattingen op basis van de klassieke theorie slechts één bron van meetfouten tegelijkertijd in aanmerking kunnen nemen.

  • In werkelijkheid interacteren bronnen van meetfouten met elkaar, wat leidt tot meer foutenvariantie in de vorm van meetfout interactie-effecten. Alleen een moderne theorie, zoals de G theorie, kan zowel meetfout hoofdeffecten als meetfut interactie-effecten in aanmerking nemen.

  • De G theorie kan gebruikt worden om verschillende betrouwbaarheidscoëfficiënten te schatten voor het gebruiken van scores voor het maken van relatieve in plaats van absolute beslissingen. Voor het maken van relatieve beslissingen wordt een generaliseerbaarheidscoëfficiënt berekend, terwijl een phi coëfficiënt wordt berekend voor situaties waarin scores worden gebruikt om absolute beslissingen te maken.

 

 

Tests zijn niet betrouwbaar

Vaak wordt gesproken van de ‘betrouwbaarheid van tests’. Echter, betrouwbaarheid is een eigenschap die van toepassing is op scores en die kan verschillen tussen situaties waarin een instrument wordt gebruikt. Als een instrument 100 keer wordt afgenomen, kan dit leiden tot 100 verschillende betrouwbaarheidscoëfficiënten. Kortom, een test is niet ‘betrouwbaar’ of ‘onbetrouwbaar’. Betrouwbaarheid is een eigenschap van de scores op een test voor een bepaalde groep respondenten.

 

Itemanalyse

Een zeer nuttig resultaat van itemanalyses is de ‘α-if-item-deleted’ statistiek. Items verschillen in kwaliteit en soms wordt de betrouwbaarheidscoëfficiënt groter als een bepaald item uit de test wordt verwijderd.

 

Als een grote betrouwbaarheid betekent dat de itemscores sterk met elkaar samenhangen, betekent dit ook dat de scores op een bepaald item en de totaalscore sterk met elkaar samenhangen. Je kunt bijvoorbeeld verwachten dat iemand die een item juist heeft beantwoord een hogere totaalscore heeft dan degene die dit item niet goed heeft beantwoord. Discriminatiecoëfficiënten zijn correlatiecoëfficiënten, die kwantificeren hoe goed items het in dit opzicht doen. Een item met een discriminatiecoëfficiënt nabij 0, kan mogelijk uit de test worden verwijderd en een item met een negatieve discriminatiecoëfficiënt zou zeker uit de test verwijderd moeten worden.

 

Hoofdstuk 14: Validiteit

 

Assessments in het hoger onderwijs worden voor veel verschillende doeleinden gebruikt. Het is van groot belang dat de ontwikkelaars en gebruikers van tests de effectiviteit van de test voor specifieke soorten gebruik beoordelen. Als een test bijvoorbeeld wordt gebruikt om te beoordelen of de studenten de lesstof hebben geleerd, moet worden onderzocht of de test de lesstof daadwerkelijk dekt. Er moet dus onderzocht worden of een test daadwerkelijk meet wat het beoogt te meten. Dit type onderzoek wordt valideringsonderzoek genoemd: onderzoek om te bepalen of onze interpretaties van de testscores kloppen.

 

Vanwege de vele verschillende manieren waarop tests in het hoger onderwijs gebruikt kunnen worden, zijn er verschillende soorten onderzoeksmethoden nodig om de validiteit en het nut van de tests te beoordelen. Dit onderzoek bespreekt drie verschillende validiteitsbenaderingen: inhoudsvaliditeit, criteriumvaliditeit en constructvaliditeit.

 

Inhoudsvaliditeit

Inhoudsvaliditeit verwijst naar de mate waarin de inhoud van een test een gedefinieerd domein representeert, zoals de lesstof van een specifieke cursus. Een beperking van deze benadering is dat het in hoge mate steunt op oordelen van individuen, zoals faculteitsleden. Daarnaast is er een kans op een bevestigingsbias. Dit kan bijvoorbeeld het geval zijn wanneer iemand die een testuitgever representeert gevraagd wordt om de relevantie van een item te beoordelen. Deze persoon kan dan geneigd zijn om overeen te stemmen met de schrijver van het item.

 

De inhoudsbenadering speelt een belangrijke rol bij het testen van prestaties, door aan te tonen in welke mate een test de belangrijke kennis en vaardigheden meet die nodig zijn om succesvol te zijn in een specifiek academisch domein. Echter, deze benadering alleen is geen geschikte manier om toekomstige prestaties te voorspellen of om conclusies over testscores te trekken, omdat het aantal relevante taken geen informatie geeft over de mate waarin de taken academisch succes meten. Een inhoudelijke beoordeling van een wiskundetoets kan bijvoorbeeld wel iets zeggen over het aantal en type verschillende aspecten van vragen op de toets, maar dit geeft geen informatie over het vermogen van de testscores om wiskundige vaardigheden te voorspellen.

 

Criteriumvaliditeit

Criteriumvaliditeit verwijst naar de mate waarin testscores gerelateerd zijn aan toekomstige prestaties. Er kan onderscheid worden gemaakt tussen twee soorten criteriumvaliditeit:

  • Voorspellende (predictieve) validiteit: de mate waarin testscores toekomstige prestaties kunnen voorspellen.

  • Gelijktijdige (concurrent) validiteit: de mate waarin de scores op de ene test samenhangen met de scores op een andere test van huidig presteren.

 

Tests die huidige of toekomstige prestaties kunnen inschatten, kunnen worden gebruikt bij bijvoorbeeld toelatingen of plaatsingen in een cursus. Eén van de problemen met criteriumvaliditeit is het kiezen van een geschikte meting van het criterium. Niet alle criteria kunnen even objectief of gemakkelijk worden gemeten. Criteriummetingen zijn beperkt in de zin dat ze slechts een deel van een variabele kunnen meten. Geen enkele criteriummeting kan alle componenten van succes meten.

 

Criteria kunnen worden geclassificeerd als onmiddellijk, tussenliggend of uiteindelijk, afhankelijk van hoe lang je moet wachten om het criterium te bereiken. Hoe langer men wacht, hoe beter het criterium, maar meestal wordt er gebruik gemaakt van onmiddellijke of tussenliggende criteria.

 

Er zijn een aantal statistische problemen met betrekking tot predictieve validiteitstudies. Als bepaalde studenten op basis van een test worden toegelaten en slecht presterende studenten worden afgewezen, worden de afgewezen studenten niet meegenomen in het onderzoek. Dit fenomeen wordt bereikbeperking (‘range restriction’) of vermindering (‘curtailment’) genoemd. Het gevolg hiervan is dat de sterkte van het verband aanzienlijk wordt verminderd dan wanneer de gehele groep van toegelaten en afgewezen studenten wordt onderzocht.

 

Daarnaast wordt de samenhang tussen een voorspeller en een criterium kleiner wanneer één of beide variabelen onbetrouwbaar zijn. Dit fenomeen wordt demping (‘attenuation’) genoemd. Er bestaan manieren om hiervoor te corrigeren, maar dit kan misleidende resultaten tot gevolg hebben. Het is bovendien zelden gepast om in een validiteitsstudie te corrigeren voor een lage betrouwbaarheid van een voorspeller, omdat een hoge betrouwbaarheid over het algemeen een vereiste is voor validiteit. Het corrigeren voor lage betrouwbaarheid van een criterium lijkt meer gepast. Er kan voor lage betrouwbaarheid worden gecorrigeerd door te schatten wat de winst in voorspelling zou zijn, als de voorspeller meer betrouwbaar zou worden gemaakt, bijvoorbeeld door meer items toe te voegen.

 

Constructvaliditeit

Constructvaliditeit verwijst naar de mate waarin de testscores daadwerkelijk een indicatie zijn voor het construct waarover je een uitspraak wilt doen. Een construct is een niet zichtbaar kenmerk van een persoon, waarvan wordt aangenomen dat deze wordt gereflecteerd door een testscore, zoals intelligentie. Ontwikkelaars van tests gebruiken theorie om het verband tussen de testscore en het construct te onderbouwen. Er kan onderscheid worden gemaakt tussen twee soorten constructvaliditeit:

  • Convergente validiteit: de mate waarin er een positief verband bestaat tussen de variabelen, bijvoorbeeld tussen de score op de betreffende test en de score op een gelijksoortige test of tussen de testscore en zichtbaar gedrag. Hoe sterker dit verband, hoe hoger de convergente validiteit.

  • Discriminante validiteit: de mate waarin niet-gerelateerde assessments (bijvoorbeeld het lees- en rekenonderdeel van een test) met elkaar samenhangen. Hoe zwakker dit verband, hoe hoger de divergente validiteit.

 

Er zijn verschillende mogelijke bronnen van invaliditeit:

  • Construct onderrepresentatie: belangrijke constructcomponenten in een test ontbreken, bijvoorbeeld het ontbreken van een luisteronderdeel op een toets voor een vreemde taal.

  • Aanwezigheid van construct-irrelevante componenten: een test omvat items die irrelevant zijn voor het construct dat de test beoogt te meten, bijvoorbeeld Engelse vocabulaire items op een toets voor Frans.

 

Verenigde benadering van validiteit

Aanvankelijk werden inhoudsvaliditeit, criteriumvaliditeit en constructvaliditeit beschouwd als drie verschillende soorten validiteit. Echter, tegenwoordig wordt constructvaliditeit beschouwd als een overkoepelend concept, dat alle andere validiteitsbenaderingen omvat. De meeste validiteitsstudies kunnen worden gezien als vallend onder ‘constructvaliditeit, omdat het doel van de studies is om te onderzoeken hoe succesvol de test is in het meten van het beoogde construct, terwijl de invloed van andere constructen wordt geminimaliseerd.

 

Validiteit van toelatingstests

Tests worden vaak gebruikt om studenten toe te laten voor bijvoorbeeld een universiteit. Het gebruik van tests voor dit doeleinde is controversieel vanwege het belang van deze beslissingen en omdat de gemiddelde testprestatie van etnische en raciale minderheidsgroepen soms lager is. Daarom is de validiteit van toelatingstests van groot belang.

 

De meest gebruikte validiteitsbenadering voor toelatingstests is criteriumvaliditeit. Vaak wordt de correlatiecoëfficiënt berekend tussen de testscore, alleen of in combinatie met andere voorspellers, en het ‘grade point average’ (GPA) van het eerste jaar. Als alleen de testscore een voorspeller is, biedt een sterke correlatie tussen de score en de GPA bewijs voor het gebruik van de test voor beslissingen omtrent toelating. Als de testscore gecombineerd wordt met andere voorspellers, zoals GPA op de middelbare school, kijkt men of er als gevolg van de toevoeging van de testscore sprake is van een toename in de multipele correlatie of R2 (de proportie variantie in de uitkomst die door de voorspellers wordt verklaard). Bij het gebruik van multipele regressie wijst een toename in R2 op het nut van toelatingstests boven het gebruik van alleen GPA voor het maken van een toelatingsbeslissing.

 

Hoewel cijfers op de middelbare school (GPA) een voorspeller zijn van cijfers in het hoger onderwijs, is GPA niet nuttig als enkele voorspeller door inconsistenties in de manier waarop cijfers worden gegeven en door cijferinflatie. Omdat een toelatingstest gestandaardiseerd is en voor alle studenten hetzelfde wordt gescoord, is dit een goede manier om studenten op eerlijke wijze met elkaar te vergelijken. Studies hebben consistent aangetoond dat scores op toelatingstests een positief effect hebben op de mate waarin succes in het hoger onderwijs kan worden voorspeld.

 

Het nut van een selectie-instrument is afhankelijk van drie variabelen:

  • De correlatie tussen de voorspeller en succes op het criterium

  • De mate van selectie: het percentage aanvragers/sollicitanten dat wordt geselecteerd

  • ‘Base rate’ van succes in de populatie: het percentage aanvragers/sollicitanten dat succesvol zou zijn als er geen toelatingscriteria gebruikt zouden worden voor het selecteren van sollicitanten

 

Als de mate van selectie laag is (als een school zeer selectief is) leidt zelfs een matige correlatie tussen de voorspeller en de criteria tot een grote verbetering van de ‘base rate’ van succes. Hoe hoger de correlatie, hoe groter het nut van de toelatingstest. Echter, het voordeel van een toelatingstest neemt af naarmate de mate van selectie toeneemt: als bijna alle aanvragers/sollicitanten worden toegelaten, leidt het gebruik van de toelatingstest niet tot een grote verandering in de samenstelling van de groep studenten.

 

Andere scholen accepteren studenten die voldoen aan hun minimale toelatingsvereiste in plaats van een beperkt aantal studenten te selecteren. Naast vakkenvereisten worden studenten vaak geselecteerd als ze een bepaald GPA hebben en/of een toelatingstestscore boven een bepaalde waarde. Een tweede veelvoorkomende benadering is om deze instrumenten op een compenserende manier te gebruiken, waarbij sterke kanten kunnen compenseren voor zwakke punten. Zo kan een student met een lage score op de toelatingstest toch worden toegelaten als zijn/haar GPA hoog genoeg is. De ‘multiple cutoff’ of ‘hurdle’ benadering is meer strikt. Hierbij moeten studenten zowel een GPA als een toelatingstestscore boven een bepaalde waarde hebben.

 

Als GPA en scores op de toelatingstest bij het maken van een toelatingsbeslissing afzonderlijk worden beschouwd, moet de validiteitsstudie hierop worden aangepast. Een studie moet zich dan niet enkel richten op de gecombineerde voorspellende waarde van de GPA en testscore, maar ook op de individuele correlaties tussen testscores en GPA in het eerste jaar.

 

Zoals hierboven al genoemd, hebben validiteitsstudies te maken voor toelatingstests te maken met het feit dat de verdeling van scores in de geselecteerde steekproef beperkt is en dus kleiner is dan in de gehele populatie, omdat alleen de ‘beste’ studenten worden toegelaten. Bovendien kiezen studenten met zeer hoge scores vaker de meer selectieve scholen, waardoor het totale bereik van scores op een instelling verder wordt beperkt. In dit geval kunnen correcties worden gebruikt. Echter, hiervoor is informatie over de volledige populatie nodig, die niet altijd beschikbaar is. Als correcties zijn toegepast op correlaties, moeten zowel de ongecorrigeerde als de gecorrigeerde correlaties worden toegepast.

 

Tot nu toe lag de focus op de criteriumvaliditeit van toelatingstests. Het gebruik van toelatingstests wordt daarnaast ondersteund door inhoudsvaliditeit. De ACT en SAT (toelatingstests in de Verenigde Staten) meten vaardigheden en redeneervermogens die studenten aan het eind van de middelbare school verworven zouden moeten hebben.

 

Validiteit omvat het in aanmerking nemen van de gevolgen van tests. Er bestaat consensus over het idee dat schrijfvaardigheden noodzakelijk zijn voor succes in het hoger onderwijs. Daarom heeft het toevoegen van schrijftests aan de SAT en ACT een aantal voordelen:

  • Het biedt verder bewijs voor een construct match tussen de kennis en vaardigheden die op de middelbare school worden verworven en die in het hoger onderwijs nodig zijn.

  • Middelbare scholen worden gedwongen om schrijfvaardigheden aan te leren, als ze willen dat hun studenten een hoge testscore behalen.

 

Een meta-analyse is een onderzoekstechniek, die de resultaten van verschillende studies met elkaar combineert. Als dit wordt toegepast op de resultaten van validiteitsstudies, wordt dit validiteitsgeneralisatie genoemd. De resultaten van dergelijke studies hebben aangetoond dat tests, zoals SAT en ACT, over het algemeen redelijk valide zijn voor verschillende instellingen.

 

Validiteit van tests voor plaatsing en vrijstelling

Cursussen volgen elkaar vaak op, op een manier waarbij beheersing van het materiaal van de ene cursus vereist is om te kunnen slagen in een volgende cursus. Een student kan op basis van zijn/haar kennis- en vaardigheidsniveau in de meest geschikte cursus worden geplaatst. Voor een dergelijke beslissing moet eerst de criteriumvaliditeit (in dit geval de voorspellende validiteit) worden beoordeeld van de test voor alle cursussen, waarin de student geplaatst kan worden.

 

Wanneer een student het materiaal van een bepaalde cursus al beheerst, kan hij/zij hiervoor vrijstelling krijgen. Voor het maken van deze beslissing wordt gebruik gemaakt van inhoudsvaliditeit. Eerst moet worden bepaald wat studenten in de cursus leren (niet wat ze worden geacht te leren, maar wat ze daadwerkelijk leren). Een test op basis waarvan een student vrijstelling voor een cursus kan krijgen moet gelijkwaardig zijn aan een tentamen voor die cursus, ervan uitgaande dat dit tentamen representatief is voor de lesstof.

 

Voor sommige instellingen kan het nuttig zijn om een itembank te gebruiken, die bestaat uit vele testitems, die gebruikt kunnen worden om verschillende tests te construeren. Een groot voordeel hiervan is dat item statistieken, zoals moeilijkheidsgraad en onderscheidend vermogen, al bekend zijn en in aanmerking genomen kunnen worden bij het construeren van een test. Als een itembank op de juiste manier wordt gebruikt, kan het het proces van testconstructie faciliteren en leiden tot tests van hoge kwaliteit. Echter, er bestaat geen garantie dat een test uit een itembank resulteert in betrouwbare scores of een hoge validiteit. Hoewel het gebruik van een itembank de kwaliteit van tests kan vergroten, blijven de andere stappen in het valideringsproces noodzakelijk.

 

Validiteit van uitkomstassessment

Een uitkomstassessment beoordeelt wat studenten tijdens een cursus hebben geleerd. Hiervoor is inhoudsvaliditeit belangrijk. Dit type assessment verschilt van andersoortige assessments in de zin dat het wordt beschouwd als een assessment waarbij weinig op het spel staat. De validiteit van scores kan dan ontvankelijk zijn voor construct-irrelevante variantie door een verminderde motivatie van de student. Scores die in deze situatie worden verkregen, kunnen de kennis van studenten onderrepresenteren en daardoor de validiteit beïnvloeden van de beslissingen die op deze scores worden gebaseerd. Manieren om de motivatie van de studenten te vergroten, is het toevoegen van minder complexe items, het inzetten van beloningen en het veranderen van de gevolgen van de assessment.

 

Hoofdstuk 17: Inhoudelijke en statistische testspecificaties

 

Eén van de belangrijkste aspecten van onderwijskundig meten, is testontwikkeling. Testontwikkeling bestaat uit het ontwerpen van de test, het ontwikkelen van items, het ‘testen’ van de test in het veld, het beoordelen van de items, het verzamelen van items, het herzien van items, het maken van antwoordsleutels, een kwaliteitscontrole en het monitoren en verbeteren van testontwikkelingsprocedures. Dit hoofdstuk bespreekt het ontwerp van de test en specifiek op de ontwikkeling van inhoudelijke en statistische specificaties.

 

De term testinhoud duidt op het onderwerp van een item of test en verwijst naar een specifiek vermogen dat door het item of de test wordt gemeten. Inhoudelijke specificaties zijn een soort samenvatting van de inhoud van de test en omvatten een lijst algemene onderwerpen van een test. Daarnaast bevat het het relatieve belang van ieder gebied. Deze verschillende maten van belang worden vervolgens omgezet in het aantal items per categorie.

 

Statistische specificaties zijn een samenvatting over de testitems, zoals de gewenste moeilijkheidsgraad en het onderscheidend vermogen van de items. Het doel is dat de inhoudelijke en statistische testspecificaties helder zijn alvorens het construeren van de test.

 

De ontwikkeling van inhoudelijke en statistische testspecificaties is om twee redenen van groot belang:

  • Bij het ontwikkelen van de specificaties worden het construct- en testdomein gedefinieerd en beschreven en deze informatie wordt gebruikt bij het ontwikkelen van een assessment voor een bepaald doel. Met andere woorden: tijdens dit proces wordt het verband gelegd tussen de inhoud van de test en het construct dat de test beoogt te meten (= inhoudsvaliditeit).

  • De specificaties zijn nuttig bij het ontwikkelen van tests, die van elkaar verschillen, maar wel gelijkwaardig zijn (bijvoorbeeld een hertentamen).

 

Voordat de inhoudelijke en statistische testspecificaties geconstrueerd kunnen worden, moet het doeleinde van de test worden bepaald, omdat het doel invloed heeft op het ontwerp van de test, het verzamelen van de items, de testafname en het gebruik van de testscores. Hieronder zullen een aantal tests met verschillende doeleinden aan bod komen.

 

Klassenassessment

Bij de ontwikkeling van een klassenassessment (tentamen) moet het doel van de test duidelijk worden gedefinieerd. Meestal wordt een tentamen gebruikt om te bepalen in welke mate de studenten de lesstof beheersen (summatieve assessment). De mate van beheersing wordt gekwantificeerd door de testscore. Een valide interpretatie van de scores is deels afhankelijk van de mate waarin de testitems representatief zijn voor de behandelde lesstof.

 

Bij het ontwikkelen van de inhoudelijke specificaties van een tentamen kan onderscheid worden gemaakt tussen twee dimensies: een inhoudelijke dimensie (inhoudscategorieën) en een cognitieve dimensie (de intellectuele processen die voor een bepaalde taak nodig zijn). De cognitieve dimensie omvat vaak niveaus als reproductie, toepassing en inzicht.

 

Na het bepalen van de inhoud en cognitieve niveaus moet het relatieve belang van de verschillende categorieën worden vastgesteld. Bij een tentamen is dit proces vaak gebaseerd op één van de volgende factoren: de hoeveelheid tijd die tijdens de les aan de specifieke dimensie wordt besteed of het aantal doelen voor de dimensie. Ook subjectieve factoren spelen een rol, bijvoorbeeld wanneer de studenten moeite hadden met een bepaald onderwerp, wat ertoe heeft geleid dat hier meer tijd aan is besteed. Bij het ontwikkelen van een tentamen wordt het relatieve belang van de verschillende categorieën vaak direct vertaald in het aantal items per categorie. Hierdoor verschillen de categorieën in de mate waarin ze de totaalscore beïnvloeden.

 

Bij tentamens zijn de statistische specificaties meestal niet toepasbaar in de technische zin van het woord. De meeste docenten hebben geen tijd en middelen om items te testen, itemstatistieken te berekenen en op basis van die statistieken nieuwe items te ontwikkelen. Wel zouden docenten bewust aandacht moeten besteden aan de gewenste moeilijkheidsgraad van de test. Ditzelfde geldt voor de mate waarin de test in staat is om onderscheid te maken tussen studenten die de lesstof wel en niet beheersen.

 

Naast het feit dat inhoudelijke en statistische testspecificaties zorgen voor valide interpretatie van de testscores, zorgen ze er ook voor dat het mogelijk wordt om een gelijkwaardig hertentamen te construeren.

 

Grootschalige onderwijskundige assessments

Bij grootschalige onderwijskundige assessments verloopt het ontwikkelen van inhoudelijke en statistische testspecificaties veel formeler vanwege het verschil in doeleinde van de tests en in de beschikbare middelen voor testontwikkeling. Grootschalige assessments worden ontworpen om een veel groter publiek te bereiken dan een klassenassessment. Denk hierbij bijvoorbeeld aan de landelijke eindexamens op de middelbare school. Vaak vormen de testscores op dergelijke grootschalige assessments de basis voor belangrijke beslissingen, waardoor de validiteit van de testscores nog belangrijker is dan bij een klassenassesment.

 

Voor het ontwikkelen van de inhoudelijke testspecificaties kunnen curricula worden verzameld en kunnen landelijke maatstaven worden gebruikt. Om de inhoud van de test op de inhoud van het domein af te stemmen, kunnen vier criteria worden gebruikt:

  • Categorische overeenstemming: de test en het domein richten zich op dezelfde inhoudelijke categorieën.

  • Consistentie in de diepgang van de kennis: de complexiteit van de test komt overeen met de bedoelde complexiteit van de taak, zoals bijvoorbeeld wordt beschreven in een curriculum.

  • Correspondentie in het bereik van de kennis: de breedte en/of diepgang van de kennis op de test komt overeen met die in het domein.

  • Balans van representatie: de nadruk op ieder doel in de test komt overeen met de nadruk op ieder doel in het domein.

 

Als de inhoudelijke categorieën zijn bepaald, wordt het relatieve belang van ieder domein bepaald. Deze beslissing kan worden gemaakt door een panel van experts. Inhoudelijke testspecificaties moeten regelmatig worden gemonitord, bijvoorbeeld door curricula te verzamelen en bestuderen om verschuivingen in inhoud te ontdekken. Een andere manier is om een representatieve steekproef van docenten een vragenlijst over het curriculum te laten invullen. Tijdens de ontwikkeling van inhoudelijke en statistische testspecificaties moet aandacht worden besteed aan de steekproefprocedures, met name bij de volgende stappen:

  • Selecteren van participanten voor een grootschalige vragenlijst

  • Kiezen van de testinhoud van het domein: de inhoudelijke specificaties moeten representatief zijn voor het testdomein

  • Selecteren van participanten voor het maken van de testitems

 

Vooraf geteste items zijn items die afgenomen zijn bij een groep studenten, maar die geen invloed hebben op de testscores. Het doel hiervan is om de statistische kenmerken van de items te berekenen. Dit proces begint bij het scoren van de antwoorden van de studenten. Meerkeuzevragen zijn items die dichotoom worden gescoord: een correct antwoord krijgt een score van 1 en een onjuist antwoord een score van 0. Open vragen worden polytoom gescoord. Hierbij zijn er meer dan twee mogelijke scores. Polytoom gescoorde items worden later in dit hoofdstuk besproken.

 

In de klassieke testtheorie omvatten itemstatistieken de moeilijkheidsgraad en het onderscheidend vermogen. De meest gebruikte moeilijkheidsindex is de proportie van correcte antwoorden op een item. Deze index kan variëren van 0 (alle studenten hebben het item onjuist beantwoord) tot 1 (alle studenten hebben het item correct beantwoord). Met andere woorden: een hoge moeilijkheidsindex betekent dat veel studenten het item goed hebben beantwoord en het item dus relatief makkelijk is.

 

Eén van de meest simpele onderscheidende indices, is het verschil tussen de proportie ‘goede’ studenten die het item correct beantwoorden en de proportie ‘slechtere’ studenten die het item correct beantwoorden. Deze index kan variëren van -1 tot 1, maar is meestal een positieve waarde. Hoe hoger de index, hoe beter het item in staat is om onderscheid te maken tussen de betere en slechtere studenten. Items met een negatieve onderscheidende index duiden erop dat de studenten die de test slecht hebben gemaakt het item vaker juist beantwoorden dan de studenten die de test goed hebben gemaakt. Dit zou bij goed geconstrueerde tests niet het geval mogen zijn.

 

Het bepalen van de itemstatistieken is moeilijk bij de itemresponstheorie. Deze theorie probeert de prestatie van een student te verklaren op basis van één of meer van de volgende parameters: moeilijkheidsgraad, onderscheidend vermogen en gokken. Zowel de moeilijkheidsgraad als het onderscheidend vermogen van items wordt bij de itemresponstheorie anders berekend dan bij de klassieke testtheorie. Deze twee parameters worden bij de itemresponstheorie gebruikt bij het bepalen van de informatiefunctie van een item: deze functie toont voor welk prestatieniveau het item de meest precieze schatting kan maken. De informatiefunctie van alle items kunnen worden gecombineerd om de informatiefunctie van de test te bepalen. De informatiefunctie van de test kan worden gebruikt om ervoor te zorgen dat de meest precieze testscores zich bevinden op de meest cruciale delen van de scoreschaal, zoals bij de afkapscore.

 

Daarnaast moet aandacht worden besteed aan de consistentie van de moeilijkheids- en onderscheidende indices tussen verschillende inhoudelijke gebieden. Stel je voor dat een test uit twee inhoudelijke categorieën bestaat, met ieder een relatief belang van 50%. De eerste categorie bevat zeer makkelijke items, terwijl de tweede categorie redelijk moeilijke items omvat. De variantie van de scores op de eerste categorie is relatief klein in vergelijking met de scorevariantie van de tweede categorie, waardoor de variantie van de totaalscores meer wordt beïnvloed door de tweede categorie. Met andere woorden: de totaalscores zullen verschillen door de verschillen in de scores op de tweede categorie, wat inhoudt dat de tweede categorie een grotere effectieve invloed heeft dan de eerste categorie, terwijl het relatieve belang even groot is.

 

Certificaatexamens

Certificaatexamens worden gebruikt om het competentieniveau van een sollicitant voor een bepaald beroep te bepalen. Op basis van deze tests worden dus zeer belangrijke beslissingen gemaakt. Het ontwikkelen van inhoudelijke specificaties voor certificaatexamens duurt vaak relatief lang. Als een test ontwikkeld wordt om te bepalen of een kandidaat beschikt over kennis en vaardigheden, die nodig zijn voor een bepaald beroep, moeten testontwikkelaars onder andere de volgende dingen doen:

  • Informatie verzamelen over de taken, kennis en vaardigheden van het beroep.

  • Het bepalen van het belang van de taken, kennis en vaardigheden in relatie tot succesvol beroepsmatig presteren.

  • Het vertalen van het belang van de taken, kennis en vaardigheden en een testontwerp.

 

Praktijkanalyse wordt gebruikt om informatie te verzamelen over de meest cruciale aspecten van de baan. Praktijkanalyse bestaat uit de volgende stappen:

  1. Een adviescomité samenstellen.

  2. De literatuur en documenten die relevant zijn voor het beroep bekijken.

  3. Beroepsbeoefenaars interviewen.

  4. Een vragenlijst construeren.

  5. Een pilottest van de vragenlijst uitvoeren.

  6. De vragenlijst afmaken en afnemen bij een bepaalde groep experts.

  7. De vragenlijstdata analyseren en rapporteren.

 

Vragenlijsten voor praktijkanalyses hangen af van het doel van de test. Meestal omvatten deze vragenlijsten:

  • Schalen met betrekking tot componenten van de baan: items over beroepsgerelateerde activiteiten en taken, bijvoorbeeld wat de activiteit is en de benodigde tijd, het belang en de moeilijkheid van de activiteit.

  • Schalen met betrekking tot componenten van de persoon: items over de kennis en vaardigheden die voor de baan vereist zijn.

 

Het format en de inhoud van de vragenlijsten voor praktijkanalyses variëren. Meestal hebben de antwoorden een Likert-format, waarbij participanten hun antwoord op een schaal van bijvoorbeeld 1 tot 3 moeten geven. Het belang van iedere testcategorie moet representatief zijn voor het belang van de vaardigheden die nodig zijn om succesvol te zijn in de baan.

 

Voordat een methode wordt gekozen om het belang van de verschillende categorieën te bepalen, is het belangrijk om er rekening mee te houden dat de antwoorden vaak ordinale waarden hebben. Data op ordinaal niveau definiëren een positie en geen grootte of kwantiteit: het verschil tussen een score van 1 (‘zelden’) en 2 (‘soms’) is bijvoorbeeld niet hetzelfde als het verschil tussen een score van 2 (‘soms’) en 3 (‘vaak’). Daarom kunnen ordinale data nooit bij elkaar worden opgeteld of met elkaar worden vermenigvuldigd.

 

Voorbeelden

De handleiding van een test bevat vaak een beschrijving van het proces van testontwikkeling, zodat de juiste test gekozen kan worden voor een specifiek doel. Zie bladzijde 249 en 250 voor een samenvatting van de inhoudelijke en statistische specificaties van twee grootschalige assessments: de ACT en de Praxis Series.

 

Praktische zaken

Factoren die inhoudelijke en statistische testspecificaties beïnvloeden

De inhoudelijke en statistische specificaties van een test worden niet alleen beïnvloed door het doeleinde van een test, maar ook door andere factoren. Allereerst is het van groot belang om het verband te leggen tussen het doel van de test en het testdomein. Als het doel van de test is om eerstejaars in de juiste cursus te plaatsen, moet het testdomein dan zijn gebaseerd op wat ze in het voortgezet onderwijs hebben geleerd of moet het testdomein dan zijn gebaseerd op de benodigde kennis en vaardigheden voor de cursus?

 

Een tweede belangrijke overweging is het omzetten van het relatieve belang van verschillende categorieën naar het aantal items. Hiervoor zijn verschillende methoden:

  • Het relatieve belang (in percentages) direct vertalen naar het aantal items (een categorie met een relatief belang van 25% wordt vertaald naar 25 items). Echter, omdat de relatieve belangen samen 100% zijn, moet worden bepaald of het wenselijk is dat de test 100 items bevat.

  • Het relatieve belang gebruiken als het percentage van items voor iedere categorie (een categorie met een relatief belang van 25% wordt vertaald naar 25% van de items op de totale test). Echter, iedere categorie moet uit voldoende items bestaan om te resulteren in een betrouwbare score, zeker als de subscore van iedere categorie worden gerapporteerd.

  • Het relatieve belang gebruiken als het percentage mogelijke punten voor iedere categorie (een categorie met een relatief belang van 25% wordt vertaald naar items met een totaalscore die 25% van de totaalscore is).

 

Er ontstaat een probleem met deze drie methoden als de moeilijkheidsgraad van de items erg verschilt tussen de verschillende categorieën. Als de scorevarianties voor de categorieën verschillen, is het effectieve belang van een categorie geen reflectie van het relatieve belang. Een laatste manier om het relatieve belang te vertalen in het aantal items is om het aantal items voor iedere categorie te kiezen, waarbij de scorevarianties van de categorieën te bepalen. Vervolgens kan het effectieve belang van iedere categorie worden geschat en kan het aantal items zo worden aangepast, dat het effectieve en relatieve belang vergelijkbaar zijn.

 

Het aantal items op een test heeft invloed op de betrouwbaarheid van de testscores. De betrouwbaarheid neemt toe als de verschillen tussen de testscores binnen een groep studenten van hetzelfde niveau relatief klein zijn in vergelijking met de verschillen tussen de testscores tussen groepen studenten van verschillende niveaus.

 

Een derde factor die de inhoudelijke en statistische testspecificaties beïnvloedt, is de groep studenten die de test gaat maken. Kenmerken van deze groep hebben invloed op het itemformat, de moeilijkheidsgraad van de items, de testafname en de testmodus.

 

Een laatste factor die invloed heeft op de testspecificaties, zijn afnamebeperkingen, zoals de beschikbare tijd voor de testafname, de testmodus (op papier of digitaal), de locatie van de testafname en individuele of groepsafname.

 

 

Polytome items

Polytome items hebben meer dan twee score-opties. Bij het gebruik van polytome items is voorzichtigheid geboden bij het vertalen van het relatieve belang van de categorieën naar het aantal items. Deze items kosten meer tijd om te beantwoorden en zijn vaak meer punten waard dan dichotome items, waardoor ze een grote invloed kunnen hebben op de testscores.

 

Itemanalyses voor polytome items zijn complexer dan voor dichotome items, door de toename in het aantal mogelijke scorepunten. Vaak worden simpele beschrijvende statistieke gebruikt om de waarde van polytome items te bepalen, zoals de scoreverdeling van een item, de gemiddelde itemscore, de interbeoordelaarsbetrouwbaarheid of de correlatie tussen de itemscore en de totaalscore.

 

Gebruik van computers

Een computer kan gebruikt worden om een test af te nemen. Dit wordt computer-gebaseerd testen genoemd. Bij een digitale testafname moet er rekening mee worden gehouden dat er mogelijk andere vaardigheden nodig zijn om de items juist te beantwoorden dan bij een testafname met pen en papier.

 

Daarnaast kunnen computers worden gebruikt voor itemselectie en testadministratie. Dit wordt computer-adaptief testen genoemd. Een verschil tussen computer-gebaseerd en computer-adaptief testen is dat items bij computer-adaptief testen tijdens de afname worden geselecteerd. Deze selectie wordt vaak gebaseerd op de inhoudelijke testspecificaties en de antwoorden van de student op de eerdere items. Als het antwoord op het vorige item bijvoorbeeld fout was, wordt een makkelijker item geselecteerd. Hierdoor is het nodig om items met verschillende moeilijkheidsniveaus te maken.

Image

Access: 
Public

Image

Join WorldSupporter!
This content is related to:
Samenvatting Handbook on measurement, assessment and evaluation in higher education (Secolsky & Denison). Deel 2

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Check the related and most recent topics and summaries:
Activities abroad, study fields and working areas:

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Submenu: Summaries & Activities
Follow the author: Vintage Supporter
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
2127
Search a summary, study help or student organization