Samenvatting bij Experimental and Quasi-Experimental Designs for Generalized Causal Inference van Cook, Campbell & Shadish (2nd edition, 2001)

Hoofdstuk 1: Experimenten en gestandaardiseerde causale gevolgtrekking
Hoofdstuk 2: Validiteit van de statistische gevolgtrekking en interne validiteit
Hoofdstuk 3: Begripsvaliditeit en externe validiteit
Hoofdstuk 4: Quasi-experimentele designs zonder controlegroep of zonder pretest-resultaten
Hoofdstuk 5: Quasi-experimentele designs met zowel controlegroep als pretest
Hoofdstuk 6: Quasi-experimenten: ‘Interrupted Time-Series Designs’
Hoofdstuk 7: Onderbroken regressie designs
Hoofdstuk 8: Gerandomiseerde experimenten

Hoofdstuk 1: Experimenten en gestandaardiseerde causale gevolgtrekking

De wetenschappelijke revolutie in de 17^e eeuw had drie gevolgen voor het gebruik van observatie in onderzoek:

Observatie werd steeds meer gebruikt om fouten in theorie te corrigeren. Voorheen werd observatie ingezet om een theorie te bewijzen.
Experimenteren hield in dat een doelbewuste actie werd ondernomen waarna via een systematische observatie werd bekeken wat er na die actie gebeurde. Het observeren van de effecten van manipulatie kwam centraal te staan. Voorheen werden bestaande systemen geobserveerd, wat in vergelijking met voorgaande een passieve observatie is.
Onderzoekers trachtten factoren onder controle te houden die goede observaties in de weg stonden. Te denken valt aan het hoger op een heuvel plaatsen van een microscoop, omdat de lucht daar helderder is. Een gevolg van deze ontwikkeling is het ontstaan van aselecte toewijzing en het toevoegen van een controlegroep.

1.1 Experimenten en gevolgen

Om in de wetenschap iets over experimenten te kunnen zeggen, is het van belang dat er een goede definitie is van oorzaak en gevolg. Ook de manier waarop deze twee factoren samenhangen is van belang. Zo kan de oorzaak het gevolg uiteraard veroorzaken, maar er kan ook sprake zijn van een wederkerige (‘reciprocal’) relatie waarbij de twee factoren elkaar veroorzaken.

1.1.1 Oorzaak

Een geaccepteerde definitie van oorzaak is: een variabele die een gevolg of resultaat produceert. In werkelijkheid is het echter niet zo eenvoudig om een oorzaak aan te wijzen. Vaak zijn er verschillende (deel)oorzaken, en is het lastig te duiden welke oorzaken nou rechtstreeks verantwoordelijk zijn voor het opgetreden effect. Mackie bedacht hiervoor de INUS-voorwaarde: “an Insufficient but Nonredundant part of an Unnecessary but Sufficient condition.”

Vertaald houdt dit in: een onvoldoende maar niet overbodig deel van een niet noodzakelijke maar wel voldoende voorwaarde. Als voorbeeld kan gedacht worden aan een bosbrand. Bosbranden kunnen ontstaan door een brandende/smeulende lucifer, een blikseminslag of bijvoorbeeld door een smeulend kampvuur. Je kunt niet zeggen dat de lucifer dé oorzaak van de bosbrand is; hij moet lang genoeg heet blijven en in contact komen met licht ontvlambaar materiaal. Ook moet er bijvoorbeeld genoeg zuurstof aanwezig zijn.

De lucifer is dan de INUS-voorwaarde: Het is onvoldoende, want de lucifer alleen kan niet zorgen voor de bosbrand. Het is niet overbodig, als het duidelijk verschilt van de andere aanwezige factoren (zoals licht ontvlambare droge bladeren, en zuurstof). Het is onderdeel van een voldoende voorwaarde, omdat de lucifer de brand kan veroorzaken. De lucifer is echter niet noodzakelijk, omdat er tal van andere factoren zijn die de bosbrand kunnen veroorzaken.

1.1.2 Gevolg

Gevolgen zijn beter te begrijpen door gebruik te maken van een ‘counterfactual model’ (tegenovergesteld feitelijk model). In een experiment ondergaan mensen in de interventiegroep een experimentele behandeling. In het counterfactual model wordt gekeken wat er met dezelfde mensen zou zijn gebeurd als ze deze behandeling niet zouden hebben gekregen. Het verschil tussen deze twee uitkomsten is dan het gevolg. Het is echter lastig om dit te observeren, omdat je dezelfde mensen natuurlijk niet tegelijkertijd in twee groepen (interventie en non-interventie groep) kunt indelen. Het is daarom van belang om een kwalitatief hoogstaande bron van counterfactual gevolgtrekking te creëren, en te onderzoeken hoe deze bron verschilt van de experimentele groep.

1.1.3 Causaliteit

Volgens J.S. Mill bestaat een causaal verband uit drie aspecten:

De oorzaak ging vooraf aan het gevolg;
De oorzaak is verbonden met het gevolg;
Er zijn geen andere verklaringen te geven voor het gevolg anders dan de oorzaak.

In experimenten is deze driedeling terug te vinden in de gebruikte methode:

We manipuleren de veronderstelde oorzaak en observeren het gevolg achteraf;
We kijken of variatie in oorzaak veranderingen in het gevolg teweegbrengt;
We gebruiken verschillende methoden gedurende het experiment om andere verklaringen uit te sluiten.

Het is ook van belang te begrijpen dat correlatie en causaliteit per definitie van elkaar verschillen. Als er correlatie is tussen bepaalde factoren, dan is daarmee nog niet duidelijk welke factoren oorzaak zijn. Soms kan de relatie tussen factoren ook veroorzaakt worden door een derde variabele, ook wel ‘confound’ variabele genaamd. Verder is het ook van belang er rekening mee te houden dat alleen manipuleerbare factoren onderwerp van een experiment kunnen zijn. Het is dan ook veel moeilijker om de effecten van niet-manipuleerbare factoren te onderzoeken. Een oplossing kan zijn het gebruiken van analoge experimenten. Dat is een experiment dat een oorzaak manipuleert die gelijkwaardig is aan de te onderzoeken oorzaak, om zo meer te weten te komen over die te onderzoeken oorzaak.

Naast het onderscheiden van correlatie en causaliteit, het in overweging nemen van een confound variabele en de mate van manipuleerbaarheid bepalen, is het ook van belang om onderscheid te maken tussen een causale beschrijving en een causale verklaring. Een beschrijving is tamelijk oppervlakkig (bijvoorbeeld: als ik het lichtknopje gebruik, dan gaat het licht aan), waar een verklaring dieper op de stof in gaat (bijvoorbeeld: als ik het lichtknopje gebruik, dan sluit ik de elektrische cyclus zodat de stroom rond kan gaan, enz.). Dit is van belang voor de generalisatie van causale beschrijvingen, omdat je zo te weten kunt komen wat noodzakelijke onderdelen van de oorzaak zijn. Het onderscheid tussen causale beschrijving en causale verklaring is nauw verbonden met het onderscheid tussen molaire en moleculaire causatie. Bij molaire (‘molar’) causatie kijk je naar het gehele verband tussen een complex van interveniërende factoren en het effect daarvan. Beide kunnen uit afzonderlijke delen bestaan. Moleculaire causatie richt zich op de vraag welke delen van een interventie verantwoordelijk zijn voor het effect.

1.2. Moderne beschrijvingen van experimenten

Er zijn door de jaren heen verschillende soorten experimenten bedacht. We noemen er hier vier:

1.2.1 Gerandomiseerd experiment

Bij dit experiment worden twee groepen gecreëerd (een experimentele groep en een controlegroep), en zijn de groepen aselect samengesteld.

1.2.2 Quasi-experiment

Het doel van een quasi-experiment en een gerandomiseerd experiment is hetzelfde: het testen van beschrijvende causale hypotheses over manipuleerbare oorzaken. Het verschil is echter, dat een quasi-experiment niet gerandomiseerd is. Een gevolg hiervan is, dat de experimentele groep en de controlegroep op meer punten van elkaar verschillen dan alleen de aanwezigheid van de interventie. Het is dan niet met zekerheid te zeggen waardoor de gevonden verschillen veroorzaakt zijn.

Ook is het rijpingsproces in een gerandomiseerd experiment in beide groepen gelijk, maar in een quasi-experiment niet.

1.2.3 Natuurlijk experiment

Een natuurlijk experiment onderzoekt de effecten van een natuurlijk optredende gebeurtenis. Dit wordt gedaan voor grote niet-manipuleerbare gebeurtenissen (zoals aardbevingen), maar ook voor meer algemene gebeurtenissen.

1.2.4 Non-experimentele designs

Bij non-experimentele designs worden variabelen geobserveerd en niet gemanipuleerd. Er is geen randomisatie en geen pretests of controlegroepen. Over het algemeen vindt men dit design niet echt geschikt om causale verbanden mee te ondersteunen.

1.3 Experimenten en de generalisatie van causale verbindingen

De sterke kant van experimenten is de eigenschap om causale verbanden bloot te leggen. De zwakke kant is de vraag in hoeverre deze causale verbanden te generaliseren zijn. Mocht een experiment niet goed te generaliseren zijn, dan wil dit nog niet zeggen dat het daarom een slecht experiment is.

Cronbach beschreef experimenten in termen van units (die de interventie ontvangen), de treatment (de behandeling), de observaties van de units en de setting (omgeving) waarbinnen het experiment plaatsvindt. In samenhang daarmee formuleerde hij twee typen generalisatie:

Generalisatie naar het domein waarover de onderzoeksvraag is gesteld (UTOS: Units, Treatment, Observations, Settings);
Generalisatie naar de UTOS die niet direct geobserveerd worden (= *UTOS).

Hier wordt Cronbach deels gevolgd, en worden behandeling, omgeving, personen (i.p.v. units), en outcomes (i.p.v. observaties) onderscheiden. Een ander verschil met Cronbach ligt in de twee vormen van generalisatie. Generalisatie wordt geformuleerd met betrekking tot begripsvaliditeit en met betrekking tot externe validiteit.

1.3.1 Begripsvaliditeit

Begripsvaliditeit gaat over de vraag hoe je van de afzonderlijke personen, interventies, outcomes en settings komt tot de hogere begrippen die je met behulp hiervan wilt meten. Anders gezegd: meet je wat je wilt meten?

1.3.2 Externe validiteit

Externe validiteit vraagt zich af of een causaal verband stand blijft houden als er gevarieerd wordt in personen, interventies, outcomes en settings. Belangrijk is hierbij, dat generalisatie in dit verband geen bredere inzetbaarheid inhoudt. Het gaat alleen over variatie in de eerder genoemde factoren. Een causaal verband tussen een interventie en leesprestaties uitgevoerd in Spanje kan bijvoorbeeld ook gezien worden in Zuid-Afrika. Het wil dan niet zeggen dat Zuid-Afrika ‘breder’ is dan Spanje; het zegt alleen dat er gevarieerd is in setting en personen.

1.3.3 Wat heeft een experiment nodig om tot begripsvaliditeit en externe validiteit te komen?

De belangrijkste factor is aselecte toewijzing. Toch maken wetenschappers zelden causale generalisaties in hun onderzoek, en als ze het al doen dan gebruiken ze bijna nooit aselecte toewijzing. Om dit voortaan wel te doen worden vijf principes genoemd waarmee wetenschappers causale generalisaties kunnen maken:

Oppervlakkige gelijkheid (‘surface similarity’) vaststellen van de studieobjecten en de doelgroep (waarnaar gegeneraliseerd moet worden);
Irrelevante aspecten uitsluiten: onderzoekers identificeren die dingen die een generalisatie niet zullen veranderen;
Discriminerende factoren vaststellen die de generalisatie te beperken;
‘Interpolation’ en ‘extrapolation’. Bij interpolation creëer je extra datapunten (bijv. punten in een grafiek) binnen de dataset. In het diagram hieronder is dat te zien: de punten in de cirkel zijn de bestaande datapunten, de lijnen die de punten verbinden noemen we interpolation. Bij extrapolation doe je hetzelfde, maar dan buiten de dataset. Dat is te zien in de rechter grafiek, waar je probeert een waarde voor x=7 te vinden terwijl de grafiek maar tot x=5 gaat;
Causale verklaringen. Onderzoekers ontwikkelen verklarende theorieën over de effecten, oorzaken en mediërende processen die van belang zijn voor een causaal verband.

Zie bijlage

Fig. 1: Interpolation Fig. 2: Extrapolation

(Bron: Wikipedia)

1.4 Experimenten en meta-science

In de loop der jaren is er veel gesproken over wetenschap ‘an sich’. Wetenschappers hebben kritiek geleverd op de wetenschap, en deze kritiek heeft gevolgen voor experimenten. Zo wordt de ‘equivocality’ (voor meerdere interpretaties vatbaar) van alle wetenschappelijke kennis tegenwoordig meer gewaardeerd. Experimenten zijn geen regelrechte afspiegeling van de werkelijkheid. Een gevolg hiervan is, dat uitkomsten van experimenten kunnen veranderen als er nieuwe inzichten op een bepaald gebied naar voren komen. Een tweede gevolg is dat het experiment een menselijke inspanning is, dat beïnvloed wordt door menselijke tekortkomingen, maar dat wel (deels) de beperkingen kan controleren.

Hoofdstuk 2: Validiteit van de statistische gevolgtrekking en interne validiteit

2.1 Validiteit

Hoewel validiteit vaak in absolute term gebruikt wordt (is deze gevolgtrekking waar?), kan vaak niet gezegd worden of alle gevolgtrekkingen al dan niet gefalsificeerd kunnen worden. Validiteit is dus een relatief begrip. Ook is het van belang te bedenken dat validiteit betrekking heeft op de gevolgtrekking en niet op een gebruikte methode van/in onderzoek. Toch heeft validiteit een sterke band met ‘waarheid’. In de wetenschapsgeschiedenis zijn er drie theorieën te onderscheiden die ook over waarheid spreken:

‘Correspondance theory’
Stelt dat een standpunt waar is als het aansluit op de realiteit. Bijvoorbeeld: ‘Het regent’ is waar als we buiten zien dat het regent;
‘Coherence theory’
Stelt dat een standpunt waar is als het behoort tot een samenhangend geheel van standpunten. Bijvoorbeeld: ‘Roken veroorzaakt kanker’ is waar als het aansluit bij alles wat we al weten over roken en kanker;
‘Pragmatism’
Stelt dat een standpunt waar is als het nuttig is om dat standpunt te geloven. Bijvoorbeeld: ‘elektronen bestaan’ is waar als het ons helpt om bepaalde observaties te begrijpen.

Omdat wetenschappers onderling niet hebben kunnen uitmaken welke theorie het beste is, is er een theorie die uit bovenstaande theorieën is samengesteld. Deze benoemt vier vormen van validiteit:

Validiteit van de statistische gevolgtrekking;
Verwijst naar het goed gebruiken van statistiek om te bepalen hoe de onafhankelijke en afhankelijke variabele met elkaar samenhangen.
Interne validiteit;
Verwijst naar of deze samenhang het gevolg is van een causaal verband.
Begripsvaliditeit;
Verwijst naar generalisaties naar begrippen.
Externe validiteit.
Verwijst naar generalisaties naar variërende personen, omgevingen, enz.

2.2 Validiteit van de statistische gevolgtrekking

Validiteit van de statistische gevolgtrekking stelt twee vragen: covariëren oorzaak en gevolg, en hoe sterk is die covariantie? Hierbij zijn twee fouten te maken. We kunnen onterecht concluderen dat oorzaak en gevolg samenhangen (Type 1-fout), of we kunnen ontrecht concluderen dat ze niet samenhangen (Type 2-fout).

2.2.1 Beschrijving van covariantie-statistiek

De meest voorkomende manier om te bepalen of oorzaak en gevolg samenhangen, is door middel van het stellen van een nulhypothese. Deze luidt dat beide variabelen niet samenhangen. Het is lastig om de uitkomst van het testen van deze hypothese goed te interpreteren. De uitkomst is meestal een p-waarde, maar deze vertelt ons niks over de effectgrootte. Ook vatten onderzoekers deze p-waarde vaak op als de kans dat H₀ waar is. De opinie is dan ook dat de nulhypothese een minder grote rol in experimenteel onderzoek zou moeten spelen dat tegenwoordig het geval is. De effectgrootte en het betrouwbaarheidsinterval bevatten dezelfde informatie als de nulhypothesetest, maar leggen de nadruk op de grootte van covariantie en een preciezere formulering van de effectgrootte.

2.2.2 Bedreigers van validiteit van de statistische gevolgtrekking

2.2.2.1 Lage statistische power

Als er te weinig power in een experiment is, dan kan ten onrechte geconcludeerd worden dat de relatie tussen interventie en controlegroep niet significant is. De power kan verhoogd worden op vele manieren, zoals het vergroten van de steekproeven.

2.2.2.2 Schendende assumpties van statistische tests

Als de assumpties van de statistische tests niet kloppen, dan kan dat leiden tot overschatting of onderschatting van de effecten van de interventies.

2.2.2.3 Vissen en het ‘error-rate’ probleem

Als er te vaak getest wordt op significantie, dan kan dat (mits niet gecorrigeerd voor het aantal tests) de significantie kunstmatig opdrijven.

2.2.2.4 Onbetrouwbaarheid van metingen

Meetfouten maken de relatie tussen twee variabelen onbetrouwbaarder, en verslechtert of verbetert de relatie tussen drie of meer variabelen. Deze bedreiger kan onder controle worden gehouden door bijvoorbeeld het aantal metingen te verhogen of de kwaliteit van metingen te verhogen.

2.2.2.5 Beperkte reikwijdte

Als de variabele niet genoeg reikwijdte heeft, dan verzwakt dat de relatie tussen deze en een andere variabele. Bodemeffecten en plafondeffecten zijn hiervan voorbeelden.

2.2.2.6 Onbetrouwbaarheid van de implementatie van de interventie

Als een interventie niet geheel is geïmplementeerd, dan kan dat het effect van de volledige interventie onderschatten.

2.2.2.7 Externe variatie in de experimentele setting

Sommige omstandigheden tijdens de implementatie van de interventie kunnen ertoe leiden dat een effect moeilijker is op te sporen. Een voorbeeld hiervan is een verstorend geluid.

2.2.2.8 Heterogeniteit van units (respondenten)

Als de variatie op de outcome-variabele groter is, dan zal de error-variantie ook groter worden. Hierdoor is het moeilijker om een verband op te sporen.

2.2.2.9 Niet accurate schatting van de effectgrootte

Sommige metingen overschatten of onderschatten effectgrootte systematisch.

2.2.3 Problemen bij het accepteren van de nulhypothese

Er kunnen verschillende omstandigheden zijn waarin het lastig is om een goede beslissing t.a.v. de nulhypothese te maken. Een voorbeeld hiervan is dat de H₀ en H_a dichtbij elkaar liggen. Om situaties zoals deze te voorkomen, kun je als onderzoeker vier dingen doen:

Vergroot de power;
Besteed aandacht aan het afbakenen van de effectgrootte: Wat is een aanvaardbare grootte en wat is het minimum?;
Maak gebruik van andere meetmethoden om te onderzoeken of twee behandelingen samenhangen;
Maak gebruik van quasi-experimenten om te zien of er grotere effecten optreden onder bepalende condities.

2.3 Interne validiteit

Interne validiteit is door Campbell veranderd in ‘local molar causal validity’, wat inhoudt dat deze validiteit causale verbanden behelst (causal), dat deze verbanden gerelateerd zijn aan plaatselijke (local) interventies, outcomes, times, settings en persons en dat het om een pakket van maatregelen binnen de interventie gaat (molar).

Er zijn negen bedreigers voor interne validiteit:

2.3.1 Onduidelijke tijdsvolgorde

Als het niet duidelijk is welke variabele eerst optrad, dan is het moeilijk om oorzaak en gevolg vast te stellen.

2.3.2 Selectie

Als de eigenschappen van deelnemers verschillen bij belangrijke condities, dan kan dat het geobserveerde effect veroorzaken.

2.3.3 Geschiedenis

Als er tijdens de interventie een belangrijke gebeurtenis plaatsvindt, dan kan dat ook het effect veroorzaakt hebben.

2.3.4 Rijping

Natuurlijk optredende veranderingen kunnen verward worden met het effect van de interventie.

2.3.5 Regressie

Als units worden geselecteerd op basis van hun hoge scores, zullen ze bij een volgende meting minder extreem scoren.

2.3.6 Uitval

Als deelnemers uitvallen en die uitval heeft te maken met de ontvangen interventie, dan is het effect troebel.

2.3.7 Testing

Als deelnemers zijn blootgesteld aan een test, dan kan dat het resultaat van een volgende test beïnvloeden.

2.3.8 Instrumentatie

Het meetinstrument kan veranderen waardoor de uitkomst ook verandert. Deze verandering kan als effect van de interventie worden aangezien.

2.3.9 Gecombineerde en toegevoegde effecten van bedreigers van interne validiteit

Bovengenoemde bedreigers kunnen ook samen optreden en zo extra bedreigend zijn.

Interne validiteit is in verschillende mate aan de orde als het gaat om gerandomiseerde experimenten en quasi-experimenten. Kort gezegd blijft de bedreiger ‘uitval’ bij beide designs een probleem. Mocht er om kostenbesparende redenen (bijvoorbeeld) alleen een pretest worden gebruikt bij de experimentele groep, dan bedreigt dat de interne validiteit ook.

2.4 Het verband tussen interne validiteit en validiteit van de statistische gevolgtrekking

De twee types van validiteit hangen nauw met elkaar samen; ze doelen beide op de handelingen in het onderzoek (in plaats van de begrippen) en op de relatie tussen interventie en outcome. Wel is het zo dat een hoge mate van validiteit van de statistische gevolgtrekking niet automatisch betekent dat er een causaal verband is. Er kunnen nog tal van andere fouten in de statistische opzet van het onderzoek zijn gemaakt, die leiden tot een verkeerde causale conclusie.

Hoofdstuk 3: Begripsvaliditeit en externe validiteit

3.1 Begripsvaliditeit

Begripsvaliditeit houdt in dat er logische verbanden worden gelegd tussen de afzonderlijke delen van een steekproef en het hogere begrip dat ze representeren. Dit levert echter twee problemen op. Begrippen moeten namelijk begrepen worden en ze moeten kunnen worden vastgesteld. Begripsvaliditeit is erg belangrijk, en wel om drie redenen:

Begrippen zijn de belangrijkste instrumenten om de handelingen in experimenten te verbinden met een (te creëren) theorie en om deze handelingen te verbinden met de praktische toepasbaarheid van deze experimenten;
Begripslabels brengen vaak sociale, politieke en economische veronderstellingen met zich mee. Zo wordt er richting gegeven aan bijvoorbeeld discussies;
Het creëren en verdedigen van basisbegrippen is een belangrijke taak van de wetenschap. Voorbeelden hiervan zijn het ontwikkelen van het periodiek systeem der elementen en de precieze (scheikundige) definitie van ‘water’.

Zoals gezegd is het lastig om begrippen zo te formuleren dat ze begrepen en vastgesteld kunnen worden. Om toch een zekere structuur in het proces van begripsvorming aan te brengen, kan het volgende stappenplan gevolgd worden:

Start met een duidelijke uitleg van de (begrippen van de) persoon, de omgeving, de behandeling en de uitkomsten;
Selecteer zorgvuldig gevallen die passen bij de uitgelegde factoren;
Stem de gevallen en de begrippen op elkaar af en kijk of ze goed op elkaar aansluiten;
Herzie de omschrijvingen van het begrip indien nodig.

3.1.1 Begrippen

Een manier om begrippen goed uit te leggen, kan zijn door de centrale aspecten van het begrip als prototype te beschouwen. Het is vervolgens wel lastig om te bepalen welk aspect van een begrip, bijvoorbeeld de aanwezigheid van bladeren (centraal aspect van het begrip ‘boom’), nou het prototype is. Een boom zonder bladeren kan natuurlijk ook nog voor boom doorgaan. Wetenschappers maken dergelijke beslissingen continu. Het bepalen van de prototypes hangt af van twee dingen:

De context waarbinnen het begrip wordt gebruikt: wetenschappers beoordelen bomen bijvoorbeeld op een andere manier dan leken;
De taalgemeenschap die het prototype vaststelt: in sommige talen behoren bepaalde begrippen tot een zelfde categorie, in andere talen juist niet.

Door deze moeilijkheden is het onmogelijk om een één-op-éénrelatie te bewerkstelligen tussen een begrip en de afzonderlijke handelingen die het begrip horen te meten. Een begripstheorie moet daarom de volgende dingen benadrukken:

Het operationaliseren van elk begrip op verschillende manieren met behulp van verschillende studies;
Het vergelijken van de kenmerken van de afzonderlijke gevallen en de kenmerken van het begrip;
Het toelaten van discussie over de kwaliteit van die vergelijking gegeven de aard van de handelingen in het experiment en het begrip.

3.1.2 Gevallen in de steekproef

Naast het belang van het goed definiëren van het begrip, is het even belangrijk om goede metingen met de gevallen in de steekproef te doen. De onderzoeker kan zo een goede vergelijking maken tussen deze metingen en het begrip. Deze metingen moeten niet uitgevoerd worden met behulp van strikte schalen met meerdere items, maar er moet van elke methode voor dataverzameling gebruik gemaakt worden: gegevens uit archieven, kwalitatieve observaties of bijvoorbeeld experimentele manipulaties.

3.1.3 Bedreigingen voor begripsvaliditeit

Net als bij interne validiteit en validiteit van de statistische gevolgtrekking, zijn er ook voor de begripsvaliditeit bedreigers te onderscheiden.

Inadequate uiteenzetting van het begrip

Als niet goed is aangegeven wat er verstaan wordt onder het begrip, dan maakt dat meting moeilijker. Dit heeft dus te maken met de variabele.

Begripsverwarring

Als er verwarring bestaat over het begrip (met betrekking tot de doelgroep), dan maakt dat meting er ook niet makkelijker op.

Mono-operation bias

Als je maar op één manier naar je interventie of variabele kijkt, dan krijg je geen volledig beeld van je interventie of variabele. Soms zijn er bijvoorbeeld meerdere kanten aan een begrip, of meerdere soorten vergelijkbare interventies.

Mono-method bias

Als je maar van één methode gebruik maakt, zal de uitkomst gekleurd zijn. Een voorbeeld hiervan is een vragenlijst waarop alle vragen positief zijn geformuleerd

Verwarring van begrippen met niveaus van het begrip

Bij deze validiteitbedreiger stel je onderdelen van het begrip (die je ook toetst) gelijk aan de gehele reikwijdte van het begrip. Je denkt dan dat je, door bepaalde onderdelen van het begrip te toetsen, het gehele begrip ondervangt, terwijl dit niet zo is. Je uitkomst zal dan dus niet goed zijn.

Interventiegevoelige factorstructuur

Stel, je hebt een test waarmee je vooroordelen meet bij je deelnemers. Je neemt een pretest af en één groep krijgt de interventie. Door deze interventie zijn ze zich meer bewust van vooroordelen en gevoeliger voor bepaalde opvattingen m.b.t. racisme. Op de posttest zal deze groep met een andere attitude de vragen beantwoorden, waardoor dit ook tot het effect van interventie gerekend mag worden. Onderzoekers moeten dit meenemen in hun analyses.

Reactieve veranderingen na zelfrapportage

Als mensen zichzelf moeten rapporteren, worden ze zich bewust van hun houding of gedrag. Hierdoor gaan ze zichzelf anders beoordelen.

Reactie op de experimentele situatie

Als deelnemers bijvoorbeeld de ‘truc’ doorhebben, zullen ze de interventie anders ondergaan waardoor de resultaten niet onafhankelijk zijn.

Verwachtingen van de uitvoerder van het experiment

De verwachtingen van de onderzoeker kunnen al effect veroorzaken bij de deelnemers. Als een onderzoeker hoge verwachtingen heeft van bijvoorbeeld een groep leerlingen, dan zullen deze leerlingen waarschijnlijk al hoger presteren voordat de interventie ook maar enig effect heeft.

Effecten n.a.v. noviteit of onderbreking

Doordat een interventie wordt geïmplementeerd, brengt dat een gevoel van opwinding of vreugde teweeg bij de deelnemers. Deze positieve gevoelens kunnen bijdragen aan het positieve effect van een interventie, maar vallen natuurlijk niet onder de netto resultaten hiervan.

Compenserende gelijkstelling

Deze bedreiger treedt op als de controlegroep moeite doet om dezelfde situatie te creëren als in de interventiegroep.

Compenserende rivaliteit

Deze bedreiger treedt op als de controlegroep extra hard gaat werken om niet onder te doen voor de interventiegroep.

Wrokkige demoralisering

Als deelnemers in de controlegroep wrok koesteren over het niet ontvangen van de interventie, dan verandert dat de uitkomsten van hun metingen. Ze doen bijvoorbeeld minder hard hun best.

Verspreiding van de interventie

In deze situatie verspreidt de interventie zich in de controlegroep en buiten de situatie waarin je zou verwachten dat deze plaatsvindt.

3.2 Externe validiteit

Externe validiteit heeft te maken met gevolgtrekkingen van een causaal verband en variaties in personen, omgeving, behandelingen en outcomes. Er wordt gekeken naar de vraag of een causaal verband standhoudt wanneer gevarieerd wordt in bovengenoemde factoren die deel uitmaakten van het experiment en van dezelfde factoren die geen deel uitmaakten van het experiment. Er zijn verschillende manieren om te generaliseren:

Van smal naar breed: Resultaat van een kleinschalig experiment doortrekken naar een bredere situatie;
Van breed naar smal: Bijv. kijken of een algemene behandeling ook voor een individueel geval geldt;
Op hetzelfde niveau: Een experiment in een bepaald gebied ook doen in een ander, maar vergelijkbaar gebied (Friesland en Groningen bijv.);
Naar een gelijkwaardige of andere soort: bijv. generaliseren naar een gelijkwaardige groep (van mannen in Friesland naar mannen in Groningen), of generaliseren naar een andere soort (van indianen naar vrouwelijke immigranten);
Van een aselecte steekproef naar de populatie: Gegevens van de steekproef betrekken op de gehele populatie.

Het is interessant om te bepalen of externe validiteit ook moet gaan over factoren die niet in het experiment zaten of niet. Cronbach stelt dat wetenschap juist draait om het generaliseren naar nog niet onderzochte factoren. De nadruk mag hier echter niet volledig op liggen.

3.2.1 Bedreigingen voor externe validiteit

Het schatten van de externe validiteit (generalisatie bij variatie in personen, omgeving, behandelingen en outcomes) is gelijk te stellen aan tests voor statistische interacties. Daarom zijn de bedreigers geformuleerd in termen van interacties

Interactie van het causale verband met units

Een effect dat gevonden is bij bepaalde units hoeft geen stand te houden als andere units worden bestudeerd.

Interactie van het causale verband met variaties in interventie

Een effect dat gevonden is bij de ene interventie houdt wellicht geen stand bij andere variaties van die interventie.

Interactie van het causale verband met outcomes

Een effect dat gevonden is bij het bestuderen van de ene outcome hoeft geen stand te houden als een andere outcome wordt bestudeerd

Interactie van het causale verband met omgeving

Een effect dat gevonden wordt in een bepaalde omgeving houdt wellicht geen stand in andere omgevingen

Contextafhankelijke bemiddeling

Een verklarende bemiddelaar van een causaal verband in de ene context bemiddelt wellicht niet in een andere context.

Generalisatie is te zien als constantheid van effectgroottes, of als constantheid van causale richting. In het eerste geval zouden maar weinig causale verbanden generaliseerbaar zijn. Het tweede geval is daarom een betere betekenis van generaliseerbaarheid. Redenen hiervoor zijn:

Wanneer causale richtingen worden onderzocht, dan blijkt dat die richtingen vaak hetzelfde blijven, ook al variëren de effectgroottes;
Als er gegeneraliseerd moet worden naar een groter gebied, dan hopen beleidsmakers op een algeheel positief effect. Effectgroottes zullen waarschijnlijk altijd variëren, het is de causale richting die absoluut niet mag veranderen;
Zelfstandige theorieën zijn meestal opgebouwd rondom causale verbanden die betrouwbaar zijn, niet rondom verbanden die nieuw/ongewoon zijn. Dit verkleint de kans op generaliseren over instabiele fenomenen;
Wetenschap breekt complexe fenomenen af naar simpelere stukken, en kleine veranderingen in effectgroottes zijn dan irrelevant voor de achterliggende theorie.

Als de effectgroottes constant zouden moeten zijn om te kunnen spreken van generalisatie, dan zouden bovenstaande voordelen allemaal verdwijnen. Constantheid van causale richting is daarom een betere invulling van het begrip generaliseerbaarheid. Het is hierbij wel belangrijk op te merken dat effectgroottes nog steeds gebruikt kunnen worden, omdat ze soms wel van belang kunnen zijn.

3.2.2 Aselecte steekproeven en externe validiteit

Aselecte steekproeven zijn in experimenten tamelijk zeldzaam, dus is er weinig te zeggen over de relatie tussen aselecte steekproeven en externe validiteit. Waar een aselecte steekproef echter mogelijk is, zou deze altijd gebruikt moeten worden. Dit komt de externe validiteit namelijk ten goede.

3.2.3 Doelgerichte steekproeven en externe validiteit

Doelgerichte steekproeven komen vaker voor dan aselecte steekproeven. Als verwacht wordt dat sekse een belangrijke factor is in een experiment, dan worden expres mannen en vrouwen opgenomen in de steekproef. De externe validiteit heeft hier baat bij, want zo kunnen er interactietests worden uitgevoerd om te onderzoeken of sekse bijvoorbeeld echt van belang is. Ook kan zo aangetoond worden dat bepaalde effecten optreden ondanks het feit dat er een heterogene onderzoeksgroep is.

3.3 Verbanden, afwegingen en prioriteiten

Relatie tussen begripsvaliditeit en externe validiteit

Een overeenkomst tussen begripsvaliditeit en externe validiteit is, dat beide typen generalisaties zijn. Ook is het zo dat kennis over begrippen (nodig bij begripsvaliditeit) kan helpen bij het bepalen van externe validiteit.

Verschillen zijn er ook, vier welteverstaan:

De gevolgtrekkingen zijn anders. Bij begripsvaliditeit gaat het om het begrip dat betrekking heeft op bepaalde gevallen. Bij externe validiteit is de causale richting van belang. Zo kun je erachter komen dat je bepaalde dingen in een onderzoek anders had moeten benoemen, maar heb je geen problemen met de causale richting;
Externe validiteit (en de generalisaties) kunnen niet gescheiden worden gezien van de causale verbanden, bij begripsvaliditeit is dit wel het geval;
Als externe validiteit slecht is, kan de begripsvaliditeit nog wel goed zijn. Ze opereren dus onafhankelijk van elkaar;
Begripsvaliditeit vereist een heldere uitleg van het begrip en van de te beoordelen gevallen. Externe validiteit vereist testen m.b.t. veranderingen in grootte en richting van een causaal verband.

Relatie tussen interne validiteit en begripsvaliditeit

De vier bedreigers van begripsvaliditeit (compensatorische verevening, compensatorische rivaliteit, wrokkige demoralisering en verspreiding van de interventie) behoorden vroeger tot de bedreigers van de interne validiteit.

Afwegingen en prioriteiten

Het is onmogelijk om alle bedreigers van alle soorten validiteit te ontlopen als je onderzoek doet. Het is echter wel goed om je er bewust van te zijn. Wanneer externe en interne validiteit vergeleken worden, dan blijkt dat interne validiteit bij onderzoek naar oorzaakgevolg relaties een noodzakelijke voorwaarde is. Als het descriptief onderzoek betreft, dan is dit geen noodzakelijke voorwaarde. Bij het bepalen van de validiteit kunnen ook niet-experimentele methoden worden gebruikt. Het is echter wel zo dat dit voor interne validiteit in mindere mate geldt dan voor externe validiteit en begripsvaliditeit.

Interne validiteit kan in twee opzichten een sine qua non of noodzakelijke voorwaarde zijn:

Interne validiteit is het minimum dat een experiment moet hebben om interpreteerbaar te zijn;
Interne validiteit kan ook de hoogste prioriteit hebben als de uitvoerder van een experiment de keuze heeft hoeveel prioriteit hij elk type validiteit wil geven. Dit is een moeilijke keuze, omdat niet duidelijk is hoeveel van elk type validiteit aanwezig is.

Hoofdstuk 4: Quasi-experimentele designs zonder controlegroep of zonder pretest-resultaten

Er worden nu quasi-experimentele designs besproken, die vaak gebruikt worden maar een zwakke basis vormen voor causale gevolgtrekkingen. Vaak komt dit doordat ze geen gebruik maken van een pretest of een controlegroep. De quasi-experimenten worden hier genoemd om drie redenen:

Twijfel uiten over de onnodig geachte quasi-experimenten;
Deze designs worden gebruikt om te laten zien hoe verschillende bedreigers van validiteit omgaan met voorbeelden. Zo leer je kritisch denken;
Laten zien van structurele elementen die in elke onderzoeksopzet voorkomen. Met behulp daarvoor worden experimentele designs gebouwd die wellicht wel een hoge mate van interne validiteit hebben.

4.1 De logica achter quasi-experimenten

Een quasi-experiment kenmerkt zich door het gebrek aan aselecte toewijzing van units aan bepaalde omstandigheden. Verder hebben deze experimenten wel dezelfde doelen als aselecte experimenten. Er zijn drie vereisten voor het benoemen van een relatie als ‘causaal’:

Oorzaak gaat vooraf aan het gevolg;
Oorzaak en gevolg hangen samen;
Er zijn geen andere oorzaken voor het gevolg te vinden.

Omdat quasi-experimenten geen gebruik maken van aselecte toewijzing (en ‘selectie’ dus een oorzaak voor het gevolg kan zijn), zijn er drie principes waar quasi-experimenten gebruik van maken:

Identificeren en bestuderen van plausibele bedreigers van interne validiteit. Als deze geïdentificeerd zijn, is het makkelijk om te zeggen hoe waarschijnlijk het is dat deze bedreigers het gevolg verklaren;
Controleren van verschillen in pre-interventie. Als dit gedaan is, kan er meer gezegd worden over de effecten van de interventie;
Het toetsen van complexe voorspellingen waarvoor geen alternatieve verklaringen bestaan. Hoe complexer de voorspelling is (in het geval de voorspelling goed is), hoe minder waarschijnlijk het is dat er alternatieve verklaringen voor bestaan, dus hoe waarschijnlijk het is dat de interventie voor het effect heeft gezorgd.

4.2 Designs zonder controlegroepen

Er worden nu zeven designs zonder controlegroepen besproken.

4.2.1 One-Group Posttest-Only Design

X O₁

X is hier de interventie, O is de posttest. Alle bedreigers voor interne validiteit zijn hierbij aanwezig, behalve volgorde. Als de wiskundekennis van leerlingen erg laag is en de kans klein is dat ze in hun thuissituatie wiskunde leren, dan mag aangenomen worden dat het goede cijfer op de wiskundetoets (de posttest) veroorzaakt is door de wiskundelessen (de interventie).

Verbetering van dit design kan optreden door gebruik te maken van meerdere posttests (4.2.2).

4.2.2. One-Group Posttest-Only Design With Multiple Substantive Posttests

X₁{O_1A O_1B… O_1N}

Het is te vergelijken met het oplossen van een moord: het is duidelijk wat het effect is (iemand is vermoord), en door verschillende observaties kom je erachter wie het gedaan heeft. In de sociale wetenschappen komt dit echter weinig voor, omdat je het effect van tevoren nog niet weet.

4.2.3. One-Group Pretest-Posttest Design

O₁ X O₂

Er zijn ook hier bedreigers aanwezig. Zo kan er door het instellen van een pretest sprake zijn van testing, rijping, geschiedenis en regressie.

Verbetering van dit design kan optreden door gebruik te maken van een dubbele pretest (4.2.4) of door ook te kijken naar factoren die niet in de interventie zijn opgenomen (4.2.5).

4.2.4. One-Group Pretest-Posttest Design Using a Double Pretest

O₁ O₂ X O₃

Door het toevoegen van een extra observatie voorafgaand aan de interventie, kan de rijping tussen O₁ en O₂ worden vastgesteld. Mocht er dan alsnog een grote sprong zijn tussen O₂ en O₃, dan kan dat makkelijker aan X worden toegeschreven.

4.2.5. One-Group Pretest-Posttest Design Using a Nonequivalent Dependent Variable

{O_1A, O_1B} X { O_2A, O_2B}

Hierbij wordt gekeken of de gewenste verandering wel optreedt in 1A en 2A (want dat zijn de factoren waarop de interventie zich richt), en of de verandering niet optreedt in 1B en 2B (want daar richt de interventie zich niet op).

4.2.6. Removed-Treatment Design

O₁ X O₂ O₃X O₄

Het design kenmerkt zich door het aantonen van de veranderlijkheid van de uitkomsten, afhankelijk van de interventie. Idealiter wordt eerst een positieve uitkomst verwacht, die weer zal verdwijnen als de interventie wordt gestopt. Zo kan ook aangetoond worden dat de interventie ‘iets’ heeft gedaan. In bovenstaande schematische weergave staat X voor het weghalen van een behandeling.

Om dit design te verbeteren, zou na het verwijderen van de interventie de interventie nogmaals ingevoerd kunnen worden (4.2.7).

4.2.7. Repeated-Treatment Design

O₁ X O₂X O₃ X O₄

Hier wordt de interventie geïntroduceerd, weggehaald en weer geïntroduceerd. Een bedreiger hierbij is cyclische rijping. Als de posttests bijvoorbeeld op vrijdag werden uitgevoerd en de pretests op dinsdag, dan zou de dag van de week de bepalende factor kunnen zijn.

Dit design kan ook retrospectief worden ingevoerd, door bijvoorbeeld proefpersonen te vragen iets te reconstrueren. Dit is echter gevaarlijk, omdat proefpersonen kunnen overdrijven (of juist niet), en omdat de uitkomsten beïnvloed worden door andere bronnen.

4.3 Designs met controlegroep maar zonder pretest

Om een quasi-experimenteel model te verbeteren, kan er een controlegroep worden toegevoegd aan het design. Deze groep ondergaat de interventie niet, en is zoveel mogelijk vergelijkbaar met de interventiegroep. In een schematische weergave van het design staan de groepen onder elkaar met een onderbroken lijn ertussen die de twee groepen van elkaar scheidt. Deze lijn geeft aan dat de groepen niet aselect gevormd zijn. Ook de toevoeging van NR voor de groepen geeft deze aselecte vorming weer.

4.3.1. Posttest-Only Design With Nonequivalent Groups

NR X O₁

-----------------------------

NR O₂

In dit design worden de uitkomsten van twee groepen vergeleken, waarbij de ene groep wel een interventie heeft ondergaan en de andere groep niet. Een nadeel van dit design is dat de verschillen die er tussen de groepen bestonden (bij aanvang) de uitkomsten grotendeels zouden kunnen verklaren. Selectie treedt hier dus als bedreiger op. Een reden om dit design toch te gebruiken, kan zijn om de effecten van testing weg te halen. Door een pretest te gebruiken, worden de proefpersonen al gevoelig voor de interventie. Je meet dan niet alleen de resultaten van de interventie, maar ook de resultaten van de pretest.

4.3.2. Posttest-Only Design Using an Independent Pretest Sample

NR O₁ | X O₂

------------------- |-------------------------

NR O₁ | O₂

In dit design wordt de pretest afgenomen bij een onafhankelijke steekproef, die aselect getrokken is uit dezelfde groep waarbij de posttest wordt afgenomen. De proefpersonen die de pretest en posttest krijgen, zijn dus niet dezelfde mensen al behoren zij wel tot dezelfde groep.

Er zitten nadelen aan dit design:

De aselecte selectie vergelijkt pretest en posttest alleen binnen de grenzen van de sampling error. Hierdoor maken de kleine, heterogene groepen het vergelijken van de groepen lastig;
De populaties die deelnemen aan de steekproef kunnen kwalitatief veranderen tussen de tests in;
Er zijn verscheidene bedreigers van interne validiteit (zie het volgende hoofdstuk);
Validiteit van de statistische gevolgtrekking kan verminderd worden doordat de individuele steekproeven bij elke meting niet meer dienen als een binnen-groepen-variatie.

4.3.3. Posttest-Only Design Using Proxy Pretest

NR O_A1X O_B2

------------------------------------

NR O_A1 O_B2

Dit design maakt gebruik van een proxymaat, een alternatief voor in dit geval de posttest. In sommige gevallen kun je niet dezelfde soort pretest en posttest gebruiken. Je zoekt dan een pretest die sterk samenhangt met de posttest, maar hier wel van verschilt.

4.3.4. Verbeteren van het Posttest-Only Design

Wanneer er geen pretest wordt gebruikt, heb je gelijk te maken met een gebrekkige kennis over ‘selectie’. Deze validiteitbedreiger kan op zeven manieren (deels) worden voorkomen.

4.3.4.1. Matchen of stratificeren

Matchen houdt in dat er units worden gevormd die gelijkwaardige scores op de te onderzoeken variabele hebben. Zo kun je het effect van VVE onderzoeken door een kind te selecteren die VVE heeft gehad, en die matchen aan een vergelijkbaar kind die geen VVE heeft gehad.

Stratificatie houdt in dat er homogene groepen van units worden gecreëerd waarbij elke groep meer units heeft dan dat er experimentele condities zijn. Kort gezegd zijn er bij stratificatie grotere groepen te onderscheiden. Waar bij matchen een kind met bepaalde eigenschappen (met interventie) wordt gematcht aan een ander kind met dezelfde eigenschappen (maar zonder interventie), wordt bij stratificatie een grote groep mensen gekoppeld aan een experimentele conditie (bijvoorbeeld ‘man’).

Matchen kan op verschillende manieren:

Exact matchen, waarbij de units precies gelijk zijn;
Caliper matchen (m.b.v. een schuifmaat), waarbij de scores niet identiek hoeven te zijn, maar wel op een zekere afstand binnen elkaar moeten liggen;
Index matchen (of dubbel matchen), waarbij scores boven en onder de gewenste score geselecteerd worden;
Optimaal matchen, waarbij elke interventie meerdere gematchte variabelen heeft.

Matchen kent echter wel wat problemen. Zo kan er sprake zijn van undermatching, waarbij bepaalde belangrijke voorspellers niet worden opgenomen bij het matchen. Ook kan selectie nooit als bedreiger worden uitgesloten. Het is daarom belangrijk dat de groepen zoveel mogelijk gelijk zijn, voordat met matchen wordt begonnen. Zo hoef je niet naarstig te zoeken naar vergelijkbare units binnen je onderzoeksgroep. Ook is het belangrijk om te zoeken naar matching variabelen die stabiel en betrouwbaar zijn. Voorbeelden hiervan zijn gender en leeftijd.

4.3.4.2. Interne controles

Bij interne controles creëer je controlegroepen uit populaties die gelijk zijn aan de populatie van waaruit de interventiegroep is getrokken. Dit kan bijvoorbeeld door een controlegroep te selecteren uit mensen die net te laat waren om zich in te schrijven voor de interventiegroep. Je zou dan kunnen aannemen dat deze groep gelijkwaardig is aan de interventiegroep. Toch mag dit nooit een vaste aanname zijn. Ook het instellen van wachtlijsten is een manier van interne controle. Je deelt dan de interventiegroep op in twee groepen, waarbij de eerste groep de interventie ondergaat en de tweede groep op de wachtlijst terechtkomt. Deze wachtlijst vormt dan de interventiegroep.

4.3.4.3. Multipele controlegroepen

Multipele controlegroepen kunnen worden samengesteld uit mensen die

zich niet hebben aangemeld voor de interventie;
geweigerd zijn voor de interventie;
niet zijn komen opdagen voor de interventie;
zijn uitgevallen tijdens de interventie.

Door te kijken of de verschillen tussen de controlegroepen net zo groot of vergelijkbaar zijn als de verschillen binnen de interventiegroep, dan kun je daarmee iets over het effect van de interventie zeggen.

4.3.4.4 Voorspelde interactie

Hierbij genereer je een in hoge mate differentiële causale hypothese, die veel bedreigers van interne validiteit wegneemt. Een voorbeeld hiervan is de hypothese dat de verwachting van leerkrachten er voor zorgt dat kinderen met een goed presterende broer/zus beter presteren dan kinderen met een slecht presterende broer/zus en dat dit effect versterkt wordt wanneer de broers en zussen dezelfde leerkracht hebben (gehad). Je maakt hierbij gebruik van een complex patroon, gelijkwaardige groepen, betrouwbare metingen en grote steekproeven, waardoor de interne validiteit in mindere mate bedreigd wordt.

4.3.5 Verbeteren van designs zonder controlegroepen door het construeren van contrasten

Als je geen onafhankelijke controlegroepen kunt creëren (zoals hiervoor wel gebeurde), dan kun je contrasten construeren. Er zijn drie soorten contrasten te onderscheiden.

4.3.5.1. Regressie extrapolatie contrasten

Als er verschil is tussen pretest en posttest, dan wil je weten wat dit verschil veroorzaakt heeft. Je kunt dan de pretest afzetten tegen een onafhankelijke variabele zoals leeftijd, en kijken wat de rijping is na bijvoorbeeld twee jaar. Mocht het verschil tussen pretest en posttest groter zijn dan de rijping, dan kun je het effect van de interventie bepalen: (posttest - pretest) - rijping = effect.

4.3.5.2. Genormeerde vergelijkingscontrasten

Als er geen controlegroep beschikbaar is, kun je uitkomsten van de interventiegroep vergelijken met genormeerde scores in een databestand.

4.3.5.3. Contrasten met secundaire bronnen

Een andere methode om het gebrek aan controlegroep op te vangen, is het vergelijken van de uitkomsten van de interventiegroep met een secundaire bron. Zo’n bron kan bijvoorbeeld data van een vergelijkbare gemeente zijn (die geen interventie heeft ontvangen), als het gaat om een interventie op gemeenteniveau. Hierbij moet wel aangetekend worden dat dergelijke data wellicht voor andere doeleinden is verzameld, of niet volledig kan zijn.

4.3.6 Case-Control Design

Bij een case-control design worden units met een belangwekkende outcome afgezet tegen units zonder die outcome, om zo retrospectief de voorspellers of oorzaken van de outcome te bepalen. Het is een goede manier om hypotheses over causale verbanden mee te bedenken. Doordat gebruik wordt gemaakt van retrospectieve metingen (het terughalen van oorzaken), zijn er veel bedreigers van validiteit. Een dergelijk design is dan ook vooral geschikt in de verkennende fase van het onderzoek.

Hoofdstuk 5: Quasi-experimentele designs met zowel controlegroep als pretest

5.1 Designs met controlegroep en pretests

In dit hoofdstuk worden quasi-experimenten besproken die gebruik maken van zowel controlegroepen als pretests. Pretests zijn om drie redenen gewenst:

Ze zeggen iets over de samenstelling van de groep, en geven zo aanwijzingen op welke bedreigers van validiteit de onderzoeker moet letten:

- Selectie;
- Uitval;

Ze zeggen iets over de verschillen in de groep t.a.v. de variabele die het meeste samenhangt met de outcome;
Het helpt bij de statistische analyse, vooral als de metingen betrouwbaar zijn.

Deze vorm van quasi-experimenten zijn het meest voorkomend, en kenmerken zich door het feit dat de pretest en posttest afgenomen worden bij dezelfde units. Daarom is dit design te kenmerken als een afhankelijke steekproef. Schematisch kan de basisopzet van dit design als volgt worden weergegeven:

NR O₁ X O₂

-------------------------------------

NR O₁ O₂

Mochten er verschillen in de pretestresultaten te zien zijn, dan verhoogt dat de kans dat validiteitbedreigers elkaar beïnvloeden. Hiervoor zijn vier voorbeelden te noemen:

Selectie-rijping, waarbij de interventiegroep bijvoorbeeld meer rijpt dan de controlegroep;
Selectie-instrumentatie, waarbij de niet gelijke groepen op verschillende momenten aan de pretest beginnen;
Selectie-regressie, nader uitgelegd in het laatste hoofdstuk;
Selectie-geschiedenis, waarbij een gebeurtenis die plaatsvond tussen pretest en posttest de ene groep meer beïnvloedt dan de andere groep.

5.1.1 Vijf uitkomsten

Er worden nu vijf uitkomsten binnen het pretest-posttest design behandeld waarbij sprake is van validiteitbedreigers.

Beide groepen in zelfde richting

Zie bijlage

Dit model heet ook wel het ‘fan-spread’ model. De interventiegroep presteert relatief gezien beter dan de controlegroep, maar hoe weet je of dit door de interventie komt? Er is hier sprake van selectie-rijping, maar je weet niet hoeveel rijping er is opgetreden. Door gebruik te maken van verschillende pretests kun je hier meer over te weten te komen.

Geen verandering in de controlegroep

Zie bijlage

Bij deze uitkomst is het zaak een verklaring te geven voor de stijging van de interventiegroep. Wellicht zaten er in de interventiegroep oudere deelnemers, waardoor ze sneller rijpen.

Verschil in het voordeel van de interventiegroep verdwijnt

Zie bijlage

Bij deze uitkomst worden de verschillen tussen de interventiegroep en controlegroep kleiner. Selectie-rijping is hier niet aannemelijk, omdat er zelden sprake van is.

Verschil in het voordeel van de controlegroep verdwijnt

Zie bijlage

De interventiegroep presteert hier voortdurend slechter dan de controlegroep, maar dit verschil wordt wel kleiner. Dit effect is gewenst als getracht wordt zwakke leerlingen te helpen. Er is hier sprake van selectie-instrumentatie, selectie-geschiedenis, selectie-regressie en selectie-rijping. Laatstgenoemde treedt niet op in de vorm van het ‘fan-spread’-type, maar kan wel te maken hebben met andere factoren.

Uitkomsten snijden elkaar

Zie bijlage

In deze uitkomst worden drie validiteitbedreigers uitgesloten:

Selectie-rijping, aangezien de lijnen elkaar anders zouden moeten snijden;
Selectie-instrumentatie, aangezien er geen plafondeffect is (de controlegroep zit zowel boven als onder de interventiegroep);
Regressie, want de groepen komen niet samen op één gemiddelde.

Toch is deze uitkomst niet betrouwbaar, aangezien het lastig is om de interactie (en de verklarende variabelen daarvoor) op te sporen.

Er zijn verschillende manieren om de hier besproken designs te verbeteren. Er volgen nu drie voorbeelden (5.1.2 t/m 5.1.4).

5.1.2 Untreated Control Group Design With Dependent Pretest and Posttest Samples Using a Double Pretest

NR O₁ O₂ X O₃

----------------------------------------------

NR O₁ O₂O₃

Er worden hier twee pretests gebruikt, waardoor te onderzoeken is in hoeverre er sprake is van rijping en selectie. Ook kan onderzoek worden gedaan naar regressie-naar-het-midden. Door tijdsproblemen wordt dit design echter niet altijd ingezet.

5.1.3 Untreated Control Group Design With Dependent Pretest and Posttest Samples Using Switching Replications

NR O₁ X O₂ O₃

-------------------------------------------------------

NR O₁ O₂ X O₃

Er worden hier twee groepen tegelijkertijd onderzocht, waarbij de interventie eerst plaatsvindt tussen O₁ en O₂ in de ene groep, waarbij de andere groep op dat moment controlegroep is. Vervolgens wordt dezelfde interventie tussen O₂ en O₃ bij de controlegroep ingevoerd, en dient de voormalige interventiegroep op dat moment als controlegroep. Een exacte replicatie is de herhaalde interventie echter niet, omdat de context vergeleken met de eerste interventie duidelijk verschilt. De tweede controlegroep heeft namelijk de interventie al ontvangen, dus deze groep verschilt van de eerste controlegroep. Een ander probleem van dit design is, dat er sprake kan zijn van compensatorische rivaliteit.

5.1.4 Untreated Control Group Design With Dependent Pretest and Posttest Samples Using a Reversed-Treatment Control Group

NR O₁ X₊ O₂

-----------------------------------

NR O₁ X_- O₂

In dit design wordt in de ene groep de interventie zoals bedoeld uitgevoerd, en in de andere groep het tegenovergestelde van de interventie. Als de uitkomsten tegengesteld zijn, dan kun je wellicht aannemen dat de interventie effect heeft gehad.

5.1.5 Matching d.m.v. cohort-controlegroepen

Een cohort is een groep die een bepaald proces ondergaat. Deze groep is handig als controlegroep als de ene cohort een interventie ondergaat en een eerder of later cohort niet. Ook is het van belang dat cohorten weinig van elkaar verschillen. Er kan alleen sprake zijn van historische vergelijking, mocht een cohort geselecteerd worden. Iedereen in de cohort moet namelijk de interventie hebben ondergaan (of niet). Gegevens over cohorten kunnen dan gebruikt worden om de cohorten te vergelijken. Een aanname bij het gebruiken van cohorten is, dat de verschillen tussen de groepen kleiner zijn dan als twee andere groepen zouden worden vergeleken.

Een design ziet er zo uit (waarbij de onderbroken lijn nu vervangen is door een stippellijn):

NR O₁

………………………………

NR X O₂

Dit design is bijvoorbeeld van toepassing als er bij O₁ gegevens over alle broers/zussen van O₂worden vergeleken met O₂. Gevaar hierbij is, dat eerstgeborenen de later geborenen overstijgen qua prestaties, dus dat beide groepen niet gelijk zijn.

Een cohort-studie kan op twee manieren verbeterd worden:

Cohort Control Group Design with Pretest from Each Cohort

NR O₁O₂

………………………………………………

NR O₃ X O₄

Hierbij kunnen O₁ en O₃ gezien worden als pretest, en O₂ en O₄ als posttest. Als de interventie geen effect zou hebben, dan zouden de verschillen tussen O₁ en O₂ en tussen O₃ en O₄ hetzelfde zijn. Je kunt zo rijping en regressie-naar-het-midden onderzoeken. Je hebt echter geen grip op geschiedenis, tenzij je een controlegroep zou instellen die op elk punt ook gemeten wordt. Een variant op dit design is dan ook:

Recurrent Institutional Cycle Design

NR X O₁

…………………………………………………………

NR O₂X O₃

…………………………………………………………

NR O₄

Hierbij wordt de cyclus herhaald, want O₂ vindt plaats na X en O₁, en O₄ vindt plaats na X en O₃.

5.2 Designs met meerdere designelementen

5.2.1 Een design met meerdere pretests en posttests, ongelijke afhankelijke variabelen en weggehaalde en herhaalde interventies

Binnen een onderzoeksopzet wordt een grote groep opgesplitst, waarbij de ene groep zowel pretests en posttests krijgt, bij een tweede groep werd ook naar andere afhankelijke variabelen gekeken, en bij de laatste groep werd de interventie weggehaald en vervolgens herhaald. Zo onderzoek je op meerdere manieren of de interventie zin heeft gehad.

5.2.2 Het combineren van wisselende replicaties met niet-gelijke controlegroepen

Jaar 1 Jaar 2

NR O₁ X O₂ R O₃ X O₄

R O₃ O₄

------------------------------------------------------------------------------------------

NR O₁ O₂ R O₃ X O₄

R O₃ O₄

In dit design wordt de interventiegroep na de posttest in tweeën gesplitst (aselect), om bijvoorbeeld het effect van een extra interventie te onderzoeken.

5.2.3 Untreated Control Group With a Double Pretest and Both Independent and Dependent Samples

R O₁ | O₂ | O₃ | O₄ | O₅

R O₁ | O₂ |X O₃ | O₄ | O₅

-----------------------------------------------------------------------------------------------

R O₁ O₂ O₃ O₄ O₅

R O₁ O₂ X O₃ O₄ O₅

In dit design worden twee pretests gebruikt, die beide zowel onafhankelijke als afhankelijke variabelen meten. De verticale lijnen geven onafhankelijke steekproeven weer. De bovenste twee rijen staan voor een aselect experiment met een interventiegroep en een controlegroep, en met een surveys uitgevoerd op onafhankelijke steekproeven op gezette tijden binnen het experiment. De onderste twee rijen staan voor een longitudinale survey van respondenten die een tijd gevolgd werden.

5.3 Designelementen

Zwakke quasi-experimentele designs kunnen versterkt worden door bepaalde elementen toe te voegen die het aantal bedreigers voor interne validiteit verminderen. Er zijn vier groepen elementen te onderscheiden:

5.3.1 Toewijzing

Aselecte toewijzing is een goed voorbeeld, want hierdoor worden de uitkomsten beter dan bij selecte toewijzing. Een andere optie is ‘matching’ en ‘ stratificeren’, maar deze twee technieken moeten wel goed worden toegepast. Is dit niet het geval, dan worden de problemen alleen maar groter. Een laatste voorbeeld is ‘masking’, verblinden. De onderzoeker en deelnemer hebben zo geen zicht op de interventie.

5.3.2 Meting

Door het instellen van posttests kan de onderzoeker nagaan of het effect van een interventie tijdelijk is of niet. Een soort posttest is de ‘nonequivalent dependent variabele’, waarbij je twee afhankelijke variabelen test. Je verwacht dat een van beide verandert. Ook multipele ‘substantive’ posttests is een manier, zo krijgt de onderzoeker beeld van een patroon van bewijs.

Het instellen van pretests is ook een methode, hiermee verklein je de kans op de invloed van selectie en je hebt een beter beeld van uitval. Herhaalde pretests geven een beeld van rijping. Ook retroperspectieve pretests (mensen vragen hun pretest te herinneren) en proxy pretests (een samenhangende variabele meten) kunnen de interne validiteit ten goede komen. Het is ook mogelijk om pretests bij andere, vergelijkbare mensen af te nemen, via een ‘independent pretest sample’. Moderator variabelen beïnvloeden de grootte of richting van een geobserveerd effect. Tot slot kan de onderzoeker de bedreigers voor interne validiteit meten voorafgaand aan zijn onderzoek, zodat hij daarop goed is voorbereid.

5.3.3 Vergelijkingsgroepen

Een ‘nonequivalent comparison group’ lijkt qua samenstelling erg op de pretest groep, en deze gebruik je om te onderzoeken wat er gebeurt zou zijn zonder interventie. Door gebruik te maken van meerdere nonequivalent comparison groups, heb je een beter zicht op de interne validiteit. ‘Cohort controls’ leveren ook goede ondersteuning; door gebruik te maken van cohorten heb je vergelijkbare groepen.

Bij ‘comparisons to internal control group’ maak je gebruik van de groep participanten om je controlegroep te vormen, in plaats van gebruik te maken van een externe controlegroep.

Je kunt ook je ‘counterfactual inferences’ meten door ‘regression extrapolation’ waarbij echte en geprojecteerde posttest scores worden vergeleken, genormeerde vergelijking waarbij de interventiegroep wordt vergeleken met bepaalde normen, en door gebruik te maken van secundaire data, waarbij de interventiegroep wordt vergeleken met data uit andere studies.

5.3.4 Interventie

Ook de interventie kan effect hebben: door de interventie na verloop van tijd te herhalen in de voormalige controlegroep onderzoek je of het effect aanwezig blijft. Ook kun je de interventie omkeren, zodat ook het effect zal omkeren. De interventie weghalen na introductie zou kunnen aantonen dat de interventie ‘iets’ doet. Tot slot kun je na weghalen van de interventie de interventie weer introduceren (ABAB design).

Hoofdstuk 6: Quasi-experimenten: ‘Interrupted Time-Series Designs’

6.1 Wat zijn tijdreeksen?

Een design dat gebruikt maakt van series in tijd heeft veel observaties van dezelfde variabele verspreid over lange tijd. Deze observaties kunnen van een zelfde groep zijn, maar ook van andere groepen (als groepen continu veranderen, zoals bij de effecten van een verkeersmaatregel). Wanneer gesproken wordt van een onderbroken serie, dan wil dat zeggen dat het moment van interventie duidelijk is. Je verwacht dan dat het effect op dat punt onderbroken wordt en verandert. Dit model is een van de sterkste quasi-experimentele modellen die er bestaat.

6.2 Eenvoudige modellen

Een eenvoudig model van tijdreeksen met tien observaties ziet er als volgt uit:

O₁ O₂O₃O₄O₅X O₆O₇O₈O₉O₁₀

Er zijn drie soorten effecten bij een tijdreeksen design:

6.2.1 Verandering van intercept

Als de uitkomsten van observaties na een interventie ineens duidelijk anders zijn, dan spreek je van een verandering van intercept (verandering van de plek waar de lijn de y-as snijdt). Een voorbeeld hiervan is dat een telefoonmaatschappij ineens geld vraagt voor bepaalde diensten die onnodig veel gebruikt worden. Als er voorheen een stijgende lijn te zien was in het aantal telefoontjes naar die diensten (gedurende enkele jaren) en na de interventie (het verhoogde tarief) het aantal telefoontjes enorm daalt, dan mag je aannemen dat dit door de interventie komt.

6.2.2 Verandering van helling

Als een variabele in een grafiek wordt weergegeven en de helling verandert na de interventie, dan kun je dit wellicht ook toeschrijven aan de interventie. Een voorbeeld hiervan zou kunnen zijn dat het aantal deelnemers aan een cursus acteren over de jaren heen licht stijgt, maar dat er jaarlijks een verdubbeling van deelnemers is wanneer de cursus plotseling wordt gegeven door Brad Pitt. De helling verandert dan en je kan er vrij zeker van zijn dat de interventie dit heeft veroorzaakt.

6.2.3 Zwakke en vertraagde effecten

Bij sommige interventies is het niet gelijk duidelijk wat het effect is. Je spreekt dan van vertraagde effecten. Dit is het geval als een gezondheidswaarschuwing op pakjes sigaretten wordt geplaatst, maar dat het nog even duurt voordat deze nieuwe sigaretten ‘aan de beurt’ zijn (er liggen nog veel oude pakjes op voorraad).

6.2.4 Bedreigers van validiteit

Er zijn verschillende bedreigers van validiteit te onderscheiden in dit design:

Geschiedenis
Als er belangrijke gebeurtenissen gelijktijdig aan de interventie optraden, dan kan dat het effect van de interventie beïnvloeden;
Instrumentatie
Hoe variabelen gedefinieerd worden, beïnvloedt het effect van de interventie. Als misdaad ineens anders wordt ingevuld, dan kan een schijnbare daling van misdaadcijfers wellicht veroorzaakt zijn door deze andere definitie;
Selectie
Als de samenstelling van de interventiegroep plotseling verandert ten tijde van de interventie, dan beïnvloedt dat het effect van de interventie ook.

De validiteit van statistische gevolgtrekking wordt hier net zo bedreigd als in andere designs. Voorbeelden hiervan zijn lage power, onjuiste assumpties en onbetrouwbare metingen. Het is daarom bij dit design van belang om het tijdstip van interventie nauwkeurig aan te geven, zodat duidelijk is waar het effect verwacht gaat worden. Begripsvaliditeit moet hier ook in de gaten worden gehouden. Begrippen moeten duidelijk geformuleerd worden. Externe validiteit kan verbeterd worden door de groepen op te splitsen naar sekse of leeftijd.

6.3 Design elementen toevoegen aan eenvoudige modellen

Net als in het vorige hoofdstuk, kunnen ook in dit hoofdstuk elementen worden toegevoegd om de modellen te verbeteren.

6.3.1 Toevoegen van een nonequivalent no-treatment control group time series

O₁ O₂O₃O₄O₅X O₆O₇O₈O₉O₁₀

--------------------------------------------------------------------------------------------------------

O₁ O₂O₃O₄O₅ O₆O₇O₈O₉O₁₀

In dit design wordt een vergelijkbare groep in dezelfde periode geobserveerd, alleen vindt er in die groep geen interventie plaats. Zo worden bedreigers van validiteit (geschiedenis, meting, regressie naar het midden, rijping) onder controle gehouden. Alleen selectie zou hier nog een rol kunnen spelen.

6.3.2 Toevoegen van nonequivalent dependent variables

O_A1 O_A2O_A3O_A4O_A5X O_A6O_A7O_A8O_A9O_A10

--------------------------------------------------------------------------------------------------------

O_B1 O_B2O_B3O_B4O_B5X O_B6O_B7O_B8O_B9O_B10

In dit design observeer je twee variabelen die beide de interventie ontvangen. Je verwacht dat bijvoorbeeld variabele A wel beïnvloed zal worden door de interventie en variabele B niet. Externe validiteit is hier een probleem, omdat je niet weet hoe dit design in andere omstandigheden zou functioneren.

6.3.3 Verwijderen van de interventie op een vastgesteld tijdstip

O₁ O₂O₃XO₄O₅O₆X O₇O₈O₉

In dit design laat je zien dat het effect optreedt na een interventie en weer weggaat als een interventie stopt. Hiermee verklein je de rol van geschiedenis, selectie, uitval en instrumentatie.

6.3.4 Toevoegen van meerdere replicaties

O₁ O₂XO₃O₄XO₅O₆XO₇O₈XO₉ O₁₀

Dit design is een uitbreiding van het vorige design, waarbij de interventie meerdere malen herhaald wordt en wordt weggehaald. Dit design kan alleen maar geïmplementeerd worden als verwacht wordt dat het effect van de interventie snel verdwijnt. Ook moet er mogelijkheid zijn om vele factoren onder controle te houden (bijvoorbeeld in een gevangenis).

6.3.5 Toevoegen van switching replicaties

O₁ O₂O₃XO₄O₅O₆O₇O₈O₉O₁₀

-------------------------------------------------------------------------------------------------------------------

O₁ O₂O₃O₄O₅O₆O₇O₈XO₉O₁₀

Hier heb je twee groepen die afwisselend als interventie- en controlegroep dienen. De meeste bedreigers voor interne validiteit worden hier onder controle gehouden en externe validiteit wordt verbeterd. Dit design is erg handig bij vertraagde effecten. Ook al duurt het even voordat een effect zichtbaar is, dan zou je nog steeds dezelfde patronen in beide groepen moeten kunnen zien.

6.4 Problemen met onderbroken tijdreeksen

Er zijn vijf problemen met het tijdreeksen design die nu kort worden besproken:

6.4.1 Geleidelijke interventies

Veel interventies worden geleidelijk ingevoerd in plaats van abrupt. Ze verspreiden zich langzaam door een populatie. Het is belangrijk hiermee rekening te houden, zodat je toevalseffecten niet als hoofdeffecten ziet. Ook loop je anders risico om kleine effecten over het hoofd te zien. Tot slot verwachten onderzoekers patronen te vinden die zich later herhalen. Dit is echter meestal niet het geval. Een geobserveerd effect kan optreden in precies dat stadium van de interventie, en niet een herhaald patroon zijn.

6.4.2 Vertraagde gevolgtrekking

Veel effecten treden op met niet voorspelbare vertraging, die verschilt per populatie en per tijdseenheid. Vertraagde gevolgtrekking is niet erg als je een goed onderbouwde theorie hebt die deze vertraging verklaart (zoals negen maanden zwangerschap). Vaak is dit echter niet het geval.

6.4.3 Gering aantal observaties (korte time series)

Men adviseert om per design 100 observaties te doen. Soms zijn er echter niet zoveel observaties beschikbaar, maar is het design nog steeds bruikbaar. Dit kan het geval zijn door vier redenen:

Extra pretests toevoegen;
Extra posttests toevoegen;
Elementen toevoegen (zoals controlegroepen);
Het geringe aantal observaties analyseren. Hierdoor kun je bijvoorbeeld iets zeggen over de error in het onderzoek.

6.4.4 Beperkingen van archiefdata

Bij dit design wordt veel gebruik gemaakt van data uit archieven. Soms is deze data echter niet volledig of überhaupt aanwezig. Ook ben je er met archiefdata niet zeker van of de begripsvaliditeit gewaarborgd is. Archieven zijn ook niet flexibel, waardoor ze zich bijvoorbeeld niet lenen voor het creëren van subgroepen.

Hoofdstuk 7: Onderbroken regressie designs

7.1 De uitgangspunten van onderbroken regressie

Onderbroken regressie houdt in dat de regressielijn van de controlegroep niet continu doorloopt in de regressielijn van de interventiegroep. Het design ziet er als volgt uit:

O_a C X O₂

O_a C O₂

In dit design is O_a de voormeting van de te onderzoeken variabele. De C staat voor ‘cutoff’, wat inhoudt dat er een waarde is bepaald waarlangs de proefpersonen worden getoetst. Als de cutoff-waarde bijvoorbeeld 500 is, dan worden mensen die eronder scoren bijvoorbeeld in de controlegroep geplaatst, en mensen die erboven scoren bijvoorbeeld in de interventiegroep. In de grafiek zie je precies bij het cutoff-punt een verandering van de lijn.

7.1.1 Structurele vereisten van onderbroken regressie

De toewijzingsvariabele (die de cutoff selecteert) moet aan een aantal eisen voldoen. Zo mag deze niet beïnvloed worden door de interventie en hij mag niet dichotoom zijn (bijv. roken/niet-roken). Het beste is om een continue variabele te selecteren, zoals bloeddruk of scores op een rekentoets. De keuze voor de cutoff-score is soms ook lastig. Het is zaak om geen extreme score vast te stellen, omdat er dan kans is dat te weinig proefpersonen erboven scoren (en in de interventiegroep vallen). Een voorwaarde is dat de cutoff-score controleerbaar moet zijn; retrospectieve scores zijn dus onbruikbaar. Overige voorwaarde voor het onderbroken regressie design is, dat alle proefpersonen vooraf tot dezelfde populatie moeten behoren. Omdat de term ‘populatie’ nog wat ruimte toelaat, wordt populatie in dit verband gedefinieerd als een groep personen die allemaal individueel de interventie hadden kunnen ontvangen, als de cutoff-score anders was vastgesteld.

7.2 Theorie achter onderbroken regressie designs

Het onderbroken regressie design verschilt in een aantal opzichten van gerandomiseerde regressie designs:

Gerandomiseerde experimenten hebben geen cutoff-punt in hun grafiek, de regressielijnen lopen gewoon door;
In de gerandomiseerde experimenten is het gemiddelde van pretest scores bijna gelijk in interventie- en controlegroep, omdat ze aselect zijn verdeeld. In het onderbroken regressie design is dit juist niet het geval, omdat ze op basis van hun pretest scores zijn ingedeeld in beide groepen;
Bij de gerandomiseerde regressie designs wordt het effect van de interventie bepaald door de gemiddelden van de posttests van de interventie- en controlegroep te vergelijken. De vooronderstelling hierbij is dat beide groepen gelijk zijn. Bij het onderbroken regressie design wordt het effect bepaald door de regressielijnen te vergelijken. De vooronderstelling hierbij is dat de lijnen dezelfde intercept (doorkruising van de y-as) en hellingscoëfficiënt hebben.

Een voordeel van het onderbroken regressie design is de afwezigheid van selectie-effecten. In tegenstelling tot gewone quasi-experimenten (waarbij de onderzoeker niet in de hand heeft wie in welke groep terechtkomt), heeft de onderzoeker bij het onderbroken regressie design perfecte controle over de toewijzing van proefpersonen aan de interventie- en controlegroep. Door middel van de cutoff-score weet de onderzoeker namelijk precies wie in welke groep terechtkomt. Het selectieproces is dus volledig bekend, waarmee dit design een grote overeenkomst heeft met het ‘echte experiment’.

7.3 Kwesties m.b.t. vasthouden aan de cutoff-score

7.3.1 Conflict met cutoff-score

In sommige situaties lopen onderzoekers aan tegen problemen met betrekking tot het vasthouden aan de cutoff-score. Soms druist een cutoff-score in tegen de mening van de interventiespecialist, die een beter idee heeft (of denkt te hebben) van wie de interventie zou moeten ontvangen. In plaats van de cutoff-score precies te volgen, wordt dan wel eens afgeweken door ook andere gevallen in de interventiegroep te plaatsen. Dit komt het design echter niet ten goede. Het is ook mogelijk dat er teveel deelnemers volgens de cutoff-score in de interventiegroep geplaatst zouden moeten worden. Een oplossing daarvoor kan zijn het plaatsen van die overbodige mensen in de controlegroep, zodat je daarmee een gerandomiseerd experiment inbedt in je design.

7.3.2 Cross-overs en uitval

Een andere kwestie heeft te maken met cross-overs en uitval. Van cross-overs is sprake als deelnemers uit de controlegroep interventie ontvangen of deelnemers uit de interventiegroep geen interventie ontvangen. Uitval nadat toewijzing heeft plaatsgevonden is een ander probleem. Deze uitval kan namelijk samenhangen met de toewijzing, waardoor er bias optreedt in de resultaten. Een voorbeeld van deze uitval in samenhang met toewijzing is als een decaan een bepaalde lijst met testscores heeft, op basis waarvan hij leerlingen aan een conditie toewijst (project voor getalenteerde leerlingen of controlegroep). Stel dat een hoog scorende leerling dankzij die lijst ineens naar een betere school kan gaan. Er is dan sprake van uitval, maar deze hangt wel samen met de interventie.

7.3.3 Troebele onderbroken regressie

Van troebele (fuzzy) onderbroken regressie is sprake als niet alle deelnemers volgens de cutoff-score in de goede groep worden geplaatst. In strikte zin betekent dit dat het design geen onderbroken regressie design genoemd mag worden. Toch verdient het design deze naam nog wel, als de verkeerde plaatsing bijvoorbeeld binnen een bepaalde marge plaatsvindt.

7.4 Validiteitbedreigers

De kracht van het onderbroken regressie design (RD) wordt goed duidelijk als de bijbehorende validiteitbedreigers worden vergeleken met die van de onderbroken tijdsreeksen (ITS), een quasi-experiment. Deze twee designs hebben een aantal overeenkomsten:

Een effect wordt verwacht op te treden op een specifiek continuüm: Tijd bij ITS (de interventie vindt plaats op een bepaald tijdstip), en de toewijzingsvariabele bij RD (de interventie vindt plaats na een bepaalde cutoff-score);
De grafiek van ITS verandert op een bepaald tijdstip, de grafiek van RD verandert bij een bepaalde cutoff-score;
Rijping en selectie zijn nauwelijks aan de orde bij beide designs;
Geschiedenis en instrumentatie tijdens de interventieperiode zijn wel bedreigend;
Bij beide designs moet je exact weten hoe het normale verloop is (op meerdere niveaus), om iets te kunnen zeggen over de veranderingen in dat verloop.

7.4.1 Validiteit van de statistische gevolgtrekking

Wanneer onderzoekers ten onrechte uitgaan van een lineair verband tussen de toewijzingsvariabele en de outcome, dan kloppen de schattingen van de regressie niet. Een interventie lijkt dan bijvoorbeeld geen effect te hebben, terwijl dit in werkelijkheid wel zo is. Deze verkeerde aanname kan worden ingegeven door niet normaal verdeelde variabelen, of door outliers en bodem- en plafondeffecten. Het is ook belangrijk om de interacties tussen toewijzings- en interventievariabelen te onderzoeken. Het kan bijvoorbeeld mogelijk zijn dat deelnemers uit de interventiegroep met scores dichtbij de cutoff minder profiteren van de interventie dan deelnemers uit de interventiegroep met extreem hoge scores. Om bias te voorkomen, moet de onderzoeker ook interactie meenemen in zijn berekeningen. Ook kan de onderzoeker extra data verzamelen, zoals Tot slot kan het onderbroken regressie design gecombineerd worden met gerandomiseerde experimenten.

7.4.2 Interne validiteit

Als de interne validiteit bedreigd zou worden in het onderbroken regressie design, dan zou dat te zien moeten zijn in een onderbreking van de regressielijn. Deze onderbreking is dan dus niet veroorzaakt door de interventie. Hoewel dit zelden voorkomt, is het toch goed om na te gaan welke validiteitbedreigers van interne validiteit hiervoor zouden kunnen zorgen:

Selectie kan dit niet veroorzaken, doordat het selectieproces transparant is;
Regressie-naar-het-midden kan niet optreden, omdat in het model zit besloten dat je dit onder controle houdt;
Testing is onwaarschijnlijk, want beide groepen krijgen dezelfde tests;
Instrumentatie is ook onwaarschijnlijk, want dit zou precies bij de cutoff moeten plaatsvinden;
Geschiedenis zou kunnen, als belangrijke gebeurtenissen alleen de groep aan een kant van de cutoff-score zouden beïnvloeden;

Rijping kan optreden als deelnemers die hoog scoren op de toewijzingsvariabele bijvoorbeeld sneller rijpen dan deelnemers die laag scoren;
Uitval is altijd een bedreiger;
Selectie-instrumentatie kan optreden als er bij de metingen sprake is van bodem- of plafondeffecten.

7.5 Het combineren van onderbroken regressie designs met gerandomiseerde experimenten

Er zijn zeven manieren waarop onderbroken regressie designs en gerandomiseerde designs kunnen worden gecombineerd:

Alle patiënten aan een kant van de cutoff worden behoeftig geacht en krijgen de interventie, de andere patiënten kunnen aselect worden toegewezen aan de verschillende condities;
Als er al sprake is van een cutoff in een gerandomiseerd experiment, kun je de deelnemers die de cutoff niet halen later gebruiken als controlegroep;
Je kunt verscheidene cutoffs instellen, verspreid over de toewijzingsvariabele. Zo verhoog je de generaliseerbaarheid;
Je kunt deelnemers aselect toewijzen aan multipele intervallen die verschillende kansen hebben als het gaat om het ontvangen van de interventie;
De waarschijnlijkheid van aselecte toewijzing binnen het interval kan veranderd worden, en de grootte van de intervallen kunnen ook veranderen;
Het gerandomiseerde interval kan geplaatst worden op het punt waar je curvilineariteit verwacht, om zo problemen weg te nemen;
Deelnemers in een cutoff interval kunnen aselect worden toegewezen, terwijl alle anderen worden toegewezen aan een conditie.

Voordelen van deze combinaties zijn er natuurlijk ook: de power van de interventie-effecten wordt verhoogd, regressielijnen voor interventie- en controlegroepen kunnen zo geschat worden m.b.v. dezelfde toewijzingsscores binnen het gerandomiseerde interval, en het verhelpt praktische problemen als niet duidelijk is waar de cutoff precies moet liggen.

7.6 Het combineren van onderbroken regressie designs met quasi-experimenten

Ook quasi-experimenten kunnen gecombineerd worden met onderbroken regressie designs. Dit is vooral handig als er al besloten is om een nonequivalent comparison group quasi-experiment uit te voeren. De power en schattingen van het quasi-experiment zullen dan verbeteren. Een voorbeeld hiervan is dat patiënten in psychotherapie dankzij een cutoff-score in de interventiegroep vallen, maar vervolgens zelf mogen kiezen of ze de therapie willen ondergaan of niet.

7.7 Het onderbroken regressie design: Experiment of quasi-experiment?

Er is nogal wat discussie over de vraag tot welke categorie het onderbroken regressie design nu eigenlijk hoort. Er zijn vele redenen om het tot quasi-experiment te benoemen, bijvoorbeeld omdat het minder power heeft dan een gerandomiseerd experiment. Toch zeggen sommige onderzoekers dat het de naam experiment verdient, omdat er een ‘unbiased estimate of treatment effects’ is.

Hoofdstuk 8: Gerandomiseerde experimenten

8.1 De theorie van aselecte toewijzing

Aselecte toewijzing betekent dat units (bijvoorbeeld personen) bij toeval worden toegewezen aan bepaalde condities, zoals een interventiegroep. Hierdoor zijn de groepen redelijk gelijk aan elkaar. Hierbij zijn vijf redenen waarom aselecte toewijzing zo goed blijkt te werken:

Zorgt ervoor dat alternatieve oorzaken niet interfereren met de interventie;
Verkleint het aantal validiteitbedreigers door ze aselect over condities te verdelen;
Het stelt groepen gelijk op de verwachte waarde van alle variabelen op de pretest;
Het geeft de onderzoeker gelegenheid om het selectieproces te kennen en modelleren;
Het biedt ruimte voor het creëren van een schatting van de error-variantie.

Aselecte toewijzing neemt de validiteitbedreiger selectie weg, maar biedt nog steeds ruimte voor rijping, regressie-naar-het-midden, geschiedenis, testing en instrumentatie. Wel wordt de kans op al deze bedreigers door aselecte toewijzing verkleind.

Het principe achter aselecte toewijzing is dat beide groepen in een pretest gelijk zijn. Dit wil niet zeggen dat je een willekeurige pretest erbij kunt pakken en geen verschillen zult zien; het gaat om een gemiddelde score van meerdere (eventueel fictieve) pretests.

Bij experimenteel onderzoek wordt gebruik gemaakt van units. Dit kunnen individuele personen zijn, maar ook dieren of groepen personen (higher order units). Laatstgenoemde kan handig zijn bij grootschalige onderzoeken, waarbij het niet haalbaar is om elk individu apart de interventie te laten ondergaan. Een probleem bij het gebruiken van higher order units is het geringe aantal beschikbare units, waardoor de power van het experiment daalt. Individuen binnen de units zijn niet onafhankelijk van elkaar, omdat ze in contact met elkaar staan. Ook dit bemoeilijkt het experiment.

Het is een misvatting te denken dat aselecte toewijzing automatisch zorgt voor een goed experiment. De toewijzing is namelijk maar een klein deel van het gehele experiment. Het gehele experimentele design heeft betrekking op het plannen van observaties, de keuze van interventie en vergelijkingen, de selectie van observatie- en meetmethoden, vaststellen wie de deelnemers zijn en tot slot dan de toewijzing.

8.2 Designs met aselecte toewijzing

Bij schematische weergaven van gerandomiseerde designs, wordt een R geplaatst aan het begin van de regel. Deze R geeft aan dat de toewijzing aselect (random) is.

8.2.1 Basic Randomized Design Comparing Treatment to Control

R X O

Dit design is het simpelste design, waarbij een interventiegroep alleen op de posttest wordt vergeleken met de controlegroep. Het is hierbij belangrijk om de controlegroep goed te vormen, zodat je kunt controleren wat je moet controleren (en niet de te onderzoeken factor in je controlegroep opgenomen hebt).

8.2.2 Basic Randomized Design Comparing Two Treatments

R X_A O

R X_B O

In dit design wordt een nieuwe behandeling bijvoorbeeld vergeleken met een standaard behandeling. Dit is alleen mogelijk als er over de standaard behandeling goede informatie bekend is met betrekking tot controlegroepen.

8.2.3 Basic Randomized Design Comparing Two Treatments and a Control

R X_A O

R X_B O

R O

Wanneer bij 8.2.2 geen informatie over controlegroepen voorhanden is, zal de onderzoeker zelf nog een controlegroep aan het design moeten toevoegen.

In sommige gevallen is het niet mogelijk of nodig om een pretest af te nemen, bijvoorbeeld als er geen gegevens voor handen zijn, of als de pretest gegevens constant zijn. In andere gevallen is de afwezigheid van een pretest riskant, als er kans is op uitval in het experiment. De pretest kan dan inzicht geven in de aard van de uitval (verschillen tussen uitvallers en blijvers of tussen uitvallers van de ene conditie en uitvallers van de andere conditie). Daarom worden nu designs met pretest besproken.

8.2.4 Pretest-Posttest Control Group Design

R O X O

R O O

Dit design wordt het meeste gebruikt als veldexperiment. Naast het voordeel van inzicht in uitval, heeft dit design ook nog als voordeel dat het statistische analyses m.b.t. het verhogen van de power verbetert.

8.2.5 Alternative-Treatments Design with Pretest

R O X_A O

R O X_B O

Dit design lijkt op een design dat hiervoor werd besproken, maar dan met een toegevoegde pretest. Het voordeel hiervan is dat, als er op de posttest geen verschillen tussen groepen worden gevonden, de onderzoeker pretest en posttest kan vergelijken. Hiermee kan hij alsnog zien of de groepen beide vooruitgang hebben geboekt of beide hetzelfde zijn gebleven.

8.2.6 Multiple Treatments Design with Pretest

R O X_A O

R O X_B O

R O O

Dit design vergelijkt twee verschillende interventies met elkaar en elke interventie afzonderlijk nog met een controlegroep.

8.2.7 Factorial Design

R X_A1B1 O

R X_A1B2 O

R X_A2B1 O

R X_A2B2 O

Dit design gebruikt altijd twee onafhankelijke variabelen, elk met tenminste twee levels. Een voorbeeld hiervan is het vergelijken van 1 uur bijles (factor A, level 1) met 4 uur bijles (factor A, level 2) en tegelijk het vergelijken van bijles door een klasgenoot (factor B, level 1) met bijles door een volwassene (factor B, level 2). Zo krijg je bovenstaande notaties als X_A2B1, wat inhoudt 1 uur bijles door een klasgenoot.

Voordelen van dit design zijn:

Je hebt minder units nodig;
Het leent zich makkelijker voor het testen van combinaties van interventies;
Het laat het testen van interacties toe.

Een nadeel van een factorial design is dat het moeilijker te implementeren is dan andere designs.

8.2.8 Longitudinal Design

R O…O X O O…O

Bij dit design worden voorafgaand aan de interventie meerdere observaties verricht. Ook na de interventie worden meerdere observaties verricht. Dit design lijkt op het tijdreeksen-design, maar heeft minder pretest- en posttest-observaties. Longitudinale aselecte experimenten met meerdere pretests komen minder vaak voor dan dezelfde experimenten met meerdere posttests.

Nadelen van dit design zijn ten eerste uitval in de follow-up, omdat deelnemers bijvoorbeeld verhuizen of geen zin meer hebben in het onderzoek. Ten tweede is sommige data lastig vast te stellen, zoals inkomen tijdens je totale levensduur. Ook is het niet altijd ethisch verantwoord om mensen uit de controlegroep zo lang zonder behandeling te laten. Tot slot is dit design nog steeds te kort voor sommige te onderzoeken variabelen, zoals stress in het leven van kinderen (en later volwassenen) met gescheiden ouders.

8.2.9 Crossover Design

R O X_A O X_B O

R O X_B O X_A O

In dit design worden deelnemers aselect toegewezen aan een van beide interventies. Na deze interventie vindt een posttest plaats, waarna de deelnemers de interventie ondergaan die ze daarvoor niet hebben gekregen. Ook hierna vindt weer een posttest plaats. Vaak zit er wel wat tijd tussen de eerste posttest en de tweede interventie, om het effect van de eerste interventie te laten doven. Dit design is vooral handig in gebruik als het effect van de interventie kort zal zijn, en als de interventies niet zo lang duren. Ook moeten deelnemers bereid zijn beide interventies te ondergaan, ook al leverde de eerste interventie hun problemen op.

8.3 Gunstigste omstandigheden voor aselecte toewijzing

Er zijn bepaalde situaties waarin de succeskansen van een experiment met aselecte toewijzing stijgen. Er worden er hier nu tien besproken:

8.3.1 De vraag is groter dan het aanbod

In situaties waar het aantal deelnemers groter is dan het aantal condities is het eerlijker om de deelnemers aselect toe te wijzen aan deze condities.

8.3.2 De innovatie kan niet aan alle units tegelijkertijd aangeboden worden

Ook hier speelt eerlijkheid een rol. Iedereen heeft zo evenveel kans om de innovatie als een van de eersten te krijgen.

8.3.3 Experimentele units kunnen tijdelijk geïsoleerd worden

Deze situatie wordt ook wel het ‘Equivalent-Time-Samples-Design’ genoemd. Hierbij worden tijdstippen aselect aan condities toegewezen.

8.3.4 Experimentele units zijn ruimtelijk gescheiden

In deze situatie hebben de experimentele units weinig contact met elkaar door bijvoorbeeld een grote fysieke afstand. Aselecte toewijzing is dan makkelijker, doordat je er vrij zeker van bent dat de individuele units geen contact met elkaar hebben.

8.3.5 Er moet verandering komen, maar men weet niet hoe

In dit geval heb je meerdere oplossingen voor een bekend probleem, en je weet niet welke oplossing de beste is. Je wijst units dan aselect toe aan de verschillende oplossingen en kijkt zo welke oplossing de beste is.

8.3.6 Er is verschil in behoefte aan interventie

Soms is de behoefte van units aan een interventie ambigu. Aselecte toewijzing is hier dan een oplossing voor.

8.3.7 Personen hebben geen voorkeur voor alternatieven

Als het mensen echt niet uitmaakt wat voor interventie ze ontvangen, dan kun je ze aselect toewijzen aan een interventie.

8.3.8 Je kunt je eigen experimentele opzet bepalen

In laboratoriumexperimenten is aselecte toewijzing gangbaar, maar in veel veldexperimenten is het niet gebruikelijk. Bij bijvoorbeeld opleidingsinstituten kunnen studenten leren hoe met aselecte toewijzing te werken in een veldexperiment.

8.3.9 Je hebt controle over de experimentele units

Dit kan het geval zijn als je onderzoek doet binnen een organisatie waarvan de ‘leider’ alle controle heeft, over bijvoorbeeld het elektriciteitsnetwerk van alle huishoudens in een stad.

8.3.10 Er wordt een loterij verwacht

Een voorbeeld hiervan is de loterij waarbij studenten worden toegewezen aan een bepaalde ‘dorm’ op een Amerikaanse universiteit.

8.4 Wanneer aselecte toewijzing niet gewenst of haalbaar is

Er zijn verschillende situaties waarin aselecte toewijzing niet de beste methode is:

Als er snelle antwoorden nodig zijn;
Als er ook met minder precieze antwoorden een oplossing kan komen. Gerandomiseerde experimenten zijn erg precies, soms is dat niet nodig;

Als er onderzoek moet worden gedaan naar variabelen die zich niet lenen voor aselecte toewijzing, zoals leeftijd, etniciteit, of het hebben van een ernstige ziekte;
Als er geen tijd is om voorkennis te vergaren. Dit is namelijk vereist bij het uitvoeren van een experiment.

8.5 Problemen met gerandomiseerde experimenten

Er zijn vijf problemen als het gaat om het uitvoeren van gerandomiseerde experimenten:

De wenselijkheid en haalbaarheid van gerandomiseerde experimenten staan niet altijd vast. Soms is zo’n design bijvoorbeeld niet ethisch verantwoord;
Soms zijn er niet genoeg deelnemers beschikbaar die geschikt en gemotiveerd zijn om de interventie te kunnen ontvangen, als deze aselect wordt toegewezen;
De toewijzingsprocedure is niet altijd goed geïmplementeerd, waardoor de resultaten niet goed zijn;
Soms is de interventie die toegewezen wordt niet gelijk aan de interventie die ontvangen wordt. Dit is bijvoorbeeld het geval als patiënten in de interventiegroep bepaalde medicijnen vier keer per dag moeten innemen, maar dit maar twee keer per dag doen;
Soms is er sprake van uitval. Een gerandomiseerd experiment wil vergelijkbare groepen, zowel op pretest en posttest. Alleen het ontvangen van de interventie mag verschillen.

Access:

Public

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

This content is related to:

samenvatting bij Experimental and Quasi-Experimental Designs for Generalized Causal Inference van Cook, Campbell & Shadish (2nd edition, 2001)

1358 reads

Check more of topic:

Samenvattingen voor psychologie en gedrag

Going abroad?

Insure your way around the world

International expat insurances

Travel & Worldsupporter insurances (NL)

Study with summaries

Associate with your Field of Study

Search Summaries or Notes

Start using Summaries

Add a Summary

Search a summary

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

Spotlight: topics

Check the related and most recent topics and summaries:

Activity abroad, study field of working area:

Samenvattingen voor psychologie en gedrag

Countries and regions:

The Netherlands

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams
How and why use WorldSupporter.org for your summaries and study assistance?
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
Quicklinks to fields of study for summaries and study assistance

Online access to all summaries, study notes en practice exams

Check out: Register with JoHo WorldSupporter: starting page (EN)
Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)

How and why use WorldSupporter.org for your summaries and study assistance?

For free use of many of the summaries and study aids provided or collected by your fellow students.
For free use of many of the lecture and study group notes, exam questions and practice questions.
For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
For compiling your own materials and contributions with relevant study help
For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

Use the summaries home pages for your study or field of study
Use the check and search pages for summaries and study aids by field of study, subject or faculty
Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
Check or follow authors or other WorldSupporters
Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Check out: Why and how to add a WorldSupporter contributions
JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports

Main study fields NL:

Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden

WorldSupporter: what are the features, functionalities and rules on WorldSupporter.org?

WorldSupporter NL: hoe vind je samenvattingen en studiehulp op WorldSupporter.org en JoHo.org

Summaries and Study Assistance - Start

Follow the author: Psychology Supporter

Psychology Supporter

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics

2102