Samenvatting 'Research Design In Clinical Psychology' - Kazdin 2009

Deze samenvatting is geschreven in collegejaar 2012-2013.

Hoofdstuk 1 Inleiding
Hoofdstuk 2 Het trekken van valide conclusies I: interne en externe validiteit
Hoofdstuk 3 Het trekken van valide conclusies II: construct- en statistische conclusie validiteit
Hoofdstuk 4: Bronnen van artefacten en bias
Hoofdstuk 5: Selectie van de onderzoeksvraag en het onderzoeksdesign
Hoofdstuk 6: Experimenteel onderzoek: groepsontwerpen
Hoofdstuk 7: Controle- en vergelijkingsgroepen
Hoofdstuk 8: De impact van een experimentele manipulatie bepalen
Hoofdstuk 9: Observationeel onderzoek: case-control en cohort designs
Hoofdstuk 10: De gevalsbeschrijving en enkelvoudige casus onderzoeksdesigns
Hoofdstuk 11: evaluatie van de enkelvoudige casus in de klinische praktijk
Hoofdstuk 12: Kwalitatieve onderzoeksmethodes, een overzicht
Hoofdstuk 13: Beoordelingsmethoden en -strategieën
Hoofdstuk 14: Beoordelen en evalueren van interventies
Hoofdstuk 15: Statistische methodes van data-evaluatie
Hoofdstuk 16: Interpretatie van de data
Hoofdstuk 17: Ethische kwesties en richtlijnen voor onderzoek
Hoofdstuk 18: Publicatie van en communicatie over onderzoeksbevindingen
Hoofdstuk 19: Afsluitende opmerkingen: methodologie in perspectief

Hoofdstuk 1 Inleiding

De doelen van wetenschappelijk onderzoek zijn het blootleggen van relaties tussen variabelen die anders niet onmiddellijk herkenbaar zijn en het verifiëren van veronderstelde (gehypothetiseerde) relaties. Zonder onderzoek kan een potentiële relatie tussen variabelen alleen in de complexe natuur geobserveerd worden. Onderzoeksdesigns en statistische evaluaties helpen de situatie te versimpelen, zodat de invloed van meerdere, vaak tegelijkertijd optredende, variabelen gescheiden kan worden van de variabelen waarin de onderzoeker geïnteresseerd is. Zonder die versimpeling en isolatie van variabelen zouden meerdere, zo niet oneindig veel, interpretaties een bepaald verschijnsel kunnen verklaren. De toegevoegde waarde van onderzoek is dat het helpt bij het uitsluiten of onwaarschijnlijk maken van andere mogelijke verklaringen. Een experiment sluit niet perse alle mogelijke verklaringen uit. De mate waarin een experiment succesvol is in het uitsluiten van alternatieve verklaringen is een kwestie van gradatie. Vanuit een methodologisch standpunt geldt, hoe beter het ontwerp van een studie, hoe meer succesvol in het onwaarschijnlijk maken van concurrerende verklaringen van de resultaten

In dit boek worden de struikelblokken beschreven die de weg naar kennis bemoeilijken en de beschikbare methodes en strategieën om die struikelblokken weg te nemen of te verkleinen.

Methodologie en onderzoeksdesign

Overzicht

Methodologie is de algemene term voor diverse principes, procedures en werkwijzen die bepalend zijn bij wetenschappelijk onderzoek. Methodologie verwijst naar een manier van denken die zich bezighoudt met de vraag hoe iets onderzocht en geïnterpreteerd gaat worden. Methodologie doet onderzoekers nadenken over de relaties tussen variabelen, over oorzaak en gevolg en over conclusies die getrokken kunnen worden op basis van theorie, onderzoek en ervaring.

Binnen het domein van de methodologie valt het ontwerpen van een studie. De term onderzoeksdesign refereert aan het te gebruiken plan of indeling bij het onderzoeken van de vraag. Het ontwerp en de uitvoering van een onderzoek bepaalt hoe de bevindingen geïnterpreteerd kunnen worden. Methodologie gaat meer over, hoe een vraag gesteld moet worden en tegelijkertijd over welke zaken nodig zijn om duidelijke antwoorden te kunnen krijgen.

Taken van onderzoek

Vaak wordt er bij onderzoek een vergelijking gemaakt tussen groepen. Het kan zo zijn dat er een manipulatie (bijv. toedienen van een medicijn) plaatsvindt bij de ene groep (experimentele groep) en niet bij de andere (controlegroep). Het kan ook zijn dat er een vergelijking wordt gemaakt tussen groepen die op basis van hun karakteristieken geselecteerd zijn (het wel of niet hebben van een bepaalde medische of psychiatrische aandoening).

Een andere taak van onderzoek doen is het testen van hypotheses. Vaak worden deze hypotheses in “als-dan” termen geformuleerd. “Als” refereert meestal naar de onafhankelijke variabele die gemanipuleerd of gevarieerd wordt, terwijl de “dan” refereert aan de afhankelijke variabele, oftewel de resulterende data.

Wat ook mogelijk is, is dat er gekeken wordt naar een relatie tussen variabelen zonder dat er van tevoren een specifieke hypothese opgesteld is. Dit is explorerend onderzoek.

Het is bij onderzoek doen belangrijk om van te voren rekening te houden met externe factoren die de uitkomstvariable kunnen beïnvloeden. Voor veel variabelen geldt dat ze vooraf herkend kunnen worden en dat ervoor gecontroleerd kan worden bij de analyses, maar dat gaat niet voor alle variabelen op.

Kernconcepten onderliggend aan de methodologie

Spaarzaamheid (Parsimony)

Spaarzaamheid is een geaccepteerd principe of heuristiek binnen de wetenschap, dat de onderzoeker leidt bij het interpreteren van data omtrent het te bestuderen fenomeen. Spaarzaamheid stuurt de onderzoeker in het selecteren van de meest simpele verklaring van de beschikbare alternatieven. Dit wordt niet gedaan om zaken onnodig te versimpelen, maar is bedoeld om van de meest voor de hand liggende versie uit te gaan, totdat blijkt dat een meer complexe interpretatie gepast is. Spaarzaamheid draait om de vraag of de data uitgelegd kan worden met behulp van al bekende concepten en fenomenen of dat het nodig is om nieuwe concepten te introduceren. Wanneer dit nodig blijkt stuurt “spaarzaamheid” de onderzoeker in het introduceren van zo min mogelijk en van de meest voor de hand liggende concepten.

Synoniemen van spaarzaamheid zijn: economisch principe, principe van onnodige pluraliteit, soberheidsprincipe en Occam’s scheermes (naar William of Ockham ca. 1285-1349).

Plausibele rivaliserende hypotheses

Bij onderzoek moet er altijd rekening gehouden worden met de mogelijkheid dat de uitkomst van het experiment bepaald is door andere invloeden dan de interventie of experimentele manipulatie. Met het uitvoeren van een enkele test is de hypothese niet bewezen, maar heeft die hypothese meer steun verworven. Voorwaardes voor het verwerven van steun zijn dat de test resultaten oplevert die consistent zijn met de hypothese en dat de verklaring voor de resultaten plausibel is. De vraag die na het einde van een studie gesteld moet worden, is of er andere interpretaties mogelijk zijn die op plausibele wijze de resultaten kunnen verklaren. Heeft iets anders kunnen leiden tot deze uitkomst of komt het echt door de uitgevoerde manipulatie?

Het principe van plausibele rivaliserende hypotheses is gerelateerd aan spaarzaamheid, maar is niet hetzelfde. Spaarzaamheid refereert aan het zuinig zijn met begrippen. Het gaan voor de meest voor de hand liggende verklaring. Een plausibele rivaliserende hypothese refereert aan een ander concept dan de gekozen variabele die evengoed de resultaten kan verklaren.

Methodologische overwegingen zijn bedoeld om vooraf aan een studie andere plausibele verklaringen uit te sluiten. Een onderzoeker probeert een studie zo te ontwerpen dat er geen ruimte is voor andere verklaringen of voor een overdaad aan complexiteit. In de volgende hoofdstukken wordt uitgelegd hoe dat bereikt kan worden.

Bevindingen versus conclusies

Bevindingen zijn de resultaten die behaald zijn. Bevindingen zijn beschrijvend van aard. Een bevinding is dat de ene groep het beter deed dan de andere. Dit is nog geen conclusie. Een conclusie geeft een verklaring voor een bevinding. Bij het trekken van conclusies moet er rekening gehouden worden met plausibele rivaliserende verklaringen en spaarzaamheid.

Wetenschapsfilosofie, onderzoeksmethodologie en statistische gevolgtrekking

Wetenschappelijk onderzoek omvat drie intergerelateerde domeinen, namelijk wetenschapsfilosofie, onderzoeksmethodologie en statistische gevolgtrekking. Wetenschapsfilosofie houdt zich bezig met de logische en epistemologische fundamenten van de onderzoeksmethode in het algemeen. In vroeger tijden was experimenteren verbonden aan het filosofisch denken. Gedacht kan worden aan onderwerpen als de basis van kennis, de organisatie en beperkingen van perceptie, de aard en perceptie van causale verbanden, methode en beperkingen van inductief redeneren, de benodigde voorwaarden voor het testen en bevestigen van voorspellingen en sowieso het formuleren van het begrip hypothese.

Bij het dagelijks werk van de onderzoeker komt de methodologie om de hoek kijken. Het draait hier om het plannen en uitvoeren van een studie en het interpreteren van de resultaten.

Statistische gevolgtrekking is gerelateerd aan het experimenteren, omdat er sterk geleund wordt op statistische tests om conclusies te kunnen trekken. Statistische evaluatie verschaft afgesproken basisregels, zodat er sprake is van enige uniformiteit in de criteria bij het trekken van conclusies. Het ironische is dat de gemaakte afspraken over statistische gevolgtrekking zelf nogal arbitrair gekozen zijn. De afspraken zijn eerder gebaseerd op traditie dan dat ze statistisch of logisch gerechtvaardigd zijn. Statistiek draagt op belangrijke wijze bij aan de interpreteerbaarheid van de studie.

Dit boek focust op de methodologie. Alleen wanneer het relevant is zullen filosofie en statistiek besproken worden.

Karakteristieken van onderzoek in de klinische psychologie

Onderzoek binnen de klinische psychologie is gevarieerd. Er zijn veel verschillende onderwerpen, populaties en settings. Daardoor zijn er ook veel verschillende methodes. Bij het opzetten van een onderzoek en bij het trekken van valide conclusies komt veel probleem-oplossend vermogen kijken, alsmede creativiteit.

De “psychologie” van onderzoeksmethodologie

In het voorafgaande is methodologie als iets onpersoonlijks beschreven. Het is belangrijk om te benadrukken dat wetenschap uiteindelijk mensenwerk is. De natuurlijke menselijke eigenschappen spelen een centrale rol bij het doen van onderzoek. Door het hele boek heen zal er aandacht besteed worden aan de invloed van verschillende facetten van het menszijn op wetenschappelijke bevindingen en interpretaties.

Boekoverzicht

Onderzoeksmethodologie kan gezien worden als een beslissingsproces. Tijdens alle fases van onderzoek worden er beslissingen genomen. Dit boek behandelt de vele ontwerpcomplexiteiten door de problemen te benadrukken die je bij het experimenteren tegenkomt en de technieken die ontworpen zijn om die problemen op te lossen of voor te controleren. In dit boek zullen de voordelen, beperkingen en andere overwegingen bij het gebruik van bepaalde designs worden besproken.

Het doel van onderzoek is het trekken van valide gevolgtrekkingen over de relatie tussen variabelen. De methodologie bestaat uit die praktijken die de omstandigheden zo helpen te arrangeren dat zo min mogelijk ambiguïteit bestaat bij het trekken van heldere conclusies. Factoren die interfereren bij het trekken van heldere conclusies zijn bijvoorbeeld bedreigingen voor de validiteit. Hier wordt in hoofdstuk 2 en 3 aandacht aan besteed.

Hoofdstuk 4 verkent de vele bronnen van artefacten (toevalsbevindingen) en onzuiverheden (biases), alsmede de methodes om hun invloed te minimaliseren, in te schatten of te elimineren.

Hoofdstuk 5 draait om het vertalen van een idee naar een specifieke onderzoeksvraag en het selecteren van een bepaalde variabelenset.

De verscheidene onderzoeksdesigns zullen besproken worden in hoofdstuk 6 en 7. Groepsdesigns die gebruikt worden bij experimenteel onderzoek, waarbij variabelen gemanipuleerd worden door de onderzoeker worden beschreven in hoofdstuk 6. Hoofdstuk 7 behandelt de verschillende typen van controle- en vergelijkingsgroepen en de overwegingen die hun gebruik voorschrijven.

Het evalueren van de manipulatie is een essentieel onderdeel bij het verbeteren van de interpreteerbaarheid van de resultaten. De procedures die gevolgd worden bij het inschatten van de implementatie van de manipulatie, de interpretatie van de resultaten van de technieken en de problemen die hierbij op kunnen treden worden in hoofdstuk 8 besproken.

Er wordt ook veel onderzoek gedaan naar variabelen die niet manipuleerbaar zijn (klinische aandoeningen, ervaringen, blootstelling aan gebeurtenissen). Hiervoor worden observationele ontwerpen gebruikt (case-control en cohort studies), waarbij individuen geselecteerd worden en tegelijkertijd en voor langere tijd gevolgd worden. Deze designs worden besproken in hoofdstuk 9.

In hoofdstuk 10 worden twee methodes beschreven om één individu te bestuderen. De anekdotische of ongecontroleerde case studie en de single-case experimental design.

Hoofdstuk 11 geeft alternatieven voor de twee hiervoor genoemde designs. De focus ligt op single-case studies die binnen de klinische praktijk uitvoerbaar zijn.

Naast kwantitatief onderzoek wordt er ook kwalitatief onderzoek uitgevoerd. In hoofdstuk 12 wordt een overzicht gegeven van kwalitatieve onderzoeken, de omstandigheden waarbij zulke designs gepast zijn en voorbeelden van studies die bijgedragen hebben aan kennisontwikkeling.

Hoofdstuk 13 gaat over de rol van meten en het selecteren van meetinstrumenten.

Een specifieke vorm van onderzoek doen, is het onderzoeken van behandelinterventies. De overwegingen omtrent deze vorm van onderzoek worden beschreven in hoofdstuk 14.

Hoofdstuk 15 zoomt in op de rationale achter en de voorwaardes voor statistische evaluaties, alsmede de controversies die hangen rond het begrip statistische significantie.

In hoofdstuk 16 wordt er gesproken over data-interpretatie en factoren die interpretatie vergemakkelijken en bemoeilijken.

Bij onderzoek binnen de psychologie worden vaak menselijke proefpersonen gebruikt. Ethische vraagstukken rond het doen van mensgebonden onderzoek worden in hoofdstuk 17 behandeld.

Hoofdstuk 18 gaat over het schrijven van een rapport na afloop van de studie. Het wetenschappelijk schrijven is onlosmakelijk verbonden met methodologische kwesties die in eerdere hoofdstukken aan bod zijn gekomen.

Het boek eindigt met afsluitend commentaar in hoofdstuk 19.

Kernconcepten en -termen

Methodologie Plausibele rivaliserende hypotheses

Spaarzaamheid Bevindingen versus conclusies

Hoofdstuk 2 Het trekken van valide conclusies I: interne en externe validiteit

Types van validiteit

Het doel van onderzoek doen is het bereiken van gefundeerde (=valide) conclusies. Er zijn vier types van validiteit, die ieder voor zich een andere kwestie belichten bij het uitvoeren van experimenten. Ieder type bekleedt een sleutelfunctie bij de overwegingen voorafgaand aan het ontwerpen van een studie.

Interne validiteit behelst de vraag in hoeverre de interventie, en niet een externe oorzaak, verantwoordelijk is voor de resultaten, veranderingen of groepsverschillen.

Externe validiteit draait om de generaliseerbaarheid van de conclusies. In hoeverre kunnen de resultaten gegeneraliseerd worden naar andere mensen, settings, maten en karakteristieken dan die gebruikt zijn bij het betreffende onderzoek?

Constructvaliditeit belicht het causale medium. Wanneer een interventie of indeling blijkt te werken, welk specifieke element was daarvoor verantwoordelijk? Wat is de conceptuele basis (het construct) onderliggend aan het effect.

Statistische conclusie validiteit bekijkt in hoeverre een relatie is aangetoond en hoe goed de meetmethode in staat is om effecten te detecteren als die er zijn.

Het is vrijwel onmogelijk om een studie te ontwerpen die met alle vormen van validiteit rekening houdt. Vandaar dat onderzoekers prioriteiten stellen bij het ontwerpen van een studie. Het is heel belangrijk om vanaf het begin te weten wat het doel van het onderzoek is en welke specifieke vragen beantwoord moeten worden. Aan de hand daarvan wordt bepaald welke vormen van validiteit het meest dringend zijn.

Interne validiteit

Wanneer de resultaten van een onderzoek zonder al teveel ambiguïteit toegeschreven kunnen worden aan het effect van de onafhankelijke variabele, wordt er gezegd dat het experiment intern valide is. Interne validiteit refereert aan de mate waarin een studie alternatieve verklaringen uitsluit of onwaarschijnlijk maakt. Factoren anders dan de onafhankelijke variabele, die de resultaten kunnen verklaren worden bedreigingen voor de interne validiteit genoemd.

Bedreigingen voor de interne validiteit

Geschiedenis

Deze bedreiging refereert aan iedere gebeurtenis of omstandigheid, anders dan de onafhankelijke variabele, die zich voordoet binnen of buiten de testsituatie die verantwoordelijk zou kunnen zijn voor de behaalde resultaten. Gedacht kan worden aan omstandigheden binnen het privé-leven van de proefpersoon, de lengte van het experiment, gebeurtenissen in het nieuws, weersomstandigheden. Meestal wordt er bij geschiedenis gerefereerd aan gebeurtenissen buiten de testsituatie, maar er kunnen ook onverwachte gebeurtenissen binnen de testsituatie voorvallen die invloed kunnen hebben. De stroom kan uitvallen of een medische noodsituatie kan zich voordoen.

Het is belangrijk om het verschil te kunnen zien tussen de effecten van gebeurtenissen van buitenaf en de effecten van het experiment op de afhankelijke variabele.

Rijping

Veranderingen in de tijd hangen niet alleen samen met specifieke gebeurtenissen (geschiedenis), maar ook met processen binnen proefpersonen. Rijping refereert aan processen die met de tijd veranderen, inclusief ouder, sterker en wijzer worden en vermoeid of verveeld raken. Geschiedenis en rijping gaan vaak samen. Wanneer het zo is dat er alternatieve verklaringen zijn voor de resultaten, is het nuttig om te bepalen welke van de twee het verschil maakte.

Bij het volgen van proefpersonen in de tijd is het van groot belang om te zorgen dat rijping geen invloed kan hebben op de onafhankelijke variabele. In veel gevallen kan dit gedaan worden door een controlegroep, bijvoorbeeld een no-treatment groep, toe te voegen.

Herhaald testen

Deze bedreiging refereert aan het effect dat het voor het eerst afnemen van een test voor gevolgen heeft op de uitvoering van daarop volgende tests. Bij veel designs wordt er gebruik gemaakt van een voor- en nameting. Het kan zijn dat de resultaten niet behaald zijn door de invloed van de manipulatie, maar door bekendheid met de test(situatie).

Een groep herhaaldelijk testen zonder de manipulatie laat alleen het effect van herhaald testen zien. Dus ook bij het opheffen van deze bedreiging is het includeren van een no-treatment controlegroep verstandig.

Instrumentatie

Instrumentatie refereert aan veranderingen in meetinstrumenten en -procedures over de tijd. Het kan zijn dat er daadwerkelijk iets aan het meetinstrument is veranderd (bijv. een vraag geherformuleerd), maar het kan ook zijn dat mensen anders gaan scoren met de loop van de tijd. Wanneer bij een turnwedstrijd een atleet een perfecte oefening uitvoert, wordt de volgende deelnemer dan volgens dezelfde criteria beoordeeld of zijn de standaarden verschoven?

Niet alleen een meetinstrument zelf kan gevoelig zijn voor instrumentatie, ook de testsituatie zelf. Wanneer een proefleider een terloopse opmerking maakt tegen de proefpersoon (“Je zult wel blij zijn dat het voorbij is, hè?”), kan dit invloed hebben. Het is dan ook belangrijk om met gestandaardiseerde meetinstrumenten en -procedures te werken.

Vermijd vragen die betrekking hebben op verschuivende normatieve waarden. Vragen als: “Brengt u veel tijd met uw ........... (geliefde, kinderen, collegae) door?” zijn bijvoorbeeld gevoelig voor veranderende sociale omstandigheden die samenhangen met leeftijdsklasse. Dit wordt responsverschuiving (response shift) genoemd. Er verandert niets aan het instrument of de procedure, maar binnen de persoon zelf is iets veranderd aan de perceptie, waardoor diegene anders op de vraag zal reageren dan voorheen.

Statistische regressie

Extreme scores hebben de neiging om bij een herhaalde meting meer naar het gemiddelde (=regressie) te bewegen. Wanneer proefpersonen geselecteerd worden op basis van extreme scores op een variabele, is het statistisch gezien voorspelbaar dat bij hertesten de scores lager zullen liggen. Het toevoegen van een controle groep in de vorm van een no-treatment groep of wachtlijstconditie kan het effect van regressie naar het gemiddelde zichtbaar maken.

Selectiekleuringen (Selection biases)

Selectiekleuring refereert aan systematische verschillen tussen groepen (geslacht, leeftijd, diagnose), die het gevolg zijn van de selectie of groepstoewijzing van de proefpersonen voordat er een experimentele manipulatie of interventie heeft plaatsgevonden.

Gerandomiseerde toewijzing aan groepen is de meest gangbare methode om de kans op selectiekleuring te minimaliseren. In de praktijk blijkt dit niet altijd haalbaar. Vaak zijn groepen al voorgevormd. Denk aan het vergelijken van kinderen in dezelfde groep van het basisonderwijs, maar op verschillende scholen. Het random toewijzen van een kind aan een school is logistiek ondoenlijk. Of hoe ethisch is het om patiënten met acute klachten in een wachtlijstconditie te plaatsen?

Uitval (Attrition)

Uitval of verlies van proefpersonen kan de interne validiteit van een studie aantasten. Het verlies van proefpersonen kan voorkomen bij een studie die meer dan één sessie beslaat. Onderzoek wijst uit dat het verlies van proefpersonen een directe functie van de tijd is. De meeste proefpersonen (40-60%) zeggen in een vroeg stadium van de studie hun deelname op. Het verlies van proefpersonen is een aanzienlijke bedreiging voor de validiteit. Het gevaar dreigt namelijk dat een selecte groep proefpersonen de studie heeft verlaten. Anders gezegd: dat het groepsgemiddelde van de uitvallers anders is dan het groepsgemiddelde van de rest van de deelnemers.

Een vorm van uitval is differentiële uitval. Hiervan is sprake wanneer de mate van uitval verschillend is tussen groepen of dat de mate van uitval hetzelfde is tussen groepen, maar dat vermoed wordt dat bepaalde karakteristieken van proefpersonen verschillen tussen de condities. Dit kan gebeuren bij studies met verschillende behandelcondities, waarbij de ene conditie aantrekkelijker is dan de andere. Mensen zijn meer geneigd om betrokken te blijven bij iets interessants, lucratiefs, effectiefs of zonder bijwerkingen dan bij hun tegenhangers.

Combinatie van selectie en andere bedreigingen

Tot nu toe is er gesproken over bedreigingen die voor alle groepen binnen een studie gelden. Waarbij alleen uitval een uitzondering was, omdat er differentiële uitval kan optreden. Het kan echter zo zijn dat de bedreigingen voor de interne validiteit verschillen tussen de groepen. Dit noemt men een combinatie van selectie en de andere bedreiging, oftewel de bedreiging interacteert met de groepen. Een voorbeeld is selectie x geschiedenis. Het kan zijn dat de ene groep buiten de testsituatie om is blootgesteld aan een gebeurtenis, die de andere groep niet heeft ervaren en die ervaring levert een plausibele verklaring voor de resultaten.

Diffusie of imitatie van behandeling

Deze bedreiging refereert aan het gevaar dat er ongewild een kruisbestuiving tussen de verschillende behandelcondities ontstaat of dat er toch interventies plaatsvinden binnen een no-treatment controlegroep. Het is voorgekomen dat bij het vergelijken van een gedragstherapeutische en een eclectische milieutherapeutische behandeling een behandelaar van de eclectische groep allerlei gedragstherapeutische cursussen had gevolgd, waardoor haar behandeling veel leek op de behandeling van de andere conditie. Een ander voorbeeld is dat proefpersonen uit een no-treatment groep zelf op zoek gaan naar informatie of hulp waardoor er ongewild een interventie plaatsvindt.

Speciale behandeling of reacties van controles

Ook al worden proefpersonen in een controlegroep niet blootgesteld aan een manipulatie of interventie, zij krijgen wel aandacht, geld of privileges, wat als een interventie gezien kan worden. Überhaupt het deelnemen aan een onderzoek kan de reactie van een controlepersoon beïnvloeden. De wetenschap dat men ingedeeld is in de controlegroep kan een gevoel van competitie oproepen, waardoor de controlepersonen extra hard hun best gaan doen. Het omgekeerde, een gevoel van demotivatie, omdat men niet in de experimentele conditie zit kan ook optreden.

Het meedoen aan een studie kan zowel de reacties van personen in de controlegroep als die van de experimentele groep beïnvloeden. Er treedt pas een probleem met de interne validiteit op, wanneer de beïnvloeding differentieel (niet gelijk over de groepen verdeeld) is, waardoor de effecten van de interventie versluierd raken.

Algemene opmerkingen

Om de bedreigingen voor de interne validiteit tegen te gaan wordt het meest kleinschalige experiment aangekleed met een groep waarmee iets gebeurt (experimentele groep) en een groep waarbij de gebeurtenis zich niet voordoet (controlegroep). Om het gevaar van interactie tussen de bedreigingen te voorkomen, bijvoorbeeld de gecombineerde dreiging van selectie x geschiedenis, kan een onderzoeker de proefpersonen random toewijzen aan de verschillende condities.

Vooraf aan een studie bedenkt de onderzoeker al welke mogelijke kritiekpunten er zijn en wat er gedaan kan worden om die kritiek te voorkomen. Niet alle bedreigingen kunnen echter van te voren ondervangen worden. Zaken die zich tijdens de uitvoering van het onderzoek voordoen kunnen achteraf bedreigingen voor de interne validiteit blijken te zijn.

Externe validiteit

Externe validiteit refereert aan de mate waarin de resultaten van een onderzoek gegeneraliseerd kunnen worden naar andere populaties, settings en omstandigheden. Karakteristieken van de studie die de generaliseerbaarheid van de resultaten beïnvloeden worden bedreigingen voor de externe validiteit genoemd.

Bedreigingen voor de externe validiteit

Wanneer een bepaalde relatie tussen interventie en uitkomst is aangetoond, rijst onmiddellijk de vraag op of die relatie er ook is bij andere groepen (ouderen, mensen in ambulante behandeling, diverse etnische groepen), binnen andere settings (klinieken, kinderdagverblijven) of in andere gebieden (platteland, buitenland). De getoonde relatie tussen de afhankelijke en onafhankelijke variabele heeft misschien betrekking op sommige mensen, maar niet op iedereen. De onafhankelijke variabele interacteert dan met de andere condities. Bijvoorbeeld wanneer de relatie er wel is bij mannen, maar niet bij vrouwen. Men kan ook zeggen dat de relatie gemodereerd wordt door geslacht. Om de grenzen van generaliseerbaarheid te kennen is vaak meer onderzoek nodig.

Onthou dat een bedreiging pas een bedreiging is wanneer het een plausibele alternatieve verklaring oplevert die de externe validiteit kan aantasten.

Steekproefkarakteristieken

De generaliseerbaarheid van bevindingen bij dieren naar mensen is een grote zorg. Iets wat schadelijk is voor laboratoriumratten hoeft niet schadelijk te zijn voor andere soorten die bijvoorbeeld een ander metabolisme hebben. Ook de dosis kan van invloed zijn. Laboratoriumratten krijgen de vermeend schadelijke stof wellicht in een hogere dosis toegediend dan een mens tot zich zou nemen.

Wat vaak wordt gedaan bij dierproeven is dat er een relatie onderzocht wordt die al bij mensen getoond is, maar waarvan bijvoorbeeld het pad nog niet bekend is. Wanneer men weet dat blootstelling aan loodverf samenhangt met hyperactiviteit bij kinderen, kan door toediening van lage doses lood bij apen en ratten in meer detail gekeken worden welke hersengebieden en -structuren beïnvloed worden.

Bij psychologisch onderzoek wordt als bedreiging vaak het extensief gebruik van studenten als proefpersonen genoemd. Dit hoeft geen probleem te zijn. Toch moet er rekening gehouden worden dat studenten een specifieke steekproef representeren in termen van demografische variabelen, sociaal-economische klasse, intelligentieniveau en andere kenmerken.

Een andere zorg bij generaliseerbaarheid is dat een aantal minderheidsgroepen niet vaak onderzocht zijn. Vrouwen en bepaalde etnische groepen zijn ondervertegenwoordigd als onderzoeksdeelnemers. Ook dit hoeft geen probleem te zijn. Men kan immers niet ieder volk op aarde onderzoeken. Vaak is generaliseerbaarheid van de bevindingen zelf niet het doel, maar is de onderzoeker veel meer geïnteresseerd in bijvoorbeeld het begrijpen van het proces.

Een onderzoeksgebied waarbij het wel van belang is om goed te kijken naar generaliseerbaarheid is medicijnstudies. Responsiviteit ten opzichte van psychotropische medicatie varieert als een functie van etniciteit. Er zijn etnische verschillen te zien in enzymconcentraties, die de metabolisatie van medicijnen beïnvloeden. Wat betekent dat een bepaalde dosis voor de ene groep gepast is, terwijl het een onder- of overdosis is voor een andere groep.

Stimuluskarakterisieken en settings

Hoewel de grootste zorg bij generaliseerbaarheid van de resultaten te maken heeft met steekproefkarakteristieken en in hoeverre de bevindingen generaliseerbaar zijn naar andere personen, is de mate waarin de resultaten verder generaliseerbaar zijn dan de stimuluskarakterisieken van de studie even relevant, maar minder vaak besproken. Stimuluskarakterisieken refereren aan kenmerken van de studie waarmee de interventie of conditie kunnen samenhangen, inclusief de setting, onderzoekers of andere factoren gerelateerd aan de experimentele opstelling. Elk van deze kenmerken kan de generaliseerbaarheid beïnvloeden.

Onderzoek naar de effectiviteit van psychotherapie binnen een laboratoriumsetting kan andere uitkomsten geven dan onderzoek uitgevoerd in de klinische praktijk. Een vaccin kan in een bepaald gebied goed werken, maar in een ander gebied waar blootstelling aan de bacterie vele malen hoger ligt, een aanzienlijk minder goede werkzaamheid laten zien.

Reactiviteit van experimentele opstellingen

De resultaten van een studie kunnen beïnvloed worden doordat de proefpersonen er zich van bewust zijn dat ze meedoen aan een onderzoek. De vraag die betrekking heeft op de externe validiteit is of de resultaten anders waren geweest wanneer de proefpersonen niet wisten dat ze onderzocht werden.

Reacties kunnen zijn dat de proefpersoon de onderzoeker een plezier wil doen of juist niet. Deze bedreiging is moeilijk te omzeilen, omdat een proefpersoon vaak geïnformeerde toestemming (informed consent) moet geven voor deelname. Bij dossieronderzoek is vaak geen informed consent nodig, behalve wanneer het consequenties voor een individu kan hebben.

Multi-behandeling interferentie

Bij sommige designs worden proefpersonen blootgesteld aan meer dan één experimentele conditie of wisselen tussen een behandeling en geen-behandeling conditie. De gevonden effecten kunnen ingegeven zijn door de context of door het seriële karakter van de interventie.

Nieuwigheidseffecten

Bij externe validiteit moet er rekening mee gehouden worden dat een innovatie of de nieuwigheid van een situatie verantwoordelijk kan zijn voor de behaalde resultaten. Zo bleek bijvoorbeeld uit onderzoek dat gele brandweerwagens minder vaak bij verkeersongelukken betrokken waren dan rode. De conclusie was dat het menselijk oog rood moeilijker kan onderscheiden bij de aanwezigheid van meerdere kleuren en geel makkelijker. Het zou echter ook zo kunnen zijn dat mensen alerter reageerden doordat ze niet gewend zijn aan gele brandweerwagens.

Het aanbieden van iets nieuws heeft effect op de verwachtingen van mensen. Het is moeilijk onderscheid maken tussen de werkzaamheid van een therapie en het effect van de nieuwigheid.

Beoordelingsreactiviteit

Bij veel psychologische experimenten is de proefpersonen er zich van bewust dat een bepaald deel van zijn/haar functioneren wordt beoordeeld. Wanneer proefpersonen zich hiervan bewust zijn, wordt er gesproken van een opdringerige (obtrusive) meting. In het geval dat dit bewustzijn leidt tot een verandering in het optreden van de proefpersonen ten opzichte van de normale reactie, is er sprake van een reactieve meting.

Het ligt voor de hand om te denken dat het gebruik van niet-opdringerige (unobtrusive) metingen de oplossing biedt. Hieraan kleven zowel ethische bezwaren (informed consent), als meettechnische (bv. zijn de niet-opdringerige meetinstrumenten even valide als de beter bestudeerde en gestandaardiseerde?).

Testsensibilisatie

Bij veel onderzoeken wordt er gebruik gemaakt van een voor- en nameting. Het kan zijn dat het afnemen van een test of vragenlijst vooraf aan het experiment proefpersonen gevoelig kan maken, zodat ze anders reageren op het experiment dan dat ze in het normale leven zouden doen. Dit noemt men voormeting sensibilisatie (pretest sensitization).

Nameting sensibilisatie (posttest sensitization) kan ook optreden. Het stellen van vragen na het experiment kan bij proefpersonen ook een andere reactie ontlokken dan normaal, doordat proefpersonen meer over processen nadenken, die anders onbewust of latent gebleven waren. Het effect van nameting sensibilisatie is moeilijker vast te stellen en voor te controleren dan voormeting sensibilisatie, omdat het het gebruik van niet opdringerige metingen vereist en een vergelijking van resultaten die verkregen zijn met meetmethoden die variëren in de mate van opdringerigheid.

Timing van de meting

Deze bedreiging doet zich voornamelijk voor bij het onderzoeken van behandeleffectiviteit. Een meting vlak na het beëindigen van de therapie kan andere uitkomsten laten zien dan een meting die langer na de beëindiging plaatsvindt. Het kan zijn dat het effect van een therapie pas later doorwerkt. Het kan ook zijn dat de effecten van een behandeling niet beklijven.

De vraag die relevant is voor de externe validiteit is of dezelfde resultaten behaald waren als de metingen op een ander moment hadden plaatsgevonden.

Algemene opmerkingen

Niet alle bedreigingen voor de externe validiteit kunnen vooraf aan een experiment gespecificeerd worden. Het kan zo zijn dat tijdens de loop van het onderzoek bepaalde karakteristieken van de onderzoeker, proefpersonen of testuitrusting later blijken samen te hangen met de resultaten. Als dit het geval blijkt, moet er rekening gehouden worden met de generaliseerbaarheid van de resultaten.

Het is niet genoeg om de plausibiliteit van een studie in twijfel te trekken door simpelweg op te merken dat er bijvoorbeeld gebruik werd gemaakt van een voormeting of dat proefpersonen zich er van bewust waren dat ze geobserveerd werden. Het is de verantwoordelijkheid van de onderzoeker om de omstandigheden waaronder de resultaten gegeneraliseerd kunnen worden duidelijk te maken. Het is tegelijkertijd de verantwoordelijkheid van de sceptici om specifiek te omschrijven hoe de werking van een bepaalde dreiging de externe validiteit beïnvloed heeft en daarmee een plausibele beperking voor de generaliseerbaarheid oplevert.

Perspectieven ten aanzien van interne en externe validiteit

Plausibiliteit en spaarzaamheid (parsimony)

Wanneer men bij behandeleffectstudies geen controlegroep en willekeurige toewijzing (random selection) toepast, zijn er diverse bedreigingen voor de interne validiteit die een plausibele alternatieve verklaring kunnen opleveren (geschiedenis, rijping, herhaaldelijk testen). In dit geval bieden de bedreigingen een meer spaarzame verklaring van de resultaten dan de interventie. Wanneer er wel gebruik gemaakt is van een controlegroep en random toewijzing aan de groepen dan kan er geen directe relatie zijn tussen geschiedenis, rijping herhaaldelijk testen en de resultaten. Er kan wel een interactie-effect hebben plaatsgevonden, maar deze verklaring is minder plausibel en spaarzaam dan de verklaring dat de interventie verantwoordelijk is voor de bevindingen.

Prioriteit van interne validiteit

Over het algemeen wordt interne validiteit belangrijker geacht dan externe validiteit. Anders gezegd, logischerwijs staat de interne validiteit in belangrijkheid boven de externe validiteit. Er moet eerst een ambigue bevinding zijn, voordat men over de generaliseerbaarheid begint. Bij het ontwerpen van een experiment wordt er dan ook gekeken naar omstandigheden die het aantonen van een relatie tussen de onafhankelijke en de afhankelijke variabele vergemakkelijken.

Met het voorafgaande wordt niet bedoeld dat externe validiteit niet belangrijk is. Zeker bij praktijkgericht onderzoek is de generaliseerbaarheid van groot belang. Het aantonen van een bepaalde relatie tussen variabelen, laat alleen zien dat iets mogelijk is. Het wil niet zeggen dat bij iedereen of in alle gevallen die samenhang er is.

Wanneer bij bijvoorbeeld het repliceren van een studie blijkt dat bevindingen niet generaliseerbaar zijn, levert dat mogelijkheden op om het bestudeerde fenomeen beter te begrijpen. Waarom werkt het bij de één wel en bij de ander niet? Het kan zijn dat er een derde variabele in het spel is of dat het een toevalsbevinding is.

Samenvatting en conclusies

Het doel van onderzoek doen is het helpen uitsluiten of onwaarschijnlijk maken van vele alternatieve variabelen die mogelijk de veranderingen van de afhankelijke variabele zouden kunnen verklaren. De mate waarin een experiment daarin slaagt wordt interne validiteit genoemd. Bedreigingen voor de interne validiteit zijn: geschiedenis, rijping, herhaaldelijk testen, instrumentatie, statistische regressie, steekproefkleuringen, uitval, selectie in combinatie met andere bedreigingen, diffusie van behandeling en speciale behandeling of reacties van controles.

Niet alleen is het belangrijk om te kijken of de conclusies van een studie houdbaar zijn, ook de generaliseerbaarheid is belangrijk. Gelden de bevindingen ook in andere populaties, settings, maten, onderzoekers etc. Een aantal factoren kunnen de generaliseerbaarheid van een studie op een negatieve manier beïnvloeden. Dit worden bedreigingen voor de externe validiteit genoemd. Mogelijke bedreigingen zijn: steekproefkarakteristieken, stimuluskarakterisieken en settings, reactiviteit van experimentele opstellingen, multi-behandeling interferentie, nieuwigheidseffecten, beoordelingsreactiviteit, testsensibilisatie en timing van de meting.

Het beoogde doel van de studie bepaalt het belang van de externe validiteit. Interne validiteit is altijd belangrijk bij het trekken van valide conclusies en het uitsluiten van alternatieve verklaringen. Generaliseerbaarheid behoeft geen grote rol wanneer men alleen geïnteresseerd is in de werking van een fenomeen. Wanneer het om onderzoek gaat waarbij het de bedoeling is dat een bepaalde methode of behandeling geïmplementeerd gaat worden in de praktijk, is externe validiteit van groot belang.

Kernconcepten en -termen

Externe validiteit Reactiviteit

Interne validiteit (De afzonderlijke) bedreigingen voor de validiteit

Hoofdstuk 3 Het trekken van valide conclusies II: construct- en statistische conclusie validiteit

Naast de interne en externe validiteit zijn er nog twee andere types van validiteit die aandacht behoren te krijgen, namelijk constructvaliditeit en statistische conclusie validiteit. Deze twee zijn niet minder belangrijk, maar wel minder vertrouwd voor onderzoekers en het publiek. Het betreft hier dan ook enigszins complexere begrippen, die complexere ontwerp overwegingen vereisen.

Constructvaliditeit refereert aan “subtieler dan normaal” vragen. Statistische conclusie validiteit refereert aan factoren die te maken hebben met de uitvoering van de studie, die verdergaan dan zuiver statistische aangelegenheden.

Constructvaliditeit

Constructvaliditeit draait om het interpreteren van de aangetoonde causale relatie tijdens het experiment. Het gaat hierbij niet om de vraag of de interventie verantwoordelijk is voor de groepsverschillen (=interne validiteit), maar om het waarom van de verschillen. Wat was het werkzame ingrediënt, welk onderliggend construct is verantwoordelijk voor de verschillen?

Verscheidene eigenschappen binnen een experiment kunnen interfereren met de interpretatie van de resultaten. Deze eigenschappen worden confounders genoemd (een mogelijke vertaling zou “in de war schoppers” kunnen zijn, maar de engelse term is gangbaar onder onderzoekers). Er wordt van confounding gesproken wanneer er mogelijk een specifieke factor varieerde (of co-varieerde) met de interventie. De confounder zou deels of totaal verantwoordelijk kunnen zijn voor de resultaten.

Neem bijvoorbeeld de bevinding dat het consumeren van één of twee glazen wijn bij het avondeten samenhangt met een betere gezondheid (nl. verminderde kans op een hartaanval). De ene groep dronk wijn bij het eten en de andere groep niet. De proefpersonen waren random toegewezen aan de groepen. De wijndrinkers bleken gezonder dan de niet-drinkers. Dit onderzoek is intern valide, maar hoe zit het met de constructvaliditeit? Is het construct “het wel of niet drinken van één of twee glazen wijn” voldoende beschreven om de resultaten volledig te verklaren? Wat nemen de niet-drinkers tot zich? Proppen zij zich vol met vette chips? Is het wel of niet drinken van wijn niet eerder een pakket aan gedragingen dat samenhangt met dieetpatronen?

Verder onderzoek heeft ook uitgewezen dat de relatie tussen het wel of niet drinken van wijn niet zo eenduidig is. Wijn zelf speelt wel degelijk een rol, maar het drinken van wijn hangt samen (confouds) met andere karakteristieken. Wijndrinkers blijken, vergeleken met bier- en sterke drank drinkers, een gezondere leefstijl te hebben en uit hogere sociaal economische klassen te komen. Verder blijken zij minder te roken, minder overgewicht te hebben en in het algemeen minder zware drinkers te zijn. Wanneer voor deze factoren gecontroleerd wordt, wordt de relatie tussen wijn en verlaagde sterftecijfers minder sterk, maar verdwijnt niet.

Het is belangrijk om de onafhankelijke variabele, de interventie, goed te isoleren of in kleinere componenten op te delen, zodat de invloed van confounders beperkt blijft. Het grofweg vergelijken van groepen (drinkers versus niet-drinkers) is een leuk uitgangspunt, maar pas een begin bij de poging om een fenomeen te begrijpen.

Kenmerken die samenhangen met de interventie, die interfereren met het trekken van conclusies ten aanzien van de aard van de verschillen tussen groepen worden bedreigingen voor de constructvaliditeit genoemd.

Bedreigingen voor de constructvaliditeit

Aandacht voor en contact met de cliënt

Wanneer bij een intern valide onderzoek groepsverschillen gevonden worden tussen de interventiegroep en de non-interventiegroep, hoeft dit nog niet te betekenen dat de verschillen toegewezen kunnen worden aan het effect van de interventie. Het feit dat de experimentele groep door een onderzoeker gezien werd en de controlegroep niet, kan ook al voldoende zijn geweest. Dit wordt het placebo-effect genoemd. Een placebo is een substantie zonder farmacologische eigenschappen die effect zouden kunnen hebben op het symptoom (bv. tabletten bestaande uit suiker of een injectie met zoutoplossing).

Placebo-effecten moeten niet onderschat worden. Uit onderzoek blijkt dat antidepressiva werkzaam zijn bij 50-60% van de patiënten, placebo’s bij 30-35%. Bij dit soort onderzoek is het van belang om een derde groep aan het ontwerp toe te voegen, namelijk een placebo groep die hetzelfde schema van toediening volgt als de experimentele.

Placebo-effecten treden niet alleen bij patiënten op. Ook de toedieners van de medicatie (artsen of verpleegkundigen) kunnen invloed uitoefenen op de reactie van een patiënt door hun verwachtingen en commentaren. Vandaar dat het van belang is dat niet alleen de patiënten onwetend (blind) zijn over in welke groep ze zitten, maar ook de artsen en verpleegkundigen. Dit heet een dubbelblinde studie, omdat beide partijen onwetend zijn over welk medicijn is toegediend. Ook de term dubbel gemaskeerd wordt wel gebezigd.

Bij onderzoek naar de effectiviteit van psychotherapie spelen dezelfde overwegingen als bij medicijnonderzoek. Het kan zijn dat alleen aandacht voor en contact met de client voldoende is om verschillen tussen groepen te tonen. Ook hier is het verstandig om een controlegroep toe te voegen die door een onderzoeker gezien wordt, maar geen werkzame behandeling krijgt.

Enkelvoudige handeling en nauwe stimulus steekproefneming

Het is niet handig om bij behandelinterventie studies gebruik te maken van een enkele therapeut binnen een conditie bij het vergelijken van verschillende therapievormen. Het kan zo zijn dat therapeut A beter in zijn/haar vak is dan therapeut B. Dezelfde therapeut beide interventies laten uitvoeren is ook geen goed idee, omdat hij/zij de ene methode beter zou kunnen beheersen dan de andere of enthousiaster is over één van de twee. In beide gevallen kan er een interactie plaatsvinden tussen behandelvorm en therapeut. Het is verstandiger om in alle behandelcondities meerdere therapeuten te gebruiken, zodat het interactie-effect niet kan optreden.

Het voorgaande is ook van toepassing bij het gebruik van een enkele stimulus (nauwe stimulus steekproefneming). Bij een onderzoek werd er gekeken of mensen iemand met een psychische aandoening anders beoordelen dan mensen zonder psychische aandoening. Er werd gebruik gemaakt van een enkele dia met de beschrijving van een man. Beroep, leeftijd, hobby’s etc. werden genoemd. In de experimentele conditie werd dezelfde beschrijving gebruikt, alleen waren er nu een aantal zinnen toegevoegd over een periode van psychische onrust die tot hospitalisatie leidde. Bij het toeschrijven van persoonskarakteristieken aan de man, bedeelden proefpersonen de versie zonder psychische problemen positievere eigenschappen toe dan de andere versie. Het kan echter zo zijn dat de operationalisatie van het hebben van een psychische stoornis, bijvoorbeeld de bewoording van de toegevoegde zinnen, verantwoordelijk was voor de groepsverschillen en niet perse het hebben van psychische problemen. Wanneer meerdere dia’s gebruikt waren met mensen van verschillende geslachten, leeftijden en interesses, waren de resultaten minder ambigue geweest.

Het gebruik van een nauwe spreiding van stimuli geeft niet alleen problemen met de construct-, maar ook met de externe validiteit. Als een fenomeen aan een nauwe spreiding van stimuli is blootgesteld, zijn de resultaten moeilijk generaliseerbaar. Zo kan hetzelfde probleem een bedreiging zijn voor meerdere vormen van validiteit. Sommige problemen, zoals bijvoorbeeld uitval, zijn bij alle vormen van validiteit een bedreiging.

Verwachtingen van de proefleider

Zowel bij laboratoriumstudies als bij klinisch onderzoek is het goed mogelijk dat de verwachtingen, overtuigingen en wensen van de proefleider aangaande de resultaten, de uitingen van een proefpersoon beïnvloeden. Aan deze beïnvloeding wordt ook wel gerefereerd als ‘ongewilde verwachtingseffecten’ om te benadrukken dat de testleider waarschijnlijk niet expres de respons van de proefpersoon heeft beïnvloed. Verwachtingen kunnen de toon van praten, lichaamshouding, gezichtsuitdrukking, de manier van uitleggen en het trouw blijven aan de voorgeschreven procedure veranderen en daarmee de reactie van een proefpersoon beïnvloeden.

Opnieuw dient benadrukt te worden dat verwachtingseffecten alleen een bedreiging vormen wanneer zij een plausibele rivaliserende interpretatie van de effecten oplevert, die anders toegeschreven zou worden aan de experimentele manipulatie.

Het aandragen van proefleiderverwachtingen als bedreiging voor de validiteit wordt om twee redenen maar weinig gedaan. Ten eerste omdat zowel het construct als de weg die gevolgd wordt naar de effecten onduidelijk is. Ten tweede omdat vaak meer spaarzame interpretaties dan verwachtingen aangevoerd kunnen worden.

Signalen (cues) van de experimentele situatie

Signalen van de experimentele situatie refereert aan die factoren die ervoor zorgen dat toekomstige proefpersonen ongewild al enige voorkennis over het experiment hebben. Deze factoren worden demand characteristics genoemd. Wanneer proefpersonen al iets hebben opgevangen over de instructies of procedures van het experiment kan dit hun respons beïnvloeden.

Algemene opmerkingen

De vraag die hoort bij de constructvaliditeit is tweeledig, namelijk: wat is de interventie en waarom leidde de interventie tot verandering? Bij de eerste vraag draait het erom dat de interventie kan (co)variëren (confounden) met de andere condities, waardoor de resultaten beïnvloed worden. De tweede vraag benadrukt het interpreteren van het werkzame bestanddeel van een interventie. Hierbij gaat het niet om confounders, maar om het begrijpen van het onderliggende mechanisme, proces of de onderliggende theorie.

Statistische conclusie validiteit

Statistische conclusie validiteit refereert aan die facetten van de kwantitatieve evaluatie, die de conclusies omtrent de experimentele conditie en diens effecten beïnvloeden. Statistische evaluatie wordt vaak vanuit twee standpunten bekeken. Het eerste houdt zich bezig met het begrijpen van de statistische test zelf en diens fundament. Dit facet benadrukt wat de test bereikt en de formules en afgeleiden van de test. Het tweede facet beslaat de rekenkundige aspecten van statistische tests. Hier wordt de toepassing van de test bij datasets, het gebruik van software en de interpretatie van de resultaten benadrukt.

Het rekening houden met de statistische conclusie validiteit kan zelfs nog naar een hoger plan getrokken worden door de rol van statistische evaluatie in relatie tot het onderzoeksdesign en andere bedreigingen voor de validiteit in ogenschouw te nemen.

Overzicht van essentiële concepten

Statistische tests en besluitvorming

Een groot deel van de onderzoeken binnen de psychologie draait om het toetsen van hypotheses en statistische evaluatie. De nulhypothese H0 stelt dat er geen verschil is tussen de groepen. Een statistische test wijst uit of de verschillen betrouwbaar zijn of meer dan wat men op basis van het toeval zou verwachten. De nulhypothese kan verworpen worden als er een statistisch significant verschil gevonden wordt. De nulhypothese wordt aangenomen als dat significante verschil er niet is. Het afwijzen of accepteren van de nulhypothese is een gewichtig proces. Het beslissingsproces draait om het selecteren van een waarschijnlijkheidsniveau dat de mate van het risico specificeert dat er een verkeerde conclusie wordt getrokken.

Vier situaties zijn mogelijk (voor de 2 x 2 matrix zie figuur 3.1 op blz. 68):

Het experiment laat een duidelijk verschil zien, terwijl in werkelijkheid dat verschil er niet is. H0 wordt ten onrechte verworpen.
Het experiment laat een duidelijk verschil zien en in werkelijkheid is dat verschil er ook. H0 wordt terecht verworpen.
Het experiment laat geen duidelijk verschil zien en in werkelijkheid is dat verschil er ook niet. H0 wordt terecht aangenomen.
Het experiment laat geen duidelijk verschil zien, terwijl in werkelijkheid dat verschil er wel is. H0 wordt ten onrechte aangenomen.

Een aantal andere termen die veel gebruikt worden bij het het beslissingsproces aangaande de statistische conclusie validiteit worden hieronder besproken.

Alpha (α): de waarschijnlijkheid dat de nulhypothese ten onrechte verworpen wordt (A). Dit wordt ook wel fout van de eerste soort genoemd.

Bèta (β): de waarschijnlijkheid dat de nulhypothese ten onrechte aangenomen wordt (D). Dit wordt ook wel fout van de tweede soort genoemd.

Power: de waarschijnlijkheid dat de nulhypothese terecht verworpen wordt (B). Als volgt genoteerd: 1 - β.

Effectgrootte: een manier om verschillen tussen groepen uit te leggen in gestandaardiseerde metrische termen. De effectgrootte wordt berekend door de gemiddelden van de twee groepen van elkaar af te trekken en te delen door de (gepoolde) standaard deviatie.

Standaarddeviatie: een maat voor de afwijking, variatie of variabiliteit van het gemiddelde. De standaarddeviatie is ook de wortel van de variantie (voor de wiskundige notering zie tabel 3.1 op blz. 69).

Effectgrootte

De effectgrootte (ES voor effect size) refereert aan de grootte van het verschil tussen de groepen en wordt uitgedrukt in standaarddeviatie eenheden. Bij twee groepen is de effectgrootte gelijk aan het verschil tussen de gemiddeldes van de groepen gedeeld door de standaarddeviatie. Van de effectgrootte wordt gezegd dat het de grootte van het verschil, zoals het in de werkelijkheid voorkomt, reflecteert.

De effectgrootte kan beïnvloed worden door de relatie tussen verschillende niveaus van de variabele en de uitkomsten te bekijken, waarbij de niveaus geselecteerd worden die waarschijnlijk het grootste verschil tussen de groepen zal laten zien.

Bij een gegeven of vaste effectgrootte binnen de werkelijkheid, kan er veel gedaan worden om te kijken of die ook binnen het experiment zichtbaar wordt. De variabiliteit binnen procedures kan verlaagd worden, zodat de standaard meetfout (standaarddeviatie) verlaagd wordt. Veel controleprocedures van experimenten zijn erop gericht om de variantie of variabiliteit binnen de formule voor effectgrootte te minimaliseren. Hoe meer variabiliteit (noemer), hoe kleiner de effectgrootte bij een constant verschil tussen de gemiddelden (teller).

Bedreigingen voor de statistische conclusie validiteit

Weinig statistische power

Statistische power refereert aan de mate waarin een experiment in staat is om verschillen aan te tonen, die er daadwerkelijk zijn. De meest voorkomende bedreiging voor statistische validiteit is dat een studie weinig power heeft. Anders gezegd, dat een studie een lage waarschijnlijkheid heeft van het ontdekken van bestaande verschillen.

Statistisch power is een functie van het criterium voor statistische significantie (alpha), de grootte van de steekproef (N) en het verschil dat bestaat tussen de groepen (effectgrootte). De meest rechttoe rechtaan methode om de power te vergroten is het vergroten van de steekproef.

Variabiliteit binnen procedures

Variabiliteit refereert aan de noemer van de formule voor effectgrootte. Variabiliteit kan optreden door individuele verschillen tussen proefpersonen, willekeurige fluctuaties in de uitingen bij de metingen, verschillen tussen testleiders of therapeuten in hoe zij de procedure volgen of aanbieden, etc.

Om variabiliteit tegen te gaan is het belangrijk om gestandaardiseerde meetinstrumenten en -procedures te gebruiken. Behandelingen worden geprotocolleerd en bij experimenten wordt gebruik gemaakt van scripts.

Heterogeniteit van proefpersonen

Proefpersonen kunnen op de meest uiteenlopende gebieden van elkaar verschillen, zoals geslacht, leeftijd, achtergrond, etniciteit en burgerlijke stand. In het algemeen geldt dat hoe groter de heterogeniteit of diversiteit van proefpersoonkarakteristieken, hoe kleiner de kans op het vinden van verschillen tussen de condities. De proefpersonen moeten natuurlijk wel heterogeen zijn op het kenmerk dat gerelateerd is aan de effecten van de onafhankelijke variabele.

Comorbiditeit is bij behandeleffectiviteitsonderzoek een belangrijk fenomeen om bij stil te staan. Comorbiditeit houdt het tegelijkertijd hebben van twee of meerdere stoornissen in. Het is goed mogelijk dat een behandelmethode voor depressiviteit minder goed aanslaat bij mensen die naast een depressie nog een andere stoornis hebben. Variaties tussen proefpersonen in relatie tot comorbiditeit worden in de noemer zichtbaar als variabiliteit binnen een groep. Daarmee wordt de kans om groepsverschillen waar te nemen verminderd.

Op verschillende manieren kan het gevaar van heterogeniteit tegengegaan worden. De eerste ligt voor de hand en draait om het selecteren van homogene steekproeven. Een tweede manier is om wel een heterogene steekproef te selecteren, maar ervoor te zorgen dat het effect van bepaalde kenmerken meetbaar is. Bij comorbiditeit bijvoorbeeld kunnen proefpersonen met een tweede stoornis geïncludeerd worden, mits er bij de analyses rekening mee gehouden wordt. De effecten van de behandeling op de stoornis kunnen apart geanalyseerd worden voor mensen met en zonder comorbiditeit. In de data-analyse wordt comorbiditeit een aparte factor, waardoor het niet langer meetelt als variantie binnen de groep en daarmee de noemer niet hinderlijk vergroot. Dit kan gedaan worden met een variantie-analyse of een regressie-analyse.

In principe kan het effect van ieder kenmerk van een proefpersoon op die manier bekeken worden. Dit is niet wenselijk wanneer er geen gegronde (op basis van theorie) reden is om een bepaalde variabele toe te voegen. Studies hebben vaak te weinig proefpersonen om dit eindeloos te doen en het vergroot de kans op toevalsbevindingen.

Onbetrouwbaarheid van de metingen

Betrouwbaarheid refereert aan de mate waarin de onafhankelijke variabele op een consistente manier gemeten wordt. Onbetrouwbare meetinstrumenten leiden tot variabiliteit in de respons van proefpersonen, omdat het niet duidelijk is wat er precies gemeten wordt.

Interne consistentie is belangrijk bij een meetinstrument. Dit houdt in dat de items met elkaar samenhangen zoals ze dat behoren te doen.

Vuistregel: een onbetrouwbare meting verhoogt de variabiliteit en kan de power verlagen.

Meerdere vergelijkingen en foutmarges

Niet alle dreigingen voor de statistische conclusie validiteit hebben betrekking op variabiliteit. Het gebruiken van meerdere statistische test bijvoorbeeld heeft betrekking op de kans op een fout van de eerste soort. Hoe meer instrumenten, hoe groter de kans op het toevallig vinden van een verschil tussen groepen, dat er in werkelijkheid niet is (fout van de eerste soort). De kans op deze fout is gespecificeerd door alpha. Het is zo dat deze alpha geldt voor een individuele test. Bij meerdere tests is alpha groter dan .05, afhankelijk van het aantal gebruikte metingen.

Deze dreiging wordt ook wel experiment-wise error rate genoemd.

Algemene opmerkingen

Bedreigingen voor de statistische conclusie validiteit refereren aan kenmerken van een studie die van invloed zijn op de kwantitatieve evaluatie van de resultaten. Genoemde bedreigingen zijn een lage power en een hoge variabiliteit binnen groepen.

Er is over variabiliteit en variantie gesproken alsof het vijanden zijn. Dit is maar tot op zekere hoogte waar. Het doel van onderzoek doen is niet het elimineren van variabiliteit, maar het begrijpen ervan. Wat betekent dat onderzoekers het volledige spectrum van factoren die affect, cognitie, gedrag en persoonlijkheid beïnvloeden tot in detail willen uitwerken.

Experimentele precisie

De vier vormen van validiteit zijn nu besproken. Bij het begin van een studie moet er rekening gehouden worden met alle vormen van validiteit. Niet alle problemen kunnen opgelost worden, maar veel wel.

Het is niet mogelijk om aan alle bedreigingen voor alle vormen van validiteit aandacht te besteden. De reden hiervoor is, is dat inzetten op de ene vorm van validiteit en andere vorm kan compromitteren. Dit is geen groot probleem. Er bestaat pas een probleem wanneer de onderzoeker veel aandacht besteedt aan een vorm van validiteit die een lagere prioriteit heeft.

Constant houden versus controleren van bronnen voor variantie

Bij het ontwerpen van een studie zijn de onderzoekers niet alleen geïnteresseerd in het uitsluiten van dreigingen voor de interne validiteit, zij zijn vooral ook geïnteresseerd in het verschaffen van de meest sensitieve test als mogelijk om de onafhankelijke variabele te meten.

Het vergroten van precisie wordt bereikt door de potentiële bronnen van beïnvloeding van de proefpersonen anders dan de onafhankelijke variabele constant te houden. Condities worden constant gehouden als zij identiek of vrijwel identiek zijn over de proefpersonen en experimentele condities heen. Dit kan nooit volledig bereikt worden, omdat ieder individu zijn eigen levenservaringen heeft, maar gestandaardiseerde afnamen, die hetzelfde zijn bij de verschillende experimentele groepen dragen veel bij.

Bij iedere vorm van menselijk contact kan er externe variatie het experiment binnensluipen. De ene testafname kan net iets verschillen van de andere. Deze kans wordt nog groter als er verschillende testleiders zijn met ieder een subtiel andere aanpak. Ook andere externe factoren kunnen als bron van variatie dienen: de tijd van de dag, het weer en hoe de onafhankelijke variabele geïmplementeerd is. Al deze factoren kunnen gecontroleerd worden door ze onsystematisch te laten variëren over de groepen. Dit wordt gedaan door proefpersonen random toe te wijzen aan een groep en door proefpersonen iedere experimentele conditie te laten doorlopen tijdens de duur van het experiment. Waarbij het belangrijk is dat het doorlopen van de verschillende condities niet systematisch verloopt. Dus niet eerst alle proefpersonen in de experimentele groep bij de eerste helft van het onderzoek en dan in de tweede helft iedereen in de controlegroep. Als er geen systematische bias is bij deze bronnen van variatie is het experiment gecontroleerd.

Wisselwerkingen

Als algemene regel geldt dat het sensitiever maken van een test van de on- en de afhankelijke variabele de generaliseerbaarheid van de bevindingen limiteert. Omgekeerd geldt dat kenmerken van een studie die de generaliseerbaarheid van de resultaten vergroten de neiging hebben variabiliteit te vermeerderen en de sensitiviteit van de test te verkleinen.

Wanneer een relatie eenmaal door middel van goed gecontroleerde en intern valide studies is vastgesteld, kan de aandacht verschuiven naar de externe validiteit. Externe validiteit kan geëvalueerd worden door het systematisch uitbreiden van de steekproef, settings, variaties op de behandeling en de meetmethode en constructen.

Samenvatting en conclusies

Constructvaliditeit heeft betrekking op de interpretatie van de grondslag voor de causale relatie tussen de on- en afhankelijke variabele. Bedreigingen voor de constructvaliditeit zijn aandacht voor en contact met de proefpersonen, enkelvoudige handeling en nauwe stimulus steekproefneming, verwachtingen van de proefleider en signalen (cues) van de experimentele situatie.

Statistische conclusie validiteit refereert aan die aspecten van de studie die van invloed zijn op de kwantitatieve evaluatie en kunnen leiden tot misleidende of foute conclusies aangaande de manipulatie of interventie. Verschillende concepten zijn besproken die een rol spelen bij statistische conclusie validiteit, zoals de kans op het accepteren of verwerpen van de nulhypothese, kans op het maken van een foute beslissing en effectgrootte. Veel factoren die een bedreiging voor de validiteit vormen werken door beïnvloeding van een of meer van de besproken concepten, inclusief weinig statistische power, variabiliteit in de procedures van het experiment, heterogeniteit van de proefpersonen, onbetrouwbaarheid van de metingen en meerder statistische vergelijkingen en hun foutmarges.

Het is niet mogelijk om alle vormen van validiteit te maximaliseren. Er zullen prioriteiten gesteld moeten worden. De volgorde is in veel gevallen dat er eerst geprobeerd wordt een relatie aan te tonen in een sterk gecontroleerde omgeving om vervolgens te kijken hoe de onafhankelijke variabele zich gedraagt binnen een minder gecontroleerde omgeving.

Verder hangen maatregelen om één vorm van validiteit te vergroten vaak samen met inlevering van een andere vorm van validiteit.

Het doel van dit hoofdstuk en het vorige was om de verschillende vormen van validiteit en de bijbehorende bedreigingen te beschrijven. In nog volgende hoofdstukken zal teruggegrepen worden naar deze onderwerpen en zullen strategieën besproken worden die deze bedreigingen tegengaan en de conclusies kunnen versterken.

Kernconcepten en -termen

Constructvaliditeit Power

Effectgrootte Statistische conclusie validiteit

Placebo-effect

Hoofdstuk 4: Bronnen van artefacten en bias

Tot nu toe heeft de focus gelegen op bedreigingen die alternatieve interpretaties van de resultaten opleveren. Artefacten en biases verschuiven de aandacht naar specifieke handelingen en procedures binnen een experiment die kunnen interfereren bij het trekken van valide conclusies.

Een artefact of externe invloed heeft betrekking op alle variabelen waarin de onderzoeker niet geïnteresseerd is. Het identificeren van artefacten verloopt in fases. De eerste fase is onwetendheid. De onderzoeker is zich er niet van bewust dat een externe variabele van kracht is die mogelijk verantwoordelijk is voor de resultaten. De volgende fase is kunnen omgaan met het artefact (coping). Het artefact is erkend en de onderzoekers implementeren controle procedures om de invloed van het artefact te ontdekken, schatten, verminderen of voorkomen. De laatste fase is het exploiteren van de bron van het artefact. Het artefact vormt een nieuw onderzoeksterrein om de bron van invloed en het pad dat het volgt te kunnen begrijpen.

Dit hoofdstuk beschrijft verschillende bronnen van artefacten. Conceptualisatie van deze invloeden is opgetreden en sommige invloeden hebben zich geëvolueerd tot een volwaardige onafhankelijke variabele. Verder zal besproken worden hoe biases het trekken van valide conclusies kunnen beïnvloeden.

Bronnen van bias

NB: er wordt een verschil gemaakt tussen degene die het onderzoek ontwerpt (onderzoeker) en degene die het experiment uitvoert (proef- of testleider).

Rationale, scripts en procedures

Aard van het probleem

Zowel de instructies aan deelnemers aan het onderzoek als de experimentele materialen en procedures vormen een potentiële bron voor bias. Vandaar dat er vaak met scripts wordt gewerkt waarin de achtergrond, instructies en te volgen handelingen exact beschreven staan. De kleinste afwijking van een script kan een bias (kleuring) opleveren. Het nalaten van een gespecificeerde beschrijving van de rationale, het script en de handelingen van de testleider wordt het ‘loose protocol effect’ genoemd.

Er treden twee problemen op bij het niet specificeren van het script. De eerste is de onmogelijkheid om een studie te repliceren, omdat een onderzoeker niet precies weet wat er tijdens het contact met de deelnemers heeft plaatsgevonden. Het tweede probleem is dat bij meerdere testleiders de werkwijze tussen hen systematisch kan verschillen.

Wanneer testleiders variëren in de testafname treedt er ‘ruis’ (noise) op. De variabiliteit binnen de groep (error variantie) vergroot, wat de effectgrootte en de power kan verlagen, waarmee de statistische conclusie validiteit aangetast wordt. Alleen al om deze reden is het verstandig om zoveel mogelijk met gestandaardiseerde testafnames te werken.

De onderzoeker is niet alleen verantwoordelijk voor het opstellen van het script, hij/zij is ook verantwoordelijk voor de naleving ervan. Proefleiders kunnen gaandeweg afwijken van het script of het naar hun eigen hand zetten. De onderzoeker moet erop letten dat een script nauwlettend wordt gevolgd.

Aanbevelingen

Er zijn een aantal zaken aan te bevelen als het gaat om het consistent volgen van de testprocedures.

Het gebruik van vooraf op tape of video opgenomen instructies aan de deelnemers vermindert de kans op afwijkingen. Niet in alle gevallen is het mogelijk of wenselijk om van deze middelen gebruik te maken.

In het geval dat er menselijk contact is tussen een testleider en een deelnemer is het verstandig om van tevoren te specificeren met welke vragen een testleider geconfronteerd kan worden (ben ik maar een proefkonijn?, zit ik in de controlegroep?) en de reactie van de testleider vast te leggen.

Een andere aanbeveling is om testleiders samen te trainen. Dit bevordert homogene gedragingen. Er kan zelfs gebruik gemaakt worden van bondgenoten. Dit zijn geen echte proefpersonen, maar mensen die ingehuurd zijn door de onderzoeker om te kijken of de testleiders zich aan het protocol houden. De onderzoeker kan het gebruik van bondgenoten aankondigen, zodat de testleiders alert blijven om zich aan het protocol te houden.

Proefpersonen kunnen na afloop geïnterviewd of via een vragenlijst bevraagd worden over de houding, gedrag etc. van de testleider.

Testleiders moeten gestimuleerd worden om afwijkingen van het script te rapporteren. Niemand is foutloos en het kan voorkomen dat een testleider tijdens een sessie afwijkt van het script.

De effecten van testleiderverwachtingen

Aard van het probleem

De invloed van testleiderverwachtingen wordt als ongewild beschouwd. Door de toon van de stem, houding, gezichtsuitdrukkingen en andere signalen kan de testleider de reactie van een proefpersoon beïnvloeden.

Het is ook mogelijk dat de onderzoeker zelf verwachtingen heeft, die hij/zij overdraagt aan de testleider. Het kan zijn dat een onderzoeker er baat bij heeft dat een bepaalde conditie het beter doet dan de andere. Die ambities kan de onderzoeker projecteren op de testleider.

Verwachtingen kunnen de constructvaliditeit aantasten. Kenmerken van de testleider die irrelevant zijn aan de manipulatie (verwachtingen, enthousiasme, suggesties om beter te presteren) kunnen systematisch variëren over de condities.

Aanbevelingen

Het is bekend dat verwachtingen de bevindingen kunnen beïnvloeden, maar hoe sterk die effecten doorwerken of via welk pad ze werken is onbekend. Het is belangrijk om te weten hoe de beïnvloeding plaatsvindt omdat dit gevolgen heeft voor de procedures die nodig zijn om de boel weer recht te trekken.

De meest conservatieve methode is om testleiders naïef of blind te houden met betrekking tot het doel van het experiment en door te evalueren in hoeverre dit geslaagd is. Het naïef houden van testleiders refereert meestal aan het niet verschaffen van informatie aangaande de hypothese van het experiment.

Uitvoerders van het onderzoek kunnen na verloop van tijd doorhebben welke conditie ze uitvoeren en daarmee kunnen de observaties gekleurd worden. Door bijvoorbeeld te denken dat de patiënten in de groep van de testleider in de controlegroep zitten, kunnen hun klachten overdreven genoteerd worden. Een manier om na te gaan of testleiders wisten aan welke conditie ze toegeschreven waren, kan een relatief simpele procedure geïntroduceerd worden. Aan de testleiders wordt gevraagd om aan te geven welke behandeling ze denken dat een bepaalde proefpersoon ontvangen heeft. Het aantal correcte antwoorden wordt gecalculeerd en er kan berekend worden of het aantal goede antwoorden ligt boven wat men op basis van toeval zou verwachten. Bij een grote proportie correcte identificaties kan aangenomen worden dat de testleider niet blind was.

Testleiderkarakteristieken

Aard van het probleem

Het is bekend dat bij zelfrapportage- en projectieve tests, intelligentietesten en verscheidene laboratoriumtaken karakteristieken van de testleider (leeftijd, geslacht, ras, angstniveau, vriendelijkheid en status) de respons van een proefpersoon kunnen beïnvloeden. De karakteristieken kunnen interacteren met de onafhankelijke variabele.

Vaak verlagen testleiderkarakteristieken de externe validiteit van de bevindingen. Het kan zijn dat de relatie tussen de on- en afhankelijke variabele alleen zichtbaar wordt bij bepaalde testleiderkarakteristieken. Dit is te ondervangen door gebruik te maken van meerdere testleiders.

Bepaalde karakteristieken kunnen de constructvaliditeit aantasten. Dit kan wanneer er één testleider voor de experimentele en één testleider voor de controle conditie is. Wanneer testleiders confounden met condities zijn eerder de karakteristieken van de testleider dan de onafhankelijke variabele verantwoordelijk voor de resultaten.

Aanbevelingen

De reikwijdte van testleidereigenschappen die de resultaten kunnen beïnvloeden en de mate waarin de beïnvloeding doorwerkt is niet bekend. Het zou handig zijn als onderzoekers specifieker de karakteristieken van hun testleiders zouden beschrijven in hun rapportages. Binnen een studie is de invloed van een eigenschap moeilijk te evalueren omdat het aantal testleiders daarvoor te klein is. Wanneer een groot aantal onderzoekers hun testleiders beschrijven kunnen er meta-analyses gedaan worden om de invloed van bepaalde karakteristieken beter te specificeren, begrijpen en reduceren.

Situationele en contextuele cues

Aard van het probleem

Demand characteristics refereren aan signalen binnen een experimentele situatie die de respons van proefpersonen kan beïnvloeden. De reikwijdte van het aantal cues is moeilijk in te schatten. Ieder facet van het gedrag van de proefleider, de setting, de testmaterialen en de context die conceptueel irrelevant zijn, maar wel een reactie bij de proefpersoon ontlokken kan bijdragen aan demand characteristics. Alleen die cues die plausibel gerelateerd zijn aan het patroon van de resultaten en confounden met de groepen, kunnen als demand characteristics aangemerkt worden.

Aanbevelingen

Er zijn drie manieren om de invloed van demand characteristics te evalueren. Iedere procedure bekijkt of signalen (cues) van de experimentele situatie alleen zou leiden tot respons in de richting die geassocieerd is met de onafhankelijke variabele. Wanneer de cues proefpersonen niet laat reageren op een manier die je zou verwachten bij de blootstelling aan de werkelijke manipulatie, dan wordt er geconcludeerd dat demand characteristics geen rol hebben gespeeld.

Bij postexperimenteel onderzoek worden proefpersonen bevraagd over hun perceptie aangaande het doel van het onderzoek, wat er verwacht werd en hoe zij zich ‘behoorden’ te gedragen. Wanneer proefpersonen responsen identificeren die consistent zijn met de verwachtte gedragingen, dan bestaat de mogelijkheid dat demand characteristics bijgedragen hebben aan de resultaten.

Een aantal nadelen kleven aan deze procedure. De bevraging zelf kan een eigen set aan demand characteristics oproepen, zodat de proefpersonen niet alles zullen prijsgeven. Het kan ook zijn dat de characteristics onbewust zijn gebleven, maar dat de proefpersoon er wel op gereageerd heeft.

Bij een vooronderzoek (pre-experimenteel) worden proefpersonen niet blootgesteld aan de manipulatie, maar krijgen wel uitleg over de te volgen procedure en de testmaterialen. Vervolgens wordt hen gevraagd de testmaterialen in te vullen. Wanneer de proefpersonen op een manier reageren die consistent is met de voorspelde reactie, dan bestaat de mogelijkheid dat demand characteristics bijgedragen hebben aan de resultaten.

Bij simulators wordt aan proefpersonen gevraagd of ze willen doen alsof ze blootgesteld zijn aan de manipulatie. De testleider weet niet wie een echte proefpersoon of een simulator is. Aan simulators wordt gevraagd om te raden wat echte proefpersonen, die wel aan de manipulatie zijn blootgesteld, zouden doen en om de testleider om de tuin te leiden. Als simulatoren in staat zijn om hetzelfde als de proefpersonen te reageren, dan bestaat de mogelijkheid dat demand characteristics bijgedragen hebben aan de resultaten.

De genoemde procedures zijn niet zaligmakend. Wanneer na een pre-, postexperimenteel of simulator onderzoek de data consistent zijn met een demand characteristic interpretatie dan wil dat nog niet zeggen dat de demand characteristics verantwoordelijk waren voor de behaalde resultaten. Zowel de demand characteristic als de effecten van de onafhankelijke variabele kunnen in dezelfde richting werkzaam zijn. De consistentie levert een probleem op voor de constructvaliditeit en de interpretatie van het onderliggende mechanisme van de bevindingen. Zelfs wanneer de data vanuit de genoemde procedures niet correspondeert met de reacties van de proefpersonen, kan de rol van demand characteristics niet geheel uitgesloten worden. Het is niet hetzelfde om je in te leven in en situatie en het echt ervaren van iets. Het kan zijn dat de echte ervaring andere demand characteristics oproept dan het doen alsof.

Proefpersoonrollen

Aard van het probleem

Proefpersonen kunnen verschillend reageren op de experimentele cues van de studie. Deze verschillende manieren worden proefpersoonrollen genoemd en reflecteren de intentie van de respons van de proefpersoon. Verschillende rollen zijn onderscheiden, zoals de goede, negativistische, trouwe en beduchte rol.

De goede proefpersoon zal proberen om de reacties te geven die de hypothese van de onderzoeker zal bevestigen. Om deze rol te kunnen aannemen, moet een proefpersoon de hypothese kunnen identificeren en vervolgens gedrag vertonen dat consistent is met die hypothese. Een reden hiervoor kan zijn dat een proefpersoon informatie wil verstrekken die een bijdrage aan de wetenschap zal leveren.

De negativistische proefpersoon zal proberen de hypothese van de onderzoeker te weerleggen door bewijs te leveren voor een alternatieve zelfs tegengestelde hypothese. Een reden hiervoor kan zijn dat de proefpersoon niet over wil komen als een volger, een voorspelbaar persoon of zich niet fijn voelt in een situatie waarbij hij/zij het gevoel heeft gedwongen te worden om te reageren.

De trouwe proefpersoon zal heel erg zijn/haar best doen om de instructies zo nauwkeurig mogelijk op te volgen en te vermijden dat hij/zij op basis van vermoedens of aannames omtrent het doel van het experiment zal reageren. Hierbij is een passieve uitvoering mogelijk, waarbij een proefpersoon apathisch de instructies volgt of actief, waarbij een proefpersoon heel erg gemotiveerd en alert is om zich niet te laten leiden door enige vermoedens in zijn/haar reactie.

De beduchte proefpersoon houdt zich bezig met het feit dat zijn/haar vaardigheden, persoonlijke karakteristieken of arbeidskansen geëvalueerd worden. Proefpersonen willen graag een goede indruk achterlaten bij een psycholoog en kunnen daardoor sociaal wenselijk reageren.

Proefpersoonrollen kunnen op verschillende manieren de validiteit aantasten. Wanneer de rollen systematisch verschillen tussen de condities kan de constructvaliditeit in het gedrang komen. De externe validiteit kan bedreigd worden als de resultaten alleen betrekking hebben op mensen die een bepaalde rol aannemen.

Aanbevelingen

Er zijn verschillend procedures voor handen om de invloed van proefpersoonrollen te minimaliseren. Waarschijnlijk moet de meeste aandacht besteedt worden aan de beduchte rol, omdat er aanwijzingen zijn dat deze rol het meest doorwerkt. Het kan helpen om bij een experiment aan te geven dat de antwoorden anoniem zijn, niet gebruikt zullen worden voor andere doeleinden dan het onderzoek, dat er geen goede of foute antwoorden zijn en dat de antwoorden sowieso nuttig zullen zijn.

De invloed van proefpersoonrollen kan geminimaliseerd worden door ervoor te zorgen dat proefpersonen niets te weten komen over de hypotheses. Voor de testleider is het van belang dat hij/zij een klimaat creëert waarin de proefpersoon eerlijk en openhartig kan reageren. De testleider kan benadrukken dat juiste informatie belangrijker is dan dat een persoon reageert zoals hij/zij denkt te moeten reageren.

Data-invoer en -verwerking

Aard van het probleem

Verschillende problemen kunnen optreden betreffende de data die verzameld worden, zoals fouten maken bij het scoren, invoeren of berekenen, een select deel van de data verwerken en het fabriceren of knoeien met de data.

Uit evaluatie-onderzoek is gebleken dat fouten bij het scoren en rekenfoutjes bij één procent van de data optreedt. Deze foutjes hebben de neiging om in de richting van de hypotheses te zijn. Het is duidelijk dat dit soort fouten belangrijk zijn, omdat ze leiden tot verkeerde conclusies. Systematische fouten kunnen de bevestigende hypothese veranderen, onsystematische of random errors kunnen de groepsverschillen ontkennen of versluieren doordat de fouten de variabiliteit verhogen.

Het computertijdperk heeft veel bijgedragen aan het verminderen van fouten in statistische berekeningen. Het minst foutgevoelig is een test die direct door de proefpersoon op de computer wordt ingevoerd. Het met de hand overzetten van data van bijvoorbeeld papier naar een database op de computer geeft ruimte voor fouten. Het is dan ook van belang om frequent de data-invoer te checken.

Bij het analyseren van de data kan er op vele manier bias optreden. Veel problemen hebben te maken met het selecteren van dat deel van de data dat geanalyseerd moet worden. Een onderzoeker kan alleen het deel selecteren voor analyse dat het meest veelbelovend lijkt. Wanneer wel alle data geanalyseerd worden, kan de onderzoeker ervoor kiezen om alleen een bepaald deel te rapporteren.

Als lezer van een rapportage kom je niet te weten of de onderzoeker het volledige plaatje laat zien of alleen de statistisch significante verschillen vermeld. Of dat de data blootgesteld zijn aan verscheidene statistische test, maar dat alleen de bevindingen van de test worden vermeld die een significant resultaat laten zien. Over niet significante verschillen wordt nauwelijks gerapporteerd. Hieraan wordt gerefereerd als het ‘file-drawer problem’.

De meest misleidende vorm van bias is het rapporteren van frauduleuze data. Wanneer onderzoekers het alleenrecht hebben op data, zal het bewust fabriceren of knoeien met data moeilijk te ontdekken zijn. Er zijn dramatische voorbeelden van fraude bekend binnen de wetenschappelijke wereld.

Aanbevelingen

Het verkeerd scoren of berekenen van scores is eenvoudig te ondervangen door goed te controleren. Mensen die proefpersonen beoordelen moeten niet geïnformeerd worden over de verschillende condities zodat er geen fouten in de richting van de hypothese kunnen plaatsvinden. Fouten bij het invoeren kunnen voorkomen worden door proefpersonen hun antwoorden direct op de computer in te laten voeren. Wanneer dit niet kan is het handig om volledige vragenlijsten in te scannen en de computer die te laten verwerken. Hoe minder stappen met menselijke handelingen, hoe minder kans op fouten. Het checken van de data vindt op alle momenten plaats en begint al bij het nakijken of de proefpersoon alle vragen heeft ingevuld.

Problemen omtrent het selectief analyseren of het selectief rapporteren over de data is een moeilijker probleem. De verantwoordelijkheid ligt hierbij niet alleen bij de onderzoekers. Vaak zijn tijdschriften alleen geïnteresseerd in significante verschillen.

Zoals eerder genoemd, is het knoeien met data heel moeilijk te detecteren en daarmee op te lossen.

De steekproef: wie is geselecteerd voor het experiment?

De aard van het probleem

Het veelal gebruik maken van studenten is al eerder als een probleem voor de externe validiteit genoemd. Studenten vertegenwoordigen een specifieke groep binnen de maatschappij.

Een andere problematische steekproef is de ‘gemakshalve steekproef’ (sample of convenience). Een groep wordt geselecteerd omdat die groep op dat moment voor handen is, maar mogelijk niet de meest passende is.

Een meer doorwerkend probleem heeft te maken met de vrijwilligersstatus. Bij een oproep om deel te nemen aan onderzoek besluit een deel om mee te doen en het andere deel niet. Het kan zijn dat die twee groepen op belangrijke punten van elkaar verschillen. Onderzoek wijst uit dat er inderdaad sprake van verschil is tussen die twee groepen. Vrijwilligers zijn bijvoorbeeld jonger, hoger opgeleid, socialer, geloviger etc. dan niet-vrijwilligers (voor de totale lijst zie tabel 4.3 op blz. 103).

Ditzelfde probleem doet zich voor bij klinisch onderzoek waarbij cliënten geïncludeerd worden die verwezen zijn voor behandeling van een desbetreffende stoornis. De verwezen groep weerspiegelt niet de totale groep mensen die aan die stoornis lijdt. De verwezen groep kan verschillen op zaken als het hebben van een bezorgd sociaal netwerk of aanvullend verzekerd zijn.

Aanbevelingen

Een voor de hand liggende aanbeveling is het vergroten van de verscheidenheid van proefpersonen. Het moet voor gedragsdeskundigen toch mogelijk zijn om personen, die zich normaal gesproken niet als vrijwilliger zouden opgeven, te laten deelnemen aan een studie.

Bij klinische studies is het soms handig om de verkregen resultaten te vergelijken met resultaten die gevonden zijn bij grotere populaties, zoals epidemiologische steekproeven. Zo kan er gekeken worden of de klinische steekproef zich anders gedraagt dan de grote massa.

Uitval: wie blijft in de studie?

Aard van het probleem

Het wel of niet vrijwillig deelnemen aan een experiment kan potentieel een selectiebias voorafgaand aan de studie opleveren. Het selectieproces stopt echter niet bij het begin van een studie. Wanneer er sprake is van herhaalde metingen in de tijd, loopt het selectieproces door. Het verlies van proefpersonen kan effect hebben op alle vormen van validiteit, doordat het gevolgen heeft voor de willekeurige (random) compositie van de groepen en de groepsgelijkheid (interne validiteit), voor de generaliseerbaarheid (externe validiteit), voor de mogelijkheid dat speciale karakteristieken van de overgebleven proefpersonen verantwoordelijk zijn voor de gevonden effecten en niet de interventie (constructvaliditeit en externe validiteit) en voor de grootte van de steekproef en de power (statistische conclusie validiteit).

Uitval kan een probleem vormen wanneer de uitvallers verschillen van de blijvers, wanneer het aantal uitvallers niet gelijk verdeeld is over de groepen, wanneer er sprake is van selectieve uitval (= de karakteristieken van de proefpersonen die uitvallen verschillen over de groepen) en wanneer het aantal uitvallers zo hoog is (= te lage N) dat er geen valide conclusies getrokken kunnen worden.

Aanbevelingen

Er zijn verschillende manieren om uitval tegen te gaan, zoals een oriënterend gesprek voorafgaand aan de studie, schriftelijke correspondentie tijdens de studie, herinneringsbrieven en planmethodes voor afspraken en geldelijke beloningen. Sommige onderzoekers maken zelfs gebruik van een borgmethode. Proefpersonen leggen aan het begin van de studie een bepaald bedrag in dat ze na afloop bij het nakomen van alle afspraken weer terugkrijgen.

Wanneer variabelen bekend zijn die samenhangen met uitval (bv. geen geld hebben voor het openbaar vervoer, hoog stressniveau, aantal symptomen) kan een cuttoff score bepaald worden of een profiel opgesteld worden van proefpersonen die een groot risico vormen om uit te vallen. Een andere strategie is begrijpen waarom mensen uitvallen en ze tegemoet komen.

Er zijn verschillende statische methodes ontwikkeld om om te gaan met uitval en een eventuele bias te identificeren. Deze methodes zullen beschreven worden in hoofdstuk 15.

Samenvatting en conclusies

Bronnen voor artefacten en bias zijn een functie van waarin de onderzoeker geïnteresseerd is. Met andere woorden, wat in het ene onderzoek als bias wordt beschouwd kan bij een ander onderzoek juist de bestudeerde variabele zijn.

Bronnen voor artefacten en bias (kunnen) zijn: het loose protocol effect en het afwijken van de procedure, testleiderverwachtingen, testleiderkarakteristieken, situationele en contextuele cues (demand characteristics), proefpersoonrollen, selectiebias van de steekproef en (selectieve) uitval.

Kernconcepten en -termen

Beduchte proefpersoonrol Loose protocol effect

Demand characteristics Gemakshalve steekproef (sample of convenience)

Effecten van testleiderverwachtingen Proefpersoonrollen

File-drawer problem Proefpersoonselectie bias

Hoofdstuk 5: Selectie van de onderzoeksvraag en het onderzoeksdesign

Tot nu toe is er nog niet gesproken over een belangrijk onderdeel van onderzoek doen, namelijk het te bestuderen onderwerp. Hoe kom je van een idee tot een onderzoeksopzet? Dit hoofdstuk gaat over het beginnen van een studie en het specificeren van een idee. Verder zal er vooruitgeblikt worden naar verschillende ontwerp mogelijkheden.

Onderzoeksideeën

Het onderzoeksproces begint bij het hebben van een idee of een vraag. Een idee kan ontstaan uit verschillende bronnen (zie ook tabel 5.1 op blz. 112 en 113):

Nieuwsgierigheid aangaande een bepaald fenomeen. Nieuwsgierigheid geeft niet direct een verklaring voor het waarom van een bepaalde studie, maar het wordt hier genoemd om aan te geven dat niet alles onderzoeksideeën voortkomen uit complexe of hoogontwikkelde theoretische overwegingen.
Een case-study. Het nauw betrokken zijn bij een individuele casus levert unieke informatie op, doordat verschillende variabelen en hun interacties geobserveerd kunnen worden gedurende een langere periode. Het levert ook informatie op over de fundamenten van persoonlijkheid en gedrag. De case-study neemt een speciale rol in binnen de klinische psychologie en daarom is er een apart hoofdstuk aan gewijd (hoofdstuk 10).
Speciale populaties bestuderen. Deze bron van ideeën overlapt met een aantal andere bronnen die genoemd worden in tabel 5.1, namelijk met het bestuderen van uitzonderingen, subtypes en het uitbreiden van de externe validiteit. Vaak wordt gekeken hoe mensen met een bepaald kenmerk verschillen van mensen zonder dat kenmerk. Met het bestuderen van uitzonderingen wordt bedoeld dat de groep mensen onderzocht wordt die niet reageert als de meerderheid. Men kan denken aan mensen die een slechte jeugd hebben gehad, maar goed terecht zijn gekomen of het omgekeerde, mensen met stabiele kinderjaren die de vernieling ingaan door drugs en/of criminaliteit.
Uitbreiden en vertalen van bevindingen bij dieren naar mensen. Een bevinding binnen onderzoek met dieren, kan de vraag oproepen: “Zou dit bij mensen ook zo zijn?”.
Instrumentontwikkeling en -evaluatie. Om een fenomeen te kunnen bestuderen zijn er instrumenten nodig om het fenomeen in kaart te kunnen brengen. Het ontwikkelen en evalueren van meetinstrumenten is geëvolueerd tot een apart onderzoeksveld.
Het oplossen van een specifieke kwestie uit eerder onderzoek. Onderzoek borduurt vaak voort op eerder uitgevoerde studies. Het oplossen van een specifieke kwestie uit eerder onderzoek valt samen met een aantal andere bronnen van ideeën die genoemd worden in tabel 5.1, namelijk het verbreden van de focus (uitkomsten, afhankelijke variabelen) en hes uitbreiden van de externe validiteit (populaties en settings).

In tabel 5.1 worden nog enkele bronnen genoemd (de focus op moderators, mediators en theorie), die vanwege hun belangrijkheid een aparte plaats zullen krijgen in dit hoofdstuk.

Tabel 5.1 is niet uitputtend. Er zijn meer bronnen van inspiratie. De waarde van een idee wordt bepaald door de empirische en conceptuele opbrengst.

Niveaus van begrijpen en de focus van de studie

Kennis vergaren omtrent een fenomeen houdt in: te weten komen wat de karakteristieken zijn, met welke factoren het samenhangt, hoe het werk en hoe het bedwongen kan worden. Het doorlopen van de verschillende niveaus van begrip omtrent een fenomeen verloopt procesmatig van beschrijven tot verklaren.

Kernvragen en -concepten

Het stellen van vragen geeft aanleiding tot het doen van onderzoek. Er zijn verschillende soorten vragen. Bij iedere vraag hoort een concept (zie tabel 5.2 op blz. 117).

Bij de vraag: “Wat is de relatie tussen de variabelen?”, horen drie concepten. De eerste is de correlatie. Er is sprake van een correlatie als twee (of meer) variabelen op een bepaald moment in de tijd met elkaar samenhangen, waarbij er geen direct bewijs is dat één variabele anticipeert op de ander.

Het aantonen van een correlatie leidt tot een beter begrip van het fenomeen. Door bijvoorbeeld een correlatie te vinden tussen seizoen en gemoedstoestand, waarbij in de winter de meeste depressieve klachten en in de zomer de minste gerapporteerd worden, biedt dit mogelijkheden voor het stellen van verdere vragen (hoe komt dat dan?, zijn mensen zomers actiever?, heeft het te maken met zonlicht?).

Een concept dat het begrip van een fenomeen verder verdiept dan de correlatie is de risicofactor. Risicofactor is een misleidende term, omdat het lijkt samen te hangen met een negatieve uitkomst. Dit is niet zo. Een risicofactor is een karakteristiek dat een voorbode is voor en de kans op een bepaalde uitkomst (positief of negatief) vergroot. Een risicofactor kan gezien worden als een correlatie waarbij tijdigheid (volgorde) is aangetoond.

Een risicofactor toont uitsluitend de volgorde van de relatie tussen de variabelen aan, maar kan niet gezien worden als de oorzaak van de uitkomst. Roken is een risicofactor voor hart- en vaatziekten, maar veroorzaakt niet noodzakelijkerwijs deze ziekten. Oorzaak is een apart concept en houdt een hoge mate van begrip van het fenomeen in. Van een oorzaak kan gesproken worden wanneer één variabele direct of door middel van andere variabelen het ontstaan van de uitkomst beïnvloedt. Verandering in één variabele leidt aantoonbaar tot verandering in een andere variabele (de uitkomst). Het kan zijn dat een fenomeen meerdere oorzaken heeft. Roken is een oorzaak van longkanker, maar niet ‘de’ oorzaak. Er zijn ook gevallen van longkanker bekend bij niet-rokers.

Een andere vraag die gesteld kan worden is, welke factoren de relaties tussen variabelen beïnvloeden, dat is, die de richting of grootte van de relatie bepalen. Het concept dat bij deze vraag hoort is de moderator. Een moderator is een variabele die de relatie tussen twee variabelen beïnvloedt. De relatie tussen A en B verandert als een functie van een andere variabele (geslacht, leeftijd, etniciteit).

Een onderzoeksgebied dat op zoek gaat naar modererende variabelen is het bestuderen van subtypes of variaties van een fenomeen. Het identificeren van subtypes is belangrijk, omdat de gevolgen groot kunnen zijn. Als er meerdere subtypes van een probleem zijn kan kennis omtrent de subtypes bijdragen aan het voorkomen of behandelen van het probleem. De verschillende subtypes kunnen verschillende causale paden hebben en bieden de mogelijkheid om op die invloeden te interveniëren, die ook werkelijk verschil uit zullen maken.

Een nog hoger niveau van begrip wordt bereikt wanneer het werkzame mechanisme geïdentificeerd kan worden. Het kan zijn dat er oorzakelijkheid tussen twee variabelen is aangetoond, maar dat niet bekend is waardoor. De derde soort vraag die dan ook gesteld kan worden is: “Hoe werkt het fenomeen, dat is, door welke relatie of mechanisme of door welk proces leidt A tot B?” Bij deze vraag hoort het concept mediator.

Een mediator is een proces, mechanisme of middel waardoor een variabele een bepaalde uitkomst produceert. Behalve de wetenschap dat A tot B leidt, verschaft een mediërende variabele informatie over het mechanisme (psychologisch of biologisch) dat uitlegt hoe B kan ontstaan.

Wanneer het werkzame mechanisme bekend is, kan de vraag gesteld worden of er invloed uitgeoefend kan worden op de uitkomstvariable of dat de uitkomst veranderd kan worden. Het concept dat hierbij hoort is de interventie. Een interventie is iets dat gedaan kan worden om de kans op iets onaangenaams te verlagen (preventie) of een onwenselijke uitkomst te verminderen of laten verdwijnen (behandeling).

Bij het onderzoeken van een specifiek pad of richting van het probleem komen verschillende concepten samen. In dit geval is de onderzoeker geïnteresseerd in de rangorde, het ontvouwen, de fases of de volgorde van een gebeurtenis die samenhangen met een bepaald probleem of fenomeen. Bij een psychotherapeutische behandeling bijvoorbeeld verloopt gedragsverandering in fases. De ene vorm van verandering gaat vaak vooraf aan een andere. Dit verloopt niet altijd zo en onderzoek kan helpen bij het identificeren van personen en situaties waarop het fasemodel van toepassing is (moderator), de redenen of theoretische basis voor het beweging binnen de fases (mediators) en factoren die vooruitgang binnen een bepaalde fase bevorderen (interventie).

Voorbeelden

Inadequate opvoedingstechnieken van ouders blijken samen te hangen met agressief en antisociaal gedrag van kinderen. Hierbij is alleen nog maar een correlatie aangetoond. Welke van de twee voorafgaat aan de ander is onbekend. Het kan zijn dat inadequaat opvoeden tot agressie leidt, maar het kan ook zijn dat asociaal gedrag van een kind de opvoeding op een negatieve manier beïnvloedt.

Na het doen van cross-sectioneel en longitudinaal onderzoek kon geconcludeerd worden dat inadequaat opvoeden een risicofactor is voor het vertonen van agressief gedrag. De volgende stap was het proberen te interveniëren in de relatie door een groep ouders een opvoedcursus te geven, een andere groep een behandeling te geven zonder op opvoeding in te gaan en een controlegroep. Een opvoedcursus bleek het antisociale gedrag van een kind te verminderen, waarmee de causale relatie tussen de variabelen opvoeding en agressief gedrag aangetoond is. Dit wil niet zeggen dat opvoeding de enige oorzaak is van agressief gedrag bij kinderen, of zelfs noodzakelijk of voldoende is.

Een voorbeeld voor het tonen van het belang van het identificeren van een mediërende factor komt uit onderzoek naar HIV en AIDS. In de allereerste onderzoeken werden verschillende factoren gevonden die samenhingen met het oplopen van het HIV virus. Eén van die factoren was intraveneus drugsgebruik. Een vroege hypothese over de mediërende factor, het waarom achter de correlatie, was dat zwaar drugsgebruik iemands immuunsysteem aantast wat leidt tot een hogere vatbaarheid voor het virus. Tegenwoordig weten we dat de mediërende factor het onderling delen van naalden is. Dat is het mechanisme achter de directe besmetting.

Theorie als een gids

Bij het verdiepen van de kennis omtrent een fenomeen gaat een onderzoek niet lukraak op zoek naar variabelen die met een bepaald fenomeen zouden kunnen samenhangen om te kijken wat voor rol die variabelen spelen. Onderliggend aan de concepten die onderzoek leiden, vindt men de theorie van de onderzoeker die het onderzoeksidee richting geeft.

Definitie en bereik

Breed gedefinieerd, refereert theorie aan een conceptualisatie van het te bestuderen fenomeen. De conceptualisatie kan inzichten over de aard, voorgangers, oorzaken, correlaties en consequenties van een bepaalde eigenschap beslaan.

Aanverwante termen worden vaak als synoniem gebruikt voor theorie, zoals benadering, conceptueel oogpunt of model, theoretisch raamwerk en werkmodel. Toch dekken een aantal de lading niet. Bij een benadering wordt er veel meer gedacht aan een globaal overzicht met globale concepten. De termen conceptueel oogpunt en model zijn de scherpere variant van de benadering, maar de termen impliceren nog steeds een brede oriënterende blik.

De focus van een onderzoek kan breed of smal zijn. Is de onderzoeker alleen geïnteresseerd in het uitdiepen van een correlatie binnen een bepaald veld (biologie, psychologie, sociologie) of wil de onderzoeker het samenspel van verschillende factoren (biologisch, psychologisch en sociaal) binnen een uitgebreider model onderzoeken?

Los van het bereik van de theorie, kan de focus variëren. Een onderzoeker kan bijvoorbeeld geïnteresseerd zijn in de ontstaanswijze van een fenomeen, de factoren die het fenomeen in stand houden of de factoren die invloed kunnen uitoefenen op het fenomeen.

Waarom is theorie nodig?

Onderzoek doen bestaat niet uit het willekeurig verzamelen van feiten. De wens is om verschillende bevindingen aan elkaar te relateren op een samenhangende manier. De theorie verschaft die cohesie en fungeert als leidraad voor verder onderzoek.

Voordelen van het hebben van een theorie:

Theorie kan orde brengen binnen een onderzoeksgebied waar de bevindingen diffuus of veelvoudig zijn.
Theorie kan de basis voor verandering verklaren en verschillende uitkomsten met elkaar verenigen.
Theorie richt de aandacht op het identificeren van relevante moderators. Zoals eerder vermeld zijn onderzoekers niet geïnteresseerd in het simpelweg catalogiseren van elke moderator of alleen het standaardrijtje van geslacht, leeftijd, culturele achtergrond en sociaal economische klasse. De theorie leidt een onderzoeker in die zoektocht.
Een doel van onderzoek doen is het vergroten en toepassen van kennis in de wereld buiten het laboratorium. Om kennis te kunnen toepassen is begrip van het mechanisme noodzakelijk. De theorie helpt bij het identificeren van kritieke factoren die een verandering tot stand brengen.

Het genereren van versus het testen van hypotheses

Uit het voorafgaande is het belang van het hebben van een theorie naar voren gekomen, maar hoe komt men tot een theorie? Een manier is het doen van kwalitatief onderzoek. Bij kwalitatief onderzoek worden over het algemeen een groot aantal interviews afgenomen bij mensen die in aanraking zijn geweest met een bepaald fenomeen of die een bepaald kenmerk gemeen hebben. Op deze manier kan men op systematische wijze ideeën over de kerndimensies van een fenomeen vergaren en daarmee richting geven aan wat er bestudeerd zal moeten worden. Bij kwalitatief onderzoek wordt er gesproken van ‘onderlegde theorie’ om aan te geven dat hypotheses ontstaan vanuit intensieve observatie van een fenomeen, dat wil zeggen dat de theorie voortkomt uit en zijn basis vindt in observaties. Over het algemeen staat het doen van puur beschrijvend onderzoek zonder onderliggende theorie niet hoog aangeschreven. Toch heeft beschrijvend onderzoek zijn waarde bij het genereren van hypotheses.

Verschillende situaties zijn mogelijk. Het testen van een hypothese gebeurt vanuit een theorie, maar het kan zijn dat na het testen de uitkomst aanleiding geeft tot het herzien van of de behoefte aan uitbreiding van de theorie. Wat ook kan is dat men aan het begin van een studie begint met een voorzichtige beschrijving, maar eindigt met een model of conceptueel oogpunt dat verder getest kan worden.

Van denken naar doen

Operationele definities

Bij het onderzoeken van een idee is de eerste stap het concretiseren of operationaliseren van de abstracte constructen. Operationele definities verwijzen naar het definiëren van een construct in termen van de specifieke handeling die gebruikt wordt in een experiment. Bijvoorbeeld wanneer men een angstige groep met een niet-angstige groep wil vergelijken, zou een mogelijke operationele definitie voor angst een score binnen of boven het 75e percentiel op een gestandaardiseerde angstvragenlijst zijn.

Aan het gebruik van operationalisaties zitten beperkingen. Het kan zijn dat een operationalisatie niet het volledige fenomeen behelst. Het meten van hoe vaak iemand met zijn partner knuffelt of andere overte uitingen van liefde vertoont levert geen totale definitie van het begrip liefde op.

Een andere beperking is dat de operationele definitie kenmerken bevat die irrelevant zijn voor het originele concept. Door bijvoorbeeld angst te operationaliseren door personen te includeren die zich voor behandeling aanmelden voor angstklachten, sluipen andere componenten het onderzoek binnen. Het aanmelden voor behandeling hangt met verschillende factoren naast angst samen.

Een derde beperking heeft te maken met het gebruik van een enkelvoudige maat om een construct te beschrijven. Hieraan wordt gerefereerd als enkelvoudig operationisme (single operationism). Ieder meetinstrument heeft zijn beperkingen en het vertrouwen op één maat bij een operationalisatie is feilbaar, omdat de uitingen van een proefpersoon gedetermineerd worden door meer factoren dan het te meten construct.

Meerdere operationalisaties om een construct te representeren

Aan de andere kant van single operationism vinden we meervoudig operationisme (multiple operationism). Gecombineerde metingen van een fenomeen levert een duidelijker beeld op van een concept. Onderzoekers kijken naar consistentie tussen de verschillende maten. Ook wanneer verschillende meetinstrumenten een inconsistent beeld laten zien is dit interessant.

Van een latente variabele wordt gesproken wanneer een idee van een construct gerepresenteerd wordt door verschillende metingen. Naar specifieke maten wordt gerefereerd als geobserveerde variabelen en representeren het construct. Correlationele analyses kunnen de samenhang tussen geobserveerde variabelen en de mate waarin zij met een latente variabele samenhangen representeren. Doordat de latente variabele gedefinieerd wordt door verschillende maten is er geen sprake van confounding met de meetfout van een individueel instrument.

In het algemeen wordt het gebruik van meerdere maten aangemoedigd, omdat eenzelfde uitkomst op verschillende maten meer vertrouwen geeft in de demonstratie en de interpretatie. De voordelen van meerdere maten lossen de problemen op die zich voordoen bij een nauwe stimulus steekproef. Een uitzondering kan gemaakt worden bij goed onderzochte en gestandaardiseerde meetinstrumenten, waarvan bekend is hoe ze zich verhouden tot andere maten, zoals bijvoorbeeld de Minnesota Multiphasic Personality Inventory-2 of de Wechsler Adult Intelligence Scale.

Vuistregel: het is beter om weinig constructen met meerdere maten te meten, dan om veel constructen met minder maten te meten.

Discrepanties tussen definities

Het komt zeker niet altijd voor dat meerdere maten een consistent beeld opleveren. Bijvoorbeeld wanneer er verschillende beoordelaars zijn (ouders, kinderen, leerkrachten). Wanneer een diffuus beeld optreedt, dan wil men weten waardoor dat komt en het kan zijn dat de verschillen samenhangen met de variatie in maten.

Algemene opmerkingen

Onderzoek doen begint met een abstract idee aangaande een concept. Vervolgens wordt een concept geoperationaliseerd door middel van één of meer procedures of maten. De constructen die de on- en afhankelijke variabelen vormen worden vertaald naar specifieke meetmethodes. Het experiment toont een relatie tussen de on- en afhankelijke variabele, die vervolgens geconcretiseerd wordt. Na het experiment wil de onderzoeker graag conclusies trekken die verder gaan dan de specifieke operationalisatie, en keert terug naar de abstracte wereld van concepten.

Te onderzoeken variabelen

Types van variabelen

De onafhankelijke variabele van een studie refereert aan de condities die gevarieerd of gemanipuleerd worden om verandering tot stand te brengen. Er zijn drie types van onafhankelijke variabelen: omgevings- of situationele variabelen, instructionele variabelen en proefpersoon variabelen.

Omgevings- of situationele variabelen

Veel variabelen bestaan uit het toebrengen van veranderingen in de omgevings- of situationele condities van een experiment. Een omgevingsvariabele bestaat uit variaties in wat er gedaan wordt door of met een proefpersoon (wel of geen behandeling). Een alternatief is het variëren in blootstelling aan een variabele (meer versus minder en geen behandeling). Ten slotte kan de omgevingsvariabele bestaan uit condities die kwalitatief van elkaar verschillen (de ene vorm van feedback ten opzichte van een andere).

Instructionele variabelen

Instructionele variabelen zijn een specifiek type van omgevingsvariabelen die refereren aan variaties waarin de proefpersonen geïnformeerd worden over deelname aan een experiment. In de meest simpele situatie waarin instructionele variabelen gemanipuleerd worden, worden andere omgevingsvariabelen constant gehouden. Instructionele variabelen zijn gericht op het veranderen van de percepties, verwachtingen of evaluaties van een deelnemer aangaande de situatie.

Proefpersoon- of individueel verschillende variabelen

Proefpersoonvariabelen refereren aan eigenschappen of kenmerken van individuele proefpersonen. De term organismische variabelen (organismic variables) wordt ook wel eens gebruikt. Binnen de psychologie vallen karakteristieken waaraan een proefpersoon blootgesteld kan worden (leefomstandigheden, omgevingscontext, sociaal economische status) ook onder deze variabelen.

Proefpersoonvariabelen worden meestal niet direct gemanipuleerd. Vaak worden personen geselecteerd die variëren op bepaalde karakteristieken.

Proefpersoonvariabelen hoeven niet uitsluitend aan proefpersonen gekoppeld te zijn. Een onderzoeker kan ook geïnteresseerd zijn in karakteristieken van therapeuten, testleiders of interviewers. In die gevallen spreekt men ook van proefpersoonvariabelen.

Het onderzoeken van meerdere variabelen

Het apart beschrijven van de verschillende soorten variabelen wil niet zeggen dat bij een studie maar een enkel type onderzocht wordt. Meerder variabelen van hetzelfde type of van verschillende types kunnen onderzocht worden binnen een enkel experiment en daarmee ook meerdere vragen beantwoorden.

In het algemeen kan gesteld worden dat een studie die een enkele variabele of een enkele casus manipuleert zich richt op een rudimentaire vraag. Dit wil niet zeggen dat de vraag triviaal is. De waarde wordt bepaald door de samenhang van de vraag met de bestaande literatuur, theorie, praktijk en andere overwegingen. Echter het combineren van variabelen verhoogt de complexiteit van de vraag en daarmee vaak het begripsniveau.

Mogelijkheden voor onderzoeksontwerpen

De eerste fase van onderzoek doen karakteriseert zich door het ontwikkelen van een idee, de operationalisaties en de selectie van variabelen. De manier waarop het idee geëvalueerd wordt en de omstandigheden waaronder het fenomeen bestudeerd wordt, heeft gevolgen voor de validiteit van een studie. Het kiezen van een onderzoeksopzet is dan ook een gewichtig proces en het beschrijven ervan zal verschillende hoofdstukken in beslag nemen. Hier wordt volstaan met het geven van een overzicht van de verschillende onderzoeksontwerpen.

De term zuiver experiment refereert aan studies met een interventie of experimentele manipulatie en random toewijzing van proefpersonen aan condities. In de context van interventie- (behandel)onderzoek, wordt er gesproken van een randomized controlled clinical trial (RCT of randomized controlled trial). RCTs worden onder andere gebruikt binnen de psychologie, epidemiologie en geneeskunde. Binnen de psychologie wordt aan een RCT vaak gerefereerd als een behandeluitkomststudie (treatment outcome study).

Quasi-experimenten refereren aan experimenten waarbij het niet mogelijk is om een facet van de studie te randomiseren. Een quasi-experiment benadert een echt experiment. Ondanks het gebrek aan randomisatie en de mogelijkheid die dat biedt voor andere, irrelevante componenten om de studie binnen te sluipen, kan een quasi-experimenteel design wel degelijk een sterke basis bieden voor het trekken van conclusies. Er zijn namelijk genoeg ontwerpmogelijkheden en methodes voor handen om bedreigingen voor de validiteit te beheersen.

Zuivere en quasi-experimentele experimenten refereren uitsluitend aan studies waarbij een onafhankelijke variabele gemanipuleerd wordt door een onderzoeker. Een groot deel van klinisch onderzoek richt zich op variabelen die de ‘natuur’ heeft gemanipuleerd. Bij case-control designs wordt de te bestuderen variabele onderzocht door proefpersonen te selecteren die variëren op een bepaald karakteristiek (cases) en die te vergelijken met personen die het karakteristiek niet hebben (controles). Een case-control study kan veel duidelijkheid omtrent een fenomeen verschaffen en zal verderop uitgebreid besproken worden.

Ontwerp strategieën

Bij groepsontwerpen (group designs) worden verscheidene proefpersonen bestudeerd. Vaak worden de proefpersonen in verschillende groepen ingedeeld en met elkaar vergeleken. Deze ontwerpvorm wordt om die reden ook wel tussen groepen onderzoek (between-group research) genoemd.

Enkelvoudige casus experimentele designs (single-case experimental designs) worden gekarakteriseerd door het bestuderen van een enkel individu, een paar individuen of een enkele groep. De onderliggende gedachte van single-case designs is hetzelfde als voor groupdesigns, namelijk om de omstandigheden zo in te richten dat er valide conclusies getrokken kunnen worden aangaande de onafhankelijke variabele. Dit wordt bij een single-case experimental design alleen anders gedaan. Een proefpersoon wordt vaak voor een bepaalde tijd bestudeerd, waarbij herhaaldelijk afhankelijke metingen gedaan worden. De implementatie van de onafhankelijke variabele wordt onderzocht in relatie met het datapatroon over de tijd. SIngle-case designs kunnen een rol spelen bij klinisch onderzoek, waarbij men geïnteresseerd is in het bestuderen van een bepaalde koers. Net als bij groepsdesigns zijn er verschillende soorten single-case designs. Ieder met zijn eigen set van voorwaardes, voordelen en struikelblokken.

De condities van experimentatie

De condities waaronder onderzoek plaatsvindt kunnen zeer gevarieerd zijn. Hier worden drie gebieden beschreven waarbij enkele kernverschillen van condities geïllustreerd worden (zie tabel 5.3 op blz. 140). De verschillen staan beschreven in termen van de één versus de ander. Zo zwart wit is het niet. Ze kunnen beter gezien worden als de polen van een continuüm.

Laboratorium versus toegepast onderzoek. Bij laboratoriumonderzoek kan de onderzoeker de omgeving volledig beheersen. Hierbij kan afgeweken worden van de omstandigheden van het dagelijks leven. Vaak gaat het om het beantwoorden van procesmatige vragen. Bij toegepast onderzoek ligt de focus op settings binnen de realiteit met als doel te laten zien wat mogelijk is binnen de werkelijke omstandigheden of met een directe klinische relevantie.

Analogisch versus klinisch onderzoek. De focus bij analogisch onderzoek ligt bij het beantwoorden van een nauwkeurig geformuleerde vraag onder goed beheersbare omstandigheden. Het doel is om een bepaald proces zichtbaar te krijgen. Het proces zoals het bestudeerd wordt in het laboratorium toont grote gelijkenis met een fenomeen dat in het dagelijks leven moeilijk te isoleren is. Klinisch onderzoek vindt in de praktijk plaats.

Doelmatigheid (efficacy) versus doeltreffendheid (effectiveness). Doelmatigheidsonderzoek refereert aan treatment outcome studies die onder laboratorium en quasi-laboratorium omstandigheden uitgevoerd worden. Doeltreffendheidsonderzoek vindt plaats binnen de klinische praktijk waar geen stringente condities nageleefd kunnen worden.

Doelmatigheid en doeltreffendheid kunnen gezien worden als de polen een continuüm, of zelfs meerdere continua, omdat verschillende dimensies kunnen variëren binnen klinische en laboratoriumsettings die effect hebben op de generaliseerbaarheid. Tabel 5.4 op bladzijde 143 noemt een aantal dimensies waarop studies kunnen verschillen en beschrijft de mate van gelijkenis met de klinische praktijk. Wanneer het grootste gedeelte van de dimensies aan de rechterkant uitkomt spreekt men van een efficacy study en wanneer het grootste gedeelte links valt van een effectiveness study.

Externe validiteit is niet het enige construct waar rekening mee gehouden moet worden bij het kiezen voor een experimentele conditie. In sommige gevallen is generaliseerbaarheid helemaal niet het doel, omdat men puur geïnteresseerd is in bijvoorbeeld het proces. Er bestaat pas een probleem wanneer het soort onderzoek niet past bij het doel of de focus.

Tijdsschema van onderzoek

De looptijd van een onderzoek kan lang of kort zijn. Sommige onderzoeken kunnen uitgevoerd worden in twee sessie, sommige studies volgen proefpersonen jarenlang. Er wordt vaak onderscheid gemaakt russen cross-sectioneel onderzoek en longitudinaal, waarbij cross-sectioneel onderzoek vaak een vergelijking maakt tussen groepen op een bepaald moment in de tijd en longitudinaal onderzoek groepen vergelijkt over een langere tijd. De resultaten van de twee kunnen aanzienlijk van elkaar verschillen.

De grootste beperking van een cross-sectionele studie is de kans dat er een cohorteffect optreedt. Tweejarigen kunnen verschillen van achtjarigen op dit moment in de tijd, omdat zij mogelijk onder verschillende omstandigheden zijn opgegroeid. Bij een longitudinaal onderzoek is de kans op een cohorteffect veel kleiner, omdat alle tweejarigen op achtjarige leeftijd onder dezelfde omstandigheden zijn opgegroeid.

Bij een longitudinaal onderzoek kan een cohorteffect optreden wanneer de instroom van proefpersonen doorloopt. De tweejarigen die nu binnenstromen kunnen verschillen van de tweejarigen die vijf jaar geleden instroomden.

Combinaties van de twee designs zijn ook denkbaar. Men kan ervoor kiezen om verschillende leeftijdsgroepen herhaaldelijk cross-sectioneel te testen.

Samenvatting en conclusies

Een idee voor een onderzoek kan aan verschillende bronnen ontspringen, zoals nieuwsgierigheid, case-studies, interesse in bepaalde populaties, extrapolatie van bevindingen uit eerder onderzoek, instrumentontwikkeling, etc.

Bij het kijken naar samenhang tussen variabelen spelen concepten als correlaties, risicofactoren, oorzaken, moderators en mediators een rol. Hypotheses omtrent de samenhang tussen variabelen moeten zoveel mogelijk door theorie gestuurd worden.

Niet al het onderzoek dat gedaan wordt, is theoriegestuurd. Beschrijvend of explorerend onderzoek heeft zijn waarde bij het genereren van hypotheses omtrent een fenomeen dat nog niet of nauwelijks bekend is.

De on- en afhankelijke variabele moeten vervolgens geoperationaliseerd worden, dat is gedefinieerd worden in concrete maten. Karakteristieken, sterktes en zwaktes van operationalisaties zijn besproken.

Bij klinisch onderzoek draait het vaak om omgevings-, instructionele en proefpersoonvariabelen. Dezen zijn afzonderlijk beschreven.

Verschillende onderzoeksontwerpen zijn voorhanden om de variabelen te bestuderen. Zuivere, quasi-experimentele experimenten en case-control studies zijn belicht. RCT is een veel gebezigde term en refereert aan een zuiver experiment binnen behandeluitkomstonderzoek.

De verschillende condities waaronder onderzoek kan worden uitgevoerd zijn beschreven. Voorbeelden zijn laboratorium versus toegepast onderzoek, analogisch versus klinisch en doelmatigheid versus doeltreffendheid. Deze distincties verwijzen naar de mate van beheersbaarheid van de omstandigheden

Ook het tijdsschema kan tussen onderzoeken verschillen. Cross-sectioneel en longitudinaal onderzoek zijn hier voorbeelden van. In de volgende hoofdstukken zullen de verschillende designs die mogelijk zijn bij klinisch onderzoek in meer detail besproken worden.

Kernconcepten en -termen

Mediator Randomized controlled clinical trial

Moderator Risicofactor

Operationele definities Zuiver experiment

Quasi-experimenteel

Hoofdstuk 6: Experimenteel onderzoek: groepsontwerpen

Het meest gangbare onderzoeksdesign binnen de psychologie vergelijkt groepen proefpersonen met elkaar, die blootgesteld worden aan verschillende condities, die beheerst worden door de onderzoeker. Een fundamentele kwestie bij groepsontwerpen is de selectie van proefpersonen.

Random selectie

Randomisatie komt op twee manieren voor binnen onderzoek, namelijk random selecteren van proefpersonen en random toewijzing aan experimentele condities.

Random selectie van proefpersonen refereert aan de gelijke kans die personen binnen een populatie hebben om geselecteerd te worden voor de studie. Er is geen bias in wie er geselecteerd wordt vanuit de totale populatie. Random selectie vergroot de generaliseerbaarheid van de bevindingen.

Het is belangrijk om te beschrijven wie binnen de totale populatie vallen. De populatie eerstejaars psychologiestudenten beslaat alle eerstejaars psychologiestudenten in binnen- en buitenland. De populatie eerstejaars psychologiestudenten van deze universiteit is veel nauwer gedefinieerd.

Wie zal er als proefpersoon dienen en waarom?

Diversiteit van de steekproef

Wanneer de proefpersoonselectie niet random is, moet er veel meer nagedacht worden over wie er geselecteerd wordt en waarom. In de Verenigde Staten wordt bij psychologisch en biologisch onderzoek veelal gebruik gemaakt van Europees-Amerikaanse mannen. Een andere groep die vaak gebruikt wordt bij onderzoeken is studenten. Het gebruik van nauwe steekproeven geeft problemen bij de generaliseerbaarheid naar bijvoorbeeld het andere geslacht, naar personen met een andere etniciteit en sociaal-economische status. Deze drie categorieën van proefpersoonvariabelen blijken als moderators (confounders) van allerlei te bestuderen relaties op te kunnen treden.

Bij sommige onderzoeksvragen is het prima om een beperkte steekproef te selecteren. Onderzoek naar postnatale depressie bijvoorbeeld, richt zich op een hele specifieke populatie, namelijk vrouwen die dat probleem ervaren. Op een andere manier hoeft de samenstelling van de steekproef geen rol te spelen. Dit is het geval bij theoretisch onderzoek. Pavlov’s onderzoek naar klassieke conditionering kan hierbij als voorbeeld dienen. In een derde geval kan generaliseerbaarheid wel degelijk interessant zijn, maar bemoeilijkt de statistische conclusie validiteit het includeren van minderheden. Wanneer een steekproef voor 90% opgebouwd is uit twee etnische groepen en de overige 10% uit vijf, dan geven deze lage aantallen te weinig power en zal die 10% uit de analyses verwijderd moeten worden.

Gemakshalve steekproeven (samples of convenience)

Samples of convenience worden samengesteld uit personen die op moment beschikbaar zijn (mensen in de wachtkamer, de proefpersonen die deelnemen aan een ander onderzoek op de afdeling). Het probleem met dit soort steekproeven is dat de rationale achter de selectie ontbreekt.

Bij een andere vorm van selectie is de term sample of convenience ook van toepassing. Dit is wanneer een onderzoek binnen een specifieke populatie wordt uitgevoerd (ouders van kinderen met diabetes, patiënten met een bepaalde psychiatrische stoornis) en de onderzoekers zich gaandeweg realiseren dat de data ook gebruikt kunnen worden bij het testen van andere hypotheses. Het kan zijn dat de selectie van de steekproef anders uitgevallen zou zijn wanneer men de aanvullende hypothese al bij het begin van de studie in ogenschouw had genomen.

Proefpersoontoewijzing en groepsformatie

Na het selecteren van de proefpersonen worden dezen ingedeeld in verschillende groepen. Het is belangrijk om ervoor te zorgen dat de proefpersonen van verschillende groepen niet al vooraf aan het experiment van elkaar verschillen op variabelen die niet relevant zijn voor het te bestuderen fenomeen. Anders gezegd, proefpersoonkarakteristieken moeten gelijk verdeeld zijn over de groepen en de groepen mogen alleen verschillen laten zien op de onafhankelijke variabele.

Random toewijzing

Een manier om proefpersonen zonder kleuring (unbiased) toe te wijzen aan groepen is door ze random (willekeurig) toe te wijzen. Dit wordt meestal gedaan door gebruik te maken van tabellen met willekeurige cijfers (table of random numbers). Deze tabellen zijn beschikbaar in statistiekboeken en op websites.

Op deze manier bestaat wel de kans dat er meer proefpersonen in de ene dan in de andere groep terechtkomen. Bij het analyseren van de data door middel van statistische tests is het wenselijker dat de groepen qua grootte gelijk zijn. Dit kan bereikt worden door proefpersonen in blokken in te delen. In een blok zitten evenveel proefpersonen als er groepen zijn. Bijvoorbeeld: een experiment heeft drie condities. De eerste drie proefpersonen vormen een blok. Binnen dit blok worden proefpersoon 1,2, en 3 random toegewezen aan de groepen.

Het belang van random toewijzing is eerder gebaseerd op logica (a priori, zonder onderzoek) dan dat er bewezen is dat het een experiment sterker maakt en de effectgroottes groter. Random toewijzing vindt vooral plaats omdat het het interpreteren van de bevindingen en het trekken van conclusies vergemakkelijkt.

Groepsequivalentie

Blokrandomisatie mag dan groepen opleveren die even groot zijn, maar het hoeft geen groepen op te leveren die gelijk zijn op andere variabelen. Randomisatie is een methode en zegt niets over de uitkomst. Verscheidene proefpersoonkarakteristieken kunnen, mits er niet voor wordt gecontroleerd, interfereren met de interpretatie van groepsverschillen. Bij sommige onderzoeken zijn die karakteristieken het onderwerp van de studie, bij andere onderzoeken worden ze beschouwd als hinderlijke (nuisance) variabelen, die de interpretatie bemoeilijken.

Bij random toewijzing neemt de kans op equivalente groepen toe volgens een functie van steekproefgrootte. Dit wil zeggen dat bij een klein aantal proefpersonen groepsequivalentie niet aangenomen kan worden.

Onderzoekers testen vaak achteraf of de groepen verschilden op een aantal karakteristieken (t of F test). Wanneer er geen verschil is wordt er vaak aangenomen dat de groepen equivalent waren. Wanneer er sprake is van een kleine steekproef kan men vraagtekens zetten bij gerapporteerde niet-significante verschillen tussen groepen. Wanneer de steekproef namelijk klein is, is er weinig power om eventueel bestaande verschillen op te merken. Speciaal in het geval van kleine steekproeven kan randomisatie weinig garantie voor groepsequivalentie geven.

Matching

Van sommige karakteristieken is bekend dat ze samenhangen met uitingen op de afhankelijke variabele. Bij die variabele wil een onderzoeker ervan verzekerd zijn dat deze gelijk verdeeld is over de groepen. Matching kan dan een methode zijn. Matching refereert aan het groeperen van proefpersonen op basis van een overeenkomst in karakteristieken. Anders gezegd, het aantal mensen met dat bepaalde karakteristiek moet gelijk verdeeld zijn over de groepen.

Matching kan gedaan worden door vooraf aan het experiment mensen te meten op een bepaalde karakteristiek. Er wordt dan gezocht naar identieke paren. Bij een identiek paar (of trio of meer), worden de proefpersonen random toegewezen aan een conditie. Dit is een bewerkelijke methode en veel mensen moeten onderzocht worden om de groepen vol te krijgen.

Een meer gebruikte methode is het rangordenen van alle proefpersonen van bijvoorbeeld lage naar hoge scores op een bepaald karakteristiek. In feite wordt hier hetzelfde gedaan als bij blokrandomisatie. Van elke rank wordt een gelijk aantal personen geselecteerd als dat er groepen zijn. Die personen worden dan random toegewezen aan de groepen.

Bij categorische variabelen als bijvoorbeeld geslacht of etniciteit, kunnen aparte lijsten voor bijvoorbeeld mannen en vrouwen gebruikt worden. Mannen worden random toegewezen en vrouwen worden random toegewezen. Er kan dan wel een verschil zitten tussen het aantal mannen en vrouwen binnen één groep, maar dat verschil is gelijk tussen de groepen.

Matching vindt alleen plaats bij variabelen waarvan met weet of kan aannemen dat ze zullen samenhangen met de uiting op de afhankelijke variabele.

Mismatching

Matching wordt ook wel eens gebruikt in plaats van randomisatie. Dit is geen aan te bevelen methode, omdat er regressie naar het gemiddelde op kan treden. Wanneer er bijvoorbeeld in twee klinieken in twee verschillende steden onderzoek gedaan wordt is randomisatie niet mogelijk. Vooraf kan de ernst van de klachten gemeten worden en identieke paren geïdentificeerd worden. Alleen identieke paren worden geïncludeerd. Het probleem is dat een hoge score op de ene dag, geen hoge score op de andere dag in hoeft te houden, waardoor er rekening gehouden moet worden met een meetfout en regressie naar het gemiddelde plaats kan vinden. De vraag is alleen naar welk gemiddelde. Het kan zijn dat het ware gemiddelde vooraf verschilde tussen de verschillende steden. Proefpersonen uit de ene groep vertonen dan regressie naar een ander gemiddelde dan personen uit de andere groep (figuur 6.1 op blz. 160 laat dit zien).

Er moet een verschil gemaakt worden tussen situaties waarin regressie naar het gemiddelde zich kan voordoen. In het voorbeeld van daarnet is er sprake van differentiële regressie (of selectie x regressie), omdat de groepen regressie vertonen naar verschillende gemiddelden. Een andere situatie is wanneer extreme scores geselecteerd worden voor deelname. Bij extreme scores is het te verwachten dat die op een later moment meer naar het gemiddelde zullen trekken en is het onduidelijk of dit komt door de interventie. Deze situatie kan ondervangen worden door een controlegroep (geen interventie) toe te voegen.

Geselecteerde groepsdesigns

In het volgende gedeelte zullen een aantal experimentele designs besproken worden die gebruikt kunnen worden bij het onderzoeken van verschillen tussen groepen. Hierbij zullen een aantal symbolen gebruikt worden. R staat voor random toewijzing, O voor observatie of meting en X voor de experimentele manipulatie of behandeling. De symbolen worden temporeel gebruikt, wat wil zeggen dat een notering van O1 X O2 betekent dat de eerste observatie of pretest (O1) gevolgd werd door een interventie (X), die gevolg werd door een tweede observatie of posttest (O2).

Pretest-posttest controlegroep design

Een pretest-posttest design bestaat uit minimaal twee groepen. De experimentele groep die de interventie krijgt en de controlegroep die de interventie niet krijgt. Het essentiële onderdeel van dit design is dat de proefpersonen voor en na de interventie gemeten worden. De mate van verandering wordt dus gemeten in het verschil tussen de voor- en nameting. Bij dit design worden proefpersonen random toegewezen aan de groepen voor of na de voormeting.

R O1 X O2

R O3 O4

Dit design wordt veel gebruikt, omdat het niet alleen laat zien dat er verandering plaatsvindt, maar ook hoe groot die verandering is.

Overwegingen bij het gebruik van dit design

Dit design heeft verschillende sterktes. Als eerste controleert het voor de gebruikelijke bedreigingen voor de interne validiteit. Als de tijd tussen voor- en nameting hetzelfde is bij de groepen worden bedreigingen als geschiedenis, rijping, herhaaldelijk testen en instrumentatie minder aannemelijk. Verder verkleint randomisatie de kans op groepsverschillen ten gevolge van selectie bias of regressie naar het gemiddelde. Uitval is geen inherent probleem van dit design, maar speelt altijd een rol bij onderzoek.

Het gebruik van een voormeting heeft verschillende voordelen (tabel 6.1 op blz. 163).

Geeft de onderzoeker de mogelijkheid om proefpersonen te matchen op de bij de voormeting te bestuderen variabelen, die de resultaten kunnen beïnvloeden.
Maakt evaluatie mogelijk van de gematchte variabele binnen de resultaten (als een aparte factor in een variantie-analyse of regressie-analyse).
Verhoogt de statistische power.
Stelt de onderzoeker in staat om te bekijken wie er veranderde en welke proportie van individuen op een bepaalde manier veranderde (klinisch significant).
Biedt de mogelijkheid om uitval te bestuderen. Wat waren de karakteristieken van degenen die uitvielen en de posttest niet meemaakten?

Dit design heeft ook een zwakke kant, die te maken heeft met het afnemen van een voormeting. In het design wordt er gecontroleerd voor een directe invloed van herhaaldelijk testen. Waar niet voor gecontroleerd wordt is de mogelijkheid dat er een interactie-effect van herhaaldelijk testen en behandeling plaatsvindt, oftewel een pretest sensitisatie effect. Juist door het afnemen van een voormeting kan de proefpersoon gevoelig zijn gemaakt voor verandering. Een pretest sensitisatie effect houdt in dat de resultaten alleen gegeneraliseerd kunnen worden naar mensen die een voormeting ondergaan hebben.

Alleen posttest controlegroep design

De posttest-only design bestaat uit minimaal twee groepen en is in essentie hetzelfde als het vorige design, maar dan zonder de pretest.

R X O1

R O2

De afwezigheid van een pretest zorgt ervoor dat dit design niet erg populair is bij klinisch onderzoek. Hiervoor zijn in ieder geval twee redenen te noemen. Ten eerste is het bij klinisch onderzoek vaak essentieel om te weten wat het niveau van functioneren was vooraf aan de interventie. Een tweede nadeel is dat zonder een voormeting de kans er is dat de verschillen tussen de groepen na de interventie het resultaat zijn van verschillen tussen de groepen vooraf aan de interventie.

Overwegingen bij het gebruik van dit design

Dit design controleert voor de verschillende bedreigingen voor de interne validiteit op dezelfde manier als het vorige design. Pretest sensitisatie kan niet optreden.

Een voormeting is niet altijd nodig of gewenst. Bij korte laboratoriumstudies is een onderzoeker niet geïnteresseerd in het aanvankelijke functioneringsniveau van een proefpersoon. Het kan ook zo zijn dat een groot aantal proefpersonen beschikbaar zijn. De combinatie van een grote steekproef en randomisatie zorgt ervoor dat de kans op groepsequivalentie groot is.

Het doen van een voormeting is ook niet altijd financieel mogelijk. Een aantal test zijn bewerkelijk om af te nemen, te scoren en te interpreteren. Ethische overwegingen kunnen ook een rol spelen bij het weglaten van een voormeting. Dit is bijvoorbeeld het geval bij een stressvolle of invasieve meting (bloed afnemen, persoonlijke vragen stellen).

De zwakke kant van dit design zit vooral in de afwezigheid van een pretest. Alle voordelen van de pretest die genoemd zijn in tabel 6.1, vallen weg. In het algemeen kan gesteld worden dat een pretest-posttest design te prefereren is boven alleen een posttest design.

Solomon vier-groepen design

Het doel van het Solomon vier-groepen design is het evalueren van het effect van voormeten op de behaalde resultaten van een interventie. Anders gezegd, beïnvloedt het afnemen van een pretest de resultaten? Om deze vraag te beantwoorden zijn er minimaal vier groepen nodig.

R O1 X O2

R O3 O4

R X O5

R O6

Overwegingen bij het gebruik van dit design

Dit design controleert voor de bekende bedreigingen voor de interne validiteit. De effecten van herhaaldelijk testen kunnen geëvalueerd worden door twee controlegroepen met elkaar te vergelijken die alleen van elkaar verschillen in het wel niet krijgen van een pretest (O4 en O6). Ook de interactie tussen de voormeting en de interventie kan onderzocht worden, door de experimentele groepen met en zonder pretest te vergelijken (O2 en O5). Zelfs het effect van herhaaldelijk testen en de interactie tussen testen en interventie kan met dit design onderzocht worden. Dit kan gedaan worden door de posttest data van iedere groep in een 2 x 2 factordesign te noteren en te analyseren met een tweeweg variantie-analyse, O2, O4, O5 en O6 worden hierbij gebruikt.

Een ander kenmerk van dit design is dat het de behandelconditie en de controlecondities repliceert. Het effect van behandeling (X) wordt op meerdere plekken gerepliceerd. Het effect van behandeling kan gedemonstreerd worden door één within-group vergelijking (O1 versus O2) en verschillende between-group vergelijkingen (O2 versus O4 of O6, O5 versus O6 of O4, O5 versus O3 of O1). Wanneer een consistent patroon van resultaten ontstaat vanuit de vergelijkingen, is de kracht van de demonstratie immens toegenomen ten opzichte van designs die gebruik maken van een enkelvoudige vergelijking.

Maar al deze elegantie komt met een prijskaartje. In feite kan het design gezien worden als twee kleinere experimenten. Dit houdt in dat het twee keer zoveel geld en tijd kost om de proefpersonen te testen, er twee keer zoveel data wordt verzameld, enz.

Het uitvoeren van het Solomon viergroepen design heeft vooral zijn nut bij het verdiepen van kennis omtrent een veel bestudeerd fenomeen.

Factoriële designs

De vorige designs draaiden om het evalueren van een enkelvoudige variabele. De variabele kan wel verschillende niveaus hebben, verdeeld over verschillende groepen, maar het is nog steeds één variabele. Hiermee is meteen een beperking van dit soort designs geschetst. Er kunnen alleen relatief simpele vragen mee beantwoord worden.

Factoriële designs stellen de onderzoeker in staat om twee of meer variabelen (factoren) te bestuderen. Binnen iedere variabele worden minimaal twee condities voorgeschreven. In het meest simpele factoriële design bestaan twee variabelen (ervaring van de therapeut en het type behandeling) uit twee verschillende niveaus (ervaren versus onervaren en behandeling A versus behandeling B). Hieruit volgt een 2 x 2 design (zie figuur 6.2 op blz. 167).

Bij enkelvoudige experimenten wordt er één manipulatie bestudeerd en voor alle andere variabelen wordt gecontroleerd. Bij een factorieel design worden meerdere variabelen geïncludeerd om vragen te kunnen stellen over gescheiden en gecombineerde effecten van verschillende variabelen. De variabelen die hierbij geïncludeerd worden, worden niet alleen gecontroleerd, maar vormen aparte factoren binnen het design. Hierdoor kan er gekeken worden naar interactie-effecten. Een interactie is dat het effect van de ene variabele afhankelijk is van het niveau van één van de andere variabelen.

Overwegingen bij het gebruik van dit design

Het apert kunnen evalueren van verschillende variabelen is een sterk punt van dit design. Het is goedkoper om verschillende variabelen te evalueren met minder proefpersonen en observaties met een factorieel design dan elke variabele te bekijken in een afzonderlijk experiment.

Het opsporen van interacties geeft waardevolle informatie over de begrenzende omstandigheden van de onafhankelijke variabelen en hun effecten. In de context van klinisch onderzoek is het niet alleen belangrijk om te weten dat een bepaalde behandeling simpelweg wel of niet werkt, maar eerder afhankelijk is van een aantal andere kwalificaties, zoals bijvoorbeeld wie de therapeut is, welke type symptoom of karakteristiek van de client, de tijdsspanne van de therapie, etc.

Een belangrijke overweging bij het gebruik van dit design is dat het toevoegen van een factor onmiddellijke consequenties heeft voor het aantal benodigde proefpersonen. Bij een 2 x 3 design (één variabele bestaat uit twee niveaus en de ander uit drie) zijn er 6 groepen te vullen. Het toevoegen van een derde variabele met twee niveaus maakt van dit design een 2 x 2 x 3 met 12 groepen.

Een gerelateerd probleem is de interpretatie van de resultaten die dit design oplevert. Een relatief simpel interactie-effect tussen twee of drie variabelen is ook vrij eenvoudig te interpreteren, maar wanneer meerdere variabelen met elkaar interacteren levert dit een grote complexiteit op. Een factorieel design moet dan ook alleen gebruikt worden voor variabelen waarbij men op basis van theorie verwacht dat ze zullen interacteren.

Quasi-experimentele designs

De voorafgaande designs zijn zuivere experimenten waarbij voor verschillende facetten van de studie gecontroleerd kan worden om bedreigingen voor de interne validiteit te verminderen of uit te sluiten. Het is voor een onderzoeker niet altijd mogelijk om volledige controle uit te oefenen. De mogelijkheid tot randomiseren kan bijvoorbeeld ontbreken. Naar experimenten waarbij niet random wordt toegewezen wordt gerefereerd als quasi-experimentele designs. Sommige tegenstanders van het gebruik van dit soort experimenten noemen het ook wel queasy-experimental designs (misselijkmakende experimentele designs). Toch kunnen er sterke conclusies getrokken worden vanuit dit design, maar het vereist vernuft bij het selecteren van controles of het analyseren van de data om bedreigingen voor de interne validiteit implausibel te maken.

Pretest-posttest design

Bij quasi-experimentele vorm van de pretest-posttest en alleen posttest designs is de controlegroep niet aantoonbaar hetzelfde als de experimentele groep, omdat het om voorgevormde groepen gaat. Daarom worden ze ook wel niet-equivalente controlegroep designs (nonequivalent control group designs) genoemd.

nonR O1 X O2

nonR O3 O4

Hierbij geldt hetzelfde als eerder vermeld, namelijk dat het de taak is van de onderzoeker om op een adequate manier proefpersonen te selecteren waarmee hij/zij de mogelijkheden voor alternatieve verklaringen zoveel mogelijk uitsluit. Het is de taak van het publiek (medeonderzoekers, reviewers) om niet simpelweg te zeggen dat het niet random toewijzen problemen kan opleveren, maar om met een specifieke rationale te komen over welke variabele samengehangen kan hebben met de resultaten en daarmee een plausibele alternatieve verklaring voor de resultaten oplevert.

Alleen posttest design

Bij dit design wordt er geen gebruik gemaakt van een pretest.

nonR X O1

nonR O2

Bij de zuiver experimentele vorm van dit design hoefde de afwezigheid van een pretest niet perse een probleem op te leveren. Groepsequivalentie werd gewaarborgd door de randomisatie, vooral bij grote steekproeven. Naast de problemen met de kans op nonequivalente groepen, gelden ook de bedreigingen die genoemd zijn bij de pretest-posttest variant op dit design.

Alleen een posttest design is een zwak design.

Variaties

Allerlei variaties op de voorgenoemde designs zijn in omloop. Een voorbeeld:

nonR O1 X O2

nonR O3 O4

Dit schema laat zien dat er een tijdsverschil zit in de afnames van de pre- en posttest. De variant op de schema zonder de pretest wordt verkregen door O1 en O3 te schrappen. Bij designs die temporeel verschillen kan de equivalentie van de groepen niet gegarandeerd worden en verder zijn andere bedreigingen als geschiedenis, rijping en instrumentatie van toepassing.

Tijdsverschillen hoeven niet altijd een probleem te zijn. Bij klinisch onderzoek kan men ervoor kiezen om de condities bij kortdurende interventies na elkaar te laten verlopen. De eerste 30 cliënten krijgen een bepaalde behandeling, de volgende 30 alleen psycho-educatie. Op deze manier wordt er voorkomen dat cliënten uit de ene conditie contact hebben met een client uit de andere conditie.

Een algemene opmerking bij het gebruik van ongecontroleerde designs is, dat het vernuft vereist om methodologische wapens in te zetten tegen ambiguïteit. Een manier om je te wapenen is door extra groepen toe te voegen aan het experiment om alternatieve verklaringen uit te sluiten. Dit worden opgelapte controlegroepen genoemd (‘patched-up’ control groups).

Meervoudige behandelingsdesigns

Het definiërende karakteristiek van een meervoudig behandelingsdesign is dat alle vormen van behandeling aangeboden worden aan een proefpersoon. Hoewel de evaluatie van een behandeling binnen een proefpersoon (within subject) plaatsvindt, worden er toch vaak groepen gevormd binnen dit design. Op die manier kan er gevarieerd worden in de volgorde van de blootstelling. Omdat er gebruik wordt gemaakt van verschillende groepen zijn kwesties als randomisatie en matching van toepassing.

Verschillende versies zijn mogelijk en zijn afhankelijk van het aantal aangeboden behandelingen en de manier waarop die gepresenteerd worden. Alle versies kunnen gezien worden als tegenwicht designs (counterbalance designs).

Cross-over design

Het cross-over design dankt zijn naam aan het feit dat op een bepaald moment alle proefpersonen van behandelconditie wisselen. Het design wordt gebruikt bij experimenten met twee behandelcondities. De groepen verschillen alleen in de volgorde van aanbieding.

R O1 XA O2 XB O3

R O4 XB O5 XA O6

De variant zonder pretest komt ook voor en wordt genoteerd zonder O1 en O4. Zoals eerder gesteld is een pretest niet noodzakelijk, maar wel wenselijk.

Dit design is makkelijker te gebruiken bij medicijnonderzoek dan bij psychotherapeutisch onderzoek. Bij medicijnonderzoek kan er tussen de wisseling van toediening van de medicijnen een uitwasperiode ingelast worden, waarbij het effect van het eerste medicijn verdwenen is voordat het volgende medicijn wordt toegediend. Bij psychotherapie is het effect niet “weg te wassen”.

Meervoudige behandelings tegenwicht design (multiple-treatment counterbalanced design)

Bij het cross-over design zijn er maar twee behandelcondities en is het tegenwicht makkelijk geboden door in de volgorde te variëren. Bij meerdere behandelcondities wordt dit een stuk complexer, omdat de volgorde moeilijker te balanceren is.

Laten we de situatie van een vierbehandelingsmodel bekijken, waarbij ieder proefpersoon elke behandeling krijgt. Een manier om de volgorde te bepalen is om bij iedere proefpersoon random de volgorde te bepalen. Dit levert echter de kans op dat bijvoorbeeld behandeling A toevalligerwijs bij alle proefpersonen als derde is geloot. Hoe groter het aantal proefpersonen hoe kleiner die kans wordt. Een ander probleem is dat niet alle behandelingen even vaak op een bepaald tijdstip voorkomen. Een behandeling kan dan meer effect laten zien omdat die het meest als eerste aangeboden werd.

Een bruikbare methode bij het bepalen van de volgorde is om een set van volgordes van tevoren te selecteren en proefpersonen random aan die set toe te wijzen (zie tabel 6.2 op blz. 175). Hierbij komen alle behandelingen op alle momenten voor. Deze manier van arrangeren wordt het Latijnse vierkant genoemd.

Bij een Latijns vierkant komen echter niet alle mogelijke volgordes aan bod. Men kan ervoor kiezen om dat wel te doen, zodat een interactie tussen verschillende vormen van behandeling en het aangeboden tijdstip geïdentificeerd kan worden. Het is dan echter wel zo dat er een groot aantal groepen en daarmee proefpersonen benodigd is. Het aantal proefpersonen benodigd voor compleet tegenwicht is een factor k, waarbij k gelijk is aan het aantal aangeboden behandelingen.

Dit design wordt niet vaak gebruikt. Het meest voorkomend is het cross-over design.

Overwegingen bij het gebruik van deze designs

Volgorde- en reekseffecten

De belangrijkste overweging bij het gebruik van meerdere behandelcondities is de volgorde van toediening. Wanneer de volgorde verantwoordelijk kan zijn voor de resultaten, heet dit een volgorde-effect. Uit de literatuur is het bekend dat behandelingen die als eerste aangeboden worden het meeste effect sorteren ongeacht hoe die behandeling er uitziet. Een volgorde-effect kan ondervangen worden door tegenwicht te bieden. Zoals besproken is het tegenwicht bieden geen garantie voor het uitsluiten van alternatieve verklaringen.

Op een ander manier kan de volgorde een rol spelen. Het gaat hierbij niet zozeer om het moment van aanbieden, als wel om het opeenvolgende effect van behandeling A en B. Het volgen van behandeling A en dan B kan andere resultaten opleveren dan het volgen van eerst B en dan A. In dit geval wordt er gesproken van een reekseffect (sequence effect). Synoniemen voor reekseffect zijn: meervoudige behandelingsinterferentie of carryover effecten.

In het algemeen kan gesteld worden dat meervoudige behandeldesigns gevoelig zijn voor reekseffecten. Of deze effecten als hinderlijk ervaren worden hangt van het doel van het onderzoek af. Reekseffecten voegen complexiteit toe en daarmee waarschijnlijk ook een beter begrip.

Beperkingen bij verscheidene on- en afhankelijke variabelen

De variabelen dicteren of het gebruik van meervoudige behandeldesigns gepast is of niet. Dit soort designs lenen zich niet zo goed voor bijvoorbeeld het bestuderen van het effect van de instructie op de uiting op de afhankelijke variabele. Het is soms moeilijk om en plausibele theoretisch achtergrond te verschaffen aan de proefpersoon over de verschillende behandelmethodes. De proefpersoon kan daardoor meer vertrouwen hebben in de ene methode dan in de andere.

Stabiele proefpersoonkarakteristieken, zoals bijvoorbeeld geslacht kunnen geanalyseerd worden met behulp van een factorieel design. Bij veranderbare variabelen is dit mogelijk. Wanneer iemand in de ene conditie heeft leren fietsen, neemt hij/zij die vaardigheid mee naar de volgende conditie.

Plafond- en vloereffecten

Plafond- en vloereffecten refereren aan het feit dat verandering in de afhankelijke variabelen zijn grenzen kent, een onder- en bovengrens. Verdere verandering kan door deze limiet niet vastgesteld worden. De hoeveelheid verandering bij behandeling A kan verdere verandering belemmeren.

Plafond- en vloereffecten zijn niet gebonden aan meervoudige behandeldesigns. De afwezigheid van verschillen tussen groepen kan bij meerdere designs het gevolg zijn van scorelimieten. Als scores van de verschillende groepen samenkomen bij de onderste of bovenste laag van de schaal, kan het zo zijn dat bij de mogelijkheid om breder te scoren de effecten wel zichtbaar zouden zijn.

Tot nu toe is gesproken over numerieke limieten. Een subtielere limiet is deze: om van een een hoge score een nog hogere score te maken vereist wellicht meer inspanning en een grotere hoeveelheid van de onafhankelijke variabele dan om van een gemiddelde score een hogere score te maken. Het is bijvoorbeeld makkelijker om de eerste 10 kilo af te vallen dan de volgende 10.

Hoewel deze effecten zich bij meerdere designs kunnen voordoen, spelen ze bij meervoudige behandeldesigns een extra grote rol, omdat verschillende interventies inwerken op het verhogen of verlagen van de scores op e afhankelijke variabele.

Deze effecten spelen geen rol bij gedragingen die van voorbijgaande (transient) aard zijn. Wanneer abstinentie van drugs alleen bereikt wordt tijdens het onderzoek wanneer beloningen gegeven worden voor abstinentie en er terugval plaatsvindt bij het wegnemen van die beloningen, is het duidelijk wat verantwoordelijk was voor de verandering. Veelal echter zijn gedragingen niet transient en hebben voorafgaande interventies hun sporen nagelaten.

Samenvatting en conclusies

Fundamentele kwesties bij onderzoek doen zijn onder andere de selectie van proefpersonen en hun toewijzing aan de condities van het experiment. Random selectie werd besproken als een mogelijke manier van proefpersonen selecteren (dit wordt bijna nooit gedaan bij psychologisch onderzoek). Proefpersonen worden geselecteerd uit bestaande steekproeven of met bepaalde karakteristieken. Ook is er besproken wat het gevaar is van een nauwe spreiding en types van proefpersonen. In de VS worden vaak mannelijke Europees-Amerikaanse proefpersonen gebruikt en studenten. Steekproefkarakteristieken kunnen mogelijk als moderators van verschillende relaties optreden. Het gebruik van gemakshalve steekproeven is genoemd.

Het toewijzen van proefpersonen aan de verschillende condities gebeurt als het mogelijk is random om bias tussen de groepen te voorkomen. Vervolgens kunnen proefpersonen gematcht worden op een bepaalde variabele, wat blokrandomisatie mogelijk maakt.

Verschillende designs zijn de revue gepasseerd, zoals het pretest-posttest controlegroep design, alleen posttest controlegroep design, Solomon viergroepen design, factoriële designs en quasi-experimentele designs. Bij deze designs wordt een proefpersoon blootgesteld aan een of geen interventie en vergeleken met de andere conditie. De pretest werd besproken als een handig middel bij het vergelijken van de mate van verandering en het vergroten van de power van een experiment.

Meervoudige behandeldesigns werden belicht. Bij deze designs doorloopt een proefpersoon alle condities van het experiment. Verschillende groepen worden gebruikt om tegenwicht (counterbalance) te bieden aan de volgorde van de verschillende behandelmethodes. Een cross-over design is de meest eenvoudige. Meer complexe designs maken gebruik van gerandomiseerde toediening of vooraf bepaalde volgordes. Een Latijn vierkant design refereert aan de manier waarop het aantal behandelcondities gelijk is aan het aantal groepen, waarbij iedere behandelvorm op iedere plek een keer voorkomt.

volgorde- en reekseffecten kunnen optreden bij meervoudige behandeldesigns. De kans op vloer- en plafondeffecten is ook hoger bij meervoudige behandeldesigns.

Kernconcepten en -termen

Plafondeffecten Random toewijzing

Matching Random selectie

Meervoudige behandeldesigns Gemakshalve steekproef (sample of convenience)

Volgorde effecten

Hoofdstuk 7: Controle- en vergelijkingsgroepen

De term controlegroep is misleidend. Het impliceert dat het toevoegen van een controlegroep meteen alle bedreigingen buitensluit. Dit is niet zo. Een controlegroep is niet meer dan een vorm van vergelijkingsgroep, waarbij de term vergelijkingsgroep refereert aan iedere groep die toegevoegd wordt aan het design naast de primaire groep. Sommige controlegroepen gaan bedreigingen voor de interne validiteit tegen (behandeling versus geen behandeling), andere bedreigingen jegens de constructvaliditeit (non-specifieke behandeling).

Controlegroepen

Controlegroepen worden vaak gebruikt om bedreigingen jegens de interne validiteit tegen te gaan, zoals geschiedenis, rijping, selectie en herhaaldelijk testen. Het controleren van deze bedreigingen wordt bereikt door een groep aan het experiment toe te voegen die dezelfde invloeden deelt, maar niet de interventie ondergaat. Wanneer de controlegroep en de experimentele groep random samengesteld wordt en de metingen gelijktijdig plaatsvinden worden bedreigingen jegens de interne validiteit meestal tegengegaan.

Geen behandeling controlegroep (no-treatment control group)

Beschrijving en rationale

Bij het bestuderen van de werking van een therapie, speelt altijd de vraag in hoeverre een persoon veranderd zou zijn zonder behandeling. Deze vraag kan beantwoord worden door een controlegroep toe te voegen die geen behandeling krijgt. Door een controlegroep toe te voegen, wordt voor de invloeden van geschiedenis, rijping en andere bedreigingen voor de interne validiteit direct gecontroleerd.

Bij klinisch onderzoek zien we vaak verbeteringen optreden bij cliënten die in de controlegroep zitten. Hiernaar wordt gerefereerd als ‘spontane remissie’. De redenen voor deze spontane verbetering zijn legio. Iemand kan andere hulp zoeken, een gesprek met de buurvrouw gaf een verlichting van de symptomen, extreme scores op het ene moment hebben de neiging om meer naar het midden te trekken bij een volgende meting, etc. Een no-treatment groep laat de mate van verandering zien wanneer er geen behandeling plaatsvindt.

Ook wanneer het bekend is hoe groot de mate van verandering is bij geen behandeling, is het toch nuttig om een controlegroep te gebruiken. Het effect van herhaaldelijk testen kan anders verantwoordelijk zijn voor de resultaten.

Het is belangrijk dat cliënten door random toewijzing in de controlegroep komen. Zonder randomisatie wordt het moeilijk om de verschillen tussen de groepen te interpreteren.

Speciale overwegingen

Een ethische kwestie doet zich voor bij het toewijzen van cliënten aan de niet-behandelconditie. Wanneer cliënten behandeling nodig hebben is het niet ethisch om dat te weigeren. Dit kan omzeild worden door cliënten vooraf goed te informeren over de mogelijkheid dat ze in de controlegroep terecht kunnen komen. Dit geeft nog steeds geen garanties. Cliënten kunnen hun medewerking alsnog opzeggen, wanneer ze erachter komen dat ze zijn toegewezen aan de controlegroep.

Naast ethische kwesties zijn er ook praktische. Hoe leg je aan een client het nut van een controlegroep uit? Cliënten kunnen besluiten ergens anders hulp te zoeken. Verder kan de studie ook niet te lang duren. Als algemene regel kan gesteld worden dat hoe langer van cliënten gevraagd wordt om als controle te dienen, hoe hoger de kans is dat iemand uit zal vallen.

Wachtlijst controlegroep

Beschrijving en rationale

In plaats van behandeling te onthouden, kan behandeling ook uitgesteld worden door mensen op een wachtlijst te plaatsen. De wachttijd komt overeen met de tijdsperiode die loopt van voor- tot nameting. De personen in de controlegroep ondergaan wel de metingen, maar niet de behandeling. Na afloop van het experiment krijgen de personen op de wachtlijst behandeling.

Men kan bij de aanmelding aan cliënten vragen of ze zouden blijven deelnemen aan de studie, zelfs als behandeling uitgesteld zou worden. Alleen de mensen die hier positief op reageren worden geïncludeerd. Het is verleidelijk om de weigeraars in te delen in de experimentele conditie, maar dit is methodologisch gezien een ramp. Proefpersoonselectie in combinatie met geschiedenis, rijping, regressie an andere bedreigingen krijgen op deze manier de ruimte.

Drie rudimentaire kenmerken karakteriseren de wachtlijst controlegroep.

Wanneer een voormeting gedaan wordt, mag er geen behandeling plaatsvinden tussen de eerste en tweede meting bij de controlegroep.
De tijd tussen de eerste en tweede meting moet overeenkomen met de tijd tussen de voor- en nameting van de experimentele groep.
Cliënten krijgen een eerste en tweede meting, voordat ze behandeling krijgen. De tweede meting kan gekoppeld worden aan het begin van de uitgestelde behandeling en uitgelegd worden aan de client als een baseline meting vooraf aan de behandeling, terwijl het in werkelijkheid een tweede meting is.

Speciale overwegingen

Een in het oog springend nadeel van een wachtlijst controlegroep is dat de cliënten uiteindelijk behandeld worden. Zij zijn dan niet meer beschikbaar voor follow-up metingen verderop in de tijd.

Bij relatief milde klachten of aandoeningen kan de client geïnformeerd worden over de duur van de uitstel van behandeling en kan zelfs een follow-up periode ingebouwd worden.

Deze vorm van controlegroep geeft de mogelijkheid tot het herhalen (repliceren) van het experiment door na de wachtperiode iemand behandeling aan te bieden en vervolgens opnieuw een meting te doen.

R O1 X O2

R O3 O4 X O5

Een wachtlijst controlegroep is ethisch net iets verantwoorder dan een non-treatment control group. Ethische kwesties dienen zich aan wanneer iemand acuut hulp nodig heeft of op een andere manier schade ondervindt van de uitstel van behandeling.

Geen contact controlegroep

Beschrijving en rationale

Alleen al de participatie aan een onderzoek kan genoeg zijn om een reactie op de afhankelijke variabele bij controlepersonen te ontlokken. Vandaar dat er in sommige gevallen gekozen wordt voor een controlegroep die geen contact heeft met het project. Dit wordt een geen contact (no-contact) controlegroep genoemd. Aangezien de onderzoeker wel gegevens van de proefpersonen nodig heeft, zal die onder een andere noemer verkregen moeten worden. Men kan bijvoorbeeld personen zogenaamd benaderen voor een enquête.

Speciale overwegingen

Deze vorm van controlegroep wordt weinig gebruikt. Eigenlijk is de enige reden om dit te doen, wanneer het bekend of aannemelijk is dat het hebben van contact met een onderzoeker de resultaten zal beïnvloeden.

Verder moet er goed stilgestaan worden bij de kwestie van informed consent. Alleen een geïnformeerd persoon kan toestemming geven.

Non-specifieke behandeling of ‘aandacht-placebo’ controlegroep

Beschrijving en rationale

No-treatment en wachtlijst controlegroepen adresseren primair de bedreigingen voor de interne validiteit. Een non-specifieke behandel controlegroep (nonspecific-treatment control group) richt zich naast de bedreigingen voor de interne validiteit ook op de constructvaliditeit. Bij iedere vorm van behandeling kunnen veel schijnbare accessoires bijdragen of verantwoordelijk zijn voor therapeutische verandering, zoals het bijwonen van sessies, persoonlijk contact hebben met een therapeut, een logische verklaring horen voor het ontstaan van het probleem en het ondergaan van een procedure die op klachtenvermindering gericht is. Naar deze factoren wordt gerefereerd als de algemene of non-specifieke factoren van psychotherapie, omdat ze de ingrediënten zijn van de meeste behandelingen.

Bij een non-specifieke behandelingscontrolegroep wordt een client door een therapeut gezien, maar er vindt geen echte behandeling plaats. De controlegroep is te beschouwen als een placebo-groep, omdat de behandeling bestaat uit algemene, non-specifieke factoren. De experimentele conditie bestaat uit een specifieke vorm van behandeling. Op deze manier kan bepaald worden waarom behandeling tot verandering leidde, wat bijdraagt aan een betere constructvaliditeit.

Een non-specifieke controlegroep maakt het onwaarschijnlijk dat algemene factoren de resultaten verklaren, maar wijst niet direct het construct aan dat wel verantwoordelijk was voor de verandering. Een evaluatie van het proces dat verantwoordelijk geacht wordt voor de verandering moet rechtstreeks onderzocht worden (bijv. cognities) en getoetst worden in relatie tot de mate van verandering. Met andere woorden, een specifiek onderdeel van een behandeling wordt geïsoleerd, zodat de experimentele en controlegroep alleen op het specifieke onderdeel van elkaar verschillen.

Speciale overwegingen

Bij psychotherapeutisch onderzoek is het niet zo makkelijk om een non-specifieke controlegroep op te zetten. Ten eerste is er een conceptueel probleem. Wat is een inerte (neutrale) interventie? Bij medicijnonderzoek weet de onderzoeker dat een tablet met een suiker- of zoutoplossing geen chemische werking op het klinische symptoom zal hebben. Bij klinisch psychologisch onderzoek ligt dit anders. Vaak is het niet van tevoren bekend welke ingrediënten van een behandeling inert zijn.

Een tweede kwestie is de geloofwaardigheid van de non-specifieke behandeling. Wanneer proefpersonen in de controlegroep geen geloof hebben in de werking van de behandeling, kan dit van invloed zijn op de interpretatie van de resultaten.

Als derde probleem kunnen ethische kwesties genoemd worden. Wanneer cliënten in nood zijn en hulp zoeken, hoe ethisch is het dan om een deel van die cliënten te laten geloven dat ze behandeld worden, terwijl dit niet zo is. In een verklaring van de World Medical Association wordt gesteld dat placebo-controlegroepen niet gebruikt mogen worden bij medisch onderzoek. In plaats van een placebo moet het best mogelijke alternatief geboden worden.

Het gebruik van een non-specifieke behandeling kan zelfs schadelijk zijn. Wanneer cliënten een behandeling ontvangen die geen effect op hun klachten heeft, kunnen zij een aversie tegen therapie ontwikkelen die hen er van zal weerhouden om in de toekomst hulp te gaan zoeken.

Onderzoeksresultaten neigen naar de bevestiging van de opvatting dat psychotherapie effectiever is dan non-specifieke behandeling controlecondities en dat non-specifieke behandeling controlecondities effectiever zijn dan helemaal geen behandeling.

Routine of standaardbehandeling

Beschrijving en rationale

Een alternatief voor no-treatment, wachtlijst en non-specifieke behandeling controlecondities is de experimentele conditie te vergelijken met de behandeling zoals die op dat moment gangbaar is. Dit kan gedaan worden wanneer de andere vormen van controlegroepen niet ethisch verdedigbaar of praktisch haalbaar zijn.

Minimaal vier voordelen zijn verbonden aan het gebruik van de standaardbehandeling als vergelijkingsmateriaal voor de experimentele conditie.

Aan de ethische en dienstverlenende vereisten wordt voldaan.
Iedere proefpersoon krijgt een waarheidlievende behandeling, waardoor de mate van uitval verkleind wordt ten opzichte van de geen behandeling, wachtlijst en non-specifieke controlegroepen.
De standaardbehandeling controleert voor veel van de algemene of non-specifieke factoren van behandeling, waardoor er geen ruimte is voor rivaliserende interpretaties.
Voor clinici is de vergelijking van een nieuwe methode met de standaardbehandeling veel interessanter, omdat het meteen duidelijk wordt of het nieuwe echt beter is dan het oude.

Speciale overwegingen

Het gebruik van de standaardbehandeling levert een aantal dilemma's op. Het is bijvoorbeeld moeilijk te weten wat de standaardbehandeling precies inhoudt. Zonder oneerbiedig te zijn, worden behandelingen binnen een kliniek vaak slordig, inconsistent en met discretie aangaande de exacte inhoud uitgevoerd.

In het algemeen kan gezegd worden dat het gebruik van een standaardbehandeling vele ethische en praktische kwesties die samenhangen met het gebruik van een non-specifieke controlegroep omzeilt en de conclusies die getrokken kunnen worden versterkt.

Gejukte (yoked) controlegroep

Beschrijving en rationale

De gejukte controlegroep wordt gebruikt bij het meten van factoren die kunnen optreden als een functie van het implementeren van een bepaalde interventie. Het doel van de gejukte controlegroep is om de zekerheid te scheppen dat groepen gelijk zijn op potentieel belangrijke maar conceptueel en procedureel irrelevante factoren die voor groepsverschillen zouden kunnen zorgen.

Een gejukte controlegroep kan bijvoorbeeld gebruikt worden wanneer het aantal sessies bij de experimentele groep niet vast bepaald is. Een ingrediënt van een behandeling kan zijn dat de client kan binnenlopen wanneer hij/zij daar behoefte aan heeft. Hoeveel sessies moet de controlegroep dan krijgen? Bij het ‘jukken’ van proefpersonen worden er paren gevormd. Die paren kunnen willekeurig samengesteld worden, behalve in het geval van matching. Wanneer proefpersonen gematcht zijn toegewezen aan de condities vormen de gematchte paren de gejukte paren. Van alle proefpersonen in de experimentele conditie wordt genoteerd hoeveel sessies er hebben plaatsgevonden. De gejukte proefpersoon uit de controlegroep krijgt een gelijk aantal onzinsessies. Deze manier vereist dus wel dat er temporeel gemeten wordt. Eerst alle proefpersonen moeten de experimentele conditie afronden, voordat de controlepersonen ‘behandeld’ worden.

In het geval dat er in het design nog een andere controlegroep ingebouwd is (no-treatment), rijst de vraag hoeveel tijd er moet zitten tussen de voor- en nameting. Ook hier kan ‘gejukt’ worden met proefpersonen uit de experimentele conditie. Het tijdsinterval tussen de voor- en nameting is gelijk tussen de gejukte personen uit de experimentele en de controle groep.

Speciale overwegingen

Ook hier moet weer gezegd worden dat er alleen op variabelen ‘gejukt’ wordt die mogelijk een alternatieve verklaring van de resultaten kunnen opleveren.

Niet random toegewezen of non-equivalente controlegroepen

Beschrijving en rationale

In sommige gevallen worden groepen toegevoegd aan een experiment, die gevuld worden met proefpersonen die geen onderdeel uitmaakten van de oorspronkelijke ‘vijver’ (pool) en niet random zijn toegewezen. Naar deze groepen wordt gerefereerd als non-equivalente controlegroepen of ‘opgelapte’ (patched-up) controlegroepen. Het doel van zo’n controlegroep is hetzelfde als die bij een gerandomiseerde no-treatment controlegroep, namelijk het uitsluiten van bedreigingen jegens de interne validiteit, zoals geschiedenis, rijping, herhaaldelijk testen en instrumentatie. Hoewel het doel hetzelfde is, is de interpreteerbaarheid niet hetzelfde omdat de groepen anders gevormd zijn.

Speciale overwegingen

Hoewel een non-equivalente controlegroep data produceert die minder overtuigend zijn dan bij random toewijzing, kunnen de inzichten die bij deze groep verkregen worden net de balans doen omslaan bij het onwaarschijnlijk maken van alternatieve verklaringen.

Het toevoegen van een controlegroep hoeft niet altijd als doel te hebben de interne validiteit te bewaken. Groepen worden ook wel toegevoegd om meer informatie te verkrijgen over de afhankelijke variabele. Een voorbeeld is onderzoek waarbij men kijkt in hoeverre personen in de studie (personen die zich aangemeld hebben voor behandeling) verschillen van hun leeftijdsgenoten zonder problemen. Op die manier kan men kijken of therapie het functioneren van de client teruggebracht heeft naar een ‘normale’ maat.

Sleuteloverwegingen bij groepsselectie

Bij de selectie van groepen voor klinisch onderzoek zijn er drie overwegingen van belang: de interesse van de onderzoeker, resultaten uit eerder onderzoek en praktische en ethische beperkingen.

De interesse van de onderzoeker refereert aan het type statement dat iemand na afronding van de studie wil maken. Een algemene (valide) verklaring of een specifieke verklaring gekoppeld aan een goed omschreven construct. Op basis van de interesse (de onderzoeksvraag) van de onderzoeker worden de controlegroepen gekozen. De kwaliteit van een studie hangt niet af van het aantal controlegroepen. de kwaliteit hangt af van de mate waarin het design de onderzoeksvraag op een passende manier adresseert.

Er zijn geen vaste regels voor het selecteren van groepen en waarschijnlijk bewandelen verschillende onderzoekers verschillende paden bij het beslissen hierover. Het is in ieder geval handig om van tevoren stil te staan bij mogelijke alternatieve verklaringen, zodat bij de selectie van groepen geanticipeerd kan worden op het minder plausibel maken van die alternatieven.

Eerder onderzoek kan ook de keuze voor bepaalde groepen bepalen. Wanneer herhaaldelijk, op consistente wijze, bij verschillende populaties en settings is aangetoond dat een no-treatment groep geen verandering laat zien op de afhankelijke variabele kan overwogen worden om zo’n controlegroep niet toe te voegen. Voortschrijdend inzicht maakt dit mogelijk.

Praktische overwegingen bij het selecteren van groepen zijn al eerder genoemd. Genoeg proefpersonen includeren, uitval van proefpersonen bij no-treatment of onzinnige behandelingen controlegroepen. Ook zijn de ethische kwesties rond het niet verschaffen van (een werkende) behandeling reeds besproken.

Progressie van controle- en vergelijkingsgroepen: het evalueren van psychotherapie

De doelen van klinisch onderzoek zijn het identificeren van effectieve behandelingen, het begrijpen van de onderliggende fundamenten van therapeutische verandering en het doorborduren op client-, therapeut- en andere factoren waarvan therapeutische effecten afhangen. Tabel 7.1 op bladzijde 203 noemt een aantal hoofdstrategieën om behandelingen te evalueren, de vragen die bij die strategieën behoren en de controle- en vergelijkingsgroepen die waarschijnlijk benodigd zijn.

Behandelpakket strategie

Bij de behandelpakket strategie hoort de ‘algemene’ vraag of behandeling leidt tot therapeutische verandering. Hierbij is een behandeling versus geen behandeling of wachtlijst model benodigd.

Ontmanteling van behandeling strategie

De ontmanteling van een behandeling bestaat uit het analyseren van de componenten van een behandelpakket. De bijbehorende vraag is welke componenten nodig, voldoende en bevorderend zijn voor therapeutische verandering. Hierbij zijn twee of meer behandelgroepen nodig die variëren in de componenten van de aangeboden behandeling.

Constructieve behandeling strategie

Bij een constructieve behandeling strategie is de onderzoeker geïnteresseerd in de vraag wat er aan de behandeling toegevoegd kan worden om de effectiviteit te verhogen. Hiervoor zijn minimaal twee behandelgroepen nodig die variëren in componenten. Het doel is om effectieve combinaties van behandelingen aan te bieden aan de cliënt.

Parametrische behandeling strategie

Welke veranderingen kunnen gemaakt worden binnen de specifieke behandeling om de effectiviteit te vergroten? Bij deze vraag kunnen dimensies of parameters veranderd worden om de ideale manier van aanbieden te identificeren. De duur is een dimensie waaraan gedacht kan worden, alsmede de overweging om bijvoorbeeld wel of geen nazorg te bieden. Hiervoor zijn minimaal twee behandelgroepen nodig die op één of meer facetten van elkaar verschillen.

Vergelijkende behandeling strategie

Bij vergelijkende strategieën draait het om de vraag welke behandeling meer of het meest effectief is bij een bepaald probleem en populatie. Hiervoor zijn minimaal twee verschillende behandelingen nodig voor eenzelfde probleem.

Behandeling moderator strategie

Wanneer men niet alleen geïnteresseerd is in directe effecten, maar ook in interacties tussen variabelen, gebruikt men de moderator strategie. De bijbehorende vraag is van welke patiënt-, familie- of therapeutkarakteristieken de behandeling afhankelijk is wil die effectief genoemd worden. Voor de beantwoording van deze vraag is behandeling, apart toegepast bij verschillende casus, therapeuten, etc. benodigd.

Behandeling mediator strategie

Een mediator richt zich op het identificeren van het werkzame mechanisme. De bijbehorende vraag is welke processen optreden binnen de behandeling die de uiting binnen de sessie beïnvloeden en kunnen bijdragen aan de uitkomst. Behandelgroepen waarbij patiënt- en therapeutinteracties binnen sessies geëvalueerd kunnen worden is hiervoor nodig.

Algemene opmerkingen

De verschillende strategieën die genoemd zijn helpen bij het volledig begrijpen van de werking van een techniek of interventie en zijn progressief van aard. Het begint meestal met het evalueren van een behandelpakket, gevolgd door ontmantelings-, constructief en parametrisch onderzoek. De laatsten vereisen een hoge mate van operationalisatie, omdat de verschillende componenten voldoende gespecificeerd moeten zijn om verwijderd, toegevoegd of gevarieerd te kunnen worden. Vergelijkend onderzoek wordt waarschijnlijk al eerder uitgevoerd.

Om de progressie te kunnen maken en de verschillende onderzoeksvragen te kunnen beantwoorden zijn een verscheidenheid aan controle- en vergelijkingsgroepen nodig.

Samenvatting en conclusies

Een controlegroep verzwakt alternatieve interpretaties van de data. De geschiktheid van een groep als controlegroep is afhankelijk van de soort vraag die gesteld wordt.

Een no-treatment controlegroep bestaat uit personen die geen behandeling krijgen en controleert voor effecten als geschiedenis, rijping, herhaaldelijk testen, regressie en vergelijkende bedreigingen. Dit geldt alleen als de proefpersonen random zijn toegewezen. Een wachtlijst controlegroep is een variatie op de no-treatment groep. De wachtlijstgroep ontvangt uiteindelijk wel behandeling. Een geen-contact controlegroep kan geïncludeerd worden om te kijken wat het effect van contact hebben met een therapeut voor invloed heeft. Proefpersonen in zo’n groep weten vaak niet dat zij deelnemen aan een behandelevaluatie.

Een non-specifieke behandeling controlegroep wordt blootgesteld aan alle accessoires van behandeling, zoals sessies met een therapeut en het ontvangen van een rationale van de problemen, etc.

Routine of standaardbehandeling bestaat uit de gangbare behandeling zoals die op dat moment wordt uitgevoerd binnen een kliniek en kan goed als controlegroep dienen. Een voordeel is dat cliënten een waarheidlievende interventie ontvangen. Een methodologisch probleem bij het gebruik van standaardbehandelingen is dat dezen vaak ongestructureerd en ongespecificeerd uitgevoerd worden en per therapeut verschillen.

Een gejukte controlegroep controleert voor variaties tussen groepen die tijdens het experiment kunnen optreden. Jukken is een procedure die externe factoren gelijktrekt tussen de groepen door paren te vormen van personen in de experimentele en de controlegroep. De ervaringen van de persoon in de experimentele conditie bepalen de ervaringen van de controlepersoon.

Non-equivalente controlegroepen worden samengesteld door personen te includeren die geen deel uitmaakten van de randomisatie. Deze groepen worden later toegevoegd om specifieke bedreigingen te adresseren die de randomisatie niet kan oplossen.

Kernconcepten en -termen

Non-equivalente controlegroep Behandelpakket strategie

Non-specifieke factoren van psychotherapie Wachtlijst controlegroep

Behandeling mediator strategie Gejukte controlegroep

Behandeling moderator strategie

Hoofdstuk 8: De impact van een experimentele manipulatie bepalen

Bij een experiment wordt de onafhankelijke variabele gemanipuleerd door de ene groep in een bepaalde omstandigheid te brengen en een andere groep niet, door variaties van een bepaalde omstandigheid aan te bieden aan verschillende groepen of door totaal verschillende omstandigheden voor de groepen te creëren. Het is van groot belang dat de manipulatie een sterke test is van de hypothese, dat de variabele of omstandigheid gemanipuleerd wordt zoals bedoeld is en dat de manipulatie consistent over de personen binnen een groep uitgevoerd wordt. Nauwkeurig controleren en toedienen van de manipulatie is vereist bij het interpreteren van de bevindingen (constructvaliditeit) en bij een sensitieve evaluatie van de manipulatie (statistische conclusie validiteit). In dit hoofdstuk wordt de toereikendheid van de manipulatie besproken, de verschillende manier waarop een manipulatie geëvalueerd kan worden en de implicaties voor het interpreteren van de resultaten.

Het checken van de experimentele manipulatie

Het evalueren van de onafhankelijke variabele of de manipulatie is procedureel en conceptueel verschillend van het evalueren van de afhankelijke variabele. Het evalueren van de onafhankelijke variabele houdt in dat er gekeken wordt of de omstandigheid waarin de onderzoeker geïnteresseerd is, correct aangeboden of veranderd is.

Op een bepaalde manier is de beste check van de effecten van de onafhankelijke variabele de uitkomstmaat (afhankelijke variabele), omdat de bedoeling is dat de onafhankelijke de afhankelijke beïnvloedt. Echter, ook als de uitkomstmaat zich gedraagt als voorspeld, kunnen nog steeds allerlei interveniërende processen aan het werk geweest zijn. In sommige gevallen wordt beiden gedaan. Men kijkt of de manipulatie goed is gedaan en de mate waarin de afhankelijke variabele is veranderd.

Types van manipulaties

Variaties van informatie

De manier waarop het succes van een bepaalde manipulatie wordt geëvalueerd varieert als een functie van het type manipulatie of onafhankelijke variabele. Bij veel experimenten refereert de manipulatie aan verschillende informatie die gegeven wordt over de verschillende groepen heen. De eerste vraag die dan gesteld moet worden bij de evaluatie van de manipulatie is of die informatie überhaupt verstrekt is. Vaak wordt onmiddellijk na het geven van de informatie een vragenlijst afgenomen om te kijken of proefpersonen de informatie gekregen en begrepen hebben.

Wanneer bij een manipulatiecheck een zelfrapportage vragenlijst wordt gebruikt, hoeft deze vaak maar uit een beperkt aantal vragen te bestaan. Multiple choice of waar - niet waar antwoorden zijn het makkelijkst in het gebruik, maar kunnen iets prijsgeven over het doel van onderzoek. Open vragen, als: “Welke informatie heeft u gekregen?” of “Wat zei de testleider tegen u bij het begin van het experiment?”, geven over het doel van het onderzoek niets prijs, maar zijn wel moeilijker te scoren. Men loopt het gevaar dat mensen niets opschrijven, alleen steekwoorden vermelden of juist uitweiden over zaken die niet relevant zijn voor de onderzoeker.

Variaties in proefpersoongedrag en -ervaring

Manipulaties bestaan vaak uit dingen die proefpersonen moeten doen, een taak uitvoeren, instructies opvolgen of een bepaalde toestand ervaren. Het evalueren van een manipulatie kan vele vormen aannemen en is daarmee afhankelijk van hetgeen dat proefpersonen moeten ondergaan of uitvoeren. Bij overte gedragingen kan de testleider in kaart brengen hoe vaak die gedraging werd vertoond tijdens een experiment. Bij het onderzoeken van cognities of huiswerkopdrachten kan aan de proefpersonen gevraagd worden hoe vaak ze die hadden of deden. Deze laatste manier is niet ideaal, maar iets is beter dan niets.

Variaties van interventiecondities

Bij veel klinisch onderzoek wordt gebruik gemaakt van variërende condities waaraan proefpersonen worden blootgesteld (wel of geen behandeling). Bij dit soort onderzoeken wordt de manipulatie uitgevoerd door de therapeuten en niet de onderzoeker zelf. De onderzoeker wil weten of de behandeling uitgevoerd is zoals die bedoeld is. Dit noemt men behandelingsintegriteit (treatment integrity) of behandelingstrouw (treatment fidelity).

Verschillende stappen kunnen ondernomen worden om de behandelingsintegriteit te waarborgen. Ten eerste moeten de criteria, procedures, taken en therapeut- en cliëntkarakteristieken die de therapie definiëren zoveel mogelijk gespecificeerd worden. Veelal wordt gebruik gemaakt van handleidingen of behandelprotocollen. Ten tweede kunnen therapeuten uitgebreid getraind worden om de technieken te kunnen uitvoeren. Ten derde is het belangrijk om tijdens het uitvoeren van de behandelingen supervisie aan te bieden. Het opnemen van sessies op audio of video en het gezamenlijk afluisteren of bekijken kan erg nuttig zijn.

Behandelingsintegriteit is geen alles-of-niets concept. Daarom is het van belang om vast te stellen wat een getrouwe weergave van de therapie inhoudt en welke afwijkingen binnen een acceptabele range vallen.

De waarde van het checken van de manipulatie

Er zijn twee situaties waarin het waardevol is om de manipulatie te evalueren. Dit is in het geval dat er geen significante verschillen waren tussen de groepen en wanneer experimentele condities strikt gescheiden moeten blijven.

Geen verschillen tussen de groepen

Wanneer er geen verschil gevonden wordt tussen de groepen kunnen er verschillende oorzaken zijn. Het kan natuurlijk zo zijn dat de onafhankleijke variabele geen invloed heeft op de afhankelijke. In dit geval is de manipulatie goed uitgevoerd, maar blijkt geen effect te hebben. Met andere woorden, de hypothese is wel getest. Het kan ook zo zijn dat de manipulatie niet goed, niet consequent of helemaal niet is uitgevoerd. In dit geval is de hypothese niet getest.

De condities gescheiden houden

Bij het onderzoeken van verschillende condities is het van belang om te weten of de condities ook daadwerkelijk verschilden. Bij bijvoorbeeld klinisch onderzoek naar verschillende behandelmethodes kan diffusie van behandeling optreden wanneer de verschillende behandelingen niet van tevoren duidelijk gespecificeerd een onderscheidbaar zijn.

Behandelingsdifferentiatie refereert aan het demonstreren dat verschillende behandelingen binnen een studie onderscheidbaar zijn en geen overlap vertonen op een aantal voorspelde dimensies. Het vaststellen van de behandelingsdifferentiatie (onderscheidbaarheid op sleutelkarakteristieken) is anders dan het vaststellen van de behandelingsintegriteit (zeker weten dat de behandelingen uitgevoerd werden zoals bedoeld).

Problemen bij het interpreteren van manipulatiechecks

Het checken van de manipulatie kan niet alleen belangrijke informatie verschaffen die de interpretatie van de bevindingen vergemakkelijkt, maar ook belangrijke richtlijnen voor verder onderzoek verschaffen. Het checken van de manipulatie brengt ook een risico met zich mee, namelijk wanneer er discrepanties zijn tussen wat er uit de manipulatiecheck komt en wat er uit de afhankelijke metingen komt. Dan levert de check ambiguïteit op.

Gevarieerde datapatronen

Bij het evalueren van de manipulatie in combinatie met de uitkomst op de afhankelijke metingen kunnen zich vier situaties voordoen (zie figuur 8.1 op bladzijde 222).

Effect op de manipulatiecheck en op de afhankelijke variabele

Deze situatie is niet moeilijk te interpreteren. Evaluatie van de manipulatie laat zien dat de onafhankelijke variabele goed gemanipuleerd is en dat deze een effect had op de afhankelijke meting (cel A in figuur 8.1)

Geen effect op de manipulatiecheck en op de afhankelijke meting

Bij deze situatie is er ook geen sprake van ambiguïteit (cel D in figuur 8.1). Uit de manipulatiecheck blijkt dat de proefpersonen de manipulatie niet hebben waargenomen of dat de manipulatie te zwak was. Verder blijkt dat er ook geen effect is waargenomen op de afhankelijke metingen. In deze situatie is de hypothese in feite niet getest en zal gezocht moeten worden naar een betere manipulatie of operationalisatie van de onafhankelijke variabele.

Effect op de manipulatiecheck, maar geen effect op de afhankelijke meting

Cel B in figuur 8.1 toont de situatie waarin evaluatie laat zien dat de manipulatie gelukt is, maar geen effect heeft gehad op de afhankelijke metingen. Dit is een klassiek gevalletje van ‘operatie geslaagd, maar patiënt overleden’. De hypothese is hierbij wel getest, maar de situatie is niet eenvoudig te interpreteren, omdat er ambiguïteit bestaat. Het kan zijn dat er geen relatie is tussen de on- en afhankelijke variabele. Het kan echter ook zijn dat de manipulatie wel geslaagd is, maar geen goede operationalisatie van de variabele blijkt te zijn of dat de manipulatie niet sterk genoeg was om effect te sorteren.

Geen effect op de manipulatiecheck, maar wel op de afhankelijke metingen

Deze situatie is voor een onderzoeker onwenselijk, maar voor een patiënt niet. De patiënt is namelijk beter geworden, alleen weet de onderzoeker niet waarom (cel C in figuur 8.1). Bij geen effect op de manipulatiecheck, maar wel op de afhankelijke variabelen is het namelijk onduidelijk wat het effect teweeg heeft gebracht en ligt het voor de hand dat andere factoren dan de onafhankelijke variabele verantwoordelijk is voor het effect.

De verandering op de afhankelijke metingen kan het gevolg van toeval zijn. Oftewel een fout van de eerste soort, waarbij de nulhypothese ten onrechte verworpen wordt.

Het kan ook zijn dat de check van de manipulatie zelf niet goed gemeten is. Bij het checken van manipulaties worden vaak geen gestandaardiseerde methodes gebruikt, maar methodes die gebaseerd zijn op ‘gezichtsvaliditeit’ (face validity). Die hun fundament vinden in logica, meer dan empirie. Het kan dus zijn dat de manipulatiecheck een ander construct representeert dan de onafhankelijke variabele.

Er zijn nog andere meetproblemen te bedenken. De proefpersonen hebben de informatie wel ontvangen, maar niet als relevant beschouwd en daardoor niet onthouden. Bij navraag kan die informatie niet gereproduceerd worden, de variabiliteit in antwoorden was te groot om statistisch significante verschillen tussen de groepen te laten zien, etc.

Algemene opmerkingen

Het verschil in patronen die het gevolg van een manipulatiecheck kunnen zijn, kan de onderzoeker ontmoedigen om er gebruik van te maken. Dit is jammer, want een manipulatiecheck kan, hoe ongewenst de uitkomst ook is, veel duidelijkheid verschaffen omtrent over hoe goed de hypothese is getest.

Speciale kwesties en overwegingen

Evaluatiekwesties

Veel zaken moeten in ogenschouw worden bij het beslissen over het wel of niet doen van een manipulatiecheck. Eén van die kwesties is de reactiviteit van de evaluatie en het belang van reactiviteit voor het experiment. Het checken van een manipulatie kan een proefpersoon wantrouwig maken over het experiment en vragen oproepen die normaal gesproken niet boven zouden komen. De manipulatiecheck kan zelfs proefpersonen sensitiseren (gevoelig maken) voor de manipulatie.

Een manier om geen wantrouwen op te wekken is door gebruik te maken van bondgenoten. Een proefpersoon kan voor een korte tijd alleen gelaten worden met een andere proefpersoon, die eigenlijk bij het onderzoek hoort, waarbij vragen worden gesteld als: “Weet jij waarom, we hier zijn?, Wat zou het eigenlijke doel van dit onderzoek zijn?” etc.

De beslissing om wel of geen manipulatiecheck te gebruiken hangt ook samen met de vraag of het belangrijk is of de proefpersonen doorhebben wat de onafhankelijke variabele is. Zoals eerder gezegd is het type van de manipulatie bepalend voor de manier en focus van de manipulatiecheck.

De invloed van niet gemanipuleerde variabelen

Naast het checken van de onafhankelijke variabele is het vaak ook nuttig om vast te kunnen stellen of er ook andere externe variabelen veranderd zijn gedurende het experiment. Het kan heel goed zijn dat de onafhankelijke variabelen op meer zaken een invloed had dan alleen op de afhankelijke variabele, die de resultaten zouden kunnen verklaren.

Nogmaals, het heeft geen nut om alle mogelijke externe factoren te onderzoeken. Alleen de factoren die op aannemelijke wijze kunnen bijdragen aan een alternatieve verklaring worden onderzocht.

Het excluderen van proefpersonen in de data-analyses

Wanneer door de manipulatiecheck wordt vastgesteld dat de manipulatie niet effectief is geweest, wil dit niet zeggen dat dit voor alle proefpersonen geldt. Het falen van het voortbrengen van een effect op de manipulatiecheck is geen geval van alles-of-niets. Het kan zijn dat het bij een gedeelte van de proefpersonen de manipulatie niet over is gekomen, maar bij andere wel.

Het is verleidelijk om die personen die geen effect lieten zien op de manipulatiecheck uit de analyses te laten. Bij hen is in wezen de hypothese niet getest. Het excluderen echter van deze personen brengt methodologische problemen met zich mee. Het kan namelijk zo zijn dat, na exclusie van de personen die geen effect lieten zien op de manipulatiecheck, de karakteristieken van de overgebleven selectie anders zijn dan die van de originele groepen die samengesteld zijn door random toewijzing. Wat kan leiden tot proefpersoonselectie bias.

De meest gepaste manier om om te gaan met proefpersonen die geen effect lieten zien op de manipulatiecheck is door ze gewoon mee te nemen in de analyses. Deze manier van toetsen wordt ook wel intent-to-treat analyse (bedoeld om te behandelen) genoemd. Intent-to-treat analyses worden meestal gebruikt bij uitval van proefpersonen. De laatst beschikbare meting wordt als uitgangspunt genomen voor alle andere metingen. De scores op de pretest worden herhaaldelijk gebruikt en blijven hetzelfde bij de posttest en follow-up meting. De intent-to-treat analyse heeft verschillende voordelen. Ten eerste, het behoud van alle proefpersonen voor de studie, zodat er geen selectie bias kan optreden, omdat de originele gerandomiseerde indeling intact blijft. Ten tweede, verschaft de analyse een conservatieve test van de hypotheses. Doordat de pretest gebruikt wordt bij de posttest treedt er geen verschil op, zijn er sterke effecten van de andere proefpersonen nodig om een relatie aan te tonen.

Hoewel intent-to-treat analyses het meest gebruikt worden bij proefpersoonuitval, zijn dezelfde punten toepasbaar bij personen die geen effect op de manipulatiecheck laten zien.

Een andere reden voor het niet buitensluiten van proefpersonen is dat de manipulatie wel gelukt kan zijn, maar niet opgemerkt is door de proefpersoon (cel C in figuur 8.1). In dit geval moeten de resultaten op de afhankelijke metingen niet totaal genegeerd worden.

Het ongepland uitvoeren van extra analyses is ook mogelijk. De intent-to-treat analyse is al genoemd. Als tweede mogelijkheid is er de manier om de personen met een effect op de manipulatie apart te nemen van de personen zonder effect en hen te vergelijken op de scores op de afhankelijke metingen. Als derde is ook het omgekeerde mogelijk door personen die het voorspelde effect op de afhankelijke variabele laten zien apart te nemen van de personen zonder het voorspelde effect en ze te vergelijken op de scores op de manipulatiecheck. Ook kan gekeken worden naar correlaties binnen groepen tussen de kwaliteit van de manipulatie en de mate van verandering.

Het bewerkstelligen van krachtige manipulaties

Het bewerkstelligen van een krachtige manipulatie wordt waarschijnlijk het best bereikt wanneer er voorwerk gedaan wordt door bijvoorbeeld een pilot uit te voeren. Pilot werk is een test of voorlopige poging tot het testen van aspecten van de procedure om te zien of alles werkt (procedures), uitvoerbaar is en een effect geeft (zowel op manipulatiecheck als afhankelijke meting).

Bij een pilot wordt meestal een klein aantal proefpersonen door de hele of gedeeltelijke testprocedure geleid. Deze personen kunnen na afloop geheel geïnformeerd worden over het doel van het onderzoek en aangeven op welke punten zij denken dat er veranderingen aangebracht kunnen worden om bijvoorbeeld minder wantrouwen op te roepen. Wat steeds meer gedaan wordt is het gebruiken van focusgroepen. Deze groepen bestaan uit individuen die bekend zijn met een speciale rol (consument, ouders, leerkrachten, adolescenten). Focusgroepen geven inzicht in de waarschijnlijkheid dat iets een impact zal hebben binnen de gebieden van de deelnemers.

Een pilot kan ook gebruikt worden om de manipulatie te checken en de check vervolgens in het werkelijke experiment achterwege te laten om sensitisatie te voorkomen.

Samenvatting en conclusies

De gepastheid waarmee een onafhankelijke variabele wordt gemanipuleerd is gradueel. Als de onafhankelijke variabele een effect heeft op de afhankelijke is dit meestal voldoende bewijs dat de manipulatie voldoenend is geweest. Toch is het wenselijk om aanvullende informatie te hebben om de manipulatie te kunnen evalueren. Een manipulatiecheck kan verkregen worden door te kijken in hoeverre de proefpersonen beïnvloed zijn door de bepaalde verandering in omstandigheden of in hoeverre de procedures waaraan ze blootgesteld zijn goed uitgevoerd zijn.

De manier waarop die check gedaan wordt hangt af van het type manipulatie. Veelal worden zelfrapportage vragenlijsten gebruikt. Bij manipulaties in verschillende behandelprogramma’s worden de therapeuten onderzocht en niet de proefpersonen. Het doen van een manipulatiecheck is zeer handig wanneer er geen verschil optreedt tussen de groepen op de afhankelijke variabele of wanneer het problematisch is om de verschillende condities onderscheidbaar te maken. Twee concepten die hiermee samenhangen zijn behandelingsintegriteit (treatment integrity), waarbij gekeken wordt of de behandelingen op de goede manier zijn aangeboden en behandelingsdifferentiatie (treatment differentation), waarbij gekeken wordt of de behandelingen verschilden van elkaar op de te verwachten dimensies.

In sommige gevallen kunnen zich problemen bij de interpretatie voordoen, wanneer de uitkomsten van de manipulatiecheck een ander patroon laten zien dan de afhankelijke metingen. Toch kan als een algemene regel gesteld worden dat het checken van de manipulatie heel erg bruikbaar kan zijn bij zowel het interpreteren van de resultaten als voor het doen van vervolgonderzoek. Interpretatieproblemen achteraf kunnen ondervangen worden door voorwerk te doen en een pilot uit te voeren.

In dit hoofdstuk werd de manipulatiecheck beschreven in samenhang met experimenteel onderzoek. In het volgende hoofdstuk zal observationeel onderzoek aan bod komen, waarbij de manipulatiecheck anders gedaan wordt. Bij beide vormen van onderzoek is het doel voor de onderzoeker hetzelfde, namelijk er zeker van zijn dat er een manipulatie heeft plaatsgevonden en op de manier zoals die bedoeld is.

Kernconcepten en -termen

De manipulatie checken Behandelingsintegriteit (treatment integrity)

Intent-to-treat analyses

Hoofdstuk 9: Observationeel onderzoek: case-control en cohort designs

In de voorafgaande hoofdstukken draaide het primair om designs waarbij een bepaalde conditie werd gemanipuleerd door de onderzoekers en om de controle- en vergelijkingsgroepen die vaak geïncludeerd worden. Bij veel onderzoek worden de proefpersoonkarakteristieken niet direct door de onderzoeker gemanipuleerd, maar door ‘de natuur’. Een onderzoeker evalueert dan de impact van die variabelen door proefpersonen te selecteren bij wie dat karakteristiek aanwezig is. Naar zulke studies wordt gerefereerd als observationeel onderzoek, en wordt onderscheiden van experimenteel onderzoek, omdat de rol van de onderzoeker meer een beschouwende is en niet een actieve interveniërende. Ook bij observationeel onderzoek is het doel om causale relaties vast te stellen.

Aanvankelijk werd aan observationele designs geen aandacht besteed tijdens een methodologie cursus. De traditie lag bij het uitvoeren van experimenten en correlationeel onderzoek had een lagere status. Om verschillende redenen is dit veranderd. Ten eerste omdat binnen veel onderzoeksvelden (psychologie, astronomie, economie, antropologie) experimentele manipulatie niet plaats kan vinden, omdat het om intacte groepen gaat. Het wel of niet hebben van een stoornis kan niet gemanipuleerd worden.

Ten tweede hebben andere disciplines het klinisch onderzoek binnen de psychologie sterk beïnvloed en de beschikbaarheid van onderzoeksdesigns uitgebreid. Vooral designs uit de epidemiologie en openbare gezondheidszorg zijn goed bruikbaar binnen de psychologie en psychiatrie. Binnen de epidemiologie is er een rijke traditie in het volgen van speciale groepen (rokers versus niet rokers) en verschillende designs en data-analyse strategieën zijn ontwikkeld. Deze designs zijn zo goed doorontwikkeld dat er zelfs causale verbanden mee vastgesteld kunnen worden.

Ten derde, omdat bij observationeel onderzoek meerdere variabelen bestudeerd kunnen worden, terwijl dat bij experimenteel onderzoek in beperkte mate kan. Bij observationeel onderzoek kan gekeken worden of bepaalde variabelen dynamisch, interactief of wederkerig met elkaar samenhangen. Ten vierde zijn de data-analytische strategieën (path analysis, structural equation models, logistische analyses, survival analysis) verbeterd, waardoor er sterkere conclusies kunnen worden getrokken.

Er zijn vele mogelijkheden voor observationeel onderzoek. In dit hoofdstuk worden de belangrijksten beschreven, die vaak gebruikt worden bij psychologisch onderzoek. Bij ieder design staan een aantal karakteristieken centraal, namelijk intacte groepen worden bestudeerd (geen randomisatie) en variabelen die niet direct door de onderzoeker gemanipuleerd kunnen worden.

Case-control designs

Bij case-control designs bestudeert de onderzoeker een bepaald karakteristiek door groepen te vormen uit personen die het karakteristiek in verschillende mate vertonen en door die groepen op een aantal kenmerken te onderzoeken. Het hoofdkenmerk is dat groepen geïdentificeerd worden die variëren op de uitkomstmaat (criterium), dat is personen die het ‘probleem’ hebben. Het woord ‘case’ wordt gebruikt voor mensen die het probleem vertonen of de ziekte of het symptoom hebben.

In de meest basale versie van het design vergelijkt de onderzoeker twee groepen, de personen die het karakteristiek vertonen (cases) met de personen die dat karakteristiek niet vertonen (controls). De onafhankelijke variabele is het karakteristiek of het criterium dat dient als basis voor de selectie (het oudste kind, misbruikt, gescheiden zijn). De onderzoeker vergelijkt de groepen op het criterium en interpreteert de verschillen om een kritiek facet van het probleem te belichten.

Twee varianten van de case-control study zijn het waard om genoemd te worden, het cross-sectionele design en het retrospectieve design.

Cross-sectioneel design

Bij een cross-sectioneel case-control design worden de proefpersonen geselecteerd en geëvalueerd in relatie tot huidige karakteristieken. Dit wordt onderscheiden van retrospectieve studies die gebeurtenissen uit het verleden evalueren of prospectieve studies die gebeurtenissen die in de toekomst kunnen optreden onderzoeken. Het doel van een cross-sectionele case-control studie is om factoren te bestuderen die samenhangen met het criterium. Het design kan gebruikt worden om te beschrijven en te exploreren (hoe zien de vriendschaps- en familierelaties eruit bij jonge vrouwen die onzeker zijn over hun uiterlijk versus jonge vrouwen die zeker zijn?) of om theoretische voorstellen of conceptuele modellen te testen (eerst- en tweede geborenen kunnen vergeleken worden om een hypothese over verschillende hechtingspatronen in huidige volwassen relaties te toetsen).

Doordat alle data op hetzelfde moment worden verkregen, kan het design alleen correlationele verbanden vaststellen. Tijdigheid of causaliteit kan niet bepaald worden. Toch zijn er provocatieve bevindingen gedaan met case-control designs die bijgedragen hebben aan theorievorming en verder onderzoek.

Retrospectief design

Het doel van een retrospectief case-control design is het trekken van conclusies aangaande een voorafgaande conditie die heeft geresulteerd in of samenhangt met de uitkomst. Bij dit design is het doel om een tijdslijn tussen de mogelijke oorzaken of antecedenten (risicofactoren) en de uitkomst te identificeren. Proefpersonen worden geselecteerd die de uitkomst al vertonen (cases) en worden vergeleken met personen die die uitkomst niet vertonen (controls). Tot zover is dit hetzelfde als het cross-sectionele design, behalve dat bij een retrospectieve studie het verleden van alle proefpersonen wordt onderzocht.

Als algemene regel geldt dat een retrospectief design correlaties kan identificeren. De reden hiervoor is dat bij het terughalen van gebeurtenissen zich allerlei problemen kunnen voordoen, die het benoemen van een variabele tot risicofactor of oorzaak in de weg staan. Wanneer bijvoorbeeld een samenhang tussen onveilige hechtingspatronen inde kindertijd en suïcidaliteit in de adolescentie gevonden wordt, zou het kunnen zijn dat er eerst een onveilige hechting was en later suïcidaliteit. Maar het kan ook zo zijn dat suïcidale jongeren vanwege hun depressie negatiever terugkijken op hun vroege jeugd.

Als algemene regel kan gesteld worden dat psychologische toestandsbeelden (familieconflicten, psychische gezondheid, problemen in de kindertijd), tijdsperiodes, niveaus en data van specifieke gebeurtenissen zich slecht laten herinneren, terwijl het oproepen van specifieke gebeurtenissen (aantal verhuizingen) iets beter gaan.

Overwegingen bij het gebruik van case-control designs

Tabel 9.1 op bladzijde 239 noemt een aantal sterktes en zwaktes van case-control designs.

Sterktes

Goed geschikt bij het bestuderen van condities of karakteristieken die relatief weinig voorkomen.
Efficiënt in het gebruik van hulpmiddelen en tijd vanwege het cross-sectionele karakter.
Geen uitval, omdat er één meetmoment is.
In staat om de grootte en het type van de relatie vast te stellen (directe invloed, modererende invloed).
Stelt de onderzoeker in staat om proefpersonen te matchen op een van de variabelen die getest werd en die de resultaten kan beïnvloeden.
Kan de rol van confounders uitsluiten of ongeloofwaardig maken.
Kan hypotheses genereren aangaande causale relaties of volgordes van karakteristieken en hoe dezen tot een probleem kunnen leiden.

Zwaktes

Tijdigheid kan niet aangetoond worden.
Causale relaties kunnen niet direct gedemonstreerd worden, hoewel verschillende analyses (dosis-respons relaties) een sterke basis voor hypotheses over deze relaties kunnen verschaffen.
Steekproef biases kunnen optreden, afhankelijk van hoe de cases (bv. depressieve personen)geïdentificeerd zijn en of een speciaal karakteristiek (bv. aanmelden bij een kliniek) toegevoegd is.

Cohort designs

Een cohort design refereert aan de strategie waarbij een onderzoeker een intacte groep volgt in de tijd (= prospectief). De term ‘prospectieve longitudinale studie’ wordt ook wel gebruikt. Twee duidelijke verschillen zijn er ten opzichte van de case-control studie. 1) Cohort designs volgen proefpersonen over de tijd om factoren te identificeren die leiden tot (antedateren) een bepaalde uitkomst. 2) De groep wordt onderzocht voordat de uitkomst (bv. depressie) zich voorgedaan heeft.

De sterkte van een cohort design ligt in het vaststellen van relaties tussen voorafgaande gebeurtenissen en uitkomsten. Doordat personen over de tijd gevolgd worden kan men met zekerheid vaststellen dat een karakteristiek voor de uitkomst aanwezig was. Ten overvloede: een temporele relatie houdt nog geen oorzakelijk verband in, maar dit design geeft wel goede aanwijzingen voor zo’n relatie, die bij verder onderzoek uitgediept kan worden. Het cohort design kent vele variaties. Er worden er hier drie besproken.

Enkelvoudige groep cohort design

Een cohort studie begint met het identificeren van een groep proefpersonen die over de tijd gevolgd kunnen worden. Hiernaar wordt gerefereerd als een enkelvoudige groep cohort design, omdat alle mensen die aan een bepaald criterium voldoen geselecteerd worden (iedereen uit hetzelfde geboortejaar, alle patiënten van een lokaal ziekenhuis). De groep wordt geselecteerd om het optreden van een latere uitkomst (een stoornis, succesvolle carrière, verslaving) te onderzoeken. Een basisvoorwaarde hierbij is dat er minimaal twee keer een meting wordt gedaan en dat een substantieel aantal personen veranderd zijn op de bepaalde uitkomstmaat. Het doel van een cohortstudie kan ook omschreven worden als het vormen van subgroepen binnen een enkelvoudige groep.

De term longitudinaal kan misleidend zijn en begrepen worden als een noodzaak tot het jaren volgen van proefpersonen. Dit hoeft niet noodzakelijkerwijs zo te zijn. De term longitudinaal betekent alleen dat personen in de tijd gevolgd worden, meestal een jaar tot drie jaar.

Designs die wel voor een lange periode proefpersonen volgen zijn de geboortecohort studies (birth-cohort studies). Bij deze studies worden kinderen bij de geboorte geselecteerd en voor een lange tijd gevolgd, dit kan oplopen tot 10, 20 of 30 jaar. Verscheidene metingen worden op verschillende momenten in de tijd gedaan. Voorafgaande gebeurtenissen op verschillende momenten van de kindertijd en adolescentie kunnen latere uitkomsten (bv. psychopathologie, criminaliteit) voorspellen.

De kosten die samenhangen met het uitvoeren van geboortecohort studies zorgt ervoor dat ze maar weinig uitgevoerd worden

Meerdere groepen cohort design

De meerdere groepen cohort design (multigroup cohort design) is een studie waarbij minimaal twee groepen bij het eerste meetmoment (Tijd 1) onderscheiden worden en over de tijd gevolgd worden om een bepaalde uitkomst te onderzoeken. Eén groep wordt geselecteerd omdat zij een bepaald karakteristiek vertoont en de andere geïdentificeerde groep niet. Tot zover lijkt dit op een case-control design. Het grote verschil is dat een case-control studie groepen selecteert op basis van de aan- of afwezigheid van een bepaalde uitkomst en een multigroup cohort design selecteert groepen op basis van blootstelling aan een risicofactor en volgt de groepen om te zien wat de uitkomst is. Het verschil zit dus in de prospectiviteit.

Geaccelereerd multicohort longitudinaal design

Bij een geaccelereerd multicohort longitudinaal design worden meerdere groepen (cohorten) op een speciale manier prospectief en longitudinaal bestudeerd. Het hoofdkenmerk van dit design is dat de cohorten verschillen in leeftijd bij het begin van de studie. De term geaccelereerd wordt gebruikt, omdat de tijdsperiode waarin men geïnteresseerd is (verloop van een variabele over 10 jaar) ingekort kan worden. Dit wordt bereikt door groepen te includeren die ieder een aparte proportie van de totale tijdsspanne vertegenwoordigen.

Figuur 9.1 op bladzijde 247 laat een voorbeeld zien van een geaccelereerd multicohort design. Wanneer men bijvoorbeeld geïnteresseerd is in de ontwikkeling van een bepaalde karakteristiek bij kinderen van 5 tot 14 jaar, dan kan men één groep negen jaar volgen, maar men kan ook drie verschillende groepen maken van kinderen van 5, 8 en 11 jaar en dezen voor 3 jaar volgen. Dit design behelst een cross-sectionele component, waarbij de groepen vergeleken worden op de eerste meting. Bij de eindmeting zijn de vijfjarigen inmiddels acht en de achtjarigen elf. Bij dit design zijn er dus uiteindelijk twee groepen van acht en elf jaar. De longitudinale component onderzoekt de ontwikkeling van het karakteristiek over de tijd.

Een geaccelereerd design is bedoeld om twee prangende kwesties te adresseren. Allereerst stelt dit design de onderzoeker in staat om te bekijken of bepaalde karakteristieken van een cohort het gevolg zijn van historische gebeurtenissen of de tijdsgeest. Door cohorten uit verschillende leeftijdsgroepen te gebruiken kan dit probleem omzeild worden. De eerste groep achtjarigen kan vergeleken worden met de tweede groep achtjarigen om te kijken of er karakteristieken zijn die zich beperken tot een bepaalde cohort.

Ten tweede is een voordeel dat de looptijd van het onderzoek verkort kan worden.

Overwegingen bij het gebruik van cohort designs

Tabel 9.2 op bladzijde 249 noemt een aantal sterke en zwakke punten van cohort designs.

Sterktes

Kan goed een tijdslijn vaststellen (het antecedent komt voor een bepaalde uitkomst).
Meting van de antecedenten gebeurt unbiased van de uitkomst (bv. huidige depressiviteit kan terugkijken niet beïnvloeden).
Meerdere methodes en metingen kunnen op verschillende tijdspunten ingezet worden om de voorspellers die de koers in kaart brengen te meten.
Alle permutaties kunnen bestudeerd worden in relatie tot de antecedenten (wel of niet aanwezig op T1) en de uitkomst (personen lieten wel of niet de uitkomst op T2 zien). (Zie voor een voorbeeld figuur 9.2 op blz. 250.)
Werkt goed bij het genereren en testen van hypotheses aangaande risico-, beschermende en causale factoren.

Zwaktes

Prospectieve studies kunnen een behoorlijk lange looptijd hebben, waardoor antwoorden op prangende vragen op zich laten wachten.
Studies die een lange looptijd hebben kunnen kostbaar zijn in termen van personeel en middelen. Het binnenhouden van proefpersonen kan tijdrovend zijn.
Uitval kan een bias opleveren in de steekproef.
Cohorteffecten kunnen als moderator optreden. Dit wil zeggen dat de bevindingen alleen gelden voor dit specifieke cohort.
De uitkomst waarin men geïnteresseerd is kan weinig voorkomen (low base rate), waardoor statistische power en steekproefgrootte een kwestie kunnen vormen bij het evalueren van de uitkomst.

Kritische overwegingen bij het ontwerpen en interpreteren van observationele studies

Bij observationele studies zijn het isoleren van het te bestuderen construct en de richting van de invloed van voorspellers en uitkomsten belangrijke kwesties om rekening mee te houden (zie tabel 9.3 op blz. 253).

Het specificeren van het construct

Niveau van specificiteit van het construct

Het ligt voor de hand dat een te bestuderen construct nauwkeurig beschreven en gespecificeerd moet zijn. Brede en globale variabelen als leeftijd, geslacht, sociale klasse en culturele achtergrond lenen zich niet goed als fundament van het onderzoek. Met bijvoorbeeld de variabele sociaal economische status (SES) hangt een scala aan andere variabelen samen (hogere mate van fysieke en mentale aandoeningen, korter leven). Het is van belang om een brede variabele te ontleden en tot een specifiek construct te komen dat mogelijk het proces waardoor de uitkomst optreedt verklaart.

Operationaliseren van het construct

Een onderdeel van het specificeren van een construct is het bepalen van de operationele criteria voor het scheiden van de groepen. Wat wordt het specifieke criterium waarop de cases van de controls gescheiden worden?

Het vertrouwen op één enkel instrument is risicovol bij het operationaliseren van een construct. Bepaalde instrumenten zijn zo goed onderzocht, wijdverbreid en doorontwikkeld dat zij als enkelvoudige meting acceptabel zijn. Toch kan in het algemeen gesteld worden dat het prettig is om meerdere operationele definities te gebruiken.

Welke vorm van meting er ook gebruikt wordt bij een operationeel criterium, het is van belang dat het een betrouwbaar instrument is. Bij instrumenten die geen goed onderscheid kunnen maken tussen cases en controls kan diffusie van de variabele optreden wat een bedreiging voor de interne validiteit oplevert.

Het selecteren van groepen

Speciale kenmerken van de steekproef

De hoofdvraag die gesteld moet worden bij het selecteren van de steekproef is: “Wat is de populatie waaruit de cases getrokken zullen worden?” Cases die getrokken worden uit een klinische steekproef, vertonen wellicht bepaalde karakteristieken die niet representatief zijn voor de grotere samenleving.

Het selecteren van gepaste controles

Niet alleen het selecteren van de cases is belangrijk bij een case-control design. Bij het selecteren van de controles moet de onderzoeker in staat zijn om uit te leggen waarom deze controlegroep geselecteerd is en waarom deze het meest passend is voor de studie. Anders gezegd, voor welke invloeden of constructen is deze groep bedoeld te controleren?

In veel gevallen is het gebruik van controles uit de samenleving het meest gepast. Hoewel er rekening mee gehouden moet worden dat klinische symptomen ook binnen de algemene bevolking voorkomen.

Mogelijke confounders

Bij het onderscheiden van de groepen zijn een aantal vragen van belang. Zijn de groepen met en zonder het te bestuderen karakteristiek gelijk op proefpersoon- en demografische variabelen (leeftijd, geslacht etc.)? Deelt de controlegroep al de karakteristieken, behalve de te bestuderen, met de cases? Zo niet, hoe worden die andere karakteristieken geëvalueerd, voor gecontroleerd en geadresseerd?

Zoals eerder vermeld kunnen confounders zeer informatief zijn en werken als een moderator van een relatie of construct. Verschillende statistische analyses (path analyses, structural equation modelling) zijn voorhanden om de relatie te evalueren.

Tijdslijn en causale gevolgtrekkingen

Bij observationele studies moet de onderzoeker alert zijn op de conclusies die er getrokken worden naar aanleiding van de bevindingen. Is de gevonden relatie correlationeel, temporeel (risicofactor) of causaal?

Algemene opmerkingen

De taak van de onderzoeker is bij observationeel onderzoek hetzelfde als bij experimenteel onderzoek, namelijk om van te voren te bepalen wat voor soort conclusies men wil trekken. De precisie van de uitlatingen bepaalt de hoofdkenmerken van de steekproef, groepsformatie, het design en de data-analyses. Het gebruik van observationele designs vereist vernuft en creativiteit.

Een laatste opmerking aangaande het onderwerp experimenteel versus observationeel onderzoek, is dat een combinatie van de twee ook mogelijk is. De hypothese die hierbij hoort is dat twee gescheiden groepen (jonge onderzoekers en ervaren onderzoekers) anders zullen reageren op een experimentele manipulatie (een taak die erop gericht is om empathie op te wekken).

Samenvatting en conclusies

Bij observationeel onderzoek evalueert een onderzoeker variabelen door groepen te selecteren in plaats van een variabele te manipuleren. Het doel is om samenhangen tussen variabelen vast te stellen, die correlationeel, temporeel of causaal kunnen zijn. Een studie kan exploratief en beschrijvend zijn, maar ook door theorie gestuurd worden en hypothese testend zijn.

Case-control studies zijn beschreven, waarbij groepen die variëren op een uitkomstmaat geselecteerd worden en vergeleken worden op een aantal karakteristieken met een groep die de uitkomst niet vertoont. Deze karakteristieken kunnen nu aanwezig zijn (cross-sectioneel) of in het verleden hebben plaatsgevonden (retrospectief). Dit design is nuttig bij het ontrafelen van patronen. Een nadeel is dat er weinig gezegd kan worden over hoe de uitkomst bereikt wordt (het pad).

Cohort studies zijn zeer bruikbaar bij het vaststellen van een tijdlijn, dat is het definiëren van antecedenten en voorspellers. Bij een single-group cohort design wordt een groep die de uitkomst nog niet vertoont in de tijd gevolgd om te zien wie er op een later tijdstip de uitkomst gaat vertonen. Vervolgens worden er groepen gevormd en bekeken welke antecedenten de uitkomst voorspellen. Men begint met één groep, maar vormt later meerdere. Een accelerated, multicohort longitudinal design is een versnelde vorm van een meerdere groepen design en volgt meerdere leeftijdsgroepen over de tijd.

Case-control studies en cohort designs zijn binnen andere disciplines ontwikkeld, maar tegenwoordig wijdverbreid binnen de psychologie. De designs lenen zich goed voor het definiëren van de opererende mechanismen die tot een uitkomst leiden (mediators) en de karakteristieken van de mate van de uitkomst en voor wie (moderators).

Kritieke kwesties zijn belicht bij het ontwerpen en interpreteren van observationele studies, zoals het belang van het specificeren van het construct, het selecteren van cases en controls, het adresseren van mogelijke confounders en het trekken van causale gevolgtrekkingen.

Kernconcepten en -termen

Geboorte-cohort studie Cohort design

Case-control design Prospectieve studie

Cohort Retrospectieve studie

Hoofdstuk 10: De gevalsbeschrijving en enkelvoudige casus onderzoeksdesigns

Vanuit de traditie richt psychologisch onderzoek zich op het bestuderen van groepen. De definitie van onderzoeken richt zich echter op een benaderingswijze voor het evalueren van een fenomeen en het trekken van valide conclusies aangaande dat fenomeen, en noemt niets over het gebruik van groepen. Men kan zelfs zover gaan door te stellen dat bevindingen die gedaan worden bij groepen niet noodzakelijkerwijs meer generaliseerbaar zijn dan die bij een individuele casus.

Binnen de psychologie refereert de naam gevalsbeschrijving (case study) aan een ongecontroleerde en anekdotische gevalsbeschrijving van waaruit geen valide gevolgtrekkingen gedaan kunnen worden. Ook hier geldt dat een case study wel degelijk zijn waarde kan hebben bij het genereren van hypotheses en theorievorming.

Aan het andere extreem van de losse gevalsbeschrijvingen vindt men de enkelvoudige casus experimentele designs (single-case experimental designs). Het unieke kenmerk van deze designs is dat er experimenten uitgevoerd worden bij een individueel geval. De logica achter dit design zit in hoe de data wordt verzameld en niet zozeer bij de hoeveelheid proefpersonen. Het kan best zijn dat een grote groep binnen een enkelvoudig casus design valt.

De gevalsbeschrijving (case study)

De hoofdconcepten van een case study zijn:

Het intensief bestuderen van een persoon. Hoewel dit een individuele persoon, familie, groep, instantie, staat, land of andere unit kan zijn.
De informatie is rijk aan details, vaker in verhalende vorm dan als scores op afhankelijke maten.
Veel inspanning wordt geleverd om de complexiteit en de nuances van een geval weer te geven (contexten, invloed van andere personen, speciaal of uniek kenmerk dat zich alleen in dit geval voordoet).
De informatie is vaak retrospectief; invloeden uit het verleden worden gebruikt om een huidige staat te verklaren, maar men begint met de huidige situatie.

De waarde van de gevalsbeschrijving

Het gebrek aan gecontroleerde condities en het ontbreken van objectieve maten (betrouwbaar, repliceerbaar, valide) heeft de gevalsbeschrijving uitgesloten als onderzoeksgereedschap. Toch heeft de case study ook mogelijkheden opgeleverd als unieke bron van informatie die theorie, onderzoek en praktijk complementeert of verdiept. Gevalsbeschrijvingen hebben gediend als:

1) een bron van ideeën en hypotheses aangaande de menselijke uitingen en ontwikkeling;

2) een bron voor het ontwikkelen van therapeutische technieken;

3) een mogelijkheid tot het bestuderen van zeldzame fenomenen;

4) een waardevol middel om gangbare theoretische oogpunten te weerleggen en

5) als een overtuigend en motiverend middel om abstracte principes concreet en in het oog springend te maken.

Gevalsbeschrijvingen zijn vaak dramatisch doordat de casus speciaal om die reden geselecteerd is. Het maakt meer indruk wanneer iemand 50 kilo kwijtraakt dan wanneer iemand 10 kilo afvalt. De vier functies van een case study zijn dan ook, te informeren, intrigeren, inspireren en aansporen.

Voorbeelden van beroemde case studies

Er zijn voorbeelden van gevalsbeschrijvingen die enorme impact gehad hebben op onder andere theorievorming. Een heel bekende is Anna O, een 21 jarige patiënte van Joseph Breuer, een collega van Sigmund Freud. Uit deze gevalsbeschrijving is de praattherapie (talk therapy) ontstaan.

Een beroemde case study, die veel heeft bijgedragen aan de kennis rondom cognitieve en persoonlijkheidsfuncties is het geval van Phineas Gage. Gage was een 25 jarige man die tijdens het werken aan een treinspoor door een ongeval met een explosief een ijzeren staaf door zijn hoofd geboord kreeg. De staaf ging helemaal door de schedel heen en landde een stuk verderop. De man was bij bewustzijn en kon aan de arts vertellen wat er gebeurd was. Bij follow-up consulten bleek dat de man veranderd was qua persoonlijkheid en dat mensen om hem heen hem niet meer kenden.

Beperkingen van de gevalsbeschrijving

De eerste beperking van een gevalsbeschrijving is dat de methode sterk rust op anekdotische informatie, waarbij klinisch oordeel en interpretatie een grote rol spelen. Verder worden er conclusies getrokken uit zaken die de cliënt rapporteert. De tweede beperking is dat alternatieve interpretaties veelvoudig voor handen zijn om de huidige toestand van een cliënt te verklaren. Het derde probleem is de generaliseerbaarheid. De generaliseerbaarheid kan iets verhoogd worden door de bevindingen van losse gevalsbeschrijvingen te combineren (te aggregeren).

Single-case experimental designs: kernkarakteristieken

Bij een experimentele gevalsbeschrijving kan men zuivere experimenten uitvoeren en daarmee kan men causale relaties demonstreren en voor bedreigingen voor de interne validiteit controleren. Vaak wordt de proefpersoon op verschillende momenten aan verschillende condities blootgesteld. Tabel 10.2 op bladzijde 274 noemt een aantal hoofdkenmerken van de single-case experimental design.

Continue evaluatie

Definitie

Observaties vinden op meerdere momenten in de tijd plaats, vooraf en tijdens de periode waarbij de interventie wordt aangeboden.

Doel

Basisinformatie verzamelen waarvan de data-evaluatie en interventiefases afhangen. Beslissingen (bv. aangaande de effectiviteit) worden genomen op basis van continue evaluaties.

Baseline evaluatie

Definitie

Evaluatie van een bepaalde periode voorafgaand aan de implementatie. De baseline fase.

Doel

Het beschrijven (descriptive function) van het huidig functioneren en het voorspellen (predictive function) van het waarschijnlijke functioneren in de nabije toekomst wanneer de interventie niet plaats zal vinden (zie figuur 10.1 op blz. 276).

Stabiliteit van de uiting

Definitie

Een stabiele uiting wil zeggen dat de uiting weinig variabiliteit vertoont over de tijd.

Doel

Het toestaan van projecties van uitingen naar de nabije toekomst en het evalueren van de impact van een erop volgende interventie. Zeer instabiele (hoog fluctuerende) uitingen en een trend (geleidelijk verval in een bepaalde richting) tijdens de baseline periode, die in dezelfde richting bewegen als men hoopt dat de interventie zal doen, interfereren met de evaluatie. Voor een visuele weergave van fluctuaties en trends, zie figuur 10.2 op bladzijde 277 en figuur 10.3 op bladzijde 279.

Gebruik van verschillende fases

Definitie

Fases zijn tijdsperiodes waarin een bepaalde conditie geïmplementeerd wordt en data verzameld wordt.

Doel

Te testen of de uitingen in het voorspelde patroon blijven als in een vorige fase of dat de uitingen veranderen bij het aanpassen van de interventie of andere omstandigheden. Conclusies kunnen getrokken worden aangaande de effecten vanuit het datapatroon.

Belangrijkste experimentele design strategieën

Een hoofdkenmerk van een enkelvoudige casus design is de manier waarop de interventie gepresenteerd en over de tijd geëvalueerd wordt. Verschillende manieren worden hier besproken.

ABAB designs

Beschrijving

Een ABAB design is een experimentele opstelling waarbij continue observaties van de uitingen in de tijd plaatsvinden bij een bepaalde cliënt. Tijdens de loop van onderzoek worden er veranderingen aangebracht in de experimentele condities waaraan de cliënt wordt blootgesteld. Twee gescheiden fases alterneren in de tijd, namelijk de baseline fase (fase A) en de interventie fase (fase B). A en B worden herhaald om de vier fases te complementeren. De effecten van de interventie worden zichtbaar wanneer de uitingen verbeteren tijdens de eerste interventie fase , terugkeren naar baseline niveaus wanneer de interventie gestaakt wordt en weer verbeteren wanneer de interventie opnieuw aangeboden wordt.

Fase B wordt pas aangeboden wanneer de uitingen tijdens fase A stabiel zijn. Hetzelfde geldt voor het opnieuw installeren van fase A. Dit gebeurt pas wanneer de uitingen tijdens de interventie fase stabiel zijn. De terugkeer naar baseline uitingen tijdens de tweede A fase wordt ook wel de omslagfase genoemd.

Een ABAB design is lid van een familie van experimentele opstellingen en daarom hoeft er niet strak vast gehouden te worden aan vier fases. Soms worden ook ABA designs gebruikt.

Overwegingen

In sommige gevallen worden er meerdere interventies aangeboden. Bijvoorbeeld in het geval dat de eerste interventie (B1) niets blijkt te veranderen, kan een tweede interventie (B2) geprobeerd worden. Dit wordt als volgt genoteerd: AB1B2AB2.

De centrale voorwaarde bij dit design is dat de gedragsniveaus stabiel zijn. Er kunnen alleen aanwijzingen zijn voor een causaal verband wanneer er een duidelijk patroon ontstaat en niet een patroon waarbij fluctuaties en trends die zichtbaar waren bij baseline zich voortzetten in de B fase.

De tweede voorwaarde is dat uitingen tijdens de tweede baseline fase moeten terugkeren naar baseline maakt dat dit design niet geschikt is voor onderzoek binnen de psychotherapie waarbij de therapeuten en cliënten hopen dat beëindiging van een therapie niet leidt tot terugval naar baseline niveau.

meerdere baselines design (multiple baselines designs)

Bij meerdere baselines designs worden aparte baselines genomen voor verschillende gedragingen. Bij het introduceren van de eerste interventie wordt er alleen ingezet op één gedraging. De gedragingen worden wel allemaal geobserveerd. Bij de volgende fase richt de interventie zich vervolgens op twee gedragingen, enzovoort. Het effect van de interventie wordt gedemonstreerd door het vertonen van een veranderingspatroon bij het introduceren van de interventie (zie figuur 10.6 op blz. 285 voor een voorbeeld).

Er zijn verschillende versies van het multiple-baseline design. Wat ze met elkaar gemeen hebben is dat de data continu en tegelijkertijd over de verschillende baselines worden verzameld. Het voorbeeld beschrijft de variant waarbij de baseline verschillende gedragingen representeert. Andere ontwerp opties zijn dat de baselines hetzelfde gedrag representeren maar over verschillende individuen of hetzelfde baseline gedrag maar over verschillende situaties.

Voor alle varianten geldt dat de effectiviteit van een interventie getoond wordt wanneer gedragsverandering alleen optreedt na introductie van die interventie.

Overwegingen

Het multiple-baseline design demonstreert een effect zonder dat er teruggekeerd hoeft te worden naar baseline omstandigheden en laat een temporeel verlies zien van sommige verbeteringen die eerder zijn opgetreden.

Het aantal benodigde baselines is mogelijk afhankelijk van de interafhankelijkheid van de baselines. Gedragsverandering kan alleen optreden bij het introduceren van de interventie. Als gedrag al eerder verandert is het mogelijk dat externe factoren verantwoordelijk zijn en niet de interventie. In sommige gevallen kan het zo zijn dat een interventie algemeen is versus specifiek, zodat een verandering op de ene gedraging een verandering in een andere teweeg brengt (gegeneraliseerd effect). Wanneer dit gebeurt kan er een kenmerk van een ander single-case design (bv. een korte terugkeer fase) toegevoegd worden in aparte experimentele fases om een causale relatie aan te tonen.

Het voordeel van een multiple-baseline design is dat het makkelijk toepasbaar is. De interventie wordt gradueel aangeboden over verschillende responsen.

Criterium-veranderende designs (changing-criterion design)

Beschrijving

Het criterium-veranderende design demonstreert het effect van een interventie door te tonen dat veranderingen op een bepaald criterium in snelheid of aantal toenemen. Een causale relatie tussen gedrag en interventie is aangetoond wanneer het gedrag overeenkomt met een constant veranderend uitingscriterium gedurende de koers van de behandeling.

Bij dit design wordt begonnen met een baseline fase waarna de interventie wordt geïntroduceerd. Bij het introduceren van de interventie wordt met de cliënt een specifiek niveau van gedrag als criterium genomen (aantal sigaretten per dag roken, aantal calorieën per dag eten). Het dagelijkse criterium wordt gebruikt als basis voor consequenties van het gedrag in de vorm van bijvoorbeeld een beloning. Wanneer het gedrag het criterium bereikt of voorbij gaat, wordt de consequentie toegediend.

Wanneer het gedrag een continu niveau bereikt voor minimaal twee dagen, wordt het criterium strenger gemaakt (minder sigaretten of calorieën). Het criterium wordt aangepast totdat de doelen van de behandeling behaald zijn. Als de gedragsverandering hetzelfde patroon laat zien als de criterium verandering (trapsgewijs) dan kunnen de veranderingen toegeschreven worden aan de interventie en niet aan externe factoren die waarschijnlijk niet trapsgewijs opereren.

Het changing-criterion design kan zeer bruikbaar zijn binnen een klinische setting. Vooral omdat behandelinterventies inzetten op een graduele verandering.

Algemene opmerkingen

Voordelen van single-case designs

Single-case designs bieden de mogelijkheid om empirisch te testen bij een individuele client. Door nauwkeurige evaluatie van een behandeling is het mogelijk om een totaal behandelpakket te evalueren door verschillende componenten op verschillende tijden aan te bieden.

Een ander voordeel is dat er problemen bestudeerd kunnen worden die bij tussen-groepsvergelijkingen niet bestudeerd kunnen worden. Bepaalde klinische aandoeningen (bv. transseksualiteit) zijn relatief zeldzaam en lenen zich niet voor grootschalige projecten.

Nadelen van single-case designs

De designs zijn zwak in het identificeren van proefpersoonkarakteristieken die de effecten van de behandeling kunnen modereren, doordat er maar van één proefpersoon gebruik wordt gemaakt.

Verder lijkt de generaliseerbaarheid een in het oog springend probleem, maar hoeft dit niet te zijn. Generaliseerbaarheid kan bij grootschalige projecten een even groot probleem zijn. Daarbij komt nog dat bij single-case designs vaak sterke effecten aangetoond worden die juist aanwijzingen geven voor het doortrekken naar andere personen.

Data-evaluatie bij single-case onderzoek

Hoewel er wel statistische toetsen voor single-case designs beschikbaar zijn (time-series analysis, randomisatie tests), worden die vaak niet gebruikt. Data-evaluatie bij single-case designs gebeurt over het algemeen niet-statistisch. Nonstatistical evaluation refereert naar het bestuderen van de data en het vaststellen of een interventie effect had op basis van visuele inspectie. Gezocht wordt naar specifieke patroonsveranderingen in de data die overeenkomen met het ingaan van de verschillende fases.

Criteria voor visuele inspectie

Het evalueren van data op niet-statistische wijze heeft hetzelfde doel als statistisch evalueren, namelijk het identificeren van effecten die consistent, betrouwbaar en waarschijnlijk niet toe te schrijven aan fluctuaties tussen de groepen (valide) zijn.

Visuele inspectie hangt af van verschillende karakteristieken van de data, maar vooral van die die betrekking hebben op de grootte (amplitude) van de veranderingen tussen de fases en de snelheid van de veranderingen. De twee kenmerken die gerelateerd zijn aan de grootte van het effect, zijn veranderingen in het gemiddelde en het niveau. De twee kenmerken gerelateerd aan de snelheid zijn helling en latentie van de verandering (latency of the change).

Veranderingen in gemiddelden worden gedefinieerd als het zichtbaar worden van een verandering in het gemiddeld voorkomen van het gedrag tussen de fases in de verwachtte richting (voor een visuele weergave zie figuur 10.8 op blz. 293).

Veranderingen in niveau refereren aan de verschuiving of discontinuïteit van de uiting vanaf het einde van de ene fase tot het begin van de volgende fase. Een verandering van niveau staat los van een verandering in gemiddeldes (voor een visuele weergave zie figuur 10.9 op blz. 293).

Veranderingen in de helling worden gedefinieerd als een verandering van richting van de helling van fase tot fase, zoals bijvoorbeeld het vertonen van geen helling (horizontale streep) bij baseline en het vertonen van een accelererende helling tijdens de interventie fase (voor een visuele weergave zie figuur 10.10 op blz. 294).

Latentie van de verandering (latency of the change) refereert aan de snelheid waarmee een verandering optreedt, zodra de omstandigheden veranderd worden (baseline naar interventie, interventie terug naar baseline). Oftewel, er wordt gekeken of de verandering onmiddellijk na het introduceren van de interventie optrad of pas na een bepaalde periode (voor een visuele weergave zie figuur 10.11 op blz. 295). Als algemene regel geldt dat hoe later in de interventie fase verandering optreedt, hoe meer kans er is dat externe factoren bijgedragen hebben aan het effect.

Visuele inspectie is het eenvoudigst bij niet-overlappende data. Niet-overlappend wil zeggen dat de datapunten van de baseline fase geen enkel datapunt van de experimentele fase benaderen.

Problemen en overwegingen

Visuele inspectie is zeer bruikbaar bij het identificeren van betrouwbare interventie-effecten. Wanneer de interventie-effecten krachtig zijn, wordt de benodigdheid van statistische evaluatie ondervangen. Interventie-effecten kunnen zeer duidelijk gemaakt worden door een grafische weergave van de data.

Een probleem bij het interpreteren van de data is dat er geen vaste afspraken zijn over wanneer er sprake is van een effect, zoals die afspraken bij statistische tests wel vastliggen.

Een ander nadeel is dat alleen sterke effecten zichtbaar worden. Effectieve interventies met kleine effecten worden niet opgemerkt en daarmee ook niet doorontwikkeld.

Tenslotte vereist de visuele inspectie een bepaald patroon van data in de baseline- en interventie fase om überhaupt geïnterpreteerd te kunnen worden. Trends en variabiliteit in de data zijn storend.

Algemene opmerkingen

Binnen de klinische praktijk hecht men waarde aan sterke effecten. Visuele interpretatie van de data levert vaak een waarheidslievender beeld op dan statistische significantie. Hiernaar wordt gerefereerd als klinische significantie.

Bezwaren tegen niet-statistische data-evaluatie kunnen weerlegd worden door het gebruik van visuele inspectie. Veranderingen in gemiddeldes, niveau, helling en de latentie van de verandering maken ons gevoelig voor de kritieke onderdelen van de data.

Samenvatting en conclusies

Het bestuderen van de individu kan verschillende vormen aannemen. De term case study (gevalsbeschrijving) is een algemene term die gebruikt wordt voor het intensief bestuderen van de individu. De gevalsbeschrijving heeft de naam alleen anekdotisch te zijn, maar toch zijn er gevallen bekend waarbij de gevalsbeschrijving een enorme bijdrage heeft geleverd aan het ontwikkelen van ideeën en hypotheses. Verder biedt de gevalsbeschrijving de mogelijkheid om zeldzame fenomenen te bestuderen. De kritiek op de gevalsbeschrijving als wetenschappelijke methode zit eigenlijk niet in de focus op het individu, maar in de subjectieve manier van evalueren.

Aan het ene uiterste van de lijst met mogelijke designs vinden we de anekdotische gevalsbeschrijving waarbij gefundeerde en valide conclusies moeilijk te bereiken zijn. Aan het andere uiterste vinden we de single-case experimental designs die de bedreigingen jegens validiteit buitensluiten en gebruikt kunnen worden als basis voor het identificeren van causale relaties. Bij het single-case experiment wordt er continu gemeten in de tijd, er vindt een baseline evaluatie plaats en door het gebruik van meerdere fases worden verschillen in uitingen zichtbaar. Verschillende vragen kunnen tegelijkertijd beantwoord worden door het evalueren van behandelpakketten, het analyseren van componenten, het bouwen van effectieve therapieën door componenten toe te voegen en verschillende behandelingen te vergelijken. Drie hoofdstrategieën voor het ontwerpen van single-case experimenten zijn besproken: ABAB, multiple-baseline en criterium veranderende designs.

Single-case designs trekken conclusies zonder gebruik te maken van statistische evaluatie, maar van visuele inspectie. Dit kan gedaan worden doordat er continu gemeten wordt en met verschillende fases gewerkt wordt. Niet-statistische beoordelingscriteria zijn: gemiddelde, niveau, helling en de latentie van de verandering.

Dit hoofdstuk heeft de extreme kant van methodologie geschetst door aandacht te besteden aan de uitersten van de mogelijke designs. Het volgende hoofdstuk zal aandacht besteden aan de variaties op de single-case designs die tussen de case study en het experiment vallen.

Kernconcepten en -termen

ABAB designs Multiple-baseline designs

Anekdotische gevalsbeschrijving Single-case experiment

Baseline fase Visuele inspectie

Continue evaluatie

Hoofdstuk 11: evaluatie van de enkelvoudige casus in de klinische praktijk

De manier van denken die van toepassing is op methodologie, is niet uitsluitend voorbehouden aan het doen van onderzoek. Ook bij het doen van laboratoriumonderzoek en bij de klinische praktijk is men geïnteresseerd in het trekken van conclusies, in weten en begrijpen.

Dit hoofdstuk besteedt aandacht aan de waardering van de individuele cliënt in de klinische praktijk. Het doel van het hoofdstuk is om de evaluatie van de enkelvoudige casus over te brengen, die gebruikt kan worden om kennis te vergaren in relatie tot patiëntenzorg.

Quasi-experimenten bij de enkelvoudige casus

De centrale vraag die een onderzoeker stelt bij het gebruik van quasi-experimentele experimenten (zowel bij het onderzoeken van groepen als bij een individueel geval) is: “Hoe kan de kwaliteit van de conclusies verbeterd worden?” of “Wat kan de onderzoeker doen om te helpen bij het implausibel maken van rivaliserende interpretaties van de resultaten?”

Wat te doen om de kwaliteit van gevolgtrekkingen te verbeteren

De essentiële kenmerken van een zuiver experiment zijn het beheersen van de interventies (onttrekken en introduceren van een interventie), het continu evalueren van de uitingen in de tijd en onder verschillende omstandigheden en het zoeken naar stabiele patronen om voorspellingen te doen en te testen aangaande uitingen. Case studies kunnen zo opgesteld worden dat verscheidene combinaties van dezen mogelijk zijn om de mate van invaliditeit te verkleinen. De uitdaging zit in het toevoegen en benutten van beschikbare informatie om de kwaliteit van de te trekken conclusies te verbeteren.

Verzamel data systematisch

Het gebruik van gestandaardiseerde meetinstrumenten en -methodes is een allereerste voorwaarde.

Evalueer op meerdere momenten

Bij een enkelvoudige casus is het niet voldoende om alleen gebruik te malen van een voor- en nameting. Herhaaldelijk testen, instrumentatie en regressie naar het gemiddelde kunnen optreden als bedreigingen voor de validiteit. Bij het continu boordelen worden deze bedreigingen een stuk minder aannemelijk, vooral wanneer het testen vooraf aan de interventie begint. Continu beoordelen stelt de onderzoeker in staat om patronen binnen de data te bestuderen en om te zien of het patroon lijkt te zijn veranderd op het moment waarop de interventie geïntroduceerd werd.

Neem eerder en toekomstige projecties van uitingen in overweging

Eerdere en toekomstige projecties refereren aan de koers van een bepaald gedrag of probleem. Aan sommige gedragingen is een lange tijd van onveranderlijkheid vooraf gegaan. Wanneer de uitingen ineens veranderen wanneer behandeling toegepast wordt , is de kans groot dat de interventie verantwoordelijk is voor die verandering.

Projecties aangaande uitingen in de toekomst kunnen verkregen worden vanuit de kennis over de aard van een probleem. Bij veel aandoeningen is het bekend hoe het verloop eruit ziet wanneer er niet wordt ingegrepen. Deze kennis kan meegenomen worden bij het trekken van de conclusies.

Neem het type van het effect geassocieerd met de behandeling in ogenschouw

Veranderingen die onmiddellijk na de introductie van een interventie optreden zijn eenvoudiger toe te schrijven aan de interventie dan veranderingen die geleidelijk of later in de tijd optreden.

Niet alleen het moment van de veranderingen, maar ook de grootte van de verandering is belangrijk. Sterke effecten bij stabiele uitingen kunnen alleen optreden wanneer er iets drastisch (zoals een interventie) heeft plaatsgevonden. De combinatie van grote en sterke effecten geeft de beste aanwijzing voor een causaal verband met de interventie.

Gebruik meerdere en heterogene proefpersonen

Het aantonen van een effect bij meerdere personen geeft meer vertrouwen in de interventie dan een vaststelling bij één persoon. Externe factoren variëren waarschijnlijk tussen de cases, waardoor een gedeelde ervaring (de interventie) aannemelijk verantwoordelijk geacht kan worden voor het effect.

Ontwerp variaties

In tabel 11.1 op bladzijde 304 worden de bedreigingen voor de interne validiteit opgesomd die bij de verschillende variaties van de quasi-experimenten kunnen optreden.

Bij een voor- en nameting zijn dat: geschiedenis, rijping, herhaaldelijk testen, instrumentatie en regressie naar het gemiddelde. Bij herhaalde evaluaties en markante veranderingen zijn dat mogelijk: geschiedenis en rijping. Voor de overige bedreigingen wordt gecontroleerd. Bij meerdere cases, continu beoordelen en stabiele uitingen kan voor alle bedreigingen gecontroleerd worden.

Methodes voor beoordelen en evalueren in de klinische praktijk

Het kan zijn dat het quasi-experimentele design nog steeds te strikt is om binnen de klinische praktijk te gebruiken. Het is van belang om concreter in te gaan op hoe systematische beoordelingen en evaluaties binnen de klinische praktijk kunnen plaatsvinden. Het is belangrijk om te vermelden dat evaluaties routinematig plaatsvinden binnen de klinische praktijk, alleen beschouwen we die niet zo, omdat ze onsystematisch plaatsvinden. Zoals vermeld is de sleutel tot evalueren bij een quasi-experimenteel design het nauwkeurig beoordelen is.

Een belangrijk vertrekpunt bij het ontwikkelen van een methodologie binnen de praktijk is dat het voordelig moet zijn voor de patiënt. Ten tweede moeten het beoordelen en evalueren in harmonie met de behoeftes van de klinische situatie plaatsvinden. Vandaar dat de praktijk als uitgangspunt genomen moet worden bij het ontwikkelen van een systematische beoordelings- en evaluatiemethode.

Zoals eerder gezegd vinden er constant evaluaties plaats binnen de praktijk. Methodologie introduceert dus geen evaluatie, maar coördineert die, zodat de evaluaties voldoen aan de wetenschappelijke normen. SIngle-case designs lenen zich makkelijker voor onderzoek binnen de praktijk dan groepsmethodes.

Evaluatiestappen bij klinisch werk

Systematisch beoordelen en evalueren van de effecten van behandeling heeft als doel het waarborgen van hoog-kwalitatieve zorg voor de patiënt en het bijdragen aan de kennis omtrent de effectiviteit van behandelingen. De kwaliteit van de zorg staat bovenaan. Voor het bijdragen aan kennis is beoordeling en evaluatie nodig. Bij het introduceren van systematisch beoordelen is niet een kwestie van een paar maten toevoegen, maar meer het nemen van een aantal essentiële stappen.

Specificeren en beoordelen van behandeldoelen

Het expliciet identificeren van de initiële focus van de behandeling en de gewenste doelen of veranderingen. Het selecteren of ontwikkelen van een maat die de huidige staat van het individu reflecteert op deze karakteristieken (symptomen, functioneren).

Specificeren en beoordelen van procedures en processen

Het expliciet identificeren van de middelen of processen (procedures, taken, activiteiten en ervaringen) die verwacht worden te leiden tot therapeutische verandering. Het meten van de mate waarin deze middelen of hun uiting, uitvoering of implementatie worden bereikt tijdens de behandeling.

Het selecteren van maten

Het identificeren of ontwikkelen van instrumenten, schalen of maten die gebruikt kunnen worden bij het beoordelen van de progressie gedurende de behandeling. Dit kan het ontwikkelen of aanpassen van een instrument (bijvoorbeeld het ontwikkelen van een kinderversie) inhouden. Het identificeren van een maat voor processen of procedures hangt in hoge mate af van in hoeverre de procedures recht toe recht aan zijn (het uitvoeren van taken tijdens een sessie) of dat het gaat om optredende processen (bondgenootschap, hechting) die aparte maten vereisen.

Gelegenheden voor beoordelingen

De metingen van de uiting moeten zich richten op de domeinen of doelen waarvoor de therapie bedoeld is, beginnen voordat de therapie begint en tijdens de duur van de behandeling regelmatig plaatsvinden. Doorlopende beoordeling kan iedere sessie plaatsvinden, om de sessie of een ander regiem.

Design en data-evaluatie

Het weergeven van de verkregen informatie vanuit de beoordeling helpt bij het bestuderen van veranderingen, patronen of andere kenmerken van progressie die een direct effect kunnen hebben op beslissingen aangaande de behandeling (veranderen of beëindigen van de behandeling, het verschuiven van de focus van de behandeling). Grafische weergaven zijn al helemaal handig.

Kwesties en beperkingen

Methodologische kwesties

Voor systematisch beoordelen en evalueren binnen de klinische praktijk is het nodig dat er meer gestandaardiseerde meetinstrumenten op de markt komen. Hetzelfde geldt voor data-evaluatie-methodes. Er zijn wel data-evaluatie methodes beschikbaar, maar die zijn niet uitgebreid beschreven.

Klinische kwesties en overwegingen

Er zijn een aantal bezwaren te noemen tegen het beoordelen en evalueren binnen de klinische praktijk. Therapeuten zijn vaak bezorgd dat beoordelen of meten de therapeutische relatie in de weg staan. De therapeut is verantwoordelijk voor de behandeling. Het toevoegen van de rol van beoordelaar kan om conceptuele redenen als rolverwarring en daarmee als anti-therapeutisch gezien worden. Hoe de patiënt het beoordelen en evalueren beleeft is voor een groot deel afhankelijk van hoe de therapeut hier tegenaan kijkt en hoe hij/zij de beoordelingen presenteert aan de patiënt.

Een tweede kwestie is dat het meten van een klinisch probleem het probleem kan simplificeren. Vanuit methodologisch standpunt hoeft dit geen probleem te zijn. Bij onderzoeken gaat het om constructen en die hoeven niet een totaal probleem te representeren, maar meer de sleutelkarakteristieken.

Als derde kan genoemd worden dat metingen de individualiteit van de client schade aandoet. Ook dit kan omzeild worden. Veel metingen kunnen geïndividualiseerd worden. De therapeut kan zelfs samen met de patiënt afspraken maken over welke domeinen van functioneren het meest relevant zijn om te beoordelen en evalueren.

Een vierde bezwaar hangt samen met de dynamische aard van behandeling. Binnen de klinische praktijk is er geen enkel probleem dat constant blijft. Problemen veranderen en de focus van de behandeling wordt constant bijgesteld. In feite is dit geen argument tegen systematische beoordeling, het is een argument voor. De veranderingen in de behandeling conflicteren niet met systematische evaluatie. De veranderingen zijn juist belangrijk.

Samenvatting en conclusies

Binnen klinische settings kunnen de voorwaardes voor zuivere experimenten niet altijd haalbaar blijken. Bepaalde eigenschappen van die designs kunnen echter gebruikt worden om quasi-single- case experimenten samen te stellen. Het gebruik van sleutelkenmerken als beoordelen over de tijd en overwegingen aangaande bepaalde vormen van data-evaluatie kunnen in overweging genomen worden, waardoor de sterkte van de gevolgtrekkingen aangaande therapie-effecten verhoogd kan worden. In dit hoofdstuk zijn verschillende aspecten van case studies besproken, zoals kritieke componenten van single-case experimenten en informatie over de aard van veranderingen, de abruptheid van de veranderingen en de waarschijnlijke koers die de aandoening zal volgen zonder behandeling.

Om wetenschappelijk onderzoek binnen de klinisch praktijk te kunnen doen, is het van belang dat de methodologie zich aanpast aan de praktijk. Binnen de klinische praktijk wordt er vaak al beoordeeld en geëvalueerd, alleen gebeurt dit niet systematisch. De methodologie kan dat brengen, een stappenmodel voor de implementatie van systematisch beoordeling en evaluatie. De stappen zijn: 1) het specificeren en beoordelen van behandeldoelen, 2) het specificeren en beoordelen van procedures en processen, 3) het selecteren van maten, 4) beoordelingsmomenten vaststellen en 5) ontwerp en data-evaluatie. Methodologie en evaluatie zijn er niet alleen voor empirisch onderzoek, maar voor alle situaties waarin men wil weten of er een verandering, verschil of effect is en om mogelijk andere redenen buiten te sluiten.

Kernconcepten en -termen

Karakteristieken van een casus die kunnen helpen bij het bepalen van de invloed van behandeling

De rol van beoordeling bij het trekken van conclusies aangaande de basis van de verandering

De rol van beoordeling bij therapeutische verandering

Stappen voor systematische evaluatie binnen de klinische praktijk

Systematische versus anekdotische beoordeling

Hoofdstuk 12: Kwalitatieve onderzoeksmethodes, een overzicht

De hiervoor besproken vormen van onderzoek vallen allemaal (zelfs de single-case designs) binnen kwantitatief onderzoek. Kwantitatief onderzoek behelst facetten als: theorie, hypotheses testen, operationele definities, nauwkeurig beheersen van het te bestuderen onderwerp, isolatie van de variabelen, kwantificatie van constructen en statistische analyses. Een andere onderzoekstraditie is het kwalitatieve onderzoek.

Kwalitatief onderzoek heeft zijn eigen methodologie, zoals beoordelingsstrategieën, designs en data-evaluatie. Kwalitatief onderzoek wordt binnen verschillende disciplines toegepast (o.a. psychologie, sociologie, antropologie, communicatiewetenschappen, educatie, etnografie en verpleging) en heeft daardoor een rijke traditie aan verscheidene methodes en benaderingen. Voor kwalitatief onderzoek zijn er aparte handboeken, vandaar dat in dit boek het onderwerp alleen belicht, maar niet volledig uitgediept kan worden.

Het is om verschillende redenen belangrijk om aan kwalitatief onderzoek aandacht te besteden. Allereerst, omdat het een legitieme benadering is en steeds populairder wordt. De benadering is zeer goed te gebruiken binnen de psychologie, omdat daar vaak de focus ligt op individuen met speciale ervaringen, omstandigheden of toestanden.

Ten tweede, omdat kwalitatief onderzoek data en informatie boven krijgt die kwantitatieve methodes niet boven krijgen. Kwalitatief onderzoek richt zich vaak op aspecten van een fenomeen dat kwantitatief onderzoek juist probeert te omzeilen, namelijk de menselijke ervaring, subjectieve meningen en hoe mensen een bepaalde context beleven en hoe ze erop reageren.

Ten derde verschaft kwalitatief onderzoek gedetailleerde beschrijvingen van individuele ervaringen. Naar deze gedetailleerdheid wordt ook wel een gerefereerd als ‘thick’ (dicht of ondoordringbaar), vanwege de gelaagdheid en rijkdom van details. Deze beschrijvingen kunnen uitstekend dienen als bron voor theorievorming of het testen van hypotheses. Kwalitatieve onderzoekers spreken vaak van ‘onderlegde theorie’ om aan te geven dat theorievorming ontstaat uit het nauwkeurig en intensief observeren en analyseren van een fenomeen.

Ten vierde is het belangrijk om bekend te raken met de sterktes, bijdrage en zwaktes van kwalitatief onderzoek. Zoals het leren van een vreemde taal iemand meer inzicht kan geven in de eigen taal, zo leert het verdiepen in kwalitatief onderzoek de methodoloog ook meer te begrijpen van de kwantitatieve methode.

Als laatste is het goed om te weten dat kwalitatief onderzoek geen synoniem is voor los, niet systematisch en subjectief onderzoek. Het is juist een tegenstelling daarvan. Kwalitatief onderzoek is stringent, wetenschappelijk, gedisciplineerd en repliceerbaar. Anekdotische case studies vallen bijvoorbeeld niet binnen kwalitatief onderzoek.

Hoofdkarakteristieken

Achtergrond

Kwalitatief onderzoek heeft een rijke geschiedenis. Drie grote invloeden hebben bijgedragen aan het ontstaan van kwalitatief onderzoek. De eerste is een stroming binnen de filosofie die zich richt op beschrijving, betekenis, intentie, doel en context, de fenomenologie. Kwalitatief onderzoek is speciaal ontwikkeld om de rijkheid van subjectieve ervaringen in kaart te brengen. Veel intensiteit en gevoelswaarde gaat verloren bij het kwantificeren van ervaringen.

De tweede grote invloed komt vanuit de sociale wetenschappen, voornamelijk sociologie en antropologie. Bij deze disciplines is er een traditie waarbij de onderzoeker deelneemt aan en uitweid over het onderwerp om bepaalde hoofdfacetten te kunnen identificeren.

De derde invloed komt vanuit de ontevredenheid over de ‘kilheid’ van kwantitatief onderzoek. Gechargeerd gezegd, zijn onderzoekers voornamelijk geïnteresseerd in aantallen proefpersonen (steekproefgrootte en power), wat de responsen zijn (gemiddelden, standaarddeviaties) en in hoeverre proefpersonen van elkaar verschillen wanneer de ene groep in de ene situatie (experimentele proefpersonen) en de andere groep in een andere situatie (controle personen) wordt gebracht. Bij kwalitatief onderzoek wordt het totaalbeeld van het menselijk functioneren bestudeerd, waarbij het voor de onderzoeker belangrijk is om iedere persoon goed te leren kennen.

Definitie en kernkenmerken

Kwalitatief onderzoek is een manier om de menselijke beleving als onderzoeksonderwerp te nemen en richt zich op verhalende vertellingen, beschrijvingen, interpretatie, context en betekenis. Het doel is om een bepaald fenomeen te beschrijven, interpreteren en begrijpen. Door beschrijving en interpretatie verdiept ons begrip aangaande een fenomeen. Het proces waardoor dit doel bereikt wordt is een diepgaande bestudering van de ervaringen van deelnemers aan de studie en een weergeving van hoe die ervaring beleefd, gevoeld, waargenomen is en welke betekenis de deelnemers aan de ervaring geven.

Kernkarakteristieken van kwalitatief onderzoek

Kwalitatief onderzoek wordt uitgevoerd door een intens en/of langdurig contact met een ‘veld’ of levenssituatie. Deze situaties reflecteren het dagelijks leven van individuen, groepen, samenlevingen en organisaties en kunnen ‘banaal’ of juist normaal zijn.
De rol van de onderzoeker is om een holistisch (systemisch, bevattend, geïntegreerd) beeld van de bestudeerde context te krijgen, de logica, verhoudingen en de ex- en impliciete regels.
De onderzoeker probeert data te verkrijgen over waarnemingen van lokale mensen (van binnen uit) door een proces van diepe aandacht, empathisch begrip en het opschorten van vooroordelen aangaande de onderwerpen van discussie.
Door het lezen van het materiaal zou de onderzoeker bepaalde thema’s en uitdrukkingen kunnen isoleren die doorgenomen kunnen worden met informanten. Het materiaal zelf moet in de originele vorm gedurende de totale studietijd blijven.
Een hoofdtaak is om de manier waarop mensen een bepaalde situatie begrijpen, verklaren, ondernemen en handhaven te expliceren.
Vele interpretaties van het verzamelde materiaal zijn mogelijk, maar sommige zijn meer aansprekend om theoretische redenen of op basis van interne consistentie.
Er wordt relatief weinig gebruik gemaakt van gestandaardiseerde instrumentatie. De onderzoeker zelf is het instrument.
De meeste analyses worden woordelijk gedaan. Woorden kunnen samengesteld, onderverdeeld en in betekenisvolle segmenten gebroken worden. Woorden kunnen georganiseerd worden om de onderzoeker toe te staan contrasten, vergelijkingen, analyses en patronen toe te wijzen.

Contrast tussen kwalitatief en kwantitatief onderzoek

Tabel 12.2 op bladzijde 334 en 335 geeft een uitgebreid overzicht van de karakteristieken waarop kwalitatief en kwantitatief onderzoek van elkaar verschillen. Het hoofdverschil is dat bij kwantitatief de onderzoeker zo objectief mogelijk een fenomeen wil bestuderen, waarbij de onderzoeker als het ware door een telescoop kijkt en de eigen rol van de onderzoeker geen invloed uitoefent. Deze methode is gemodelleerd naar de ‘harde wetenschappen”. Kwalitatief onderzoek is juist geïnteresseerd in de subjectieve beleving van een fenomeen. De rol van de onderzoeker is geen objectieve, maar een deelnemende.

Methodes en analyses

De data voor kwalitatieve analyses

De manieren voor dataverzameling bij kwalitatief onderzoek zijn divers en bevatten onder andere interviews, directe observaties, uitlatingen over persoonlijke ervaringen, documenten (dagboeken, brieven , biografisch materiaal, overgeleverde familieverhalen), foto’s, audio- of video-opnames en films.

De informatie die op die manieren verkregen wordt kan vervolgens geanalyseerd worden. Bij kwalitatief onderzoek probeert men patronen en zich over de tijd herhaalde verbindende variabelen te vinden. Computer software is beschikbaar om het maken van de verbindingen en het vinden van patronen te vergemakkelijken.

Het trekken van valide conclusies

Bij kwalitatief onderzoeken zijn er vijf soorten validiteit. Descriptieve validiteit refereert aan de mate waarin het gerapporteerde verhaal van de onderzoeker feitelijk correct is. Interpretatieve validiteit refereert aan de mate waarin een betekenis van het materiaal accuraat is beschreven. Heeft de onderzoeker het materiaal voldoende begrepen? Bij theoretisch validiteit wordt er gekeken of de verklaringen ontworpen zijn om aan te geven hoe en waarom een fenomeen optreedt. Hoe goed past de verklaring bij de data? Dit is een abstractieniveau hoger dan de interpretatieve validiteit. Als vierde is er de interne validiteit, die hetzelfde inhoudt als bij kwantitatief onderzoek en draait om de vraag of er andere bronnen van invloed waren die de data kunnen verklaren los van de door de onderzoeker vastgestelde invloed. De externe validiteit is ook hetzelfde als bij kwantitatief onderzoek en draait om de vraag of de resultaten generaliseerbaar zijn naar andere personen, tijden, settings en situaties.

Een sleutelconcept dat samenhangt met validiteit is triangulatie, wat verwijst naar het gebruik van meerdere procedures, bronnen of perspectieven om bevestiging voor de conclusies te krijgen. Wanneer meerdere bronnen dezelfde informatie opleveren versterkt dit de validiteit. triangulatie kan op verschillende manieren bereikt worden. De onderzoeker kan verschillend bronnen van data gebruiken (interviews en vragenlijsten om kwalitatieve en kwantitatieve methodes te combineren) of verschillende manieren van data-analyse.

Triangulatie wordt gebruikt om de conclusies te versterken en heeft effect op iedere vorm van validiteit. In essentie houdt triangulatie een multi-methodische benadering in. De methode is echter wel ontworpen voor meer dan meervoudige beoordelingsmethodes. De benadering houdt ook een meervoudigheid van verschillende aspecten van een studie in, inclusief de range van deelnemers (onderzoekers en proefpersonen).

Het begrip ‘bevestigbaarheid’ wordt vaak gebruikt bij het evalueren van de validiteit van een studie en refereert aan de mate waarin een onafhankelijke reviewer een formele controle en herevaluatie van de procedure zou kunnen uitvoeren en tot dezelfde bevindingen zou komen. De mate waarin de resultaten bevestigbaar zijn door anderen hangt voor een groot deel af van de zorg waarmee de eerste onderzoeker begonnen is met de studie en van welke methode van triangulatie gebruikt is. Bevestigbaarheid is in feite hetzelfde als repliceerbaarheid en staat bij ieder vorm van onderzoek centraal.

Een cruciaal aspect bij het evalueren van de bevindingen is de geloofwaardigheid van de resultaten. Dekt de analyse de volledige lading van een bepaalde ervaring en draagt de analyse bij aan een uitbreiding van ons begrip (over het leven met AIDS, ouder worden, kind zijn, binnen een bepaalde cultuur leven, krijgsgevangene zijn)? Zouden anderen die hetzelfde hebben meegemaakt de bevindingen onderschrijven?

Het is begrijpelijk dat er bij kwalitatief onderzoek bezorgdheid is over de rol van de onderzoeker. Het is bij psychotherapie onderzoek bekend dat een theoretische voorkeur van de kant van de onderzoeker de resultaten blijkt te beïnvloeden in de richting van de gewenste uitkomst. Hoewel het perspectief van de onderzoeker belangrijk is, wil men niet dat de bevindingen alleen samenhangen met de desbetreffende onderzoeker. Er zijn dan ook verschillende strategieën ontwikkeld om ervoor te zorgen dat de data niet alleen het perspectief van de onderzoeker reflecteert.

Allereerst worden onderzoekers gestimuleerd om de eigen mening expliciet te maken, inclusief de vermelding of de verwachtingen voorafgaand aan de studie uitgekomen zijn. Discrepanties tussen het begin- en eindpunt worden uitgesproken alsmede een aanbeveling over de manier waarop het onderwerp verder uitgediept kan worden. Het noemen van perspectief, oriëntatie en verwachtingen stelt anderen in het veld instaat om de interpretaties te evalueren in het licht van mogelijke belangrijke invloeden.

Ten tweede speelt zich een herhalend proces af waarbij onderzoekers gemotiveerd worden om andere onderzoekers te consulteren om te zien in welke mate het ruwe materiaal de kernbevindingen van de onderzoeker reflecteert. Zijn de interpretaties samenhangend en dekken ze de lading? Als het mogelijk is zouden ook de deelnemers zelf bij dit proces moeten worden. Zij zouden aangemoedigd moeten worden om de voorgestelde categorieën, bredere concepten en volgorde van ervaringen van commentaar te voorzien. Het is een consensueel proces.

Zoals duidelijk wordt uit het voorafgaande zijn dezelfde onderliggende concepten werkzaam bij kwalitatief onderzoek als bij kwantitatief. Dezelfde vragen over betrouwbaarheid en validiteit worden gesteld. Betrouwbaarheid heeft betrekking op zowel de methode van bestuderen (hoe categorieën worden geïdentificeerd, hoe interpretaties gedaan worden), als de coherentie en de interne consistentie van de interpretaties. Validiteit refereert aan de mate waarin een bevinding hout snijdt, de lading van de ervaring dekt en bevestigd en bevestigbaar is door anderen. Twee termen hangen met deze concepten samen. Oprechtheid (trustworthiness) reflecteert de mate waarin de data overdraagbaar, betrouwbaar en bevestigbaar zijn. Overdraagbaarheid beslaat de mate waarin de data gelimiteerd zijn aan een bepaalde context (context gebonden) en worden geëvalueerd door te kijken naar één karakteristiek (niet-representatief) van de steekproef.

Generaliseerbaarheid van de data

Externe validiteit bij kwalitatief onderzoek is anders dan bij kwantitatief onderzoek. Hoe kan een subjectieve beleving tot generaliseerbare resultaten leiden? Hoewel kwalitatief onderzoek inderdaad geïnteresseerd is in subjectieve ervaringen, zijn er binnen die verschillende subjectieve belevingen algemene thema’s te ontdekken. Het begint bij het uitvragen van de individuele beleving om vervolgens bij de interpretatie de bevindingen te veralgemenen naar bredere thema’s. Net als bij kwantitatief onderzoek kan het bij kwalitatief onderzoek zo zijn dat generaliseerbaarheid niet het eerste doel is van de studie.

Algemene opmerkingen

Een aantal zaken zijn belangrijk om op te merken. Bij kwalitatief onderzoek wordt geen gebruik gemaakt van controlegroepen. Dit hoeft ook niet, omdat de onderzoeker puur geïnteresseerd is in de belevingen van een specifieke groep en heeft niet als doel die groep te vergelijken met een andere groep.

Verder wordt een onderwerp aangestipt dat wel degelijk de kwaliteit van bevindingen kan aantasten, namelijk het veelvuldig gebruik van zelfrapportages. Mensen zijn meestal niet heel goed in staat om weer te geven wat precies de aanleiding was voor veranderingen die in hun leven hebben plaatsgevonden. Iedereen heeft verhalen en overtuigingen, maar er is geen bewijs dat de factoren die we rapporteren daadwerkelijk bijgedragen hebben.

Bijdragen van kwalitatief onderzoek

De grote bijdrage van kwalitatief onderzoek is de systematische benadering van het onderwerp. Er zijn formele procedures en richtlijnen voor:

het verzamelen van informatie;
het wapenen tegen of minimaliseren van bias en artefacten;
het interpreteren;
het checken van die interpretaties en de onderzoeker;
het bewaken van de interne consistentie en de bevestigbaarheid van de bevindingen;
Het zoeken naar triangulatie van methodes en benaderingen om te zien of de conclusies gelijk zijn wanneer de methodes variëren en
het aanmoedigen van replicatie, zowel binnen een bepaalde data-set (door andere onderzoekers). als over toegevoegde data (meerdere cases).

Kwalitatief onderzoek kan op verschillende manieren een bijdrage leveren aan onderzoek binnen de klinische praktijk. Ten eerste draagt deze vorm van onderzoek bij aan de kennis over en het begrip aangaande de aard van ervaringen en de betekenis die mensen eraan verlenen. Bij kwantitatief onderzoek bijvoorbeeld is het niet mogelijk om gedetailleerde beschrijvingen te geven over hoe het is om depressief te zijn of hoe het is om met een depressieve partner te leven.

Een andere manier om dit te zeggen is dat kwalitatief onderzoek het onderwerp tot leven brengt op een systematische manier.

Een tweede manier waarop kwalitatief onderzoek een impact heeft is doordat er ingezoomd wordt op een ervaring. Abstracte fenomenen komen tot leven en worden gezien in de volledige complexiteit.

Ten derde bieden kwalitatieve analyses een systematische manier van kijken naar potentieel causale paden, naar het ontvouwen van gebeurtenissen en naar de wederzijdse beïnvloeding van gebeurtenissen bij individuen.

Tenslotte levert kwalitatief onderzoek een directe bijdrage aan het generen van hypotheses en theorievorming. Diepte-analyses helpen bij het identificeren van constructen die cruciaal zijn bij het begrijpen van een fenomeen. De constructen en categorieën die opkomen bij kwalitatieve analyses kunnen gebruikt worden voor het ontwikkelen van nieuwe maten, dat is het komen tot nieuwe operationalisaties voor kwantitatieve analyses. Maten die geconstrueerd zijn naar aanleiding van een diepte-analyse vooraf, zouden wel eens een veel betere representatie van zo een construct kunnen weergeven dan een gekwantificeerde score.

Samenvatting en conclusies

Kwalitatief onderzoek is ontworpen om te beschrijven, interpreteren en begrijpen van menselijke ervaringen en om uit te weiden over de betekenis van die ervaring voor de deelnemers. De data bestaan primair uit woorden en worden onttrokken van diepte-analyses van cases. De cases kunnen één individu, een groep, een cultuur, een stam, een organisatie of een andere unit zijn. Een hoofdkenmerk van de benadering is de gedetailleerde beschrijving zonder voorafgaande aannames aangaande specifieke maten, categorieën of een nauwe spreiding van constructen.

De benadering verschilt op vele manieren van het dominantere onderzoeksparadigma, de kwantitatieve benadering. Verschillen liggen binnen de uitvoer van de studie, de rol van de deelnemers en de onderzoeker, de vorm van de data, hoe de data bestudeerd wordt en de conclusies. Hoewel er een groot gehalte aan data verzameld wordt, wordt deze niet op een kwantitatieve manier gereduceerd. Uit de data worden eerder interpretaties, overbruggende constructen en theorieën gegenereerd.

Ondanks grote verschillen zijn er ook overeenkomsten te trekken tussen kwantitatief en kwalitatief onderzoek, waardoor ze beiden tot empirisch onderzoek gerekend worden. Een belangrijke overeenkomst is de interesse in betrouwbaarheid en validiteit van de methodes bij het koppelen van de data, de inzet om bonnen voor bias te adresseren die mogelijk een beletsel voor het trekken van conclusies kunnen opleveren, het repliceren van de implementatie van de studie alsmede de getrokken conclusies en de accumulatie van kennis die geverifieerd kan worden door anderen. Kwalitatief onderzoek kan aan de psychologie bijdragen door uit te weiden over de aard van ervaringen en de betekenis van die ervaringen door alledaagse ervaringen voor het voetlicht te stellen, door dieper in te gaan op causale relaties en paden van ontwikkeling en door op een directe manier kwantitatief onderzoek aan te sturen en richting te geven.

Kernconcepten en -termen

Bevestigbaarheid Triangulatie

Onderlegde theorie Oprechtheid (trustworthiness)

Kwalitatief onderzoek

Hoofdstuk 13: Beoordelingsmethoden en -strategieën

Beoordeling is een fundamenteel element bij wetenschappelijk onderzoek en speelt meerdere rollen. De gebruikelijke rol is de selectie van maten om een hypothese te kunnen toetsen. Dit is inderdaad een belangrijke, maar niet de enige rol. Beoordeling kan een directe invloed hebben op de theorie. Bijvoorbeeld vooruitgangen in meetmethodes (fMRI) hebben enorm bijgedragen aan de manier waarop er tegenwoordig over bepaalde constructen gedacht wordt.

Bij het bespreken van maten voor onderzoek, wordt er al snel gedacht aan maten voor de afhankelijke maten van uitkomst, maar er zijn drie facetten aan onderzoek die beoordeeld worden. Er is de beoordeling van de onafhankelijke variabele, de mediators en interveniërende processen en de afhankelijke variabele. Het is onnodig om te zeggen dat een studie die alledrie de facetten bestudeerd als inspirerender en informatiever beschouwd zal worden.

Dit hoofdstuk besteedt aandacht aan de fundamentele kwesties van beoordelen, de sleutel criteria die gebruikt worden bij het selecteren van de maten en strategieën voor het beoordelen van het te bestuderen construct. De nadruk zal liggen op het meten van de afhankelijke variabele, maar de opmerkingen gelden voor selectie en meting in het algemeen.

Het selecteren van maten voor onderzoek: sleuteloverwegingen

De selectie van maten is gebaseerd op verscheidene overwegingen gerelateerd aan de constructvaliditeit van de maat, de psychometrische eigenschappen en de sensitiviteit van de maat voor veranderingen of verschillen.

Constructvaliditeit

Als algemene regel geldt dat men bij onderzoek niet geïnteresseerd is in maten, maar in de constructen of concepten die die maten representeren. De onderzoeker moet zich niet afvragen welke maat een bepaald construct het beste weergeeft, de onderzoeker moet zich afvragen welk instrument het construct dat in de studie gebruikt wordt het beste weergeeft.

Het uitgangspunt bij het selecteren van een maat is het bewijs dat een maat het te bestuderen construct beoordeelt. Ook in dit geval wordt dat de constructvaliditeit genoemd. Constructvaliditeit is tot nu toe beschreven als een experimentele validiteit die relateert aan de interpretatie van de basis voor het effect van de manipulatie. In de context van beoordeling verwijst constructvaliditeit naar de interpretatie van de maat, namelijk in hoeverre het construct onderliggend aan de maat kan dienen als de basis voor het interpreteren van de maat. Bij beoordelen refereert constructvaliditeit aan de link tussen het concept achter de maat en het onderzoek dat de bruikbaarheid van het construct aantoont bij het verklaren van de bevindingen.

Er zijn vele meetinstrumenten op de markt die vaak al de naam van het construct dat ze beogen te meten in zich dragen (bv. de Beck Depression Inventory). Toch moet een onderzoeker zich ervan vergewissen dat het meetinstrument daadwerkelijk het construct of het deel van het construct representeert waarin men geïnteresseerd is.

Psychometrische karakteristieken

Er zijn verschillende stappen om vast te stellen of een maat op adequate wijze het te bestuderen construct weergeeft.Naar deze stappen wordt in zijn algemeenheid gerefereerd als de psychometrische eigenschappen van een schaal of meetinstrument. Psychometrische eigenschappen refereren aan de betrouwbaarheid en validiteit van een maat.

Subtypes van betrouwbaarheid

Er zijn verschillende vormen van betrouwbaarheid.

Test-hertest betrouwbaarheid: de stabiliteit van een testscore over de tijd; de correlatie tussen scores van de ene testafname en de scores op hetzelfde instrument nadat een bepaald tijdsinterval verstreken is.
Alternerende-vorm betrouwbaarheid: de correlatie tussen verschillende vormen van dezelfde maat, wanneer de items van de twee vormen geacht worden dezelfde populatie van items te representeren.
Interne consistentie: de mate van consistentie of homogeniteit van de items binnen een schaal. Verschillende maten worden gebruikt om dit doel te gebruiken, zoals de split-half betrouwbaarheid, Kuder-Richardson 20 Formula en coëfficiënt alpha.
Interbeoordelaarsbetrouwbaarheid: de mate waarin verschillende beoordelaars of observanten overeenstemming bereiken aangaande de scores die zij toekennen bij het beoordelen, coderen of classificeren van proefpersoonuitingen. Verschillende maten kunnen gebruikt worden om overeenstemming te meten, zoals het overeenstemmingspercentage, Pearson product-moment correlaties en kappa.

Subtypes van validiteit

Constructvaliditeit: een breed concept dat refereert aan de mate waarin maten het te bestuderen construct representeren. Andere types van validiteit en ander bewijs dat de correlaties van de maat verdiept zijn relevant voor de constructvaliditeit. Constructvaliditeit focust zich op de relatie van een maat met een andere maat en domeinen van functioneren waarvan het construct onderliggend aan de maat onderdeel van kan zijn.
Inhoudsvaliditeit: bewijs dat de inhoud van de items het te bestuderen construct of domein reflecteert; de relatie van de items tot het concept onderliggend aan de maat.
Gelijktijdige (concurrent) validiteit: de correlatie van een maat met de uiting op een ander maat op hetzelfde moment in de tijd.
Predictieve validiteit: de correlatie van een maat op het ene punt in de tijd met de uiting op een andere maat op een ander moment in de tijd.
Criteriumvaliditeit: correlatie van een maat met een ander criterium. Dit kan gelijktijdige of predictieve validiteit behelzen. Deze term wordt ook wel eens gebruikt in relatie tot een specifiek en vaak dichotoom criterium wanneer uiting op de ene maat geëvalueerd wordt in relatie tot aandoeningen (bv. depressief versus niet-depressief) of status (gevangenen versus niet-gevangenenen).
Gezichtsvaliditeit: de mate waarin een maat ogenschijnlijk het te bestuderen construct beoordeelt. Dit is geen formele vorm van validiteit of onderdeel van de psychometrische ontwikkeling van de evaluatie van een maat.
Convergente validiteit: de mate waarin twee maten hetzelfde of verschillende constructen meet. De validiteit van een gegeven maat wordt gesuggereerd als de maten correleren met andere maten waarmee een correlatie wordt verwacht. De correlatie tussen de maten is verwacht vanwege de overlap van de relatie van de constructen. Een vorm van gelijktijdige validiteit dat een speciale betekenis krijgt in relatie tot discriminerende validiteit.
Discriminerende validiteit: de correlatie tussen maten die verwacht worden niet met elkaar te correleren of waarvan verwacht wordt dat ze verschillende en niet aan elkaar gerelateerde constructen adresseren. De validiteit van een bepaalde maat wordt gesuggereerd als de maat weinig of geen correlatie vertoont met maten waarvan niet verwacht wordt dat ze zullen correleren. De afwezigheid van een correlatie wordt verwacht op basis van gescheiden en conceptueel verschillende constructen.

De concepten betrouwbaarheid en validiteit maken de onderzoeker gevoelig voor een scala aan overwegingen. In bepaalde situaties zijn specifieke types van validiteit meer of minder relevant. Bijvoorbeeld de test-hertest betrouwbaarheid kan relevant zijn om vast te stellen bij karakteristieken die van voorbijgaande aard zijn (toestanden of states), maar niet bij stabiele karakteristieken (trekken of traits).

In het algemeen kan gesteld worden dat bij het selecteren van een instrument het altijd nuttig is om in de literatuur de psychometrische eigenschappen van een instrument na te gaan.

Gevoeligheid van de maat

Een maat moet gevoelig genoeg zijn om het type en de grootte van een verandering of groepsverschil dat verwacht wordt door de onderzoeker te reflecteren. Meetgevoeligheid in deze context refereert aan de capaciteit van een maat om systematische variatie, verandering of verschillen in responsen te reflecteren. De gevoeligheid om verschillen of veranderingen op te merken hangt in grote mate af van de manier waarop de onafhankelijke variabele gemanipuleerd is en natuurlijk van wat die variabele is. Wanneer men kleine effectgroottes verwacht (bv. bij het vergelijken van twee behandelmethodes) is het van groot belang om een hoog-sensitief meetinstrument te gebruiken.

Het is van te voren moeilijk in te schatten hoe sensitief een meetinstrument is. Als richtlijk kunnen een aantal wenselijke eigenschappen genoemd worden. Ten eerste, de afhankelijke uitkomstmaat zou een relatief grote variatie aan responsen toe moeten laten, zodat variërende verhogingen en verlagingen geïdentificeerd kunnen worden. Als een schaal een nauwe range van score mogelijkheden heeft, wordt het moeilijk om verschillen tussen groepen te onderschrijven.Ten tweede is het belangrijk dat een instrument veranderingen in twee richtingen kan laten zien. Wanneer proefpersonen op de eerste meting al binnen de extreme regionen scoren, kunnen alleen veranderingen in de richting van het andere extreem waargenomen worden (plafond- en vloereffecten).

Nogmaals wordt het belang onderstreept om zoveel mogelijk vooraf aan een studie de sensitiviteit van een instrument in ogenschouw te nemen. Wanneer gebruik wordt gemaakt van gangbare en gestandaardiseerde metingen hoeft er geen voorwerk gedaan te worden, maar wanneer de sensitiviteit van een instrument niet bekend is is het handig om eerst een pilot met 10-20 cases uit te voeren om een idee van de sensitiviteit te verkrijgen. Een andere manier natuurlijk is om het grootschaliger aan te pakken en het ontwikkelen van een instrument het (sub)doel van een studie te maken.

Algemene opmerkingen

Het selecteren van meetinstrumenten voor een studie wordt vaak gedegradeerd tot het kijken naar de bestaande literatuur en kijken wat andere onderzoekers hebben gebruikt. Het gebruik van gestandaardiseerde, veel gebruikte instrumenten heeft voor- en nadelen. Een voordeel is dat het gebruik van hetzelfde instrument bij verschillende studies de mogelijkheid geeft tot het vergelijken van de bevindingen. Dit draagt bij aan het trekken van conclusies aangaande de externe validiteit en het identificeren van moderators. Een nadeel is dat veel gebruikte instrumenten niet per se van hoge kwaliteit zijn. Vaak worden instrumenten met zwakke of nauwe beoordelingen gebruikt. Het feit dat andere onderzoekers een instrument gebruikt hebben kan één van de redenen zijn om te kiezen voor een bepaald instrument, maar het moet niet dé reden zijn.

De meetinstrumenten die gebruikt worden zijn doorslaggevend voor het trekken van conclusies. Wanneer bijvoorbeeld een maat niet betrouwbaar genoeg is (een grote error variabiliteit vertoont), kan de statistische test geen verschillen laten zien bij groepsvergelijkingen, die er eigelijk wel zijn en ontdekt hadden kunnen worden met een betrouwbaarder instrument.

Het gebruik van beschikbare maten of het construeren van nieuwe maten

Het gebruik van gestandaardiseerde maten

In de meeste gevallen zal een onderzoeker gebruik maken van beschikbare maten waarvan de psychometrische eigenschappen bekend zijn. Het voordeel is dat er een stilzwijgende overeenkomst over deze maten is en dat het wijdverbreid gebruik van de maten onderlinge vergelijkingen toestaat. Een andere reden om gestandaardiseerde maten te gebruiken is dat eerdere onderzoekers veel werk gestoken hebben in het optimaliseren van deze instrumenten. Dit heeft veel bijgedragen aan de interpretabiliteit van de responsen op deze maten (bv. Wechsler Intelligence Scale en de Minnesota Multiphasic Personality Inventory).

De andere kant van de medaille is natuurlijk de vraag of een gestandaardiseerde maat precies het construct of aspect van een construct adresseert.

Het variëren in het gebruik of de inhoud van een bestaande maat

Het kan zijn dat een gestandaardiseerde maat voor functioneren, persoonlijkheid, gedrag of een ander domein voor handen is, maar dat een bepaald facet van het te bestuderen onderwerp de maat niet helemaal geschikt maakt. De maat is bijvoorbeeld voor jong-volwassenen ontworpen, maar de onderzoekspopulatie is ouderen. In zo een geval kan de onderzoeker besluiten de maat toch te gebruiken, maar zal wel enige inzet moeten tonen om binnen de studie de psychometrische eigenschappen te evalueren. Bewijs aangaande de betrouwbaarheid is zeker nuttig, maar meer nog is informatie over de validiteit van belang. Bewijs kan bestaan uit het correleren van scores op de maat in het nieuwe gebruik met scores op andere maten in de studie of het gebruik van de maat om verschillende subgroepen te meten en aan te tonen dat de bevindingen overeenkomen met de bevindingen uit eerdere studies die de maat gebruikt hebben zoals bedoeld.

In het algemeen kan gesteld worden dat het aanpassen van een bestaande maat de voorkeur heeft boven het nieuw ontwikkelen van een maat., omdat bij een bestaande maat al psychometrische eigenschappen bekend zijn. Dit gaat niet altijd op, want het kan zijn dat andere onderzoekers van mening zijn dat de aanpassing niet gepast is.

Het ontwikkelen van een nieuwe maat

Het kan zo zijn dat er geen instrument beschikbaar is om het construct waarin de onderzoeker geïnteresseerd is te meten. De onderzoeker kan in zo een geval ervoor kiezen een nieuw instrument te ontwikkelen. Het ontwikkelen van een nieuw instrument is een gewichtig proces en kan een totale carrière beslaan. Gezichtsvaliditeit (face validity) is niet voldoende bij het aantonen van de werkzaamheid van een instrument. Er is meer bewijs nodig dat een instrument als goede maat dient voor het te meten construct. Bewijs kan er op verschillende manieren uitzien:

Verschillen tussen groepen op de maat (oud versus jong) die consistent zijn met het construct (criterium validiteit).
Een patroon van correlaties dat laat zien dat de nieuwe maat zich zoals verwacht gedraagt, dat is, bewijs dat de richting en grootte van de correlaties consistent zijn (laag, middelmatig, hoog)met wat voorspeld zou worden vanuit de relatie tussen de constructen zoals die gemeten wordt door het nieuwe en een meer gangbaar instrument (gelijktijdige, predictieve of convergente validiteit).
Bewijs dat de nieuwe maat niet hoog correleert met een standaardmaat van een ander meer vastgesteld construct. Dit zou immers kunnen suggereren dat het nieuwe construct redelijk goed aansluit bij of overbodig is met andere constructen (discriminant validiteit).
Bewijs dat over de tijd de uitingen op een maat wel of niet veranderen afhankelijk van de aard van een construct (trait of state) (test-hertest betrouwbaarheid).

Bij het construeren van een nieuw meetinstrument is het van belang om bewijs te leveren voor minimaal één vorm van validiteit.

Algemene opmerkingen

De sterkte, specificiteit en hoogstwaarschijnlijk ook de bruikbaarheid van de conclusies van een studie hangt af van de interpretatie van de maat en de betekenis van de uitingen op de maat. Wanneer overtuigend bewijs aanwezig is voor de constructvaliditeit van de maat, zoals vaak het geval is bij gestandaardiseerde instrumenten, betekent dit een lastenvermindering voor de interpretatie. De last is echter nooit weg, omdat psychologische maten van aard gevoelig zijn voor veelvuldige kwesties aangaande constructvaliditeit, externe validiteit en potentiële bias. Zeker in de gevallen dat er (kleine) aanpassingen aan een instrument gedaan worden is het belangrijk om bij de rapportage over de studie iets te vermelden over de validiteit.

Modaliteiten en methodes van meten

Het zou te veel zijn om alle instrumenten te beschrijven die voor handen zijn bij het meten van psychologische constructen. Het heeft meer zin om een aantal dimensies of karakteristieken te noemen waarlangs de verschillende meetinstrumenten zich bewegen.

Globaal - specifiek: meetinstrumenten variëren in de mate waarin zij de breedte van een karakteristiek meten (nauw versus breed gedefinieerd).
Publiekelijk te observeren informatie - privé gebeurtenis: meetinstrumenten kunnen karakteristieken of gedragingen meten die voor anderen zichtbaar zijn (roken) of privé ervaringen (hoofdpijn).
Stabiele - voorbijgaande karakteristieken: maten kunnen trekken of langdurige aspecten van functioneren, maar ook kortdurende of episodische karakteristieken meten.
Direct - indirect: directe maten zijn maten waarvan het doel aan de client duidelijk is. Indirecte maten zijn die maten die het exacte construct voor de client verbergen.
Breedte van de domeinen in de steekproef: maten variëren in hoeverre zij een enkelvoudig karakteristiek meten of iets onthullen over meer verschillende karakteristieken van de persoonlijkheid of psychopathologie.
Format: maten variëren in de methodes waarmee de respons van een proefpersoon wordt vastgelegd, zoals waar - niet waar, multiple choice, gedwongen keuze, invul- en score formats van zelfrapportagelijsten en uitgebreide verhalende rapportages die gecodeerd worden bij projectieve technieken.

Een scherpere indeling voor de maten is wanneer de verschillende modaliteiten onderscheden worden. In het volgende deel worden enkele modaliteiten beschreven in samenhang met de problemen die optreden bij het gebruik van onderzoek in de klinische praktijk.

Globale waarderingen (global ratings)

Karakteristieken

Globale waarderingen verwijzen naar de poging om impressies van algemene karakteristieken te kwantificeren. De term globaal wordt gebruikt, omdat ze algemene impressies of ‘summary statements’ van een construct reflecteren. Globale waarderingen kunnen gegeven worden door de client zelf of anderen (therapeut, familieleden).

Vaak draait het om waarderingen die gegeven worden aangaande gebieden als algemene aanpassing, verbetering bij behandeling, stressbestendigheid en andere brede concepten. Deze waarderingen worden vaak gedaan door mensen een paar items te laten beantwoorden op een meerpuntsschaal waar de mate van de gemeten dimensie gemeten kan worden.

Globale waarderingen verschaffen een flexibel meetformat en kan bijna alle denkbare constructen vertegenwoordigen (symptomen, algemeen functioneren, comfort in sociale situaties). Bijkomend voordeel hierbij is dat door de algemeenheid de waardering door een heterogene populatie gebruikt kan worden. De maat is bruikbaar bij mensen die een hoge mate van een bepaald karakteristiek vertonen en door mensen die dat karakteristiek in veel mindere mate vertonen.

Kwesties en beperkingen

Eén van de grootste problemen bij het gebruik van globale waarderingen is de evaluatie van wat ze nou precies meten. Wanneer een client aangeeft dat de klachten met 2 punten op een zevenpuntssschaal afgenomen zijn, weet men nog niet welke klachten verminderd zijn, of alle klachten verminderd zijn of een gedeelte.

Vanwege de non-specificiteit van de waarderingen is het mogelijk dat de globale waarderingen onafhankelijk van de verandering van de client kunnen veranderen. Wanneer een therapeut bijvoorbeeld merkt dat een client met meer gemak naar de sessies komt of meer warmte toont naar de therapeut, kan de therapeut dit interpreteren als een verbetering van het functioneren van de client, terwijl klinische verandering niet op hoeft te zijn getreden.

Een ander probleem bij globale waarderingen is het mogelijke gebrek aan sensitiviteit. Door oversimplificatie gaat informatie verloren aangaande de specifieke karakteristieken.

De twee grootste bezwaren tegen het gebruik van globale waarderingen is dat globale metingen globale conclusies opleveren en dat ze vaak gemaakt zijn op basis van gezichtsvaliditeit, maar andere vormen van validiteit niet in ogenschouw nemen.

Meer in het algemeen gesproken zijn enquêtes en zelfrapportage data uitermate gevoelig voor testomstandigheden (reactiviteit), artefacten (sociaal wenselijke antwoorden) en contextuele omstandigheden (waar en hoe de items gepresenteerd worden). Vandaar dat het vertrouwen op één maat niet voldoende is en het gebruik van meerdere meetinstrumenten of -methodes aangeraden wordt bij het definiëren van een construct. Bij het afnemen van een testbatterij is het zeker handig om een aantal globale waarderingen te includeren. Het is vaak prettig om ook een algemene uitspraak te kunnen doen.

Zelfrapportage inventarissen, -vragenlijsten en -schalen

Karakteristieken

Binnen de klinische psychologie worden zelfrapportage inventarissen, -vragenlijsten en -schalen het meest gebruikt. De populariteit kan door een aantal aspecten verklaard worden. Allereerst worden constructen vaak gedefinieerd op basis van wat cliënten rapporteren. Zelfrapportage is een directe manier om erachter te komen hoe iemand zich voelt. Hieraan gerelateerd is het voordeel dat de client de enige is die die informatie kan verschaffen. Ten derde is de toediening eenvoudig. Als laatste reden voor de populariteit kan genoemd worden dat zelfrapportage methodes de mogelijkheid verschaffen tot het meten van de meest uiteenlopende constructen.

Kwesties en beperkingen

Twee algemene categorieën van problemen karakteriseren het gebruik van zelfrapportagemethodes. De eerste categorie is de ontvankelijkheid van de responsen voor bewoording, format en volgorde van de items. De tweede categorie behelst de mogelijkheid dat er bias of vervorming vanuit de client optreedt. Vervorming verwijst naar de verandering in responspatronen in het licht van eigen motieven of eigenbelang. Sociaal wenselijk antwoorden bijvoorbeeld is een concept dat hoog correleert met veel vragenlijsten.

Andere biases die kunnen optreden zijn een neiging om in te stemmen met items (bij een waar - niet waar format) ongeacht de inhoud, voor de extremen van een schaal te kiezen, juist voorzichtig zijn met kiezen voor extremen en inconsistent antwoorden over de items.

Bij het evalueren van de effectiviteit van behandeling kan het hello-goodbye effect optreden. Het hello-goodbye effect verwijst naar een verschuiving in scores tussen de voor- en nameting in de richting van een verbeterd functioneren van de client. Wat hierbij in gedachten gehouden moet worden is dat cliënten bij aanmelding vaak hun klachten uitvergroten en bij vertrek minimaliseren (om te bewijzen dat de therapie gewerkt heeft).

Het tegengaan van vervorming kan bereikt worden door cliënten ervan te vergewissen dat de antwoorden vertrouwelijk behandeld worden, dat de cliënt zelf het meest gebaat is bij eerlijke antwoorden etc.

Zelfrapportagemethodes zijn natuurlijk niet alleen populair, omdat ze makkelijk in het gebruik zijn. Makkelijk toe te dienen, maar nutteloze informatie opleverende instrumenten zijn geen lang leven beschoren. Zelfrapportagemethodes hebben dan ook (en doen dat nog steeds) enorm bijgedragen aan de meetbaarheid van vele constructen. Het is wel verstandig om naast een zelfrapportagemaat ook een andere maat te gebruiken.

Projectieve technieken

Karakteristieken

Projectieve technieken refereren aan een aparte klasse van meetinstrumenten die onderliggende intrapsychische karakteristieken, motieven, processen, stijlen, thema’s en bronnen van persoonlijke conflicten proberen boven te krijgen. De metingen vinden indirect plaats. Cliënten worden geconfronteerd met een ambigue taak en worden gevraagd hierop te reageren waarbij weinig situationele aanwijzingen en beperkingen worden gegeven. De ambiguïteit en het minimalisme van het stimulus materiaal geven de cliënt de ruimte om vrijelijk de belangrijke psychische processen binnen de eigen persoonlijkheid te projecteren.

Responsen op projectieve tests worden gezien als herleidbaar naar contextuele thema’s en perceptuele processen die de persoonlijkheid unificeren en organiseren. Domeinen kunnen zijn: hoe de client omgaat met seksuele of agressieve impulsen, relateert aan autoriteit of een behoefte aan presteren laat zien.

Projectieve tests worden veel gebruikt in de klinische praktijk. Voordelen van de tests zijn dat ze minder gevoelig zijn voor responssets en biases dan zelfrapportagemethodes en dat de tests indirect zijn. De client weet niet welk construct gemeten wordt.

Kwesties en beperkingen

Projectieve tests zijn al 50 jaar onderwerp van discussie . Hun populariteit verloopt in golfbewegingen. In de klinische praktijk worden ze wel gebruikt, maar bijna niet binnen onderzoek.

Projectieve technieken leunen zwaar op interpretaties en de invloeden van degene die scoort. De scoringsmethodes zijn vaak uitgebreid en omslachtig en onderwerp van felle kritiek.

Ook de beschikbaarheid van alternatieven heeft bijgedragen aan de afname van populariteit. Verschillende vragenlijsten die de persoonlijkheid meten zijn voor handen. De omslachtige scoring draagt ook niet bij aan een wijdverbreid gebruik binnen onderzoek.

Directe observatie van gedrag

Karakteristieken

Bij overte gedragingen kan de onderzoeker kiezen voor directe observatiemethodes. Directe observaties operationaliseren een construct in zichtbare gedragingen die genumereerd kunnen worden. Onmiddellijk moet gezegd worden dat het waarnemen van overte gedragingen betrouwbaarder is dan de weergave van privé aangelegenheden, maar niet wil zeggen dat het gebruik van een aanvullende meetmethode niet meer aanwezig is.

Observatie in de directe omgeving is niet altijd mogelijk, omdat veel gedragingen privé zijn (seksuele activiteiten), weinig voorkomen (een lage base rate hebben, zoals bv. brandstichten) of logistiek gezien niet haalbaar zijn. Observaties kunnen prima binnen een laboratoriumsetting plaatsvinden. Hier kan de onderzoeker ook veel beter de omstandigheden beheersen.

Kwesties en beperkingen

Ogenschijnlijk levert het direct observeren geen problemen op. Gedragingen kunnen geteld worden en als maat dienen voor het desbetreffende construct. Directe observatie kan echter ook onder invloed staan van externe factoren. Men kan niet met zekerheid zeggen dat de gedragingen die voor een bepaalde tijd onderzocht worden in de werkelijkheid even vaak vertoond zouden zijn of dat de gedragingen op alle tijden even vaak voorkomt. Dit probleem kan ondervangen worden door observaties op verschillende momenten van de dag te laten plaatsvinden.

Psychobiologische maten

Karakteristieken

Psychobiologische maten refereren aan meettechnieken die ontworpen zijn om biologische substraten van affect, cognitie en gedrag of de verbinding tussen biologische processen en psychologische constructen te meten. De maten beslaan verschillende types van functies (arousal van het autonome systeem), systemen (cardio-vasculair, neurologisch) en analyseniveaus (micro-electrodische fysiologie die het mogelijk maakt om individuele neuronen in het brein te evalueren). Maten worden op verschillende manieren verkregen, bijvoorbeeld door niet-invasieve metingen als hartslagmeters of invasieve metingen als bloedafnames.

Voorbeelden van psychobiologische maten zijn: neuroimaging technieken (fMRI, PET), fysiologische maten voor arousal en reactiviteit en biochemische metingen (cortisol).

Psychobiologische maten hebben duidelijke voordelen en nemen een prominente plaats in binnen klinisch onderzoek. Psychobiologische maten zouden wanneer het mogelijk is geïncludeerd moeten worden bij de metingen, omdat zij minder gevoelig zijn voor de algemene artefacten die andere instrumenten plagen. Psychobiologische maten zijn niet onderhevig aan sociale wenselijkheid of beïnvloedbaar door de cliënt.

Kwesties en beperkingen

Voor een korte periode waren onderzoekers in de veronderstelling dat psychobiologische maten op een directe manier een psychologische staat kunnen weergeven. Responssystemen kunnen fysiologisch gemeten worden, maar zijn niet isomorf (gelijkvormig).

Een andere kwestie is het kostenplaatje. Psychobiologische methodes zijn vaak duur, omdat het het gebruik van dure materialen vereist.

Ook psychobiologische maten zijn onderhevig aan bias. Bewegingen of verandering van het ademhalingspatroon kunnen bijvoorbeeld een meting beïnvloeden.

Psychobiologische maten blijken bruikbaar bij het meten van constructen en blijven zich verder ontwikkelen. In de nabije toekomst zullen de technieken een hogere resolutie en fijnmazigere methodes opleveren, evenals vriendelijker in het gebruik worden door bijvoorbeeld draagbare versies te ontwikkelen.

Gecomputeriseerde metingen

Karakteristieken

Gecomputeriseerde metingen reflecteert een andere dimensie van modaliteiten dan tot nu toe beschreven. Het gebruik van computers kan zich bij verschillende modaliteiten voordoen, maar hier wordt met gecomputeriseerd bedoeld dat metingen geautomatiseerd plaatsvinden of zelfs via internet. Bij het gebruik bijvoorbeeld van gecomputeriseerde versies van een diagnostisch interview, kan een positief antwoord op een bepaalde vraag een serie aan toegevoegde vragen triggeren, die gebruikt zouden worden bij het doorvragen in een live situatie.

Als voordelen van het gecomputeriseerd afnemen van metingen is dat de kans op menselijke fouten (overslaan van vragen, volgorde veranderen) geminimaliseerd wordt en dat de kosten laag zijn. Verder lijken cliënten het ook prettiger te vinden om vragen op een computer te beantwoorden dan aan een clinicus.

Kwesties en beperkingen

De sleutelvraag bij het gebruik van geautomatiseerde afnames is of de resultaten die behaald worden vergelijkbaar zijn met de resultaten die behaald worden met de gebruikelijke vorm. Het onderzoek dat heeft plaatsgevonden om deze vraag te adresseren, geeft aanwijzingen dat de resultaten tussen de verschillende afnamevormen gelijke resultaten oplevert.

Meerdere voordelen zijn te noemen bij het gebruik van geautomatiseerde metingen, zoals de mogelijkheid tot een grootschalige toediening (bijvoorbeeld via internet), de accuraatheid van de afname, de gelijktijdige opbouw van een database zonder tussenstappen van scoring en invoer, kostenbesparing, cliënten kunnen opener zijn en de interactiviteit (bepaalde responsen triggeren andere subsets).

Algemene opmerkingen

Dit overzicht van de hoofdmodaliteiten van metingen is niet bedoeld om uitputtend te zijn. Het selecteren van een bepaalde modaliteit kan voor een groot deel ingegeven worden door theoretische voorspellingen, de aard van de klacht en interpretaties van de therapeut. Ook praktische zaken spelen een rol bij de keuze. Bij de rapportage over een studie wordt de rationale voor de keuze voor een modaliteit vermeld.

De ene modaliteit is niet beter dan de andere. Ook hier wordt weer gekeken naar de meest passende vorm van meten bij het beantwoorden van de onderzoeksvraag. De keuze voor een instrument wordt bepaald door het selecteren van het instrument dat het te bestuderen construct het beste weergeeft. Het gebruik van meerdere modaliteiten wordt uiteraard geprefereerd.

Onopvallendheid (unobtrusiveness) en reactiviteit van psychologische maten

Aard van het probleem

Opvallende metingen (obtrusive measures) zijn metingen waarbij de proefpersonen weten dat ze beoordeeld worden. Ze weten misschien het doel van de onderzoeken niet, maar ze weten dat ze onderzocht worden. Dit bewustzijn kan de uitingen op een bepaalde maat beïnvloeden. Wanneer een uiting verandert door dit bewustzijn, wordt er gesproken van een reactieve maat. Een maat is niet per se reactief.

Meerdere intergerelateerde problemen doen zich voor bij opvallende metingen. Allereerst is reactiviteit een ‘method factor’, dat is, een karakteristiek dat mogelijk kan bijdragen aan de resultaten of scores op een maat. Wanneer de scores op twee verschillende maten hoog correleren kan reactiviteit de relatie verklaren en niet per se het onderliggende construct. Het kan zijn dat de cliënt bij beide metingen sociaal wenselijk reageerde.

Ten tweede kan het gebruik van opvallende metingen de generaliseerbaarheid van de bevindingen limiteren. De vraag die hierbij hoort is of mensen die niet weten dat ze beoordeeld worden hetzelfde zouden reageren als de proefpersonen die wel weten dat ze beoordeeld worden.

Ten derde kunnen opvallende en reactieve maten bepaalde responsstijlen oproepen die de uitingen kunnen beïnvloeden. De cliënt wil zichzelf bijvoorbeeld in een goed daglicht stellen.

Ten vierde verhogen opvallende en reactieve maten de kans dat er testleiderinvloeden optreden. Proefpersonen kunnen beïnvloed worden door verscheidene karakteristieken die een testleider vertoont (geslacht, leeftijd, culturele achtergrond).

Potentiële oplossingen bij traditionele (opvallende) maten

Verschillende oplossingen zijn voor handen om de invloed van het bewustzijn aangaande de beoordelingssituatie te verkleinen of zelfs te elimineren. Deze oplossingen variëren per methode. Bij zelfrapportagemethodes is het handig om cliënten te laten weten dat ze niet identificeerbaar zijn (anonimiteit) en dat er geen goede of foute antwoorden zijn. Meestal zijn de instructies vooraf hierop gericht.

Een andere strategie is om vul- (filler) of bufferitems in te bouwen. Vul- of bufferitems worden toegevoegd om een focusverschuiving te laten plaatsvinden of om een maat minder provocatief te laten schijnen. Het werkelijke onderwerp van de meting wordt verbloemd.

Andere mogelijkheden zijn om proefpersonen te vertellen dat de antwoorden geen invloed hebben op hun verdere behandeling of dat de proefpersonen snel moeten reageren, zodat ze geen tijd hebben om over de werkelijke reden van een vraag te contempleren.

Hoewel geautomatiseerde afnames nog steeds opvallend zijn, zijn ze wellicht minder reactief. De afwezigheid van een menselijke factor geeft geen mogelijkheden tot het stellen van vragen en draagt bij aan de anonimiteit, waardoor proefpersonen oprechter kunnen reageren.

Bij het doen van directe observaties in de natuurlijke omgeving kan men er vanuit gaan dat er een ‘novelty effect’ optreedt. De eerste periode zullen de deelnemers niet in hun normale doen zijn en daarom kan het inlassen van een wenperiode uitkomst bieden.

Onopvallende maten

Verschillende onopvallende meetstrategieën kunnen toegepast worden. Tabel 13.3 op bladzijde 391 noemt de hoofdstrategieën.

Eenvoudige observatie

Definitie

Observeren van gedrag in een naturalistische situatie waarin de onderzoeker niet intervenieert of ingrijpt. De onderzoeker is passief en doet niets om het normale gedrag te veranderen of te onthullen dat gedrag geobserveerd wordt.

voor- en nadelen

Het grote voordeel van eenvoudige observatie is dat het in vele situaties toegepast kan worden en dat de deelnemer niet weet dat hij/zij geobserveerd wordt en daarmee is de methode vrij van reactiviteit.

Een probleem bij het eenvoudig observeren kan het onherkenbaar maken van de onderzoeker zijn. Verborgen camera’s zijn wellicht een betere optie. Een ander probleem kan de frequentie van de gedragingen zijn waarin de onderzoeker geïnteresseerd is. Gedragingen met een lage base rate lenen zich niet goed voor eenvoudige observatie. Een laatste probleem heeft betrekking op de standaardisatie van de meetsituatie. De omstandigheden van de omgeving waarin de gedragingen zich voordoen kunnen drastisch veranderen met de tijd. Externe factoren als de aanwezigheid van bepaalde personen kunnen de respons beïnvloeden.

Voorbeelden

Het observeren van non-verbale bewegingen of lichaamsafstand bij sociaal gedrag; het in kaart brengen van kleding die mensen dragen om een gemoedstoestand te reflecteren.

Observaties in voorgewende situaties

Definitie

Eenvoudige observaties van gedrag in naturalistische situaties waarbij de onderzoeker intervenieert of iets doet om een bepaald soort reacties te ontlokken. De onderzoeker speelt een actieve rol zonder de reactiviteit van de situatie schade te berokkenen.

Voorbeelden

Het gebruiken van bondgenoten die zogenaamd hulp nodig hebben met als doel altruïsme te meten; het testen van eerlijkheid in een situatie die valsspelen toelaat.

Gearchiveerde dossiers

Definitie

Dossiers die voor andere redenen dan onderzoek bewaard worden, zoals instantiële, demografische, sociale of persoonlijke dossiers.

Voor- en nadelen

Dossiergegevens leveren een schat aan informatie op aangaande verschillende onderwerpen en kunnen uitstekend gebruikt worden voor het testen van hypotheses.

Archieven hebben hun eigen bronnen van meetproblemen. Eén probleem is de mogelijkheid dat instrumentatie zich voordoet. Wanneer de criteria voor het rapporteren van een bepaald karakteristiek veranderen, vertekent dit de resultaten en kan de werkelijke rate niet ingeschat worden. Een gerelateerd probleem is de selectiviteit van de informatie die opgeslagen wordt in de archieven.

Voorbeelden

Gegevens over geboorte, huwelijk, institutionele data zoals ontslagpapieren of patiëntendossiers, documenten.

Fysieke sporen

Definitie

Fysiek bewijs, veranderingen of restanten in de omgeving die overgebleven zijn door accumulatie of slijtage resulterend uit de uiting.

Voorbeelden

Slijtage op bladzijdes ten teken dat een boek gelezen is; vuilnisbakken bekijken bij het bestuderen van vervuiling; graffiti bij het bestuderen van seksuele thema’s.

Algemene opmerkingen

Een voordeel van onopvallende maten is dat zij makkelijk geïmplementeerd kunnen worden binnen bestaande situaties en zijn daarom extern valide. Verder zijn onopvallende maten vaak aantrekkelijk voor het publiek, omdat ze ‘uit het leven gegrepen’ zijn. Niet alleen het construct, maar de maat zelf is al interessant.

Onopvallende metingen hebben ook problemen. Naast alle andere kwesties die al genoemd zijn, moet men ook voorzichtig zijn met de interpretaties van onopvallende metingen. Metingen vinden weinig gevalideerd plaats en het is moeilijk om voorafgaand aan de studie de sensitiviteit van een meting te bepalen.

Daarbij komt nog dat onopvallende maten ethische kwesties kunnen oproepen. Deelnemers aan een studie behoren ‘informed consent’ te geven. Bij dossieronderzoek leeft dit probleem veel minder. Hierbij gaat het vaak om informatie uit het verleden en is niet terug te leiden tot een bepaald persoon. Hoewel ongewild wel een bepaalde bevolkingsgroep in een kwaad daglicht gesteld kan worden naar aanleiding van de bevindingen.

Meetstrategieën en kwesties

Gebruik van meerdere meetinstrumenten

Als algemene regel geldt dat er meerdere meetmethodes gebruikt behoren te worden bij het bestuderen van ieder construct. Het komt maar zelden voor dat een construct volledig weergegeven wordt door één bepaalde maat. Een paar uitzonderingen: dood als uitkomstmaat, enkelvoudige meting van hartslag. De aanbeveling om meerdere meetinstrumenten te gebruiken komt vanuit drie overwegingen.

De aard van het klinische probleem

De meeste constructen bestaan uit meerdere facetten ( persoonlijkheid, klinische problemen) en daarmee uit meerdere componenten. Het is onwaarschijnlijk dat een enkelvoudige maat al die facetten zal behelzen.

Specificiteit van de uiting

Uitingen hangen vaak af van bepaalde stimulus condities of situaties. Verschillende metingen kunnen laten zien hoe een proefpersoon onder verschillende omstandigheden reageert en daarmee specifieker beschrijven onder welke omstandigheden de uitingen zich voordoen.

Trait- en methode variantie

Meerdere meetmethodes zijn nodig om aan te tonen dat de resultaten zich niet beperken tot de constructen zoals ze gemeten worden door een bepaald instrument, maar daadwerkelijk het beoogde construct reflecteert.

Convergente en discriminerende validiteit zij hierbij van belang. Convergente validiteit wil zeggen de presentatie van het construct hoog moet correleren met een andere presentatie van hetzelfde construct. Discriminerende validiteit beoogt het omgekeerde. Verschillende constructen gemeten door verschillende instrumenten zouden niet hoog met elkaar mogen correleren.

De verkregen correlaties moeten kritisch bekeken worden. Wanneer bijvoorbeeld twee verschillende vragenlijsten hoog correleren wil dit niet automatisch zeggen dat ze hetzelfde construct vertegenwoordigen. Het kan ook zijn dat ze hoog correleren doordat ze overeenkomen in de meetmethode of doordat er een andere verbindende factor als sociaal wenselijkheid in het spel is.

Dus is het niet alleen van belang om verschillende meetinstrumenten te gebruiken, maar het liefst ook verschillende metingen vanuit verschillende modaliteiten. Hierbij wordt een multitrait-multimethod matrix verkregen, wat verwijst naar een set van correlaties die verkregen wordt door verschillende meetinstrumenten te gebruiken voor het meten van meerdere traits (constructen). De matrix is bedoeld om een beeld te krijgen van de convergente en discriminerende validiteit en om te kijken of de correlaties tussen de maten het gevolg zijn van de overeenkomst in de meetmethode (methode variantie) of van de constructen (trait variantie).

Interrelaties van verschillende maten

Hoewel het gebruik van meerder meetinstrumenten en -methodes wordt aanbevolen, is er ook een keerzijde. De keerzijde is dat er inconsistenties tussen de verschillende metingen kunnen zijn. Wanneer verschillende maten die hetzelfde beogen te meten verschillende resultaten laten zien, wordt de interpretatie van de resultaten bemoeilijkt.

Wanneer meerdere methodes verschillende resultaten laten zien, kan men dit als een probleem opvatten. Dit komt doordat er traditioneel gezien aannames gedaan zijn aangaande de aard van persoonlijkheid en menselijk gedrag en de manier waarop onafhankelijke variabelen opereren. Eigenlijk zijn er vier redenen te noemen waardoor maten niet met elkaar overeenstemmen.

De bijdrage van methode variantie

Verschillende meetmethodes presenteren verschillende situaties voor de proefpersoon en roept verschillende responsen op.

De vele facetten bevattende aard van persoonlijkheid en gedrag

Persoonlijkheidskarakteristieken kunnen verschillende componenten bevatten die overlappen met elkaar, maar niet inwisselbaar zijn. Het ene instrument kan nadruk leggen op het meten van het ene aspect en een ander instrument op een ander aspect. Hierdoor zal er geen hoge correlatie gevonden worden.

Grootte van het karakteristiek

Een bepaald karakteristiek kan vele uitingsvormen hebben. Sommige mensen zullen bijvoorbeeld hun angst duidelijk laten merken en hoog scoren op een observatieve maat, terwijl anderen hun angst minder overt uiten en veel lager scoren, terwijl beiden op een zelfrapportagevragenlijst een hoge score zullen bereiken. Er zal weinig overeenstemming te vinden zijn tussen de verschillende methodes, omdat angst verschillende uitingsvormen heeft (een hoge amplitude).

De koers van gedragsverandering

Bij het vergelijken van verschillende meetmethodes moet in ogenschouw genomen worden dat verschillende aspecten van gedrag op andere tijden gevoelig zijn voor verandering of met een andere snelheid veranderen.

Wanneer de tijden overeenkomen tussen de verschillende meetmethodes spreekt men van synchronie, wanneer de tijden niet overeenkomen spreekt men van dissynchronie.

Samenvatting en conclusies

Het selecteren van maten voor onderzoek is gebaseerd op verschillende overwegingen, zoals constructvaliditeit, psychometrische eigenschappen en sensitiviteit van de maten om veranderingen of verschillen te reflecteren. Standaard- of beschikbare maten worden meestal gebruikt, omdat hun effecten al bewezen zijn. Een bestaand instrument kan ook aangepast worden of er kan een totaal nieuw instrument ontwikkeld worden. Het is dan wel van belang om bij een rapportage van de resultaten iets over de validiteit te vermelden.

Verschillende modaliteiten zijn belicht als een manier om een breed scala aan meetstrategieën te beschrijven. Veel gebruikte metingen vallen binnen: globale metingen, zelfrapportage inventarissen, -vragenlijsten en -schalen, projectieve technieken, directe observaties, psychobiologische maten en geautomatiseerde beoordelingen. Bij de meeste vormen van psychologisch onderzoek is de deelnemer zich bewust dat hij/zij beoordeeld wordt (opvallende meting) en daarmee bestaat er de kans dat een proefpersoon anders zal reageren dan normaal (reactief). Onopvallende metingen kunnen gebruikt worden om resultaten te verkrijgen die vrij zijn van reactiviteit.. Verschillende onopvallende metingen zijn genoemd, zoals eenvoudige observatie, observatie in voorgewende situaties, archieven en fysieke sporen.

In het algemeen is het handig om te vertrouwen op meerdere meetinstrumenten, omdat 1) constructen vaak uit meerdere facetten bestaan, 2) uitingen kunnen variëren als een functie van de meetmethode en 3) omdat iemands persoonlijke standaard vaak bepaald wordt door het meetinstrument.

De overeenstemming (correspondentie, convergentie) en het gebrek aan overeenstemming tussen maten voor hetzelfde construct roept methodologische kwesties op. De evaluatie van trait en methode variantie is bediscussieerd binnen de context van multitrait-multimethod matrices. Het doel van zo een matrix is het evalueren van de convergente en discriminerende validiteit van een maat en de bijdrage van methode variantie.

Verschillen tussen de verschillende meetmethodes is te verwachten en het kan zijn dat de onafhankelijke variabele aparte metingen op verschillende manieren beïnvloedt.

Kernconcepten en -termen

Constructvaliditeit Reactiviteit

Convergente validiteit Betrouwbaarheid

Discriminerende validiteit Onopvallende maten

Multitrait-multimethod matrix Validiteit

Hoofdstuk 14: Beoordelen en evalueren van interventies

Het evalueren van interventies vindt plaats bij behandeling, preventie, educatie en verrijkingsprogramma’s. Vaak hebben zij de vorm van randomized controlled clinical trials. Dit soort onderzoek heeft vaak een lange looptijd en is daarom kostbaar. Om dezelfde redenen wordt dit soort onderzoek niet vaak gerepliceerd.

Het beoordelen van klinische significantie van de veranderingen

Behandeluitkomst onderzoek evalueert de effecten van behandelingen door statistisch significante veranderingen van voor tot na de behandeling (bv. een afname van symptomen) en statistisch significante verschillen (bv. de ene behandeling is beter dan de andere) te tonen. Statistische significantie zegt niets over het toegepaste belang van de uitkomst of van het effect. Klinische significantie zegt hier wel iets over. Klinische significantie verwijst naar de praktische waarde of belangrijkheid van het effect van een interventie, dat is, in hoeverre is er een ‘waar’ verschil gemaakt is voor de cliënt of anderen betreffende het functioneren in het dagelijks leven.

Veranderingen in het probleem waarvoor behandeling werd gezocht zijn vaak gradueel. Daardoor is het belangrijk dat er een beslissing wordt genomen over of de mate van verandering echt een verschil maakt in het leven van de cliënt. Verschillende evaluatie methodes zijn ontwikkeld om de klinische significantie van behandeleffecten vast te stellen. Iedere methode is gebaseerd op kwantitatieve evaluatie bij het beslissen over het belang van een verandering. Drie brede strategieën kunnen onderscheiden worden, namelijk vergelijkingsmethodes, subjectieve evaluatie en sociale impact.

Vergelijkingsmethodes

Bij de vergelijkingsmethodes worden de uitingen van een proefpersoon geëvalueerd in relatie tot uitingen van anderen.

Normatieve steekproeven

Bij normatieve vergelijkingen wordt de client vergeleken met goed functionerende anderen. Hiervoor zijn normatieve gegevens nodig vanuit een normatieve steekproef aangaande de gebruikte maten. Bij ipsatieve vergelijkingen wordt de cliënt met zichzelf vergeleken.

Disfunctionele steekproeven

Een andere methode om klinische significantie vast te stellen gebruikt een disfunctionele steekproef als vergelijkingsgroep. Een voorgesteld criterium is dat men van klinische significantie spreekt wanneer de verbetering van een cliënt geresulteerd heeft in een afwijking van twee standaarddeviaties van het gemiddelde van de disfunctionele groep. Waarom twee standaarddeviaties? Om twee redenen. De eerste is dat een afwijking van twee standaarddeviaties inhoudt dat een cliënt niet gerepresenteerd wordt door het gemiddelde van de disfunctionele groep. Een afwijking van twee standaarddeviaties van het gemiddelde houdt immers het 98e (of 2e) percentiel in. De tweede reden is gerelateerd. Twee standaarddeviaties benaderen het criterium dat gebruikt wordt bij statistische significantie bij groepsvergelijkingen (1.96 standaarddeviaties bij een two-tailed t test die groepen vergelijkt voor een p < .05).

Niet langer voldoen aan de criteria voor een psychiatrische diagnose

Klinische significantie kan ook geëvalueerd worden door te kijken of de diagnostische status van een individu veranderd is door de therapie. Een maat voor klinische significantie is de vaststelling of iemand aan het einde van de behandeling nog voldoet aan de criteria voor de aanvankelijke (of andere) diagnose.

Aan deze methode kleeft een nadeel. Een diagnose bestaat uit het vertonen van voldoende symptomen van een aandoening. Wanneer iemand niet meer voldoet aan de criteria (= een voldoende aantal symptomen), wil dit niet zeggen dat iemand ‘beter’ of ‘genezen’ is. Het kan zijn dat er een verbetering heeft plaatsgevonden op twee symptomen, maar dat er weinig verbeterd is in het gevoel van welbevinden.

Problemen en overwegingen

Een aantal kwesties spelen bij het gebruik van vergelijkingsmethodes. Een eerste vraag is wie er als de normatieve controlegroep kan fungeren. Met wie moeten bijvoorbeeld verstandelijk beperkten, chronisch psychiatrische patiënten of gevangen vergeleken worden? Een bijkomend probleem is het definiëren en identificeren van een normatieve populatie. De mate van voorkomen van disfuncties en symptomen varieert als een functie van sociale klasse, etniciteit en cultuur. Bij het vormen van een normatieve groep moeten die karakteristieken meegenomen worden als mogelijke moderators.

Zelfs wanneer een normatieve groep geïdentificeerd kan worden, blijft de vraag binnen welk bereik van de gedragingen het normatieve niveau valt. Het definiëren van een boven- en onderlimiet is arbitrair, tenzij er aangetoond kan worden dat gedragingen boven of onder een bepaald afkappunt (cutoff point) verschillende korte- en lange termijn uitkomsten hebben.

Het gebruik van symptomen als criterium kan aangevochten worden. Ook binnen de algemene bevolking komen problemen en psychiatrische stoornissen voor. Waarschijnlijk voldoet 20% van de algemene bevolking aan de criteria voor in ieder geval één psychiatrische diagnose. Misschien kunnen beter andere domeinen dan symptomen als uitgangspunt genomen worden, zoals bijvoorbeeld de mate van belemmering die de klachten opleveren of de kwaliteit van leven.

Verder kunnen er vraagtekens gezet worden bij het terugbrengen van scores binnen een normatieve range. Het kan namelijk zijn dat de normatieve groep zelf zoveel achterstand, deviante gedragingen of symptomen vertoont dat het bereiken van een normatief gemiddelde een twijfelachtig doel wordt. Bijvoorbeeld wanneer bij drugsgebruikende jongeren het gebruik teruggebracht moet worden tot het niveau van leeftijdgenoten. Waarschijnlijk wordt er door de normatieve groep ook volop geëxperimenteerd en is dit geen gepast doel.

Verder kan het zo zijn dat iemand verbetering laat zien, maar zich niet beter voelt of dat de veranderingen geen verschil hebben uitgemaakt bij de dingen die er echt toe doen.

Subjectieve evaluatie

Indrukken van de cliënt of degenen die interacteren met de cliënt aangaande de constateerbaarheid en het belang van de veranderingen. Het criterium bij de evaluatie is de mening over de zichtbaarheid van de verandering, over de mate waarin het originele probleem nog aanwezig is en over de impact van de verandering.

Problemen en overwegingen

Een aantal problemen doen zich voor bij subjectieve evaluatie. Allereerst worden vaak globale waarderingsschalen gebruikt bij het verkrijgen van subjectieve evaluaties. Zoals in het vorige hoofdstuk beschreven, zijn deze schalen gevoeliger voor bias van de kant van de beoordelaars dan meer specifieke maten.

Ten tweede hoeft de waarneming van een verandering door derden nog niet te betekenen dat de cliënt inderdaad is veranderd of veel is veranderd.

In het algemeen moeten subjectieve evaluaties met voorzichtigheid behandeld worden. Het kan zijn dat subjectieve evaluaties een verandering reflecteren waar andere instrumenten dat niet zouden doen. Hier voelen de cliënten zich misschien wel beter, maar zijn niet echt veranderd. Bijvoorbeeld, iemand voelt zich minder boos, maar slaat nog steeds de kinderen.

Sociale impact

Verandering op een maat die herkend of beschouwd wordt als van belang voor de samenleving, bijvoorbeeld arrestaties, spijbelen, rijden onder invloed. Het gaat hierbij vaak niet om psychologische schalen of maten die voor onderzoeksdoeleinden ontworpen zijn.

Problemen en overwegingen

Het meten van de sociale impact van een interventie wordt aangemoedigd, omdat het belangrijke brug slaat tussen onderzoekers en het publiek.

Sociale impact maten hebben hun zwaktes. Eén daarvan is de grofheid van de maat, waardoor een variëteit aan andere invloeden geassocieerd kunnen worden met de interventie. Een tweede zwakte is dat sociale impact maten veelal niet betrouwbaar beoordeeld of gedocumenteerd zijn. Verder worden ze vaak ook niet gestandaardiseerd afgenomen, waardoor ‘noise’ (error variantie) op kan treden. Het construct is ook niet altijd even goed gedefinieerd. Tevens zijn sociale impact maten gevoelig voor instrumentatie, dit wil zeggen gevoelig voor veranderingen binnen het meetinstrument zelf of maatschappelijke veranderingen in het vastleggen van informatie.

Over het algemeen genomen zijn sociale impact maten hoog geloofwaardig, maar hebben slechte psychometrische eigenschappen.

Algemene opmerkingen

Klinische significantie is een belangrijk concept. Het is belangrijk om te weten wat het effect is van behandeling, of het echt iets heeft veranderd in een mate die ertoe doet. Er zijn alleen nog geen duidelijke afspraken over wanneer iets klinische significant is. De besproken methodes hebben allemaal zo hun nadelen en moeten voorzichtig geïnterpreteerd worden.

Ondanks de nadelen, kan toch in het algemeen het rapporteren van een klinisch significante maat aangemoedigd worden. Het helpt de klinische praktijk vooruit en het helpt onderzoekers bij het uitdragen van de boodschap.

Bereik en breedte van de verandering

De focus van de maat voor de afhankelijke variabele is vaak smal gedefinieerd en richt zich vaak op een afname van symptomen. Zoals eerder vermeld kan dit een vertekend beeld geven. Andere domeinen van functioneren kunnen in ogenschouw genomen worden bij het bepalen van de klinische significantie, zoals bijvoorbeeld de mate van belemmering die de originele klachten opleverden vergeleken met de situatie aan het einde van de behandeling. Psychische klachten kunnen op verschillende manieren het dagelijks leven beïnvloeden bijvoorbeeld thuis, op het werk, op school en in sociale interacties.

Een andere manier is het kijken naar bijkomende kenmerken van een interventie. In de geneeskunde wordt bij een gelijkwaardige werking (afname van symptomen) het medicijn dat het makkelijkst toedienbaar is of de minste bijwerkingen heeft als superieur beschouwd.

Een goede reden om breder naar een concept als klinische significantie te kijken is dat psychotherapie een brede invloed heeft. Een interventie heeft niet alleen effect op de cliënt, maar ook op zijn/haar omgeving en zelfs op fysieke symptomen (psychotherapie verlengt het leven van terminaal zieke patiënten).

Karakteristieken van de behandeling

Tot nu toe is er aandacht besteedt aan het evalueren van therapie-effecten door de impact op de client te meten. Een ondergewaardeerd veld is de evaluatie van de karakteristieken van de behandeling, vooral van die karakteristieken die gerelateerd kunnen worden aan het incorporeren, gebruiken en verspreiden van een behandeling. In deze paragraaf worden drie criteria besproken voor de evaluatie van behandelingen.

Overdraagbaarheid

De mate waarin of het gemak waarmee een therapie verder verspreid kan worden naar andere therapeuten en cliënten. Bij dit criterium kan gedacht worden aan de complexiteit van de procedures, het type en de hoeveelheid benodigde training voor het implementeren van de procedures en de mate waarin afwijkingen van de voorgeschreven procedures geassocieerd is met het verlies van effectiviteit. Vanwege de verscheidenheid aan variabelen die samenhangen met de overdraagbaarheid van een behandeling zijn er geen eenvoudige maten voor het meten van de overdraagbaarheid.

Kosten

De monetaire kosten van het aanbieden van behandeling en het verlenen van diensten zijn onderdeel van de maten van behandeling. De kosten zijn niet per se onderwerp van wetenschappelijk onderzoek naar behandeleffectiviteit, maar behelst wel data die de overdraagbaarheid, implementatie en het beleid kunnen beïnvloeden.

Er zijn meerdere manieren om de kosten te berekenen, zoals uitgaven in relatie tot de winst van de uitkomst (kosten-baten analyse). Bij een kosten-baten analyse is het noodzakelijk dat een uitkomst in monetaire eenheden wordt uitgedrukt (bv. bewijs dat cliënten minder ziekteverzuim vertonen).

Een kosten-effectiviteit analyse heeft die omzetting naar monetaire een heden niet nodig en leent zich beter voor therapie-uitkomst onderzoek. Kosten-effectiviteit analyses bekijken de kosten in relatie tot een bepaalde uitkomst.

Het betrekken van een kostenmaat lijkt simpel. Dit is het echter niet. Het blijft namelijk niet bij het berekenen van de kosten van het leveren van de therapie, ook de kosten voor de ziektekostenverzekering, kosten van gemiste dagen werk door ziekteverzuim, etc, worden meegenomen. Kosten van een behandeling worden altijd vergeleken met de kosten van geen behandeling (die niet 0 zijn). De kosten van niet behandelen zijn hoog vanwege ziekteverzuim, uitkeringskosten, kosten voor medische behandelingen of ziekenhuisopnames.

Aanvaardbaarheid van de behandeling

De mate waarin degenen die deelnemen aan de behandeling (cliënten, familieleden en professionals) deze als redelijk, gerechtvaardigd, eerlijk en aantrekkelijk beschouwen. Bij gelijkwaardige behandelingen is degene die als meer acceptabel beschouwd wordt, waarschijnlijk degene die drukker en trouwer bezocht zal worden, beter nageleefd zal worden en correcter uitgevoerd zal worden.

Beoordeling tijdens de behandeling

Niet veel onderzoekers beoordelen cliënten tijdens de behandeling. Het is zeer informatief om dit wel te doen, omdat het de veranderingen in de client beoordeelt en de werkzame mechanismen die verantwoordelijk zijn voor de verandering geïdentificeerd kunnen worden.

Pre-post en continue beoordeling

Een onderzoeksontwerp met een voor- en nameting heeft, zoals eerder vermeld, vele voordelen. Toch is het bij het evalueren van een therapeutische interventie niet voldoende. Wat er zich tijdens de interventie afspeelt blijft namelijk buiten beeld. Men zou meer willen weten over hoe het veranderingsproces plaatsvindt. Daarbij komt nog dat veel interventies binnen een studie een vast protocol volgen. Ook daarvan zou men willen weten of dat protocol passend is, of er niet meer of minder sessies kunnen plaatsvinden bijvoorbeeld.

Bij het bespreken van continu beoordelen bij het hoofdstuk over single-case designs, werd al duidelijk dat er voordelen zitten aan het continu meten. Bij groepsstudies kan dit makkelijk geïmplementeerd worden door bij iedere sessie of om de sessie vijf tot 10 minuten voor een meting in te lassen.

Het evalueren van de mechanismen van de verandering

Door continu te meten tijdens de behandeling kunnen de koers van de therapie en de processen die betrokken zijn bij de verandering bestudeerd worden. Veranderen de symptomen gelijkmatig, veranderen sommige symptomen eerder, zijn de veranderingen lineair of beginnen ze vroeg en bereiken ze een asymptoot (het benaderen van een bepaald punt, maar het niet bereiken)?

De hiervoor genoemde vragen zijn beschrijvend van aard en hebben betrekking op de veranderingskoers van een therapie. Voor het trekken van causale verbanden aangaande werkzame mechanismen is een tijdslijn noodzakelijk. Er moet kunnen aangetoond worden dat wanneer A tot B leidt, A er eerder was dan B. Hiervoor is continue meting noodzakelijk.

Follow-up beoordeling

Beoordelingen die onmiddellijk na het beëindigen van de therapie plaatsvinden zijn na-metingen. Ieder moment daarna, of dit nu weken, maanden of jaren zijn, valt binnen een follow-up meting. Follow-up metingen leveren veel informatie op over de mate waarin de verbeteringen beklijven en of de verbeteringen de eventuele verbeteringen zonder formele behandeling ( de no-treatment groep) overstijgen.

Uitval

Overduidelijk is het hoofdprobleem bij follow-up metingen de uitval van proefpersonen. Met als algemene regel, hoe langer de follow-up periode, hoe meer uitval. Het grootste gevaar van uitval is dat de proefpersonen waarvan wel follow-up data beschikbaar zijn, niet het ‘zuivere’ niveau van functioneren van de hele groep hoeven te representeren. Een grote mate van uitval brengt schade toe aan de willekeurige samenstelling (de random toewijzing) van de groepen en maakt interpretatie van de follow-up data moeilijk.

Praktische overwegingen en mogelijkheden bij beoordelingen

Bij follow-up metingen zijn er aantal praktische problemen die voornamelijk voortkomen uit het feit dat cliënten uit beeld zijn. Zij komen niet meer regelmatig bij de kliniek en moeten op een andere benaderd worden voor de follow-up metingen.

Bij de voor- en de nameting zijn de maten, procedures en locaties identiek. Voor de follow-up hoeven niet dezelfde omstandigheden of meetprocedures gebruikt te worden. Een aantal sleutelbeslissingen moeten genomen worden over hoe de follow-up beoordeling eruit ziet en welke mogelijkheden er zijn.

Welke maten moeten gebruikt worden? Dezelfde als bij de voor- en nameting, minder, andere of nieuwe maten? Overweeg om buiten de gebaande paden te gaan en maten te bedenken die de kans dat proefpersonen de meting afmaken verhoogt.

Waar zal de beoordeling plaatsvinden? Bij de kliniek of het laboratorium, thuis, vanuit huis (telefonisch, email)? Sommige opties hebben meer kans van slagen. Het is voor een client gemakkelijker om tien minuten aan de telefoon te praten dan om naar een kliniek te komen.

Wie verschaft de data of dient als informant? Dezelfden die bij de voor- en nameting gebruikt zijn, andere, dossiers over aanwezigheid, arrestaties, hospitalisatie? Een combinatie van de opties kunnen passend zijn, maar gekeken moet worden wat het meest haalbaar is.

Wat kan er gedaan worden om de kans dat proefpersonen de follow-up zullen volmaken te verhogen? Contact blijven houden met de proefpersonen voordat de follow-up data verzameld worden, een geldelijke beloning in het vooruitzicht stellen, weinig vragen van de proefpersonen. De onderzoeker zal zijn/haar creativiteit en alle mogelijke middelen moeten gebruiken bij het binnenhouden van proefpersonen voor follow-up. Wie er contact opneemt, wat er gezegd wordt, hoe het gezegd wordt zijn allen cruciaal. Gezond verstand en warmte bij interpersoonlijke interacties hebben geen gelijke.

Algemene opmerkingen

Er worden te weinig follow-up data verzameld bij interventie studies. De mogelijkheden die besproken zijn variëren in kosten en in het mogelijke succes dat ze opleveren bij het verzamelen. In het algemeen kan gesteld worden dat de follow-up zo kort mogelijk en gebruikersvriendelijk moet zijn. Men kan bijvoorbeeld op basis van de gegevens die ut de voor- en nameting verkregen zijn enkele belangrijke maten selecteren en een verkorte versie van de eerder gebruikte testbatterij afnemen.

Samenvatting en conclusies

Interventie onderzoek is een grote stroming binnen het klinisch veld en roept verschillende vragen aangaande de beoordelingen op. Eén van de kwesties is hoe de uitkomstmaten beoordeeld moeten worden. Verschillende criteria en strategieën zijn besproken. Tevens is het begrip klinische significantie aan bod gekomen. Drie strategieën om klinische significantie te meten zijn besproken, namelijk vergelijkingsmethodes, subjectieve evaluatie en sociale impact maten. Verder zijn er aanbevelingen gedaan om het bereik van uitkomstonderzoek uit te breiden naar andere maten dan alleen symptomen. Er zijn meerdere klinisch relevante effecten van therapie (uitkomsten die relateren aan aanpassing, mentale en fysieke gezondheid). Maten om karakteristieken van behandeling te evalueren zijn ook besproken en houden overdraagbaarheid, kosten en aanvaardbaarheid in. Deze kenmerken hebben waarschijnlijk een effect op het in gebruik brengen van de ontwikkelde behandeling.

Follow-up beoordelingen zijn een belangrijk facet van interventie onderzoek. Het verlies van proefpersonen is het grootste obstakel bij de uitvoer van de follow-up. Het verlies van proefpersonen levert grote methodologische problemen op. Verschillende kwesties en aanbevelingen zijn aan bod gekomen om de kans op het verkrijgen van follow-up data te vergroten. Beslissingen aangaande waar de beoordeling plaats zal vinden en wie de data zal verzamelen zijn voorbeelden van beslissingen die al bij het ontwerpen van een studie genomen moeten worden.

Kernconcepten en -termen

Aanvaardbaarheid van de behandeling Normatieve vergelijkingen

Klinische significantie Sociale impactmaten

Overdraagbaarheid van de behandeling

Hoofdstuk 15: Statistische methodes van data-evaluatie

Nadat alle data verzameld zijn, breekt de fase van statistische data-evaluatie aan. Statistische evaluatie refereert aan het gebruik van kwantitatieve technieken die de data beschrijven of conclusies trekken aangaande de effecten, dat is, in hoeverre ze mogelijk het gevolg zijn van toeval of van een werkelijk effect. Dit facet van onderzoeken valt onder de statistische conclusie validiteit. Methodologie behelst meer dan het kijken of een verschil statistisch significant of niet. Het is belangrijk om de centrale kenmerken van statistische evaluatie te begrijpen in termen van de invloed die het heeft op het ontwerp van een studie en het trekken van valide conclusies.

Het testen van significantie en de nul hypothese

Overzicht

Het testen van een nulhypothese op significantie is in de jaren twintig en dertig van de vorige eeuw ontstaan. De houding is dat we, ook al zijn we geïnteresseerd in verschillen, er a priori vanuit gaan dat die er niet zijn, tenzij er overtuigend bewijs is.

Een doel van statistische evaluatie is het verschaffen van een objectief, of in ieder geval overeengekomen, criterium (significantie niveau) om te beslissen of er voldoende overtuigend bewijs is om de ‘geen verschil’ hypothese te verwerpen. Bij het vergelijken van groepen zal het gemiddelde altijd wel verschillen tussen de groepen. Het gaat erom dat er gekeken moet worden of die verschillen de gebruikelijke fluctuaties tussen groepen weergeeft of een daadwerkelijk verschil.

Bij statistische evaluatie wordt een betrouwbaarheidsniveau geselecteerd als criterium voor het bepalen ven de statistische significantie (meestal .05 of .01). Een statistisch significant verschil houdt in dat het waarschijnlijkheidsniveau gelijk of kleiner is dan het geselecteerde betrouwbaarheidsniveau. Bij een geobserveerde waarschijnlijkheid lager dan .05, wordt de nulhypothese verworpen en geconcludeerd dat de verschillen een werkelijk verschil inhouden.

Statistische significantie is niet heilig. Er kunnen verschillen gevonden worden, die er in werkelijkheid niet zijn en op toeval berusten. De rol van toeval moet nooit buitengesloten worden. Verder kunnen statistische evaluaties het slachtoffer zijn van misbruik, ambiguïteiten, misinterpretaties en subjectiviteit.

Alleen in bijzondere gevallen is het toetsen van statistische significantie overbodig. Dit is bij de zogenoemde ‘slam bang’ effecten. Dit zijn effecten die zo drastisch of dramatisch zijn dat verdere evaluatie overbodig is.

In het volgende deel worden een aantal sleutelconcepten beschreven in relatie tot hun betekenis en wat de onderzoeker kan doen om een effect te demonstreren wanneer er een verschil is.

Significantieniveau (alpha)

Alpha is een bekend besliscriterium bij data-evaluatie. Traditie leidt onderzoekers in het gebruik van alpha’s van p < .05 en .01. Statistische significantie is een directe functie van steekproefgrootte. Hoe groter de steekproef, hoe kleiner het verschil kan zijn om statistische significantie te bereiken. Bij enorm grote steekproeven bereikt ieder verschil wel statistische significantie.

Power

Het probleem

Power refereert aan de kracht van een onderzoek om een verschil aan te tonen dat er daadwerkelijk is. Bij het gebruik van statistische significantie om de resultaten te evalueren is het vaststellen van de power een cruciaal onderdeel.

Het vaststellen van het niveau van de power verloopt niet op een mathematische manier, maar is net als bij alpha gebaseerd op traditie aangaande de marge van bescherming die er moet zijn tegen het onterecht accepteren van de nulhypothese. Een power van .80 bij een alpha van .05 wordt als acceptabel beschouwd. Dit houdt in dat de kans van de onderzoeker om een bestaand verschil te vinden 4 uit 5 is. Over het algemeen wordt dit niveau niet gehaald bij psychologisch onderzoek.

Door de lage power van vele onderzoeken, moeten uitkomsten van onderzoeken die geen verschil vinden tussen interventies kritisch bekeken worden. De conclusie die namelijk vaak wordt getrokken is dat de behandelingen dan even effectief zijn, terwijl het onderzoek niet sterk genoeg was om verschillen überhaupt vast te kunnen stellen en gebrek aan power heel goed als rivaliserende interpretatie kan dienen.

Relatie tot alpha, effect- en steekproefgrootte

Power, alpha, effect- en steekproefgrootte zijn vier aan elkaar gerelateerde concepten. Wanneer drie bekend zijn, kan de vierde berekend worden. Dit wordt het meest gebruikt bij het bepalen van de steekproefgrootte. Voor alpha en de power vullen we getrouw .05 en .80 in, maar wat te doen met de effectgrootte? Daarvoor moeten we de grootte van het verschil van de groepen op de afhankelijke variabele weten.

Een uitkomst kan het consulteren van meta-analyses zijn. Meta-analyses worden gebruikt bij het evalueren van onderzoek binnen een bepaald veld en verschaffen een schatting van de effectgrootte. Wanneer meta-analyses niet beschikbaar zijn, kan men naar individuele studies kijken die dezelfde afhankelijke variabelen onderzocht hebben. Wanneer ook die niet voor handen zijn, kan een onderzoeker de effectgrootte schatten. Effecten kunnen ingedeeld worden in klein, gemiddeld en groot. De bijbehorende effectgroottes zijn respectievelijk: .2, .5, .8. Conservativiteit bij de schatting wordt aanbevolen.

Voor een rekenvoorbeeld zie tabel 15.1 op bladzijde 444.

Variabiliteit in de data

Zoals gezegd in hoofdstuk 3, beïnvloedt variabiliteit (error variantie) in de data de standaarddeviatie en daarmee de effectgrootte. Error variantie maakt de kans op statistisch significante verschillen kleiner. De kans op error variantie wordt vergroot bij slordig uitgevoerd onderzoek, door het gebruik van heterogene proefpersonen die op meerdere karakteristieken verschillen die samenhangen met de uitkomstmaat en door het gebruik van onbetrouwbare meetinstrumenten.

Manieren om de power te verhogen

Er zijn verschillende manieren om de power te verhogen. De meest voor de hand liggende is het vergroten van de steekproef. Wanneer men studenten als proefpersonen gebruikt zal dit niet zo moeilijk zijn, maar bij een klinische steekproef is dit aanzienlijk moeilijker, omdat er simpelweg niet genoeg mensen zijn die het bepaalde karakteristiek vertonen (kinderen met een bepaalde chronische aandoening, samenlevende ouders van hetzelfde geslacht, professoren met sociale vaardigheden).

Het verhogen van de te verwachten verschillen tussen de groepen

Men kan de te verwachten verschillen tussen de groepen verhogen (het verhogen van de effectgrootte) door bijvoorbeeld de manipulatie sterker te maken. Dit doet men door bijvoorbeeld het contrast groter te maken. In plaats van weinig met veel te vergelijken, kan men veel met niets vergelijken.

Wanneer een karakteristiek lineair opereert, waarbij meer ook erger betekent (depressie) kan men bijvoorbeeld het aantal groepen verkleinen. Had men eerst drie groepen gemaakt die in ernst verschillen (laag, gemiddeld, hoog), dan kunnen er twee groepen gevormd worden.

Gebruik van pretesten

Het gebruiken van een pretest verandert de ‘error term’ (de noemer in de functie van de effectgrootte), doordat een co-variaat wordt toegevoegd (voor de wiskundige notering zie tabel 15.2 op blz. 446). De noemer van de formule verandert dan van s naar s vermenigvuldigd met de wortel uit 1-de gekwadrateerde correlatie tussen de voor- en nameting. Hierdoor neemt het getal in de noemer af, waarmee de effectgrootte en daarmee de power toeneemt.

Het variëren van niveaus van alpha binnen een onderzoek

De afspraken over de significantieniveaus van .05 en .01 zijn hard. Toch zijn er gevallen waarin men de alpha kan herzien. Alpha representeert de fout van de eerste soort, waarbij de nul hypothese ten onrechte wordt verworpen. Het alpha niveau kan wat gereduceerd worden, waardoor de kans op een fout van de eerste soort vergroot wordt en daarmee de kans op een fout van de tweede soort, waarbij de nul hypothese ten onrechte wordt aangenomen, afneemt.

Situatie waarin met de alpha gevarieerd kan worden zijn:

wanneer de classificatie van de groepen (bij een case-control studie) niet perfect heeft plaatsgevonden, waardoor bijvoorbeeld cases in werkelijkheid controls hadden moeten zijn,
wanneer de gebruikte maat niet betrouwbaar vastgesteld is (slechte psychometrische eigenschappen),
wanneer kleine effecten of verschillen (effectgrootte en significantie) verwacht worden en
wanneer de consequenties van de beslissing duidelijk variëren als een functie van de richting en men alleen geïnteresseerd is in het ontdekken van verschillen in één richting (one-tailed en lenient alpha).

Het aanpassen van alpha is wel iets dat vooraf aan de studie bepaald moet worden en niet pas op het moment dat de resultaten tegen vallen.

Het gebruik van directionele testen

Wanneer men niet geïnteresseerd is in het vinden van een tweezijdig verschil (beter of slechter), maar alleen in een éénrichting verschil (beter), kan men een one-tailed test gebruiken. Een kleinere t waarde is nu nodig voor het verwerpen van de nul hypothese.

One-tailed testen worden nauwelijks gebruikt en roepen bij andere onderzoekers achterdocht op. Is er voor een one-tailed test gekozen voorafgaand aan de studie of na het zien van de resultaten? Deze achterdocht kan weggenomen worden door de resultaten van een one-tailed en een two-tailed test weer te geven of in de rapportage over een studie duidelijk aan te geven waarom voor een one-tailed test is gekozen.

Het verminderen van variabiliteit (error) in de studie

De laatste methode om de power te verhogen is het verminderen van variabiliteit in de studie. Variabiliteit (verschillen tussen proefpersonen) kan vele bronnen hebben, zoals heterogene steekproeven (jongeren en volwassenen versus alleen volwassenen) en hoe nauwkeurig de studie uitgevoerd en geleid wordt (monitoren van de behandelingsintegriteit). Het constant houden van de variabiliteit wordt gereflecteerd in minimale variatie dat zich vervolgens vertaalt naar een grotere effectgrootte.

Er zijn twee manieren om error variantie tegen te gaan, namelijk het constant houden van variabelen of het analyseren van die variabelen, die kunnen bijdragen aan de error variantie, als een aparte factor.

Data-analyses en het ontwerpen van de studie

Het is nuttig om bij het begin van de studie per hypothese te formuleren welke statistische strategie gebruikt zal worden om de data te analyseren. Bij het selecteren kan men zich het volgende afvragen:

heb ik genoeg power, gegeven de waarschijnlijke effectgrootte?
Kan ik alpha of de steekproefgrootte variëren, of op de één of andere manier de variabiliteit verlagen om de power op te krikken?
Kan ik de sterkte of kracht van de onafhankelijke variabele vergroten of het effect dat zal optreden uitvergroten door verschillende groepen in het design te gebruiken of door de condities te contrasteren?
Heb ik alle groepen in de studie nodig of kan ik alle proefpersonen in minder groepen indelen?
Zijn er andere tests gerelateerd aan de hypothese die de groepen verder kan verdelen (bijvoorbeeld mannen versus vrouwen)?

Speciale onderwerpen bij het analyseren van de data

Intent-to-treat analyse

Bij interventie-onderzoek is er vaak sprake van meerdere meetmomenten, een voor- en nameting en follow-up metingen. De kans op uitval is groot bij herhaalde metingen in de tijd. Het verlies van proefpersonen levert een methodologisch probleem op. De random toewijzing die aan het begin van de studie uitgevoerd is kan in gevaar komen en selectie bias kan optreden. Dit verandert een ‘zuiver’ experiment in een quasi-experiment.

In sommige gevallen zijn onderzoekers gerust gesteld wanneer de uitval gelijk in aantal is over de groepen. Deze gerustheid is maar schijn, omdat iedere vorm van uitval de random toewijzing verpest. Voor een ‘zuiver’ experiment is namelijk niet alleen random toewijzing nodig, maar ook dat proefpersonen in de toegewezen groep blijven. Wanneer een gelijk aantal proefpersonen uitvalt, wil dit nog niet zeggen dat hetzelfde type proefpersonen uitgevallen is. Wie er uitvallen kan als een functie variëren met de conditie waar de proefpersoon aan toegewezen was.

Hoe moeten de data geïnterpreteerd worden? Er zijn twee methodes die gebruikt kunnen worden bij interventie studies. Naar de eerste wordt gerefereerd als completere analyse en is de meest gebruikte bij psychologisch onderzoek. Bij deze methode worden alleen de data geanalyseerd van de proefpersonen die alle metingen voltooid hebben.

Het grote nadeel van de methode is dat de random toewijzing niet langer geldig is en allerlei bedreigingen voor de interne (selectie x geschiedenis, selectie x rijping) en externe validiteit (op wie hebben de bevindingen betrekking?) op de loer liggen.

Een andere methode voor data-interpretatie is de intent-to-treat analyse. De intent-to-treat analyse is ontworpen om de originele random toewijzing intact te houden. Zelfs de proefpersonen die na de voormeting al uitvallen blijven binnen de studie. De scores op de voormeting worden dan overgedragen naar de volgende meetmomenten.

Het gebruik van voorafgaande data bij volgende metingen is één manier. Men kan ook op het moment van uitval meten, ook al valt het uitvalmoment niet samen met een meetmoment.

Beide methodes hebben een keerzijde. Bij completere analyses kan bias optreden, doordat alleen de proefpersonen geïncludeerd worden die de behandeling hebben afgemaakt, waardoor de kans op selectiebias ontstaat doordat de random toewijzing niet meer geldt. Intent-to-treat analyses hebben als nadeel dat de data van proefpersonen gebruikt worden die geen behandeling hebben ontvangen. De intent-to-treat analyse is zeer conservatief, doordat de uitvallers beschouwd worden als personen die niet vooruit zijn gegaan bij de behandeling. Hierdoor wordt de kans op het vinden van verschillen verkleint.

Meestal wordt voor één van de methodes gekozen. Ze kunnen ook beide gebruikt worden, omdat ze net een andere vraag adresseren. Wanneer beide methodes dezelfde resultaten opleveren, versterkt dit de conclusies.

Analyses die meerdere vergelijkingen betrekken

Het controleren van alpha niveaus

Wanneer er meerdere groepen zijn in een studie, zeg A,B en C zijn behandelgroepen en D is de controlegroep, kan men ervoor kiezen om een algemene variantie-analyse uit te voeren en wanneer er significante verschillen optreden gaan zoeken naar de specifieke groepen die van elkaar verschillen.

In plaats van een variantie-analyse kan men ook meerdere vergelijkingen maken en iedere groep apart vergelijken met een andere groep. Wat hierbij goed bedacht moet worden is dat alpha refereert aan de kans op een fout van de eerste soort bij één gegeven vergelijking. Daarom wordt alpha ook wel eens de per-comparison error rate genoemd. Bij meerdere vergelijkingen kan de kans op een fout van de eerste soort veel groter zijn, ook wel probability pyramiding of experiment-wise error rate genoemd. Hoeveel hoger het niveau van p wordt hangt van het aantal groepen af.

Verschillende multi-vergelijkingen tests zijn beschikbaar die het probleem van experiment-wise error rate adresseren en controleren voor de verhoogde kans op een fout van de eerste soort. Veel van deze tests dragen de naam van de ontwikkelaar in zich (Tukey, Duncan, Scheffé).

De Bonferroni is een relatief simpele methode en bestaat uit een manier om alpha aan te passen in het licht van het aantal vergelijkingen. De Bonferroni aanpassing is gebaseerd op het delen van alpha (p = .05) door het aantal vergelijkingen (bijv. 6) . 05/6 houdt in p = .0083. Dit is nu het nieuwe significantieniveau.

Overwegingen

Er is een algemene overeenstemming dat meerdere vergelijkingen een bepaalde aanpassing vereist om te controleren voor een fout van de eerste soort, waarbij de nul hypothese ten onrechte wordt verworpen. Tegelijkertijd houdt het stringent bewaken van alpha in dat de kans op een fout van de tweede soort toeneemt, doordat de power verlaagt.

Ook al wordt er meer waarde gehecht aan het controleren voor een fout van de eerste dan de tweede soort, is dat bij psychotherapie onderzoek twijfelachtig. Zoals eerder vermeld is de power meestal al laag bij interventie studies en het strikt vasthouden aan een alpha van .05 of .01 kan deze power nog meer verlagen.

Wanneer significante verschillen verdwijnen bij het aanpassen van alpha, zijn er verschillende wegen die bewandeld kunnen worden. De onderzoeker kan simpelweg de resultaten weergeven voor de aangepaste en onaangepast alpha niveaus. Als tweede kan een onderzoeker een andere experiment-wise error rate nemen van bijvoorbeeld p = .10. Bij meerdere vergelijkingen wordt dit als vrij acceptabel beschouwd.

Als derde mogelijkheid kan het aantal vergelijkingen verkleind worden door alleen naar verschillen te zoeken tussen bepaalde groepen en niet alle mogelijke vergelijkingen maken. Hierdoor wordt de alpha minder stringent en ligt er niet zo een druk op de power.

Meerdere uitkomsten: multivariate en univariate analyses

Bij klinisch onderzoek worden vaak meerdere uitkomstmaten gebruikt (bijv. meerdere gezichtspunten: vanuit de client, therapie en familie). Bij meerdere maten is de interrelatie tussen die maten een relevante kwestie voor de data-analyse.

Uitingen op verscheidene uitkomstmaten kunnen conceptueel gerelateerd zijn, omdat ze een domein reflecteren dat de onderzoeker als een unit beschouwt of empirisch gerelateerd, omdat de maten hoog correleren met elkaar.

Voor meerdere uitkomstmaten geldt hetzelfde als voor meerdere vergelijkingen, namelijk dat meerdere aparte univariate testen (t of F test) de kans op een fout van de eerste soort vergroten. De Bonferroni kan dan natuurlijk toegepast worden, maar het kan ook zo zijn dat twee maten eigenlijk hetzelfde construct representeren. In dat geval kan het zo zijn dat de aparte maten beiden niet tot significantie komen, maar wel wanneer ze gecombineerd worden.

Bij meerdere uitkomstmaten kan men multivariate analyses gebruiken. Multivariate analyses includeren meerdere maten binnen één data-analyse, terwijl univariate analyses maar één maat per keer bekijken. Multivariate analyses worden niet zozeer gebruikt omdat er meerdere uitkomstmaten zijn, maar vanwege de mogelijkheid tot het begrijpen van de relaties tussen die maten. Multivariate analyses verschaffen lineaire combinaties van de maten en evalueren of die combinaties significant zijn.

Overwegingen

Het kan zijn dat zowel het gebruik van een univariate- als van een multivariate analyse gepast is. De keuze hangt af van de bedoeling van de onderzoeker. Multivariate analyses zijn vooral gepast wanneer de onderzoeker de maten als conceptueel interrelaterend beschouwt en geïnteresseerd is in het maken van verschillende groeperingen van de maten apart van of toegevoegd aan een individuele maat.

Multivariate analyses hoeven niet hetzelfde resultaat op te leveren als meerder univariate tests. Dit komt doordat de multivariate tests rekening houden met de relatie tussen de maten. Onderzoekers kunnen beginnen met een algemene multivariate test en bij een significant verschil univariate tests uitvoeren om te kijken tussen welke maten de verschillen gevonden worden. Uiteraard moet de experiment-wise error rate in acht worden genomen.

Bezwaren tegen het testen van statistische significantie

Het testen van statistische significantie voert de boventoon binnen de wetenschap. Het is dan ook belangrijk om onderlegd te zijn in de kwesties en methodes. Het echter ook van belang om te weten dat hoe er momenteel omgegaan wordt met statistische significantie misleidend, contraproductief en simpelweg verkeerd is. Er wordt onder andere aanbevolen om met het hele gebruik te stoppen of om het testen van significantie aan te vullen met andere informatie. De bezwaren tegen het testen van significantie hebben betrekking op wat er gedaan en niet gedaan wordt en hoe ze gemisinterpreteerd worden.

Zorgen

Een arbitrair gekozen criterium (alpha) dat rigide nageleefd wordt.
Alles of niets beslissingen (wel of niet accepteren van een nul hypothese).
H0 is bijna nooit waar, er zijn altijd wel verschillen tussen groepen.
Significantie is een functie (en maat) van N.
Tests zijn subjectiever dan verwacht (door de selectie en het gebruik van tests).
Significantie zegt niets over de sterkte of het belang van een effect.

Misinterpretaties

Het is niet waar dat:

p de waarschijnlijkheid representeert dat, of de mate waarin, de nul hypothese waar is. De p-waarde zegt alleen iets over de kans dat een bepaalde bevinding op toeval berust.
Een hogere p-waarde (p < .0001) een sterker effect weergeeft.
Een hogere p-waarde een effect weergeeft dat hoogstwaarschijnlijk gerepliceerd zal worden.
Geen verschil betekent dat er geen echt effect is opgetreden, maar dat een verschil dat wel betekent.
Er non-significante trends bestaan of dat het verschil significantie benaderde. Het is een alles of niets beslissing. Sowieso verwijst de term trend naar een helling van een curve en wordt dus verkeerd gebruikt.

Het testen van significantie en het falen bij replicatie

Wanneer statistische significantie als uitgangspunt genomen wordt voor het trekken van conclusies kan dit replicatie en de vermeerdering van kennis belemmeren. Het kan namelijk zo zijn dat identieke bevindingen tot verschillende resultaten kunnen leiden.

Alles hangt af van de steekproefgrootte. Wanneer de effectgroottes van twee studies hetzelfde zijn, maar de steekproefgrootte verschilt, kan het hetzelfde effect bij de grotere steekproef significantie bereiken en bij de kleinere niet (voor een rekenvoorbeeld zie blz. 462 en 463). Dit is chaos!

Alternatieven voor of toevoegingen aan significantie tests

Er zijn drie alternatieven voor het testen van statistische significantie (zie ook tabel 15.5 op blz. 464).

Grootte en sterkte van het effect

Het wordt aanbevolen om in plaats van, of in ieder geval bij, de significantie een andere maat te rapporteren. Een maat die iets zegt over de grootte of de sterkte van het effect. De effectgrootte (ES) is al besproken. Anderen zijn: Cohen’s d, r, r², R, R², omega² (ω²), eta (η) en epsilon² (ε²). Voor wiskundige noteringen en de omzettingen naar de verschillende maten zie tabel 15.6 op bladzijde 466.

Betrouwbaarheidsintervallen

Een effectgrootte of andere maat voor de grootte van het effect verschaft een puntschatting, dat is, een specifieke waarde die de populatiewaarde schat. Als toevoeging hierbij is het handig om betrouwbaarheidsintervallen weer te geven. Een betrouwbaarheidsinterval geeft een bereik van waardes en reflecteert de kans dat de ES in de populatie binnen een bepaald gebied valt. Veel gebruikte intervallen zijn betrouwbaarheidsintervallen van 95% of 99% (voor de wiskundige notering zie tabel 15.5. op blz. 464).

Betrouwbaarheidsintervallen verschaffen een verscheidenheid aan waardes waarbinnen het werkelijke verschil tussen de groepen waarschijnlijk zal liggen. Ook al is dit een gebied en geen punt, het draagt ook de informatie in zich die men vanuit een significantie test zou verkrijgen, omdat z-waardes, die gebruikt worden bij het testen voor significantie ( z-score van 1.96 voor p = .05), gebruikt worden voor het bepalen van de onder- en bovengrens van het interval.

Een voordeel is dat de data makkelijk gerepresenteerd kunnen worden in termen van een originele meetunit (totaalscores, IQ punten), zodat ze makkelijker te interpreteren zijn. Zo kan er over een ES gezegd worden dat deze met een zekerheid van 95% binnen een bepaald gebied valt, maar ook over een bepaalde score (IQ).

Meta-analyse

Meta-analyse is een methodologie voor secundaire analyses waarbij meerdere studies geëvalueerd en gecombineerd worden. Meta-analyses combineren verschillende effectgroottes van verschillende studies en verschaffen daarom een beter schatting ven de populatie parameters. Meta-analyses gaan verder dan alleen een overzicht van de literatuur verschaffen. Door verschillende studies te evalueren zijn er meerdere effectgroottes voor verschillende relaties beschikbaar. Meta-analyses maken het daardoor mogelijk om relaties te testen die bij de originele studies niet mogelijk waren.

Statistische significantie, grootte van het effect en klinische significantie

Het verschil tussen effectgrootte (ES, r) en statistische significantie is eenvoudig te begrijpen. Verwarrender is het verschil tussen grootte van het effect en klinische significantie. De sterkte van het effect (ES, r) geeft de grootte van het experimentele effect, de hoeveelheid gedeelde variantie en hoeveel de variabelen gerelateerd zijn weer. Een grote ES zegt niets over de klinische significantie. Een reden daarvoor is, is dat de afhankelijke variabele die het grote effect vertoont ongerelateerd kan zijn aan alledaagse uitingen (reactietijd, specifieke cognitieve processen). Zelfs wanneer de maat relevant is voor een klinisch probleem kan de ES niet vertaald worden naar klinische significantie.

Bijvoorbeeld, bij een studie naar de behandeling van overgewicht zijn er twee groepen. In de experimentele groep valt iedereen twee kilo af en iedereen in de controlegroep komt 2 kilo bij. De effectgroottes kunnen aan het eind van de studie groot zijn, maar 2 kilo afvallen houdt in dat de deelnemers nog steeds kampen met overgewicht, dus is het effect niet klinisch significant.

Statistische significantie, effectgrootte en klinische significantie verschaffen ieder andere informatie over de data.

Algemene opmerkingen

Het is onduidelijk wat de toekomst zal zijn voor statistische significantie. In de literatuur wordt er veel geklaagd en het wordt aanbevolen om naast de statistische significante ook andere maten te vermelden.

Samenvatting en conclusies

Het testen van statistische significantie is de dominante manier van het analyseren van resultaten bij onderzoek. Bij het overgrote deel van de onderzoeken worden statistische tests uitgevoerd om de nul hypothese te testen en om vast te stellen of de verschillen tussen groepen statistisch significant zijn. Statistische tests maken gebruik van waarschijnlijkheidsniveaus bij deze beslissing en zijn puur gebaseerd op het voorkomen van een fout van de eerste soort, dat is, het onterecht verwerpen van de nul hypothese.

Sleutelconcepten bij statistische evaluatie zijn genoemd, zoals significantie niveaus, power, steekproefgrootte, significantie en grootte van het effect, meerdere vergelijkingstests en multivariate data. Statistische power heeft in dit hoofdstuk de meeste aandacht gekregen, omdat het het beste de samenhang tussen alpha, steekproefgrootte en ES weergeeft. Evaluaties van onderzoeken hebben laten zien dat onderzoeksontwerpen vaak een lage power hebben. De meest voor de hand liggende manier om de power te vergroten is door de steekproef te vergroten. Andere strategieën om de power te vergroten zijn sterkere manipulaties of meer contrasterende experimentele condities, het gebruik van een voormeting of herhaalde metingen om de error term te verlagen, het variëren van alpha, het gebruik van directionele tests en het minimaliseren van de error variabiliteit bij alle facetten van de studie.

Een aantal onderwerpen gerelateerd aan statistisch testen zijn aan bod gekomen, zoals intent-to-treat en completere analyses bij het omgaan met missende data. Ook zijn meerdere vergelijkingstests en de noodzaak van het controleren van error rates besproken. Als laatste zijn het gebruik van multivariate en univariate tests en de relatie met de error rate besproken.

Al sinds men begon met het testen van significantie hoort men ontevreden geluiden. Een aantal zorgen zijn dat de nul hypothese en significantie testen een arbitrair cutoff punt gebruiken om binaire beslissingen te nemen (accepteren of verwerpen) en niet de informatie verschaffen waarin men eigenlijk geïnteresseerd is. Wat heeft het sowieso voor zin om een nul hypothese van geen verschil te testen, terwijl er bijna altijd een verschil is tussen groepen. Over statistische significantie wordt gezegd dat het eigenlijk een maat van steekproefgrootte is en niets meer. Met een zeer grote steekproef bereikt bijna ieder verschil statistische significantie.

Een aantal aanbevelingen zijn gedaan aangaande alternatieven voor statistische significantie, zoals het vermelden van informatie aangaande de sterkte en de grootte van de relatie. Effectgrootte (ES) en Pearson product-moment correlaties (r) zijn besproken, maar er zijn er meer. Een puntschatting van het waarschijnlijk effect binnen een betrouwbaarheidsinterval is waarschijnlijk bruikbaarder bij het interpreteren van een studie.

Kernconcepten en -termen

Bonferroni aanpassing Experiment-wise error rate

Completere analyse Intent-to-treat analyse

Betrouwbaarheidsinterval Grootte van het effect

Hoofdstuk 16: Interpretatie van de data

In dit hoofdstuk ligt de focus op het bespreken van algemene zaken rond en valkuilen van het interpreteren van de data, oftewel bij de verschuiving van de resultaten sectie naar de discussie. Verder zal het in dit hoofdstuk gaan over het vinden van negatieve resultaten, dat is, het vinden van geen verschillen. Het laatste gedeelte gaat over het repliceren van een studie.

Het interpreteren van de resultaten van een studie

Overzicht

Bij data-interpretatie draait het om de stap maken van kwantitatieve analyses naar de beschrijving en interpretatie van de data in verhalende vorm. Data-interpretatie kan moeilijk zijn, omdat de betekenissen van de kwantitatieve resultaten gemisinterpreteerd en overgeïnterpreteerd kunnen worden. Het is belangrijk om naast de specifieke statistische resultaten ook iets algemeens te kunnen zeggen. Liever praten we over constructen dan over maten. Wat gezegd kan worden is afhankelijk van het ontwerp en de analyses.

Vaak voorkomende sprongen in taal en conceptualisatie van de bevindingen

De onderzoeker heeft meerdere mogelijkheden om overdreven sprongen te maken van wat de resultaten zeggen tot wat er in de discussie komt. Enkele voorbeelden.

Zeer significante effecten

Zoals eerder genoemd is het refereren aan een p-waarde van .001 als zeer significant eigenlijk onzinnig. Een p-waarde heeft eigenlijk geen statistische betekenis of speciale rol bij het testen van de nul hypothese. Verder kan er verwarring ontstaan door het gebruik van het woord significant, omdat het ook een synoniem voor betekenisvol is.

De ene variabele voorspelt de ander

Bij het interpreteren van correlaties wordt er wel eens onterecht gesproken over voorspellers, omdat bij verschillende statistische tests die variabelen bij de output zo worden genoemd. In werkelijkheid zijn het geen voorspellers, omdat de samenhang er alleen op één bepaald moment was.

Implicaties van de bevindingen

Bij de rapportage over een studie worden vaak de implicaties van het onderzoek vermeld. Het woord ‘implicatie’ dient voor sommige onderzoekers als een vrijbrief voor het aansnijden van ieder onderwerp. Wat is er mis met vermelden dat de studie alleen theoretische implicaties heeft of alleen bijdraagt aan een beter begrip van een construct. Er hoeven niet altijd (vergezochte) praktische implicaties te zijn.

Meerdere data-analyses dragen bij aan betere data-interpretatie

Bij de meeste onderzoeken wordt er gezocht naar hoofdeffecten tussen verschillende condities. Maar ook al vindt er een hoofdeffect plaats, het zal niet voor iedereen in de groep opgaan. Therapie kan in het algemeen werkzaam zijn, maar niet voor iedereen. Men is dan geïnteresseerd in voor wie wel en voor wie niet (interactie-effecten), dus subgroepen.

Het exploreren van behandelingsmoderators

Bij explorerende analyses kan er een andere indeling van groepen worden gemaakt op basis van de resultaten. Men kan bijvoorbeeld een behandelconditie opdelen in de cliënten die boven een bepaalde maat veranderd zijn en in cliënten die onder die maat veranderd zijn. Er kan dan gekeken worden op welke variabelen die cliënten van elkaar verschillen.

Bij explorerende data-analyses moet er altijd gewaakt worden voor het uitgraven (mining) van de data, omdat de kans op toevalseffecten groter wordt. Dit is geen reden om het niet te doen, maar wel een reden voor extra voorzichtigheid bij de interpretatie.

Het voorspellen van behandelingsmoderators

Het zoeken naar subgroepen, moderators en interactie-effecten zijn synoniem aan elkaar. De interactie geeft weer dat de impact van een variabele niet gelijk verdeeld tussen een andere conditie (geslacht, ernst van de aandoening), maar systematisch varieert als een functie van die andere conditie. Het onderzoeken van zo een andere conditie is een handige gids voor verder onderzoek.

Als het even mogelijk is, is het handig om interacties tussen variabelen te voorspellen. Voorspellingen aangaande interactie-effecten reflecteren vaak een beter begrip dan het voorspellen van hoofdeffecten. Interacties definiëren de limiterende condities van een bepaald effect of experimentele variabele. Om een interactie-effect te kunnen voorspellen hangt voor een groot deel af van de aanwezige kennis binnen een onderzoeksveld.

Algemene opmerkingen

Het zou mooi zijn als de wereld alleen uit hoofdeffecten bestond. Resultaten van experimenten konden dan simpelweg geaccepteerd of verworpen worden, wanneer aangetoond kon worden dat een variabele altijd (g)een effect heeft. In de echte wereld is het zo dat als een variabele geen effect heeft, het altijd mogelijk is dat het wel een effect zou hebben wanneer een bepaalde conditie veranderd zou worden. Interactie-effecten hebben invloed op de generaliseerbaarheid.

Negatieve resultaten of geen verschil bevindingen

Het verwerpen van de nul hypothese wordt vaak als een positief resultaat beschouwd en het moeten aannemen van de nul hypothese als negatief. Het vinden van een statistisch significant verschil is vaak een criterium voor de publiceerbaarheid van de studie. Ten onrechte worden bij studies die significante verschillen laten zien de zwaktes in het design door de vingers gezien en studies die geen verschillen laten zien als slecht ontworpen gezien.

De waarde van een studie zou beter beoordeeld kunnen worden als een functie van de conceptualisatie en methodologische gepastheid, dan in hoeverre er verschillen gevonden werden. Conceptualisatie refereert aan het belang van de onderzoeksvraag, de theoretische onderbouwing en hoe goed doordacht de vraag is blijkende uit de rapportage over de studie. Methodologie refereert aan alle facetten die bedreigingen voor de experimentele validiteit en bronnen voor artefacten en bias opleveren.

Ambiguïteit van negatieve resultaten

Studies die geen verschillen vinden worden niet vaak gepubliceerd, omdat het vaak niet duidelijk is waarom er geen verschillen zijn gevonden. Er zijn meerdere redenen voor het vinden van geen verschillen.

Er zijn geen of heel kleine verschillen in de populatie. Dit wil zeggen dat de geen verschil bevinding juist is.
De power was laag en waarschijnlijk te zwak om een verschil te kunnen waarnemen.
De onderzoeker kon de manipulatie niet dupliceren of uitvoeren of de manipulatie werd niet zoals bedoeld uitgevoerd (diffusie van condities, slechte naleving van het protocol door testleiders, groepen bleken bij de manipulatiecheck niet te verschillen).
Niveaus van de onafhankelijke variabele (laag, gemiddeld hoog) waren niet optimaal of leverden geen sterke test op.
Excessief veel ongecontroleerde error variabiliteit (heterogene proefpersonen, losse procedures, zwakke en onbetrouwbare maten).
Rivaliserende invloeden hadden een grotere impact op de resultaten dan de manipulatie (rijping, statistische regressie) en hebben alle effecten van de manipulatie uitgewassen of overstegen.

Wanneer negatieve resultaten interpreteerbaar zijn

Negatieve resultaten kunnen ook wel informatief en interpretabel zijn. In de eerste plaats binnen de context van een onderzoeksprogramma. Een onderzoeksprogramma refereert aan een serie van studies die door een onderzoeker of onderzoeksgroep worden uitgevoerd. De studies komen vaak met elkaar overeen op dimensies als de onafhankelijke variabelen, proefpersonen en maten. Een aantal van die studies zullen significante verschillen laten zien en anderen niet. Het gebruik van ongevoelige instrumenten of het slecht uitvoeren van de studie kunnen als verklaring uitgesloten worden.

Negatieve resultaten zijn ook informatief wanneer de resultaten gerepliceerd worden door verschillende onderzoekers. Een probleem binnen wetenschappelijk onderzoek is dat wanneer een studie een relatie heeft aangetoond het extreem moeilijk is die te weerleggen in volgend onderzoek. Het herhaaldelijk aantonen van geen verschillen kan bijdragen aan een weerlegging.

Negatieve resultaten zijn ook informatief wanneer de studie kan laten zien onder welke omstandigheden wel en onder welke omstandigheden de resultaten niet optreden. Di wordt het eenvoudigst bereikt met een factorieel design. Een interactie tussen verschillende factoren geeft aan dat het effect van één variabele afhangt van het niveau van een andere. Negatieve resultaten treden hier alleen bij sommige condities op.

Een gerelateerde manier is wanneer geen verschillen optreden bij een patroon van resultaten van meervoudige maten. Een negatief resultaat kan bij sommige, maar niet alle maten optreden. Dit levert een fijnmazige analyse van een fenomeen op.

Wanneer negatieve resultaten belangrijk zijn

In sommige gevallen hopen we op negatieve resultaten. Genetisch gemanipuleerd voedsel zou het hongerprobleem in de wereld op kunnen lossen. In zo een geval hopen we dat uit onderzoek zal blijken dat er geen negatieve gevolgen zijn van het eten van genetisch gemanipuleerd voedsel vergeleken met het eten van gangbaar voedsel.

Wanneer een onderzoeker in het bovengenoemde voorbeeld geen verschillen vindt, wordt er door een onderzoeker gezegd dat er geen bewijs is voor schade. Het publiek wil horen dat er bewijs is voor geen schade.

Het vinden van geen verschillen kan belangrijk zijn bij het uitproberen van een nieuw medicijn. Wanneer er geen verschillen gevonden worden hoeft er geen tijd en geld gestoken te worden in het op de markt brengen. Ook het aantonen van geen toegevoegde waarde van dure therapieën kan nuttig zijn.

Het belang van een negatief resultaat hangt af van de herleidbaarheid en de interpreteerbaarheid.

Replicatie

Replicatie is een cruciaal onderwerp dat relateert aan de evaluatie van de bevindingen en de accumulatie van kennis.

Types van replicatie

Replicatie refereert aan het herhalen van een experiment. Verschillend vormen van replicaties zijn mogelijk en bewegen zich langs een continuüm. Aan de ene kant van het continuüm vinden we directe of exacte replicatie aan de andere kant systematische of bij benadering replicatie. Directe replicatie refereert aan de poging om een experiment exact te herhalen. In het ideale geval zijn de condities en procedures van de replicatie en het originele experiment identiek. Systematische replicatie refereert naar de herhaling van een experiment door systematisch de kenmerken te variëren (van jong naar oud). De condities en procedures van de replicatie zijn bewust ontworpen om die van het originele experiment alleen te benaderen.

Directe replicatie wordt in het ideale geval gedaan door de onderzoeker zelf, omdat die exact weet waar de onderzoekspopulatie uit bestond, etc. Directe replicatie door aan andere onderzoeker is moeilijker, omdat de procedures waarschijnlijk niet voldoende beschreven zijn om een exacte kopie te maken.

Situaties waarbij replicatie bruikbaar is:

verschillende data-analyses kunnen leiden tot verschillende conclusies;
statistische tests hebben verschillende opties (heranalyse) en
overdraagbaarheid van laboratoriumbevindingen naar de praktijk.

Het belang van replicatie

Het belang van replicatie bij wetenschappelijk onderzoek kan niet voldoende benadrukt worden.

Door het toetsen van de nul hypothese en het gebruik van statistische evaluatie kunnen er toevalsbevindingen optreden.
Bij psychologische experimenten kunnen meerdere variabelen aan het werk zijn, die leiden tot een patroon aan resultaten dat niet alleen tot stand is gekomen door de onafhankelijke variabele.

Replicatie studies worden niet met veel enthousiasme ontvangen. Vanwege het herhalende karakter worden ze vaak als niet dramatisch en on-origineel beschouwd. Toch zou men anders tegen replicaties aan moeten kijken en ze moeten zien als een test voor robuustheid van de bevindingen. Door een studie te repliceren kan er gekeken worden of de conclusies handhaafbaar zijn.

Voor de klinische praktijk zijn replicaties van groot belang, omdat men zeer geïnteresseerd is te weten voor wie, door wie, waar, etc. een interventie het meest effectief is.

Replicaties leveren niet automatisch dezelfde resultaten op. Binnen de onderzoeksliteratuur zijn replicaties niet erg populair, replicaties van positieve bevindingen zijn niet zo interessant en replicaties van negatieve bevindingen worden niet als interessant beschouwd. Veel van dit soort onderzoek wordt dus nooit gepubliceerd en verdwijnt in een bureaula (file-drawer problem).

Algemene opmerkingen

Replicatie en negatieve resultaten zijn apart besproken, maar op belangrijke punten gerelateerd aan elkaar. Het is gebruikelijk om van een gerepliceerde bevinding te spreken wanneer de originele studie en de replicatie een positief effect laten zien. Van een niet gerepliceerde bevinding wordt gesproken wanneer de originele studie een significant effect laat zien, maar de replicatie(s) niet. In het vorige hoofdstuk hebben we al gezien dat dezelfde bevindingen tot verschillende conclusies kunnen leiden (effectgroottes gelijk, maar steekproefgrootte niet en daardoor bij maar één studie significante verschillen). Dus wanneer een studie niet repliceerbaar blijkt, kan dit het gevolg zijn van artefacten van de analysemethode.

Wat voor de power geldt, geldt ook voor replicatie. Het is een zeer belangrijk onderwerp, maar niet populair.

Samenvatting en conclusies

Drie onderwerpen die gerelateerd zijn aan data-interpretatie zijn in dit hoofdstuk besproken, namelijk interpretatie van de resultaten van een onderzoek, negatieve resultaten en replicatie. Bij het bediscussiëren van de resultaten kunnen taalkundige sprongen gemaakt worden die leiden tot misrepresentatie of overinterpretatie van de resultaten. Veel voorkomende voorbeelden zijn genoemd, zoals iets stelliger zeggen dan dat de data dat toelaten. Bijde discussie is het de bedoeling om de resultaten naar een hoger plan te trekken, maar men kan te ver gaan. De kwestie hangt samen met epistemologie: wat weten we vanuit deze studie en wat kunnen we zeggen aan de hand van dat resultaat?

Een ander onderwerp cruciaal bij de data-interpretatie is het vinden van negatieve resultaten, dat wil zeggen van geen verschil tussen de groepen. Het concept is niet populair vanwege de dominantie van statistisch significante bevindingen in de onderzoeksliteratuur. Het waarde hechten aan statistisch significante bevindingen leidt af van andere overwegingen als het kunnen accepteren van de conclusies op basis van theoretische of empirisch belang van de vraag en de kwaliteit van het onderzoeksdesign. Vaak is het zo dat methodologisch zwakke studies met significante verschillen eerder gepubliceerd worden dan methodologisch gedegen studies die geen verschillen vinden.

Gerelateerd aan het onderwerp van negatieve resultaten is de replicatie studie. Replicaties kunnen variëren in de gelijkenis tot de originele studie. Directe replicatie poogt het originele experiment volledig na te bootsen en systematische replicatie varieert doelbewust met de condities van het originele experiment. Replicaties kunnen tot negatieve resultaten leiden, wat vragen oproept over de basis van de resultaten van het originele experiment of de generaliseerbaarheid van de originele bevindingen. Replicatie onderzoek is belangrijk omdat het de meest robuuste test is om te kijken of een gevonden verschil waarheidlievend is. Omdat er veel studies gepubliceerd zijn die gebaseerd zijn op toevalsbevindingen (inherent aan het vertrouwen op statistische significantie) is het van belang dat studies gerepliceerd worden. Replicaties hoeven geen exacte kopieën te zijn, maar kunnen zowel nuances als totaal nieuwe vragen adresseren.

Kernconcepten en -termen

Directe replicatie Replicatie

File-drawer problem Systematische replicatie

Negatieve resultaten

Hoofdstuk 17: Ethische kwesties en richtlijnen voor onderzoek

Voor een onderzoeker bestaat de ethische kant van onderzoek doen vaak uit een paar praktische handelingen (toestemmingsformulier maken en laten ondertekenen door de proefpersoon). Er liggen echter gewichtige kwesties onder deze handelingen die normen, waarden, wetten en sociaal beleid vertegenwoordigen.

Dit hoofdstuk behandelt een aantal ethische kwesties en belicht de actuele richtlijnen voor ethisch verantwoord onderzoek doen en de professionele verplichtingen bij de uitvoer van en de rapportage over een studie. De focus ligt puur op het uitvoeren van onderzoek met menselijke proefpersonen.

Hedendaagse context en breedte van de kwestie

De zoektocht naar kennis en de methodes die daarbij gebruikt worden is een tijdlang als neutraal of waardevrij beschouwd. Wetenschappers hebben een rol gespeeld bij de ontwikkeling van wapens (atoombom, radar, raketlanceerders) en die bijdrage kan niet als waardevrij beschouwd worden. Tegenwoordig is men van mening dat het neutrale gezichtspunt in feite immoreel is, omdat het de persoonlijke verantwoordelijkheid voor mogelijke consequenties uit de weg gaat.

De nadruk op de rol van normen en waarden binnen de wetenschap is niet uit het niets ontstaan. Verschillende incidenten aangaande beladen beslissingen, belangenverstrengeling en misbruik hebben zich voor gedaan.

Een onderwerp van een ethische discussie zou het gebruik van een controlegroep kunnen zijn. We zagen al eerder dat het onthouden van behandeling (no-treatment control group), bij mensen die hulp nodig hebben, niet ethisch is. Een andere ethische kwestie doet zich voor bij bepaalde procedures. Het gebruik van stamcellen, die zich nog tot iedere denkbare cel kunnen vormen, bij het genereren van organen kan levens redden. De stamcellen worden echter geoogst bij geaborteerde foetussen.

Bij psychologische experimenten gaat het vaak niet om kwesties van leven of dood. Toch zijn ethische overwegingen relevant, omdat de rechten van individuen centraal staan. Situaties waarbij binnen de psychologie ethische kwesties zich voor kunnen doen:

experimenten vereisen manipulatie en proefpersonen kunnen blootgesteld worden aan onwenselijke ervaringen (stress, falen, frustratie);
het implementeren van een studie houdt vaak in dat de proefpersoon bepaalde informatie onthouden wordt, om de spontane reactie te kunnen observeren;
van proefpersonen wordt vaak privé informatie gevraagd. Vragen over het inkomen worden als het meest privé beschouwd en
het random toewijzen van proefpersonen aan verschillende (controle)condities.

Verder moet de status van een onderzoeker niet onderschat worden en wordt op een paar manieren bevestigd:

de onderzoeker is degene die de situatie structureert waaraan de proefpersonen deelnemen;
de onderzoeker wordt als expert gezien en
als degene die gerechtvaardigd is om de situatie te controleren en beheersen.

Door al deze zaken voelt de proefpersoon zich de mindere en kan zich geïntimideerd voelen en de situatie kan onvrijwillig aanvoelen. Tegenwoordig is men verplicht om proefpersonen te informeren over de studie en om geïnformeerde toestemming (informed consent) te verkrijgen. Zowel wettelijke bepalingen als ethische codes sturen het proces van het verschaffen van informatie aan de proefpersonen.

Kritieke kwesties bij onderzoek

Een aantal ethische kwesties zijn in het oog springend bij psychologisch onderzoek.

Misleiding

Misleiding kan vele vormen aannemen en refereert vaak aan verschillende zaken. Aan de ene kant kan misleiding betrekking hebben op een totale misrepresentatie van de aard van een experiment. Aan de andere kant kan misleiding ook verwijzen naar het achterhouden van specifieke informatie aangaande het experiment. In welke mate een actieve (misrepresentatie) of een passieve (achterhouden van details) vorm verwerpelijk is hangt af van de situatie en de te verwachte impact op de proefpersonen. Bij de beslissing of iets ethisch is wordt er een afweging gemaakt tussen de impact op een proefpersoon en de maatschappelijke voordelen van de kennis die het experiment zal opleveren.

Bij de discussie over misleiding draait het niet alleen om de mogelijke schade voor de proefpersoon, maar ook om het feit dat de code van eerlijkheid tussen mensen geschaad wordt.

In veel gevallen wil de onderzoeker niet dat de proefpersoon op de hoogte is van het doel van het onderzoek. Uit de onderzoeksliteratuur is bekend dat kennis aangaande het doel van een onderzoek de uitingen van proefpersonen kunnen beïnvloeden. Om proefpersonen te mogen misleiden, moet er aan ieder geval drie criteria voldaan worden.

De onderzoeker moet de geplande misleiding voorleggen aan anderen, meestal een ethische toestingscommissie.
De onderzoeker moet zich er van vergewissen dat het niet mogelijk is om op een andere manier (zonder misleiding) de informatie te verzamelen.
De afkerigheid van de misleiding zelf draagt bij aan de rechtvaardiging van de misleiding.

Debriefing

Wanneer misleiding heeft plaatsgevonden, is de onderzoeker verplicht om na afloop van de studie de proefpersoon volledig te informeren aangaande het doel van het onderzoek en de aard van de misleiding. Het verschaffen van een beschrijving van het onderzoek achteraf wordt debriefing genoemd. Het doel van debriefing is het tegengaan of minimaliseren van enige negatieve effecten die het experiment gehad zou kunnen hebben.

De briefing heeft als doel de proefpersoon op te luchten. Misschien heeft de proefpersoon tijdens het experiment te horen gekregen dat hij/zij aan een psychische stoornis leidt, terminaal ziek is of vroeg dood zal gaan. De debriefing is bedoeld om de negatieve lading van het experiment op te heffen. Maar de debriefing zelf kan gevoelens van ongenoegen oproepen, zoals onrust aangaande het feit misleidt te zijn of aangaande het feit dat de proefpersoon goedgelovig genoeg was om de de misleiding te geloven.

In sommige gevallen denken proefpersonen dat de debriefing ook een misleiding is en dat het experiment nog doorloopt. Het kan ook zijn dat de negatieve gevoelens die opgeroepen werden bij de misleiding niet zo makkelijk uitwisbaar zijn en sporen nalaat.

De timing van de debriefing is ook van belang. de onderzoeker zou graag willen dat de proefpersonen pas het echte doel te horen krijgen wanneer alle proefpersonen getest zijn. Dit in verband met de kans dat proefpersonen elkaar spreken en voorkennis hebben aangaande het experiment. Wachten met de debriefing is niet altijd mogelijk, omdat er teveel tijd overheen gaat en het doel van de debriefing, namelijk de opluchting, voorbijschiet.

Inbreuk op de privacy

Inbreuk op de privacy representeert een breed concept dat in het algemeen verwijst naar het zoeken van informatie van persoonlijke aard die indringt in wat individuen as privé beschouwen. Binnen de psychologie kunnen beoordelingen aangaande psychopathologie en persoonlijkheid als privé beschouwd worden.

Bij psychologisch onderzoek is een van de grootst kwesties hoe de informatie van proefpersonen wordt verkregen en hoe die wordt gebruikt. In het algemeen moet vrijwillige toestemming gegeven worden door de proefpersoon voor het gebruiken van informatie, maar er zijn gevallen denkbaar dat dat niet kan, zoals bij ernstige neurologische of psychiatrische aandoeningen, of niet nodig is (dossieronderzoek waarbij de resultaten niet herleidbaar zijn tot een persoon).

Er zijn twee manieren om het recht op privacy van de proefpersoon te beschermen. De ene is anonimiteit en refereert aan het zeker stellen dat de identiteit van een persoon en de individuele uitingen niet bekend gemaakt worden. In de meeste gevallen is alleen de onderzoeker zelf op de hoogte welke testmaterialen bij welke persoon horen. Verder wordt er gewerkt met proefpersoonnummers.

De tweede manier om privacy te beschermen is geheimhouding en betekent dat de informatie niet zal worden vrijgegeven aan een derde partij zonder medeweten en toestemming van de persoon. Dit geldt niet voor informatie over acuut gevaarlijke situaties. Wanneer iemand in vertrouwen vertelt dat hij/zij een kind mishandelt, moet dit gemeld geworden bij een desbetreffende instantie.

Geheimhouding is recentelijk een hot topic geworden, nu er steeds meer onderzoek en therapie via het internet plaatsvindt en (medische) databases steeds meer uitwisselbaar gemaakt worden.

Inbreuk op privacy kan een rol spelen bij gevalsbeschrijvingen. Men kan een andere naam gebruiken etc., maar cases worden vaak geselecteerd vanwege extreme karakteristieken en de beschreven persoon kan makkelijk identificeerbaar zijn. Wanneer er ook maar de kleinste kans is dat iemands identiteit bekend kan raken, moet de persoon op de hoogte gesteld worden en toestemming geven voor publicatie.

Inbreuk op de privacy wordt vaak besproken in samenhang met een individu, maar privacy kan ook gelden voor grotere units als wijken, culturen, bevolkingsgroepen, rassen. Tegenwoordig wordt hier meer aandacht aan besteedt, maar de ontwikkelingen zijn nog recent.

Geïnformeerde toestemming (informed consent)

Voorwaarden en elementen

Bij psychologisch onderzoek is het niet altijd mogelijk de proefpersonen volledig te informeren over de achtergronden van een studie. Toch is het de taak van de onderzoeker om de proefpersoon zo veel als mogelijk te informeren over de procedures van het experiment, zodat hij/zij een rationele beslissing kan nemen.

Informed consent bestaat uit drie elementen.

Competentie. Het vermogen van de proefpersoon om een weloverwogen keuze te maken en betekenisvolle toestemming kan geven. Zijn er enige karakteristieken van de proefpersoon of de situatie waar hij/zij in geplaatst wordt die kunnen interfereren met hun vermogen om doordacht, doelbewust en geïnformeerd te kunnen beslissen?
Kennis. Het begrijpen van de aard van het experiment, de aanwezige alternatieven en de potentiële voor- en nadelen. Is er voldoende informatie verschaft aan de proefpersoon en kan de proefpersoon de informatie opslaan, verwerken en gebruiken om een keuze te maken? Competentie is hier ook voor nodig.
Wilsbesluit. Toestemming van de kant van de proefpersoon voor deelname, die vrijwillig en zonder dwang en drang afgegeven wordt. Zijn er dwingende omstandigheden, ex- of impliciet, aanwezig die de proefpersonen het gevoel van gedwongenheid kunnen geven? Hierbij hoort ook dat proefpersonen op ieder moment hun keuze voor deelname mogen herzien.

Toestemmingsformulieren

Vooraf aan het deelnemen aan een studie moeten de proefpersonen geïnformeerd worden over alle procedures of beoordelingen die van invloed kunnen zin op de keuze voor wel of geen deelname, waarbij een toestemmingsformulier wordt overlegd dat een proefpersoon moet tekenen. Meestal worden het onderzoeksvoorstel, de toestemmingsprocedure en het toestemmingsformulier geëvalueerd door een commissie die bestaat uit mensen uit verschillende disciplines. Vaak ligt de nadruk op de evaluatie van de risico’s voor de proefpersoon, maar ook de methodologische basis wordt beoordeeld. De commissie kijkt of het ontwerp passend is voor het beantwoorden van de vraag, of de vraag relevant genoeg is om proefpersonen aan het experiment bloot te stellen.

Het verschaffen van een toestemmingsformulier is de operationalisatie van de toestemming. Het doel van het formulier is om duidelijke en eenvoudige informatie te geven en er zeker van te zijn dat proefpersonen weten waar ze aan beginnen. Een aantal ingrediënten zijn standaard (zie ook tabel 17.2 op blz. 516):

beschrijving van het doel van de studie,
de procedures die gevolgd zullen worden,
een opsomming van de potentiële risico’s en voordelen van deelname,
de vermelding dat de proefpersoon de gelegenheid heeft gekregen tot het stellen van vragen,
dat de proefpersoon antwoorden heeft gekregen op de vragen,
dat hij/zij toestemming geeft en
op ieder moment zich kan terugtrekken zonder consequenties.

Geschreven en gevoelde toestemming (Letter and spirit of consent)

Er is geen check of de proefpersonen de informatie daadwerkelijk begrepen hebben. Het kan dus zo zijn dat het geven van informatie en verkrijgen van toestemming helemaal niet berust op een geïnformeerde keuze. Geschreven toestemming refereert aan de ondertekening van het toestemmingsformulier. Gevoelde toestemming draait om de intentie van de onderzoeker om de uiterste bes te doen om de procedures, doel en risico’s zo getrouw mogelijk weer te geven. Hierbij houdt de onderzoeker de balans tussen de vereisten voor het experiment en de rechten van de proefpersoon in het oog. Als er af en toe een proefpersoon weigert deel te nemen aan de studie na het horen van de informatie is dit eigenlijk een goed bewijs dat de informatie aankomt en mensen daadwerkelijk een geïnformeerde keuze maken.

Interventie-onderzoek kwesties

Verschillende ethische kwesties doen zich voor bij interventie-onderzoek, zoals psychotherapie, counseling en educatie.

Het informeren van cliënten over behandeling

Een belangrijke kwestie is de informatie die aan de cliënt wordt verschaft aangaande de interventie. Naast de rationale en procedures zelf, behoort de onderzoeker de huidige status van de interventie te vermelden, er van uitgaande dat de cliënt de informatie kan begrijpen. In hoeverre de behandeling effectief is gebleken in het verleden maakt onderdeel uit van de informatie. Ook als een behandeling nog experimenteel is, kan dat gewoon vermeld worden.

Onderzoek naar de effectiviteit van behandelingen levert een dilemma op, omdat eerlijkheid over de basis van de behandeling de therapeutische effecten kan verschralen. Het mobiliseren van hoop bij de cliënt is een werkzaam mechanisme bij veranderingen.

Een ander dilemma bij het verschaffen van informatie over de behandeling, wordt opgeleverd door de mogelijke voorkeur van de cliënt voor een bepaalde behandeling. Wanneer en cliënt eigenlijk liever in een andere behandelconditie zou zitten, kan dit demotiverend werken en effect hebben op de resultaten. Cliënten moeten echter geïnformeerd worden over de verschillende behandelcondities en de random toewijzing aan die behandelingen. Alleen de proefpersonen die toestemmen in de random toewijzing worden geïncludeerd in de studie, maar zoals eerder besproken levert dit een mogelijke steekproef bias op.

Het onthouden van behandeling

Het vergelijken van een behandelgroep met een controlegroep is essentieel bij het beantwoorden van onderzoeksvragen, maar levert wel een ethisch dilemma op. Wanneer de proefpersoon aan de controlegroep wordt toegewezen wordt de behandeling in het meest gunstige geval uitgesteld (wachtlijst), maar kan ook helemaal niet plaatsvinden (no-treatment). Het kan zijn dat de toestand in die tussentijd verslechtert en dat is ethisch niet verantwoord.

In de klinische praktijk is het vaak zo dat er wachtlijsten zijn. Deze wachtlijsten kunnen zo ingedeeld worden dat random toewijzing mogelijk is en er tegelijkertijd geen ethische bezwaren zijn. Nog steeds moet de cliënt wel geïnformeerd worden hierover, maar de informatie kan zo aangepast worden dat die niet interfereert met de randomisatie.

Controlegroepen en behandelingen met twijfelachtige doelmatigheid (efficacy)

Bij sommige onderzoeken wil de onderzoeker geen gebruik maken van een wachtlijst controlegroep, omdat de onderzoeker geïnteresseerd is in bepaalde componenten van een behandeling. In dat geval wil de onderzoeker dat cliënten uit de controlegroep wel door een therapeut gezien worden, maar dat er verder geen werkzame elementen binnen die sessie plaatsvinden (aandacht placebo controlegroep). Hierbij speelt natuurlijk het ethische dilemma dat de onderzoeker de cliënten wil laten geloven dat ze aan een werkelijke therapie deelnemen, maar in werkelijkheid geen effectieve hulp krijgen. Dit kan zelfs schade berokkenen aan de cliënt. Het kan namelijk zo zijn dat de slechte ervaring met deze behandeling de cliënt in de toekomst ervan zal weerhouden om hulp te gaan zoeken.

Tegenwoordig geldt dat er alleen gebruik gemaakt mag worden van een placebo controlegroep als er geen alternatieve behandeling voor handen is. In alle andere gevallen moet de gangbare behandeling als vergelijkingsgroep dienen voor de experimentele conditie.

Toestemming en het raakvlak met bedreigingen voor de validiteit

Geïnformeerde toestemming brengt kwesties naar voren die met uitval en bedreigingen voor de validiteit samenvallen. Bij een design waarin cliënten random toegewezen worden aan behandeling of geen behandeling, worden cliënten hier van tevoren over geïnformeerd. Wat cliënten kunnen doen is toestemming geven, wachten tot de indeling plaatsvindt, inschatten in welke groep ze zitten en vervolgens de studie verlaten wanneer ze denken in de controlegroep te zitten.

Wat de onderzoeker kan doen is ten tijde van het verschaffen van de informatie benadrukken dat het verlaten van de studie beter meteen kan gebeuren dan halverwege en door bijvoorbeeld het nadeel van uitval te beschrijven. Toch kan de externe validiteit in het geding raken, omdat de cliënten die toestemmen in deelname anders kunnen zijn dan cliënten die niet deelnemen of de interne validiteit door selectieve uitval.

Algemene opmerkingen

Welke ethische kwestie bovendrijf bij klinisch onderzoek hangt van de onderzoeksvraag en de controlegroepen af die de basis voor het design vormen. Onderzoeksvragen die een ethisch gevoelige controlegroep vereisen zijn vaak fundamenteel in het begrijpen van de effectiviteit van een behandeling. De vraag moet dan ook niet verlaten worden, maar de onderzoeker zal de omstandigheden waaronder het experiment uitgevoerd wordt moeten variëren zodat een mate van aanvaardbaarheid wordt bereikt.

Ethische richtlijnen voor onderzoekspraktijken

De American Psychological Association heeft een set aan principes opgesteld als richtlijn voor het doen van ethisch onderzoek (zie tabel 17.3 op blz. 524 en 525). De richtlijnen betreffen:

de planning van het onderzoek;
de verantwoordelijkheid van de onderzoeker en testleiders;
het naleven van wetten en protocollen;
het verkrijgen van toestemming van een instantie;
de onderzoeksverantwoordelijkheden;
de geïnformeerde toestemming;
de situaties waarin geïnformeerde toestemming niet nodig is;
geïnformeerde toestemming bij het gebruik van audio- en video-opnames;
het aanbieden van beloningen aan deelnemers aan onderzoek;
misleiding bij onderzoek;
het delen en gebruik van de data;
het minimaliseren van de invasiviteit;
het verschaffen van informatie aangaande de studie aan deelnemers en
wie er als auteur genoemd worden bij de rapportage.

De richtlijnen zijn algemeen en laten veel van de verantwoordelijk over aan de onderzoeker. Zo staat er bijvoorbeeld niet expliciet in dat er wel of geen misleiding mag plaatsvinden, maar sturen de richtlijnen de onderzoeker naar overwegingen bij het nemen van een beslissing.

Voor ieder vakgebied gelden verschillende ethische richtlijnen. Bij de meeste universiteiten is er een ethische commissie die alle onderzoeksvoorstellen toetsen. Onderzoeken die niets bijzonders vragen van een proefpersoon, als het invullen van een vragenlijst hoeven niet getoetst te worden.

Ethische kwesties en wetenschappelijke integriteit

Ethiek wordt meestal besproken in relatie tot de proefpersoon en diens rechten. Een aantal kwesties moeten nog besproken worden die betrekking hebben op de integriteit van de onderzoeker. Hierbij gaat het om verantwoordelijkheden van de onderzoeker in relatie tot collegae, het veld, de maatschappij en de wetenschap in het algemeen.

Fraude in de wetenschap

Wetenschappers zijn niet immuun voor fouten, misleiding en fraude in hun werk. Fouten kunnen voorkomen en vaak ook hersteld worden. De meeste tijdschriften hebben een speciale sectie hiervoor (errata). Fraude verwijst naar het moedwillig misleiden en misrepresenteren. Fraude is waarschijnlijk zeldzaam, maar komt toch wel eens voor. Fraude binnen de wetenschap kan gevolgen hebben voor de klinische praktijk (een nieuwe behandeling wordt op de markt gebracht).

Op fraude staan sancties vanuit de wetenschappelijke wereld (einde carrière), maar ook juridische consequenties.

Toekennen van credit

Eén van de verantwoordelijkheden van een onderzoeker is het toekennen van credit. Dit houdt verschillende kwesties in, zoals het erkennen van bronnen en het refereren aan andere materialen en de verdeling van de credits tussen samenwerkende partners bij een onderzoeksproject of publicatie.

De meest bekende kwestie is plagiaat of het directe gebruik en kopiëren van materiaal van anderen zonder diegene te erkennen of te crediteren. Al vroeg tijdens de studie wordt plagiaat onder de aandacht gebracht van studenten. Een deugd van het wetenschappelijke werk is de vrije uitwisseling van ideeën. Onderzoekers worden aangemoedigd om met elkaar van gedachten te wisselen, ideeën te delen en het verschaffen of zoeken van feedback. Over het algemeen verloopt dit proces goed zonder herhaalde claims van plagiaat of het stelen van ideeën.

Een meer delicate aangelegenheid betreft de overeenstemming over de credits. Projecten zijn vaak samenwerkingsverbanden waaraan meerdere onderzoekers en een team van mensen met ieder de eigen verantwoordelijkheid deelnemen. Er zijn ontelbaar veel verschillende componenten en verantwoordelijkheden bij onderzoek vanaf het eerste idee tot de uiteindelijke publicatie. Het toekennen van credit draait om wie er als auteur genoemd worden bij de publicatie, in welke volgorde de auteurs genoemd worden, wat de relatie is tussen een junior en een senior onderzoeker (of faculteit en studenten) en hoe de verschillende rollen en bijdrages het auteurschap beïnvloeden.

De meest beladen beslissing is wie er mee mag publiceren. Beslissingen hierover zijn doorwrocht van menselijke zwakheden gerelateerd aan macht, status, hebzucht, ambitie, onzekerheden, boosheid en wraak en persoonlijkheidsstijl van de onderzoekers, partners en assistenten. De druk op publiceren is vaak hoog en discussies over auteurschappen kunnen hoog oplopen en goede samenwerkingsrelaties verpesten.

Een centraal punt bij de beslissing over wie er meepubliceert is het bewijs dat iemand een duidelijke bijdrage heeft geleverd aan de studie. Er zijn geen vaste richtlijnen voor wat een bijdrage inhoudt, maar houdt meestal één of meer van de volgende zaken in:

ontwerpt het design;
schrijft of bereidt delen van het manuscript voor;
ontwikkelt nieuwe conceptuele gezichtspunten;
ontwerpt of ontwikkelt de maten;
neemt sleutelbeslissingen aangaande de data-analyses en
interpreteert de resultaten.

Richtlijnen voor auteurschap weerspiegelen de richtlijnen voor de bijdrage. Om in aanmerking te komen voor een auteurschap moet iemand aan (alledrie) de volgende drie criteria voldoen:

conceptualiseren van de studie of het design of analyse en interpretatie van de data,
de opzet maken voor het manuscript of de revisies doen die kritiek zijn voor het intellectuele eigendom en
het verschaffen van toestemming voor de versie die gepubliceerd zal worden.

Er zijn ook richtlijnen voor het niet in aanmerking komen voor een auteurschap:

alleen de subsidie geregeld hebben;
alleen de data verzameld hebben of
alleen de onderzoeksgroep superviseren.

Nadat de strijd over auteurschap is beslecht, komt de volgende kwestie aan bod: de volgorde van het noemen van de auteurs. De volgorde is van belang, omdat bij verwijzingen in de tekst alleen de eerste auteur wordt genoemd en de rest beschreven wordt als et al. De eerste of laatste plek is meestal gereserveerd voor de senior onderzoeker. Het is van belang om kwesties aangaande auteurschap en volgorde van auteurs aan het begin van een studie te bespreken.

Het delen van materialen en data

Een centraal kenmerk van wetenschap is het repliceren van het werk van anderen. In relatie tot ethiek staat replicatie niet simpelweg voor het herhalen van een studie. Replicatie begint met de verplichting voor een wetenschapper om collegae de materialen te verschaffen, zodat een replicatie uitgevoerd kan worden.

Onderzoekers kunnen terughoudend zijn met het delen van materialen, omdat de originele onderzoeker veel tijd (en geld) gespendeerd heeft aan de ontwikkeling van die materialen. Toch is de onderzoeker tot delen verplicht. Als tegenprestatie moet het wetenschappelijke veld wel steeds naar de originele onderzoeker verwijzen.

In de Verenigde Staten is er een Federale wet die stelt dat alle data gedeeld moeten kunnen worden. Dit roept een aantal kwesties en vragen op.

Er is geen duidelijke definitie voor data, wat kan variëren van notitieblokken tot biologisch materiaal tot interviews op video.
Er is geen duidelijke definitie voor publicatie, wat kan variëren van publicatie in een wetenschappelijk tijdsschrift tot een power point presentatie.
Er is geen adequate beschrijving van wie er verantwoordelijk is voor de kosten van de productie van de data en.
Het is niet duidelijk hoe de privacy en vertrouwelijkheid van de cliënt gewaarborgd wordt.
De methode van het opleggen van een maat is onduidelijk, net als de methode voor de bescherming tegen het misbruiken van de data.
Er zijn patenten, privacy, intellectueel eigendom en aansprakelijkheidskwesties.
Vroegtijdig uitgeven van onderzoeksbevindingen kan misleidend zijn en problemen veroorzaken in velden als openbare gezondheidszorg en veiligheid.

Het delen van data is een mooi uitgangspunt bij wetenschap. Het maakt niet alleen replicatie mogelijk, maar ook het doen van meta-analyses. Er kunnen ethische beperkingen aan het delen van data kleven, doordat sommige commissies het gebruik van de data beperken tot de desbetreffende studie. Het doel hiervan is het beschermen van de proefpersoon die alleen toestemming heeft gegeven voor het gebruik van informatie voor de originele studie.

Belangenverstrengeling

Belangenverstrengeling refereert aan iedere situatie waarin de onderzoeker baat of een verantwoordelijkheid heeft die een bias of een vermoede bias kan opleveren. Er zijn drie brede variaties van belangenverstrengeling waar de onderzoeker zich bewust van moet zijn, namelijk een echte verstrengeling van belangen, de schijn van belangenverstrengeling en een gebrek aan communicatieve informatie die betrekking heeft op één van de twee.

Belangenverstrengeling kan in verschillende situaties optreden:

de onderzoeker heeft financieel baat bij de resultaten;
de onderzoeker wil de data niet vrijgeven (overheidsgestuurd onderzoek bv.);
het onderzoek wordt gesponsord door een bedrijf (farmaceutische industrie bv.).

Wanneer er sprake zou kunnen zijn van of wanneer er daadwerkelijk belangenverstrengeling is, behoort de onderzoeker dat in de rapportage over de studie te vermelden.

Richtlijnen en verantwoordelijkheden

De kwesties die hier belicht werden zijn gewichtig en reflecteren gebieden waar vaak nog ambiguïteit heerst. De ethische standaarden en sancties aangaande fraude zijn duidelijk, maar niet aangaande het toeschrijven van credit, het delen van data en gerelateerde zaken. Concrete regels kunnen niet verschaft worden. De American PSychological Association heeft een aantal ethische richtlijnen opgesteld aangaande het omgaan met data.

Tabel 17.5 op bladzijde 541noemt richtlijnen aangaande:

het rapporteren over de data;
plagiaat;
publicatie credit;
het delen van data en
overige zaken, als het dupliceren van reeds gepubliceerde gegevens en het respecteren van de vertrouwelijkheid en de eigendomsrechten bij het reviewen van een artikel.

Samenvatting en conclusies

Op psychologisch onderzoek zijn verschillende ethische kwesties toepassing die vervlochten zijn met methodologie. Experimentele vragen en ontwerpmogelijkheden adresseren vaak niet expliciet de rechten van de proefpersoon. Belangrijke kwesties bij de rechten van een proefpersoon zijn: misleiding, debriefing, invasie van privacy en informed consent. Misleiding is een grote zorg wanneer proefpersonen in het duister gehouden worden over het ware doel van het onderzoek en wanneer de misleiding een nadelig effect kan hebben op henzelf of anderen.

Misleiding is onder bepaalde omstandigheden toegestaan, maar vereist wel dat de proefpersoon achteraf een debriefing ontvangt over het ware doel. Debriefing is ontworpen om de effecten van de misleiding uit te wissen. Veel onderzoekers hebben bezwaren tegen het gebruik van misleiding, omdat het gevolgen heeft voor de relatie tussen onderzoeker en proefpersoon.

Inbreuk op de privacy wordt vaak tegengegaan door proefpersonen te garanderen dat de responsen die proefpersonen geven anoniem en vertrouwelijk zijn. Anonimiteit refereert aan de garantie dat de identiteit van de proefpersoon en de individuele uitingen niet vrijgegeven worden. Vertrouwelijkheid vereist dat de informatie niet doorgespeeld zal worden naar anderen zonder dat de proefpersoon hiervan weet. Bij veel onderzoeken wordt om anonimiteit en vertrouwelijkheid te kunnen bewerkstelligen de identiteit van de proefpersoon verwijderd bij de data-evaluatie en het rapporteren over de studie. Dit is wel lastig bij case studies. Ook bij het rapporteren over groepen (culturen, wijken, etc.) kan onder inbreuk van de privacy vallen, hoewel dit nog geen populair onderwerp is binnen onderzoek.

Geïnformeerde toestemming is een centraal thema dat vele ethische bezwaren en beschermingen voor de proefpersoon adresseert. Geïnformeerde toestemming vereist dat de proefpersoon vrijwillig toestemt om deel te nemen aan het experiment en zich volledig bewust is van de procedures, risico’s en voordelen van het experiment. Geïnformeerde toestemming is niet een recht toe recht aan aangelegenheid, omdat de proefpersoon competent genoeg moet zijn om toestemming te kunnen verlenen en de informatie te kunnen verwerken en begrijpen.

Interventie onderzoek levert een aantal speciale ethische kwesties op, zoals het volledig informeren van de proefpersoon over de behandeling, het onthouden of uitstellen van behandeling en het gebruik van behandelingen met een lage doelmatigheid (efficacy) of een placebo controlegroep. Het onthouden van behandeling of het gebruik van andere controleprocedures die mogelijk schadelijk zijn voor de cliënt zijn ethisch bezwaarlijk en moeilijk verdedigbaar in een situatie waarin een cliënt om hulp komt vragen. Zulke vragen moeten binnen een context onderzocht worden waarin cliënten geen onmiddellijke hulp nodig hebben. Het omzeilen van ethische bezwaren kan bereikt worden door cliënten na afloop van de studie de beste behandeling aan te bieden.

De vele ethische kwesties hebben geleid tot het opstellen van richtlijnen om de rechten van de proefpersoon te beschermen. De richtlijnen wijzen de onderzoeker op diens verantwoordelijkheden en op de bescherming van de proefpersoon. De richtlijnen sluiten niet per se bezwaarlijke praktijken uit. Het is aan de onderzoeker om hard te maken dat bijvoorbeeld misleiding bij een studie noodzakelijk is en dat de onderzoeksvraag niet op een andere manier beantwoord kan worden.

Niet alle ethische kwesties draaien om de proefpersoon. De onderzoker heeft ook een verantwoordelijkheid naar het vak, de wetenschappelijke wereld en meer in het algemeen, het publiek. Deze bezwaren hebben betrekking op het zich netjes gedragen. Vier onderwerpen zijn aan bod gekomen: fraude, toekennen van credit, het delen van materialen en data en belangenverstrengeling. Ook voor deze kwesties zijn ethische richtlijnen.

Kernconcepten en -termen

Anonimiteit Fraude

Vertrouwelijkheid Geïnformeerde toestemming

Belangenverstrengeling Inbreuk op de privacy

Debriefing Plagiaat

Hoofdstuk 18: Publicatie van en communicatie over onderzoeksbevindingen

Het onderzoeksproces bestaat uit het ontwerpen, uitvoeren, analyseren van de resultaten en voorbereiden van het rapport (artikel). Op het eerste gezicht lijkt de laatste stap een eenvoudige: “Nog even de resultaten opschrijven.” Deze laatste stap is in werkelijkheid alleen maar een begin. Het artikel stimuleert nieuw onderzoek, uitgevoerd door de onderzoeker zelf of anderen. Met andere woorden, het artikel staat centraal bij het onderzoeksproces.

In een artikel wordt het hele onderzoeksproces van ontwerpen tot data-analyse beschreven. De vooraf bedachte elementen en onverwachte elementen krijgen een plek in het artikel. De onderzoeker evalueert kritieke punten, ziet de tekortkomingen van het ontwerp en worstelt met tegenstellingen in of ambiguïteiten van de bevindingen in het licht van de hypotheses.

Dit hoofdstuk bespreekt de publicatie van en communicatie over onderzoeksbevindingen. Het hoofdstuk adresseert die facetten van manuscript voorbereiding en publicatie die betrekking hebben op methodologie en design. Het is de taak van de onderzoeker om alle facetten van het onderzoek in rationele en leesbare vorm aan te bieden.

Publicatieproces: een overzicht

Na afloop van een studie worden de bevindingen vaak gepubliceerd, zodat ze verspreid kunnen worden over de wetenschappelijke gemeenschap en deel kunnen worden van het kennisbestand. Publiceren houdt een proces in met vele beslissingsmomenten en stappen. De onderzoeker moet bijvoorbeeld beslissen over: wat te publiceren, waar te publiceren en wanneer te publiceren. Ook kwesties aangaande auteurschap, verantwoordelijkheden voor het schrijven van het artikel, verplichtingen aan de wetenschappelijke gemeenschap bij het uitvoeren van en rapporteren over onderzoek en het beschikbaar stellen van data zijn centrale onderwerpen. De vele componenten van het publiceren betreffen zowel academische aangelegenheden (ontwikkeling van kennis), als persoonlijke (carrières). Binnen de psychologie dienen hoofdzakelijk professionele tijdschriften als bron voor output, hoewel er ook ander bronnen zijn (congressen, hoofdstukken in samengestelde boeken).

Na het beëindigen van een studie bereiden de auteurs een artikel voor in een format dat gespecificeerd is door de American Psychological Association. Zodra het artikel klaar is, wordt het ingediend bij een tijdschrift dat de onderzoeker geselecteerd heeft als een wenselijke en gepaste bron van output. Het selecteren van een tijdschrift gebeurt op basis van een aantal criteria, zoals de relevantie van het tijdschrift voor het onderwerp, de prestige verbonden aan het tijdschrift, de inschatting van de kans dat het artikel geaccepteerd zal worden, het bereik van het tijdschrift in termen van aantal lezers en het publiek of de discipline die men wil aanspreken.Binnen de sociale wetenschappen alleen zijn er al honderden tijdschriften.

Wanneer het artikel ingediend is, stuurt de redacteur het naar een aantal reviewers. De reviewers worden meestal geselecteerd op basis van hun kennis aangaande een onderwerp of op basis van hun bekendheid met bepaalde procedures die gebruikt zijn in de studie. Reviewers beoordelen de betekenis van de studie en de methodes. Voornamelijk de bedreigingen voor de validiteit worden met aandacht bestudeerd. De reviewers wordt gevraagd om het artikel kritisch te evalueren en een mening te verschaffen.

Wanneer het artikel door reviewers beoordeeld is, evalueert de redacteur het artikel en de commentaren van de reviewers. De redacteur laat de onderzoeker vervolgens weten hoe de beslissing is uitgevallen. De beslissing kan op drie manieren uitpakken: het artikel is geaccepteerd, maar moet nog wel aangepast worden op een aantal punten die de reviewers genoemd hebben; het artikel wordt afgewezen of het artikel wordt afgewezen, maar de onderzoeker krijgt toestemming om het nog eens in een totaal herschreven versie in te dienen.

een reviewer kijkt naar een aantal zaken:

zijn de vragen van belang voor het veld,
passen het ontwerp en de methodologie bij de vraag,
zijn de resultaten behoorlijk geanalyseerd,
volgen de interpretaties uit het design en de bevindingen en
draagt de kennis die voortkomt uit het artikel bij aan de bestaande kennis.

Tijdschriften verschillen in de mate van prestige. Een artikel dat bij het ene tijdschrift afgewezen wordt, kan wel geaccepteerd worden bij een ander. Er wordt veel geklaagd over het publicatieproces, vooral over hoe er omgegaan wordt met auteurs.

Boven alles zijn we allemaal (onderzoekers, reviewers, redacteuren) menselijk, wat betekent dat iedereen varieert in het vermogen te communiceren. Hierdoor varieert de inhoud en vorm van de communicatie aanzienlijk tussen tijdschriften en reviewers.

Methodologisch geïnformeerde artikel voorbereiding

Overzicht

De schrijfstijl bij wetenschappelijke publicaties is beschrijvend en heeft als doel om weer te geven wat er precies gedaan is, zodat de methodes en procedures gerepliceerd kunnen worden. Het schrijven van een artikel houdt drie taken in: beschrijven, verklaren en contextualiseren. Beschrijven is de meest duidelijke taak en houdt het verschaffen van details aangaande studie in. Verklaren is complexer, omdat het refereert aan het presenteren van een rationale voor verschillende facetten van de studie. De rechtvaardiging, het beslissingsproces en de verbinding tussen de beslissingen en de doelen van de studie gaan verder dan het simpelweg beschrijven. Contextualiseren gaat weer een stap verder en reflecteert het plaatsen van het verklaarde materiaal in een bredere context. Dit bepaalt voor een groot deel het belang van de studie. De mate waarin beschrijving, verklaring en contextualisering bereikt worden bepaalt ook de publiceerbaarheid.

Hoofdsecties van het artikel

Titel

Hoewel de titel geen sectie is, is het toch belangrijk om er aandacht aan te schenken. Over het algemeen probeert men de sleutelvariabelen, focus en populatie weer te geven in zo min mogelijk woorden. Vaak wordt ook een hint gegeven over de methodologie (preliminary results, pilot).

Abstract

De rol van de abstract (zeer korte beschrijving van maximaal 100-120 woorden van het onderzoek) is belangrijk. Vaak zijn op internet alleen de abstracts van artikelen vrij te verkrijgen. De abstract is dus niet alleen de eerste indruk, maar in veel gevallen ook de enige indruk. Globale uitlatingen als: “Implicaties van het onderzoek worden besproken”, moeten vermeden worden. Het is zaak om in de abstract zo concreet mogelijk te zijn.

Inleiding

De inleiding geeft weer wat de overkoepelende rationale en doelen van de studie zijn. Het belang van de studie wordt hier kort weergegeven en beschrijft het gat dat dit artikel vult en daardoor nodig is. In de inleiding wordt niet de literatuur op een studie-voor-studie manier besproken, maar meer vervlochten in de beschrijving van de huidige studie. Dit plaatst het artikel binnen een context.

Over het algemeen beweegt de inleiding zich van algemeen naar specifiek. Er kan met subkopjes gewerkt worden om kort verschillende onderwerpen aan bod te kunnen laten komen. De inleiding eindigt meestal met een specifieke set van hypotheses.

Methode

De methodesectie beschrijft wie er onderzocht is, hoe en waarom. Hier worden ook beslissingen die geleid hebben tot de keuzes vermeld. De volgorde bij een methodesectie is:

beschrijving van de onderzoekspopulatie en de rationale voor de selectie van de proefpersonen.
Beschrijving van het design. Bij het gebruik van groepen moeten de bedoelingen van de verschillende groepen omschreven worden en de procedures waar de groepen aan blootgesteld zullen worden. De controlegroepen worden niet simpelweg genoemd, maar worden verklaard.
Beschrijving van de maten. Waarom werden de constructen geselecteerd en hoe worden ze geoperationaliseerd. Informatie over de psychometrische eigenschappen wordt gegeven.

Resultaten

Het is belangrijk om te noemen waarom er voor bepaalde analyses werd gekozen en hoe een test zich verhoudt tot de onderzoeksvraag. De auteur presenteert de resultaten vaak op dezelfde manier als de computeroutput. De beschrijving van de resultaten moet aansluiten bij de laatste alinea van de inleiding, namelijk bij de hypotheses.

In de meeste gevallen begint de resultatensectie met een beschrijving van de basiskarakteristieken, zoals gemiddeldes en standaarddeviaties voor alle groepen. Hierna volgen de bevindingen van de toets van de hypotheses.

Wanneer er aanvullende analyses gedaan zijn, is het nuttig om dat ook te vermelden in samenhang met de reden waarom die aanvullende tests zijn uitgevoerd.

Discussie

De discussie bestaat uit de conclusies en interpretaties van de studie. De discussie bevat een overzicht van de hoofdbevindingen, integratie of relatie met de theorie en eerder onderzoek, beperkingen en ambiguïteiten en hun implicaties voor de interpretatie en aanbevelingen voor verder onderzoek.

Het beschrijven en interpreteren van de resultaten geeft wrijving tussen wat de auteur wil zeggen en wat de auteur kan zeggen over de resultaten gezien het design en de evaluatie. Contextualisatie is belangrijk bij de discussie. Het kan erg nuttig zijn om op een niet-defensieve manier de tekortkomingen van de studie weer te geven, zodat dezelfde onderzoeker of andere onderzoekers die tekortkomingen kunnen adresseren en verder exploreren bij verder onderzoek.

Vragen die het schrijfproces leiden

Een behulpzame manier van het benaderen van het schrijfproces is door je te laten leiden door vragen. Tabel 18.1 op bladzijde 557 en 558 somt de vragen op die bij iedere sectie van een artikel gesteld kunnen worden en geadresseerd moeten worden. De vragen benadrukken de descriptieve informatie, de rationale voor de procedures en beslissingen en praktijken bij het ontwerpen en uitvoeren.

Algemene opmerkingen

Het voorbereiden van een artikel wordt vaak gezien als een beschrijving van wat er gedaan is. Hierdoor kunnen beginnende onderzoekers gefrustreerd raken van de kritieken van reviewers die meer verwachten. Verklaring en contextualisatie spelen hierbij vaak een rol.

Het werkt in het voordeel van een onderzoeker om de gedachtengangen en beslissingsmomenten te specificeren, om te laten zien dat er doordacht gewerkt is.

Samenvatting en conclusies

Publicatie van en communicatie over de resultaten van een onderzoek representeert een complex proces dat verder gaat dan de methodologie en het ontwerp. Verschillende vaardigheden van de onderzoeker worden getoetst beginnend bij het identificeren en selecteren van saillante vragen en zijn hoogtepunt bereikend bij het communiceren over de resultaten. Methodologie en design spelen door het hele proces heen een belangrijke rol.

Drie intergerelateerde taken zijn betrokken bij het schrijven van een artikel. Deze zijn beschreven als beschrijven, verklaren en contextualiseren van de studie. Aanbevelingen zijn gedaan aangaande het hoe en wat te incorporeren in de beschrijving, verklaring en contextualisatie binnen de verschillende secties van een artikel. Hierbij zijn vragen verschaft die de onderzoeker kunnen sturen bij de verschillende kwesties die reviewers waarschijnlijk naar voren zullen brengen.

Bij het schrijven van het artikel wil de onderzoeker een statement maken (conclusie trekken). De sterkte van de conclusie wordt bepaalde door de mate waarin de studie de kwesties die in eerder hoofdstukken aan bod zijn gekomen adresseert. Het is belangrijk dat de auteur de focus en het doel van studie zo duidelijk mogelijk weergeeft. Een artikel krijgt meer cachet wanneer de rationale voor de beslissingen duidelijk worden weergegeven.

Kernconcepten en -termen

Contextualisatie Verklaring

Beschrijving

Hoofdstuk 19: Afsluitende opmerkingen: methodologie in perspectief

In dit boek zijn verschillende centrale thema’s aan bod gekomen aangaande design en uitvoer van onderzoek. Het doel van dit boek was om de verschillende methodologische praktijken en opties weer te geven alsmede de rationale voor het gebruik van die praktijken en om het proces van ontwerpen, uitvoeren en evalueren te relateren aan die methodologische praktijken.

De onderzoeker moet aan een hoop zaken aandacht besteden om een gedegen studie te completeren. Verder wordt er ook van de onderzoeker gevraagd dat de studie nieuw en belangrijk is en dat de communicatie over de resultaten op coherente wijze plaatsvindt. Bij deze laatste woorden is het nuttig om terug te keren naar belangrijke kwesties en de relatie tussen methodologie en belangrijke richtinggevende kwesties te bespreken.

Doelen van methodologie

Het recept voor methodologie is als volgt:

voeg één of meer hypotheses toe,
selecteer veel proefpersonen, verkrijg geïnformeerde toestemming en vermeng grondig (maar wel random),
voeg drie of meer meetinstrumenten toe,
verzamel, scoor en voer de data van de afgemaakte metingen in,
laat dit voor een nanoseconde koken (afhankelijk van de computerchip),
genereer F of t toetsen en misschien een regressie analyse of twee,
beschrijf de studie op raadselachtige wijze en
laat het voor één of twee jaar rusten.

Bij al deze stappen moeten er beslissingen genomen worden. Vooraf aan een studie moeten alle ‘ingrediënten’ bekend en doordacht zijn. Vier vragen zijn hierbij van belang:

Wat is de beste beschikbare manier om mijn hypothese te testen?
Als de studie afgemaakt wordt zoals die ontworpen is, wat zou dan de belangrijkste bedreiging voor de validiteit zijn of de belangrijkste bron van bias die zou kunnen interfereren met het trekken van valide conclusies?
Wat kan de onderzoeker voorafgaand, tijdens en na de studie doen om de plausibiliteit van andere interpretaties in waarschijnlijkheid te laten afnemen?
Zijn de bedoelingen (hypotheses), het design, de methodes van data-analyse en discussie coherent? Adresseren ze dezelfde kwesties, spreken ze dezelfde vragen aan en worden ze op een rijtje gezet, zodat er iets over de gerechtvaardigdheid van de conclusies gezegd kan worden?

Aanzienlijke bijdrage van metholodologie

Methodologie kan gezien gezien worden als de lens waardoor we naar een fenomeen kijken. Veranderingen in de lens, geven een nieuw beeld van een fenomeen en drijft ons verder op de weg naar kennis.

Voorbeelden voor veranderingen in methodologie die een enorme bijdrage hebben geleverd zijn:

meta-analyses,
neuroimaging,
meer aandacht voor non-lineaire, dynamische en wederkerige relaties en
computertechnologie bij de berekening van meervoudig gelaagde datasets.

De onderzoeker wordt uitgenodigd om met een verse blik naar het eigen onderzoek te kijken en zich bijvoorbeeld zaken af te vragen, als hoe het komt dat er uitzonderingen zijn, voor wie die uitzonderingen gelden en waarom. Een andere vorm van een verse blik is het variëren van default assumptions bij statistische analyses om complexere subgroepen te kunnen creëren. Nog een andere manier om vers tegen methodologie aan te kijken is door samen te werken met onderzoekers van andere disciplines, die andere conceptuele benaderingen hanteren.

Afsluitend woord: verkorte handleiding voor een goed ontworpen studie

Het ontwerpen en uitvoeren van een onderzoek is te vergelijken met het vertellen van een verhaal. Er is een begin, midden en einde. Er is een thema dat de verhaallijn tot een conclusie brengt, maar ook het voornemen tot een toekomstige uitkomst leidt. Het idee van een verhaal kan de onderzoeker helpen bij het nadenken over de ontwikkeling van een experiment.

Een voorbeeld van zo een verhaal staat in tabel 19.1 op bladzijde 567. Het is een voorgedrukt verhaal en de onderzoeker kan de eigen gegevens invullen bij de witregels.

Access:

Public

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Going abroad?

Insure your way around the world

International expat insurances

Travel & Worldsupporter insurances (NL)

Study with summaries

Associate with your Field of Study

Search Summaries or Notes

Start using Summaries

Add a Summary

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

Spotlight: topics

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams
How and why use WorldSupporter.org for your summaries and study assistance?
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
Quicklinks to fields of study for summaries and study assistance

Online access to all summaries, study notes en practice exams

Check out: Register with JoHo WorldSupporter: starting page (EN)
Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)

How and why use WorldSupporter.org for your summaries and study assistance?

For free use of many of the summaries and study aids provided or collected by your fellow students.
For free use of many of the lecture and study group notes, exam questions and practice questions.
For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
For compiling your own materials and contributions with relevant study help
For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

Use the summaries home pages for your study or field of study
Use the check and search pages for summaries and study aids by field of study, subject or faculty
Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
Check or follow authors or other WorldSupporters
Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Check out: Why and how to add a WorldSupporter contributions
JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports

Main study fields NL:

Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden

WorldSupporter: what are the features, functionalities and rules on WorldSupporter.org?

WorldSupporter NL: hoe vind je samenvattingen en studiehulp op WorldSupporter.org en JoHo.org

Summaries and Study Assistance - Start

Submenu: Summaries & Activities

Follow the author: Vintage Supporter

Vintage Supporter

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics

2448

Search a summary, study help or student organization

Select any filter and click on Search to see results