Oefententamens bij M&T II-1 Grondslagen van Onderzoek - RUG
- 2275 reads
Het is niet vanzelfsprekend dat interventies positief zijn. Het kan zo zijn dat er geen eenduidige resultaten zijn over een studie. De ene studie kan een positief resultaat uitwijzen, terwijl een ander geen effect uitwijst en weer een andere studie een negatief effect uitwijst. Er bestaan weinig goed uitgevoerde studies die op een betrouwbare manier uitspraak doen over het effect van vroegtijdige orthopedagogische interventieprogramma’s. Dit geldt ook voor effectonderzoek in de jeugdzorg.
Ook op het gebied van onderwijsonderzoek komt men tot de conclusie dat de effectiviteit vaak onvoldoende wetenschappelijk bewezen is.
Een reden voor het gebrek aan kennis hierover is dat effectonderzoek zeer complex is. Er wordt vaak een situatie gecreëerd die ver van de praktijk afstaat bij effectonderzoek. Het komt ook regelmatig voor dat een interventie onvoldoende beschreven is waardoor het niet mogelijk is te onderzoeken.
Het meten van de effecten van preventie blijkt in de onderzoekspraktijk een moeilijke zaak. Onderzoekers zijn het niet altijd eens over de toe te passen methoden en technieken. Tijdens het onderzoek stuit men vaak op een veelheid van problemen.
Het inzetten van interventies die niet goed zijn geëvalueerd kan risico’s met zich meebrengen. Naast verspilling van tijd en moeite kan het ook voor nadelige in plaats van voordelige effecten zorgen. Het opzetten en verrichten van effectonderzoek is naast wetenschap een kunst. Het vergt kennis en creativiteit.
De term methodologie is voor het eerst aanwezig in de 17e eeuw, met name bij de Discours de la méthode van Descartes. De vraag die hij stelde luidt; ‘Hoe kan een mens uit een veelheid van (wetenschappelijke) opvattingen en theorieën de juiste kiezen?’ Deze vraag is nog steeds centraal.
In de 18e eeuw is methodologie synoniem met logica en dialectiek. In deze discipline worden de regels voor het uitvinden van de waarheid en van haar bewijsvoering nagegaan. Kant werkt aan het einde van de 18e eeuw een transcendentale methodenleer uit. Hij verstaat hieronder een geheel van bepalingen van de formele voorwaarden voor een systeem van de zuivere rede.
In de 19e eeuw wordt de methodenleer weer opgevat in de traditionele 18de eeuwse betekenis van logica. Hagenbach maakte een encyclopedie, deze is bedoeld als topografische kaart. De schakel tussen methodologie en de praktijk worden hiermee uitgedrukt.
Pas halverwege de 20e eeuw ontwikkelt de methodologie zich tot een zelfstandig specialisme. Heymans was de eerste die een boek schreef specifiek gericht op methodologie; ‘Inleiding tot de logica en methodologie’.
In 1961 brengt de Groot zijn magnum opus uit. Hij stelt vast dat er geen scherpe grens te trekken is tussen wetenschappelijk en onwetenschappelijk denken, maar dat er wel regels bestaan die onderzoekers in acht dienen te nemen. De Groot is een gedreven pleitbezorger voor onderzoek, gebaseerd op het kwantificeren van kwalitatieve gegevens. Hij komt hiermee regelmatig in conflict met Langeveld.
Het boek van de Groot en daarmee ook de empirische methodologie wordt niet alleen bekritiseerd door meer normatief georiënteerde pedagogen, maar ook door de empirische georiënteerde psychologen. Dit omdat de kennisleer gemist wordt. De Groot vindt dat kennisleer buitengewoon belangrijk is, maar het kan worden gemist als fundament van de methodologie.
Het woord methodologie is afgeleid van het Griekse meta (na, verder, over), hodos (de weg) en logos (het woord, het geheel van woorden of de leer). Het betekent letterlijk; de leer van de weg waarlangs men tot kennis komt, of de studie van de af te leggen weg. Methodologie is de studie van de wetenschappelijke methoden en technieken.
De ondertitel van het boek is; ‘Methodologische moeilijkheden en mogelijkheden.’ In basis gaat het boek dus over methodologie. Volgens de Groot is methodologie;
´De methodenleer van de empirische wetenschappen is een product van een lange ontwikkeling. door een voortdurend, zich over eeuwen uitrekkend proces van onderlinge uitwisseling – waarin de onderlinge kritiek een belangrijke, productieve rol heeft gespeeld en nog speelt – is het mogelijk geweest normen op te stellen en daarop aansluitende methoden en technieken te ontwikkelen voor het wetenschappelijk onderzoeken en denken… De methodologie omvat niet alleen do’s and don’ts, zij is niet alleen normatief, maar ook descriptief en vergelijkend: bepaalde technieken worden beschreven, met andere vergeleken, in een groter verband gebracht, geëvalueerd, met zekere restricties aanbevolen of afgeraden, enzovoorts. Ditzelfde geldt tot op zekere hoogte ook voor de logica.’
De Groot vergelijkt het wetenschappelijk bedrijf met een schaakspel. De normen van logica en methodologie zijn dan de vastgelegde spelregels. De daarbij aansluitende methoden en technieken vormen tezamen de aanbevolen speelmethoden. Bij dit geheel spelen impliciete normen en gewoonten een rol.
Doel van de wetenschap is het verwerven van kennis. Hierbij wordt niet naar persoonlijke kennis maar naar openbare, expliciete en overdraagbare kennis van de werkelijkheid gestreefd. Een wetenschapper zal niet snel iets als waar aannemen. Wetenschappers zijn gericht op het begrijpen en verklaren. Het uiteindelijke doel is om algemene samenhangen in omvattende, inzichtelijke en logisch samenhangende systemen onder te brengen en te ordenen.
Droysen was de eerste die het onderscheid tussen verklaren en begrijpen introduceerde. Verklaren is in het algemeen het opstellen van wettelijkheden c.q. correlaties. Begrijpen is het duiden van de verschijnselen, het interpreteren van het unieke in de context. Verklaren en begrijpen zijn contextuele benaderingen van de werkelijkheid.
De natuurwetenschappen zijn gericht op verklaren en de gedrags- en maatschappijwetenschappen op begrijpen. Toch is er geen duidelijk onderscheid te maken.
Hermeneutiek is de leer van de interpretatie. Hermeneutiek is typisch begrijpend (Verstehend), hieraan kleeft het gevaar van de invloed van het subjectieve in het interpretatieproces. Jaspers heeft een analyse gemaakt, niet gebaseerd op experimenteel onderzoek maar wel op persoonlijke ervaringen en op grondig doordenken.
Binnen de Verstehende methode is de fenomenologie een veelvoorkomende algemene methode. Volgens deze methode moeten de verschijnselen zelf spreken. Er wordt geen theorie over geformuleerd.
De crux van het boek van de Groot is dat de groei van wetenschappelijke kennis plaatsvindt via een kritisch rationeel proces van theorievorming en hypothesetoetsing, aan de hand van empirische gegevens. Hiermee onderscheidt hij zich van andere opvattingen.
Ten tweede ziet de Groot wetenschap als een proces, dat voortschrijdt en waarin zelden onaanvechtbaar definitieve resultaten worden bereikt. Onze kennis neemt steeds toe, en de graad van zekerheid wordt groter. Maar toch blijkt telkens weer dat gedeeltelijk verworpen wordt wat waar leek.
Verder ziet de Groot wetenschap als een systeem van activiteiten. Dit alles mondt uit in een pleidooi voor de toepasbaarheid en noodzakelijkheid van een empirische cyclus. De empirische cyclus is vooral gericht op theoriegericht onderzoek. Voor meer praktijkgericht onderzoek zijn gelijksoortige cycli ontwikkeld. De bekendste is de regulatieve cyclus van Van Strien.
Als grondschema voor een logisch-methodologisch stramien van wetenschappelijk denken en handelen is de empirische cyclus een veelgebruikte fasering van onderzoek in de empirische wetenschap.
In de empirische cyclus van De Groot worden de stappen weergegeven die binnen een empirisch-wetenschappelijke opvatting genomen worden om kennis over de verschijnselen/werkelijkheden te verwerven. De stappen in de empirische cyclus staan hieronder weergegeven, met een uitleg over wat het inhoudt.
Aan de hand van observaties worden vermoedens ontwikkeld over een bepaald probleem. Tijdens deze fase geldt de vrijheid van ontwerp. Het geeft ruimte tot ontdekken van nieuwe onderzoeksdomeinen. De onderzoeker heeft door de vrijheid van ontwerp ook vrijheid van begripsvorming. Dit is wel een vrijheid in gebondenheid, er worden wel eisen gesteld aan de begrippen. Anders zou iedere onderzoeker zijn eigen begrippen maken en dan zouden verschillende onderzoeken niet met elkaar te vergelijken zijn. In deze eerste fase start ook het inductieproces.
Een onderzoeker zou maar zelden starten met het verzamelen van materiaal zonder enig gezichtspunt. Hypothesen vloeien vaak voort uit een theorie of uit een raamwerk van theorieën.
In de fase van observatie is er altijd ervaringsmateriaal waarover de onderzoeker beschikt. Vaak is er een interpretatie van het materiaal aanwezig die aanleiding kan geven tot het formuleren van een hypothese. Verklaren en interpreteren heeft altijd betrekking op een welomschreven, gesloten verzameling van verschijnselen. Zowel verklaren als interpreteren heeft het over die gesloten verzameling van verschijnselen, het gaat niet buiten die groep kijken.
Hierin onderscheidt de hypothese zich, een hypothese is een open, veronderstelde, meer algemene wettelijkheid. Een interpretatie moet zich volgens De Groot lenen toto een omvorming tot hypothesen, als dit niet mogelijk is dan is het ook geen interpretatie.
In het proces van hypothesevorming is er naast eigen intuïtie ook behoefte aan systematische procedures. Onder systematische methoden voor hypothesevorming rekent De Groot; systematiek van descriptie (registreren, ordenen, groeperen, classificeren), literatuurstudie, empirische exploratie (oriënterend of explorerend onderzoek) en materiaalexploratie.
Inductie wil zeggen dat vanuit het bijzondere naar het algemene wordt geredeneerd. Feiten en ideeën worden via inductie vervat in een theorie, of eventueel in een theoretisch raam. De veronderstelde verbanden tussen de waargenomen verschijnselen worden weergegeven. Op basis van het inductieproces moet duidelijk zijn waar het onderzoek zich op richt, welke eigenschappen van belang zijn en welke relaties of hypothesen tussen eigenschappen worden verondersteld. De vraag is nu welke logische en methodologische eisen gesteld moeten worden aan de formulering van het resultaat van het inductieproces. Die eisen staan in direct verband met de deductie, de toetsing en de evaluatie. Een duidelijke formulering vooraf is dus belangrijk. De volgende vier principes hebben betrekking op de scherpe formulering vooraf; logische consistentie (een theorie moet als model voor de werkelijkheid vrij zijn van contradicties), economisch principe (een theorie moet zo eenvoudig mogelijk zijn qua vormgeving), toetsbaarheid (een theorie moet tenminste op een aantal punten getoetst kunnen worden), omlijnde empirische referenties (het moet duidelijk zijn op welk gebied de theorie of hypothese betrekking heeft).
De Groot reduceert de vier formuleringseisen tot één, namelijk de eis der toetsbaarheid. In haar brede betekenis omvat de eis van toetsbaarheid ook de eis van logische consistentie, economische eis en de eis van de omlijnde empirische referenties. De onderzoeker heeft een expliciteringplicht. Dit houdt in dat een onderzoeker aan moet kunnen geven op welke wijze de theorie of hypothese kan worden geëxpliciteerd.
Deductie wil zeggen van het algemene naar het bijzondere. Eigenschappen worden omgezet in meetbare variabelen en in concrete verbanden of relaties. Verder is deductie het meetbaar maken en het operationeel definiëren van begrippen en het toetsbaar maken van algemene uitspraken door verbijzonderingen in te roepen.
De empirische toetsing van een theorie of hypothese moet geschieden door toetsing van voorspellingen die via deductieve stappen worden verkregen. Dit vraagt om explicitering van die theorie of hypothese. Een algemene theorie wordt uitgewerkt tot een vertakt systeem. Een theorie noemt De Groot een nomologisch netwerk. Er worden in een nomologisch netwerk drie typen uitdrukkingen onderscheiden. Dit zijn ten eerste theoretische begrippen onderling, ten tweede zijn dit waarneembare variabelen onderlinge en als laatste zijn dit theoretische begrippen en waarneembare variabelen.
De voorspelling is de laatste schakel bij het expliciteren van het nomologisch netwerk van een theorie. De voorspelling legt de schakel tussen een hypothese en tussen de uitkomst van een onderzoek. De methodologische eis die aan een voorspelling wordt gesteld is dat ze strikt verifieerbaar is. Er kunnen drie situaties ontstaan bij strikte verifieerbaarheid van een voorspelling, namelijk; de voorspelling is uitgekomen, de voorspelling is niet uitgekomen of de voorspelling is niet verifieerbaar.
De onderzoeker bakent in deze fase de populatie af, het trekt een steekproef of stelt deze samen, het legt de gang van zaken vast en hij kiest het materiaal.
In het onderzoeksplan wordt de methodologische operationalisering van het toetsingsonderzoek vastgelegd. Een onderzoeksplan bevat; een korte expositie van de theorie, een precieze weergave van de deducties die tot een voorspelling leiden, een beschrijving van de instrumenten, een duidelijke bepaling van de doelgroep, een precieze beschrijving van de wijze waarop men steekproeven wil trekken en een vastlegging van de confirmatiecriteria.
Met behulp van de onderzoeksgegevens wordt nagegaan hoe en in welke de hypothese uit het onderzoeksontwerp wordt ondersteund. Toetsing is dus niet alleen het nagaan of de voorspelling uitkomt, maar ook de toetsing van de hypothese. De computer en de statistiek spelen hierbij vaak een grote rol.
Een belangrijke vraag in de fase van toetsing en evaluatie is hoe de confirmatie van hypothesen en theorieën verloopt. Bij een deterministische hypothese (in de zin van ALLE A’s zijn B) is de hypothese meteen gefalsifieerd als één persoon uit de groep niet voldoet aan B. Bij een deterministische, existentiehypothese (in de zin van er is minstens een A die B is) is het niet mogelijk te falsifiëren. Eén persoon is onvoldoende om de hypothese te bewijzen. Bij een probabilistische hypothese (in de zin van de meeste A’s zijn B, of A heeft 80% kans om B te zijn) is het niet mogelijk te bewijzen, maar is het ook niet mogelijk om te weerleggen.
De Groot sluit zich aan bij Popper, hij stelt dat wetenschappelijk toetsingsonderzoek niet streeft naar het bewijzen van een hypothese of theorie, maar wel naar weerlegging van de hypothese of theorie. Empirisch-wetenschappelijk onderzoek is noodzakelijkerwijs gericht op falsificatie.
In deze fase vindt een terugkoppeling plaats naar de eerder veronderstelde verbanden. Een evaluatie is tweevoudig; enerzijds is het gericht op feedback, anderzijds is het gericht op feedforward naar potentieel nieuwe, aansluitende onderzoekingen. De enige eis in de evaluatie is de eis van objectief rapporteren.
Met de term regulatief verwijst Van Strien naar het nemen van beslissingen, deze cycli is dus meer praktijkgericht. Het planmatig, systematisch handelen in de hulpverleningspraktijk is een belangrijk aandachtsgebied, dit gebied komt in de cyclus van Van Strien aan de orde. De regulatieve cyclus geeft een aantal denkstappen weer, die vertrekken vanuit een theorie die beschrijft hoe mensen in het algemeen probleemoplossend te werk gaan.
Hieronder staan de fasen uit de cyclus beschreven:
Probleemstelling; in deze fase vindt de onderkenning van het probleem plaats, de nagestreefde doelen en de middelen die hiervoor ingezet worden.
Diagnose; de probleemsituatie wordt volledig onderzocht en men gaat op zoek naar oorzaken van het probleem. Het is dus een analyse van de bestaande situatie.
Plan (of ontwerp); mogelijke oplossingen worden besproken. Het plan omvat dus de korte- en langetermijndoelen, de inzet van middelen en methodieken en het formuleren van criteria om te bepalen of het plan effectief is.
Ingreep; het plan wordt ten uitvoer gebracht.
Evaluatie; hier wordt nagegaan of het probleem opgelost of verminderd is.
In tegenstelling tot de empirische cyclus is de regulatieve cyclus gericht op het oplossen van één probleem. Kenmerk van beide cycli is dat ze beiden essentiële aspecten van empirisch onderzoek expliciteren. Ze zijn beiden opgebouwd uit fasen en het gaat bij beiden om een stappenplan. Bij de empirische cyclus gaat het om een stramien van denken en handelen met het oog op het verwerven van wetenschappelijk getoetste kennis over de werkelijkheid. Bij de regulatieve cyclus gaat het om een stramien van denken en handelen met het oog op effectiviteit van de geboden hulp of oplossing voor het probleem.
Soms wordt het verschil tussen beide modellen benadrukt, maar de modellen kunnen beter gezien worden als een aanvulling op elkaar. Een goede onderzoeker zou eerst de stappen van de empirische cyclus doorlopen en zal vervolgens overgaan op de regulatieve cyclus.
Een karakteristieke bijdrage van De Groot is dat empirisch onderzoek niet gericht is op het verifiëren, maar op het falsifiëren van een theorie. De wetenschap is een geheel van uitspraken die de onderzoeker in alle voorlopigheid aanhoudt. De sterkste uitspraken hebben het langst de pogingen tot falsificatie doorstaan.
Een tweede karakteristieke bijdrage is dat er minimaal een theoretisch raam aan de onderzoeksgegevens vooraf dient te gaan. Volgens De Groot is een theoretisch raam onmisbaar om tot hypothesevorming te komen.
Een derde karakteristieke bijdrage van De Groot is het wetenschappelijke forum. Dit forum is een open verzameling van alle ter zake doende deskundigen. Het is een discussie tussen deskundigen over de waarheid van een theorie. Het forum werkt als een paradigmawisseling. Wetenschap verandert niet geleidelijk zoals Popper denkt, maar het verandert sprongsgewijs zoals Kuhn denkt.
De Groot gebruikt één type van empirisch-wetenschappelijk onderzoek, namelijk het toetsingsonderzoek. Het toetsingsonderzoek is volgens De Groot het beste uitgewerkt en het is het meest frequente, maar het is zeker niet het enige type wetenschappelijk onderzoek. Internationaal heeft het toetsingsonderzoek een voorrangspositie opgebouwd.
Naast toetsingsonderzoek zijn er nog een aantal onderzoeken. Ze staan hieronder kort en bondig weergegeven.
Instrumenteel-nomologisch onderzoek; het maken, standaardiseren en valideren van een instrument. Dit type onderzoek wordt vooral gebruikt wanneer het instrumentarium ontbreekt, onvoldoende valide of onvoldoende uitgewerkt is om vorderingen te kunnen maken in de ontwikkeling en toetsing van bruikbare theorieën, hypothesen en/of methoden.
Descriptief onderzoek; het is vooral beschrijvend van aard, het streeft niet naar generalisaties. Het is ook niet hypothesevormend of hypothesetoetsend.
Exploratief onderzoek; is een soort tussenvorm tussen descriptief en toetsingsonderzoek. Er zijn geen scherp gestelde hypothesen vooraf, toetsing is dan ook niet mogelijk op de gebruikelijke wijze.
Interpretatief-theoretisch onderzoek. Er wordt geen nieuw feitenmateriaal verzameld. Het gaat hier om interpretatie en theoretische evaluatie van een gegeven, gesloten verzameling van bevindingen. Het gaat dan bij dit onderzoek niet om toetsing van een algemene hypothese, maar het gaat om een interpretatie van het feitenmateriaal.
Het resultaat van handelen is volgens De Groot objectief wanneer het in overeenstemming is met het gestelde studiedoel. Een onderzoeker mag zich niet laten leiden door persoonlijke opvattingen, gevoelens of belangen.
Een tweede definitie van objectief handelen is het streven naar afwezigheid van subjectiviteit als storende factor. Een onderzoeker moet zo objectief mogelijk zijn, toch is dit soms lastig.
Objectiviteitproblemen spelen in alle fasen van de empirisch-wetenschappelijke cyclus een rol, maar bij uitstek in de fase van deductie en toetsing. Deze problemen doen zich voor bij; het empirisch specificeren of instrumenteel maken van begrippen, het selecteren van toetsingsmateriaal, de steekproeftrekking, het observeren, registeren en bewerken van onderzoeksgegevens en bij het regelen van onderzoekscondities. Een definitie is pas volledig operationeel gedefinieerd als het instrument tot in alle details vastligt en alle instructies bevat betreffende de manier waarop het materiaal moet worden verkregen, geregistreerd en verwerkt.
Een instrument is pas objectief te noemen wanneer een testboekje voorhanden is met ondubbelzinnige voorschriften over de toepasbaarheid, over de instructie, over de scoring en over de interpretatie. Het is uit den boze om achteraf resultaten niet mee te laten tellen.
Sommige situaties zijn zo complex of ongrijpbaar dat een objectieve maatstaf voor het te definiëren begrip niet of nauwelijks te vinden is. In deze situaties wordt soms een beoordelaar gebruikt als meetinstrument. De onderzoeker moet dan voldoende vertrouwen hebben in de objectiviteit van de beoordelaar.
In een onderzoek waarbij verschillende beoordelaars worden ingeschakeld kan men de mate van intersubjectieve overeenstemming bekijken. De Groot noemt dit het intersubjectiviteitscriterium, deze komt in de plaats van de objectiviteitseis.
In dit hoofdstuk worden de volgende begrippen uitgelegd, en tevens wordt hier wat achtergrondinformatie bij gegeven; gedragswetenschappen, interventie(programma), effectiviteit van interventies, effectonderzoek en effect size.
Allereerst moet gekeken worden wat men onder gedrag verstaat. Onder gedrag verstaat men de beleving van de eigen persoon, en ook op de beleving van het gedrag van die persoon. Volgens Linschoten (194) is gedrag: “gedrag is iedere, met enig hulpmiddel observeerbare, en instrumenteel realiseerbare, tijdruimtelijke verandering van of aan enig object”. Dit is echter een heel ruim begrip.
De Groot vindt dit te ruim en definieert daarom de volgende definitie van gedrag: “alle activiteiten van een (menselijk) organisme, die waarneembaar of registreerbaar zijn of tot waarneembare of registreerbare toestandswijzigingen leiden, … “. De definitie van De Groot wordt gebruikt in het boek, dit is namelijk een goed theoretisch raam voor de psychologie, de sociologie, onderwijskunde, pedagogiek en de (kinder)psychiatrie.
Belangrijk bij het begrip is dat de nadruk wordt gelegd op registratie en waarneming, terwijl ook beleving, introspectie en dergelijke onder de definitie kunnen vallen.
Wanneer het woord interventie aan bod komt gaat het in het boek altijd over een interventieprogramma. De term verwijst naar; ‘… een goed gedefinieerd en in de tijd gefaseerd complex van activiteiten ter realisering van een bepaalde eveneens goed omschreven doelen’.
Volgens het NJi is een interventie in de jeugdzorg een aanpak die;
Gericht is op vermindering, de compensatie of het draaglijk maken van een risico of probleem in de ontwikkeling van een jeugdige.
Bestemd voor een doelgroep die wordt gekenmerkt door de aanwezigheid van een of meerder van deze risico’s of problemen.
Geleid wordt door een theoretisch en praktisch weldoordachte, doelgerichte en systematische werkwijze.
Gericht is op de jeugdige zelf, zijn opvoeders en/of de opvoedingsomgeving.
Afgebakend is in de tijd, met een nader omschreven tijdsduur en frequentie.
Naast programma’s op jeugdigen zijn er ook programma’s gericht op volwassenen. De definitie van het boek is daarom iets algemener. Interventieprogramma’s bestaan uit een geheel van hulpverleningsacties, die:
Gekenmerkt worden door goed omschreven doelen, gericht op het oplossen, verminderen of voorkomen van risico’s of problemen bij kinderen en/of volwassenen
Aansluiten bij toepasselijke theorieën of hypothesen.
Goed gedefinieerd zijn wat betreft de inhoud en doelgroep.
In de tijd gefaseerd zijn ter wille van het bereiken van doelen.
Vooraf geplande evaluatiemomenten en evaluatiecriteria bevatten.
Effectonderzoek zou moeten starten met een definitie van effectiviteit. Effectiviteit wil zeggen; de interventie is werkzaam én realiseert het vooropgestelde doel ervan. Dunst et al. (1989) gebruiken een multidimensionale definitie van effectiviteit. Drie impliciete dimensies liggen besloten in deze definitie; afhankelijkheid (mate waarin een functionele relatie bestaat tussen de afhankelijke en onafhankelijke variabele), specificiteit (mate waarin specifieke dimensies van een interventie aan te wijzen zijn) en het (bestaan van) alternatieve verklaringen (mate waarin andere factoren dan de interventie als bronnen van invloed op de afhankelijke variabele optreden).
Definitie van effectiviteit van interventies zoals gegeven in het college;
Programma, training of behandeling: goed gedefinieerd en in de tijd gefaseerd geheel aan activiteiten ter realisering van bepaalde goed omschreven doelen
Verminderen, compenseren of voorkomen van: ontwikkelingsachterstanden, psychosociale problemen of opvoedingsproblemen
Verminderen van de gevolgen van bovenstaande problemen
Bevorderen van gunstige ontwikkeling
Bevorderen van een positief opvoedingsklimaat
Figuur 1 (zie bijlage)
Door die benadering is het mogelijk om verschillende effectstudies te typeren op basis van de mate waarin zij erin slagen aan de eisen te beantwoorden voor het maken van causale gevolgtrekkingen. Er wordt praktisch nooit het hoogste gescoord, dus is een causale gevolgtrekking meer een relatief dan een absoluut concept. In onderstaand figuur wordt de relatie weergegeven tussen de drie dimensies van Dunst et al.
Ook Veerman en Van Yperen (2008) geven met hun indeling van effectiviteit in verschillende niveaus van bewijskracht aan dat het niet om een alles-of-niets zaak gaat. Zij ontwikkelden een effectladder. De begrippen effectiviteit en effectonderzoek worden hierbij gekoppeld. De volgende effectniveaus worden onderscheiden;
Niveau 0; Impliciet; de interventie is nog niet duidelijk omschreven, maar wordt uitgevoerd zoals men dat in gedachten heeft.
Niveau 1; potentieel; goed beschreven interventies, de bewijskracht is vaak descriptief.
Niveau 2; veelbelovend; bezitten theoretische bewijskracht, bevatten een goede programmatheorie. Vanaf dit niveau kan pas gesproken worden van een interventie(programma).
Niveau 3; indicatief of doeltreffend; interventies met voorlopige bewijskracht.
Niveau 4; werkzaam of bewezen effectief; er is causale bewijskracht en de gemeten verbetering is toe te schrijven aan de interventie.
Een bruikbare, algemene definitie van effect zou kunnen zijn; de mate waarin een doel behaald is ten gevolge van de interventie. Bewezen effectief wil zeggen dat de interventie werkzaam is en het vooropgestelde doel ervan wordt gerealiseerd. In termen van Dunst et al. gaat het om een hoog niveau van afhankelijkheid en uitsluiting van alternatieve verklaringen. In termen van Van Yperen en Veerman bevinden we ons op niveau 4.
Termen die nauw samenhangen met effect zijn:
Resultaat; benaming van een onderdeel van een wetenschappelijke rapportage. Dit resultaat kan opgedeeld worden in een lopende beschrijving van de uitkomst van de uitkomst van het onderzoek, een beschrijving van de onderzoeksuitkomsten in statistische termen en een hoeveelheid tabellen en grafieken. Verder kan een resultaat een (zoals van Dale noemt) een wat min of meer doelgerichte handeling, proces, werking wordt opgeleverd. Resultaat is een meer neutrale term dan effect.
Verandering; synoniem voor ontwikkeling.
Doeltreffendheid; is niet gelijk aan effectiviteit. De doelen kunnen na interventie gehaald zijn, maar dat het niet de interventie was die dat resultaat veroorzaakte.
Een andere belangrijke term is kosteneffectiviteit. Hierbij kijkt men naar de kosten van een interventie. Een soortgelijke interventie met lagere kosten is meer kosteneffectief. Vaak wordt er gekeken naar de kosten per deelnemer. De kosten moeten worden afgewogen tegen de baten. Vaak is het zo dat hoe hoger het niveau van precisie, betrouwbaarheid en generalisatie, hoe hoger de kosten.
De kosten van een effectonderzoek bestaan uit benodigde tijd en middelen voor de effectonderzoekers en onderzoeksmedewerkers, maar ook die van beleidsmakers, programmamanagers, ander personeel en de doelgroep van het programma.
Effectonderzoek is het onderzoek naar de vraag of het beoogde effect van interventies is bereikt. Een manier om verschillende soorten onderzoek te benoemen is de onderscheiding tussen onderzoekstypen, er kan onderscheid gemaakt tussen fundamenteel (meer theoretisch) en praktijkgericht onderzoek. Effectonderzoek evalueert oplossingen voor praktijkproblemen en valt dan dus ook onder praktijkgericht onderzoek. Effectonderzoek valt samen met evaluatie in de regulatieve cyclus. In de empirische cyclus van De Groot valt het onder toetsingsonderzoek.
Synoniemen voor effectonderzoek zijn; programma-evaluatie, evaluatieonderzoek, effectevaluatie, productevaluatie en summatieve evaluatie.
Donker (1987) omschrijft programma-evaluatie als volgt; ‘Onderzoek, waarin met gebruikmaking van methoden en technieken uit de sociale wetenschappen een waardeoordeel uitgesproken wordt over het feitelijk functioneren van een programma door het functioneren van een programma te vergelijken met de doelen ervan, met de bedoeling bij te dragen tot betere, meer gefundeerde, rationelere beslissingen over het programma en om daardoor uiteindelijk bij te dragen aan de vormgeving van een optimale zorg- en hulpverlening’. (deze definitie is ook gegeven in het college)
Naast productevaluatie is er ook procesevaluatie. Dit vindt plaats tussen de fasen Ingreep en Evaluatie. Er wordt nagegaan of de interventie is verlopen zoals gepland. Procesevaluatie heeft tot doel het tot stand brengen van veranderingen in de interventie van de betrokken bij het proces. Productevaluatie heeft vaak tot doel de rechtvaardiging van de interventie ten opzichte van de uitvoerders, de doelgroep, de opdrachtgever en de financiers of het maken van een beslissing over stoppen of doorgaan met de interventie.
Product- en procesevaluatie vragen beiden om een andere aanpak. Bij procesevaluatie worden met behulp van kwalitatieve methoden interactieprocessen rondom programma’s bestudeerd. Bij productevaluatie wordt informatie over de input, het proces, en de output verzameld. De voorkeur gaat vaak uit naar kwantitatieve methoden.
Het gebruik van kwantitatieve vs kwalitatieve methoden vindt niet meer zo gescheiden plaats als voorheen. Soms worden beide methoden gebruikt, of worden ze na elkaar gebruikt. Het onderscheid tussen proces- en productevaluatie vindt men dan ook niet meer zo vruchtbaar. Ze zijn immers pas zinvol als ze in combinatie voorkomen. Procesevaluatie is nodig om tot niveau 4 te komen, waarop je van bewezen effectief kunt spreken.
In onderstaand figuur staan de soorten onderzoek, gerangschikt volgens de effectladder van Veerman en Van Yperen.
Figuur 2 (zie bijlage)
Het NJi deelt effectonderzoek in in vijf soorten; niet-experimenteel kwaliteitsonderzoek (kwaliteit van een interventie staat centraal), niet-experimenteel veranderingsonderzoek (kenmerken van participanten voor en na interventie worden gemeten), casestudies N=1 studies (één onderzoeksobject op verschillende momenten), (quasi)-experimenteel onderzoek (interventie wordt vergeleken met een groep waarbij geen interventie plaatsgevonden heeft) en metastudies (samenvatten van eerder gevonden resultaten). De eerste drie genoemde soorten zijn vormen van pre-experimenteel onderzoek.
Het toevoegen van effect sizes wordt tegenwoordig gezien als iets goeds, en vaak is het een voorwaarde om met een studie opgenomen te worden in reviews en artikelen.
Effect size wordt in het Nederlands ook wel effectgrootte genoemd, maar de meest gebruikte term is de afkorting ES. Een formele definitie is: effect size is de gestandaardiseerde numerieke index van de grootte van een effect of een relatie; onafhankelijk van de steekproefgrootte. Een ES is dus niet afhankelijk van de grootte van de steekproef. Het rapporteren van een ES verbetert de eigen interpretatie en stelt de lezers in staat tot een betere interpretatie. De meest gebruikte ES is de R-kwadraat. De meeste bekende ES-index is de Cohen’s d. ES en poweranalyse hangen sterk met elkaar samen.
Voordat er wordt gestart met een effectonderzoek, is het handig eerst een aantal vragen te stellen over de noodzaak, bruikbaarheid en haalbaarheid ervan. Newcomer et al. maken gebruik van 3 basisvragen die moeten worden gesteld over elk programma, waarbij effectonderzoek wordt overwogen:
Kunnen de resultaten van de evaluatie beslissingen aangaande het programma beïnvloeden?
Kan de evaluatie op tijd plaatsvinden om bruikbaar te zijn?
Is het programma relevant of zwaar genoeg?
Bij de start van een onderzoek moet (onder andere) rekening gehouden worden met de Centrale Commissie Mensgebonden Onderzoek (CCMO). De CCMO waarborgt de bescherming van participanten als zij betrokken zijn bij medisch-wetenschappelijk onderzoek. Onderzoek met mensen moet een medisch-ethische toets ondergaan, als het valt onder de Wet medisch-wetenschappelijk onderzoek met mensen (WMO). Gedragswetenschappelijk onderzoek behoort hiertoe, als er ten eerste sprake is van een medisch-wetenschappelijk onderzoek en als ten tweede de participanten worden onderworpen aan handelingen of een bepaalde gedragswijze.
Als is ingeschat dat effectonderzoek nut heeft en indien nodig toestemming is verleend door de CCMO, kan gestart worden met de opzet ervan. In dit hoofdstuk wordt de ideale vorm(en) van effectonderzoek in de gedragswetenschappen beschreven.
Voor het plannen en ontwerpen van effectonderzoek is allereerst een omschrijving van de centrale kenmerken van een interventie nodig. Die omschrijving start met het theoretisch raam, waarop de interventie is gebaseerd. Vervolgens moeten de doelen van de interventie en de interventie zelf omschreven worden.
Een interventie is theoretisch goed onderbouwd als het op basis van theorie en onderzoek aannemelijk is dat de interventie werkzaam kán zijn. De theoretische onderbouwing (ook wel: theoretisch raam) vormt niet alleen de basis voor de interventie zelf, maar ook voor het effectonderzoek ernaar. Het theoretisch raam begint met een analyse van de beschermende en risicofactoren, die aangeeft op welk risico of probleem de interventie is gericht. Daarnaast beschrijft het theoretisch raam ook een visie op de normale ontwikkeling en/of gezondheid. Voorbeeld: je kan pas uitspraken doen over de mogelijkheden tot beïnvloeding van determinanten over hun psychische gezondheid als duidelijk is wat onder psychische gezondheid wordt verstaan. Ook sluit een theoretisch raam aan, of bouwt het voort, op kennis uit bestaand onderzoek. Ten slotte wordt er gekeken voor welke doelgroep de interventie is bedoeld.
Het nauwkeurig formuleren van wetenschappelijke ideeën inzake de interventie komt overeen met De Groots fase van Observatie. Het onderzoek start namelijk met het inventariseren van alle verschijnselen die van belang zijn omdat ze het te onderzoeken fenomeen beïnvloeden.
Het geheel van assumpties over de middelen voor en activiteiten van een programma en hoe deze leiden tot de realisatie van de doelen wordt een programma theorie (program theory) genoemd. Het effectonderzoek, gebaseerd op zo’n programmatheorie wordt aangeduid met theory-driven evaluation oftewel theoriegestuurde evaluatie.
Het theoretisch raam start met een analyse van factoren: welke zijn daarvan te beïnvloeden en kunnen worden aangewend. Ook wordt de prognose vastgesteld: wat gebeurt er op het moment dat er niet wordt ingegrepen. Daarnaast beschrijft het theoretisch raam een visie op de gezondheid of de normale ontwikkeling.
Activiteiten van een interventieprogramma moeten volgens het NJi (Nederlands Jeugdinstituut): duidelijk doelgericht zijn; planmatig verlopen; goed aansluiten bij de motivatie en verwachtingen van de cliënt; en worden uitgevoerd door professionals die goed getraind zijn en een goede ondersteuning krijgen bij de uitvoering van hun werk. Carr voegt hier nog aan toe dat werkzame interventies vaak: multipele leermethoden en –middelen gebruiken; intensief en langdurig zijn; met frequente contacten werken; en in een comfortabele setting (bijvoorbeeld thuis) worden aangeboden.
Bij de inventarisatie van variabelen in het interventieproces onderscheiden Melief et al. drie groepen: cliënt-, therapeut-, en procesvariabelen. Cliëntvariabelen helpen de doelgroep duidelijk te omschrijven en zijn weer onder te verdelen in: variabelen die betrekking hebben op het functioneren van de cliënt, betrekkelijk stabiele persoonskenmerken (geslacht, leeftijd etc.) en omgevingskenmerken. Bosma en Hosman achten het bij effectonderzoek naar programma’s die specifiek gericht zijn op preventie belangrijk om binnen cliëntvariabelen nog een onderscheid te maken tussen de preventieve doelgroep en de intermediaire doelgroep. De preventieve doelgroep is de doelgroep waarop het uiteindelijke preventieve effect beoogd wordt (bijv. kinderen uit een bepaalde risicogroep). De intermediaire doelgroep is een doelgroep via welke men de uiteindelijke effecten bij de preventieve doelgroep wil bereiken (bijv. de opvoeders). De therapeut- en procesvariabelen volgen later.
Bij de keuze van variabelen in evaluatieonderzoek wordt er gewezen op intermediaire factoren. Dit zijn factoren die het beoogde effect van de interventie mediëren. De interventie heeft dan via een andere onafhankelijke variabele invloed op de afhankelijke variabele. Grafisch kan dit als volgt worden weergegeven: A -> B -> C (A: Interventie, B: Intermediaire factor, C: Afhankelijke variabele). Naast intermediaire factoren moet er ook rekening gehouden worden met hidden third factors, oftewel storende factoren. Dit zijn factoren die in plaats van de interventie de afhankelijke variabele beïnvloeden, waardoor men geen relevante conclusies kan trekken over het verband tussen de interventie en de afhankelijke variabele. Dit gaat ten koste van de interne validiteit van het onderzoek. Grafisch ziet dit er als volgt uit: A – > C < – B (A: Interventie, B: Storende factor, C: Afhankelijke variabele)
Van der Meulen en Elzinga-Westerveld zouden graag zien dat er bij de beschrijving van de variabelen in het effectonderzoek meer aandacht besteed wordt aan afstemmingsvariabelen. Een voorbeeld van afstemmingsvariabelen zijn de persoon van de opvoeder en de persoon van de hulpverlener; als het niet klikt tussen opvoeder en hulpverlener, is het lastig positieve invloeden te verwachten. Door rekening te houden met afstemmingsvariabelen kunnen er wellicht uitspraken gedaan worden over de geschiktheid van een bepaalde methode voor een bepaald persoon of gezin.
Als in het theoretisch raam uitgelegd is wat het probleem en de doelgroep zijn waar de interventie zich op richt, welke factoren daarbij een rol spelen en welke theorieën en reeds bestaande kennis wordt aangesloten, komen het doel en de methode van de interventie aan de orde. Orobio de Castro geeft een overzicht van vragen, waarop het effectonderzoek antwoord moet geven, de vijf W’s:
Wat? De inhoud van de interventie, zoals bedoeld en uitgevoerd (de methode en de implementatie).
Werkt het? Welke effecten worden beoogd en hoe zijn deze te operationaliseren en welke mogelijke ongunstige effecten zijn er?
Wanneer? Onder welke omstandigheden treden de effecten op?
Voor Wie? Bij welke participanten (doelgroep) treden de effecten op?
Waarom? Welke oorzakelijke of in stand houdende mechanismen zijn beïnvloed?
Om doelen te kunnen bereiken is het in eerste instantie belangrijk wat je verstaat onder effect(iviteit). Wordt er met effect alleen beoogde veranderingen bedoeld of eveneens onbedoelde gevolgen van de interventie? En zijn langetermijngevolgen alleen effectief of ook de kortetermijngevolgen? Naast het beschrijven van effectiviteit is het ook belangrijk dat de doelen zo eenduidig mogelijk geformuleerd zijn. Hierbij kan het SMART-principe behulpzaam zijn. De letters van SMART staan voor:
Specifiek: de doelstellingen moeten eenduidig en gedetailleerd zijn;
Meetbaar: onder welke voorwaarden is het doel bereikt;
Acceptabel: de doelstellingen moeten aanvaardbaar zijn voor en relevant gevonden worden door de doelgroep en/of management;
Realistisch: de doelstellingen moeten haalbaar zijn;
Tijdgebonden: wanneer moeten de doelen bereikt zijn?
Doelen van hulpverleningsprogramma’s zijn veelal preventief of curatief (gericht op verbetering) van aard. Rispens en Van Tuijl spreken van een tweeledig doel van pedagogische preventie. In de eerste plaats gaat het om het voorkomen van het ontstaan van psychosociale problemen bij kinderen en jeugdigen. Het tweede doel van pedagogische preventie is het vergroten van de mogelijkheden van kinderen tot een positieve ontwikkeling.
In de literatuur wordt vaak een onderscheid gemaakt tussen primaire, secundaire en tertiaire preventie. Primaire pedagogische preventie heeft tot doel de incidentie van ontwikkelingsproblematiek bij kinderen en opvoedingsmoeilijkheden bij opvoeders terug te dringen door nieuwe gevallen te voorkomen. Het gaat hierbij om het voorkomen van algemene problemen en/of om het bevorderen van gezondheid. Ze richten zich meestal op grote groepen, bijvoorbeeld de hele populatie of grote risicogroepen. Secundaire pedagogische preventie is erop gericht ernstige problemen in een zo vroeg mogelijk stadium te signaleren en vroegtijdige hulp te bieden of daarnaar te verwijzen. Het doel is om de prevalentie van problemen terug te dringen door zowel de duur van de stoornis te verkorten als de hoeveelheid beperkingen die deze veroorzaakt op het normale functioneren te verkleinen. Tertiaire pedagogische preventie is gericht op het tot een minimum beperken van de nadelige gevolgen van een reeds geconstateerd probleem. Het probleem is al in een vergevorderd stadium en er kan dus eigenlijk gesproken worden van hulpverlening in plaats van preventie.
Het nut van preventie kan volgens Vermande, Bodden en Dekovic ook vanuit een andere hoek worden beschouwd. Dit wordt gedaan door middel van het onderscheiden van universele, selectieve en geïndiceerde preventie. Universele preventie is gericht op de gehele bevolking, selectieve preventie is gericht op een doelgroep met een hoog risico en geïndiceerde preventie richt zich op participanten die duidelijk een risicogroep zijn maar niet in zijn geheel voldoet aan de diagnotische criteria.
Bij het beschrijven van de doelen voor effectonderzoek naar programma’s die specifiek gericht zijn op preventie, zijn volgens Lorion en Lounsbury twee belangrijke keuzes aan de orde. De eerste stap is het beschrijven van de content direction, oftewel de aard van het preventieve doel: primair of secundair. Tijdens de tweede stap moet de strategie operationeel gedefinieerd worden. Daarbij is de dimensie intentionality belangrijk: is preventie het a priori-doel (directe einddoel) of is het een nevendoen (indirect doel)?
De eerste W van Orobio de Castro was Wat? Het beschrijven van de methode (zoals bedoeld) en de implementatie of het verloop (zoals in de praktijk uitgevoerd) is van cruciaal belang om achteraf te kunnen nagaan welke dimensies van de interventie verandering teweegbrachten en onder welke omstandigheden en voor wie de interventie effectief is.
Hier zijn de therapeut- en procesvariabelen van Metlief et al. aan de orde. De therapeutvariabelen worden onderverdeeld in: therapeutische technieken (welke activiteiten?), variabelen die met de persoon van de therapeut te maken hebben (welke eisen worden er gesteld aan de hulpverlener?), kenmerken van de omgeving van de interventie (waar? welke instantie?) en kenmerken van de kwaliteitsbewaking (supervisie). Procesvariabelen zijn bijvoorbeeld: de tijd waarover de interventie zich uitstrekt (wanneer?), de frequentie en duur van de thuisbezoeken of sessies, en dergelijke.
Een onderzoek met een hoge constructvaliditeit heeft a) voldoende specificiteit ten aanzien van de dimensies van de interventie die verandering teweegbrengen en b) expliciete toetsing van de conditionele relaties tussen deze dimensies en andere variabelen die eveneens verandering (kunnen) veroorzaken.
In deze fase gaat het erom vanuit het theoretisch raam te komen tot hypothesen en daaruit afgeleide toetsbare voorspellingen. Je kunt dit vergelijken met De Groots fase van deductie. In deze fase worden het doel van het programma en andere te meten variabelen geoperationaliseerd in de vorm van duidelijke criteria of uitkomstmaten. Een criterium is een concept dat zo geformuleerd is, dat het geobserveerd en gemeten kan worden.
Van den Berg en Kouwenhoven waarschuwen in deze fase voor design dump als valkuil. Dit houdt in dat bij gebrek aan een heldere vraagstelling een enorme hoeveelheid data door de onderzoeker wordt verzameld, waarvan vervolgens onduidelijk is of en hoe die geïnterpreteerd moeten worden. Volgens hen wordt dan vaak achteraf gedaan aan HARKing (Hypothesizing After the Results are Known).
Criteriummaten worden afgeleid van een visie over een goede/normale ontwikkeling (bijvoorbeeld kinderlijke ontwikkeling) en een visie op een probleem (bijvoorbeeld pesten) of ongezondheid. Zie kader 4.5 voor voorbeelden van meetcriteria. Een interventieprogramma kan onbedoelde effecten hebben, zowel gewenste als ongewenste. Een voorbeeld in de orthopedagogische interventies is dat het kind afhankelijker wordt van de ouders door de interventie. Voor een evenwichtige evaluatie zullen bedoelde en onbedoelde gevolgen van een programma tegen elkaar afgewogen moeten worden. Er dient van te voren goed nagedacht te zijn over de mogelijke onbedoelde effecten en deze moeten waar mogelijk omgezet worden in criteria, zodat ze in het onderzoek geregistreerd kunnen worden.
De effectiviteit van een interventie wordt sterk bepaald door de daadwerkelijke uitvoering ervan. In een effectonderzoek moeten de dagelijkse activiteiten tijdens het programma nauwkeurig worden beschreven zodat, wanneer effect is bereikt, achteraf duidelijk kan worden hoe dit effect is bereikt en of verschillen in effectiviteit tussen personen en/of gezinnen verklaard kunnen worden door verschillen in de uitvoering van de interventie. Volgens Clarke-Stewart en Fein kan een interventie falen omdat zij slecht wordt aangeboden, maar ook omdat zij slecht wordt ontvangen door de doelgroep. Daarom moeten hier ook criteria voor gekozen worden. Criteria van de doelgroep maakt het mogelijk om achteraf na te gaan of de doelgroep is bereikt en of er verschillen tussen subgroepen zijn wat betreft het effect van de interventie. Criteria van de interventie zoals aangeboden is een voorwaarde om achteraf na te kunnen gaan of de interventie wel is uitgevoerd zoals gepland.
Een interventie bestaat eigenlijk uit een variëteit aan op individu-, groeps-, ouder- en/of kindniveau uitgevoerde deelinterventies die in het algemeen tegelijkertijd aan de doelgroep worden aangeboden.
Niet iedere persoon, ieder gezin of ieder kind profiteert op dezelfde wijze en in dezelfde mate van het interventieprogramma. Bij de toetsing van effecten moet daarom ook nagegaan worden of er subpopulaties zijn waar de effecten zwakker of juist sterker zijn. Subpopulaties kunnen zowel op kindkenmerken (geslacht, temperament, leeftijd) als op basis van persoons-, ouder- of gezinskenmerken (intelligentie, SES).
Lorion en Lounsbury geven aan dat een belangrijke eis ten aanzien van het meetproces bij preventieonderzoek criterium-specifiteit is: er moet vooraf een duidelijk en welomschreven operationeel doel worden geformuleerd, waarvan achteraf nagegaan wordt of en in hoeverre ze is bereikt.
Voor het gebruik van een operationele definitie wordt volgens Kerlinger en Lee een betekenis toegekend aan een begrip door het specificeren van de activiteiten die nodig zijn om het betreffende begrip te evalueren en te meten.
Criteriummaten moeten: a) gerelateerd zijn aan de doelen van het programma, b) voortvloeien uit de taken en activiteiten binnen het programma, c) afgestemd zijn op de doelgroep, d) acceptabel zijn voor onderzoeker en medewerker, e) consistent zijn door de verschillende situaties en contexten van het programma heen, f) betrouwbaar zijn, g) valide zijn, h) representatief zijn, i) realistisch zijn.
Een meetinstrument is een hulpmiddel waarmee systematisch gegevens kunnen worden verzameld, geordend en geanalyseerd over een doelgroep of over het professioneel handelen ten opzichte van die doelgroep. In het meten van effect wordt vaak gebruik gemaakt van objectieve meetinstrumenten, zoals vragenlijsten en observatieschalen. Essentieel hierbij is dat de meetinstrumenten valide en betrouwbaar zijn. Het moeten dus geen momentopnames zijn.
Het instrument dat gebruikt wordt moet sensitief genoeg zijn om verandering te meten. Ook moet het aansluiten bij de doelgroep en de interventiedoelen. Daarnaast moet een meetinstrument theoretisch goed onderbouwd en praktisch bruikbaar zijn.
Betrouwbaarheid is een maat voor de consistentie, stabiliteit en precisie van de testscore. Daarnaast heeft betrouwbaarheid te maken met de hoeveelheid vertekening en meetfouten die de scores opleveren. Verschillende soorten betrouwbaarheid zijn:
Paralleltestbetrouwbaarheid. Gebaseerd op de overeenkomst tussen tests die strikt parallel (vergelijkbaar) zijn.
Betrouwbaarheid op basis van inter-itemrelaties. Gebaseerd op de covarianties tussen de items van de test (de mate waarin de items overeenstemmen).
Test-hertestbetrouwbaarheid. Gebaseerd op de overeenkomst in scores als het instrument op dezelfde manier, door dezelfde persoon en bij dezelfde participanten nogmaals wordt afgenomen.
Interbeoordelaarsbetrouwbaarheid. Gebaseerd op de overeenkomst in scores als het instrument door verschillende personen wordt gehanteerd bij dezelfde participanten.
Validiteit is meten wat je beoogt te meten, het heeft dus betrekking op de vraag of de test aan zijn doel beantwoordt. Verschillende typen validiteit zijn:
Inhoudsvaliditeit: is de steekproef representatief voor het theoretische universum. Dit valt niet te meten en wordt dus beoordeeld door experts.
Criteriumvaliditeit: testscores worden vergeleken met externe variabelen, waarvan aangenomen wordt dat ze dezelfde eigenschappen meten. Een vorm hiervan is predictieve validiteit: in welke mate kan een score dingen voorspellen.
Begripsvaliditeit: geeft de mate aan waarin de test daadwerkelijk het begrip meet. Hierbij gaat het erom dat een cumulatie van aanwijzingen wordt gevonden voor het feit dat de test inderdaad de eigenschap meet die hij verondersteld te meten.
Discriminante validiteit: het vermogen van de test om de verschillende groepen mensen te onderscheiden die onderscheiden moeten worden.
Er zijn grofweg drie verschillende hoofdmethoden voor dataverzameling: de test, de observatie en het interview.
Een test is een veelgebruikte methode om zo objectief mogelijk data te verzamelen. Het individu wordt een set van geconstrueerde stimuli gepresenteerd, waarop hij reageert. Door de reacties kan de onderzoeker gevolgtrekkingen maken over de eigenschappen van het individu. Het is vooral een methode om bepaald gedrag vast te stellen. De COTAN is een belangrijke bron bij het vinden van geschikt meetinstrumentarium. De COTAN stelt zichzelf als opdracht het bevorderen van de kwaliteit van tests en testgebruik in Nederland. Systematische vragenlijsten worden vaak gebruikt in effectonderzoek. Een belangrijke keuze daarbij is wie de lijst invult. Naast zelfrapportage kunnen ook mensen in de omgeving van de participanten ingezet worden. Newcomer en Triplett geven enkele tips bij het identificeren van de informatiebron. Kies respondenten die: a) relevante kennis bezitten met betrekking tot de evaluatievragen, b) bereikbaar zijn, c) representatief zijn voor de populatie waarnaar men wenst te generaliseren, d) verschillende perspectieven ten opzichte van de vragen tonen.
Norm-georiënteerde test: test waarbij een schatting wordt gemaakt van de positie van een getest individu ten opzichte van een vastgestelde populatie. Criterium-georiënteerde test: vertaalt testscores in een uitspraak over het gedrag dat verwacht wordt van iemand met die score of zijn/haar relatie tot een vastgestelde standaard (bv. proefwerk). Ipsatief testen: de testscores worden bij één persoon uitsluitend onderling vergeleken.
Er zijn globaal twee manieren van observatie: het bekijken wat mensen doen en zeggen of het vragen naar hun eigen en andermans gedrag. Directe observatiemethoden zijn beter dan zelfrapportage-instrumenten, omdat hierbij onder andere de externe validiteit zekerder is. Kerlinger en Lee beschrijven twee gezichtspunten bij het gebruik van observatiemethoden. De ene is dat observaties van gedrag strikt gecontroleerd moeten worden uitgevoerd om objectief te kunnen zijn. De andere is dat deze strike controle te beperkend en kunstmatig is.
Een interview komt in verschillende mate van directheid en structuren voor. Deze directheid hangt af van de vragen die worden gebruikt. De mate van structuur varieert in een gestructureerd (gestandaardiseerd) interview, een ongestructueerd (niet-gestandardiseerd) interview en het semigestructureerde interview. Kerlinger en Lee geven drie toepassingsgebieden voor interviews: 1. Exploratieve toepassing, gericht op het generen van ideeën en hypothesen; 2. Als het centrale instrument binnen de studie om effecten vast te stellen; 3. Als toevoeging op andere methoden of als follow-up.
Naast bovengenoemde methodes kunnen onderzoekers ook gebruik maken van programmanotities en –documentatie. Denk hierbij aan cliëntdossiers of administratieve gegevens.
In het onderzoeksontwerp/steekproefopzet worden de omvang van de steekproef, de keuze van de methode van steekproeftrekking, het aantal en de timing van de meetmomenten en dergelijke bepaald.
Met een zuiver experiment (Randomized Controlled Trial; RCT) zijn causale uitspraken te doen. Ook bezit dit type onderzoek een hoge interne validiteit, dat wil zeggen de mate van zekerheid dat veranderingen in de afhankelijke variabele (effect) alleen een functie zijn van de onafhankelijke variabele (interventie). In een zuiver experiment moet er sprake zijn van a) voor- en nametingen en b) een experimentele groep en een controle groep, met random toewijzing.
In effectonderzoek is longitudinaal onderzoek ook belangrijk. Naast de stabiliteit van de eventuele effecten kunnen zogenaamde sleeper effecten, effecten die na de interventie pas na verloop van tijd optreden, met een longitudinaal design gemeten worden.
Bij het inrichten van een experimentele groep en een controle groep spelen de volgende onderwerpen een rol:
Randomisatie: een willekeurige toewijzing van participanten aan beide groepen waardoor men een gelijke kans heeft om in een groep terecht te komen.
Matching: hierbij zorgt men dat beide groepen op een aantal belangrijk geachte aspecten aan elkaar gelijk zijn. Reële matching/precisiecontrole: twee personen zoeken die op belangrijke aspecten gelijk zijn, één persoon gaat dan naar de controlegroep, één persoon naar de experimentele groep. Frequentieverdelingscontrole/globale controle: twee groepen vormen die op een aantal variabelen dezelfde frequentieverdeling hebben.
Blinde toewijzing: noch de onderzoeker, noch de participant weet welke participanten de experimentele interventie ontving.
Placebogroep: een groep waarin interventies worden gepleegd die niet direct relevant zijn, om de mogelijkheid van sociale wenselijkheid te controleren.
Grootte van de groepen.
Homogene groepen.
Figuur 3 (zie bijlage)
Door de vergelijking van O6 met O1 en O3 kan het effect van rijping en geschiedenis nagegaan worden. Rijping: de invloed van normale ontwikkelingsprocessen en het voorbijgaan van tijd op het groepsgemiddelde. Geschiedenis: tussentijdse gebeurtenissen buiten de interventie om, die zich voordoen tussen de voor- en nametingen en een effect kunnen hebben op het groepsgemiddelde. Nadeel: de onderzoeksinvestering in tijd en geld is veel groter dan bij een ander design.
Na het uitvoeren van deze stappen kan het onderzoeksplan worden opgesteld. Hierbij wordt de methodologische operationalisering van het onderzoek vastgesteld.
Tijdens de dataverzameling wordt informatie vergaard ten aanzien van de input (elementen van het programma), het proces (implementatie van het programma) en de output (effecten op participanten).
Voor de invoering van de data van vragenlijsten of tests wordt er vaak gebruik gemaakt van coderingen. Coderen is het vertalen van antwoorden in specifieke categorieën. Een statistisch programma wat hier voor kan worden gebruikt is spss. De APA geeft richtlijnen op het gebied van de bescherming van het intellectuele eigendom.
De CCMO biedt richtlijnen voor de bescherming van participanten, zoals:
De proefpersoon moet schriftelijk worden geïnformeerd over het onderzoek;
De proefpersoon moet veelal schriftelijk toestemming geven voor deelname aan het onderzoek;
Er moet in sommige gevallen een verzekering zijn gesloten voor door het onderzoek ontstane schade van de proefpersoon;
De wet stelt eisen aan de verplichte toetsing van het onderzoek;
De wet stelt eisen aan onderzoek met minderjarigen en wilsonbekwame volwassenen.
De eerste twee genoemde punten noemt men wel informed consent.
De data-analyse moet al tijdens de probleem- en hypotheseformulering gepland worden, zodat de onderzoeker een schatting kan maken in hoeverre zijn data en analyse de onderzoeksvragen zullen kunnen beantwoorden.
Het wordt aanbevolen om, voordat er meer formele statistische technieken toegepast worden, een explorerende data-analyse uit te voeren. Ten eerste kunnen hierdoor fouten in de registratie of verdere verwerking van gegevens opgespoord worden. Ten tweede kan onderzocht worden in hoeverre de data voldoen aan de veronderstellingen van de gewenste statistische methode.
De keuze van een statistische analysetechniek hangt in het algemeen af van de probleemstelling (frequentievraag, verschilvraag of samenhangvraag), de steekproef, het meetniveau van de afhankelijke en onafhankelijke variabelen en van hoeveel participanten er gegevens zijn verzameld (belangrijke grens is 25).
Inductieve statistiek: waar statistische technieken worden ingezet om vast te stellen in welke mate resultaten bij een steekproef kunnen worden gegeneraliseerd naar een populatie. De meest populaire inductieve techniek is de significantietoets.
Variantie-analyse is ook een methode om data te analyseren. De doelstelling van variantie-analyse is het nagaan van het effect van een of meer factoren (de interventie) op de gemiddelde waarden van een afhankelijke variabele (effecten op participanten). De verklarende variabelen zijn nominaal, de afhankelijke variabelen op intervalniveau.
Na data-analyse volgt de interpretatie van de uitkomsten, oftewel de fase van evaluatie in de empirische cyclus. Er wordt op twee manieren geïnterpreteerd: a) de relaties binnen de studie en de data worden geïnterpreteerd en b) de bredere betekenis van de onderzoeksgegevens wordt gezocht. Belangrijk bij de interpretatie van de data is de power, dit is de kans om de nulhypothese terecht te verwerpen. De power is afhankelijk van drie factoren: 1. Het significantieniveau (hoe kleiner, hoe lager de power), 2. De steekproefgrootte, 3. De effect size. Er zijn twee verschillende poweranalyses: a priori en post hoc. A priori schatting gebeurt tijdens de planning en design van een onderzoek. Post hoc schatting vindt plaats in het kader van de interpretatie van de data.
Het meest gangbare medium om onderzoeksresultaten te communiceren is het wetenschappelijke artikel. De Publication Manual of the American Psychological Association (APA) is een handleiding en geeft richtlijnen voor het gehele schrijfproces. Een aantal richtlijnen voor ethische/juridische kwesties zijn: 1. Verzekering van de nauwkeurigheid van de wetenschappelijke kennis, 2. De bescherming van de rechten en het welzijn van deelnemers aan het onderzoek, 3. Aandacht voor conflicts of interest, waarbij de onderzoeker een belang zou hebben bij bepaalde uitkomsten: alle informatie moet worden opgenomen in het artikel, 4. De bescherming van intellectuele eigendomsrechten.
Rapportages van effectonderzoek kunnen ondergebracht worden bij wat door de APA empirische studies worden genoemd. De onderdelen van deze rapportages weerspiegelen alle stadia van het onderzoeksproces: 1. Introductie: beschrijving van onderzoeksobject, doel en nut onderzoek, onderzoekshypothesen. 2. Methode: omschrijving van de doelpopulatie en de onderzoeksprocedure. 3. Resultaten. 4. Discussie: samenvatting, interpretatie, evaluatie en implicaties van de resultaten. Bij de interpretatie van de resultaten moet rekening gehouden worden met: a) bronnen van potentiële bias en andere bedreigingen van de interne validiteit, b) de onnauwkeurigheid van de maten, c) het totale aantal tests of overlap aan tests, d) de effect sizes die zijn geobserveerd en e) andere grenzen en/of zwakheden van het onderzoek. 5. Referenties.
De vormgeving van onderzoek zal altijd een compromis zijn tussen de methodologische eisen en de beperkingen die de praktijk aan de eisen oplegt. In dit hoofdstuk komen alle problemen aan de orde die onderzoekers tegen kunnen komen tijdens het doen van onderzoek.
Het is belangrijk om een theorie voorhanden te hebben, anders kunnen er uitspraken volgen die niet helemaal houdbaar zijn, of uitspraken die onjuist zijn. Er is dus een grote behoefte aan een conceptueel raamwerk.
Verder is het belangrijk dat een theorie voldoende geëxpliciteerd worden. Verder is aangegeven dat effectonderzoek, uitgevoerd vanuit een theoretisch perspectief, waarin de interventie en de afhankelijke variabelen logisch en theoretisch met elkaar in verband staan, een uitzondering was.
De complexiteit in de sociale wetenschappen is niet makkelijk in een theoretisch kader te vatten. Het is belangrijk niet te veel of op een verkeerde manier te reduceren van de werkelijkheid in een theoretisch model.
Tegenwoordig zijn er steeds meer theoretische raamwerken. Het is echter vaak nog onduidelijk waarom problematieken zich ontwikkelen. Dit heeft te maken met de spanning tussen enerzijds de beschrijving van de samenhang of associatie en anderzijds de interpretatie als oorzakelijke verklaring. Dit kan maatschappelijke consequenties hebben, als een maatschappij bijvoorbeeld veel geld uitgeeft om een risicofactor te bestrijden en als daarna blijkt dat de risicofactor niet de oorzaak was.
Nu de problematische ontwikkeling redelijk in kaart is gebracht is het volgens Oribio de Castro van belang de oorzakelijke mechanismen achter de problematische ontwikkeling te onderzoeken, met behulp van experimenteel en longitudinaal ontwikkelingspsychopathologisch onderzoek. Dit is noodzakelijk voor een goede behandeling.
Het bepalen van subpopulaties is een taak van de effectonderzoeker, al is dit geen makkelijke taak. Want hoe definieer je een subcategorie het beste. In het verleden werd er gebruik gemaakt van een classificatiesysteem, al worden er nu vraagtekens gezet of dat het in kaart brengen van de kenmerken van groepen daadwerkelijk dekt. Stein en Jessop suggereren dat er gekeken kan worden naar de oplopende ernst van bijvoorbeeld ziekten of beperkingen. Daarnaast wordt er vaak gebruik gemaakt van demografische kenmerken.
Waar het gaat om preventie is het niet altijd makkelijk concrete doelen te stellen. Bij preventieprogramma’s is het niet per se noodzakelijk om een positief resultaat te boeken. Een negatieve predictie ongedaan maken is soms al genoeg. Bij kinderen is dit extra lastig omdat ze nog in de ontwikkeling zijn. Het is vanuit een transactionele invalshoek bekeken misschien wel onmogelijk om de ontwikkeling te voorspellen. Het gaat bij opvoedingsproblemen om multipele oorzaken in plaats van een enkele aanwijsbare oorzaak.
Ontwikkeling van een kind wordt gezien als een product van de continue dynamische interacties van het kind en de ervaringen die geboden worden door zijn of haar gezins- en sociale context. Voorspelling van een bepaalde ontwikkelingsuitkomst is dan een zeer complexe onderneming. Het gevaar van oversimplificatie via een theoretisch model speelt.
Bosma en Hosman wijzen erop dat het ontbreken van een theoretisch kader problematisch is. De reden die zij hiervoor hebben is dat het ontbreken van een theoretisch kader betekent dat het uiteindelijke preventieve doel en de invloed die verwacht wordt ontbreekt. Als dat ontbreekt is het moeilijk om vast te stellen als het uiteindelijke doel bereikt is.
Naast de beschreven problemen is het soms ook niet duidelijk wat onder het woord preventie verstaan wordt. En het plaatsen van preventieve doelen binnen de onderverdeling primaire, secundaire en tertiaire preventie is moeilijk. Naast deze verdeling zijn er ook nog andere verdelingen te bedenken. De veelheid van operationalisatie en onderverdelingen van preventie maakt het er niet makkelijker op.
Bosma en Hosman beschrijven het complexe proces van definiëren van preventie doelen als volgt; “in het complexe krachtenveld van de sociale systemen (persoon, directe omgeving, organisaties, overheid, en dergelijke), waarin zich zowel risico- als protectieve factoren bevinden moet een preventiemedewerker ergens zijn ingangen kiezen voor beïnvloeding teneinde een proces op gang te brengen dat tot een betere psychische gezondheid leidt, dus tot een preventief einddoel.’
In veel effectonderzoek wordt de methode en/of de implementatie niet goed omschreven. Er is een dringende behoefte aan een beschrijving van de methode, een eenheid van terminologie en een uitbreiding van de theoretische uitgangspunten. En dit bij voorkeur vanuit een orthopedagogische theorie.
Volgens de definitie van effectiviteit gaat het zelden slecht om één component. Daarom zou het effect eigenlijk onderzocht moeten worden op de verschillende componenten van de opvoedingssituatie (ouder, kind en omgeving) én de transactie daartussen. Een eenzijdige gerichtheid op kinduitkomsten wordt afgewezen.
Uit bovenstaande blijkt dat een brede oriëntatie nodig is. Interventies moeten niet te specifiek zijn, en daarmee mogen de criteria ook niet te specifiek zijn. Er dienen bijvoorbeeld ook andere domeinen van ontwikkeling betrokken te worden in het onderzoek.
De noodzaak om diverse variabelen in het onderzoek te betrekken betreft alle gedragswetenschappen en brengt een aantal problemen met zich mee. Een van die problemen is een tekort aan gestandaardiseerde meetinstrumenten. Maar ook extra investeringen is een probleem.
Bij het kiezen van de criteria stuit men ook op het probleem van de gebrekkige theoretische basis. Ontwikkelingspsychologie richt zich teveel op specifieke aspecten van de ontwikkeling, en te weinig op het gehele kind. Dat heeft tot gevolg dat er te weinig variabelen in het effectonderzoek betrokken worden.
Naast de opname van veel verschillende relevante variabelen dient het onderzoek ook aandacht te besteden aan onvoorziene gevolgen, intermediaire factoren en storende factoren (ook wel hidden third factors). Het is echter moeilijk om de onvoorziene factoren meetbaar te maken. Soms is er eenzijdige aandacht voor de beoogde hoofdeffecten van een interventie, waarbij voorbij wordt gegaan aan allerlei niet bedoelde gerealiseerde neveneffecten.
Verschillende stakeholders (belanghebbenden van het onderzoek) kunnen verschillende ideeën hebben over de uitkomst van een onderzoek. Het kan dan veel tijd en geld kosten om een consensus te bereiken ten aanzien van de criteria.
Het is moeilijk om de praktijk objectief te beoordelen. Er is geen objectieve maat voor zingeving. Wetenschap is niet onpartijdig en belangeloos, kennis is altijd onzeker en onderzoekers zijn het onderling vaak oneens over de definitie van problemen, theoretische kaders en empirische bevindingen.
Doelen die gesteld worden moeten moreel verdedigbaar zijn en ze moeten passend zijn. Onderzoekers zijn vaak gestuurd door hun theoretische oriëntatie, en ze zijn dus zelf niet objectief. Verder spelen beliefs van de onderzoekers een rol.
Het is goed als onderzoeker bewust te zijn van normativiteit, keuzes expliciteren en beargumenteren en niet méér feitelijkheid of wetenschappelijke zekerheid suggereren dan zij ten overstaan van zichzelf en de betrokkenen kunnen verantwoorden.
Het is moeilijk om betrouwbare en valide meetinstrumenten te vinden, en daarom moet men vaak genoegen nemen met minder perfecte meetinstrumenten. In de orthopedagogiek gaat het met name om instrumenten die niet gericht zijn op de cognitieve vooruitgang, zoals meetinstrumenten voor de sociaal-emotionele ontwikkeling, de interactie tussen ouder en kind, gezinsfunctioneren en sociale ondersteuning. Langzaamaan beginnen de instrumenten voor deze domeinen zich uit te breiden.
Er bestaat ook een behoefte aan meetinstrumenten voor specifieke groepen. Dit ontbreekt tegenwoordig vaak. Op sommige gebieden is dit al wel op gang gezet, maar onderzoek moet nog uitwijzen als dit effectief is.
In het tekort aan geschikt instrumentarium schuilt het gevaar dat de keuze van de effectcriteria meer bepaald wordt door de beschikbaarheid van een standaardmeetinstrument dan door theoretische overwegingen. Een oplossing voor het tekort aan meetinstrumenten wordt wel gezocht in het ontwikkelen van nieuwe, specifieke meetinstrumenten. Een nadeel van specifieke meetinstrumenten is dat het moeilijk is deze te vergelijken met andere meetinstrumenten.
Instrumenten zijn niet altijd geschikt voor de doelgroep van effectonderzoek. Vooral in de orthopedagogiek is het moeilijk om te vergelijken met standaardnormen. Deze tests zijn dus vaak niet bruikbaar en niet representatief voor de doelgroep. De ontwikkelingsleeftijd die uit de test komt is vaak niet in overeenstemming met de kalenderleeftijd. Daarom is het wenselijk dat er specifieke tests ontwikkeld worden.
Observatie geeft in vergelijking met vragenlijsten veel en betrouwbare informatie over gedrag. Nadelen van observatie zijn dat de meetomstandigheden uiteen lopen, de betrouwbaarheid in natuurlijke situaties lager is dan in testsituaties, de resultaten lastig te kwantificeren zijn en de kosten hoog zijn. In de praktijk is observatie vaak niet haalbaar, men moet dan genoegen nemen met de registratie van zelfrapportage-instrumenten. Denk hierbij aan vragenlijsten.
Nadelen van zelfrapportage is dat ze sociaal wenselijk ingevuld kunnen worden, ze beïnvloed worden door taalkundige vaardigheid en ze suggesties van de interviewer kunnen overnemen. Verder zal de validiteit niet hoog zijn.
Bij het kiezen van een meetinstrument moet de belasting van de participanten ook in acht worden genomen. Bij zelfrapportage is gebleken dat het werkelijke gedrag vaak niet overeenkomt met het beschreven gedrag. Toch kiest men voor zelfrapportage omdat op die manier dingen boven tafel komen die dat anders niet waren gekomen en het is een relatief goedkope manier.
Het gebruik van interviews kent ook nadelen, het kost veel tijd en energie. Verder is de bruikbaarheid soms laag. Verder is het moeilijk om de uitwerking te maken, gebruikte methoden zijn niet altijd geschikt en zijn soms lastig.
De beoordelingscriteria van de COTAN zijn o.a. uitgangspunten van de testconstructie, de kwaliteit van het testmateriaal, de kwaliteit van de handleiding, normen, betrouwbaarheid, begripsvaliditeit, criteriumvaliditeit en fairness (onpartijdigheid) van de test. Tijdens de beoordeling van de betrouwbaarheid van een test moet er worden gelet op de bijkomstigheid van andere maten dan enkel betrouwbaarheid en op de hoeveelheid metingen verkregen door de betrouwbaarheidsmaten.
Met sociale wenselijkheid wordt de neiging van de participant bedoeld om de vragenlijst op een sociaal geaccepteerde manier in te vullen. Het wordt in de wetenschappelijke literatuur gezien als een fenomeen dat vertekende resultaten oplevert. Crown en Marlow zien het fenomeen als een persoonlijkheidseigenschap.
Uit onderzoek is gebleken dat deelnemers van een onderzoek de neiging hebben om een positieve mening te vormen tegenover het effect van de interventie, ook als daar geen sprake van is. Men kan dus niet altijd afgaan op de beoordelingen van de doelgroep ten aanzien van de interventie. Er is dan ook een discussie gaande over het nut van het wel of niet onderzoeken van de variabele tevredenheid.
Veel onderzoeken eindigen in de conclusie dat het noodzakelijk is dat verder onderzoek, met een beter toegesneden design, nodig is om duidelijkheid te verschaffen omtrent de uitkomsten. Het streven naar een ideaal design wordt in de onderzoekspraktijk gedwarsboomd door veel en complexe problemen. Er zijn ook maar weinig effectstudies die een zuiver experimenteel design hanteren. Veel voorkomende problemen in effectonderzoek zijn methodologische-praktische problemen en ethische problemen.
Bij een zuiver experiment is het noodzakelijk dat de experimentele groep een representatieve, aselect getrokken steekproef uit de totale doelgroep van het interventieprogramma is. Dit is vaak niet haalbaar. Er wordt vaak gewerkt met gelegenheidssteekproeven in plaats van met kanssteekproeven. Dit zorgt voor ontoereikende steekproeven.
Als de experimentele al problemen oplevert zou er binnen de aselecte steekproef van gezinnen via random toewijzing ook problemen ontstaan. Er is dan bedreiging voor de interne validiteit.
Campbell en Stanley noemen acht factoren die verward kunnen worden met het effect van de experimentele variabele, wanneer zij in het experimentele design niet beheerst zijn. Dat zijn; geschiedenis, rijping, testeffecten, instrumentatie, statische regressie, selectie en uitval. Deze acht factoren spelen een rol wanneer er geen representatieve controlegroep is.
Naast interne validiteit is ook de externe validiteit van belang. Campbell en Stanley noemen vier bedreigende factoren voor de externe validiteit. Dit zijn; reactieve effecten van meten, interactie, reactieve effecten van experimentele condities en multipele-behandeling interventie.
In onderstaande tabel staan de bedreigingen van de interne en externe validiteit van sociaalwetenschappelijk onderzoek volgens Campbell en Stanley.
Interne validiteit; de zekerheid dat veranderingen in de afhankelijke variabelen alleen een functie zijn van de onafhankelijke variabele (de interventie). Dit wordt bedreigd door; | |
Geschiedenis | Tussentijdse externe voorvallen; gebeurtenissen buiten de interventie om die zich voordoen tussen de voor- en nametingen. |
Rijping | Rijping/groeieffecten; invloed van normale ontwikkelingsprocessen en voorbijgaan van tijd op de afhankelijke variabelen. |
Testeffecten | Invloed van eerdere meting op de meting van de afhankelijke variabele. |
Instrumentatie | Veranderingen in de meetprocedures tussen pre- en postinterventiemetingen. |
Statistische regressie | Als groepen geselecteerd zin op basis van extreme scores bij een voormeting, tenderen de scores van de nameting naar het gemiddelde. |
Selectie | Vertekening door verschillende selectie van experimentele groep en controlegroep |
Uitval. | Verschillende uitval tussen vergelijkingsgroep en experimentele groep |
Interactie | Interactie van selectie en rijping en dergelijk |
Externe validiteit; de generalisatiewaarde van de bevindingen. Kan worden bedreigd door; | |
Reactieve effecten van meten | De testprocedure zelf is een stimulus voor verandering in plaats van een passieve registratie van gedrag. |
Interactie. | Interactie van vertekening door selectie en de experimentele variabele. |
Reactieve effecten van experimentele condities | Invloed van participanten aan het experimentele programma. Niet de interventiemethode, maar andere aspecten, zoals aandacht voor de problematiek, zorgen voor verandering bij de participanten. |
Multipele-behandeling interferentie | Invloed van eerdere interventies op de afhankelijke variabele. |
Zelfs wanneer randomisatie mogelijk is kan niet zomaar van pre-experimentele gelijkheid van de groepen uitgegaan worden. Uitval en tevredenheid kan worden bepaald door de indeling. Wanneer het programma veeleisend is kunnen mensen uitvallen. Verder is er nog het gevaar dat alleen de mensen meedoen die daartoe bereid zijn, een groep die daartoe niet bereid is valt dus alsnog af. Verder bestaat er besmetting van de groepen, mensen kunnen elkaar beïnvloeden.
Ethisch is het soms niet goed om mensen in te delen in een controle en een experimentele groep. Er zou dan één groep zijn die wordt onthouden van een mogelijk gunstig effect. Mensen in de groep die geen gunstig effect hebben zouden dan het vertrouwen kunnen verliezen in de hulpverlening. Voor veel interventies is actieve deelname nodig, als mensen gesorteerd worden kan dit minder worden.
Een belangrijk begrip betrokken bij zowel het probleem van de randomisatie als het ethisch aspect is het begrip equipoise (in het Nederlands iets als in balans zijn). Een positie waarbij de participant een neutrale positie inneemt ten opzichte van de verwachte effecten met betrekking tot beide interventies noemt men equipoise. Wanneer de participanten niet in equipoise zijn treedt ondanks random toewijzing toch scheeftrekking op.
Randomisatie kan niet makkelijk geschieden omdat er sprake kan zijn van systematische experimentele uitval, niet-inschikkelijkheid van de participanten en verandering in gedrag als participanten in de gaten krijgen tot welke groep ze behoren. Ook moet een onderzoeker in acht nemen dat een participant hoogstwaarschijnlijk een kwetsbaar persoon is. Er zal dan ook rekening moeten worden gehouden met de belastbaarheid van het onderzoek.
Vaak ontbreekt follow-up onderzoek en wordt er daarom geen antwoord gegeven op de vraag of de gevonden effecten blijvend zijn. Hiermee kunnen effecten die pas later duidelijk worden over het hoofd gezien worden. Een reden waarom follow-up onderzoek niet uitgevoerd wordt is de extra tijd en extra energie van alle betrokkenen. Verder is er vaak ook geen pre-experimentele periode omdat participanten snel hulp willen. Ook is er vaak een publicatiedruk.
Een andere oorzaak van de moeilijkheden bij een longitudinaal design is het feit dat vaak andere uitkomstmaten nodig zijn. Dit zorgt voor grote analytische uitdagingen. Nog een probleem is de veranderlijkheid van het object in een onderzoek, dit geldt zowel voor de interventie als voor participanten.
Er vindt regelmatig selectieve uitval plaats, dit kan door de onderzoekers komen. Dit zorgt voor een minder representatief resultaat, de groep die uitvalt heeft vaak andere kenmerken dan de mensen die mee blijven doen in het onderzoek. Er bestaat ook nog een andere manier van uitval, dit is de non-respons. Dat houdt in dat bepaalde delen van een vragenlijst niet ingevuld zijn. De manier van uitvragen is ook van belang. Op het moment dat mensen de keuze hebben om ‘geen mening’ in te vullen komen er andere resultaten uit dan wanneer mensen gedwongen worden iets te kiezen.
Veel data kan efficiënt worden verwerkt, maar dit gebeurt vaak niet. Er wordt vaak voor de eenvoudige weg gekozen, hierdoor wordt kanskapitalisatie in de hand gewerkt. Dit betekent het verhogen van de kansen op het vinden van statistische verbanden door het opnemen van veel variabelen in het onderzoek.
Er zijn een aantal nadelen aan gefragmenteerd univariaat toetsen. Het leidt bijvoorbeeld tot een grove verhoging van de kans op een type I-fout. Verder negeren univariate toetsen de correlaties tussen variabelen, en die zijn wel degelijk belangrijk. Een laatste probleem is dat er vaak gefocust wordt op totaalscores. De voorkeur gaat uit naar multivariate analyse.
Het meten van verandering is ingewikkeld. Vaak ontbreken adequate methoden om verandering vast te stellen, en als ze er zijn wordt er weinig gebruik van gemaakt.
Aan het gebruik van nulhypothese significantietoetsen kleven ook problemen. Ten eerste is de techniek dichotoom. De p- waarde wordt gekozen door de onderzoeker en is dus arbitrair, verder kan de nulhypothese wel of niet worden verworpen, er is geen tussenweg. Verder komt het bezwaar erbij dat de nulhypothese per definitie altijd onwaar is. Als laatste kritiek wordt gegeven dat een significantietoets niet de gewenste informatie oplevert. De p-waarde geeft de kans dat ten minste zulke extreme uitkomsten als in de steekproef zijn geobserveerd, worden gevonden. Liever zouden we weten wat de kans is dat de nulhypothese waar is.
Er bestaat een groot risico op een lage power, dit komt doordat de steekproeven niet groot genoeg zijn. Negatieve resultaten zijn moeilijk te interpreteren. Zij kunnen het resultaat zijn van een incorrecte theorie en hypothesen, ongeschikte methodologie, inadequate meetprocedures of foutieve data-analyse. Al deze interpretatieproblemen moeten nauwkeurig onderzocht worden voordat de hypothese verworpen wordt.
Ook positieve resultaten zijn niet altijd eenduidig. De uitkomst kan bijvoorbeeld veroorzaakt worden door andere invloeden dan de interventie. Zwakheden in het design kunnen ervoor zorgen dat een eenduidige conclusie niet getrokken kan worden.
Bovenstaande problemen met interpretatie van data worden ook wel bedreigingen voor de statistische validiteit genoemd. Dit heeft te maken met het type gevolgtrekking dat gemaakt kan worden op basis van de statistische toets. Naast een lage power en overtredingen van de assumpties van statistische toetsen zijn onbetrouwbare uitkomstmaten, inconsistenties in uitvoering van de interventie en andere invloeden van de interventie op participanten, bedreigingen voor de statistische validiteit.
Sociaalwetenschappelijk onderzoek leidt aan een zekere angst voor onzekerheid, waardoor in wetenschappelijke publicaties de onzekerheden gemaskeerd worden. De veelgekozen statistische technieken en vragenlijsten geven een overgesimplificeerd beeld van de werkelijkheid. Verder wordt soms data achterwege gehouden, omdat het volgens de onderzoeker niet relevant is. Negatieve resultaten worden bijvoorbeeld weggelaten.
Verder worden alleen positieve effectstudies gepubliceerd, hierdoor krijgen we een verkeerd beeld van de werkelijkheid. Alle artikelen worden gepubliceerd aan de hand van APA regels, dit geeft de betrouwbaarheid weer. Op het moment dat een nieuw onderwerp aan bod komt, waar nog niet veel literatuur over te vinden is, zal er weinig gebruik gemaakt kunnen worden van de APA regels. Dit zou betekenen dat dit artikel minder betrouwbaar is, wat natuurlijk niet het geval is. De publicatiedruk die er voor wetenschappers geldt, zou niet bijdragen aan de kwaliteit van en vernieuwing in de publicaties.
[toc:menu]
Het is niet vanzelfsprekend dat interventies positief zijn. Het kan zo zijn dat er geen eenduidige resultaten zijn over een studie. De ene studie kan een positief resultaat uitwijzen, terwijl een ander geen effect uitwijst en weer een andere studie een negatief effect uitwijst. Er bestaan weinig goed uitgevoerde studies die op een betrouwbare manier uitspraak doen over het effect van vroegtijdige orthopedagogische interventieprogramma’s. Dit geldt ook voor effectonderzoek in de jeugdzorg.
Ook op het gebied van onderwijsonderzoek komt men tot de conclusie dat de effectiviteit vaak onvoldoende wetenschappelijk bewezen is.
Een reden voor het gebrek aan kennis hierover is dat effectonderzoek zeer complex is. Er wordt vaak een situatie gecreëerd die ver van de praktijk afstaat bij effectonderzoek. Het komt ook regelmatig voor dat een interventie onvoldoende beschreven is waardoor het niet mogelijk is te onderzoeken.
Het meten van de effecten van preventie blijkt in de onderzoekspraktijk een moeilijke zaak. Onderzoekers zijn het niet altijd eens over de toe te passen methoden en technieken. Tijdens het onderzoek stuit men vaak op een veelheid van problemen.
Het inzetten van interventies die niet goed zijn geëvalueerd kan risico’s met zich meebrengen. Naast verspilling van tijd en moeite kan het ook voor nadelige in plaats van voordelige effecten zorgen. Het opzetten en verrichten van effectonderzoek is naast wetenschap een kunst. Het vergt kennis en creativiteit.
De term methodologie is voor het eerst aanwezig in de 17e eeuw, met name bij de Discours de la méthode van Descartes. De vraag die hij stelde luidt; ‘Hoe kan een mens uit een veelheid van (wetenschappelijke) opvattingen en theorieën de juiste kiezen?’ Deze vraag is nog steeds centraal.
In de 18e eeuw is methodologie synoniem met logica en dialectiek. In deze discipline worden de regels voor het uitvinden van de waarheid en van haar bewijsvoering nagegaan. Kant werkt aan het einde van de 18e eeuw een transcendentale methodenleer uit. Hij verstaat hieronder een geheel van bepalingen van de formele voorwaarden voor een systeem van de zuivere rede.
In de 19e eeuw wordt de methodenleer weer opgevat in de traditionele 18de eeuwse betekenis van logica. Hagenbach maakte een encyclopedie, deze is bedoeld als topografische kaart. De schakel tussen methodologie en de praktijk worden hiermee uitgedrukt.
Pas halverwege de 20e eeuw ontwikkelt de methodologie zich tot een zelfstandig specialisme. Heymans was de eerste die een boek schreef specifiek gericht op methodologie; ‘Inleiding tot de logica en methodologie’.
In 1961 brengt de Groot zijn magnum opus uit. Hij stelt vast dat er geen scherpe grens te trekken is tussen wetenschappelijk en onwetenschappelijk denken, maar dat er wel regels bestaan die onderzoekers in acht dienen te nemen. De Groot is een gedreven pleitbezorger voor onderzoek, gebaseerd op het kwantificeren van kwalitatieve gegevens. Hij komt hiermee regelmatig in conflict met Langeveld.
Het boek van de Groot en daarmee ook de empirische methodologie wordt niet alleen bekritiseerd door meer normatief georiënteerde pedagogen, maar ook door de empirische georiënteerde psychologen. Dit omdat de kennisleer gemist wordt. De Groot vindt dat kennisleer buitengewoon belangrijk is, maar het kan worden gemist als fundament van de methodologie.
Het woord methodologie is afgeleid van het Griekse meta (na, verder, over), hodos (de weg) en logos (het woord, het geheel van woorden of de leer). Het betekent letterlijk; de leer van de weg waarlangs men tot kennis komt, of de studie van de af te leggen weg. Methodologie is de studie van de wetenschappelijke methoden en technieken.
De ondertitel van het boek is; ‘Methodologische moeilijkheden en mogelijkheden.’ In basis gaat het boek dus over methodologie. Volgens de Groot is methodologie;
´De methodenleer van de empirische wetenschappen is een product van een lange ontwikkeling. door een voortdurend, zich over eeuwen uitrekkend proces van onderlinge uitwisseling – waarin de onderlinge kritiek een belangrijke, productieve rol heeft gespeeld en nog speelt – is het mogelijk geweest normen op te stellen en daarop aansluitende methoden en technieken te ontwikkelen voor het wetenschappelijk onderzoeken en denken… De methodologie omvat niet alleen do’s and don’ts, zij is niet alleen normatief, maar ook descriptief en vergelijkend: bepaalde technieken worden beschreven, met andere vergeleken, in een groter verband gebracht, geëvalueerd, met zekere restricties aanbevolen of afgeraden, enzovoorts. Ditzelfde geldt tot op zekere hoogte ook voor de logica.’
De Groot vergelijkt het wetenschappelijk bedrijf met een schaakspel. De normen van logica en methodologie zijn dan de vastgelegde spelregels. De daarbij aansluitende methoden en technieken vormen tezamen de aanbevolen speelmethoden. Bij dit geheel spelen impliciete normen en gewoonten een rol.
Doel van de wetenschap is het verwerven van kennis. Hierbij wordt niet naar persoonlijke kennis maar naar openbare, expliciete en overdraagbare kennis van de werkelijkheid gestreefd. Een wetenschapper zal niet snel iets als waar aannemen. Wetenschappers zijn gericht op het begrijpen en verklaren. Het uiteindelijke doel is om algemene samenhangen in omvattende, inzichtelijke en logisch samenhangende systemen onder te brengen en te ordenen.
Droysen was de eerste die het onderscheid tussen verklaren en begrijpen introduceerde. Verklaren is in het algemeen het opstellen van wettelijkheden c.q. correlaties. Begrijpen is het duiden van de verschijnselen, het interpreteren van het unieke in de context. Verklaren en begrijpen zijn contextuele benaderingen van de werkelijkheid.
De natuurwetenschappen zijn gericht op verklaren en de gedrags- en maatschappijwetenschappen op begrijpen. Toch is er geen duidelijk onderscheid te maken.
Hermeneutiek is de leer van de interpretatie. Hermeneutiek is typisch begrijpend (Verstehend), hieraan kleeft het gevaar van de invloed van het subjectieve in het interpretatieproces. Jaspers heeft een analyse gemaakt, niet gebaseerd op experimenteel onderzoek maar wel op persoonlijke ervaringen en op grondig doordenken.
Binnen de Verstehende methode is de fenomenologie een veelvoorkomende algemene methode. Volgens deze methode moeten de verschijnselen zelf spreken. Er wordt geen theorie over geformuleerd.
De empirische methodologie volgens A.D. de Groot
De crux van het boek van de Groot is dat de groei van wetenschappelijke kennis plaatsvindt via een kritisch rationeel proces van theorievorming en hypothesetoetsing, aan de hand van empirische gegevens. Hiermee onderscheidt hij zich van andere opvattingen.
Ten tweede ziet de Groot wetenschap als een proces, dat voortschrijdt en waarin zelden onaanvechtbaar definitieve resultaten worden bereikt. Onze kennis neemt steeds toe, en de graad van zekerheid wordt groter. Maar toch blijkt telkens weer dat gedeeltelijk verworpen wordt wat waar leek.
Verder ziet de Groot wetenschap als een systeem van activiteiten. Dit alles mondt uit in een pleidooi voor de toepasbaarheid en noodzakelijkheid van een empirische cyclus. De empirische cyclus is vooral gericht op theoriegericht onderzoek. Voor meer praktijkgericht onderzoek zijn gelijksoortige cycli ontwikkeld. De bekendste is de regulatieve cyclus van Van Strien.
Als grondschema voor een logisch-methodologisch stramien van wetenschappelijk denken en handelen is de empirische cyclus een veelgebruikte fasering van onderzoek in de empirische wetenschap.
In de empirische cyclus van De Groot worden de stappen weergegeven die binnen een empirisch-wetenschappelijke opvatting genomen worden om kennis over de verschijnselen/werkelijkheden te verwerven. De stappen in de empirische cyclus staan hieronder weergegeven, met een uitleg over wat het inhoudt.
Fase 1; Observatie
Aan de hand van observaties worden vermoedens ontwikkeld over een bepaald probleem. Tijdens deze fase geldt de vrijheid van ontwerp. Het geeft ruimte tot ontdekken van nieuwe onderzoeksdomeinen. De onderzoeker heeft door de vrijheid van ontwerp ook vrijheid van begripsvorming. Dit is wel een vrijheid in gebondenheid, er worden wel eisen gesteld aan de begrippen. Anders zou iedere onderzoeker zijn eigen begrippen maken en dan zouden verschillende onderzoeken niet met elkaar te vergelijken zijn. In deze eerste fase start ook het inductieproces.
Een onderzoeker zou maar zelden starten met het verzamelen van materiaal zonder enig gezichtspunt. Hypothesen vloeien vaak voort uit een theorie of uit een raamwerk van theorieën.
In de fase van observatie is er altijd ervaringsmateriaal waarover de onderzoeker beschikt. Vaak is er een interpretatie van het materiaal aanwezig die aanleiding kan geven tot het formuleren van een hypothese. Verklaren en interpreteren heeft altijd betrekking op een welomschreven, gesloten verzameling van verschijnselen. Zowel verklaren als interpreteren heeft het over die gesloten verzameling van verschijnselen, het gaat niet buiten die groep kijken.
Hierin onderscheidt de hypothese zich, een hypothese is een open, veronderstelde, meer algemene wettelijkheid. Een interpretatie moet zich volgens De Groot lenen toto een omvorming tot hypothesen, als dit niet mogelijk is dan is het ook geen interpretatie.
In het proces van hypothesevorming is er naast eigen intuïtie ook behoefte aan systematische procedures. Onder systematische methoden voor hypothesevorming rekent De Groot; systematiek van descriptie (registreren, ordenen, groeperen, classificeren), literatuurstudie, empirische exploratie (oriënterend of explorerend onderzoek) en materiaalexploratie.
Fase 2; Inductie
Inductie wil zeggen dat vanuit het bijzondere naar het algemene wordt geredeneerd. Feiten en ideeën worden via inductie vervat in een theorie, of eventueel in een theoretisch raam. De veronderstelde verbanden tussen de waargenomen verschijnselen worden weergegeven. Op basis van het inductieproces moet duidelijk zijn waar het onderzoek zich op richt, welke eigenschappen van belang zijn en welke relaties of hypothesen tussen eigenschappen worden verondersteld.
De vraag is nu welke logische en methodologische eisen gesteld moeten worden aan de formulering van het resultaat van het inductieproces. Die eisen staan in direct verband met de deductie, de toetsing en de evaluatie. Een duidelijke formulering vooraf is dus belangrijk. De volgende vier principes hebben betrekking op de scherpe formulering vooraf; logische consistentie (een theorie moet als model voor de werkelijkheid vrij zijn van contradicties), economisch principe (een theorie moet zo eenvoudig mogelijk zijn qua vormgeving), toetsbaarheid (een theorie moet tenminste op een aantal punten getoetst kunnen worden), omlijnde empirische referenties (het moet duidelijk zijn op welk gebied de theorie of hypothese betrekking heeft).
De Groot reduceert de vier formuleringseisen tot één, namelijk de eis der toetsbaarheid. In haar brede betekenis omvat de eis van toetsbaarheid ook de eis van logische consistentie, economische eis en de eis van de omlijnde empirische referenties. De onderzoeker heeft een expliciteringplicht. Dit houdt in dat een onderzoeker aan moet kunnen geven op welke wijze de theorie of hypothese kan worden geëxpliciteerd.
Fase 3; Deductie
Deductie wil zeggen van het algemene naar het bijzondere. Eigenschappen worden omgezet in meetbare variabelen en in concrete verbanden of relaties. Verder is deductie het meetbaar maken en het operationeel definiëren van begrippen en het toetsbaar maken van algemene uitspraken door verbijzonderingen in te roepen.
De empirische toetsing van een theorie of hypothese moet geschieden door toetsing van voorspellingen die via deductieve stappen worden verkregen. Dit vraagt om explicitering van die theorie of hypothese. Een algemene theorie wordt uitgewerkt tot een vertakt systeem. Een theorie noemt De Groot een nomologisch netwerk. Er worden in een nomologisch netwerk drie typen uitdrukkingen onderscheiden.
Dit zijn ten eerste theoretische begrippen onderling, ten tweede zijn dit waarneembare variabelen onderlinge en als laatste zijn dit theoretische begrippen en waarneembare variabelen.
De voorspelling is de laatste schakel bij het expliciteren van het nomologisch netwerk van een theorie. De voorspelling legt de schakel tussen een hypothese en tussen de uitkomst van een onderzoek. De methodologische eis die aan een voorspelling wordt gesteld is dat ze strikt verifieerbaar is. Er kunnen drie situaties ontstaan bij strikte verifieerbaarheid van een voorspelling, namelijk; de voorspelling is uitgekomen, de voorspelling is niet uitgekomen of de voorspelling is niet verifieerbaar.
Fase 4; Toetsing
De onderzoeker bakent in deze fase de populatie af, het trekt een steekproef of stelt deze samen, het legt de gang van zaken vast en hij kiest het materiaal.
In het onderzoeksplan wordt de methodologische operationalisering van het toetsingsonderzoek vastgelegd. Een onderzoeksplan bevat; een korte expositie van de theorie, een precieze weergave van de deducties die tot een voorspelling leiden, een beschrijving van de instrumenten, een duidelijke bepaling van de doelgroep, een precieze beschrijving van de wijze waarop men steekproeven wil trekken en een vastlegging van de confirmatiecriteria.
Met behulp van de onderzoeksgegevens wordt nagegaan hoe en in welke de hypothese uit het onderzoeksontwerp wordt ondersteund. Toetsing is dus niet alleen het nagaan of de voorspelling uitkomt, maar ook de toetsing van de hypothese. De computer en de statistiek spelen hierbij vaak een grote rol.
Een belangrijke vraag in de fase van toetsing en evaluatie is hoe de confirmatie van hypothesen en theorieën verloopt. Bij een deterministische hypothese (in de zin van ALLE A’s zijn B) is de hypothese meteen gefalsifieerd als één persoon uit de groep niet voldoet aan B. Bij een deterministische, existentiehypothese (in de zin van er is minstens een A die B is) is het niet mogelijk te falsifiëren. Eén persoon is onvoldoende om de hypothese te bewijzen. Bij een probabilistische hypothese (in de zin van de meeste A’s zijn B, of A heeft 80% kans om B te zijn) is het niet mogelijk te bewijzen, maar is het ook niet mogelijk om te weerleggen.
De Groot sluit zich aan bij Popper, hij stelt dat wetenschappelijk toetsingsonderzoek niet streeft naar het bewijzen van een hypothese of theorie, maar wel naar weerlegging van de hypothese of theorie. Empirisch-wetenschappelijk onderzoek is noodzakelijkerwijs gericht op falsificatie.
Fase 5; Evaluatie
In deze fase vindt een terugkoppeling plaats naar de eerder veronderstelde verbanden. Een evaluatie is tweevoudig; enerzijds is het gericht op feedback, anderzijds is het gericht op feedforward naar potentieel nieuwe, aansluitende onderzoekingen. De enige eis in de evaluatie is de eis van objectief rapporteren.
De regulatieve cyclus van Van Strien
Met de term regulatief verwijst Van Strien naar het nemen van beslissingen, deze cycli is dus meer praktijkgericht. Het planmatig, systematisch handelen in de hulpverleningspraktijk is een belangrijk aandachtsgebied, dit gebied komt in de cyclus van Van Strien aan de orde. De regulatieve cyclus geeft een aantal denkstappen weer, die vertrekken vanuit een theorie die beschrijft hoe mensen in het algemeen probleemoplossend te werk gaan.
Hieronder staan de fasen uit de cyclus beschreven:
Probleemstelling; in deze fase vindt de onderkenning van het probleem plaats, de nagestreefde doelen en de middelen die hiervoor ingezet worden.
Diagnose; de probleemsituatie wordt volledig onderzocht en men gaat op zoek naar oorzaken van het probleem. Het is dus een analyse van de bestaande situatie.
Plan (of ontwerp); mogelijke oplossingen worden besproken. Het plan omvat dus de korte- en langetermijndoelen, de inzet van middelen en methodieken en het formuleren van criteria om te bepalen of het plan effectief is.
Ingreep; het plan wordt ten uitvoer gebracht.
Evaluatie; hier wordt nagegaan of het probleem opgelost of verminderd is.
In tegenstelling tot de empirische cyclus is de regulatieve cyclus gericht op het oplossen van één probleem. Kenmerk van beide cycli is dat ze beiden essentiële aspecten van empirisch onderzoek expliciteren. Ze zijn beiden opgebouwd uit fasen en het gaat bij beiden om een stappenplan. Bij de empirische cyclus gaat het om een stramien van denken en handelen met het oog op het verwerven van wetenschappelijk getoetste kennis over de werkelijkheid. Bij de regulatieve cyclus gaat het om een stramien van denken en handelen met het oog op effectiviteit van de geboden hulp of oplossing voor het probleem.
Soms wordt het verschil tussen beide modellen benadrukt, maar de modellen kunnen beter gezien worden als een aanvulling op elkaar. Een goede onderzoeker zou eerst de stappen van de empirische cyclus doorlopen en zal vervolgens overgaan op de regulatieve cyclus.
De bijdrage van De Groot aan de wetenschapsontwikkeling
Een karakteristieke bijdrage van De Groot is dat empirisch onderzoek niet gericht is op het verifiëren, maar op het falsifiëren van een theorie. De wetenschap is een geheel van uitspraken die de onderzoeker in alle voorlopigheid aanhoudt. De sterkste uitspraken hebben het langst de pogingen tot falsificatie doorstaan.
Een tweede karakteristieke bijdrage is dat er minimaal een theoretisch raam aan de onderzoeksgegevens vooraf dient te gaan. Volgens De Groot is een theoretisch raam onmisbaar om tot hypothesevorming te komen.
Een derde karakteristieke bijdrage van De Groot is het wetenschappelijke forum. Dit forum is een open verzameling van alle ter zake doende deskundigen. Het is een discussie tussen deskundigen over de waarheid van een theorie. Het forum werkt als een paradigmawisseling. Wetenschap verandert niet geleidelijk zoals Popper denkt, maar het verandert sprongsgewijs zoals Kuhn denkt.
De Groot gebruikt één type van empirisch-wetenschappelijk onderzoek, namelijk het toetsingsonderzoek. Het toetsingsonderzoek is volgens De Groot het beste uitgewerkt en het is het meest frequente, maar het is zeker niet het enige type wetenschappelijk onderzoek. Internationaal heeft het toetsingsonderzoek een voorrangspositie opgebouwd.
Naast toetsingsonderzoek zijn er nog een aantal onderzoeken. Ze staan hieronder kort en bondig weergegeven.
Instrumenteel-nomologisch onderzoek; het maken, standaardiseren en valideren van een instrument. Dit type onderzoek wordt vooral gebruikt wanneer het instrumentarium ontbreekt, onvoldoende valide of onvoldoende uitgewerkt is om vorderingen te kunnen maken in de ontwikkeling en toetsing van bruikbare theorieën, hypothesen en/of methoden.
Descriptief onderzoek; het is vooral beschrijvend van aard, het streeft niet naar generalisaties. Het is ook niet hypothesevormend of hypothesetoetsend.
Exploratief onderzoek; is een soort tussenvorm tussen descriptief en toetsingsonderzoek. Er zijn geen scherp gestelde hypothesen vooraf, toetsing is dan ook niet mogelijk op de gebruikelijke wijze.
Interpretatief-theoretisch onderzoek. Er wordt geen nieuw feitenmateriaal verzameld. Het gaat hier om interpretatie en theoretische evaluatie van een gegeven, gesloten verzameling van bevindingen. Het gaat dan bij dit onderzoek niet om toetsing van een algemene hypothese, maar het gaat om een interpretatie van het feitenmateriaal.
Objectiviteit
Het resultaat van handelen is volgens De Groot objectief wanneer het in overeenstemming is met het gestelde studiedoel. Een onderzoeker mag zich niet laten leiden door persoonlijke opvattingen, gevoelens of belangen.
Een tweede definitie van objectief handelen is het streven naar afwezigheid van subjectiviteit als storende factor. Een onderzoeker moet zo objectief mogelijk zijn, toch is dit soms lastig.
Objectiviteitproblemen spelen in alle fasen van de empirisch-wetenschappelijke cyclus een rol, maar bij uitstek in de fase van deductie en toetsing. Deze problemen doen zich voor bij; het empirisch specificeren of instrumenteel maken van begrippen, het selecteren van toetsingsmateriaal, de steekproeftrekking, het observeren, registeren en bewerken van onderzoeksgegevens en bij het regelen van onderzoekscondities. Een definitie is pas volledig operationeel gedefinieerd als het instrument tot in alle details vastligt en alle instructies bevat betreffende de manier waarop het materiaal moet worden verkregen, geregistreerd en verwerkt.
Een instrument is pas objectief te noemen wanneer een testboekje voorhanden is met ondubbelzinnige voorschriften over de toepasbaarheid, over de instructie, over de scoring en over de interpretatie. Het is uit den boze om achteraf resultaten niet mee te laten tellen.
Intersubjectiviteit
Sommige situaties zijn zo complex of ongrijpbaar dat een objectieve maatstaf voor het te definiëren begrip niet of nauwelijks te vinden is. In deze situaties wordt soms een beoordelaar gebruikt als meetinstrument. De onderzoeker moet dan voldoende vertrouwen hebben in de objectiviteit van de beoordelaar.
In een onderzoek waarbij verschillende beoordelaars worden ingeschakeld kan men de mate van intersubjectieve overeenstemming bekijken. De Groot noemt dit het intersubjectiviteitscriterium, deze komt in de plaats van de objectiviteitseis.
In dit hoofdstuk worden de volgende begrippen uitgelegd, en tevens wordt hier wat achtergrondinformatie bij gegeven; gedragswetenschappen, interventie(programma), effectiviteit van interventies, effectonderzoek en effect size.
Gedragswetenschappen
Allereerst moet gekeken worden wat men onder gedrag verstaat. Onder gedrag verstaat men de beleving van de eigen persoon, en ook op de beleving van het gedrag van die persoon. Volgens Linschoten (194) is gedrag: “gedrag is iedere, met enig hulpmiddel observeerbare, en instrumenteel realiseerbare, tijdruimtelijke verandering van of aan enig object”. Dit is echter een heel ruim begrip.
De Groot vindt dit te ruim en definieert daarom de volgende definitie van gedrag: “alle activiteiten van een (menselijk) organisme, die waarneembaar of registreerbaar zijn of tot waarneembare of registreerbare toestandswijzigingen leiden, … “. De definitie van De Groot wordt gebruikt in het boek, dit is namelijk een goed theoretisch raam voor de psychologie, de sociologie, onderwijskunde, pedagogiek en de (kinder)psychiatrie.
Belangrijk bij het begrip is dat de nadruk wordt gelegd op registratie en waarneming, terwijl ook beleving, introspectie en dergelijke onder de definitie kunnen vallen.
Interventie(programma)
Wanneer het woord interventie aan bod komt gaat het in het boek altijd over een interventieprogramma. De term verwijst naar; ‘… een goed gedefinieerd en in de tijd gefaseerd complex van activiteiten ter realisering van een bepaalde eveneens goed omschreven doelen’.
Volgens het NJi is een interventie in de jeugdzorg een aanpak die;
Gericht is op vermindering, de compensatie of het draaglijk maken van een risico of probleem in de ontwikkeling van een jeugdige.
Bestemd voor een doelgroep die wordt gekenmerkt door de aanwezigheid van een of meerder van deze risico’s of problemen.
Geleid wordt door een theoretisch en praktisch weldoordachte, doelgerichte en systematische werkwijze.
Gericht is op de jeugdige zelf, zijn opvoeders en/of de opvoedingsomgeving.
Afgebakend is in de tijd, met een nader omschreven tijdsduur en frequentie.
Naast programma’s op jeugdigen zijn er ook programma’s gericht op volwassenen. De definitie van het boek is daarom iets algemener. Interventieprogramma’s bestaan uit een geheel van hulpverleningsacties, die:
Gekenmerkt worden door goed omschreven doelen, gericht op het oplossen, verminderen of voorkomen van risico’s of problemen bij kinderen en/of volwassenen
Aansluiten bij toepasselijke theorieën of hypothesen.
Goed gedefinieerd zijn wat betreft de inhoud en doelgroep.
In de tijd gefaseerd zijn ter wille van het bereiken van doelen.
Vooraf geplande evaluatiemomenten en evaluatiecriteria bevatten.
Effectiviteit van interventies
Effectonderzoek zou moeten starten met een definitie van effectiviteit. Effectiviteit wil zeggen; de interventie is werkzaam én realiseert het vooropgestelde doel ervan. Dunst et al. (1989) gebruiken een multidimensionale definitie van effectiviteit. Drie impliciete dimensies liggen besloten in deze definitie; afhankelijkheid (mate waarin een functionele relatie bestaat tussen de afhankelijke en onafhankelijke variabele), specificiteit (mate waarin specifieke dimensies van een interventie aan te wijzen zijn) en het (bestaan van) alternatieve verklaringen (mate waarin andere factoren dan de interventie als bronnen van invloed op de afhankelijke variabele optreden).
Definitie van effectiviteit van interventies zoals gegeven in het college;
Programma, training of behandeling: goed gedefinieerd en in de tijd gefaseerd geheel aan activiteiten ter realisering van bepaalde goed omschreven doelen
Verminderen, compenseren of voorkomen van: ontwikkelingsachterstanden, psychosociale problemen of opvoedingsproblemen
Verminderen van de gevolgen van bovenstaande problemen
Bevorderen van gunstige ontwikkeling
Bevorderen van een positief opvoedingsklimaat
Figuur 1 (zie bijlage)
Door die benadering is het mogelijk om verschillende effectstudies te typeren op basis van de mate waarin zij erin slagen aan de eisen te beantwoorden voor het maken van causale gevolgtrekkingen. Er wordt praktisch nooit het hoogste gescoord, dus is een causale gevolgtrekking meer een relatief dan een absoluut concept. In onderstaand figuur wordt de relatie weergegeven tussen de drie dimensies van Dunst et al.
Ook Veerman en Van Yperen (2008) geven met hun indeling van effectiviteit in verschillende niveaus van bewijskracht aan dat het niet om een alles-of-niets zaak gaat. Zij ontwikkelden een effectladder. De begrippen effectiviteit en effectonderzoek worden hierbij gekoppeld. De volgende effectniveaus worden onderscheiden;
Niveau 0; Impliciet; de interventie is nog niet duidelijk omschreven, maar wordt uitgevoerd zoals men dat in gedachten heeft.
Niveau 1; potentieel; goed beschreven interventies, de bewijskracht is vaak descriptief.
Niveau 2; veelbelovend; bezitten theoretische bewijskracht, bevatten een goede programmatheorie. Vanaf dit niveau kan pas gesproken worden van een interventie(programma).
Niveau 3; indicatief of doeltreffend; interventies met voorlopige bewijskracht.
Niveau 4; werkzaam of bewezen effectief; er is causale bewijskracht en de gemeten verbetering is toe te schrijven aan de interventie.
Een bruikbare, algemene definitie van effect zou kunnen zijn; de mate waarin een doel behaald is ten gevolge van de interventie. Bewezen effectief wil zeggen dat de interventie werkzaam is en het vooropgestelde doel ervan wordt gerealiseerd. In termen van Dunst et al. gaat het om een hoog niveau van afhankelijkheid en uitsluiting van alternatieve verklaringen. In termen van Van Yperen en Veerman bevinden we ons op niveau 4.
Termen die nauw samenhangen met effect zijn:
Resultaat; benaming van een onderdeel van een wetenschappelijke rapportage. Dit resultaat kan opgedeeld worden in een lopende beschrijving van de uitkomst van de uitkomst van het onderzoek, een beschrijving van de onderzoeksuitkomsten in statistische termen en een hoeveelheid tabellen en grafieken. Verder kan een resultaat een (zoals van Dale noemt) een wat min of meer doelgerichte handeling, proces, werking wordt opgeleverd. Resultaat is een meer neutrale term dan effect.
Verandering; synoniem voor ontwikkeling.
Doeltreffendheid; is niet gelijk aan effectiviteit. De doelen kunnen na interventie gehaald zijn, maar dat het niet de interventie was die dat resultaat veroorzaakte.
Een andere belangrijke term is kosteneffectiviteit. Hierbij kijkt men naar de kosten van een interventie. Een soortgelijke interventie met lagere kosten is meer kosteneffectief. Vaak wordt er gekeken naar de kosten per deelnemer. De kosten moeten worden afgewogen tegen de baten. Vaak is het zo dat hoe hoger het niveau van precisie, betrouwbaarheid en generalisatie, hoe hoger de kosten.
De kosten van een effectonderzoek bestaan uit benodigde tijd en middelen voor de effectonderzoekers en onderzoeksmedewerkers, maar ook die van beleidsmakers, programmamanagers, ander personeel en de doelgroep van het programma.
Effectonderzoek
Effectonderzoek is het onderzoek naar de vraag of het beoogde effect van interventies is bereikt. Een manier om verschillende soorten onderzoek te benoemen is de onderscheiding tussen onderzoekstypen, er kan onderscheid gemaakt tussen fundamenteel (meer theoretisch) en praktijkgericht onderzoek. Effectonderzoek evalueert oplossingen voor praktijkproblemen en valt dan dus ook onder praktijkgericht onderzoek. Effectonderzoek valt samen met evaluatie in de regulatieve cyclus. In de empirische cyclus van De Groot valt het onder toetsingsonderzoek.
Synoniemen voor effectonderzoek zijn; programma-evaluatie, evaluatieonderzoek, effectevaluatie, productevaluatie en summatieve evaluatie.
Donker (1987) omschrijft programma-evaluatie als volgt; ‘Onderzoek, waarin met gebruikmaking van methoden en technieken uit de sociale wetenschappen een waardeoordeel uitgesproken wordt over het feitelijk functioneren van een programma door het functioneren van een programma te vergelijken met de doelen ervan, met de bedoeling bij te dragen tot betere, meer gefundeerde, rationelere beslissingen over het programma en om daardoor uiteindelijk bij te dragen aan de vormgeving van een optimale zorg- en hulpverlening’. (deze definitie is ook gegeven in het college)
Naast productevaluatie is er ook procesevaluatie. Dit vindt plaats tussen de fasen Ingreep en Evaluatie. Er wordt nagegaan of de interventie is verlopen zoals gepland. Procesevaluatie heeft tot doel het tot stand brengen van veranderingen in de interventie van de betrokken bij het proces. Productevaluatie heeft vaak tot doel de rechtvaardiging van de interventie ten opzichte van de uitvoerders, de doelgroep, de opdrachtgever en de financiers of het maken van een beslissing over stoppen of doorgaan met de interventie.
Product- en procesevaluatie vragen beiden om een andere aanpak. Bij procesevaluatie worden met behulp van kwalitatieve methoden interactieprocessen rondom programma’s bestudeerd. Bij productevaluatie wordt informatie over de input, het proces, en de output verzameld. De voorkeur gaat vaak uit naar kwantitatieve methoden.
Het gebruik van kwantitatieve vs kwalitatieve methoden vindt niet meer zo gescheiden plaats als voorheen. Soms worden beide methoden gebruikt, of worden ze na elkaar gebruikt. Het onderscheid tussen proces- en productevaluatie vindt men dan ook niet meer zo vruchtbaar. Ze zijn immers pas zinvol als ze in combinatie voorkomen. Procesevaluatie is nodig om tot niveau 4 te komen, waarop je van bewezen effectief kunt spreken.
In onderstaand figuur staan de soorten onderzoek, gerangschikt volgens de effectladder van Veerman en Van Yperen.
Figuur 2 (zie bijlage)
Het NJi deelt effectonderzoek in in vijf soorten; niet-experimenteel kwaliteitsonderzoek (kwaliteit van een interventie staat centraal), niet-experimenteel veranderingsonderzoek (kenmerken van participanten voor en na interventie worden gemeten), casestudies N=1 studies (één onderzoeksobject op verschillende momenten), (quasi)-experimenteel onderzoek (interventie wordt vergeleken met een groep waarbij geen interventie plaatsgevonden heeft) en metastudies (samenvatten van eerder gevonden resultaten). De eerste drie genoemde soorten zijn vormen van pre-experimenteel onderzoek.
Effect size
Het toevoegen van effect sizes wordt tegenwoordig gezien als iets goeds, en vaak is het een voorwaarde om met een studie opgenomen te worden in reviews en artikelen.
Effect size wordt in het Nederlands ook wel effectgrootte genoemd, maar de meest gebruikte term is de afkorting ES. Een formele definitie is: effect size is de gestandaardiseerde numerieke index van de grootte van een effect of een relatie; onafhankelijk van de steekproefgrootte. Een ES is dus niet afhankelijk van de grootte van de steekproef. Het rapporteren van een ES verbetert de eigen interpretatie en stelt de lezers in staat tot een betere interpretatie. De meest gebruikte ES is de R-kwadraat. De meeste bekende ES-index is de Cohen’s d. ES en poweranalyse hangen sterk met elkaar samen.
Voordat er wordt gestart met een effectonderzoek, is het handig eerst een aantal vragen te stellen over de noodzaak, bruikbaarheid en haalbaarheid ervan. Newcomer et al. maken gebruik van 3 basisvragen die moeten worden gesteld over elk programma, waarbij effectonderzoek wordt overwogen:
Kunnen de resultaten van de evaluatie beslissingen aangaande het programma beïnvloeden?
Kan de evaluatie op tijd plaatsvinden om bruikbaar te zijn?
Is het programma relevant of zwaar genoeg?
Bij de start van een onderzoek moet (onder andere) rekening gehouden worden met de Centrale Commissie Mensgebonden Onderzoek (CCMO). De CCMO waarborgt de bescherming van participanten als zij betrokken zijn bij medisch-wetenschappelijk onderzoek. Onderzoek met mensen moet een medisch-ethische toets ondergaan, als het valt onder de Wet medisch-wetenschappelijk onderzoek met mensen (WMO). Gedragswetenschappelijk onderzoek behoort hiertoe, als er ten eerste sprake is van een medisch-wetenschappelijk onderzoek en als ten tweede de participanten worden onderworpen aan handelingen of een bepaalde gedragswijze.
Als is ingeschat dat effectonderzoek nut heeft en indien nodig toestemming is verleend door de CCMO, kan gestart worden met de opzet ervan. In dit hoofdstuk wordt de ideale vorm(en) van effectonderzoek in de gedragswetenschappen beschreven.
Algemene richtlijnen bij het inventariseren van begrippen en doelen op basis van het theoretisch raam
Voor het plannen en ontwerpen van effectonderzoek is allereerst een omschrijving van de centrale kenmerken van een interventie nodig. Die omschrijving start met het theoretisch raam, waarop de interventie is gebaseerd. Vervolgens moeten de doelen van de interventie en de interventie zelf omschreven worden.
Theoretische onderbouwing
Een interventie is theoretisch goed onderbouwd als het op basis van theorie en onderzoek aannemelijk is dat de interventie werkzaam kán zijn. De theoretische onderbouwing (ook wel: theoretisch raam) vormt niet alleen de basis voor de interventie zelf, maar ook voor het effectonderzoek ernaar. Het theoretisch raam begint met een analyse van de beschermende en risicofactoren, die aangeeft op welk risico of probleem de interventie is gericht. Daarnaast beschrijft het theoretisch raam ook een visie op de normale ontwikkeling en/of gezondheid. Voorbeeld: je kan pas uitspraken doen over de mogelijkheden tot beïnvloeding van determinanten over hun psychische gezondheid als duidelijk is wat onder psychische gezondheid wordt verstaan. Ook sluit een theoretisch raam aan, of bouwt het voort, op kennis uit bestaand onderzoek. Ten slotte wordt er gekeken voor welke doelgroep de interventie is bedoeld.
Het nauwkeurig formuleren van wetenschappelijke ideeën inzake de interventie komt overeen met De Groots fase van Observatie. Het onderzoek start namelijk met het inventariseren van alle verschijnselen die van belang zijn omdat ze het te onderzoeken fenomeen beïnvloeden.
Het geheel van assumpties over de middelen voor en activiteiten van een programma en hoe deze leiden tot de realisatie van de doelen wordt een programma theorie (program theory) genoemd. Het effectonderzoek, gebaseerd op zo’n programmatheorie wordt aangeduid met theory-driven evaluation oftewel theoriegestuurde evaluatie.
Activiteiten van een interventieprogramma moeten volgens het NJi (Nederlands Jeugdinstituut): duidelijk doelgericht zijn; planmatig verlopen; goed aansluiten bij de motivatie en verwachtingen van de cliënt; en worden uitgevoerd door professionals die goed getraind zijn en een goede ondersteuning krijgen bij de uitvoering van hun werk. Carr voegt hier nog aan toe dat werkzame interventies vaak: multipele leermethoden en –middelen gebruiken; intensief en langdurig zijn; met frequente contacten werken; en in een comfortabele setting (bijvoorbeeld thuis) worden aangeboden.
Bij de inventarisatie van variabelen in het interventieproces onderscheiden Melief et al. drie groepen: cliënt-, therapeut-, en procesvariabelen. Cliëntvariabelen helpen de doelgroep duidelijk te omschrijven en zijn weer onder te verdelen in: variabelen die betrekking hebben op het functioneren van de cliënt, betrekkelijk stabiele persoonskenmerken (geslacht, leeftijd etc.) en omgevingskenmerken. Bosma en Hosman achten het bij effectonderzoek naar programma’s die specifiek gericht zijn op preventie belangrijk om binnen cliëntvariabelen nog een onderscheid te maken tussen de preventieve doelgroep en de intermediaire doelgroep. De preventieve doelgroep is de doelgroep waarop het uiteindelijke preventieve effect beoogd wordt (bijv. kinderen uit een bepaalde risicogroep). De intermediaire doelgroep is een doelgroep via welke men de uiteindelijke effecten bij de preventieve doelgroep wil bereiken (bijv. de opvoeders). De therapeut- en procesvariabelen volgen later.
Bij de keuze van variabelen in evaluatieonderzoek wordt er gewezen op intermediaire factoren. Dit zijn factoren die het beoogde effect van de interventie mediëren. De interventie heeft dan via een andere onafhankelijke variabele invloed op de afhankelijke variabele. Grafisch kan dit als volgt worden weergegeven: A -> B -> C (A: Interventie, B: Intermediaire factor, C: Afhankelijke variabele). Naast intermediaire factoren moet er ook rekening gehouden worden met hidden third factors, oftewel storende factoren. Dit zijn factoren die in plaats van de interventie de afhankelijke variabele beïnvloeden, waardoor men geen relevante conclusies kan trekken over het verband tussen de interventie en de afhankelijke variabele. Dit gaat ten koste van de interne validiteit van het onderzoek. Grafisch ziet dit er als volgt uit: A – > C < – B (A: Interventie, B: Storende factor, C: Afhankelijke variabele)
Van der Meulen en Elzinga-Westerveld zouden graag zien dat er bij de beschrijving van de variabelen in het effectonderzoek meer aandacht besteed wordt aan afstemmingsvariabelen. Een voorbeeld van afstemmingsvariabelen zijn de persoon van de opvoeder en de persoon van de hulpverlener; als het niet klikt tussen opvoeder en hulpverlener, is het lastig positieve invloeden te verwachten. Door rekening te houden met afstemmingsvariabelen kunnen er wellicht uitspraken gedaan worden over de geschiktheid van een bepaalde methode voor een bepaald persoon of gezin.
Beschrijven van (het doel van) de interventie
Als in het theoretisch raam uitgelegd is wat het probleem en de doelgroep zijn waar de interventie zich op richt, welke factoren daarbij een rol spelen en welke theorieën en reeds bestaande kennis wordt aangesloten, komen het doel en de methode van de interventie aan de orde. Orobio de Castro geeft een overzicht van vragen, waarop het effectonderzoek antwoord moet geven, de vijf W’s:
Wat? De inhoud van de interventie, zoals bedoeld en uitgevoerd (de methode en de implementatie).
Werkt het? Welke effecten worden beoogd en hoe zijn deze te operationaliseren en welke mogelijke ongunstige effecten zijn er?
Wanneer? Onder welke omstandigheden treden de effecten op?
Voor Wie? Bij welke participanten (doelgroep) treden de effecten op?
Waarom? Welke oorzakelijke of in stand houdende mechanismen zijn beïnvloed?
Doel
Om doelen te kunnen bereiken is het in eerste instantie belangrijk wat je verstaat onder effect(iviteit). Wordt er met effect alleen beoogde veranderingen bedoeld of eveneens onbedoelde gevolgen van de interventie? En zijn langetermijngevolgen alleen effectief of ook de kortetermijngevolgen? Naast het beschrijven van effectiviteit is het ook belangrijk dat de doelen zo eenduidig mogelijk geformuleerd zijn. Hierbij kan het SMART-principe behulpzaam zijn. De letters van SMART staan voor:
Specifiek: de doelstellingen moeten eenduidig en gedetailleerd zijn;
Meetbaar: onder welke voorwaarden is het doel bereikt;
Acceptabel: de doelstellingen moeten aanvaardbaar zijn voor en relevant gevonden worden door de doelgroep en/of management;
Realistisch: de doelstellingen moeten haalbaar zijn;
Tijdgebonden: wanneer moeten de doelen bereikt zijn?
Doelen van hulpverleningsprogramma’s zijn veelal preventief van aard. Rispens en Van Tuijl spreken van een tweeledig doel van pedagogische preventie. In de eerste plaats gaat het om het voorkomen van het ontstaan van psychosociale problemen bij kinderen en jeugdigen. Het tweede doel van pedagogische preventie is het vergroten van de mogelijkheden van kinderen tot een positieve ontwikkeling.
In de literatuur wordt vaak een onderscheid gemaakt tussen primaire, secundaire en tertiaire preventie. Primaire pedagogische preventie heeft tot doel de incidentie van ontwikkelingsproblematiek bij kinderen en opvoedingsmoeilijkheden bij opvoeders terug te dringen door nieuwe gevallen te voorkomen. Het gaat hierbij om het voorkomen van algemene problemen en/of om het bevorderen van gezondheid. Ze richten zich meestal op grote groepen, bijvoorbeeld de hele populatie of grote risicogroepen. Secundaire pedagogische preventie is erop gericht ernstige problemen in een zo vroeg mogelijk stadium te signaleren en vroegtijdige hulp te bieden of daarnaar te verwijzen. Het doel is om de prevalentie van problemen terug te dringen door zowel de duur van de stoornis te verkorten als de hoeveelheid beperkingen die deze veroorzaakt op het normale functioneren te verkleinen. Tertiaire pedagogische preventie is gericht op het tot een minimum beperken van de nadelige gevolgen van een reeds geconstateerd probleem. Het probleem is al in een vergevorderd stadium en er kan dus eigenlijk gesproken worden van hulpverlening in plaats van preventie.
Bij het beschrijven van de doelen voor effectonderzoek naar programma’s die specifiek gericht zijn op preventie, zijn volgens Lorion en Lounsbury twee belangrijke keuzes aan de orde. De eerste stap is het beschrijven van de content direction, oftewel de aard van het preventieve doel: primair of secundair. Tijdens de tweede stap moet de strategie operationeel gedefinieerd worden. Daarbij is de dimensie intentionality belangrijk: is preventie het a priori-doel (directe einddoel) of is het een nevendoen (indirect doel)?
Methode en implementatie.
De eerste W van Orobio de Castro was Wat? Het beschrijven van de methode (zoals bedoeld) en de implementatie of het verloop (zoals in de praktijk uitgevoerd) is van cruciaal belang om achteraf te kunnen nagaan welke dimensies van de interventie verandering teweegbrachten en onder welke omstandigheden en voor wie de interventie effectief is.
Hier zijn de therapeut- en procesvariabelen van Metlief et al. aan de orde. De therapeutvariabelen worden onderverdeeld in: therapeutische technieken (welke activiteiten?), variabelen die met de persoon van de therapeut te maken hebben (welke eisen worden er gesteld aan de hulpverlener?), kenmerken van de omgeving van de interventie (waar? welke instantie?) en kenmerken van de kwaliteitsbewaking (supervisie). Procesvariabelen zijn bijvoorbeeld: de tijd waarover de interventie zich uitstrekt (wanneer?), de frequentie en duur van de thuisbezoeken of sessies, en dergelijke.
Een onderzoek met een hoge constructvaliditeit heeft a) voldoende specificiteit ten aanzien van de dimensies van de interventie die verandering teweegbrengen en b) expliciete toetsing van de conditionele relaties tussen deze dimensies en andere variabelen die eveneens verandering (kunnen) veroorzaken.
Algemene richtlijnen bij het operationaliseren van variabelen in criteria
In deze fase gaat het erom vanuit het theoretisch raam te komen tot hypothesen en daaruit afgeleide toetsbare voorspellingen. Je kunt dit vergelijken met De Groots fase van deductie. In deze fase worden het doel van het programma en andere te meten variabelen geoperationaliseerd in de vorm van duidelijke criteria of uitkomstmaten. Een criterium is een concept dat zo geformuleerd is, dat het geobserveerd en gemeten kan worden.
Van den Berg en Kouwenhoven waarschuwen in deze fase voor design dump als valkuil. Dit houdt in dat bij gebrek aan een heldere vraagstelling een enorme hoeveelheid data door de onderzoeker wordt verzameld, waarvan vervolgens onduidelijk is of en hoe die geïnterpreteerd moeten worden. Volgens hen wordt dan vaak achteraf gedaan aan HARKing (Hypothesizing After the Results are Known).
Criteriummaten worden afgeleid van een visie over een goede/normale ontwikkeling (bijvoorbeeld kinderlijke ontwikkeling) en een visie op een probleem (bijvoorbeeld pesten) of ongezondheid. Zie kader 4.5 voor voorbeelden van meetcriteria. Een interventieprogramma kan onbedoelde effecten hebben, zowel gewenste als ongewenste. Een voorbeeld in de orthopedagogische interventies is dat het kind afhankelijker wordt van de ouders door de interventie. Voor een evenwichtige evaluatie zullen bedoelde en onbedoelde gevolgen van een programma tegen elkaar afgewogen moeten worden. Er dient van te voren goed nagedacht te zijn over de mogelijke onbedoelde effecten en deze moeten waar mogelijk omgezet worden in criteria, zodat ze in het onderzoek geregistreerd kunnen worden.
De effectiviteit van een interventie wordt sterk bepaald door de daadwerkelijke uitvoering ervan. In een effectonderzoek moeten de dagelijkse activiteiten tijdens het programma nauwkeurig worden beschreven zodat, wanneer effect is bereikt, achteraf duidelijk kan worden hoe dit effect is bereikt en of verschillen in effectiviteit tussen personen en/of gezinnen verklaard kunnen worden door verschillen in de uitvoering van de interventie.
Volgens Clarke-Stewart en Fein kan een interventie falen omdat zij slecht wordt aangeboden, maar ook omdat zij slecht wordt ontvangen door de doelgroep. Daarom moeten hier ook criteria voor gekozen worden. Criteria van de doelgroep maakt het mogelijk om achteraf na te gaan of de doelgroep is bereikt en of er verschillen tussen subgroepen zijn wat betreft het effect van de interventie. Criteria van de interventie zoals aangeboden is een voorwaarde om achteraf na te kunnen gaan of de interventie wel is uitgevoerd zoals gepland.
Een interventie bestaat eigenlijk uit een variëteit aan op individu-, groeps-, ouder- en/of kindniveau uitgevoerde deelinterventies die in het algemeen tegelijkertijd aan de doelgroep worden aangeboden.
Subpopulaties
Niet iedere persoon, ieder gezin of ieder kind profiteert op dezelfde wijze en in dezelfde mate van het interventieprogramma. Bij de toetsing van effecten moet daarom ook nagegaan worden of er subpopulaties zijn waar de effecten zwakker of juist sterker zijn. Subpopulaties kunnen zowel op kindkenmerken (geslacht, temperament, leeftijd) als op basis van persoons-, ouder- of gezinskenmerken (intelligentie, SES).
Lorion en Lounsbury geven aan dat een belangrijke eis ten aanzien van het meetproces bij preventieonderzoek criterium-specifiteit is: er moet vooraf een duidelijk en welomschreven operationeel doel worden geformuleerd, waarvan achteraf nagegaan wordt of en in hoeverre ze is bereikt.
Criteriummaten moeten: a) gerelateerd zijn aan de doelen van het programma, b) voortvloeien uit de taken en activiteiten binnen het programma, c) afgestemd zijn op de doelgroep, d) acceptabel zijn voor onderzoeker en medewerker, e) consistent zijn door de verschillende situaties en contexten van het programma heen, f) betrouwbaar zijn, g) valide zijn, h) representatief zijn, i) realistisch zijn.
Algemene richtlijnen bij het opstellen van meetinstrumenten
Een meetinstrument is een hulpmiddel waarmee systematisch gegevens kunnen worden verzameld, geordend en geanalyseerd over een doelgroep of over het professioneel handelen ten opzichte van die doelgroep. In het meten van effect wordt vaak gebruik gemaakt van objectieve meetinstrumenten, zoals vragenlijsten en observatieschalen. Essentieel hierbij is dat de meetinstrumenten valide en betrouwbaar zijn. Het moeten dus geen momentopnames zijn.
Het instrument dat gebruikt wordt moet sensitief genoeg zijn om verandering te meten. Ook moet het aansluiten bij de doelgroep en de interventiedoelen. Daarnaast moet een meetinstrument theoretisch goed onderbouwd en praktisch bruikbaar zijn.
Betrouwbaarheid en validiteit
Betrouwbaarheid is een maat voor de consistentie, stabiliteit en precisie van de testscore. Daarnaast heeft betrouwbaarheid te maken met de hoeveelheid vertekening en meetfouten die de scores opleveren. Verschillende soorten betrouwbaarheid zijn:
Paralleltestbetrouwbaarheid. Gebaseerd op de overeenkomst tussen tests die strikt parallel (vergelijkbaar) zijn.
Betrouwbaarheid op basis van inter-itemrelaties. Gebaseerd op de covarianties tussen de items van de test (de mate waarin de items overeenstemmen).
Test-hertestbetrouwbaarheid. Gebaseerd op de overeenkomst in scores als het instrument op dezelfde manier, door dezelfde persoon en bij dezelfde participanten nogmaals wordt afgenomen.
Interbeoordelaarsbetrouwbaarheid. Gebaseerd op de overeenkomst in scores als het instrument door verschillende personen wordt gehanteerd bij dezelfde participanten.
Validiteit is meten wat je beoogt te meten, het heeft dus betrekking op de vraag of de test aan zijn doel beantwoordt. Verschillende typen validiteit zijn:
Inhoudsvaliditeit: is de steekproef representatief voor het theoretische universum. Dit valt niet te meten en wordt dus beoordeeld door experts.
Criteriumvaliditeit: testscores worden vergeleken met externe variabelen, waarvan aangenomen wordt dat ze dezelfde eigenschappen meten. Een vorm hiervan is predictieve validiteit: in welke mate kan een score dingen voorspellen.
Begripsvaliditeit: geeft de mate aan waarin de test daadwerkelijk het begrip meet. Hierbij gaat het erom dat een cumulatie van aanwijzingen wordt gevonden voor het feit dat de test inderdaad de eigenschap meet die hij verondersteld te meten.
Discriminante validiteit: het vermogen van de test om de verschillende groepen mensen te onderscheiden die onderscheiden moeten worden.
Meetmethoden
Er zijn grofweg drie verschillende hoofdmethoden voor dataverzameling: de test, de observatie en het interview.
Test
Een test is een veelgebruikte methode om zo objectief mogelijk data te verzamelen. Het individu wordt een set van geconstrueerde stimuli gepresenteerd, waarop hij reageert. Door de reacties kan de onderzoeker gevolgtrekkingen maken over de eigenschappen van het individu. Het is vooral een methode om bepaald gedrag vast te stellen. De COTAN is een belangrijke bron bij het vinden van geschikt meetinstrumentarium. De COTAN stelt zichzelf als opdracht het bevorderen van de kwaliteit van tests en testgebruik in Nederland.
Systematische vragenlijsten worden vaak gebruikt in effectonderzoek. Een belangrijke keuze daarbij is wie de lijst invult. Naast zelfrapportage kunnen ook mensen in de omgeving van de participanten ingezet worden. Newcomer en Triplett geven enkele tips bij het identificeren van de informatiebron. Kies respondenten die: a) relevante kennis bezitten met betrekking tot de evaluatievragen, b) bereikbaar zijn, c) representatief zijn voor de populatie waarnaar men wenst te generaliseren, d) verschillende perspectieven ten opzichte van de vragen tonen.
Norm-georiënteerde test: test waarbij een schatting wordt gemaakt van de positie van een getest individu ten opzichte van een vastgestelde populatie. Criterium-georiënteerde test: vertaalt testscores in een uitspraak over het gedrag dat verwacht wordt van iemand met die score of zijn/haar relatie tot een vastgestelde standaard (bv. proefwerk). Ipsatief testen: de testscores worden bij één persoon uitsluitend onderling vergeleken.
Observatie
Er zijn globaal twee manieren van observatie: het bekijken wat mensen doen en zeggen of het vragen naar hun eigen en andermans gedrag. Directe observatiemethoden zijn beter dan zelfrapportage-instrumenten, omdat hierbij onder andere de externe validiteit zekerder is. Kerlinger en Lee beschrijven twee gezichtspunten bij het gebruik van observatiemethoden. De ene is dat observaties van gedrag strikt gecontroleerd moeten worden uitgevoerd om objectief te kunnen zijn. De andere is dat deze strike controle te beperkend en kunstmatig is.
Interview
Kerlinger en Lee geven drie toepassingsgebieden voor interviews: 1. Exploratieve toepassing, gericht op het generen van ideeën en hypothesen; 2. Als het centrale instrument binnen de studie om effecten vast te stellen; 3. Als toevoeging op andere methoden of als follow-up.
Algemene richtlijnen bij het kiezen van het onderzoeksdesign
In het onderzoeksontwerp/steekproefopzet worden de omvang van de steekproef, de keuze van de methode van steekproeftrekking, het aantal en de timing van de meetmomenten en dergelijke bepaald.
Met een zuiver experiment (Randomized Controlled Trial; RCT) zijn causale uitspraken te doen. Ook bezit dit type onderzoek een hoge interne validiteit, dat wil zeggen de mate van zekerheid dat veranderingen in de afhankelijke variabele (effect) alleen een functie zijn van de onafhankelijke variabele (interventie). In een zuiver experiment moet er sprake zijn van a) voor- en nametingen en b) een experimentele groep en een controle groep, met random toewijzing.
In effectonderzoek is longitudinaal onderzoek ook belangrijk. Naast de stabiliteit van de eventuele effecten kunnen zogenaamde sleeper effecten, effecten die na de interventie pas na verloop van tijd optreden, met een longitudinaal design gemeten worden.
Bij het inrichten van een experimentele groep en een controle groep spelen de volgende onderwerpen een rol:
Randomisatie.
Matching: hierbij zorgt men dat beide groepen op een aantal belangrijk geachte aspecten aan elkaar gelijk zijn. Reële matching/precisiecontrole: twee personen zoeken die op belangrijke aspecten gelijk zijn, één persoon gaat dan naar de controlegroep, één persoon naar de experimentele groep. Frequentieverdelingscontrole/globale controle: twee groepen vormen die op een aantal variabelen dezelfde frequentieverdeling hebben.
Blinde toewijzing.
Placebogroep: een groep waarin interventies worden gepleegd die niet direct relevant zijn, om de mogelijkheid van sociale wenselijkheid te controleren.
Grootte van de groepen.
Homogene groepen.
Solomon Four-Group Design.
Figuur 3 (zie bijlage)
Door de vergelijking van O6 met O1 en O3 kan het effect van rijping en geschiedenis nagegaan worden. Rijping: de invloed van normale ontwikkelingsprocessen en het voorbijgaan van tijd op het groepsgemiddelde. Geschiedenis: tussentijdse gebeurtenissen buiten de interventie om, die zich voordoen tussen de voor- en nametingen en een effect kunnen hebben op het groepsgemiddelde. Nadeel: de onderzoeksinvestering in tijd en geld is veel groter dan bij een ander design.
Algemene richtlijnen bij het verzamelen, analyseren en interpreteren van data
Dataverzameling
Tijdens de dataverzameling wordt informatie vergaard ten aanzien van de input (elementen van het programma), het proces (implementatie van het programma) en de output (effecten op participanten). De CCMO biedt richtlijnen voor de bescherming van participanten, zoals:
De proefpersoon moet schriftelijk worden geïnformeerd over het onderzoek;
De proefpersoon moet veelal schriftelijk toestemming geven voor deelname aan het onderzoek;
Er moet in sommige gevallen een verzekering zijn gesloten voor door het onderzoek ontstane schade van de proefpersoon;
De wet stelt eisen aan de verplichte toetsing van het onderzoek;
De wet stelt eisen aan onderzoek met minderjarigen en wilsonbekwame volwassenen.
De eerste twee genoemde punten noemt men wel informed consent.
Data-analyse
De data-analyse moet al tijdens de probleem- en hypotheseformulering gepland worden, zodat de onderzoeker een schatting kan maken in hoeverre zijn data en analyse de onderzoeksvragen zullen kunnen beantwoorden.
Het wordt aanbevolen om, voordat er meer formele statistische technieken toegepast worden, een explorerende data-analyse uit te voeren. Ten eerste kunnen hierdoor fouten in de registratie of verdere verwerking van gegevens opgespoord worden. Ten tweede kan onderzocht worden in hoeverre de data voldoen aan de veronderstellingen van de gewenste statistische methode.
De keuze van een statistische analysetechniek hangt in het algemeen af van de probleemstelling (frequentievraag, verschilvraag of samenhangvraag), de steekproef, het meetniveau van de afhankelijke en onafhankelijke variabelen en van hoeveel participanten er gegevens zijn verzameld (belangrijke grens is 25).
Inductieve statistiek: waar statistische technieken worden ingezet om vast te stellen in welke mate resultaten bij een steekproef kunnen worden gegeneraliseerd naar een populatie. De meest populaire inductieve techniek is de significantietoets.
Variantie-analyse is ook een methode om data te analyseren. De doelstelling van variantie-analyse is het nagaan van het effect van een of meer factoren (de interventie) op de gemiddelde waarden van een afhankelijke variabele (effecten op participanten). De verklarende variabelen zijn nominaal, de afhankelijke variabelen op intervalniveau.
Interpretatie van de data
Na data-analyse volgt de interpretatie van de uitkomsten, oftewel de fase van evaluatie in de empirische cyclus. Er wordt op twee manieren geïnterpreteerd: a) de relaties binnen de studie en de data worden geïnterpreteerd en b) de bredere betekenis van de onderzoeksgegevens wordt gezocht. Belangrijk bij de interpretatie van de data is de power, dit is de kans om de nulhypothese terecht te verwerpen. De power is afhankelijk van drie factoren: 1. Het significantieniveau (hoe kleiner, hoe lager de power), 2. De steekproefgrootte, 3. De effect size. Er zijn twee verschillende poweranalyses: a priori en post hoc. A priori schatting gebeurt tijdens de planning en design van een onderzoek. Post hoc schatting vindt plaats in het kader van de interpretatie van de data.
Algemene richtlijnen bij het rapporteren van het effectonderzoek
Het meest gangbare medium om onderzoeksresultaten te communiceren is het wetenschappelijke artikel. De Publication Manual of the American Psychological Association (APA) is een handleiding en geeft richtlijnen voor het gehele schrijfproces. Een aantal richtlijnen voor ethische/juridische kwesties zijn: 1. Verzekering van de nauwkeurigheid van de wetenschappelijke kennis, 2. De bescherming van de rechten en het welzijn van deelnemers aan het onderzoek, 3. Aandacht voor conflicts of interest, waarbij de onderzoeker een belang zou hebben bij bepaalde uitkomsten: alle informatie moet worden opgenomen in het artikel, 4. De bescherming van intellectuele eigendomsrechten.
Rapportages van effectonderzoek kunnen ondergebracht worden bij wat door de APA empirische studies worden genoemd. De onderdelen van deze rapportages weerspiegelen alle stadia van het onderzoeksproces:
1. Introductie: beschrijving van onderzoeksobject, doel en nut onderzoek, onderzoekshypothesen.
2. Methode: omschrijving van de doelpopulatie en de onderzoeksprocedure.
3. Resultaten.
4. Discussie: samenvatting, interpretatie, evaluatie en implicaties van de resultaten. Bij de interpretatie van de resultaten moet rekening gehouden worden met: a) bronnen van potentiële bias en andere bedreigingen van de interne validiteit, b) de onnauwkeurigheid van de maten, c) het totale aantal tests of overlap aan tests, d) de effect sizes die zijn geobserveerd en e) andere grenzen en/of zwakheden van het onderzoek.
5. Referenties.
De vormgeving van onderzoek zal altijd een compromis zijn tussen de methodologische eisen en de beperkingen die de praktijk aan de eisen oplegt. In dit hoofdstuk komen alle problemen aan de orde die onderzoekers tegen kunnen komen tijdens het doen van onderzoek.
Problemen bij de theoretische onderbouwing
Het is belangrijk om een theorie voorhanden te hebben, anders kunnen er uitspraken volgen die niet helemaal houdbaar zijn, of uitspraken die onjuist zijn. Er is dus een grote behoefte aan een conceptueel raamwerk.
Verder is het belangrijk dat een theorie voldoende geëxpliciteerd worden. Verder is aangegeven dat effectonderzoek, uitgevoerd vanuit een theoretisch perspectief, waarin de interventie en de afhankelijke variabelen logisch en theoretisch met elkaar in verband staan, een uitzondering was.
De complexiteit in de sociale wetenschappen is niet makkelijk in een theoretisch kader te vatten. Het is belangrijk niet te veel of op een verkeerde manier te reduceren van de werkelijkheid in een theoretisch model.
Tegenwoordig zijn er steeds meer theoretische raamwerken. Het is echter vaak nog onduidelijk waarom problematieken zich ontwikkelen. Dit heeft te maken met de spanning tussen enerzijds de beschrijving van de samenhang of associatie en anderzijds de interpretatie als oorzakelijke verklaring. Dit kan maatschappelijke consequenties hebben, als een maatschappij bijvoorbeeld veel geld uitgeeft om een risicofactor te bestrijden en als daarna blijkt dat de risicofactor niet de oorzaak was.
Nu de problematische ontwikkeling redelijk in kaart is gebracht is het volgens Oribio de Castro van belang de oorzakelijke mechanismen achter de problematische ontwikkeling te onderzoeken, met behulp van experimenteel en longitudinaal ontwikkelingspsychopathologisch onderzoek. Dit is noodzakelijk voor een goede behandeling.
Problemen bij het beschrijven van (het doel van) interventie
Waar het gaat om preventie is het niet altijd makkelijk concrete doelen te stellen. Bij preventieprogramma’s is het niet per se noodzakelijk om een positief resultaat te boeken. Een negatieve predictie ongedaan maken is soms al genoeg. Bij kinderen is dit extra lastig omdat ze nog in de ontwikkeling zijn. Het is vanuit een transactionele invalshoek bekeken misschien wel onmogelijk om de ontwikkeling te voorspellen. Het gaat bij opvoedingsproblemen om multipele oorzaken in plaats van een enkele aanwijsbare oorzaak.
Ontwikkeling van een kind wordt gezien als een product van de continue dynamische interacties van het kind en de ervaringen die geboden worden door zijn of haar gezins- en sociale context. Voorspelling van een bepaalde ontwikkelingsuitkomst is dan een zeer complexe onderneming. Het gevaar van oversimplificatie via een theoretisch model speelt.
Bosma en Hosman wijzen erop dat het ontbreken van een theoretisch kader problematisch is. De reden die zij hiervoor hebben is dat het ontbreken van een theoretisch kader betekent dat het uiteindelijke preventieve doel en de invloed die verwacht wordt ontbreekt. Als dat ontbreekt is het moeilijk om vast te stellen als het uiteindelijke doel bereikt is.
Naast de beschreven problemen is het soms ook niet duidelijk wat onder het woord preventie verstaan wordt. En het plaatsen van preventieve doelen binnen de onderverdeling primaire, secundaire en tertiaire preventie is moeilijk. Naast deze verdeling zijn er ook nog andere verdelingen te bedenken. De veelheid van operationalisatie en onderverdelingen van preventie maakt het er niet makkelijker op.
Bosma en Hosman beschrijven het complexe proces van definiëren van preventie doelen als volgt; “in het complexe krachtenveld van de sociale systemen (persoon, directe omgeving, organisaties, overheid, en dergelijke), waarin zich zowel risico- als protectieve factoren bevinden moet een preventiemedewerker ergens zijn ingangen kiezen voor beïnvloeding teneinde een proces op gang te brengen dat tot een betere psychische gezondheid leidt, dus tot een preventief einddoel.’
Het beschrijven van de methode en de implementatie
In veel effectonderzoek wordt de methode en/of de implementatie niet goed omschreven. Er is een dringende behoefte aan een beschrijving van de methode, een eenheid van terminologie en een uitbreiding van de theoretische uitgangspunten. En dit bij voorkeur vanuit een orthopedagogische theorie.
Problemen bij het operationaliseren van variabelen in criteria
Volgens de definitie van effectiviteit gaat het zelden slecht om één component. Daarom zou het effect eigenlijk onderzocht moeten worden op de verschillende componenten van de opvoedingssituatie (ouder, kind en omgeving) én de transactie daartussen. Een eenzijdige gerichtheid op kinduitkomsten wordt afgewezen.
Uit bovenstaande blijkt dat een brede oriëntatie nodig is. Interventies moeten niet te specifiek zijn, en daarmee mogen de criteria ook niet te specifiek zijn. Er dienen bijvoorbeeld ook andere domeinen van ontwikkeling betrokken te worden in het onderzoek.
De noodzaak om diverse variabelen in het onderzoek te betrekken betreft alle gedragswetenschappen en brengt een aantal problemen met zich mee. Een van die problemen is een tekort aan gestandaardiseerde meetinstrumenten. Maar ook extra investeringen is een probleem.
Complexiteit van de criteriummaten
Bij het kiezen van de criteria stuit men ook op het probleem van de gebrekkige theoretische basis. Ontwikkelingspsychologie richt zich teveel op specifieke aspecten van de ontwikkeling, en te weinig op het gehele kind. Dat heeft tot gevolg dat er te weinig variabelen in het effectonderzoek betrokken worden.
Naast de opname van veel verschillende relevante variabelen dient het onderzoek ook aandacht te besteden aan onvoorziene gevolgen, intermediaire factoren en storende factoren (ook wel hidden third factors). Het is echter moeilijk om de onvoorziene factoren meetbaar te maken. Soms is er eenzijdige aandacht voor de beoogde hoofdeffecten van een interventie, waarbij voorbij wordt gegaan aan allerlei niet bedoelde gerealiseerde neveneffecten.
Verschillende stakeholders (belanghebbenden van het onderzoek) kunnen verschillende ideeën hebben over de uitkomst van een onderzoek. Het kan dan veel tijd en geld kosten om een consensus te bereiken ten aanzien van de criteria.
Objectiviteit vs. Subjectiviteit
Het is moeilijk om de praktijk objectief te beoordelen. Er is geen objectieve maat voor zingeving. Wetenschap is niet onpartijdig en belangeloos, kennis is altijd onzeker en onderzoekers zijn het onderling vaak oneens over de definitie van problemen, theoretische kaders en empirische bevindingen.
Doelen die gesteld worden moeten moreel verdedigbaar zijn en ze moeten passend zijn. Onderzoekers zijn vaak gestuurd door hun theoretische oriëntatie, en ze zijn dus zelf niet objectief. Verder spelen beliefs van de onderzoekers een rol.
Het is goed als onderzoeker bewust te zijn van normativiteit, keuzes expliciteren en beargumenteren en niet méér feitelijkheid of wetenschappelijke zekerheid suggereren dan zij ten overstaan van zichzelf en de betrokkenen kunnen verantwoorden.
Instrumentatieproblemen; beschikbaarheid van meetinstrumenten
Het is moeilijk om betrouwbare en valide meetinstrumenten te vinden, en daarom moet men vaak genoegen nemen met minder perfecte meetinstrumenten. In de orthopedagogiek gaat het met name om instrumenten die niet gericht zijn op de cognitieve vooruitgang, zoals meetinstrumenten voor de sociaal-emotionele ontwikkeling, de interactie tussen ouder en kind, gezinsfunctioneren en sociale ondersteuning. Langzaamaan beginnen de instrumenten voor deze domeinen zich uit te breiden.
Er bestaat ook een behoefte aan meetinstrumenten voor specifieke groepen. Dit ontbreekt tegenwoordig vaak. Op sommige gebieden is dit al wel op gang gezet, maar onderzoek moet nog uitwijzen als dit effectief is.
In het tekort aan geschikt instrumentarium schuilt het gevaar dat de keuze van de effectcriteria meer bepaald wordt door de beschikbaarheid van een standaardmeetinstrument dan door theoretische overwegingen. Een oplossing voor het tekort aan meetinstrumenten wordt wel gezocht in het ontwikkelen van nieuwe, specifieke meetinstrumenten. Een nadeel van specifieke meetinstrumenten is dat het moeilijk is deze te vergelijken met andere meetinstrumenten.
Instrumenten zijn niet altijd geschikt voor de doelgroep van effectonderzoek. Vooral in de orthopedagogiek is het moeilijk om te vergelijken met standaardnormen. Deze tests zijn dus vaak niet bruikbaar en niet representatief voor de doelgroep. De ontwikkelingsleeftijd die uit de test komt is vaak niet in overeenstemming met de kalenderleeftijd. Daarom is het wenselijk dat er specifieke tests ontwikkeld worden.
Instrumentatieproblemen; meetmethoden afwegen
Observatie geeft in vergelijking met vragenlijsten veel en betrouwbare informatie over gedrag. Nadelen van observatie zijn dat de meetomstandigheden uiteen lopen, de betrouwbaarheid in natuurlijke situaties lager is dan in testsituaties, de resultaten lastig te kwantificeren zijn en de kosten hoog zijn. In de praktijk is observatie vaak niet haalbaar, men moet dan genoegen nemen met de registratie van zelfrapportage-instrumenten.
Nadelen van zelfrapportage is dat ze sociaal wenselijk ingevuld kunnen worden, ze beïnvloed worden door taalkundige vaardigheid en ze suggesties van de interviewer kunnen overnemen. Verder zal de validiteit niet hoog zijn.
Bij het kiezen van een meetinstrument moet de belasting van de participanten ook in acht worden genomen. Bij zelfrapportage is gebleken dat het werkelijke gedrag vaak niet overeenkomt met het beschreven gedrag. Toch kiest men voor zelfrapportage omdat op die manier dingen boven tafel komen die dat anders niet waren gekomen en het is een relatief goedkope manier.
Het gebruik van interviews kent ook nadelen, het kost veel tijd en energie. Verder is de bruikbaarheid soms laag. Verder is het moeilijk om de uitwerking te maken, gebruikte methoden zijn niet altijd geschikt en zijn soms lastig.
Problemen bij het kiezen van een onderzoeksdesign
Veel onderzoeken eindigen in de conclusie dat het noodzakelijk is dat verder onderzoek, met een beter toegesneden design, nodig is om duidelijkheid te verschaffen omtrent de uitkomsten. Het streven naar een ideaal design wordt in de onderzoekspraktijk gedwarsboomd door veel en complexe problemen. Er zijn ook maar weinig effectstudies die een zuiver experimenteel design hanteren. Veel voorkomende problemen in effectonderzoek zijn methodologische-praktische problemen en ethische problemen.
Methodologische problemen
Bij een zuiver experiment is het noodzakelijk dat de experimentele groep een representatieve, aselect getrokken steekproef uit de totale doelgroep van het interventieprogramma is. Dit is vaak niet haalbaar. Er wordt vaak gewerkt met gelegenheidssteekproeven in plaats van met kanssteekproeven. Dit zorgt voor ontoereikende steekproeven.
Als de experimentele al problemen oplevert zou er binnen de aselecte steekproef van gezinnen via random toewijzing ook problemen ontstaan. Er is dan bedreiging voor de interne validiteit.
Campbell en Stanley noemen acht factoren die verward kunnen worden met het effect van de experimentele variabele, wanneer zij in het experimentele design niet beheerst zijn. Dat zijn; geschiedenis, rijping, testeffecten, instrumentatie, statische regressie, selectie en uitval. Deze acht factoren spelen een rol wanneer er geen representatieve controlegroep is.
Naast interne validiteit is ook de externe validiteit van belang. Campbell en Stanley noemen vier bedreigende factoren voor de externe validiteit. Dit zijn; reactieve effecten van meten, interactie, reactieve effecten van experimentele condities en multipele-behandeling interventie.
In onderstaande tabel staan de bedreigingen van de interne en externe validiteit van sociaalwetenschappelijk onderzoek volgens Campbell en Stanley.
Interne validiteit; de zekerheid dat veranderingen in de afhankelijke variabelen alleen een functie zijn van de onafhankelijke variabele (de interventie). Dit wordt bedreigd door; |
|
Geschiedenis | Tussentijdse externe voorvallen; gebeurtenissen buiten de interventie om die zich voordoen tussen de voor- en nametingen. |
Rijping | Rijping/groeieffecten; invloed van normale ontwikkelingsprocessen en voorbijgaan van tijd op de afhankelijke variabelen. |
Testeffecten | Invloed van eerdere meting op de meting van de afhankelijke variabele. |
Instrumentatie | Veranderingen in de meetprocedures tussen pre- en postinterventiemetingen. |
Statistische regressie | Als groepen geselecteerd zin op basis van extreme scores bij een voormeting, tenderen de scores van de nameting naar het gemiddelde. |
Selectie | Vertekening door verschillende selectie van experimentele groep en controlegroep |
Uitval. | Verschillende uitval tussen vergelijkingsgroep en experimentele groep |
Interactie | Interactie van selectie en rijping en dergelijk |
Externe validiteit; de generalisatiewaarde van de bevindingen. Kan worden bedreigd door; |
|
Reactieve effecten van meten | De testprocedure zelf is een stimulus voor verandering in plaats van een passieve registratie van gedrag. |
Interactie. | Interactie van vertekening door selectie en de experimentele variabele. |
Reactieve effecten van experimentele condities | Invloed van participanten aan het experimentele programma. Niet de interventiemethode, maar andere aspecten, zoals aandacht voor de problematiek, zorgen voor verandering bij de participanten. |
Multipele-behandeling interferentie | Invloed van eerdere interventies op de afhankelijke variabele. |
Zelfs wanneer randomisatie mogelijk is kan niet zomaar van pre-experimentele gelijkheid van de groepen uitgegaan worden. Uitval en tevredenheid kan worden bepaald door de indeling. Wanneer het programma veeleisend is kunnen mensen uitvallen. Verder is er nog het gevaar dat alleen de mensen meedoen die daartoe bereid zijn, een groep die daartoe niet bereid is valt dus alsnog af. Verder bestaat er besmetting van de groepen, mensen kunnen elkaar beïnvloeden.
Ethische problemen bij een experimenteel onderzoek
Ethisch is het soms niet goed om mensen in te delen in een controle en een experimentele groep. Er zou dan één groep zijn die wordt onthouden van een mogelijk gunstig effect. Mensen in de groep die geen gunstig effect hebben zouden dan het vertrouwen kunnen verliezen in de hulpverlening. Voor veel interventies is actieve deelname nodig, als mensen gesorteerd worden kan dit minder worden.
Een belangrijk begrip betrokken bij zowel het probleem van de randomisatie als het ethisch aspect is het begrip equipoise (in het Nederlands iets als in balans zijn). Een positie waarbij de participant een neutrale positie inneemt ten opzichte van de verwachte effecten met betrekking tot beide interventies noemt men equipoise. Wanneer de participanten niet in equipoise zijn treedt ondanks random toewijzing toch scheeftrekking op.
Randomisatie kan niet makkelijk geschieden omdat er sprake kan zijn van systematische experimentele uitval, niet-inschikkelijkheid van de participanten en verandering in gedrag als participanten in de gaten krijgen tot welke groep ze behoren.
Problemen met een longitudinaal design
Vaak ontbreekt follow-up onderzoek en wordt er daarom geen antwoord gegeven op de vraag of de gevonden effecten blijvend zijn. Hiermee kunnen effecten die pas later duidelijk worden over het hoofd gezien worden. Een reden waarom follow-up onderzoek niet uitgevoerd wordt is de extra tijd en extra energie van alle betrokkenen. Verder is er vaak ook geen pre-experimentele periode omdat participanten snel hulp willen. Ook is er vaak een publicatiedruk.
Een andere oorzaak van de moeilijkheden bij een longitudinaal design is het feit dat vaak andere uitkomstmaten nodig zijn. Dit zorgt voor grote analytische uitdagingen. Nog een probleem is de veranderlijkheid van het object in een onderzoek, dit geldt zowel voor de interventie als voor participanten.
Problemen bij de dataverzameling
Er vindt regelmatig selectieve uitval plaats, dit kan door de onderzoekers komen. Dit zorgt voor een minder representatief resultaat, de groep die uitvalt heeft vaak andere kenmerken dan de mensen die mee blijven doen in het onderzoek. Er bestaat ook nog een andere manier van uitval, dit is de non-respons. Dat houdt in dat bepaalde delen van een vragenlijst niet ingevuld zijn. De manier van uitvragen is ook van belang. Op het moment dat mensen de keuze hebben om ‘geen mening’ in te vullen komen er andere resultaten uit dan wanneer mensen gedwongen worden iets te kiezen.
Problemen bij data-analyse
Veel data kan efficiënt worden verwerkt, maar dit gebeurt vaak niet. Er wordt vaak voor de eenvoudige weg gekozen, hierdoor wordt kanskapitalisatie in de hand gewerkt. Dit betekent het verhogen van de kansen op het vinden van statistische verbanden door het opnemen van veel variabelen in het onderzoek.
Er zijn een aantal nadelen aan gefragmenteerd univariaat toetsen. Het leidt bijvoorbeeld tot een grove verhoging van de kans op een type I-fout. Verder negeren univariate toetsen de correlaties tussen variabelen, en die zijn wel degelijk belangrijk. Een laatste probleem is dat er vaak gefocust wordt op totaalscores. De voorkeur gaat uit naar multivariate analyse.
Het meten van verandering is ingewikkeld. Vaak ontbreken adequate methoden om verandering vast te stellen, en als ze er zijn wordt er weinig gebruik van gemaakt.
Aan het gebruik van nulhypothese significantietoetsen kleven ook problemen. Ten eerste is de techniek dichotoom. De p- waarde wordt gekozen door de onderzoeker en is dus arbitrair, verder kan de nulhypothese wel of niet worden verworpen, er is geen tussenweg. Verder komt het bezwaar erbij dat de nulhypothese per definitie altijd onwaar is. Als laatste kritiek wordt gegeven dat een significantietoets niet de gewenste informatie oplevert. De p-waarde geeft de kans dat ten minste zulke extreme uitkomsten als in de steekproef zijn geobserveerd, worden gevonden. Liever zouden we weten wat de kans is dat de nulhypothese waar is.
Problemen bij de interpretatie van de data
Er bestaat een groot risico op een lage power, dit komt doordat de steekproeven niet groot genoeg zijn. Negatieve resultaten zijn moeilijk te interpreteren. Zij kunnen het resultaat zijn van een incorrecte theorie en hypothesen, ongeschikte methodologie, inadequate meetprocedures of foutieve data-analyse. Al deze interpretatieproblemen moeten nauwkeurig onderzocht worden voordat de hypothese verworpen wordt.
Ook positieve resultaten zijn niet altijd eenduidig. De uitkomst kan bijvoorbeeld veroorzaakt worden door andere invloeden dan de interventie. Zwakheden in het design kunnen ervoor zorgen dat een eenduidige conclusie niet getrokken kan worden.
Bovenstaande problemen met interpretatie van data worden ook wel bedreigingen voor de statistische validiteit genoemd. Dit heeft te maken met het type gevolgtrekking dat gemaakt kan worden op basis van de statistische toets. Naast een lage power en overtredingen van de assumpties van statistische toetsen zijn onbetrouwbare uitkomstmaten, inconsistenties in uitvoering van de interventie en andere invloeden van de interventie op participanten, bedreigingen voor de statistische validiteit.
Problemen bij het rapporteren van het effectonderzoek
Sociaalwetenschappelijk onderzoek leidt aan een zekere angst voor onzekerheid, waardoor in wetenschappelijke publicaties de onzekerheden gemaskeerd worden. De veelgekozen statistische technieken en vragenlijsten geven een overgesimplificeerd beeld van de werkelijkheid. Verder wordt soms data achterwege gehouden, omdat het volgens de onderzoeker niet relevant is. Negatieve resultaten worden bijvoorbeeld weggelaten.
Verder worden alleen positieve effectstudies gepubliceerd, hierdoor krijgen we een verkeerd beeld van de werkelijkheid. Alle artikelen worden gepubliceerd aan de hand van APA regels, dit geeft de betrouwbaarheid weer. Op het moment dat een nieuw onderwerp aan bod komt, waar nog niet veel literatuur over te vinden is, zal er weinig gebruik gemaakt kunnen worden van de APA regels. Dit zou betekenen dat dit artikel minder betrouwbaar is, wat natuurlijk niet het geval is. De publicatiedruk die er voor wetenschappers geldt, zou niet bijdragen aan de kwaliteit van en vernieuwing in de publicaties.
Hulpmiddelen bij het inventariseren van variabelen en doelen
Omdat het tegenwoordige onderzoeksparadigma zich baseert op dynamische theorieën van risicofactoren en protectieve factoren en doordat preventieve interventies vaak verscheidene doelen op verschillende termijnen nastreven, blijkt het in de praktijk moeilijk overzicht te behouden over de verschillende variabelen en doelen. De effectonderzoeker kan bijdragen aan het alsnog aanbrengen van de nodige structuur. Daarbij kunnen bruikbare hulpmiddelen van pas komen, zoals een logic model en evaluability assessment.
Logic model
Een logic model is een flowchart (stroomschema) waarin de centrale elementen en assumpties van een interventieprogramma worden samengevat. Het beschrijft hoe het programma zal werken, onder bepaalde condities, om bepaalde geïdentificeerde problemen op te lossen. Zie figuur 6.1 (blz. 165) voor een voorbeeld van een logic model.
Antecedente contextuele factoren: factoren die er vanaf het begin zijn, zoals eigenschappen van de doelgroep, geografische variabelen etc. Mediërende contextuele factoren: factoren die verschijnen wanneer het programma wordt uitgevoerd, zoals personele veranderingen, nieuwe wetten etc.
Een logic model kan een leidraad vormen voor het vaststellen a) of effectonderzoek überhaupt kan worden uitgevoerd, b) en zo ja, welk type effectonderzoek en c) hoe het onderzoek opgezet moet worden. Daarnaast kan een logic model behulpzaam zijn bij een evaluability assessment. Dit is erop gericht om vast te stellen of een programma klaar is om geëvalueerd te kunnen worden.
Doelenhiërarchie
Bij een doelenhiërarchie ligt de focus op het concretiseren van de doelen en de verbanden tussen verschillende doelen van een programma. Het is te zien als een onderdeel van het logic model, passend in de drie rechter blokken van figuur 6.1. Donker en Herweyer spreken van een doelboom waarin aan de voet de middelen worden aangegeven die door pijlen verbonden worden met tussendoelen, die op hun beurt door pijlen verbonden worden met de einddoelen in de top van de doelboom.
Een interventie kan rechtstreeks gericht zijn op de preventieve eindeffecten, maar het kan ook indirect, dat wil zeggen via intermediaire doelen, het preventieve einddoel pogen te bereiken. Het opstellen van een doelenhiërarchie is niet alleen handig voor het verduidelijken welke doelen en relaties tussen doelen in het onderzoek moeten worden getoetst. Het dwingt de onderzoeker ook tot het expliciteren van basisassumpties en het opnemen van theoretische overwegingen in de opzet van het onderzoek. Een essentieel element van een doelenhiërarchie is het aanbrengen van rangorde.
Paradigma voor het onderscheiden van effecten
Er wordt gestart vanuit het paradigma: B = f (A). Hierbij is B de afhankelijke variabele, A de onafhankelijke variabele. Het houdt dus in: veranderingen in het functioneren van de participanten (B) zijn gerelateerd aan en variëren als functie van of worden op een andere manier beïnvloed door de interventie (A).
Een andere variant: B = f (I, S, P, O, X). I = Interventie (kenmerken daarvan), S = Sociale netwerk, P = Participant, O = Overige variabelen die invloed uitoefenen op de participanten, X = variabelen die een bedreiging vormen voor de interne validiteit.
Het paradigma biedt mogelijkheden tot: a) de specificatie van de verschillende variabelen die gedrags- en ontwikkelingsveranderingen veroorzaken, b) de analyse van de mate waarin de interventie interacteert met andere variabelen die invloed uitoefenen, c) controle voor bedreigingen van de validiteit, d) de specificatie van doelen.
Programma-template
Een programma-template is een samenvatting van de centrale kenmerken van een programma in een helder format, voor managers, staf en effectonderzoekers. In tabel 6.1 (blz. 172) staat een beschrijving van algemene programmacomponenten die opgenomen kunnen worden in een template.
Mogelijkheden bij het operationaliseren van doelen: het meten van verandering
De centrale taak bij het operationaliseren van doelen is het meetbaar maken van verandering. Om deze veranderingen in kaart te brengen en te proberen het beoogde effect te isoleren van alle andere invloeden op kind en gezin, zijn verschillende procedures ontwikkeld. Voorbeelden hiervan zijn: norm-georiënteerd testen, Incides of Change, difference scores en Goal Attainment Scaling.
Incides of Change in relatie tot ontwikkeling van kinderen
Deze veranderingsincides worden toegepast om te bepalen in welke mate de ontwikkeling van het kind in de interventieperiode verandert en of er zodoende verbetering optreedt. Ze veronderstellen dat een verandering in ontwikkelingstempo een indicatie is voor interventie-effect. In plaats van een random samengestelde controlegroep fungeert bij deze procedures ieder kind als zijn eigen controle, om zo het effect van de interventie op de ontwikkeling van het kind zichtbaar te maken.
Incides of Change toepasbaar bij volwassenen
De gedachte achter de J-T-index (ook wel: Reliable Change Index van Jacobson en Truax) is dat participanten die een interventie ondergaan met betrekking tot een bepaalde variabele (bijvoorbeeld depressie) een andere gemiddelde score hebben dan de personen in de normale populatie. De bedoeling van de interventie is de participanten van de ene verdeling (de meer klinische) te doen overstappen naar de andere (de meer normale).
Andere mogelijkheden voor het vaststellen van verandering
Verschilscores, deze worden berekend door de pretest-score (voor interventie) af te trekken van de posttest-score (na interventie). Residuele score: het verschil tussen de werkelijke score en de voorspelde score. Kritiek op deze 2 mogelijkheden: ze geven geen informatie over de eigenlijke veranderingen van een individu op specifieke domeinen. Een andere mogelijkheid is de Goal Attainment Scaling (GAS). Deze score geeft aan in welke mate de vooruitgang van een individu op een specifiek doel overeenkomt met het door de hulpverlener voorspelde succes.
Mogelijkheden bij het opstellen van meetinstrumenten
McCune et al. beweren dat de meeste nadelen van tests kunnen worden opgelost door sensitiviteit en voorzichtigheid tijdens de testafname en de interpretatie van de scores.
Testconstructie ad hoc
Ad hoc geconstrueerde instrumenten: een speciaal ontwikkeld instrumentarium voor je onderzoek. Voordeel hiervan is dat de instrumenten beter afgestemd zijn op de doelgroep en op de specifieke doelen van het programma.
Bij zelfrapportagevragenlijsten moet je letten op: a) reduceer het aantal items tot een minimum, b) zorg dat geen enkel item tot zelfbeschuldiging leidt, c) zorg dat geen enkel item rechtstreeks naar disfunctioneren van de participant verwijst, d) zorg dat de vragenlijst op een goede manier gestructureerd is, e) probeer geen gecompliceerde relaties met behulp van de items in kaart te brengen, f) vermijd technisch jargon.
Alternatieve paradigma’s
Alternatieve paradigma’s kunnen gebruikt worden wanneer: de onderzoeker bezorgd is over de representatie van het individu in de normpopulatie; men een construct wil meten waar geen bruikbare instrumenten voor zijn; of wanneer men niet tevreden is over de sensitiviteit van een traditioneel meetinstrument.
Multipele maten en informanten
Een oplossing voor het probleem van vergelijkbaarheid, consistentie en betrouwbaarheid bij observaties is de uitvoering van de observatie in een standaard, semigestructureerde situatie. Observatie in de natuurlijke situatie wordt ook wel rent-produced measures genoemd. Observatie van gedrag is niet altijd mogelijk, hierdoor moet er gebruik worden gemaakt van zelfrapportagemethoden. De betrouwbaarheid van deze zelfrapportage-informatie kan vergroot worden door dezelfde informatie bij verschillende familieleden te vragen.
Mogelijkheden bij het kiezen van het onderzoeksdesign
De methodologisch-praktische en ethische problemen beperken vaak de mogelijkheid van een design met een random samengestelde controlegroep, een zuiver experiment dus. Daarom wordt er vaak uitgeweken naar een quasi-experimenteel ontwerp.
Omgaan met ethische problematiek
Het ethische probleem bij het betrekken van een random samengestelde controlegroep is dat het evenzeer onethisch zou zijn om een programma, waarvan de waarde nog niet empirisch is vastgesteld, toch al aan te bieden. Een geheel andere benadering is dat onderzoekers niet overbodig veel energie moeten verspillen aan de ethische en praktische bezwaren bij de samenstelling van een controlegroep, omdat de algemene waarde van vroegtijdige interventies al is aangetoond. Zij vinden daarom een controlegroep niet onmisbaar.
Vergelijkingsgroepen en nonrandomisatieprocedures
Een manier om het gebrek aan een random samengestelde controlegroep te compenseren is het creëren van vergelijkingsgroepen. Om bias te voorkomen moet de vergelijkingsgroep van tevoren zo goed mogelijk gematcht worden met de experimentele groep. De vergelijkbaarheid of gelijkheid van de groepen op relevante variabelen moet blijken uit een voortest. Bij zo’n voortest moeten niet alleen demografische kenmerken betrokken worden maar ook de invloeden op de participanten. Een nieuwe manier om gelijkheid tussen groepen te bewerkstelligen is de Propensity Score (PS). De PS is de kans om toegewezen te worden aan een bepaalde interventiegroep, gegeven de geobserveerde karakteristieken.
Vergelijking met een andere standaard
Naast het gebruik van een vergelijkingsgroep kun je ook gebruik maken van normatieve data. Een voorbeeld hiervan is het vergelijken van de ontwikkeling van een kind tijdens interventie (experimentele groep) met de gemiddelde, normale ontwikkeling van kinderen (normatieve data). Hiernaast kun je ook nog participanten als hun eigen controle laten fungeren.
Een normgerelateerd veranderingsonderzoek of benchmarkstudie is een onderzoek waarbij kenmerken van cliënten voor en na interventie gemeten worden (veranderingsonderzoek) én de uitkomsten vergeleken worden met een externe norm. Dit soort studies hebben een hoge bewijskracht.
Equipoise
Als er geen sprake is van equipoise (in balans zijn van informatie over de nuttigheid van verschillende interventies), wordt het voordeel van randomisatie ondermijnd. Een oplossing voor dit probleem kan zijn equiphase. Hiermee wordt bedoeld dat het punt van balans geen punt is, maar een zekere zone van ongewisheid. Participanten die geworven worden voor het onderzoek, krijgen uitleg over de randomisatieprocedure door erop te wijzen dat er zekere voordelen zijn om toegewezen te worden aan de experimentele groep, maar dat er ook nut te behalen is bij de vergelijkingsgroep. Een andersoortige oplossing is dat het nadelige effect van sociale contacten tussen groepen teniet kan worden gedaan door het onderzoek uit te voeren, zodanig dat de groepen geografisch ruim uit elkaar liggen.
Quasi-experimentele designs
Bij een quasi-experimenteel design is het cruciaal dat de onderzoeker zich bewust is van welke specifieke variabelen het design niet kan beheersen, dus welke bedreigingen voor de interne validiteit er bij dit specifieke design bestaan, en welke invloed dat heeft op de conclusies die uit het onderzoek getrokken kunnen worden. Verschillende soorten quasi-experimentele designs:
1. Non-Equivalent Control Group Design
Figuur 4 (zie bijlage)
Het gaat bij dit design vaak om intacte groepen. Dit design is vooral vatbaar voor selectie als bedreiging van de interne validiteit. Een manier om vergelijkbare groepen te creëren is te werken met cohorten. Het Cohort Design maakt gebruik van kennis over kenmerken van gezinnen doordat het programma is geïntroduceerd. Bij een groep gezinnen worden bijvoorbeeld voor de interventie veranderingen op de afhankelijke variabelen gemeten. Bij een andere groep worden deze metingen verricht tijden het programma. De veranderingen bij beide groepen worden vervolgens vergeleken. Als de controlegroep een vergelijkingsgroep is, die een andere interventie krijgt aangeboden, spreekt men van Non-Equivalent Group Design. Bij een Swithing-Replication Non-Equivalent Group Design worden bij de groepen na elkaar de interventie aangeboden.
2. (Interrupted) Time-Series Design
Ook wel de enkelvoudige tijdreeks genoemd: voor, eventueel tijdens en na de interventie worden met dezelfde tussentijden steeds dezelfde metingen uitgevoerd. Schematisch:
O1 O2 O3 O4 X O5 O6 O7 O8.
Bij dit design is de controle voor geschiedenis een van de grootste bedreigingen van de interne validiteit. Het is bij dit design dus van groot belang dat eventuele externe gebeurtenissen worden gemonitord. Het design wordt versterkt door een groep op te nemen die de interventie niet krijgt aangeboden, het Multiple Time-Series Design.
3. Non-Equivalent Dependent Variables Design
In dit design is er maar 1 groep. Veranderingen tussen voor- en nameting op een variabele waar het programma op gericht is, worden vergeleken met veranderingen op een variabele waar het programma niet op is gericht. Dit design is zeer zwak wat betreft interne validiteit. Schematisch:
N O1 variabele A + B X O2 variabele A + B
4. Planned Variation Design
Dit design is bruikbaar voor het analyseren van vragen over het verband tussen intensiteit van de hulpverlening en uitkomst. Individuen worden, random of via matching, toegewezen aan verschillende niveaus van het programma en veranderingen tussen voor- en nameting worden vergeleken. Schematisch:
N/R O1 X variant A O2
N/R O3 X variant B O4
N/R O5 X variant C O6
5. Regression-Discontinuity Design
Dit design onderscheidt zich vooral door de manier waarop participanten aan groepen worden toegewezen. Ze maken namelijk gebruik van een cuttoff-score op een bepaalde variabele bij een voormeting.
Omgaan met de beperkingen van quasi-experimentele designs.
Een belangrijk nadeel blijft het feit dat er nog steeds niet zonder meer een uitspraak gedaan kan worden over de mate waarin de gevonden waarnemingen kunnen worden toegeschreven aan de interventie. Tilanus beschrijft dat, wanneer een quasi-experimenteel onderzoek niet te realiseren valt, men gebruik moet maken van de zogenaamde detective-view. Daarbij worden zoveel mogelijk alternatieve verklaringen bedacht en vervolgens wordt getracht deze verklaringen uit te schakelen, waardoor duidelijk wordt welke verklaring de meest waarschijnlijke is.
Wanneer aselectie in een onderzoek niet mogelijk is, moeten onderzoekers zoveel mogelijk meetmomenten plannen, zodat ze gevonden effecten van een programma herhaald kunnen aantonen. Een andere oplossing om met het generalisatieprobleem om te gaan is door de populatie aan de steekproef aan te passen (in plaats van andersom).
Pre-experimentele designs
Van dit design is sprake als er geen enkele of slechts één vergelijkingsbasis is voor het gedrag na toediening van de experimentele stimulus bij de experimentele groep en er geen gebruikt wordt gemaakt van randomisatie. Twee voorbeelden van dit design zijn:
1. N=1 studie
Deze studie wordt ook wel Single Case Design, casestudie of enkelvoudige gevalsstudie genoemd. Het is een opzet waarbij geen groepen en geen controlemogelijkheden worden gehanteerd, maar waarbij de toestand van één onderzoeksobject (individu, kind, opvoeder) op verschillende momenten beschreven wordt. Het wordt vooral gebruikt bij onderzoeken die meer zekerheid willen hebben omtrent het succes van een interventie dan louter toeval. Door de herhaalde metingen bij een participant geeft het ook de gelegenheid om beter te begrijpen waarom de interventie een specifiek verloop heeft.
Problemen bij N=1 studies zijn terug te voeren op twee omstandigheden:
Generalisatievraagstuk: deze is in principe nooit op te lossen omdat je te maken hebt met slechts één participant.
Analyseprocedures die voor groepen voldoende power bezitten, zijn niet erg geschikt voor N=1 studies omdat de kans op een type II-fout (de kans dat de nulhypothese ten onrechte gehandhaafd wordt) erg groot is.
2. One-Group Pretest-Posttest Design
Als de nadruk ligt op het meten van groepseffecten is het beter om dit design te nemen dan een N=1 studie. Dit design bestaat uit één groep en een voor- en nameting. Schematisch: O1 X O2
Een voordeel van pre-experimentele designs is dat de onderzoeker eventueel kan aansluiten bij bestaande ingrepen in de natuurlijke situatie. Nadelen zijn dat er bijna geen beheersing is van allerlei storende factoren en dat de mogelijkheden om uitspraken over causale verbanden te doen zeer gering is. Pre-experimentele designs worden vooral gebruikt in situaties waarin: geen groepsonderzoek mogelijk is; alleen eerste indicaties voor effect gewenst zijn; het gaat om de beschrijving van de interventie; of meer begrip gewenst is van hoe de interventie tot een bepaald effect leidt.
Suggesties bij een longitudinaal design.
Uitval is een belangrijk probleem bij effectonderzoek en in het bijzonder bij longitudinaal onderzoek. Volgens Lazar en Darlington zijn er tenminste vijf vragen die men bij de analyse van uitval moet behandelen:
1. Rate of attrition: hoe groot is het percentage van de initiële groepsgrootte dat aan het eind van de studie over is?
2. Differential rate of attrition: zijn er verschillende attrition rates voor verschillende groepen?
3. Main attrition effect: verschilt de onderzoeksgroep van de uitgevallen groep aangaande relevante variabelen?
4. Differential attrition effects: zijn verschillende soorten participanten selectief vastgehouden in de controle- en experimentele groep?
5. Gelijkheid van de uiteindelijke groepen: verschilden de uiteindelijke groepen wat betreft belangrijke kenmerken bij de voormeting?
Op basis van deze analyse kan ook worden nagegaan of bevindingen gegeneraliseerd kunnen worden naar de populatie. Bovendien kan er ad hoc rekening gehouden worden met deze problemen door bijvoorbeeld de doelpopulatie alsnog aan te passen.
Een aantal suggesties om de uitval zo klein mogelijk te houden: de duur van het onderzoek moet van te voren duidelijk zijn, de onderzoeker moet van te voren bedenken hoe hij zijn contact met de participanten gaat onderhouden (het liefst live), een zo groot mogelijke groep bij het onderzoek betrekken (dus rekening houden met uitval), nauwkeurig en veelvuldig registreren van gegevens omtrent de situatie van participanten (zodat je uitval voor kan zijn), participanten gemotiveerd en geïnteresseerd houden, gebruik maken van incentives (beloning voor het meewerken aan onderzoek), toezeggen aan de participanten dat ze achteraf een rapportage of publicatie van het onderzoek krijgen.
Oplossingen bij de verzameling, analyse en interpretatie van de data
Hier worden een aantal hulpmiddelen besproken, dat ingezet kan worden om de dataverzameling, -analyse en –interpretatie zo goed mogelijk te laten verlopen.
Omgaan met de kwetsbaarheid van de doelgroep
Nieuwe evaluatieonderzoeken werken aan empowerment van participanten door hen te betrekken in het evaluatieproces, inclusief de planning daarvan. Andere manieren om rekening te houden met de kwetsbaarheid van de doelgroep zijn bijvoorbeeld: zorg voor adequate opleiding, training en supervisie van de hulpverleners en dataverzamelaars in de praktijk; schakel geen bedreigende of te veel belastende instrumenten in; en houd zicht op eventuele negatieve gevolgen van de interventie.
Combinatie van kwantitatieve en kwalitatieve methoden
Voor productevaluaties kunnen het beste kwantitatieve methoden gebruikt worden, voor procesevaluaties vooral kwalitatieve methoden. Tegenwoordig kunnen beide methoden in combinatie met elkaar gebruikt worden. Kwantitatieve methoden bezitten meer nauwkeurigheid, betrouwbaarheid en validiteit, maar door middel van kwalitatieve methoden wordt het fenomeen in zijn context en meer als geheel bestudeerd, de betekenissen en interpretaties van de verschillende actoren erbij inbegrepen.
Kwantitatief onderzoek kun je vergelijken met toetsingsonderzoek, kwalitatief onderzoek met interpretatief-theoretisch onderzoek.
Een aantal voordelen van het combineren van kwalitatieve met kwantitatieve methoden (mixed method design) zijn:
1. Verhoogde validiteit en geloofwaardigheid van de gevolgtrekkingen, wanneer de resultaten van verscheidene benaderingen overeenkomen.
2. Meer veelzijdigheid van de bevindingen, doordat er aandacht is voor verschillende gezichtspunten, verschillende dimensies en meer facetten van het programma.
3. Meer diepgaand begrip.
4. Meer bewustzijn van normativiteit en openheid ten aanzien van diversiteit en debat.
Er zijn twee manieren om methoden te combineren in mixed method designs:
1. Een gecoördineerd design, waarin de combinatie van methoden aan het eind van de studie plaatsvindt: de ene groep bevindingen helpt de andere groep te ondersteunen. De bijbehorende data-analysemethode noemt men parallel tracks: elke dataset wordt apart geanalyseerd en tijdens de conclusies worden pas connecties gemaakt.
2. Een geïntegreerd design: de verschillende evaluatiemethoden wisselen elkaar af en interacteren tijdens het gehele onderzoek. Data worden geanalyseerd als cross-over tracks: de tussenresultaten van de ene methode worden volgende de andere verwerkt.
In het traditionele model van effectonderzoek wordt gezocht naar statistische zekerheid en bewijs van effectiviteit. In een nieuwer model worden verschillende niveaus van zekerheid van bewijs geaccepteerd.
Mogelijkheden bij de data-analyse
Het ontwikkelen van een dataplan, voorafgaande aan de dataverzameling, kan de effectonderzoeker helpen te beslissen welke data-elementen nodig en voldoende zijn.
Multivariaat toetsen
Multivariate analyse duidt op een familie analytische methoden waarbij het gaat om het analyseren van k onafhankelijke variabelen en m afhankelijke variabelen. Problemen met univariate toetsen kunnen opgelost worden door multivariate toetsen. Vier voordelen van multivariate toetsen t.o.v. univariate toetsen: 1. De kans op een type I-fout is lager en kan bepaald worden, 2. De correlaties tussen de variabelen worden via de covariantiematrix betrokken in de test, 3. De test heeft meer power in de situatie dat kleine effecten op verschillende variabelen combineren tot een significant effect, 4. Verschillen tussen de groepen in subtestscores worden weergegeven.
Oplossingen voor missing data
Het is cruciaal dat de frequenties of percentages van missing data gerapporteerd worden, samen met elk empirisch bewijs voor de oorzaken ervan. Zo kunnen de data beschreven worden als missing, helemaal at random (wanneer waarden van de missing variabele niet gerelateerd zijn aan de kans dat deze missen); missing at random (wanneer de kans om een waarde te missen op een variabele niet gerelateerd is aan andere wel complete variabelen in de dataset) of niet at random (als de kans om een bepaalde waarde te vinden voor een variabele gerelateerd is aan de missing waarde zelf).
De beste techniek om op een verantwoorde manier een enkel ontbrekend datapunt te schatten, op grond waarvan de respondent niet geheel verloren gaat, is de multiple imputation. Uit een verdeling van mogelijk te imputeren data wordt een drietal aparte imputatiedatapunten getrokken, resulterend in een drietal verschillende datasets. Elke set wordt apart statistisch geanalyseerd en aan het eind worden de resultaten weer tot een geheel geïntegreerd.
Oplossingen voor gebrek aan randomisatie
Analysetechnieken die worden gebruikt als statistisch hulpmiddel voor het beheersen van allerlei storende factoren: multipele regressie-analyse (analyseert de gedeelte en aparte invloeden van twee of meer onafhankelijke variabelen op een afhankelijke variabele), structural equation modeling/pad-analyse (een grafische methode waarmee directe en indirecte invloeden van onafhankelijke variabelen op elkaar en op afhankelijke variabelen worden bestudeerd, of covariantie-analyse (analyse van samen variërende variabelen die zich in een complexe, door de theorie gedicteerde, structuur bevinden).
Bootstrap-procedures
De procedures vormen een wijze van omgaan met (kleine) steekproeven waarbij ervan uitgegaan wordt dat de verdeling van de scores in de steekproef identiek is aan die in de populatie en waarbij er geen aannames worden gemaakt voer de verdeling van de scores in de populatie.
Power verhogen
Drie manieren om de power te verhogen: 1. Een milder significantieniveau aanhouden, 2. Een eenzijdige toets gebruiken, 3. De binnengroepsvariatie verkleinen, waardoor er een gevoeliger design ontstaat. Dit kan door steekproefselectie (alleen 4jarigen i.p.v. 2-6 jarigen; meer homogene participanten variëren vaak minder op de afhankelijke variabele).
Suggesties bij de interpretatie van de data
Oorzakelijkheid en causale analyse
Voor aanwijzingen in de richting van causaliteit zijn ten minste nodig: een goede theorie, afwezigheid van verborgen derde variabelen en de van niet al te specifieke omstandigheden afhangende associatie.
Causale verbanden kunnen proximaal of distaal zijn. Wanneer er sprake is van een indirecte relatie, A veroorzaakt B via C als intermediaire variabele, noemt men het verband distaal. Proximale verbanden zijn die waarin A op een heldere manier B veroorzaakt.
De begrippen ongeconditioneerde en geconditioneerde relaties zijn sterk verbonden met causale analyse. Een ongeconditioneerde relatie is een verband dat in alle gevallen bij de doelgroep geldt; een hoofdeffect dus. Conditionele relaties zijn relaties die alleen gelden voor een aantal van de gevallen (deelpopulaties) en situaties; een interactie-effect.
Indeling van effectstudies volgens Dunst et al
Figuur 5 (zie bijlage)
Evidentie is in sommige studies de maat die de effectiviteit van de interventie aantoont. De verschillende niveaus, van sterke aanwijzing voor effectiviteit tot zwakke, zijn:
Niveau 1: Evidentie die wordt verkregen op grond van een systematisch overzicht van alle relevante gerandomiseerde designs met experimentele en controlegroep (meta-analyse van zuiver experimentele designs)
Niveau 2: Evidentie die wordt verkregen op grond van ten minste een goed gerandomiseerd design met experimentele en controlegroep (zuiver experimenteel)
Niveau 3-1: Evidentie die wordt verkregen op grond van studies met intacte groepen en pseudo-gerandomiseerde groepen (quasi-experimenteel design)
Niveau 3-2: Evidentie die wordt verkregen op grond van studies met intacte, niet-gerandomiseerde experimentele en controlegroepen; of onderbroken tijdreeksstudies met een controlegroep (quasi-experimenteel design)
Niveau 3-3: Evidentie die wordt verkregen op grond van vergelijkende studies met historische controlegroepen; of onderbroken tijdreeksstudies zonder parallelle controlegroep (pre-experimentele design)
Niveau 4: Evidentie die wordt verkregen op grond van casestudies; of posttest- of pretest-postteststudies (pre-experimentele design)
Mogelijkheden bij het rapporteren van het effectonderzoek
Bij de beschrijving van de interventie geeft de APA de volgende suggesties:
Geef details van de interventie;
Geef details over alle groepen;
Vermeld precies hoe de interventies werden uitgevoerd en door wie;
Als vertaalde instrumenten worden gebruikt, neem dan de toevlucht tot een terugvertalingsprocedure (back-translation) om de inhoudelijke kwaliteit van de vertaling te verifiëren;
Vermeld het niveau van de interventie: individueel of groepen en beschrijf de kleinste analyse-eenheid.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
Main summaries home pages:
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
2703 | 1 |
Add new contribution