Study Guide for summaries with Adolescence by Steinberg
Study Guide with summaries and study assistance for:
- Book title: Adolescence
- Author: Steinberg
- Edition: 12th edition
- 2151 reads
Een geprinte samenvatting is beschikbaar om thuis te laten bezorgen via de WorldSupporter Postal Service
Een geprinte samenvatting is beschikbaar om thuis te laten bezorgen via de WorldSupporter Postal Service
Een geprinte samenvatting is beschikbaar om thuis te laten bezorgen via de WorldSupporter Postal Service
Psychologie is gebaseerd op onderzoek en het doen van studies door psychologen. Psychologen kunnen gezien worden als wetenschappers en dus ook als empiristen. Empiristen baseren hun conclusies op systematische observaties. Psychologen baseren hun ideeën over gedrag op studies die ze met dieren op mensen in hun natuurlijke omgeving uit hebben gevoerd of in een omgeving die speciaal voor het onderzoek is gemaakt. Wie als psycholoog wil denken, moet als een onderzoeker denken.
Psychologiestudenten die geïnteresseerd zijn in het afleggen van onderzoek, het afnemen van vragenlijsten, het onderzoeken van dieren, de hersens of andere thema’s uit de psychologie, worden producenten van onderzoek informatie genoemd. Deze studenten zullen wellicht artikelen publiceren en werken als een research wetenschapper of professor. Natuurlijk zijn er ook psychologiestudenten die niet in een laboratorium willen werken, maar die het wel leuk vinden om over onderzoek met dieren en mensen te lezen. Deze studenten worden als consumenten van onderzoek gezien. Zij lezen over onderzoeken en datgene wat ze gelezen hebben, kunnen ze toepassen in het werkveld, hun hobby of vrienden en familie. Deze studenten kunnen therapeuten, studieadviseurs of docenten worden. In de praktijk is het vaak zo dat psychologen beide rollen op zich nemen. Ze zijn zowel producenten als consumenten van onderzoek.
Voor de vakken die je nog gaat krijgen tijdens je studie psychologie, is het belangrijk om te weten hoe je een producent van onderzoek kunt zijn. Zelfs als je niet van plan bent om te gaan promoveren na je studie. Voor het afstuderen moet je natuurlijk een thesis schrijven en jouw thesis zal moeten voldoen aan de APA-normen. De APA-normen gaan vooral over hoe je referenties in je tekst moet noteren. Zo moet je in de tekst naar auteurs en het jaartal van publicatie verwijzen. In je referentielijst moet je de naam van de auteur(s) noteren, gevolgd door het jaartal waarin het artikel uitgegeven is, de titel van het artikel, naam van het tijdschrift, jaargang en tenslotte de pagina’s. Ook moet je volgens de APA-normen als lettertype Times New Roman gebruiken, lettertype 11 of 12, met regelafstand 2,0. Je zult ook een aantal vakken moeten volgen waarbij het doen van onderzoek belangrijk is. Daarvoor is het natuurlijk wel belangrijk om te weten hoe je proefpersonen random kunt toewijzen aan bepaalde condities en hoe je grafieken moet aflezen.
Echter, de meeste psychologiestudenten worden geen onderzoekers. Het is daarom belangrijk om een goede consument van onderzoek te zijn. Je zult dus onderzoeken moeten lezen, het begrijpen, er van leren en goede vragen er over stellen. De meeste informatie die een psycholoog opzoekt op het internet, is gebaseerd op onderzoek. Veel kranten hebben ook rubrieken die wetenschappelijke studies vermelden en tegenwoordig zijn er ook veel tijdschriften die de resultaten van bepaalde studies samenvatten. Het is echter wel zo dat alleen maar een deel van alle onderzoeken accuraat en bruikbaar is. Een groot deel van de onderzoeken is niet accuraat uitgevoerd. Het is belangrijk om te weten hoe je goede van slechte onderzoeken kunt onderscheiden. Kennis over onderzoeksmethoden helpt daarbij. Therapeuten moeten ook gepubliceerde studies goed kunnen interpreteren, zodat ze op de hoogte blijven van nieuwe en effectieve therapiesoorten. Voor therapeuten is het juist belangrijk om zogenaamde evidence-based treatments te volgen. Dat zijn therapieën die ondersteund worden door onderzoek. Als je in staat bent om wetenschappelijke artikelen te vinden, lezen en begrijpen, dan kun je het kaf van het koren scheiden.
Wat doen wetenschappers allemaal? Wetenschappers zijn empiristen en zij observeren de wereld dus systematisch. Daarnaast testen wetenschappers hun theorieën met studies en zij passen hun theorieën aan op de gevonden data. Wetenschappers benaderen toegepast onderzoek (problemen uit het dagelijkse leven) en basic onderzoek (bedoeld om bij te dragen aan de generale kennis) empirisch. Wetenschappers gaan ook steeds verder met onderzoeken. Zodra een wetenschapper een effect heeft gevonden, wil hij/zij vervolgonderzoek doen om er achter te komen waarom, wanneer, en voor wie het effect werkt. Daarnaast maken wetenschappers hun bevindingen bekend in de wetenschappelijke wereld en de media.
Empiristen baseren hun conclusies niet op intuïtie, hun ervaringen of observaties. Empirisme betekent dat bewijs van de zintuigen of instrumenten die zintuigen helpen (vragenlijsten, thermometer of foto’s) gebruikt wordt om conclusies te trekken. Empiristen willen systematisch zijn en ze willen ook dat hun werk onafhankelijk verifieerbaar is door andere wetenschappers en observatoren.
De theorie-data cirkel betekent dat wetenschappers data verzamelen om hun theorieën te testen, veranderen of updaten. Dit zal verder verduidelijkt worden met een voorbeeld uit de attachment psychologie. Wanneer baby’s kunnen kruipen, volgen ze hun moeders heel vaak. Ook baby aapjes blijven zich vaak vastklampen aan de haren van de moeder. Psychologen wilden weten waarom dieren zich zo hechten aan hun verzorgers. Een van de theorieën is de zogenaamde cupboard theorie. Dit houdt in dat moeders belangrijk zijn voor baby dieren, omdat moeders eten geven aan baby’s. De baby’s krijgen eten van hun moeder en ze zullen een prettig gevoel ervaren. Na verloop van tijd zal alleen al het zien van de moeder een baby blij maken. Een alternatieve theorie stelt dat baby dieren zich vaak vastklampen aan hun moeder omdat het hun comfort biedt. Dit heet de comfort contact theorie. Harlow heeft beide theorieën in een lab getest. Hij bouwde twee moeder apen (van gaas). De ene aap was alleen van gaas en had een fles met melk (dus deze aap gaf eten, maar geen comfort), de andere aap werd bedekt met een warm kleedje en gaf dus comfort, maar geen eten. Harlow liet baby aapjes in de kooien met de neppe moeders en hij keek hoeveel tijd ze doorbrachten met de moeders. Uit zijn onderzoek bleek dat de baby apen veel meer tijd doorbrachten met de warme moeder dan met de moeder die eten gaf. Dit suggereert dat de contact comfort theorie de juiste is.
Een theorie bevat beweringen die gaan over de relatie tussen variabelen. Theorieën leiden tot specifieke hypothesen. Een hypothese kan gezien worden als een voorspelling. Het zegt iets over wat de wetenschappers verwachten te observeren, als hun theorie klopt. Een enkele theorie kan veel hypothesen hebben. Data kan gezien worden als een set van observaties. Data kan een theorie ondersteunen of juist tegenspreken.
Sommige theorieën zijn beter dan andere. De beste theorieën worden ondersteund door data, zijn falsifieerbaar en parsimonious (ofwel de meest simpele). Het spreekt voor zich dat goede theorieën gesteund moeten zijn door data. Ook moeten ze falsifieerbaar zijn. Dat betekent dat theorieën tot hypothesen moeten kunnen leiden die, wanneer ze getoetst worden, de theorie niet steunen. Daarnaast moet een theorie zo simpel mogelijk zijn. Als twee theorieën de data even goed uitleggen, maar de ene is simpeler dan de andere, dan moet er voor de simpele gekozen worden. Daarnaast is het belangrijk om te beseffen dat theorieën niks bewijzen. Er kan gezegd worden dat data een theorie ondersteunt of consistent is met een theorie, maar er mag niet gezegd worden dat een bevinding een theorie bewijst.
Toegepast onderzoek wordt gedaan met praktische problemen. Wetenschappers hopen dat hun bevindingen direct toegepast zullen worden om een probleem op te lossen in de echte wereld. Basis
Het gebeurt zelden dat psychologen maar een keer een onderzoek doen en dan stoppen. Meestal is het zo dat elk onderzoek tot nieuwe vragen leidt. Een onderzoek kan een simpel effect vinden, maar de onderzoeker zal vast willen weten waarom dit effect gebeurt, wanneer het gebeurt en wat de grenscondities zijn. Hij/zij zal daartoe een nieuw onderzoek opzetten om deze dingen te testen.
Wetenschappers publiceren hun onderzoek in wetenschappelijke bladen. Deze bladen komen vaak een keer per maand uit, maar het artikel zal pas gepubliceerd worden als het goedgekeurd is door experts. Wanneer je als wetenschapper je artikel opstuurt naar een blad, dan zal de redacteur van dat blad het artikel naar drie of vier experts van dat onderwerp sturen. Deze experts zullen de redacteur vertellen over de goede en slechte kanten van het artikel en de redacteur zal vervolgens beslissen of het artikel gepubliceerd zal worden of niet. Dit proces is rigoureus. De experts blijven anoniem en ze kunnen op die manier ongehinderd hun mening geven. De experts moeten er gewoon voor zorgen dat onderzoek dat goed uitgevoerd is en interessant is, gepubliceerd wordt. Als het artikel gepubliceerd is, dan kunnen andere wetenschappers die foutjes in het artikel hebben ontdekt commentaar opsturen. Ook kunnen wetenschappers het artikel citeren en verder onderzoek naar het onderwerp doen.
Artikelen in wetenschappelijke bladen worden voornamelijk door andere wetenschappers gelezen. De ‘normale bevolking’ leest deze bladen niet. Andere bekende bladen of tijdschriften worden niet geschreven door experts of wetenschappers. Toch bevatten deze laatstgenoemde bladen artikelen over wetenschappelijk onderzoek. Deze artikelen zijn echter wat makkelijker geschreven dan het originele artikel en een stuk korter. Psychologen profiteren er van als hun werk ook in normale bladen gepubliceerd wordt. Het normale publiek kan dan zien wat psychologen echt doen en het normale publiek kan dan ook meer te weten komen over een bepaald onderwerp. Journalisten kiezen echter niet altijd voor het belangrijke verhaal, maar voor het sensationele verhaal. Daarnaast is het zo dat niet alle journalisten het wetenschappelijke artikel accuraat begrijpen. Ze zijn immers niet getraind om wetenschappelijke artikelen te begrijpen. Een voorbeeld hiervan is het artikel dat gepubliceerd werd over de blijheid van mensen in verschillende steden in Engeland. In een wetenschappelijk artikel stond dat mensen in Edinburgh het meest ongelukkig zijn van heel Engeland, maar dat dit geen significante bevinding was. De journalisten die hierover vervolgens een artikel schreven, begrepen niks over significante bevindingen. Er werden dus allemaal artikelen in normale bladen gepubliceerd over de ongelukkige mensen in Edinburgh, terwijl dit gegeven niet eens significant was. De onderzoeker probeerde de journalisten uit te leggen dat het gegeven niet significant was en hoopte dat de journalisten het verhaal recht zouden zetten, maar de journalisten wilden er niks van weten.
onderzoek is er niet op gericht om specifieke, praktische problemen op te lossen. Het is er juist op gericht om onze algemene kennis over bepaalde onderwerpen te vergroten. Een voorbeeld hiervan is het onderzoeken van de motivatie van depressieve personen. Vaak is het zo dat basisnderzoek later gebruikt zal worden voor toegepast onderzoek. Translationeel onderzoek is het gebruik van de kennis van basisonderzoek om applicaties voor de gezondheidszorg, psychotherapie en andere vormen van behandelingen te testen en ontwikkelen. Het kan eigenlijk als een brug gezien worden tussen basis en toegepast onderzoek.
Wanneer mensen beslissingen moeten maken dan vertrouwen ze vrij vaak op hun eigen ervaring. Als je geen goede ervaring met een bepaalde automerk hebt gehad, dan zal je niet gauw weer die auto kopen. Ook vertrouwt men vaak op ervaringen van kennissen en familieleden. Waarom zou je niet je eigen ervaring of iemand die je kent vertrouwen?
Er zijn meerdere redenen waarom overtuigingen niet gebaseerd moeten worden op alleen je eigen ervaringen. Een van die redenen is dat ervaringen geen vergelijkingsgroep hebben. Bij onderzoek wordt er altijd gevraagd "in vergelijking met wie?" Met een vergelijkingsgroep kan er gekeken worden wat er gebeurt met en zonder datgene wat onderzocht wordt. Om conclusies te kunnen trekken over een bepaalde behandeling of effect, moeten er groepen met elkaar vergeleken worden. Er moet gekeken worden naar de behandelde/herstelde groep, de behandelde/niet herstelde groep, de onbehandelde/herstelde groep en de onbehandelde/niet herstelde groep. Met deze groepen kan het relatieve aantal dat hersteld is met het gebruik van een behandeling vergeleken met geen behandeling berekend worden. Wanneer je alleen naar je eigen ervaringen kijkt, dan heb je ook geen vergelijkingsgroep. Je kijkt alleen maar naar één persoon en dat is jezelf. Alleen onderzoek biedt een systematische vergelijking.
Er gebeurt heel veel in het dagelijkse leven en het is daarom problematisch om conclusies te baseren op eigen ervaringen. Als er een verandering plaats vindt, dan kun je niet zeker weten wat de verandering veroorzaakt heeft. In het dagelijkse leven zijn er meerdere verklaringen voor een uitkomst. In het onderzoek worden deze alternatieve verklaringen confounds genoemd. Een confound vindt plaats als je denkt dat een ding een uitkomst veroorzaakt heeft, maar andere dingen ook veranderd zijn en je bent dus niet zeker wat daadwerkelijk de oorzaak was. In het dagelijkse leven is het moeilijk om variabelen te isoleren. In onderzoek is het wel mogelijk om variabelen te controleren en om één variabele per keer te veranderen.
Door het gebruikt van gecontroleerde en systematische vergelijkingen kunnen hypothesen getest worden. In een onderzoek kan er ook een zogenaamde confederate gebruikt worden. Dat is een persoon die met de onderzoeker werkt, maar voor nep doet alsof hij een proefpersoon is. In een gecontroleerde studie kunnen onderzoekers de condities zo opzetten, dat er minimaal een vergelijkingsgroep is. Onderzoekers kunnen controleren voor een confound.
Onderzoek is normaal gesproken accurater dan individuele ervaringen, maar soms spreken onze eigen ervaringen onderzoekresultaten tegen. Persoonlijke ervaringen zijn vaak sterk en veel mensen hechten te veel waarde aan hun persoonlijke ervaringen. Soms kunnen je eigen ervaringen een uitzondering zijn op wat er is gevonden in onderzoek. Moet deze uitzondering dan de onderzoekresultaten tegenspreken? Dat hoeft niet, want onderzoek is probabilistisch. Dat houdt in dat er niet verwacht wordt dat de gevonden dingen alle gevallen kunnen verklaren. De conclusies van een onderzoek verklaren een deel van alle mogelijke gevallen. Onderzoek kan voorspellen dat er een hoge kans is dat iets gebeurt, maar dat betekent niet dat het altijd het geval zal zijn.
Mensen baseren hun conclusies ook vaak op intuïtie. Vaak denken we dat onze intuïtie betrouwbaar is, maar het kan tot minder effectieve beslissingen leiden. Dat is omdat de meeste mensen geen wetenschappelijke denkers zijn en dus gebiased zijn. Een bias kan cognitief zijn of aan iemands motivatie liggen.
Vaak zijn onze intuïties vertekend omdat onze hersens niet perfect werken. Mensen kunnen soms te makkelijk overgehaald worden door een verhaal dat logisch klinkt, maar eigenlijk onjuist is. Een cognitieve bias is dat we een conclusie accepteren omdat het logisch klinkt. Een ander voorbeeld van een cognitieve bias is de beschikbaarheid heuristiek ('availability heuristic'). Deze houdt in dat dingen die we snel voor de geest kunnen halen, onze gedachten sturen. Vaak zijn dat gebeurtenissen die levendig zijn of recent plaats hebben gevonden. Sommige dingen krijgen meer media aandacht en daardoor kunnen we ook denken dat iets vaker gebeurt. Zo worden ongelukken met een vliegtuig vaker vermeld in het nieuws dan auto-ongevallen. Hierdoor kunnen sommige mensen denken dat er jaarlijks meer doden vallen door vliegtuigongelukken dan door auto-ongelukken. Availability heuristics kunnen er voor zorgen dat we dingen overschatten. Een ander probleem is dat mensen vaak geen negatieve informatie opzoeken. Vaak kijken we naar de dingen die aanwezig zijn, maar niet naar de dingen die niet aanwezig zijn. Als je alleen kijkt naar de dingen die aanwezig zijn en niet naar de dingen die absent zijn, dan bega je een present/present bias. Deze bias zorgt er voor dat de gebeurtenissen waarbij de behandeling en uitkomst aanwezig zijn snel voor de geest gehaald kunnen worden, maar gebeurtenissen waarbij de behandeling niet aanwezig was maar de uitkomst wel, niet snel voor de geest gehaald kunnen worden.
Soms willen mensen hun ideeën niet veranderen. Omdat ze niet hun overtuigingen willen veranderen, kijken sommige mensen alleen naar informatie die overeenkomt met hun overtuigingen. Soms kunnen we ons denken sturen door vragen te stellen die antwoorden opleveren die bij ons denken passen. Dit wordt ook wel de 'confirmatory hypothesis testing' genoemd. Dit is geen wetenschappelijke manier van onderzoek doen. Er worden vragen gesteld die een hypothese bevestigen, maar er worden geen vragen gesteld die de hypothese tegen zouden kunnen spreken. Mensen zijn daarnaast ook biased over het biased zijn. Ook al weten sommige mensen van het bestaan van biases af, ze denken dat die biases niet voor hun gelden. De 'bias blind spot'' is de overtuiging dat we niet ten prooi zullen vallen aan de bias. De meeste mensen denken dat hun overtuigingen minder vertekend zijn dan de overtuigingen van anderen. Deze bias kan er voor zorgen dat we overtuigd raken van ons gelijk en vertrouwen in het gelijk hebben is niet een wetenschappelijke manier van denken.
Er is dus al verteld dat je voorzichtig moet zijn om conclusies te baseren op je eigen ervaringen of die van mensen die je kent. Hoe zit het dan met autoritaire figuren? Moeten we deze mensen wel vertrouwen? Voordat je het advies van hoge mensen aanneemt, vraag jezelf af waar hun ideeën vandaan komen. Heeft deze persoon op een systematische en objectieve manier de verschillende condities met elkaar vergeleken? Als deze persoon verwijst naar onderzoek, dan kun je met meer zekerheid stellen dat deze persoon gelijk heeft. Hou er wel rekening mee dat ook deze mensen hun conclusies op intuïties en ervaringen kunnen baseren. Ook moet je er rekening mee houden dat niet alle onderzoeken op een accurate manier uitgevoerd zijn.
Je conclusies zouden op onderzoek gebaseerd moeten zijn, maar waar vind je de artikelen over onderzoeken? De meeste psychologen publiceren hun werk in drie verschillende bronnen. Vaak wordt het werk gepubliceerd in wetenschappelijke journalen. Ook kunnen ze hun werk publiceren in een hoofdstuk van een boek. Daarnaast zijn er ook onderzoekers die boeken voor studenten schrijven en daar over hun onderzoek vertellen.
De meeste wetenschappelijke bladen komen een keer in de maand of het kwartaal uit. Deze bladen kun je terug vinden in de bibliotheek van je universiteit of online. De artikelen uit deze bladen zijn of empirische artikelen of review artikelen. Empirische artikelen rapporteren voor het eerst de resultaten van een onderzoek. Deze artikelen vertellen iets over de gebruikte methode, de statistische tests die zijn gebruikt en de resultaten van een onderzoek. Een review artikel geeft een samenvatting van veel/alle gepubliceerde studies die over een onderwerp zijn gedaan. Soms gebruikt een review artikel een meta-analyse, welke de resultaten van meerdere studies combineert en een waarde geeft voor de effect-grootte van een relatie. Wetenschappers waarderen meta-analyses, omdat deze analyses alle studies proportioneel wegen. Voordat empirische en review artikelen gepubliceerd kunnen worden, moeten ze doorgelezen en beoordeeld worden door experts (zie ook hoofdstuk 1). Deze bladen worden door andere wetenschappers en studenten gelezen.
Een zogenaamde 'edited' boek bestaat uit een aantal hoofdstukken die over hetzelfde onderwerp gaan, maar die door verschillende auteurs geschreven zijn. Een van de redacteurs nodigt de andere wetenschappers uit om elk een hoofdstuk (of meerdere) te schrijven. Deze boeken vatten vaak het werk over een bepaald onderwerp samen. De boeken worden niet zo streng beoordeeld als een wetenschappelijk artikel, maar de redacteur vraagt alleen andere wetenschappers om iets te schrijven voor het boek. Deze boeken worden ook gelezen door psychologen en psychologiestudenten. Daarnaast kunnen psychologen hun onderzoek ook in een compleet boek beschrijven. Echter, dat gebeurt niet vaak. Andere richtingen, zoals antropologie en geschiedenis beschrijven hun werk meestal in hele boeken.
Wetenschappelijke artikelen kunnen vaak in de bibliotheek van een universiteit gevonden worden. Ook kun je online databases gebruiken. Een van de bekendste online databasen van wetenschappelijke artikelen is PsycINFO. PsycINFO wordt wekelijks geüpdatet door de APA. Het kan de artikelen over een bepaald onderwerp vinden, maar je kunt ook zoeken op alle artikelen van een auteur. Daarnaast laat PsycINFO zien hoe vaak het artikel geciteerd is en door wie allemaal. Een alternatief voor PsycINFO is Google Scholar. Google Scholar is echter niet altijd gratis en het is minder goed georganiseerd dan PsycINFO.
Sommige studenten hebben moeite met het lezen van wetenschappelijke artikelen. Vooral in het begin is het een uitdaging. De meeste wetenschappelijke artikelen worden in een bepaald formaat geschreven. De meeste artikelen bevatten onderdelen die in dezelfde volgorde vermeld worden: samenvatting, introductie, methoden, resultaten, discussie en referenties. Een advies is om niet woord voor woord te lezen. Je moet het artikel met een bepaald doel lezen. Je wilt weten wat het hoofdargument is en wat het bewijs is voor of tegen het argument. Het is daarom belangrijk om eerst de samenvatting (abstract genoemd) te lezen. Aan het einde van de introductie vind je de hypothesen. Ook aan het begin van de discussie vind je de hypothesen en uitkomsten van een onderzoek. Als je over de hypothesen gelezen hebt, dan kun je beginnen om de introductie echt te lezen. In hoofdstukken uit boeken en review artikelen zijn geen specifieke secties zoals in empirische artikelen. Toch moet je je hier ook afvragen wat het argument is en het bewijs voor of tegen dit argument.
Het beste is om over onderzoeken te lezen in wetenschappelijke artikelen. Toch wordt het werk van psychologen ook genoemd in niet-wetenschappelijke bladen. Een boekenwinkel heeft vaak een psychologieafdeling. Hier zijn boeken te vinden die geschreven zijn voor mensen die niet een studie psychologie hebben gevolgd. Deze boeken zijn geschreven om mensen te helpen, te vermaken en om geld te verdienen. De taal in deze boeken is makkelijker dan de taal die gebruikt wordt in wetenschappelijke artikelen. Om erachter te komen of deze boeken hun verhaal baseren op wetenschappelijke artikelen, moet er achterin het boek gekeken worden bij de notities. Hierin staat op welke artikelen het gebaseerd is. Boeken die geen referenties bevatten, moeten niet serieus genomen worden.
Daarnaast raadplegen sommige studenten Wikipedia vaak. Wikipedia kan een bron van informatie zijn, maar het is niet altijd even betrouwbaar. Sommige fenomenen uit de psychologie hebben hun eigen Wikipedia pagina, maar dat betekent niet dat alles wat er in staat betrouwbaar is. In feite kan iedereen een Wikipedia pagina aanpassen en de bronnen raadplegen die hij of zij wil. Er worden vaak wel bronnen vermeld, maar dat is maar een kleine selectie en het zijn alleen de bronnen die een persoon die de pagina heeft gemaakt wilde raadplegen. Schrijvers voor Wikipedia zijn vaak enthousiaste mensen, maar niet altijd experts in een bepaald onderwerp.
Variabelen zijn belangrijke onderdelen van onderzoeken. Een variabele is iets wat kan variëren, dus het moet minimaal twee niveaus of waarden hebben. Een constante is iets wat kan variëren, maar in een onderzoek alleen maar één waarde heeft. In onderzoek wordt elk variabele gemeten of gemanipuleerd. Een gemeten variabele is een variabele waarbij de waarden geobserveerd en genoteerd zijn. Voorbeelden hiervan zijn IQ, geslacht en bloeddruk. Om abstracte variabelen te meten (depressie en stress), moeten wetenschappers vragenlijsten gebruiken. Een gemanipuleerde variabele is een variabele waar een onderzoeker invloed op uitoefent. Dit wordt meestal gedaan door proefpersonen toe te wijzen aan verschillende condities van een variabele. Sommige variabelen, zoals geslacht, kunnen alleen maar gemeten en niet gemanipuleerd worden. Sommige variabelen mogen niet gemanipuleerd worden, omdat het onethisch zou zijn. Zo zouden mensen niet toegeschreven mogen worden in een conditie waarbij ze grote emotionele pijn gaan ondervinden. Andere variabelen kunnen zowel gemeten als gemanipuleerd worden.
Elke variabele kan op twee manieren beschreven worden. Conceptuele variabelen zijn abstracte concepten en een voorbeeld hiervan is intelligentie. Deze variabelen worden ook wel constructen genoemd. Aan deze variabelen moet voorzichtig een definitie gegeven moeten worden. Deze definities worden conceptuele definities genoemd. Om hypothesen te kunnen testen, moeten onderzoekers operationele definities van variabelen creëren. Operationaliseren betekent dat een concept omgezet wordt in een meetbare of manipuleerbare variabele. Een conceptuele variabele van verlegenheid kan geoperationaliseerd worden als een gestructureerde set van vragen. Soms is het wel moeilijk om concepten te operationaliseren.
Een claim is een argument dat iemand maakt. Psychologen maken claims gebaseerd op onderzoek. Er zijn drie verschillende soorten claims: frequentie claims, associatie claims en causale claims. Deze drie zullen hieronder besproken worden.
Frequentie claims beschrijven een bepaalde mate van een variabele. Dit wordt dus als een numerieke waarde (vaak percentages) uitgedrukt. Deze claims beweren hoe vaak iets voorkomt. Frequentie claims gaan altijd over één variabele. Deze variabelen zijn altijd gemeten, nooit gemanipuleerd. Associatie claims beweren dat een bepaalde niveau van een variabele geassocieerd is met een bepaald niveau van een andere variabele. Variabelen die geassocieerd zijn correleren. Associatie claims bevatten minimaal twee variabelen en de variabelen zijn gemeten, niet gemanipuleerd. Er zijn drie typen associatie: geen associatie, positieve associatie en negatieve associatie. Een positieve associatie betekent dat een hoge mate van een variabele samen gaat met een hoge mate van de andere variabele. Een lage mate gaat ook samen met een lage mate. Dit wordt ook wel een positieve correlatie genoemd. Een negatieve associatie betekent dat een hoge mate van een variabele samen gaat met een lage mate van een andere variabele. Geen associatie betekent dat er geen samenhang tussen de twee variabelen gevonden kan worden. Een correlatie kan weergeven worden in een spreidingsdiagram. Als een lijn omhoog gaat, dan laat het een positieve correlatie zien, een lijn naar beneden laat een negatieve correlatie zijn en een horizontale lijn laat zien dat er geen correlatie is.
Associaties kunnen ons helpen om voorspellingen te maken. Dit zijn mathematische voorspellingen, geen voorspellingen over de toekomst. Deze voorspellingen worden gebruikt om onze schattingen accurater te maken. Hoe sterker het verband tussen de twee variabelen (hoe dichter de correlatie bij 1), hoe accurater onze voorspellingen zullen zijn.
Causale claims beweren dat een variabele verantwoordelijk is voor de andere variabele. Causale claims beginnen altijd met een associatie, maar ze gaan nog verder door. Deze claims gebruiken vaak de woorden ‘veroorzaken’ en ‘verhogen/verlagen.’ Causale claims kunnen ook ‘voorzichtig taalgebruik’ bevatten, zoals ‘kunnen, lijken, soms en suggereren.’ Om van associatie naar causaliteit te gaan, moet een onderzoek aan drie criteria voldoen. Het moet ten eerste vaststellen dat de twee variabelen correleren. Daarnaast moet het aantonen dat de causale variabele voor de uitkomst variabele plaats heeft gevonden. Als laatste moet het ook vaststellen dat er geen andere verklaring bestaat voor de relatie tussen de variabelen (dus dat de relatie tussen de twee variabelen niet beïnvloed wordt door een derde variabele). Helaas zijn niet alle claims die gepubliceerd worden in tijdschriften gebaseerd op onderzoek.
Consumenten van onderzoek moeten claims evalueren aan de hand van verschillende validiteiten. Validiteit verwijst naar de geschiktheid van een conclusie. Wanneer een claim valide is, dan is het accuraat. Psychologen zeggen echter niet zomaar dat een claim valide of niet valide is. Psychologen kijken naar de vier verschillende typen validiteit en vermelden dat.
Om frequentie claims te evalueren, moet er gekeken worden naar constructvaliditeit en externe validiteit. Er kan ook gekeken worden naar statistische validiteit. Constructvaliditeit kijkt naar hoe goed een conceptuele variabele geoperationaliseerd is. Er moet dus gekeken worden naar hoe goed de onderzoekers hun variabelen gemeten hebben. Constructvaliditeit gaat over hoe goed een onderzoek een variabele gemeten of gemanipuleerd heeft. De verschillende niveaus in een variabele moeten ook overeenkomen met echte verschillen.
Externe validiteit gaat over de generaliseerbaarheid. Welke proefpersonen zijn er gebruikt en hoe goed representeren deze proefpersonen de populatie? Wanneer je een uitspraak wilt maken over Nederlanders, dan moet je verschillende mensen uit de populatie ondervragen. Zo moeten niet alleen Nederlanders uit de middenklasse gevraagd worden, maar ook Nederlanders uit de lage en hoge klassen. Statistische validiteit kijkt in hoeverre de statistische conclusies accuraat zijn. Wanneer er gekeken wordt naar frequentie claims, dan zal de statistische validiteit vaak iets zeggen over de marge van error. Als er beweerd wordt dat 26% van de bevolking ongelukkig is, dan zegt een 3%- marge iets over de daadwerkelijke percentages waar het ware percentage tussen ligt. In dat geval zou het 23-29% zijn.
Bij associatie claims wordt er ook gekeken naar constructvaliditeit en externe validiteit. Bij associatie claims wordt er naar twee variabelen gekeken. Er moet dus ook twee keer gekeken worden naar constructvaliditeit. Van elke variabele moet de constructvaliditeit onderzocht worden. Als blijkt dat een van die variabelen niet goed gemeten is, dan mag je de conclusies die gebaseerd zijn op die variabele niet vertrouwen. Ook kan er gekeken worden naar statistische validiteit. Een van de aspecten van statistische validiteit is sterkte. Er moet gekeken worden naar hoe sterk de associatie tussen de variabelen is. De associatie tussen iemands hoogte en schoenmaat is vrij sterk, maar de associatie tussen haarkleur en inkomen is zwak. Ook moet er gekeken worden naar de statistische significantie tussen associaties. Sommige gerapporteerde associaties zijn puur door kans tot stand gekomen. Daarnaast zijn er ook twee soorten fouten die gemaakt kunnen worden met betrekking tot statistische validiteit. Een onderzoek kan, gebaseerd op de data, concluderen dat er een associatie is tussen twee variabelen, terwijl er daadwerkelijk geen associatie is in de echte populatie. Dit wordt de valse error of Type I error genoemd. Daarnaast kan een onderzoek, gebaseerd op data, concluderen dat er geen associatie is tussen twee variabelen, terwijl er daadwerkelijk wel een associatie is in de echte populatie. Dit wordt een miss of Type II error genoemd. Om deze twee errors te vinden, moet je goed getraind worden. Dit kan bijvoorbeeld door het volgen van statistiek vakken.
Om causale claims te evalueren, moet er gekeken worden naar de drie criteria voor causatie: covariantie, temporele precedentie en interne validiteit. Covariantie betekent dat er een associatie is tussen twee variabelen. Temporele precedentie betekent dat een variabele eerder plaatsvindt dan een andere variabele. De variabele die volgens het onderzoek de andere variabele beïnvloedt, moet eerder plaatsvinden dan de beïnvloedde variabele. Interne validiteit kijkt naar de invloed van een andere (derde) variabele op de relatie van de twee onderzochte variabelen. Als je wilt dat je onderzoek intern valide is, dan moet je er voor zorgen dat je controle hebt over eventuele andere variabelen. Covariantie gaat over onderzoeksresultaten. Temporele precedentie en interne validiteit gaan meer over de methode van het onderzoek dan de resultaten. Om causale claims te onderzoeken, ontwerpen onderzoekers experimenten. De gemanipuleerde variabele wordt de onafhankelijke variabele genoemd en de gemeten variabele wordt de afhankelijke variabele genoemd. Een variabele manipuleren betekent dat je sommige proefpersonen random indeelt tot een bepaalde conditie en andere proefpersonen tot een andere conditie. Het random toewijzen tot een conditie zorgt er voor dat een derde variabele gecontroleerd wordt.
Constructvaliditeit, externe validiteit en statistische validiteit zouden ook onderzocht moeten worden voor causale claims. Je moet natuurlijk wel weten of de variabelen goed gemanipuleerd zijn. Daarnaast wil je ook te weten komen of de resultaten gegeneraliseerd kunnen worden naar een andere populatie of andere settings. Ook wil je weten hoe sterk de relatie is tussen de twee variabelen.
Welke van de vier validiteiten is het belangrijkst? Dat hangt van de situatie af. Alle validiteiten zijn belangrijk, maar een studie kan nooit perfect zijn. De meeste onderzoekers hebben er moeite mee om alle vier validiteiten tegemoet te komen. Ze zullen daarom moeten kiezen tussen bepaalde validiteiten en de keuze hangt af van de doelen van het onderzoek. Als je telefonisch onderzoek doet en je wilt dat de resultaten gegeneraliseerd worden naar de hele Nederlandse bevolking, dan moet je mensen uit alle twaalf provincies bellen. Je moet dus sowieso kiezen voor externe validiteit.
Tegenwoordig moeten psychologen zich aan ethische richtlijnen houden wanneer ze onderzoek doen met mensen of dieren. Vroeger hadden psychologen andere ideeën over de ethische omgang met proefpersonen. Hieronder worden twee bekende onderzoeken en de ethische problemen beschreven. Een voorbeeld komt uit de gezondheidszorg en de andere uit de psychologie.
Het eerste voorbeeld dat beschreven zal worden is het Tuskegee syfilis onderzoek. Aan het einde van de jaren ’20 van de vorige eeuw waren nogal veel mensen uit het zuiden van de Verenigde Staten bezorgd dat ongeveer 35% van de donkergekleurde mannen uit het zuiden van het land besmet waren met syfilis. In die tijd was de ziekte slecht te behandelen en door de ziekte kon men niet normaal werken, niet bijdragen aan de maatschappij en niet uit armoede komen. De enige behandeling was een infuus met giftige metalen. Wanneer deze behandeling werkte, had het vaak ernstige of fatale bijwerkingen.
In 1932 besloot de U.S. Public Health Service (PHS) samen te werken met het Tuskegee instituut en zij voerden een onderzoek uit waaraan 600 donkergekleurde mannen meededen. 400 van deze mannen waren geïnfecteerd met syfilis en 200 mannen waren niet geïnfecteerd. Wetenschappers wilden de effecten van onbehandelde syfilis op de lange termijn onderzoeken. De meeste proefpersonen waren enthousiast over het onderzoek, omdat ze dachten dat ze gratis gezondheidszorg zouden krijgen. De mannen werd niet verteld dat het onderzoek over syfilis ging. Het onderzoek duurde uiteindelijk 40 jaar en de onderzoekers wilden de mannen die syfilis hadden tot aan hun dood volgen.
De mannen werd niet verteld dat ze syfilis hadden, maar ‘slecht bloed.’ Ook hadden de onderzoekers verteld dat de mannen behandeld zouden worden en dat ze naar het instituut moesten komen om geëvalueerd en getest te worden. De mannen werden nooit echt behandeld voor hun ziekte en soms werden er zelfs gevaarlijke handelingen uitgevoerd. Om er toch voor te zorgen dat alle proefpersonen zouden komen, logen de onderzoekers. Ze vertelden aan de proefpersonen dat ze langs moesten komen voor een speciale behandeling die gratis was. 250 van de mannen uit het onderzoek wilden het Amerikaanse leger in, om mee te helpen tijdens WO II. De mannen werden getest en nadat syfilis bij ze gediagnosticeerd was, werd ze door het leger verteld dat ze terug mochten komen nadat hun syfilis behandeld was. De onderzoekers luisterden niet naar het leger en ze besloten om deze mannen niet te behandelen. Deze mannen mochten dus niet het leger in en ze zouden dus ook geen geld en andere voordelen krijgen die men krijgt in het leger.
In 1943 keurde de PHS penicilline goed als behandelmethode tegen syfilis, maar de onderzoekers vertelden de proefpersonen hier niks over. Pas in 1972, toen er geklaagd werd in de media over het onderzoek, werd het onderzoek stop gezet. Vele mannen waren zieker geworden tijdens het onderzoek en sommigen waren overleden. Sommige mannen hadden hun vrouwen geïnfecteerd en zo ook hun kinderen.
Vandaag de dag zouden we de keuzes die de onderzoekers destijds hadden gemaakt, onethisch noemen. Deze keuzes vallen in drie categorieën. Ten eerste werden de proefpersonen niet respectvol behandeld. De onderzoekers hadden gelogen en hadden informatie achter gehouden. Daardoor hadden de proefpersonen niet echt akkoord kunnen gaan met het onderzoek. Als ze wel alles geweten hadden, waren ze wellicht niet akkoord gegaan om mee te doen aan het onderzoek. Ten tweede werden de proefpersonen mishandeld. Ze werden niet verteld dat er een nieuwe behandeling was en ze moesten pijnlijk tests afleggen. Als laatste behoorden de proefpersonen tot een groep die benadeeld werd. Iedereen kan syfilis krijgen, maar de onderzoekers wilden alleen arme zwarte Amerikanen als proefpersonen gebruiken.
Soms is het lastig om beslissingen over ethische kwesties te nemen. In de jaren ’60 van de vorige eeuw onderzocht Milgram gehoorzaamheid aan autoriteit. Een proefpersoon was de leraar en de andere proefpersoon was de leerling. De leraar moest de leerling een elektrische schok toedienen wanneer deze een fout had gemaakt. De leraar kon de leerling niet zien. De schokken werden bij elke foute antwoord hoger. Op een gegeven moment schreeuwt de leerling en hij zegt dat de schokken te pijnlijk zijn en dat hij wil stoppen. Op een gegeven moment zegt de leerling niks meer. De onderzoeker zegt tegen de leraar dat hij/zij door moet gaan met het toedienen van schokken. Proefpersonen die niet door wilden gaan werd door de onderzoeker in zijn witte laboratoriumjas verteld om door te gaan met het toedienen van schokken. Uit het onderzoek bleek dat 65% van de proefpersonen luisterde naar de onderzoekers en fatale elektrische schokken toediende aan een medemens. Gelukkig was het natuurlijk niet echt zo dat de leerling schokken kreeg, maar de andere proefpersoon die de schokken toe moest dienen moest dit denken.
Was het onethisch van Milgram om zulke onderzoeken uit te voeren? Wetenschappers zagen twee ethische kwesties in het onderzoek. Ten eerste vonden ze dat het onderzoek de leraar-proefpersonen veel stress opleverde. Ten tweede waren onderzoekers bezorgd over de blijvende effecten van het onderzoek. Na het onderzoek werd alle proefpersonen verteld dat het allemaal nep was en er werd verteld wat het idee achter het onderzoek was. Toch waren sommige proefpersonen er kapot van dat ze een andere proefpersoon pijn hadden kunnen doen. Sommige onderzoekers vonden dat Milgram in had kunnen grijpen, na het zien van de gestreste proefpersonen. Andere onderzoekers vinden dat we door Milgram veel te weten zijn gekomen over gehoorzaamheid en dat we het zonder zijn onderzoek niet te weten zouden zijn gekomen. Het is soms dus lastig om te beslissen of een onderzoek onethisch is of niet. Vaak moeten we de potentiële risico’s voor de proefpersonen afwegen tegen de kennis die we kunnen vergaren. Voor Milgram’s onderzoek is dat echter wel lastig.
Na WO II zijn bepaalde afspraken gemaakt over ethische richtlijnen in medisch onderzoek (Helsinki akkoorden). In de Verenigde Staten zijn de ethische systemen gebaseerd op de Belmont Reports. Artsen, filosofen, wetenschappers en andere burgers kwamen bij elkaar om te discussiëren over hoe er omgegaan moest worden met proefpersonen. Er waren drie ethische principes voor beslissingen opgesteld: respect voor proefpersonen, humaniteit (beneficence) en rechtvaardigheid.
Naast de richtlijnen in het Belmont Report kunnen Amerikaanse psychologen ook de richtlijnen van de American Psychological Association (APA) opvolgen. Deze richtlijnen gaan over de rollen die psychologen op zich kunnen nemen: onderzoekwetenschappers, docenten en beoefenaar (therapeut). Er zijn vijf generale ethische APA-principes: respect, humaniteit, rechtvaardigheid, integriteit en loyaliteit en verantwoordelijkheid (wordt samen als één principe gezien). De eerste drie komen overeen met de Belmont Report. Integriteit houdt in dat docenten accurate dingen aan hun studenten horen te leren en dat therapeuten op de hoogte moeten blijven van empirisch bewijs over therapeutische technieken. Loyaliteit en verantwoordelijkheid houden in dat psychologen geen seksuele relatie met hun leerlingen of cliënten aan mogen gaan en dat docenten niet een van hun leerlingen als cliënt mogen hebben.
Naast de vijf generale principes heeft de APA ook nog tien specifieke standaarden die als regels gezien kunnen worden. Psychologen die zich niet aan deze standaarden houden, kunnen hun bevoegdheid om therapeut te zijn verliezen. Ethische Standaard 8 is het belangrijkst voor onderzoekers. De andere standaarden zijn meer voor therapeuten en docenten. Hieronder wordt Ethische Standaard 8 nader toegelicht.
Standaard 8.01 stelt dat er een institutioneel review raad ('institutional review board', IRB) moet zijn. De board stelt vast of onderzoek op een ethische manier wordt uitgevoerd of niet. Voordat een wetenschapper een onderzoek uit mag voeren met proefpersonen, moet hij of zij een applicatie indienen bij de board. Hierin moet hij/zij gedetailleerd beschrijven hoe het onderzoek er uit zal zijn en wat de risico’s en voordelen van het onderzoek zijn. De leden van de IRB moeten beslissen of een onderzoek uitgevoerd mag worden of niet. Standaard 8.02 stelt dat veel onderzoeken om geïnformeerde toestemming moeten vragen. Dit is een blaadje/website waarop beschreven staat waar het onderzoek over zal gaan, wat de risico’s en de voordelen zijn, of de gegevens anoniem behandeld zullen worden of niet en tenslotte wordt er gevraagd of de proefpersoon akkoord gaat met het deelnemen aan het onderzoek. Voor natuurlijke observatie studies in lage-risico settings is geen geïnformeerde toestemming nodig. De IRB beslist of er voor deze onderzoeken geïnformeerde toestemming nodig is.
Standaard 8.07 gaat over deceptie. Soms houden onderzoekers een deel achter en soms liegen ze tegen proefpersonen. Volgens sommige onderzoekers is het soms nodig om te liegen of dingen van de proefpersonen achter te houden. Toch vinden andere onderzoekers dat er nooit gelogen mag worden tegen de proefpersonen. Wanneer onderzoekers wel besluiten om dingen achter te houden voor de proefpersonen, moeten ze na afloop van het onderzoek de proefpersonen inlichten over het bedrog en het daadwerkelijke doel van het onderzoek. Dit wordt debriefing genoemd en het hoort bij Standaard 8.08. Vaak wordt er ook een debriefing gedaan in onderzoek dat geen deceptie gebruikt.
De meeste richtlijnen gaan over het goed behandelen van proefpersonen. Er zijn echter ook richtlijnen die over het publicatieproces gaan. Het wordt als ethisch gezien om de resultaten te publiceren, anders heeft een proefpersoon voor niks zijn tijd aan een onderzoeker gegeven. Twee wangedragingen met betrekking tot publiceren zijn data fabricatie en data falsificatie (Standaard 8.10). Data fabricatie houdt in dat een onderzoeker niet invoert wat er daadwerkelijk is gezegd, maar dingen verzint om zijn hypothesen te ondersteunen. Data falsificatie houdt in dat onderzoekers de resultaten beïnvloeden door bijvoorbeeld sommige observaties weg te laten of door proefpersonen te beïnvloeden. Het fabriceren of falsifiëren van data kan er voor zorgen dat men theorieën die eigenlijk niet accuraat zijn als accuraat ziet. Daarnaast kan het er ook voor zorgen dat onderzoekers tevergeefs veel tijd besteden aan vervolgonderzoek.
Een andere vorm van wangedrag is plagiaat (Standaard 8.11). Dat betekent dat je de ideeën en woorden van anderen als je eigen ideeën of woorden representeert, dus zonder goed te verwijzen naar de originele auteur. Het wordt gezien als een vorm van stelen. Om plagiaat te voorkomen moet een schrijver verwijzen naar de originele auteur wanneer hij/zij de ideeën van die persoon gebruikt. Dit wordt gedaan volgens de APA-normen die kort beschreven staan in hoofdstuk 1 (dus achternaam en jaar van publicatie noemen). Studenten moeten zich goed aan de regels houden wanneer ze een propedeuseproef of thesis schrijven en geen plagiaat plegen, anders kunnen ze gestraft worden door weggestuurd te worden van de opleiding.
Psychologen voeren niet alleen onderzoek uit met mensen, maar soms ook met dieren. Volgens Standaard 8.09 moeten psychologen die dieren gebruiken goed voor deze dieren zorgen, ze humaan behandelen, zo weinig mogelijk dieren gebruiken en ze moeten er zeker van zijn dat hun onderzoek belangrijk genoeg is om het gebruik van dieren te rechtvaardigen. Vaak is het zo dat elk land ook nog andere instituties heeft die toezicht houden op het gebruik van dieren. Er wordt vaak een groep samengesteld die toezicht houdt op de verzorging van dieren in onderzoek. In veel landen worden de drie R’s gebruikt: 'replacement' (vervanging), 'refinement' (verfijning) en 'reduction' (reductie). Replacement houdt in dat onderzoekers vervanging vinden voor dieren waar dat mogelijk is. Refinement betekent dat onderzoekers hun experimentele handelingen zo moeten uitvoeren dat het dier zo min mogelijk stress krijgt. Reduction houdt in dat men onderzoeken moet uitvoeren met zo’n klein mogelijk aantal dieren.
De meeste psychologen en psychologiestudenten zijn het eens met het gebruik van dieren voor onderzoek. Ze zijn echter wel voor een goede behandeling van dieren en vinden het belangrijk dat onderzoekers rekening houden met de pijn die dieren kunnen oplopen tijdens het onderzoek. Activisten voor dierenrechten vinden dat proefdieren ook rechten hebben en door ze te onderwerpen aan onderzoek worden hun rechten geschonden. Andere activisten vinden dat de mens niet belangrijker is dan andere dieren en dat er alleen dieronderzoek gedaan mag worden als hetzelfde onderzoek ook gedaan kan worden met menselijke proefpersonen. Onderzoekers moeten het gebruik van dieren en de behandeling van dieren goed balanceren. Veel psychologen behandelen de dieren echt goed en door dieronderzoek hebben zij veel dingen ontdekt die bijdragen aan onze toegepaste en basis kennis. Daarnaast is het zo dat psychologen zo weinig mogelijk dieren proberen te gebruiken en waar het kan andere procedures verzinnen (zoals computermodellen).
Als psychologen beslissen hoe ze een variabele moeten operationaliseren, moeten ze kiezen tussen drie verschillende metingen: observationele metingen, zelf-rapportages en fysiologische metingen. Ook moeten ze beslissen welke schaal ze gaan gebruiken. Zoals in hoofdstuk 3 vermeld, is een conceptuele variabele de definitie van een variabele op theoretisch niveau volgens de onderzoeker. De operationele variabele is de beslissing over hoe die variabele gemeten of gemanipuleerd moet worden. Elk conceptuele variabele kan op meerdere manieren geoperationaliseerd worden. Zo kan het concept rijkdom geoperationaliseerd worden door te kijken naar het jaarinkomen of het coderen van de ouderdom van iemands auto.
De typen metingen die psychologen gebruiken om concepten te operationaliseren vallen vaak in de categorieën zelf-rapportage, observaties en fysiologische metingen. Zelf-rapportages kijken naar de antwoorden die mensen zelf geven op een vragenlijst of tijdens een interview. Bij kinderen is het vaak zo dat zelf-rapportages vervangen worden door rapportages van ouders en/of docenten. Observationele metingen worden ook wel gedragsmetingen genoemd en ze operationaliseren een variabele door observeerbare gedragingen vast te stellen. Het coderen van hoe duur een auto kost is een observeerbare meting voor rijkdom. Het tellen van hoeveel tandafdrukken er in een potlood zijn is een observeerbare meting voor stress. Fysiologische metingen operationaliseren een variabele door te kijken naar biologische data, zoals hersenactiviteit en hartslag. Vaak worden er instrumenten hiertoe gebruikt, zoals EEG’s en fMRI’s. Het beste is om alle drie rapportage technieken te gebruiken om te kijken of de resultaten met elkaar overeenkomen.
Alle variabelen moeten tenminste twee levels hebben. De levels van operationele variabelen kunnen gecodeerd worden door verschillende schalen te gebruiken. Operationele variabelen worden voornamelijk geclassificeerd als categorisch of kwantitatief. De levels van categorische variabelen zijn categorieën. Deze variabelen worden ook wel nominale variabelen genoemd. Een voorbeeld hiervan is geslacht, welke de levels man en vrouw heeft. Een man kan gecodeerd worden als ‘1’ en een vrouw bijvoorbeeld als ‘2’. Deze getallen zeggen verder niks en er kunnen net zo goed andere getallen gebruikt worden. Deze getallen hebben geen numerieke waarde en het is dus niet zo dat het zijn van een vrouw ‘hoger’ is dan het zijn van een man. Kwantitatieve variabelen hebben wel waarden met een betekenis.
Kwantitatieve variabelen kunnen verder geclassificeerd worden op een ordinale, interval en ratioschaal. Een ordinale schaal kijkt naar een rangorde. Een docent kan toetsen teruggeven op volgorde van het hoogste naar het laagste cijfer. De eerste leerling heeft dan hoger gescoord dan de laatste leerling die de toets terug krijgt. Echter, het is niet bekend hoeveel hoger de eerste leerling heeft gescoord. Een ordinale schaal zegt niks over de afstand tussen de verschillende toetsen. Een interval schaal werkt wel met gelijke intervallen (afstanden) tussen levels en er is ook een echte nulpunt, maar die niet echt betekent dat iemand ‘niks’ heeft. Een IQ test is een voorbeeld van een interval schaal. Het verschil tussen 95 en 100 is even groot als het verschil tussen 105 en 110. Het scoren van een 0 op een IQ test wil niet zeggen dat je geen IQ hebt. Een ratioschaal heeft ook gelijke intervallen en wel echt een nulpunt dat ‘niks’ betekent. Mensen die niks goed beantwoorden op een toets, scoren een 0 en deze 0 betekent dat ze echt niks correct hebben gescoord. Door een betekenisvolle nulpunt kan er ook iets meer gezegd worden over de levels. Zo kan er gezegd worden dat iemand die 4000 euro per maand verdient, twee keer zoveel verdient per maand dan iemand die 2000 euro per maand verdient.
Hoe weet je of je een variabele goed geoperationaliseerd hebt? Hoe weet je of de metingen van een studie construct validiteit hebben? Construct validiteit heeft twee aspecten: betrouwbaarheid refereert naar hoe consistent de resultaten van een meting zijn en validiteit kijkt of een variabele meet wat het hoort te meten.
Onderzoekers verzamelen data om er zeker van te zijn dat metingen betrouwbaar zijn. Het vaststellen van betrouwbaarheid is een empirische vraag. Betrouwbaarheid kan op drie manieren getest worden en alle drie manieren gaan over de consistentie in metingen. Test-hertest betrouwbaarheid houdt in dat de onderzoeker elke keer dat hij/zij iets meet, dezelfde scores vindt. Mensen die het hoogst scoren op een IQ test, horen een maand later ook het hoogst te scoren op de IQ test wanneer dezelfde groep mensen onderzocht wordt. Inter-beoordelaar betrouwbaarheid houdt in dat dezelfde scores verkregen worden bij verschillende beoordelaars. Deze vorm van betrouwbaarheid is het belangrijkst bij observationele metingen. Interne betrouwbaarheid betekent dat een proefpersoon een consistente patroon van antwoorden geeft.
Er kunnen twee statistische middelen gebruikt worden om betrouwbaarheid te analyseren: spreidingsdiagrammen en de correlatie. Betrouwbaarheid kan als een associatie claim gezien worden. Test-hertest betrouwbaarheid kan weergeven worden in een spreidingsdiagram. Op de x-as zet je de eerste metingen van alle personen en op de y-as de tweede metingen van alle personen. Wanneer de punten gelijk vallen of bijna gelijk vallen, kun je spreken van test-hertest betrouwbaarheid. Ook kan inter-beoordelaar betrouwbaarheid geanalyseerd worden met een spreidingsdiagram. De waarden die een beoordelaar aan de proefpersonen heeft gegeven staan op de x-as en de waarden die de andere beoordelaar heeft gegeven staan op de y-as. Wanneer de punten rondom een rechte lijn liggen, dan is er sprake van inter-beoordelaar betrouwbaarheid.
De betrouwbaarheid van relaties tussen variabelen wordt vaker gemeten met een correlatiecoëfficiënt, r. Een r geeft de richting en sterkte van een relatie weer. Wanneer de helling in een spreidingsdiagram naar beneden gaat, is r negatief. Wanneer de helling in een spreidingsdiagram omhoog gaat, is r positief. De waarde van r ligt tussen -1.0 en 1.0. Wanneer de waarde dicht bij -1 of 1 ligt, dan is de relatie sterk, wanneer de waarde dicht bij 0 ligt dan is de relatie zwak. Voor test-hertest betrouwbaarheid wordt er naar twee tijdsmetingen gekeken. Wanneer de r tussen deze twee metingen positief en sterk is (hoger dan .50) dan is er sprake van goede test-hertest betrouwbaarheid. Wanneer de scores van twee beoordelaars bekeken worden en de r positief en sterk blijkt te zijn (.70 of hoger), dan is er sprake van goede inter-beoordelaar betrouwbaarheid. Om de interne betrouwbaarheid van een schaal te meten, kijken onderzoekers naar Cronbach’s alpha. Dit wordt met SPSS berekend en het vergelijkt alle items van een schaal met elkaar. Er komt een getal uit en hoe dichter het getal bij de 1 ligt, hoe betrouwbaarder de schaal. Wanneer de interne betrouwbaarheid hoog blijkt te zijn, dan kunnen alle items in een schaal opgenomen worden, wanneer het niet zo blijkt te zijn dan moeten onderzoekers hun schaal items aanpassen.
Naast betrouwbaarheid moet er ook gekeken worden of de tests wel echt meten wat ze horen te meten. Meet jouw religie-schaal wel echt hoe religieus iemand is? Psychologen willen vaak abstracte constructen meten, waar geen vergelijkingsstandaard voor bestaat. Construct validiteit is daarom belangrijk in psychologisch onderzoek. Blijheid kunnen we niet direct meten. We kunnen blijheid schatten door naar verschillende dingen te kijken. Zo kunnen we kijken naar iemands welzijn, naar hoe vaak iemand lacht, naar stress level van hormonen en naar bloeddruk. Al deze metingen zijn indirect. Voor sommige abstracte constructen is er nou eenmaal geen directe meting. Hoe kun je weten of een indirecte operationele meting van een construct echt meet wat het hoort te meten? Dat kun je weten door data te verzamelen en aan de hand van deze gegevens de validiteit te evalueren. Er zijn verschillende soorten validiteit.
Face validiteit betekent dat een variabele plausibel lijkt. Het is nogal subjectief: als het een goede maat lijkt te zijn, dan heeft het face validiteit. Component validiteit kijkt of een meting alle delen van een construct bevat. Als intelligentie als het vermogen om te plannen, problemen op te lossen, redenering, begrijpen van complexe ideeën, abstract denken en snel leren gezien wordt, dan moet een operationele schaal vragen over elk van deze onderdelen hebben.
De meeste psychologen willen niet alleen kunnen vertrouwen op subjectieve vormen van validiteit. Ze kijken daarom ook of de meting geassocieerd wordt met iets waar het mee geassocieerd hoort te zijn. Criteriumvaliditeit kijkt of de meting gerelateerd is aan een concrete uitkomst, zoals een gedrag, waar het mee geassocieerd hoort te zijn volgens de theorie. Wanneer een IQ test criteriumvaliditeit heeft, dan hoort het te correleren aan gedragingen die overeenkomen met het construct van intelligentie (zoals de dingen die hierboven zijn benoemd). Criteriumvaliditeit kan dus aan de hand van spreidingsdiagrammen en correlatiecoëfficiënten bekeken worden. Een andere manier om informatie over criteriumvaliditeit te krijgen is door zogenaamd known-group paradigms te gebruiken. Onderzoekers kijken dan of de scores van een meting kunnen discrimineren tussen een set van groepen waarvan het gedrag al goed begrepen wordt.
Een andere vorm van validiteit kijkt of er betekenisvolle patronen van overeenkomsten en verschillen zijn. Als er sprake is van validiteit, dan hoort de meting sterk te correleren met andere metingen van hetzelfde construct (convergent validiteit genaamd) en het hoort minder sterk te correleren met metingen van verschillende constructen (discriminant validiteit). Wanneer je een nieuwe schaal om depressie te meten bedenkt, dan kun je kijken of jouw schaal overeenkomt met een bestaande schaal voor depressie. Wanneer de correlatie tussen deze twee hoog is, dan kun je zeggen dat je schaal aan convergent validiteit voldoet. Daarnaast hoort je schaal niet sterk te correleren met metingen van andere constructen (discriminant validiteit). Je schaal hoort bijvoorbeeld niet sterk te correleren met waargenomen fysieke gezondheid. Convergent en discriminant validiteit worden vaak samen bepaald. Er zijn geen regels over hoe hoog of laag de correlatie moet zijn. De enige regel is dat de correlatie tussen gerelateerde constructen hoger moet zijn dan de correlatie tussen niet gerelateerde constructen.
In dit hoofdstuk wordt het woord survey gebruikt om te verwijzen naar vragen die aan mensen gesteld worden via de telefoon, tijdens interviews, op papier, via e-mail of op het internet. Psychologen die hun vragen goed ontwikkelen, kunnen frequentie claims ondersteunen die een goede constructvaliditeit hebben. Survey vragen kunnen er verschillend uitzien. Er zijn open vragen die een proefpersoon de mogelijkheid geven om te antwoorden hoe ze willen. De antwoorden zijn vaak rijk aan kennis, maar een nadeel is dat de antwoorden gecodeerd en gecategoriseerd moeten worden. Dit kost veel tijd en het is vaak lastig om te doen. Daarom besluiten veel psychologen om andere soort vragen te gebruiken. Vaak worden er geforceerde-keuze vragen gesteld. Proefpersonen kunnen daarbij kiezen voor de beste mogelijkheid uit meerdere opties. In psychologisch onderzoek wordt vaak een Likert-schaal gebruikt. Proefpersonen wordt gevraagd in hoeverre ze het eens zijn met een bepaalde stelling. De opties lopen van sterk oneens naar sterk mee eens. Wanneer er niet gekeken werd in hoeverre iemand het met een stelling eens is, maar naar een andere numerieke waarde, dan wordt dat een semantische differentiatie formaat genoemd. Hierbij kan de 1 bijvoorbeeld makkelijk voorstellen en een 5 moeilijk. Een bekender voorbeeld voor het groter publiek is het beoordelen van producten op het internet aan de hand van vijf sterren. Onderzoekers kunnen de verschillende soorten vragen combineren in een vragenlijst. Het is belangrijk om te weten dat de vraagsoorten niet de constructvaliditeit breken.
De manier waarop vragen verwoord en gesteld zijn kan een invloed hebben op de constructvaliditeit. Elke vraag moet helder zijn en het moet direct te beantwoorden zijn. Makers van vragenlijsten moeten er voor zorgen dat de verwoording en volgorde van vragen niet de antwoorden van proefpersonen beïnvloeden. Zie het volgende verschil van een onderzoek dat gedaan werd naar rassenrelaties in Amerika:
Denkt u dat de relatie tussen zwarte en blanke Amerikanen:
Slechts 45% van de mensen die de eerste vraag voorgeschoteld kregen waren optimistisch over de rassenverhoudingen. 73% van de mensen die de tweede vraag voorgeschoteld kregen waren optimistisch over rassenverhoudingen. Dit komt doordat deze vragen leidend zijn. De vragen zijn verschillende verwoord: de eerste vraag is negatief verwoord, met de woorden ‘problematisch’ en ‘oplossing vinden’ en de tweede vraag is positief verwoord, met de woorden ‘goed’ en ‘beter.’ Schrijvers van vragenlijsten moeten de vragen dus zo neutraal mogelijk maken, anders zullen ze niet de echte gedachten en meningen van respondenten te weten komen.
Soms kan een vraag zo moeilijk verwoord zijn, dat een respondent moeite zal hebben om een antwoord te geven dat zijn/haar mening accuraat reflecteert. Het is het beste om een zo simpel mogelijke vraag te stellen. Wanneer mensen een vraag begrijpen, dan kunnen ze een helder en direct antwoord geven. Echter, soms vergeten mensen die vragen opstellen deze regel en ze kunnen per ongeluk twee vragen in een stellen. Dit worden double-barreled vragen genoemd. Deze vragen hebben een slechte constructvaliditeit, omdat mensen een antwoord geven op de eerste vraag, de tweede of beide vragen. Je item kan dus het eerste construct meten, het tweede of beide constructen. De vragen moeten apart gesteld worden.
Soms kan de negatieve verwoording van een vraag de vraag onnodig moeilijk maken. Met negatief wordt deze keer niet bedoeld dat er negatieve woorden zoals ‘slecht’ en ‘problematisch’ in staan, maar ontkennende woorden. Uit een onderzoek bleek dat 20% van de Amerikanen de Holocaust ontkenden. Dit zorgde voor nogal wat ophef en onderzoekers besloten dus te kijken of dit onderzoek goed uitgevoerd was. Ze kwamen er achter dat de vraag moeilijk verwoord was: ‘Lijkt het waarschijnlijk of onwaarschijnlijk voor u dat de Nazi uitroeiing van joden nooit plaats had gevonden?’ De meeste mensen hebben moeite met de dubbele ontkenning van ‘onmogelijk’ en ‘nooit.’ Deze vraag heeft dus niet de overtuigingen van mensen gemeten, maar in hoeverre ze hun werkgeheugen en motivatie gebruikt hadden om de vraag te beantwoorden. Deze vraag had dus een slechte constructvaliditeit en heeft dus niet de echte overtuigingen van mensen gemeten. Soms kan één negatief woord een vraag al moeilijk maken. Vaak stellen onderzoekers die vraag ook op een positieve manier en er wordt daarna gekeken naar de interne consistentie van die twee items om te zien of een persoon hetzelfde antwoord geeft (als je het met een vraag oneens bent, dan moet je het met de andere vraag eens zijn). Er moet goed uitgekeken worden met negatief verwoorde vragen, omdat het de constructvaliditeit kan verlagen. Soms zeggen de antwoorden op deze vragen iets meer over de motivatie en vaardigheid om cognitief werk te verrichten dan over de daadwerkelijke meningen van mensen.
De volgorde van de vragen kan ook een invloed hebben op de antwoorden die mensen geven. Stel dat sommige mensen een bepaalde actie (zoals beter omstandigheden voor vrouwen) steunen, maar niet zozeer een actie voor betere omstandigheden voor etnische minderheden steunen. Wanneer ze eerst gevraagd wordt om aan te geven of ze voor of tegen acties zijn om de omstandigheden van vrouwen te verbeteren en ze daarna gevraagd wordt of ze voor of tegen acties zijn om de omstandigheden van minderheden te verbeteren, dan kan daar een ander antwoord uitkomen dan wanneer de vragen andersom gesteld werden. Mensen willen vaak consistent zijn en wanneer ze eerst gevraagd wordt of ze acties voor vrouwen steunen en ze antwoorden dat ze het er mee eens zijn, dan zullen ze al gauw geneigd zijn om ook te antwoorden dat ze acties voor etnische minderheden steunen. De beste manier om te controleren of de volgorde van vragen invloed heeft, is om verschillende versies van de vragenlijst te maken en in elke versie de volgorde van vragen te veranderen. Als de resultaten van de eerste volgorde anders zijn dan de resultaten van de tweede volgorde, dan kan er gesteld worden dat er een volgorde effect is.
Proefpersonen kunnen soms minder accurate antwoorden geven. Dit doen ze niet altijd opzettelijk. Soms doen ze niet hun best om accuraat antwoorde te geven, soms willen ze goed overkomen en soms zijn ze niet in staat om accuraat antwoord te geven op vragen over hun gedachten en motivatie. Echter, zelf-rapportages zijn vaak ideaal. De meeste mensen kunnen vragen beantwoorden over hun demografieën en perspectieven. Soms is het zelfs zo dat zelf-rapportages de enige optie zijn. Wanneer je bijvoorbeeld wilt weten waar iemand over droomt, dan moet je dit wel aan die persoon vragen want wij hebben geen instrument dat je dromen kan zien. Sommige dingen kun je ook niet gemakkelijk observeren, zoals iemands angst en je zult dit dus aan die persoon zelf moeten vragen.
Zogenaamde respons sets zijn snelle responsen die een proefpersoon kan geven tijdens het beantwoorden van een vragenlijst. Soms denken mensen niet na over bepaalde vragen en zij kunnen al die vragen negatief, positief of neutraal beantwoorden. Response sets kunnen de constructvaliditeit zwakker maken, omdat mensen niet zeggen wat ze daadwerkelijk denken. Een vorm van een respons set is acquiescence of instemming. Dit houdt in dat iemand telkens ‘ja’ of ‘sterk mee eens’ antwoord op alle vragen. Dit is slecht voor de constructvaliditeit. Een manier om te checken of iemand telkens ‘ja’ zegt zonder het te menen of het echt telkens met een stelling eens is is om de vragen omgekeerd te verwoorden. Een vraag zoals ‘ik hou van snoep’ zou dan verwoord moeten worden als ‘ik hou niet van snoep.’ Iemand die echt van snoep houdt zal het eens zijn met de eerste stelling, maar het niet eens zijn met de tweede stelling. Een andere response set is fence sitting. Dat houdt in dat mensen telkens het midden van een schaal kiezen. Dit wordt vooral gedaan wanneer de vraag controversieel is of moeilijk is. Een manier om dit tegen te gaan is om het midden te verwijderen. Dus in plaats van vijf antwoordmogelijkheden, kan men kiezen uit vier antwoordmogelijkheden. Een nadeel is echter wel dat mensen die echt neutraal zijn of geen mening hebben, zo niet hun ware gedachten kunnen uitdrukken.
De meeste mensen willen als goed gezien worden door anderen en soms worden er antwoordmogelijkheden gegeven waardoor een persoon beter kan lijken dan hij/zij is. Deze vragen hebben een lage constructvaliditeit, omdat mensen eerder geneigd zijn om voor de antwoorden te kiezen die hun beter laten lijken. Soms zijn proefpersonen verlegen of bezorgd om hun onpopulaire mening te geven op een vraag. Een manier om dit tegen te gaan is door de anonimiteit van de proefpersonen te garanderen. Echter, dit helpt niet altijd. Een andere manier is om de vragen aan vrienden en familieleden te stellen. Deze mensen kennen je immers goed. Daarnaast kunnen er computer metingen uitgevoerd worden om de impliciete meningen van mensen te meten. Proefpersonen hebben meestal niet door wat het echte doel van het onderzoek is en zij zullen niet proberen om hun antwoorden te beïnvloeden.
Soms kunnen zelf-rapportages inaccuraat zijn, omdat mensen niet weten waarom zo iets denken of zich op een bepaalde manier gedragen. Sterker nog, hun herinneringen aan bepaalde gebeurtenissen kunnen ook inaccuraat zijn. Mensen vragen wat er gebeurd is, is waarschijnlijk niet de beste manier om erachter te komen wat er echt gebeurd is. Zelf-rapportages zijn dus niet geschikt voor alle soorten vragen. Een survey is geschikt om vragen te stellen die subjectief van aard zijn: wat een persoon denkt dat hij/zij doet en wat hij/zij denkt dat zijn/haar gedrag beïnvloedt. Maar als je wilt weten wat mensen echt doen en wat hun gedrag echt beïnvloedt, dan zal je deze mensen moeten observeren.
Wanneer een onderzoeker het gedrag van dieren of mensen observeert en het systematisch bijhoudt, dan spreken we van observationeel onderzoek. Sommige onderzoekers denken dat observaties beter zijn dan zelf-rapportages, omdat sommige mensen niet accuraat kunnen antwoorden op vragen over hun gedrag en gebeurtenissen uit het verleden. Observaties kunnen een basis vormen voor frequentie claims. Zo kan er gekeken worden hoe vaak mensen per week eten bij een snackbar, hoe vaak ouders schreeuwen tijdens een voetbalwedstrijd van hun kind en hoe vaak auto’s stoppen bij een zebrapad. Een voorbeeld van een observationeel onderzoek is het onderzoek van Mehl dat keek naar hoeveel woorden mensen per dag zeggen. Elke proefpersoon droeg een elektronisch instrumentje en onderzoekers hebben gecodeerd hoeveel woorden mannen en vrouwen per dag zeiden. Gemiddeld zeiden vrouwen meer woorden per dag dan mannen, maar dit verschil was niet statistisch significant. Dat betekent dus dat vrouwen niet meer praten dan mannen (ook al denken we dat wel vaak).
Als aan de proefpersonen uit het voorgaande voorbeeld gevraagd zou zijn om zelf het aantal woorden dat ze per dag zeiden bij te houden, dan was het vast niet gelukt of niet accuraat geweest. Bij observaties werken onderzoekers heel zorgvuldig om er voor te zorgen dat hun observaties nauwkeurig en valide zijn. Observaties hebben een goede constructvaliditeit wanneer ze de volgende drie problemen kunnen vermijden: observator bias, observator effecten en reactiviteit.
Observator bias vindt plaats wanneer de verwachtingen van een observator hun interpretaties over het gedrag van proefpersonen beïnvloeden. Ze beoordelen de observaties dus niet objectief, maar volgens hun eigen verwachtingen. Observator effecten vinden plaats wanneer een observator het gedrag van de persoon of het dier die/dat hij aan het observeren is verandert. Het gedrag verandert en komt overeen met de verwachtingen van de observator. In een onderzoek kregen studenten allemaal een rat en zij moesten bijhouden hoe lang het duurde voordat de rat leerde om door een doolhof te lopen. De ratten waren genetisch hetzelfde, maar sommige studenten werd verteld dat hun rat een slimme doolhof loper was en andere studenten werd verteld dat hun rat een luie doolhof loper was. Het bleek dat de slimme ratten met de dag sneller werden en dat de luie ratten niet sneller werden. Observatoren zagen niet alleen wat ze wilden zien, maar ze veroorzaakten ook het gedrag van de geobserveerde om overeen te komen met hun verwachtingen. Een manier om observator bias en observator effecten te voorkomen is door codeboeken te maken. Op deze stencils staat hoe elk gedrag gecodeerd kan worden. Een andere manier is om een blinde design te gebruiken. Observatoren weten dan niet in welke conditie een proefpersoon zich bevindt en hij/zij kan dan niet een proefpersoon beïnvloeden.
Soms kan de aanwezigheid van een persoon er voor zorgen dat iemand zich anders gaat gedragen dan hij/zij normaalgesproken doet. Reactiviteit is dat mensen hun gedrag op de een of andere manier veranderen wanneer een andere persoon kijkt. Soms vertonen ze goed gedrag en soms slecht gedrag. Reactiviteit gebeurt niet alleen met menselijke proefpersonen, maar ook met dieren. Een manier om dit tegen te gaan is om zo min mogelijk op te vallen als observator. Soms kan er een één-richting spiegel gebruikt worden om proefpersonen te observeren. Een andere manier is om de proefpersonen aan je te laten wennen. Een observator die kinderen wil observeren kan eerst even enkele dagen op school aanwezig zijn zodat de kinderen aan hem/haar wennen en vergeten dat ze geobserveerd gaan worden. Dit kan uiteraard ook met dieren gedaan worden. Een derde manier is om naar de traceerbare data die een gedrag achterlaat te kijken, in plaats van het gedrag zelf. Iemand kan zeggen dat hij of zij een voorzichtige bestuurder is, maar zijn/haar boetes tekenen een ander beeld.
De meeste psychologen vinden het wel ethisch dat gedragingen in publieke settings geobserveerd worden. Wanneer er geheime opnames worden gemaakt, dan moet een onderzoeker daar wel een goede reden voor hebben en het de proefpersoon na afloop van het onderzoek vertellen. Als de proefpersoon het niet eens is dat er opnames zijn gemaakt, dan moet de onderzoeker het bestand verwijderen zonder het te hebben gezien.
Wanneer je de externe validiteit toetst, dan vraag je je af of de resultaten van een bepaald onderzoek gegeneraliseerd kunnen worden naar een grotere populatie. De externe validiteit is heel belangrijk voor frequentie claims. Je vraagt je af of de gevonden waarden voor de mensen uit je steekproef terug gevonden zouden kunnen worden in de hele populatie. Representeert je steekproef wel de hele populatie? Externe validiteit kijkt echter niet alleen naar een steekproef groep, maar ook naar settings. Een onderzoeker wil misschien niet weten of de resultaten van een onderzoek gegeneraliseerd kunnen worden naar andere leden van een bepaalde populatie, maar hij wil weten of de resultaten gegeneraliseerd kunnen worden naar andere settings, zoals andere producten van dezelfde fabriek of andere vakken gegeven door dezelfde docent. Dit hoofdstuk zal voornamelijk gaan over de externe validiteit van een steekproefgroep.
Een populatie kan gezien worden als een hele set van mensen of producten waar een onderzoeker in geïnteresseerd is. Een steekproef is een kleinere set uit die populatie. Wanneer je wilt weten hoe de nieuwe smaak van de Lays chips is, dan hoef je maar één chipje te proeven om te weten hoe het smaakt. Alle andere chipjes uit die zak smaken hetzelfde en je hoeft niet alle chipjes uit die zak op te eten om erachter te komen hoe het smaakt. Als je alle chips uit die zak zou proeven, dan zou je een zogenaamde census uitvoeren. Onderzoekers hoeven ook niet alle leden van een populatie te onderzoeken. Ze geloven dat een steekproef iets zegt over de hele populatie. De externe validiteit van een onderzoek gaat over de adequaatheid van de steekproef om de niet-onderzochte populatie te representeren.
Er zijn veel populaties die wetenschappers kunnen bestuderen. Voordat wetenschappers kunnen bepalen of een steekproef gebiased is of niet, moeten ze wel een populatie specificeren. Dit wordt de populatie van interesse genoemd. Wetenschappers kunnen een brede interesse hebben (zoals de hele populatie van Nederland) of een specifieke interesse hebben (alle vrouwen die psychologie hebben gestudeerd in Groningen). Pas als je een populatie in gedachten hebt, kun je spreken over de generaliseerbaarheid van een steekproef. Een steekproef kan alleen een populatie representeren als de steekproef uit de populatie komt. Dat betekent echter niet dat een steekproef afkomstig uit de populatie de hele populatie representeert. Als een steekproef uit Nederlanders bestaat, betekent het niet automatisch dat het de hele Nederlandse populatie representeert. Wellicht heeft een onderzoeker alleen rijke Nederlanders onderzocht en dat representeert natuurlijk niet de hele Nederlandse populatie. Een steekproef kan of representatief zijn of gebiased. In een biased steekproef hebben sommige leden van de populatie van interesse een hogere kans om in de steekproef gestopt te worden dan andere leden van de populatie. In een representatieve steekproef hebben alle leden van de populatie een gelijke kans om in de steekproef gestopt te worden. Alleen representatieve steekproeven kunnen er voor zorgen dat we conclusies kunnen trekken over een populatie.
Een steekproef kan soms te veel van de ongewone leden bevatten. Een steekproef kan minimaal op twee manieren gebiased zijn. Wetenschappers onderzoeken soms alleen mensen waar ze makkelijk mee in contact kunnen komen of alleen de mensen die gretig zijn om op te komen dagen. Dit kan er voor zorgen dat de externe validiteit van een onderzoek minder wordt, omdat mensen die makkelijk zijn wellicht andere meningen hebben dan mensen die minder makkelijk zijn. Veel studies maken gebruikt van zogenaamde 'convenience sampling'. Dat is een steekproef van mensen die beschikbaar is om te gebruiken. Vaak zijn dat psychologiestudenten. Onderzoekers kunnen ook een convenience sample gebruiken als ze niet in contact kunnen komen met een bepaalde subgroep. Soms kunnen onderzoekers nou eenmaal niet mensen onderzoeken die te ver weg wonen, die niet op komen dagen of die niet hun telefoon opnemen. Dit kan natuurlijk voor een biased steekproef zorgen, omdat de mensen waar ze wel mee in contact kunnen komen anders kunnen zijn dan de populatie waar ze naar willen generaliseren. Een steekproef kan ook gebiased zijn door zelfselectie. Dit betekent dat een steekproef mensen bevat die zelf mee willen doen aan het onderzoek. Zelfselectie komt vaak voor bij online onderzoek en het komt voor in vrijwel alle internet polls. Internetgebruikers beoordelen producten die ze gebruikt hebben en het is vaak zo dat de mensen die zo’n beoordeling doen niet representatief zijn voor de hele populatie van mensen die het product gekocht heeft.
Wanneer onderzoekers echt een representatieve steekproef willen hebben, dan kunnen ze het beste 'probability sampling' toepassen. Probability sampling staat beter bekend als 'random sampling'. Dit houdt in dat elk lid van de populatie waar men in geïnteresseerd is een even grote kans heeft op het gekozen worden om opgenomen te worden in de steekproef. Omdat alle leden van de populatie een gelijke kans hebben om gerepresenteerd te worden, kunnen de resultaten van deze steekproeven gegeneraliseerd worden naar de hele populatie. Random sampling is goed voor de externe validiteit. 'Nonprobability sampling' is het tegenovergestelde, hierbij worden mensen niet random gekozen wat zorgt voor een biased steekproef.
De basis vorm van random sampling is 'simple random sampling'. Je kunt je deze vorm van sampling als volgt voorstellen: elk naam van alle leden van een populatie waar men in geïnteresseerd is schrijf je op een briefje en deze doe je in een hoed. Daarna haal je een x aantal briefjes uit de hoed. Een andere manier is om elke persoon een nummer toe te kennen en een tabel met random getallen gebruiken om de nummers te selecteren. Simple random sampling kan soms echter wel veel tijd in beslag nemen of niet te doen zijn, omdat het lastig is om elk lid van de populatie een nummer toe te kennen. In een 'cluster sample' worden clusters van proefpersonen van een populatie random geselecteerd en alle individuen in alle geselecteerde clusters worden vervolgens gebruikt. Een 'multistage sampling' lijkt hier op, maar er worden twee random samples uitgevoerd: eerst wordt een random sample van clusters gedaan en vervolgens wordt er een random sample van mensen binnen deze clusters gedaan.
Weer een andere techniek is 'stratified random sampling'. Hierbij selecteert een onderzoeker bepaalde demografische groepen en vervolgens voert hij een random selectie uit van individuen binnen elk van deze groepen. Zo willen onderzoekers bijvoorbeeld dat hun steekproef die uit 2000 Canadezen bestaat, Zuid-Aziaten bevat in dezelfde proportie als in de hele Canadese bevolking. 4% van de Canadese bevolking is Zuid-Aziatisch en er moeten dus minimaal 80 Zuid-Aziaten uit Canada in de steekproef zitten. Er zijn dus twee strata in dit onderzoek: de Zuid-Aziaten en de andere Canadezen. Alle leden worden echter wel random gekozen. Een andere variatie van stratified random sampling is 'oversampling'. Dit houdt in dat de onderzoeker met opzet een of meer groepen over-representeert. Een onderzoeker kan besluiten om dat te doen als de subgroep maar een kleine percentage van de hele groep is (zoals die 4% Zuid-Aziaten in Canada). De onderzoeker kan dan besluiten om 200 Zuid-Aziaten in de steekproef op te nemen in plaats van 80. De Zuid-Aziatische groep is dan 10% van de steekproef, terwijl het in de echte populatie 4% is. Bij een oversampling worden de resultaten echter wel weer aangepast en wordt de oversamplede groep proportioneel gewogen in de populatie. Oversampling wordt wel op een random manier gedaan.
Bij systematic sampling wordt een computer of random tabel gebruikt en selecteert de onderzoeker twee random getallen, bijvoorbeeld 3 en 6. Wanneer de steekproef uit een fitnesszaal vol met sporters bestaat, dan zal de onderzoeker bij de derde persoon beginnen en telkens elke zesde persoon opnemen in de steekproef, totdat de steekproef groot genoeg is. Vaak gebruiken onderzoekers ook meerdere sampling technieken in een onderzoek. Zolang het maar op een random manier gedaan wordt, zal de steekproef de populatie representeren. Denk er wel om dat random sampling niet hetzelfde is als random toeschrijving. Random toeschrijving wordt in experimentele designs gedaan. Onderzoekers willen proefpersonen in verschillende groepen (condities) zetten en zij zullen dat op een random manier doen. Random toeschrijving zorgt er voor dat de interne validiteit omhoog gaat, door er voor te zorgen dat de behandelgroep en de vergelijkingsgroep dezelfde soort mensen hebben (en dat er dus geen alternatieve verklaring is voor de gevonden resultaten).
Wanneer externe validiteit niet belangrijk is voor een onderzoeker, dan kan hij er voor kiezen om een biased steekproef te gebruiken. Een voorbeeld hiervan is convenience sampling (wat al eerder is besproken). Hierbij gebruikt een onderzoeker dus mensen die makkelijk toegankelijk zijn. Wanneer onderzoekers alleen mensen uit bepaalde subgroepen willen vragen en deze mensen niet op een random manier kiezen, dan heet dat 'purposive sampling'. Een andere vorm van purposive sampling is 'snowball sampling'. Hierbij wordt de deelnemers gevraagd om een paar kennissen aan te dragen om mee te doen aan het onderzoek. Dit is natuurlijk een niet-representatieve manier om te samplen, omdat mensen anderen via sociale netwerken aandragen en dit is niet random. In 'quota sampling' identificeert de onderzoeker de subpopulaties en hij kiest hoe groot elke subpopulatie in de steekproef gaat zijn. Dan kiest hij op een niet-random manier de mensen uit deze populatie uit (bijvoorbeeld door convenience sampling).
Frequentie claims zijn claims over hoe vaak iets in een populatie gebeurt. Vaak worden deze in percentages uitgedrukt. Externe validiteit is erg belangrijk voor frequentie claims en dus zal er ook goed gekeken moeten worden naar de sampling technieken. Soms kan de externe validiteit van steekproeven die gebaseerd zijn op random samples bevestigd worden. Soms komen de polls voor de verkiezingen overeen met de uitslagen van de verkiezingen. Het is echter vaak lastig om de accuraatheid van een steekproef te checken, omdat onderzoekers niet een hele bevolking kunnen onderzoeken om het ware percentage te onderzoeken. Het enige wat je wel kunt doen, is kijken of je sampling techniek goed is. Zolang er een random sample is gebruikt, dan kun je met meer vertrouwen hebben in de externe validiteit van je resultaten.
Externe validiteit is vaak erg belangrijk voor frequentie claims, maar externe validiteit is niet altijd top prioriteit van onderzoekers. Dat is bijvoorbeeld het geval als ze associatie en causale claims onderzoeken. Veel associatie of causale claims kunnen accuraat gedetecteerd worden met een convenience sample. Bij frequentie claims moet je je afvragen of het belangrijk is of een steekproef random is uitgevoerd. Is de reden dat een steekproef gebiased is relevant voor je claim of niet? Zijn de eigenschappen van een bevolking die een steekproef gebiased maken relevant voor wat je aan het meten bent? Als ze niet belangrijk zijn, dan kun je soms niet-representatieve steekproeven vertrouwen.
Een van de grootste mythes in onderzoek is dat grotere steekproeven beter zijn. Wanneer een fenomeen zeldzaam is, dan heb je niet een grote steekproef voor de analyse. Vaak is het zo dat onderzoekers genoeg hebben aan 1000 mensen wanneer ze een populatie van een land zo groot als de Verenigde Staten willen onderzoeken. Hoe groter de steekproef, hoe kleiner de margin of error (in een eerder hoofdstuk besproken). Echter, na een steekproefgrootte van 1000 mensen heb je veel meer mensen nodig om de margin of error maar een klein beetje accurater te maken (bij 1500 mensen is de margin of error ook 3% en bij 2000 mensen is het 2%). 1000 wordt daarom gezien als een optimale balans tussen moeite en accuraatheid. Een steekproef van 1000 mensen zorgt er voor dat de resultaten gegeneraliseerd kunnen worden naar de populatie, zolang de steekproef random uit is gevoerd. De steekproefgrootte is ook geen issue van externe validiteit, maar van statistische validiteit.
Associatie claims zijn claims die de relatie tussen twee gemeten variabelen beschrijven. Een bivariate correlatie wordt ook wel een bivariate associatie genoemd en het is een associatie die twee variabelen betreft. Om associaties te onderzoeken, moet men de eerste variabele onderzoeken en vervolgens de tweede variabele en dit moet gebeuren in dezelfde groep van mensen. Vervolgens worden er statistische methodes en grafieken gebruikt om de type relatie tussen de variabelen te weergeven. Relatief veel studies zijn correlationeel. Een voorbeeld van correlationeel onderzoek is het onderzoek van John Cacioppo naar internetliefde en tevredenheid in je huwelijk. Cacioppo en zijn collega’s waren geïnteresseerd in de relatie tussen het online ontmoeten van je echtgenoot en huwelijkstevredenheid. Zij stuurden een vragenlijst via de mail naar duizenden mensen die uSamp (een online onderzoekscentrum) gebruiken. De proefpersonen hebben vragen beantwoord over waar ze hun echtgenoot hebben ontmoet (online of niet online). Ook werd hun huwelijkstevredenheid gemeten door de Couple Satisfaction Index (CSI). Deze bevat onder andere de vraag ‘Geef de mate van geluk in je huwelijk aan’ en proefpersonen konden antwoord geven op een Likertschaal met zeven antwoordmogelijkheden (van heel erg ongelukkig tot perfect). Uit het onderzoek bleek dat mensen die elkaar online hadden ontmoet, hoger scoorden op de CSI. Uiteraard laat een correlationeel verband geen causaal verband zien en men moet dus voorzichtig zijn met het trekken van conclusies over dit onderzoek.
Nadat je alle data hebt verzameld, moet je de relatie tussen de twee gemeten variabelen beschrijven aan de hand van een spreidingsdiagram en de correlatiecoëfficiënt r. Wanneer je de twee variabelen tegen elkaar uit zet in een spreidingsdiagram en voor elk persoon de waardes als stippen noteert, dan kun je een lijn (laten) trekken door je puntenwolk. Als je lijn van linksonder naar rechtsboven loopt, dan spreken we van een positieve relatie. Een positieve relatie houdt in dat hoge scores op de ene variabele samen gaan met hoge scores op de andere variabele. Wanneer de lijn van linksboven naar rechtsonder loopt, dan is er sprake van een negatieve relatie. Hoge scores op de ene variabele gaan dan samen met lage scores op de andere variabele. De kracht van de correlatie kan aangeduid worden met de correlatiecoëfficiënt r. Deze loopt van -1 tot 1. Een correlatie van .10 of -.10 heeft een zwak effectgrootte. Een r van .30 of -.30 heeft een matige effectgrootte. Een correlatie van .50 of -.50 en groter heeft een grote effectgrootte. R laat dus de richting (positief of negatief) en sterkte van de relatie zien.
Hierboven is omschreven hoe de associatie tussen twee variabelen beschreven kan worden. Echter, je moet er wel om denken dat sommige variabelen categorisch zijn. In het voorbeeld dat gegeven werd over het onderzoek van Cacioppo is een van de variabelen een categorische variabele. Dat is de variabele die ging over het ontmoeten van je echtgenoot via internet. Mensen kunnen daar natuurlijk alleen maar ‘online’ of ‘offline’ op antwoorden. De waarden van een categorische variabele kunnen alleen maar in een categorie vallen. De andere variabele (huwelijkstevredenheid) was kwantitatief. Men kon immers kiezen uit zeven antwoordmogelijkheden.
Wanneer beide variabelen van een associatie gemeten worden met kwantitatieve schalen, dan is het gebruikelijk om spreidingsdiagrammen te maken. De data kan op die manier het best gerepresenteerd worden. Een spreidingsdiagram is niet handig als een van de variabelen categorisch is. De punten die personen voorstellen, komen onder elkaar te staan (verticaal dus) voor het online ontmoeten van een echtgenoot en ook verticaal voor het offline ontmoeten van een echtgenoot. Het is heel lastig om bij een categorische variabele aan het spreidingsdiagram te zien of de relatie positief of negatief is. Het is wellicht wel mogelijk om een spreidingsdiagram te maken van een categorische variabele, maar gebruikelijk is het niet. Het is handiger om een staafdiagram te maken. In een staafdiagram is elk persoon niet voorgesteld als een punt, maar de gemiddeldes voor elk categorie worden weergegeven. Met een staafdiagram kun je het verschil tussen de groepsgemiddelden onderzoeken.
Wanneer tenminste een van de variabelen in een associatie claim categorisch is, dan kunnen er verschillende statistische methodes gebruikt worden om de data te analyseren. Soms kan r gebruikt worden, maar het is gebruikelijker om te testen of de verschillen tussen de gemiddelden statistisch significant zijn. Dit wordt vaak gedaan met de t-test. Het lijkt misschien gek dat associatie claims weergeven kunnen worden met zowel spreidingsdiagrammen als staafdiagrammen of dat ze door verschillende statistische methodes beschreven kunnen worden. Het maakt niet uit welke soort grafiek of statistische maat je gebruikt; als beide variabelen gemeten zijn, dan is een studie correlationeel. Zoals eerder besproken (hoofdstuk 3), spreken we van een experiment als een van de variabelen gemanipuleerd is. Experimenten zijn beter voor causale claims. Een associatie claim wordt niet ondersteund door een bepaalde grafiek of een bepaalde statistische maat; het wordt ondersteund door een design van een studie, waarbij beide variabelen gemeten zijn.
De belangrijkste validiteiten die onderzocht moeten worden bij associatie claims, zijn constructvaliditeit en statistische validiteit. Soms kan men ook de externe validiteit onderzoeken. De interne validiteit is niet belangrijk bij associatie claims.
Omdat een associatie claim de relatie tussen twee gemeten variabelen beschrijft, is het belangrijk om naar de constructvaliditeit van beide variabelen te kijken. Men moet dus kijken hoe goed elk van de twee variabelen gemeten was. Je kunt je daarbij afvragen of de maat betrouwbaar is en of het meet wat het hoort te meten. Ook kun je je afvragen wat het bewijs voor face validity, discriminant, convergent en concurrent validiteit van de variabele is.
Wanneer je statistische validiteit van een associatie claim onderzoekt, dan wil je dus eigenlijk weten of en welke factoren een invloed hebben gehad op het spreidingsdiagram, correlatiecoëfficiënt r, staafgrafieken of verschillen van gemiddeldes die tot je associatie claim hebben geleid. Er moet gekeken worden naar effectgrootte, uitbijters in de data, restricties en statistische significantie van de relatie.
De effectgrootte kijkt naar de sterkte van een relatie. Immers, sommige associaties zijn sterker dan andere associaties. Wanneer er twee associaties zijn, dan is de associatie met de r die dichter bij de 1 ligt sterker. Sterke effectgroottes gaan samen met nauwkeurigere voorspellingen dan zwakke effectgroottes. Je voorspellingserror wordt ook lager wanneer de sterkte van effectgroottes toeneemt. Sterkere effectgroottes zijn over het algemeen ook belangrijker dan kleinere effectgroottes. Toch zijn er uitzonderingen op deze regel. Deze uitzonderingen hangen allemaal van de context af. Soms kan een kleine effectgrootte al belangrijk zijn. Als het neerkomt op leven en dood, dan kan een klein effectgrootte al belangrijk zijn. In een onderzoek naar hartaanvallen kreeg de helft van de proefpersonen één aspirine per dag en de andere helft van de groep kreeg een placebo. Het bleek dat een aspirine per dag geassocieerd werd met minder hartaanvallen, maar de effectgrootte was r = .03. In die groep mensen waren er 85 mensen minder die een hartaanval kregen dan in de placebogroep. Dit werd als een belangrijk resultaat gezien. Wanneer de uitkomst niet van levensbelang is (dus het onderzoek of je je echtgenoot online of offline hebt ontmoet), dan zal een kleine effectgrootte waarschijnlijk ook niet belangrijk zijn.
Onderzoekers kunnen natuurlijk niet alle personen uit een populatie onderzoeken en zij moeten daarom steekproeven gebruiken. Aan de hand van deze steekproeven worden er conclusies getrokken over de populatie. Vaak is het zo dat de resultaten van steekproeven en populatie elkaar spiegelen, maar dit is niet altijd het geval. Soms is er geen associatie tussen twee variabelen van een populatie, maar een onderzoek kan per toeval een associatie vinden in een steekproef. De correlatie van die steekproef is door toeval veroorzaakt. Dit gebeurt wel eens en we moeten ons dus altijd afvragen of er echt een associatie in de populatie is of dat er toevallig een associatie is gevonden in de steekproef.
Statistische significantie berekeningen geven een probabilistische schatting weer, p. De p zegt iets over de kans dat de associatie kwam van een populatie waarin de associatie nihil is. Als de kans kleiner is dan 5%, dan kunnen we er van uitgaan dat het heel onwaarschijnlijk is dat de resultaten kwamen uit een nihil-associatie. De correlatie wordt dan gezien als statistisch significant. Wanneer de resultaten een hoge p opleveren (.05 of hoger), dan zijn de resultaten niet statistisch significant. Dan kan een onderzoeker dus niet uitsluiten dat de resultaten gekomen zijn uit een populatie waarbij de associatie tussen variabelen nihil is. Significantie is ook gerelateerd aan effectgrootte: hoe sterker de correlatie (grote effectgrootte), hoe groter de kans dat de correlatie statistisch significant zal zijn. Statistische significantie berekeningen hangen niet alleen af van effectgrootte, maar ook van steekproefgrootte. Een kleine effectgrootte zal statistisch significant zijn als het uit een hele grote steekproef (vanaf 1000 proefpersonen) komt. Een kleine steekproef wordt makkelijker beïnvloed door kans dan grote steekproeven. Zwakke correlaties die gebaseerd zijn op kleine steekproeven zullen eerder het resultaat zijn van kans en ze zullen eerder als niet significant bestempeld worden. In wetenschappelijke artikelen kun je lezen over de significantie van een onderzoek. Je kunt een significantie zien aan de p, maar soms wordt een statistisch significant resultaat ook weergeven met een asterix (dat is een *).
Uitbijters zijn extreme scores. Het zijn scores die totaal afwijken van de andere scores. Uitbijters kunnen soms een groot effect hebben op de correlatiecoëfficiënt r. De aanwezigheid van een uitbijter kan er voor zorgen dat de correlatie verschuift (bijvoorbeeld van r = .26 naar r = .37). Uitbijters kunnen problemen opleveren voor associatie claims. In bivariate correlaties zijn uitbijters vooral problematisch wanneer ze extreme scores op beide variabelen hebben. Wanneer je een associatie claim onderzoekt, moet je je dus eerst afvragen of er uitbijters zijn in een steekproef. Deze uitbijters zou je kunnen vinden door te kijken naar spreidingsdiagrammen. Uitbijters zijn vooral belangrijk om naar te kijken als je een kleine steekproef hebt. Wanneer een steekproef bestaat uit 600 proefpersonen die vrijwel allemaal in het midden scoren, dan zal één uitbijter die extreem scoort (of helemaal links of helemaal rechts) niet veel invloed hebben. Echter, wanneer je een steekproef van 16 personen hebt die in het midden scoren, dan kan een uitbijter die extreem scoort een grote invloed hebben.
Wanneer er in correlationeel onderzoek niet een heel bereik van scores is voor een van de variabelen in de associatie, dan kan de correlatie kleiner lijken dan het in werkelijkheid is. Dit wordt een range restrictie genoemd. Dat houdt dus in dat je niet alle waarden hebt weergeven die er beschikbaar zijn. Als onderzoekers vermoeden dat er een range restrictie is, dan kunnen zij besluiten om een statistische techniek toe te passen, correctie voor range restrictie genaamd. De formule wordt niet in dit boek gegeven, omdat de schrijvers vinden dat het te moeilijk is en studenten het niet hoeven te weten. Range restrictie kan aanwezig zijn wanneer er, voor welke reden dan ook, weinig variantie is in een van de variabelen. Wanneer men kijkt naar het inkomen van ouders en de schoolprestaties van een kind, dan moet men naar alle inkomens kijken. Het is niet de bedoeling dat je alleen ouders opneemt in het steekproef die een middel inkomen hebben. Ouders met een laag en hoog inkomen zouden ook opgenomen moeten worden.
Als een onderzoek vermeldt dat er geen relatie is tussen variabelen, dan kan het zo zijn dat de relatie daadwerkelijk nihil is. Echter, in sommige gevallen kan het ook zo zijn dat de relatie curvilineair is. Dit houdt in dat de relatie tussen de twee variabelen niet als een rechte lijn voorgesteld kan worden. Het kan zijn dat de relatie in het begin positief is (hoge x-variabele gaat samen met een hoge y-variabele), maar op een gegeven moment negatief wordt (hoge x-variabele gaat samen met een lage y-variabele). Een voorbeeld hiervan is gezondheidszorg. Naarmate iemand ouders wordt, heeft hij/zij tot een bepaald punt minder gezondheidszorg (o.a. doktersbezoeken) nodig. Echter, vanaf een bepaalde leeftijd (ongeveer 60 jaar) neemt het nodig hebben van de gezondheidszorg weer toe. Er bestaat dus een curvilineaire relatie tussen leeftijd en gezondheidszorg.
Het is belangrijk om stil te staan bij causaliteit. Veel leken associëren correlaties namelijk met causaliteit. Mensen die geen verstand hebben van psychologie en over het onderzoek van internet dating en huwelijkstevredenheid hebben gelezen, zullen onterecht hun single vrienden vertellen om zich in te schrijven bij een datingsite. Alsof dat er voor kan zorgen dat je een gelukkig huwelijk zal krijgen. Zij hebben dus onterecht causaliteit toegeschreven aan een correlatie. Je moet dus altijd beseffen dat correlatie geen oorzaak is! Een normale associatie kan geen oorzaak tot stand brengen. Voor causaliteit is er temporele precedentie, interne validiteit en covariantie van oorzaak en gevolg nodig. Bij een correlatie tussen twee variabelen weet je niet altijd welke variabele er eerst kwam en of de ene variabele de andere veroorzaakt heeft. Bovendien weet je ook niet of er nog een derde variabele was die invloed heeft uitgeoefend op een of beide variabelen. Pas als aan alle drie voorwaarden van causaliteit is voldaan, kan men spreken van een causaal verband. In een associatie claim zal er nooit voldoen kunnen worden aan alle drie voorwaarden. Causaliteit kan alleen door middel van experimenten onderzocht worden. Wanneer een derde variabele voor een correlatie zorgt tussen twee variabelen, dan spreekt men van een spurious associatie.
Bij externe validiteit vraag je je af of een associatie claim gegeneraliseerd kan worden naar andere mensen, tijden en plaatsen. Het kan zo zijn dat een bivariate correlatie onderzoek geen random steekproef heeft gebruikt, maar dat wil niet zeggen dat je de associatie weg moet schrijven. De resultaten van een onderzoek kun je gewoon accepteren en het gedeelte van de generalisatie kun je aan vervolgonderzoek over laten. Veel associaties generaliseren echter wel naar de populatie.
Wanneer er sprake is van een associatie onderzoek en de relatie tussen de twee variabelen verandert doordat een andere variabele een invloed uitoefent, spreken we van een moderator. Moderatoren kunnen ons informatie geven over de externe validiteit. Wanneer een associatie door een derde variabele gemodereerd wordt, dan kunnen sommige resultaten wellicht niet gegeneraliseerd worden naar andere settings of groepen mensen.
Associatie claims kunnen veel informatie geven. Een bekend voorbeeld van een associatie is dat kinderen die veel geweld op tv zien zich ook agressief gedragen. Toch zegt dat niks over de causaliteit. Wij zijn vaak niet alleen maar geïnteresseerd in correlatie, wij willen weten wat de oorzaak was van het gevolg. Je wilt echt weten of kinderen agressief worden door het kijken naar gewelddadige tv-programma’s. De reden dat we zulke dingen willen weten, is natuurlijk omdat wij een interventie willen bedenken. Als kinderen echt gewelddadig worden door gewelddadige programma’s, dan zouden ouders ervoor moeten zorgen dat ze deze programma’s niet meer kijken. De beste manier om causaliteit te testen, is door een experiment te gebruiken. Echter, soms kom je al een heel eind door andere technieken te gebruiken. In dit hoofdstuk worden technieken besproken die verder dan correlaties gaan en causaliteit benaderen.
In het vorige hoofdstuk werd bivariate correlationeel onderzoek besproken. Dat onderzoek keek telkens alleen naar twee gemeten variabelen. Longitudinaal onderzoek en multiple-regressie designs gaan over meer dan twee gemeten variabelen en ze worden daarom ook wel multivariate designs genoemd. Deze designs zijn niet de oplossing voor het causaliteitscriterium, maar ze zijn erg nuttig, worden vaak gebruikt en zijn een oplossing wanneer men geen experimenten kan gebruiken. Het voorbeeld van gewelddadige programma’s kijken en agressief gedrag is een voorbeeld van bivariate correlationeel onderzoek. Deze voldoet niet aan de drie criteria voor causaliteit. Er kan in dat onderzoek wel vastgesteld worden dat er covariantie is, omdat onderzoek heeft aangetoond dat de correlatie tussen het kijken van gewelddadige programma’s en agressief gedrag .35 is. Echter, het is niet mogelijk om met dit design vast te stellen wat er eerst kwam: de gewelddadige programma’s kijken en dan agressief worden of agressief zijn en gewelddadige programma’s kijken? Ook is er geen goede interne validiteit, omdat de relatie tussen gewelddadige programma’s kijken en agressief gedrag verklaard zou kunnen worden door een derde variabele. Met bivariate designs kun je dus niet goed stellen wat er eerst kwam en of andere variabelen invloed hebben uitgeoefend op de relatie.
Longitudinale designs kunnen temporele precedentie vaststellen door dezelfde variabelen bij dezelfde persoon op verschillende tijdspunten te meten. Longitudinale designs worden vaak gebruikt in de ontwikkelingspsychologie om de veranderingen in bepaalde karaktereigenschappen van mensen te bestuderen. Eron voerde in de jaren ’60 en ’70 van de vorige eeuw een onderzoek uit naar gewelddadige programma’s kijken en agressiviteit. Hij vroeg kinderen op een bassischool wat hun vier favoriete tv-programma’s waren en hij vroeg elk kind uit de klas ook welke kinderen uit de klas het meeste ruzie maakten, sloegen, gemeen waren en duwden. Tien jaar later stelde hij weer dezelfde vragen aan dezelfde kinderen (die nu tieners waren). Dit onderzoek is longitudinaal, omdat Eron dezelfde variabelen in dezelfde groep mensen 10 jaar later mat. Ook is het een voorbeeld van een multivariate correlationeel onderzoek, omdat het vier variabelen mat: agressieve programma’s kijken op tijdstip 1, agressieve programma’s kijken op tijdstip 2, agressie op tijdstip 1 en agressief op tijdstip 2.
Er zijn meer dan twee variabelen betrokken in een multivariate correlationeel design en je design zal daarom ook meerdere correlaties geven. Dit kunnen cross-sectionele correlaties, autocorrelaties en cross-lag correlaties zijn. De eerste twee correlaties zijn cross-sectionele correlaties en zij testen of twee variabelen die op hetzelfde tijdspunt zijn gemeten, correleren. Zo bleek uit het onderzoek van Eron dat het kijken van gewelddadige programma’s op tv op jonge leeftijd en agressiviteit op jonge leeftijd correleren. Daarna wordt er gekeken of dezelfde variabelen met elkaar correleren op verschillende tijdspunten. Dit noemen we autocorrelaties. Er werd dus gekeken of voorkeur voor gewelddadige programma’s in de jonge jaren correleert met voorkeur voor gewelddadige programma’s in de tienerjaren en of agressief gedrag in de jonge jaren correleert met agressief gedrag in de tienerjaren. Uit het onderzoek van Eron bleek dat gewelddadige programma’s kijken over langere tijd niet stabiel was, maar dat agressie op jonge leeftijd wel correleerde met agressie in de tienerjaren. Onderzoekers zijn het meest geïnteresseerd in cross-lag correlaties en dat zijn correlaties die kijken of de eerdere meting van een variabele geassocieerd is met een latere meting van een andere variabele. In het onderzoek uit het voorbeeld wilde men weten of het kijken van gewelddadige programma’s op jonge leeftijd geassocieerd was met agressie in de tienerjaren en ook of agressie op jonge leeftijd geassocieerd was met het kijken van gewelddadige programma’s in de tienerjaren. Deze cross-lag correlatie laat zien hoe mensen met de tijd veranderen en het toont de temporele precedentie aan. Uit het onderzoek van Eron was maar een cross-lag correlatie significant en dat was dat kinderen die een voorkeur hadden voor gewelddadige programma’s op jonge leeftijd ook agressiever waren in de tienerjaren. Kinderen die agressief waren op jongere leeftijd hadden geen voorkeur voor gewelddadige programma’s in de tienerjaren. Deze resultaten veronderstellen dat de voorkeur voor gewelddadige programma’s (en dus niet agressie) er eerst was.
Longitudinaal onderzoek kan bewijs leveren aan de causaliteit van een relatie. Zo tonen correlaties in het onderzoek aan dat er covariantie is. Ook kunnen longitudinale studies helpen met de temporale precedentie, omdat elke variabele minimaal op twee tijdspunten is gemeten. Onderzoekers kunnen op die manier zien wat de verschillende patronen zijn en aan de hand daarvan kunnen zij bepalen of variabele x of variabele y eerst kwam. Echter, longitudinale studies kunnen een derde variabele niet uitsluiten. Als er alleen maar naar 2 variabelen over 2 tijdspunten wordt gekeken, dan kun je niet buitensluiten dat een derde variabele invloed zou kunnen hebben gehad op de relatie. Toch kunnen longitudinale studies een onderzoek zo opzetten, dat ze toch enkele derde variabelen uit kunnen sluiten. In het onderzoek van Eron werden jongens en meisjes apart onderzocht. Hij probeerde er op die manier voor te zorgen dat de mogelijke derde variabelen – geslacht- geen invloed zou hebben op de resultaten.
Sommige mensen zullen zich afvragen waarom onderzoekers van longitudinale studies zo veel moeite doen om dezelfde proefpersonen tien jaar later weer op te sporen en niet gewoon voor een experiment kiezen. De reden is dat mensen vaak niet toegeschreven kunnen worden aan condities. Je kunt een persoon niet opdragen wat zijn lievelingsprogramma op de televisie moet zijn. Het is soms lastig om variabelen te manipuleren. Daarnaast kan het in sommige gevallen onethisch zijn om personen aan een bepaalde groep toe te schrijven. Zo zou het onethisch zijn geweest als Eron kinderen toegewezen had aan de groep die gewelddadige programma’s op tv moest kijken.
In een onderzoek kwam naar voren dat het hebben van lange pauzes (meer dan 15 minuten) samen hing met beter gedrag in kinderen. Maar wat is de causale link? Wat kwam er eerst? Gedragen kinderen zich beter doordat ze langer pauze hebben gehad of worden brave kinderen beloond met een langere pauze? Daarnaast moet je je ook afvragen of er derde variabelen aanwezig zijn. Het zou zomaar kunnen dat er een of meerdere variabelen zijn die een invloed hebben gehad op de relatie tussen de duur van een pauze en goed gedrag. Met multipele-regressie analyses kun je enkele derde variabelen uitsluiten. Barros en haar collega’s vroegen aan leerkrachten van verschillende scholen om aan te geven hoe lang hun leerlingen pauze hadden en zij vroegen de leerkrachten ook om een vragenlijst in te vullen over het (problematische) gedrag van leerlingen. Daarnaast keken de onderzoekers ook naar hoeveel kinderen er in de klas zaten, het inkomen van de ouders en of de school een gewone of privéschool was. Dit maakte het onderzoek een multivariate correlationeel onderzoek.
Met multivariate designs kunnen onderzoekers kijken of een relatie tussen twee variabelen blijft bestaan wanneer een derde variabel constant wordt gehouden. Je zou zo’n derde variabele op kunnen splitsen in verschillende subgroepen. Stel je neemt inkomen van ouders als derde variabele. Je zou dit op kunnen splitsen in laag inkomen, midden inkomen en hoog inkomen. Vervolgens kun je kijken of de relatie tussen gedragsproblemen en duur van pauzes blijft bestaan in elk van deze subgroepen.
In deze designs wordt er gekeken naar drie of meer variabelen. Eerst moet men beslissen welke variabele het meest interessant is. Dit wordt de afhankelijke variabele of criterion variabele genoemd. In het onderzoek over pauzes en probleemgedrag waren onderzoekers het meest geïnteresseerd in probleemgedrag. De andere variabelen worden onafhankelijke variabelen of predictor variabelen genoemd. Wanneer je in SPSS een regressie laat uitvoeren, krijg je ook een regressie tabel. In je regressie tabel moet je kijken naar de bèta -waarden. Bèta laat de richting en sterkte van de relatie tussen predictor en criterion variabele zien, tijdens het constant houden van de andere predictor variabelen (heel belangrijk). Het lijkt op een r, maar het voegt nog een extra dimensie toe. Een negatieve bèta duidt op een negatieve relatie en een positieve bèta duidt op een positieve relatie. Een hoge waarde betekent dat de relatie ook sterker is dan een lage waarde. Een bèta is gestandaardiseerd en de eenheden van de verschillende predictor variabele (bijvoorbeeld euro, minuten en centimeter) zijn allemaal gestandaardiseerd tot een maat. Een bèta waarde kan veranderen wanneer andere predictor variabelen worden toegevoegd. Daarnaast staat er vaak in een kolom naast de bèta waarden ook wat de significantie en de p-waarde is van de bèta. Wanneer de p gelijk of hoger is dan .05, dan is bèta niet significant. Dat betekent dat de gevonden associatie tussen een predictor variabele en criterion variabele toevallig gevonden is in het onderzoek en waarschijnlijk niet bestaat in de populatie.
Wat als je naar meerdere variabelen kijkt die een invloed kunnen hebben op de relatie tussen een criterion en predictor variabele? Dan gelden dezelfde regels weer voor bèta. De bèta-waarde van een variabele zegt al iets over de relatie tussen die predictor variabele en criterion variabele, gecontroleerd voor de andere predictor variabelen die in het model opgenomen zijn. Het is handig om meerdere predictor variabelen in een onderzoek toe te voegen, zodat je met meer zekerheid kan stellen (of niet) dat een relatie niet beïnvloed wordt door een derde variabele. Wat ook handig is aan het toevoegen van meerdere predictor variabelen, is dat je aan de grootte van de bèta-waarden kunt zien welke factoren een sterkere invloed hebben op de afhankelijke variabelen. Kijk dus goed naar de bèta en haal de bèta niet door elkaar met de ongestandaardiseerde b. Dat is een waarde die ook vaak in een regressietabel weergegeven wordt, maar die dus kijkt naar waarden die niet gestandaardiseerd zijn. Je zou dus niet elke variabele met elkaar kunnen vergelijken aan de hand van b, want je kunt niet euro’s met centimeter of minuten vergelijken.
In populaire tijdschriften of kranten worden vaak ook resultaten van een onderzoek uitgelicht. Vaak is het wel zo dat termen zoals ‘bèta,’ ‘p’ en ‘significantie’ niet genoemd worden. Toch kun je aan de hand van enkele termen zien dat het gaat om een multipele regressie. Termen zoals ‘controleren voor andere variabelen,’ ‘rekening houden met andere variabelen,’ en ‘correctie voor andere variabelen’ laten zien dat een multipele regressie in het onderzoek werd gebruikt.
Ook al voeg je 20 variabelen toe die als potentiële derde variabelen gezien kunnen worden, dan betekent het niet dat je aan alle voorwaarden voor causaliteit hebt voldaan. Multipele regressie designs kunnen bepaalde derde variabelen uitsluiten, maar ze kunnen niet temporele precedentie vaststellen. Daarnaast kunnen ze ook niet controleren voor derde variabelen die niet opgenomen zijn in het onderzoek. Het kan voor komen dat onderzoekers er zich niet bewust van zijn dat er een bepaalde variabele is die invloed uit zou kunnen oefenen op de relatie tussen de criterion en predictor variabele. Deze variabele zal dan niet opgenomen worden in het onderzoek en de conclusie die men trekt aan de hand van de resultaten van het onderzoek zal vertekend zijn. Het probleem met potentiële derde variabelen kan eigenlijk alleen maar opgelost worden door experimenten uit te voeren. Door het random toeschrijven van proefpersonen aan bepaalde condities, neem je derde variabelen weg. Alleen experimenten kunnen causaliteit vaststellen.
Longitudinale studies stellen temporele precedentie vast. Multiple regressie analyses stellen temporele precedentie vast. In correlationeel onderzoek kan er nog iets gebruikt worden, waarmee je de causaliteit van een relatie kunt benaderen. Dat zijn de pattern en parsimony. Parsimony is de mate waarin een goede wetenschappelijke theorie de meest simpele verklaring kan bieden voor een fenomeen. In causale claims refereert parsimony naar de simpelste verklaring voor een datapatroon. Dat is dus de beste verklaring waar je zo min mogelijk uitzonderingen of kwalificaties maakt.
Een bekend fenomeen dat vaak onderzocht is, zal als voorbeeld gebruikt worden. Tientallen jaren geleden zag men in dat er meer rokers waren die longkanker hadden dan niet-rokers. Fabrikanten van sigaretten wilden natuurlijk niet dat hun verkoop zou dalen en zij beweerden dat er andere factoren waren die invloed hadden op de gevonden correlatie tussen roken en longkanker. Multipele regressie analyses zouden bepaalde derde variabelen uit kunnen sluiten, maar je kunt niet variabelen uitsluiten die je niet in je onderzoek opneemt. Ook kun je geen experimenten uitvoeren, omdat het niet ethisch is om bepaalde proefpersonen toe te schrijven aan een roker conditie. De enige gegevens die onderzoekers hadden, waren gegevens uit correlationeel onderzoek. Met de correlationele gegevens moest men een simpel mechanisme bedenken. Het meest logische was om te zeggen dat er in de rook van sigaretten chemicaliën zitten die giftig zijn wanneer ze in contact komen met menselijk weefsel. Hoe meer contact een persoon heeft met deze chemicaliën, hoe meer hij/zij blootgesteld wordt aan de giftige stoffen. Aan de hand hiervan konden voorspellingen worden gemaakt (zoals dat het stoppen met roken de kans op kanker vermindert) en getest. De kracht van het patroon moet ook getest worden. Wetenschappers combineren vaak methoden en resultaten om causale theorieën te ontwikkelen en te testen. Journalisten moeten niet alleen maar een deel van het onderzoek naar voren brengen, maar ook vermelden wat eerder onderzoek heeft gevonden en zij moeten de context ook goed beschrijven.
Wanneer er een relatie vast is gesteld, dan willen wetenschappers nog verder gaan. Zij vragen zich af waarom iets gebeurd. Deze verklaringen voor causale relaties bevatten vaak een mediator. Wanneer variabele x direct een invloed heeft op variabele y, maar ook via variabele z kan gaan en zo indirect invloed uitoefenen op variable y, dan noemen we variabele z een mediator. Een onderzoek hoeft niet correlationeel van aard te zijn om een mediator te bevatten. In experimenteel onderzoek kunnen er ook mediators voor komen. Vaak is het wel zo dat een mediator goed geanalyseerd kan worden door multivariate methodes. Mediatoren lijken op de derde variabele. Zo kunnen beide door multiple regressie onderzocht worden. Toch verschillen deze twee dingen van elkaar. Een derde variabele is extern aan de twee variabelen in de originele bivariate relatie en het wordt vaak als een storende variabele gezien. Een mediator is intern aan het causale verband en het wordt door onderzoek juist als een interessante variabele gezien. Haal mediator en moderator (in hoofdstuk 8 besproken), niet door elkaar.
Multipele-regressie analyses helpen met het derde variabele probleem, longitudinaal onderzoek stelt temporele precedentie vast en multivariate designs hebben dus enig bewijs voor interne validiteit. Voor multivariate designs is het ook belangrijk om de constructvaliditeit te onderzoeken door te kijken naar hoe goed elke variabele gemeten was. Om de externe validiteit te onderzoeken, kan men kijken naar de proefpersonen. Zijn deze random gekozen? Zijn er personen uit verschillende lagen van de bevolking gebruikt of hebben onderzoekers bijvoorbeeld alleen maar de mensen met een laag inkomen onderzocht? Daarnaast kan statistische validiteit onderzocht worden door te kijken naar de statistische data die de onderzoekers hebben aangedragen. Hoe zit het met de effectgrootte en significantie? Ook moet er gekeken worden naar uitbijters en curvilineaire relaties.
In de psychologie betekent experiment dat een onderzoeker minimaal een variabele manipuleert en een andere variabele meet. Experimenten kunnen in een laboratorium plaats vinden of ergens anders. Een gemanipuleerde variabele is een variabele dat gecontroleerd wordt. Zo kan een onderzoeker iemand in een bepaalde conditie van een variabele indelen. Gemeten variabelen zijn genoteerde metingen van gedrag of denkbeelden, zoals zelf rapportages, gedragsobservaties of fysiologische metingen. Tijdens het experiment noteren de onderzoekers wat er gebeurt. In een experiment is de gemanipuleerde variabele een onafhankelijke variabele. De gemeten variabele is de afhankelijke variabele. Hoe een proefpersoon zich gedraagt op de gemeten variabele hangt af van de level van de onafhankelijke variabele. Onderzoekers hebben minder controle over de afhankelijke variabele dan de onafhankelijke variabele. Ze manipuleren de onafhankelijke variabele en zien wat er gebeurt met de afhankelijke variabele. Wanneer de waarden in een grafiek worden uitgedrukt, dan komt de onafhankelijke variabele bijna altijd op de x-as en de afhankelijke variabele op de y-as. Wanneer onderzoekers een onafhankelijke variabele manipuleren, dan moeten ze er voor zorgen dat er maar een ding tegelijkertijd varieert. Naast de onafhankelijke variabele moeten onderzoekers ook voor potentiële derde variabelen controleren door de factoren tussen de levels van de onafhankelijke variabele constant te houden. Elke variabele die een onderzoeker met opzet constant houdt wordt een controle variabele genoemd. Eigenlijk zijn controle variabelen geen variabelen, want ze variëren niet, de levels worden constant gehouden. Deze controle variabelen zijn echter wel essentieel in experimenten. Ze zorgen er voor dat onderzoekers een oorzaak van een potentiële andere oorzaak kunnen onderscheiden en zo elimineren ze alternatieve verklaringen van de resultaten. Controle variabelen zijn belangrijk voor de interne validiteit.
Onderzoekers kunnen aan de hand van experimenten causale claims steunen. De drie regels voor causaliteit waren al eerder behandeld. Experimenten voldoen aan de drie regels voor causaliteit.
In experimenten komen vergelijkingsgroepen voor. Experimenten zijn dus betere bronnen van informatie dan je eigen ervaring, omdat je je eigen ervaring niet echt kunt vergelijken met een andere groep. Experimenten manipuleren een onafhankelijke variabele en elke onafhankelijke variabele heeft twee levels, dus ware experimenten proberen altijd naar covariantie te kijken. Een onafhankelijke variabele kan op bepaalde manieren covarianties laten zien. Een controle groep is een level van de onafhankelijke variabele die ‘geen behandeling’ of een neutrale conditie voorstelt. Wanneer een onderzoek een controle groep heeft, dan wordt/worden de andere level/levels de behandelgroep(en) genoemd. In experimenten kan temporele precedentie ook gecontroleerd worden. immers, onderzoekers manipuleren eerst een onafhankelijke variabele en kijken dan naar de afhankelijke variabele. Een experiment zorgt er dus voor dat de oorzaak voor het effect komt. Dit maakt experimenten ook superieur aan correlationele designs.
Voor causale claims is interne validiteit belangrijk. Een onderzoek heeft goede interne validiteit als het verzekert dat de causale variabele en niet andere factoren verantwoordelijk zijn voor de verandering in de uitkomst variabele. Alternatieve verklaringen worden confounds genoemd en ze vormen een bedreiging voor de interne validiteit. Er zijn verschillende confounds voor interne validiteit.
Een 'design confound' is een onderzoekers vergissing in het ontwerpen van de onafhankelijke variabele. Het is een tweede variabele die varieert tegelijkertijd met de onafhankelijke variabele waar een onderzoeker in geïnteresseerd is. Het kan dus als een alternatieve verklaring voor de resultaten gezien worden en dat is niet goed. Met een design confound heeft een experiment slechte interne validiteit en het kan daardoor geen causale claims ondersteunen. Je moet echter wel uitkijken met het zeggen dat een onderzoek een design confound heeft. Niet alle potentieel problematische variabelen zijn confounds. Wanneer er systematische variabiliteit vertoond wordt in de onafhankelijke variabele, dan kan een design confound problematisch zijn. Stel dat er twee condities (een met een rode kamer en de andere met een groene kamer) zijn en dat in beide condities proefpersonen anagrammen op moeten lossen. Als in de ene groep mensen zaten die heel goed waren in het oplossen van anagrammen en in de andere groep mensen zaten die heel slecht waren in het oplossen van anagrammen, dan is dat een confound. Er kan dan bijvoorbeeld niet gesteld worden dat mensen beter zijn in het oplossen van anagrammen wanneer ze in een groene omgeving zijn dan wanneer ze omringd zijn met rode dingen.
Een selectie effect gebeurt in een experiment wanneer de soort proefpersonen in een level van de onafhankelijke variabelen systematisch anders zijn dan de proefpersonen in een andere level van de onafhankelijke variabelen. Selectie effecten kunnen gebeuren wanneer onderzoekers de proefpersonen laten kiezen in welke groep ze willen zitten. Selectie effecten kunnen ook resulteren in dat de onderzoeker een bepaald type persoon (bijvoorbeeld vrouwen) in een conditie toeschrijft en een andere type persoon (mannen) in een andere conditie.
Goede experimenten gebruiken vaak random toeschrijving om selectie effecten te vermijden. In sommige onderzoeken kan een wetenschapper met een dobbelsteen gooien om te bepalen in welke conditie elk proefpersoon terecht komt. Zo heeft iedereen een gelijke kans om in een bepaalde conditie te komen. Proefpersonen verschillen in hun motivatie, intelligentie en andere dingen en random toeschrijving kan er voor zorgen dat deze verschillen wat gelijker verspreid worden. De experimentele groepen zullen vrijwel gelijk worden.
In de praktijk werkt random toeschrijving niet altijd perfect. Dit is meestal het geval bij kleine groepen. Onderzoekers kunnen daarom besluiten om matched groepen te gebruiken. Om matched groepen te maken moeten de wetenschappers een bepaalde variabele die belangrijk zou kunnen zijn voor de afhankelijke variabele meten. Dit kan bijvoorbeeld IQ zijn. Wanneer je vier groepen hebt, dan kijk je naar de vier personen met het hoogste IQ. Uit die matched groep wordt elk proefpersoon random toegeschreven aan een van de vier groepen. Dan kijk je naar de volgende vier proefpersonen met een hoog IQ en zo ga je door. Matchen kan er voor zorgen dat iedereen random ingedeeld wordt en dat de groepen gelijk zijn in een bepaalde variabele. Het nadeel van een matched groep is dat er een extra stap gedaan moet worden, in dit geval een IQ-test.
Experimenten kunnen vele vormen aannemen. In een 'independent-groups design' worden verschillende groepen proefpersonen in verschillende levels van de onafhankelijke variabele geplaatst. Dit wordt ook wel een 'between-group design' genoemd. In een 'within-groups design' (ook wel 'within-subjects design' genoemd) is er maar een groep van proefpersonen en elk persoon wordt aan elk level van de onafhankelijke variabele blootgesteld. Twee vormen van de independent-groups design zijn de posttest-only design en de pretest/posttest design. In het 'posttest-only design' worden proefpersonen op een random manier in de groepen van de onafhankelijke variabele ingedeeld en ze worden één keer op de afhankelijke variabele getest. Het posttest-only design voldoet aan alle drie criteria van causaliteit. In een 'pretest/posttest design' worden proefpersonen op een random manier in twee groepen ingedeeld en ze worden twee keer getest op de afhankelijke variabele: één keer voor de blootstelling aan de onafhankelijke variabele en één keer na de blootstelling met de onafhankelijke variabele. Onderzoekers kunnen een pretest/posttest design gebruiken als ze willen evalueren of de random toeschrijving de groepen gelijk heeft gemaakt. Dit wordt vooral gedaan wanneer groepen klein zijn en onderzoekers kunnen er deze manier zeker van zijn dat er geen selectie effect is. Zo’n pretest-posttest design kan ook laten zien hoe proefpersonen in de experimentele conditie zijn veranderd met de tijd. Zo’n pretest/posttest design is handig, maar het kan niet altijd uitgevoerd worden. Echter, het posttest-only design is al een goede manier om onderzoek te doen.
Er zijn twee typen van within-groups designs. In het 'concurrent-measures design' worden proefpersonen blootgesteld aan alle levels van een onafhankelijke variabele op ongeveer hetzelfde moment en één voorkeur van een gedraging of denkbeeld is de afhankelijke variabele. In een onderzoek keken wetenschappers of baby’s een voorkeur hadden voor mannengezichten of vrouwengezichten. Ze lieten baby’s tegelijkertijd kijken naar foto’s van mannen- en vrouwengezichten. Een onderzoeker mat naar welk gezicht ze het langst keken. De onafhankelijke variabele was het geslacht van het gezicht en de baby’s waren blootgesteld aan beide levels van de onafhankelijke variabele op hetzelfde moment. De voorkeur van de baby’s was de afhankelijke variabele. In een 'repeated-measures design' worden proefpersonen meer dan één keer op de afhankelijke variabele gemeten- dus na blootstelling aan elk level van de onafhankelijke variabele.
Het voordeel van een within-groups design is dat het verzekerd dat de proefpersonen in de twee groepen gelijk zullen zijn, omdat het dezelfde proefpersonen zijn. Elk proefpersoon kan vergeleken worden met zichzelf. Een persoon is zijn/haar eigen controle persoon. Met zo’n design kunnen onderzoekers ook met meer power zeggen dat er een effect is te zien tussen de condities. Omdat alle overige verschillen (o.a. geslacht, woonomstandigheden, persoonlijkheid en motivatie) gelijk worden gehouden, is het waarschijnlijker dat onderzoekers een effect van de manipulatie van de onafhankelijke variabele zullen vinden, als er een is. Power verwijst naar de mogelijkheid van een studie om een statistisch significant resultaat te laten zien wanneer een onafhankelijke variabele echt een effect heeft in de populatie. Een within-groups design kan ook als een fijne manier van onderzoek gezien worden, omdat er minder proefpersonen nodig zijn.
Within-group design kunnen de interne validiteit soms ten slechte komen. Het blootgesteld worden aan een conditie kan veranderen hoe proefpersonen reageren op de andere condities. Deze responsen worden order effecten genoemd. Order effecten komen voor wanneer de blootstelling aan een level van de onafhankelijke variabele een invloed heeft op de responsen van de volgende level van de onafhankelijke variabele. Deze order effecten zijn confounds. Order effecten kunnen bestaan uit oefening ('practice') effecten. Deze effecten worden ook wel vermoeidheid ('fatigue') effecten genoemd. Een lange sequentie kan er toe leiden dat iemand beter wordt in een taak of het saai gaat vinden aan het einde van de taak. Order effecten kunnen ook 'carryover' effecten bevatten. Een vorm van contaminatie kan van de ene conditie op de andere conditie overwaaien. Na het poetsen van je tanden zullen dingen die je drinkt wat anders smaken dan je gewend bent.
Om order effecten te voorkomen, kunnen onderzoekers 'counterbalancing' toepassen. Dit houdt in dat onderzoekers de levels van de onafhankelijke variabelen in verschillende volgordes aan proefpersonen presenteren. Wanneer onderzoekers counterbalancing willen gebruiken, dan moeten ze de proefpersonen in groepen verdelen. Elke groep krijgt een van de volgordes. Door random toewijzing wordt er bepaald welke groep de ene volgorde krijgt en welke groep de andere. Een experiment kan vol of partieel counterbalanced worden. Wanneer een within-groups experiment maar twee of drie levels van een onafhankelijke variabele heeft, dan kunnen onderzoekers een full counterbalance toepassen. In deze worden alle mogelijke volgordes gedaan. Wanneer er drie condities zijn- 1, 2 en 3- dan wordt elke groep proefpersonen random toegewezen aan een van de volgende zes condities:
Wanneer het aantal condities toeneemt, neemt ook het aantal mogelijke volgordes drastisch toe. Wanneer onderzoekers meerdere mensen in een volgorde willen, dan hebben ze veel proefpersonen nodig. Het is dus niet altijd praktisch om een full counterbalance te doen. In een 'partial counterbalance' worden alleen een paar van de mogelijke conditie volgordes gerepresenteerd. De condities kunnen dan op een random manier gepresenteerd worden aan proefpersonen (met behulp van een computer).
Within-groups designs kunnen covariantie vaststellen, ze kunnen voor temporele precedentie zorgen en als er voor order effecten gecontroleerd wordt, dan zit het ook goed met de interne validiteit van deze designs. Soms kiezen onderzoekers toch niet voor within-groups designs. Een van de redenen is vanwege de order effecten. Een ander nadeel van zulke designs is dat het niet altijd praktisch is. Een derde probleem gebeurt wanneer mensen alle levels van een onafhankelijke variabele zien en daardoor hun gedrag veranderen (omdat ze doorhebben of denken door te hebben waar het onderzoek over gaat).
In een experiment zijn er twee constructen geoperationaliseerd: de onafhankelijke variabele en de afhankelijke variabele. Construct validiteit zegt iets over hoe goed de variabelen gemeten en gemanipuleerd zijn. Wanneer je kijkt naar de construct validiteit van een experiment, dan moet je zowel naar de afhankelijke als de onafhankelijke variabele kijken. In hoofdstuk 5 en 6 is besproken hoe dit gedaan kan worden. Soms gebruiken onderzoekers ook een manipulatie check om te zien of de construct validiteit van hun onafhankelijke variabele goed is. Pilot studies kunnen ook gebruikt worden om te kijken of de manipulaties effectief zijn. Pilot studies zijn onderzoekjes die met een paar proefpersonen gedaan worden en die voor het echte onderzoek uitgevoerd worden. Onderzoekers kunnen laten zien dat de resultaten hun theorie ondersteunen door nog meer data te verzamelen.
Als je de externe validiteit van causale claims wilt onderzoeken, moet je kijken naar hoe de proefpersonen in de steekproef zijn opgenomen. Als het door random sampling is gedaan, dan zit het goed met de externe validiteit. Vaak is het zelfs zo dat externe validiteit niet een top prioriteit is voor onderzoekers die experimenten uitvoeren. Interne validiteit is belangrijker en als beide typen validiteit niet gegarandeerd kunnen worden, dan laten onderzoekers externe validiteit meestal vallen voor interne validiteit.
Bij statistische validiteit van experimenten moet er gekeken worden naar effect grootte, d. Dit getal laat zien hoeveel twee groepen van elkaar verschillen wat de afhankelijke variabele betreft. Het laat de afstand tussen de gemiddelden van een groep zien en het laat zien hoe de scores elkaar overlappen. Het kijkt dus naar het verschil tussen scores en spreiding binnen een groep scores. Een grotere d hangt samen met een grotere r, wat goed is.
Interne validiteit is het belangrijkst voor causale claims. Als de interne validiteit van een experiment goed is, dan kun je er vrijwel zeker van zijn dat je causale claim accuraat is.
Als je een experiment onderzoekt, dan is interne validiteit het belangrijkst. De grootste bedreigingen voor interne validiteit zijn design confounds, selectie effecten en order effecten. Deze zijn al eerder besproken in hoofdstuk 10. Dit zijn helaas niet de enige dingen die een experiment kunnen bedreigen.
Er zijn meerdere bedreigingen voor interne validiteit. In dit hoofdstuk zullen er in totaal 12 besproken worden. Nu volgen de eerste zes: maturation, geschiedenis, regressie, attrition, test en instrumentele bedreigingen.
Maturation (rijping) bedreiging is een verandering in gedrag dat spontaan met de tijd tot stand is gekomen. Mensen passen zich aan aan hun omgeving, mensen worden beter in het uitvoeren van bepaalde handelingen en kinderen leren beter te praten. Dit gebeurt ‘gewoon’ en niet door een of andere interventie. Om de bedreiging van maturation weg te nemen, moeten er een controlegroep worden gebruikt in het onderzoek. Soms treden er veranderingen op doordat er iets specifieks is gebeurd tussen de pretest en de posttest. Dit wordt een historie bedreiging genoemd. Een historische gebeurtenis hoeft niet iets groots te zijn, zoals een oorlog. Het kan ook iets kleins zijn, zoals het wisselen van seizoenen. Om als historische bedreiging gezien te kunnen worden, moet de variabele invloed hebben op iedereen of bijna iedereen van een groep. Geschiedenis bedreigingen kunnen voorkomen worden door het gebruik van controlegroepen. Regressie bedreigingen refereren naar regressie naar het gemiddelde. Wanneer een gedrag extreem is op tijdspunt 1, zal het waarschijnlijk minder extreem zijn op tijdspunt 2. Extremiteit wordt meestal verklaard door gunstige of juist ongunstige random gebeurtenissen. Regressie bedreigingen vinden alleen plaats in een pretest/posttest design en alleen wanneer een groep extreem scoort op de pretest. Deze bedreigingen kunnen voorkomen worden door het gebruik van controlegroepen.
Attrition is een reductie van de proefpersonen die plaatsvindt voordat het onderzoek af is gelopen. Dit kan dus bijvoorbeeld tussen de pretest en posttest plaatsvinden. Attrition is een probleem wanneer het systematisch is. Dat wil zeggen dat het een probleem wordt wanneer een bepaalde type proefpersonen niet meer meedoen aan het onderzoek. Als deze proefpersonen niet aanwezig zijn, dan kunnen de resultaten vertekend zijn. Onderzoekers kunnen de data van proefpersonen die stoppen weghalen uit het onderzoeken. Een test bedreiging verwijst naar de verandering in een proefpersoon als gevolg van het vaker dan een keer afleggen van een test. Mensen kunnen beter worden in het maken van de test of juist verveeld raken. Onderzoekers kunnen dit voorkomen door alternatieve vormen van de twee metingen te gebruiken. Een instrumentele bedreiging vindt plaats wanneer een metingsinstrument met de tijd verandert. Observanten moeten niet opeens tussen twee metingen hun standaarden veranderen.
Ook al voeg je controlegroepen toe, dan kunnen er toch bedreigingen voor de interne validiteit van je experiment zijn. Drie van deze bedreigingen zijn observator, placebo en demand karakteristieken. Een observator bias vindt plaats wanneer de verwachtingen van de onderzoeker zijn interpretatie van de resultaten beïnvloeden. Naast een bedreiging voor de interne validiteit kan een observator bias ook een bedreiging vormen voor de construct validiteit. Demand karakteristieken zijn een probleem wanneer de proefpersonen denken te weten waar een studie over gaat en daardoor hun gedrag veranderen. Om observator bias en demand karakteristieken te voorkomen, is het handig om onderzoeken uit te voeren die dubbelblind zijn. Dit betekent dat zowel de proefpersonen en de onderzoekers die hun evalueren niet weten in welke groep de proefpersonen zitten. Wanneer een dubbelblind onderzoek niet mogelijk is, kunnen onderzoekers ook een 'masked design' (hoofdstuk 6) uitvoeren. Dit houdt in dat de proefpersonen wel weten in welke groep ze zitten, maar de onderzoekers weten niet in welke groep een proefpersoon zit. Een derde bedreiging is het placebo effect. Dit effect vindt plaats wanneer proefpersonen een behandeling ontvangen en beter worden, omdat ze denken dat ze een echte behandeling (bijvoorbeeld een echt medicijn in plaats van een suikerpil) gekregen hebben. Placebo effecten zijn niet ingebeeld en onderzoek heeft aangetoond dat placebo effecten zowel psychologisch als fysiek kunnen zijn. Ook is het niet zo dat placebo effecten alleen maar positief zijn. Vaak hoor je wel dat mensen minder depressief zijn omdat ze denken dat ze een pil hebben gekregen die hun beter heeft gemaakt. Toch kunnen placebo effecten ook voor nare neveneffecten zorgen, zoals huiduitslag en hoofdpijn. Om placebo effecten te voorkomen, is het handig om dubbelblinde placebo controle studies uit te voeren. Daarin weten zowel de proefpersonen als de onderzoekers die de pil geven, niet in welke groep een proefpersoon zit.
Wat gebeurt er wanneer een onderzoeker een nul-effect vindt? Dat betekent dus dat de onafhankelijke variabele geen invloed heeft uitgeoefend op de afhankelijke variabele. Er lijkt geen significante covariantie tussen de twee te zijn. De meeste mensen zullen niet vaak over nul-effecten lezen. Het is natuurlijk interessanter om resultaten te presenteren waarbij de onafhankelijke variabele wel een invloed heeft gehad op de afhankelijke variabele. Toch komen nul-effecten vrij vaak voor. Vooral als je als studenten zelf begint met onderzoek doen, krijg je waarschijnlijk te maken met nul-effecten. Nul-effecten kunnen optreden wanneer de onafhankelijke variabele daadwerkelijk geen invloed heeft gehad op de afhankelijke variabele. Echter, nul-effecten kunnen ook plaats vinden doordat het onderzoek niet nauwkeurig opgezet of uitgevoerd was. De onafhankelijke variabele beïnvloedt misschien een afhankelijke variabele wel, maar door een of ander obscuur factor konden de onderzoekers het ware verschil niet vinden. De obscure factoren kunnen twee vormen aannemen: er was niet genoeg verschil tussen groepen (between-group) of er was te veel variabiliteit in groepen (within group).
Slechte manipulaties, ongevoelige metingen en reversie design confounds kunnen er voor zorgen dat er niet genoeg verschil tussen groepen bestaat. Wanneer er een nul-effect naar voren komt, moet een onderzoeker goed bekijken hoe hij zijn onafhankelijke variabele geoperationaliseerd heeft. Er moet gekeken worden naar de constructvaliditeit om zwakke manipulaties te testen. Misschien hadden er andere manipulatiegroepen gemaakt moeten worden. Soms worden nul-effecten gevonden doordat de onderzoekers een afhankelijke variabele niet met genoeg sensitiviteit geoperationaliseerd hebben. Wanneer verschillende groepen allemaal heel hoog scoren op de afhankelijke variabele, dan noemen we dit ceiling effecten. Wanneer alle groepen heel laag scoren op de afhankelijke variabele, dan noemen we dit 'floor' effecten. Stel dat je drie verschillende groepen proefpersonen hebt die allemaal dezelfde test krijgen. Stel dat die test zo moeilijk is, dat vrijwel niemand een goede score kan halen. Alle proefpersonen zouden een hele lage score hebben. Dat komt doordat de toets veel te moeilijk was en er kan niet gezegd worden dat de verschillende condities van de onafhankelijke variabele hier invloed op hebben gehad. Er is dus een floor effect opgetreden. Manipulatie checks kunnen goed helpen om zwakke manipulaties (en dus ook ceiling en floor effecten) op te sporen.\
Nul-effecten kunnen ook gevonden worden als er te veel variabiliteit in een groep is. Dit wordt noise of error variantie genoemd. Door de grote variabiliteit in een groep kan een echt verschil tussen groepen wellicht niet gedetecteerd worden. Doordat er zoveel variabiliteit is in groep A, kunnen proefpersonen uit groep A overeenkomen met proefpersonen uit groep B. Dit zorgt voor een statistisch validiteitsprobleem: hoe meer de groepen elkaar overlappen, des te kleiner de effectgrootte en des te minder de gemiddelden van de groepen statistisch significant zullen zijn.
Een reden voor de grote variabiliteit in een groep kan de meet error zijn. Een meet error is elke factor dat de ware score van een persoon op de afhankelijke variabele kan vergroten of verkleinen. Een man die 1.80 meter is, kan gemeten worden als 1.79 meter omdat hij niet goed rechtop stond. Alle metingen van afhankelijke variabelen hebben wel een meet error, maar onderzoekers proberen dit zo laag mogelijk te houden. Hoe meer bronnen van random error er zijn in de meting van een afhankelijke variabele, hoe meer variabiliteit er zal zijn binnen een groep proefpersonen. Een meet error kan verkleind worden door betrouwbare en nauwkeurige metingen en technieken te gebruiken. Wanneer het moeilijk is om een goed instrument te vinden, is het handig om meer metingen uit te voeren. Er moeten meer proefpersonen opgenomen worden in het onderzoek. Hoe meer proefpersonen er zijn, hoe groter de kans dat de random errors elkaar uit zullen schakelen.
Individuele verschillen kunnen ook zorgen voor variabiliteit binnen groepen. Een manier om rekening te houden met deze verschillen is het gebruiken van within-group designs. Elke proefpersonen doet hierin mee in beide condities van de onafhankelijke variabele. Zo’n opzet zorgt er voor dat elk persoon met hemzelf/haarzelf vergeleken kan worden en dat individuele verschillen dus weggeschreven kunnen worden. Ook zijn er voor within-group designs (hoofdstuk 10) minder proefpersonen nodig. Hetzelfde resultaat kan ook verkregen worden met matched groepen. Als er twee condities zijn, dan zal de onderzoeker personen uit verschillende condities die op elkaar lijken moeten matchen en de scores op de afhankelijke variabele van deze personen vergelijken. Als within-group designs of matched groups niet uitgevoerd kunnen worden, dan moeten onderzoekers meer proefpersonen zoeken.
Een derde factor die variabiliteit in groepen kan veroorzaken is situatie noise. Dit zijn allerlei verschillende externe afleidingen. Dit kan elk factor zijn dat variabiliteit in een groep kan veroorzaken en echte verschillen kan verstoppen. Onderzoekers proberen situatie noise te verminderen door de experimenten in een rustige setting te doen. Dat wil zeggen, ergens waar niet veel auto’s langs rijden, geen onaangename of aangename geuren zijn of waar geen luidruchtige mensen langs lopen. Onderzoekers proberen er vaak veel aan te doen om bepaalde afleidingen die invloed zouden kunnen hebben op de afhankelijke variabele te verminderen. Wanneer onderzoekers een within-group design en sterke manipulaties gebruiken en goede controles van de experimentele situaties uitvoeren, dan vergroten ze de power (hoofdstuk 10). Met een onderzoek dat veel power heeft, kunnen ware patronen beter gevonden worden.
Als je een nul-effect vindt, dan moet je kijken of de manipulaties goed waren, of de variabelen goed geoperationaliseerd waren, of er meet errors waren, of er genoeg proefpersonen waren en of je goed controle hebt gehouden over de situatie. Wanneer al die dingen en power goed zijn en je toch een nul-effect vindt, dan kun je stellen dat de onafhankelijke variabele echt niet een effect heeft op de afhankelijke variabele.
Onderzoekers kunnen vanaf het begin al geïnteresseerd zijn in meer dan een onafhankelijke variabele of ze kunnen opeens een vervolg studie verzinnen waarin er naar nog een extra onafhankelijke variabele gekeken wordt. Wanneer onderzoekers vragen naar het effect van een extra onafhankelijke variabele, dan zijn ze meestal geïnteresseerd naar een interactie effect. Dit interactie effect kijkt of het effect van de originele onafhankelijke variabele afhangt van de level van de andere onafhankelijke variabele. Een voorbeeld hiervan is handsfree bellen en reactietijd tijdens het rijden. Onderzoekers wilden weten of jongere mensen een slechtere reactietijd hebben tijdens het rijden wanneer ze handsfree aan het bellen zijn dan oudere mensen. Onderzoek had al aangetoond dat het bellen tijdens het rijden er voor zorgt dat men minder goed reageert op ‘obstakels’ op de weg. In dat onderzoek is er maar één onafhankelijke variabele (het gebruik van de telefoon). Vervolgens wilde men weten of het effect af hing van leeftijd. Dat werd dus de tweede onafhankelijke variabele. Een interactie effect kan mathematisch uitgelegd worden als een verschil van het verschil.
Gedachten, gedrag, emoties en motivatie van mensen zijn erg gecompliceerd. Het is daarom ook niet gek dat ze in onderzoek vaak betrokken zijn met interacties. Er zijn verschillende soorten interacties. Stel dat je gevraagd wordt of je meer houdt van warm of koud eten. Je zult waarschijnlijk antwoorden dat dat van het eten zelf afhangt. Je wilt natuurlijk dat je soep warm is en je ijsje koud. Het eten waar je een oordeel over moet maken is een onafhankelijke variabele en de temperatuur van dat eten is een andere onafhankelijke variabele. Als je dit in een figuur uit zou zetten, dan zou je een interactie effect zien. De twee lijnen van de onafhankelijke variabele zullen elkaar kruisen. Deze interactie wordt een crossover interactie genoemd. Wanneer de lijnen van twee onafhankelijke variabelen niet parallel lopen en elkaar niet kruisen, dan spreken we van een gespreide ('spreading') interactie. Wanneer er een interactie is, dan kun je het nauwkeurig via beide richtingen beschrijven. Het maakt dan ook niet uit welke onafhankelijke variabele je op de x-as zet.
Onderzoekers gebruiken factorial designs om interacties te testen. Een factorial design is een design met twee of meer onafhankelijke variabelen (factoren genoemd). Meestal worden de twee onafhankelijke variabelen gekruist. Dat houdt in dat onderzoekers elke mogelijk combinatie van de onafhankelijke variabelen testen. In het voorbeeld van mobiel gebruik, leeftijd en reactiesnelheid tijdens het rijden, zijn er twee factoren: leeftijd en telefoongebruik. Wanneer de twee onafhankelijke variabelen gekruist worden, ontstaan er vier condities: oude mensen die rijden en een telefoongesprek voeren, oude mensen die rijden en geen telefoongesprek voeren, jonge mensen die rijden en een telefoongesprek voeren en jonge mensen die rijden en geen telefoongesprek voeren. Er zijn twee onafhankelijke variabelen en elke variabele heeft twee levels (jong vs. oud en bellen vs. niet bellen). Dit design wordt daarom ook wel een 2 x 2 design genoemd. Factorial designs kunnen gebruikt worden om gemanipuleerde variabelen (wel of niet telefoon gebruiken) en participant variabelen (leeftijd) te testen.
Factorial designs worden gebruikt om te testen of een onafhankelijke variabele verschillende mensen kan beïnvloeden of mensen in verschillende situaties op dezelfde manier kan beïnvloeden. Het onderzoek van telefoongebruik, leeftijd en reactiesnelheid werd ook met een factorial design uitgevoerd. Er werd geen interactie tussen de onafhankelijke variabelen gevonden. Dat wil zeggen dat er geen verschil was in reactiesnelheid bij of zonder telefoongebruik tussen jonge en oude bestuurders. Het testen van limieten in een onderzoek lijkt wel op het testen van de externe validiteit. Wanneer een onafhankelijke variabele in meer dan een groep getest wordt, dan testen onderzoekers in feite of het effect generaliseert. In het voorbeeld over reactiesnelheid en telefoongebruik reageren beide groepen hetzelfde. Het effect generaliseert naar bestuurders van alle leeftijden. Er zijn natuurlijk ook onderzoeken waarbij groepen anders reageren op een onafhankelijke variabele. Wanneer factorial designs gebruikt worden om de limieten te testen, dan zoek je als het ware ook naar moderatoren. Een moderator (hoofdstuk 8) is een variabele die een invloed uitoefent op de relatie tussen een onafhankelijke variabele en afhankelijke variabele. Een moderator resulteert in een interactie. Het effect van een onafhankelijke variabele hangt af van de level van de andere onafhankelijke variabele. Factorial designs worden niet alleen gebruikt om de generaliseerbaarheid van een variabele te testen, maar ook om theorieën te testen.
In een analyse met twee onafhankelijke variabelen, kun je drie dingen inspecteren: twee hoofdeffecten en een interactie effect. Er moet gekeken worden naar het effect van elke onafhankelijke variabele. Dat zijn dus hoofdeffecten. Het marginale gemiddelde is het gemiddelde voor een factor, gemiddeld over de levels van de andere onafhankelijke variabele. Onderzoekers kijken naar marginale gemiddelden om de hoofdeffecten te onderzoeken en ze gebruiken statistiek om te onderzoeken of het verschil in de marginale gemiddelden statistisch significant is. Je moet je niet vergissen met het woord ‘hoofdeffect.’ Een hoofdeffect wil niet zeggen dat het het belangrijkste effect is (als er een interactie is, dan is dat het belangrijkste effect). Eigenlijk is de benaming overall effect beter. Hoofdeffecten zijn verschillen en een interactie effect is het verschil van de verschillen. Interacties kun je vaak zien als je een figuur hebt (soms is het lastig om te zien), maar je zou ook naar een tabel kunnen kijken. Als je kijkt naar het verschil van de levels van elke onafhankelijke variabele en ziet dat die verschillen van elkaar verschillen, dan weet je dat er een interactie zou kunnen zijn. Met behulp van statistiek zou je er achter kunnen komen of dit verschil significant is. In figuren zijn interacties makkelijker te detecteren. Wanneer de lijnen in een grafiek parallel lopen, dan is er waarschijnlijk geen interactie en wanneer ze niet parallel lopen, dan is er wel een interactie. Natuurlijk moet je het wel bevestigen met statistiek. In een staafdiagram zou je ook interacties kunnen detecteren. Wanneer je lijnen trekt van dezelfde levels (bijvoorbeeld van oranje naar oranje en roze naar roze) en deze lijnen niet parallel zijn, dan zou je er van uit kunnen gaan dat er een interactie is. Wanneer er zowel hoofdeffecten als een interactie effect gevonden worden, dan is het interactie effect belangrijker.
In het voorgaande stuk werd een 2 x 2 design besproken. Onderzoekers kunnen natuurlijk ook een onafhankelijke variabele uitzoeken die meer dan twee levels heeft of ze kunnen drie of meer onafhankelijke variabelen gebruiken. In een onafhankelijke groepen factorial design (between-subjects factorial) worden beide onafhankelijke variabelen bestudeerd als onafhankelijke groepen. Als het om een 2 x 2 factorial design gaat, dan zijn er dus vier verschillende groepen proefpersonen in het experiment. In een 'within-groups factorial design' (repeated-measures factorial) worden beide onafhankelijke variabelen gemanipuleerd binnen groepen. Wanneer er een 2 x 2 factorial is, dan is er een groep proefpersonen en al deze proefpersonen nemen deel aan alle vier cellen van het design. In een 'mixed factorial design' wordt een onafhankelijke variabele als een independent groep gemanipuleerd en de andere onafhankelijke variabele wordt als een within groep gemanipuleerd.
Wanneer een van de onafhankelijke variabelen drie levels heeft en de andere onafhankelijke variabele twee, dan spreken we van een 2 x 3 design. Er zullen dan 2 x 3 = 6 cellen zijn. Uiteraard bestaan er meerdere combinaties voor designs. Wanneer onafhankelijke variabelen meer dan twee levels hebben, dan kunnen onderzoekers ook gewoon naar de hoofdeffecten en interactie effecten kijken door de marginale gemiddelden te berekenen en vervolgens te kijken of deze verschillen. De makkelijkste manier is nog altijd om een lijndiagram te maken in SPSS en te kijken of de lijnen parallel zijn. Natuurlijk moet er ook gekeken worden of de effecten significant zijn. Wanneer onderzoekers een derde onafhankelijke variabele toevoegen en alle onafhankelijke variabelen twee levels hebben, dan spreken we van een 2 x 2 x 2 factorial design, ofwel een drie-weg design. In dit design zijn er 2 x 2 x 2 = 8 cellen of condities. De beste manier om zo’n design te weergeven is om twee keer een tabel van je originele 2 x 2 studie uit te voeren. Een keer voor elke level van de derde onafhankelijke variabele. Wanneer je het in een grafiek wilt weergeven, dan moet je twee lijn diagrammen die naast elkaar staan maken. In een drie-weg design kunnen ook drie hoofdeffecten en twee interactie effecten zijn of een grote drie-weg interactie. Een drie-weg interactie betekent dat de twee-weg interactie tussen twee van de onafhankelijke variabelen afhangt van de level van een derde onafhankelijke variabele.
In empirische artikelen wordt er vrijwel altijd beschreven welk design er is gebruikt. Zij gebruiken vaak de termen 2 x 2 of 2 x 3. Deze getallen laten mooi zien hoeveel onafhankelijke variabelen er zijn en hoeveel levels elke variabele heeft. Daarnaast gebruiken empirische artikelen ook vaak de termen ‘hoofdeffect’ en ‘interactie.’ Populaire artikelen in tijdschriften of kranten vermelden vaak niet welk design er gebruikt is. Toch zijn er bepaalde aanwijzingen waar je aan kunt zien of het om een factorial design ging of niet. Zo kun je kijken naar het woord ‘het hangt af van…’. Dit laat zien dat een bepaald effect afhangt van de level van een andere variabele. Ook kun je factorial designs herkennen doordat er participant variabelen gebruikt zijn.
Een quasi-experiment verschilt van een ware experiment op het gebied van controle. In een quasi-experiment hebben onderzoekers geen volle controle over de condities. Proefpersonen worden niet random toegeschreven aan de condities. Hieronder een voorbeeld van een quasi-experiment.
Plastische chirurgie wordt vrijwel overal ter wereld uitgevoerd. Mensen die zulke procedures ondergaan, zeggen dat hun zelfvertrouwen en lichaamsbeeld beter zullen worden na de procedures. Maar is dat echt zo? Een manier om erachter te komen is door mensen op een random manier toe te schrijven in de plastische chirurgie conditie en de anderen niet. Dit is natuurlijk niet ethisch, omdat je niet tegen proefpersonen kan zeggen dat ze plastische chirurgie moeten ondergaan voor het onderzoek. Toch hebben onderzoekers een manier gevonden om de effecten van plastische chirurgie te testen. Onderzoekers hebben mensen die al op het punt stonden om plastische chirurgie te ondergaan gevraagd voor hun onderzoek. Deze mensen werden getest op hun zelfvertrouwen voor het onderzoek en 3, 6 en 12 maanden na het onderzoek. De vergelijkingsgroep was een groep mensen die ook geregistreerd stond bij dezelfde plastische chirurgie kliniek, maar die nog geen ingreep hadden laten doen. Ook zij beantwoordden vragen op dezelfde momenten als de eerste groep. Dit onderzoek leek op een experiment, maar het was een quasi-experiment omdat proefpersonen niet op een random manier toegeschreven waren aan een conditie.
De ondersteuning die een quasi-experiment kan bieden aan causale claims hangt af van het design en de resultaten. Er is een selectie effect voor interne validiteit als de groepen van verschillende levels van de onafhankelijke variabele verschillende typen proefpersonen bevatten. Zo kun je niet met zekerheid stellen dat de onafhankelijke variabele een verandering heeft veroorzaakt in de afhankelijke variabele. Zo waren de proefpersonen die plastische chirurgie ondergaan hadden wellicht anders dan de proefpersonen die geen plastische chirurgie ondergaan hadden. Uit onderzoek bleek inderdaad dat de proefpersonen die plastische chirurgie ondergaan hadden, rijker waren dan de proefpersonen die het nog niet ondergaan hadden. Het is echter zo dat dit onderzoek een pretest-posttest aard had en dit zorgde er voor dat de selectie effecten nihil werden. Ook kunnen er matched groepen gebruikt worden om de twee groepen proefpersonen te vergelijken. Sommige onderzoekers passen een 'wait-list design' toe, waarin alle proefpersonen een behandeling ondergaan, maar op verschillende momenten.
Er zijn meerdere problemen die voor kunnen komen in quasi-experimenten. In quasi-experimenten kunnen er ook problemen voorkomen met het design. Er treedt een design confound op wanneer een derde variabele systematisch varieert binnen een level van de onafhankelijke variabele waar men in geïnteresseerd is. Door extra data te verzamelen kun je er voor zorgen dat er geen design confound voorkomt. Een 'maturation threat' kan gebeuren wanneer proefpersonen met een pretest en posttest een verbetering laten zien, maar het niet duidelijk is of de verandering veroorzaakt is door de behandeling of doordat de groep spontaan verbeterd is. Met een controle groep is het wel makkelijker te zeggen of een verbetering komt door een behandeling of spontaan is ontstaan. Een historische dreiging ('historical threat') gebeurt wanneer een historische gebeurtenis voor alle proefpersonen in een onderzoek tegelijkertijd met de behandeling plaats vindt. Het is dan onduidelijk te zeggen of een uitkomst veroorzaakt is door de behandeling of door een externe gebeurtenis. Met een vergelijkingsgroep kunnen de effecten van historic threats meestal afgeschreven worden.
Regressie naar het gemiddelde gebeurt wanneer een extreem resultaat veroorzaakt wordt door een combinatie van random factoren die waarschijnlijk niet weer in dezelfde combinatie zullen gebeuren. Je extreme resultaat zal dus minder extreem worden met de tijd. Regressie effecten vormen alleen een dreiging voor de interne validiteit als een groep geselecteerd is vanwege een extreem hoge of extreem lage score. Deze scores zouden extreem kunnen zijn door de combinatie van random factoren die niet meer samen zullen voorkomen. Attrition gebeurt wanneer mensen niet meer deel willen nemen aan het onderzoek na een verloop van tijd. Het is een dreiging voor de interne validiteit wanneer mensen vanwege een systematische reden weggaan. Het kan zijn dat de mensen die het minst gelukkig waren na hun plastische chirurgie, stopten met het onderzoek. Het resultaat dat plastische chirurgie het zelfbeeld verbetert is dan toe te schrijven aan het feit dat alleen tevreden proefpersonen in het onderzoek bleven. Het is echter wel makkelijk om attrition te checken. Je hoeft alleen maar te kijken of de personen die weg zijn gegaan uit het onderzoek systematisch overeenkomen.
Wanneer proefpersonen meerdere keren getest worden, dan moeten onderzoekers goed uitkijken voor test effecten. Het herhaaldelijk testen kan er voor zorgen dat mensen beter worden omdat de test hun bekend voorkomt of dat ze slechter worden omdat de test saai is geworden. Onderzoekers gebruiken daarom soms verschillende, gelijkwaardige tests. Hierbij moeten ze wel rekening houden met de moeilijkheid van de tests. Het is niet de bedoeling dat de tests in moeilijkheid verschillen, anders kun je niet zien of de verandering wel echt veroorzaakt werd door de behandeling. Een andere bedreiging voor de interne validiteit van quasi-experimenten is een observator bias. Soms kunnen de verwachtingen van een onderzoeker zijn interpretatie van de resultaten beïnvloeden. Ook kunnen proefpersonen denken dat ze weten waar een onderzoek over gaat en aan de hand daarvan hun gedrag aanpassen.
Quasi-experimenten kunnen gevoelig zijn voor dreiging van de interne validiteit. Waarom zouden onderzoekers dan quasi-experimenten gebruiken? Een van de redenen om quasi-experimenten te gebruiken is omdat quasi-experimenten gebruik kunnen maken van onderzoek doen in ‘de echte wereld.’ Er is geen kunstmatige setting, zoals bij veel echte experimenten (laboratorium). Deze echte settings kunnen er ook voor zorgen dat de externe validiteit beter wordt en dat men met meer zekerheid kan stellen dat de resultaten gegeneraliseerd kunnen worden naar de populatie. Daarnaast kunnen quasi-experimenten ook gebruikt worden als men inzit over de ethische kwesties van echte experimenten. Sommige dingen kunnen alleen ethisch onderzocht worden met quasi-experimenten (zoals het plastische chirurgie onderzoek). Quasi-experimenten laten daarnaast ook goede construct validiteit van de onafhankelijke variabelen zien.
Soms voeren wetenschappers onderzoek uit met weinig proefpersonen. Zoals eerder vermeld, is het niet altijd nodig om een hele grote steekproef te hebben. N is het aantal proefpersonen in een steekproef. Het is belangrijker voor de externe validiteit om een steekproef goed te selecteren dan om veel proefpersonen in de steekproef op te nemen. Wanneer onderzoekers een kleine N-design gebruiken, in plaats van weinig informatie te halen uit een grote steekproef, halen ze veel informatie uit een kleine steekproef. Ze kunnen zelfs kijken naar één dier of één persoon in een 'single N-design'. Er zijn verschillen tussen grote N-designs en kleine N-designs. In grote N-designs worden proefpersonen in groepen gestopt en de data van een individu is niet interessant. Er wordt gekeken naar de gecombineerde data van alle personen. Data wordt ook gepresenteerd as groepsgemiddelden. In kleine N-designs wordt elk individu als een afzonderlijk experiment behandeld. Vaak zijn deze designs herhaalde metingen, waarin onderzoekers observeren hoe een dier of mens reageert in verschillende condities. De data van individuen wordt gepresenteerd in kleine N-designs.
Goed doordachte en uitgevoerde kleine N-design onderzoeken kunnen wetenschappers helpen om erachter te komen of veranderingen door interventies tot stand zijn gekomen of door de invloed van een andere variabele. Er zijn verschillende designs die gebruikt kunnen worden.
In een stabiele-baseline ('stable-baseline') design observeren onderzoekers gedrag van een lange baseline periode voordat ze beginnen met een behandeling of interventie. Als het gedrag tijdens de baseline stabiel is, dan kunnen onderzoekers met meer zekerheid zeggen dat een behandeling effectief is. Een stabiele baseline heeft gezorgd voor interne validiteit. In een 'multiple-baseline design' spreiden onderzoekers hun introductie van interventies over verschillende contexten, momenten of situaties. Door te kijken naar meerdere baselines en gedragingen, kunnen onderzoekers de interne validiteit vergroten en daarmee de causale conclusies te ondersteunen. Verschillende baselines kunnen verschillende gedragingen binnen een persoon zijn of verschillende situaties voor een persoon. Ook kunnen de baseline condities verschillende personen zijn. Hoe een multiple-baseline design er ook uitziet, het biedt een vergelijkingsgroep of vergelijkingsconditie waar een behandeling mee vergeleken kan worden.
In een 'reversal design' observeert een onderzoeker probleemgedrag met en zonder behandeling, maar hij neemt vervolgens de behandeling weer weg (reversal periode) om te zien of het probleemgedrag terugkomt. Als de behandeling echt werkt, dan hoort het gedrag weer achteruit te gaan wanneer de behandeling weggenomen wordt. Op die manier kan er voor interne validiteit getest worden en kunnen er causale beweringen gemaakt worden. Reversal designs zijn alleen geschikt voor situaties waarin de behandeling niet blijvende veranderingen zou veroorzaken. Je kunt geen reversal design uitvoeren om een onderwijsinterventie te onderzoeken. Als een leerling een bepaalde vaardigheid onder de knie heeft, dan zal deze vaardigheid niet opeens verloren gaan. Ook kan het soms onethisch zijn om een reversal design uit te voeren. Het is namelijk niet altijd ethisch verantwoord om een behandeling weg te nemen van iemand (bijvoorbeeld van depressieve mensen). Er zijn meerdere grote psychologen geweest die weinig proefpersonen hebben gebruikt om theorieën te ontwikkelen. Zo heeft Piaget naar zijn drie kinderen gekeken om zijn theorie over de cognitieve ontwikkelen van kinderen te ontwikkelen.
In de voorgaande stukken tekst is behandeld hoe kleine N-designs er voor kunnen zorgen dat interne validiteit vergroot wordt. Maar hoe staat het met de andere validiteiten? Kan een dier of een persoon een hele populatie representeren (externe validiteit)? Onderzoekers kunnen extra stappen nemen om de externe validiteit te vergroten. Zo kunnen onderzoekers trianguleren door de resultaten van kleine of single N-studies te combineren met andere studies die meer proefpersonen hadden. Soms zijn onderzoekers helemaal niet geïnteresseerd in generalisatie naar een hele populatie. Onderzoek kan soms echt bedoeld zijn voor een kleine subgroep van de populatie. Voor construct validiteit in kleine N-designs is het belangrijk dat er meerdere observatoren zijn en dat er gecontroleerd wordt voor inter-beoordelaar betrouwbaarheid. In kleine N-designs worden vaak geen traditionele statistische methodes gebruikt. Er moeten echter wel conclusies getrokken worden uit de data en de data moet op een goede manier behandeld worden.
Wetenschappers zouden zich altijd af moeten vragen of de resultaten van hun onderzoek repliceerbaar zijn. Dat houdt in dat de bevindingen, wanneer het resultaat weer uitgevoerd wordt, dezelfde resultaten tonen. Repliceerbaarheid geeft een onderzoek geloofwaardigheid. Vaak is het zo dat onderzoekers hun resultaten repliceren voordat hun bevindingen gepubliceerd worden. Er zijn verschillende replicatie studies:
Er wordt veel waarde gehecht aan replicatie van onderzoek door andere onderzoekers. Wanneer het niet mogelijk is om een studie te repliceren, dan zou het kunnen betekenen dat het originele effect alleen in hele speciale condities en omstandigheden gevonden kan worden. Men moet dan voorzichtig met het belang van het effect omgaan.
Wetenschappelijk literatuur bestaat uit een serie van gerelateerde studies die door verschillende onderzoekers uitgevoerd zijn en die soortgelijke variabelen getest hebben. Soms verzamelen onderzoekers zelf alle studies over een bepaald onderwerp en genereren het tot een review artikel. Een manier om zo’n review artikel te schrijven is door het opsommen van alle bevindingen. Een andere manier is door een wiskundige samenvatting te maken van de wetenschappelijke literatuur. Dit is een meta-analyse. In een meta-analyse worden vaak onderzoeken opgenomen die verschillende steekproefgroottes hebben. Vaak is het dan zo dat de onderzoeken met een hogere steekproefgrootte ook zwaarder meetellen in de analyse. In meta-analyses worden de effectgroottes gemiddeld genomen om een overall effectgrootte te vinden. Onderzoekers kunnen ook een groep studies in categorieën sorteren en de effectgroottes voor alle categorieën berekenen. Omdat meta-analyses vaak studies bevatten die gepubliceerd zijn in empirische tijdschriften, kun je er vrij zeker van zijn dat de kwaliteit van de data goed is. Toch moet je rekening houden met de publicatie bias in psychologie. Dat houdt in dat significante relaties vaker gepubliceerd worden dan nul-effect relaties. Dit kan leiden tot het bureaulade effect ('file drawer problem'). Dat houdt in dat een meta-analyse de ware grootte van een effect kan overschatten omdat nul-effecten niet in de analyse opgenomen zijn. Eigenlijk zouden onderzoekers die een meta-analyse uit willen voeren contact opnemen met hun collega’s en vragen naar gepubliceerde en ongepubliceerde data van hun projecten. Meta-analyses zijn sterk omdat ze de bevindingen van verschillende studies combineren, maar een meta-analyse is alleen zo sterk als de data die er in gaat. Er moet rekening gehouden worden met ongepubliceerde studies en dat er tot vertekende conclusies gekomen kan worden door het niet toevoegen van studies met nul-effecten.
Replicaties kunnen ook helpen met het onderzoeken van bepaalde validiteiten. Externe validiteit gaat over de mate waarin de resultaten van een onderzoek generaliseerbaar naar andere personen en settings zijn. Directe replicatie studies steunen externe validiteit niet, maar conceptuele replicatie en replicatie-plus-extensie studies kunnen externe validiteit wel steunen. Wanneer er verschillende methodes worden gebruikt om hetzelfde te testen, kunnen onderzoekers dus beslissen om andere proefpersonen en andere settings mee te nemen in het onderzoek. Daarnaast is het belangrijk om te weten dat het voor generaliseerbaarheid belangrijker is om te kijken naar hoe proefpersonen geworven worden dan hoeveel proefpersonen er geworven worden. De overeenkomst tussen de context van een onderzoek en de ‘echte wereld’ wordt soms ook wel de ecologische validiteit genoemd. Ecologische validiteit is een aspect van externe validiteit. Het hangt van het doel van de onderzoekers af hoe belangrijk de ecologische validiteit is. Als de onderzoekers hun theorie alleen maar op mannen willen toepassen, dan hoeven de resultaten natuurlijk niet generaliseerbaar zijn op vrouwen. Datzelfde geldt ook voor causale claims. In de theorie-test modus willen onderzoekers alleen maar een associatie testen die bij kan dragen aan de steun voor een theorie. Het is in dat geval belangrijker om interne validiteit te testen dan externe validiteit. Het voorbeeld met de aapjes en de comfort contact theorie (hoofdstuk 1) is een voorbeeld van zo’n theorie-test modus. Het was voor de onderzoekers belangrijker om de interne validiteit te testen dan de externe.
Toch zijn psychologen ook geïnteresseerd in het werken in een generaliseerbare modus. Deze psychologen willen de bevindingen van hun steekproef generaliseren naar een grotere populatie. Toegepast onderzoek wordt vaker gedaan in de generaliseerbare modus. Frequentie claims moeten altijd in de generaliseerbare modus getest worden. Je wilt natuurlijk een uitspraak doen over een grote groep mensen. Associatie en causale claims worden vaak in de theorie-test modus gedaan, maar het kan soms ook in de generaliseerbare modus getest worden. Cultuur psychologen zijn geïnteresseerd in hoe een cultuur de manier van denken, gedragen en voelen van individuen bepaalt. Cultuur psychologen gebruiken voornamelijk de generaliseerbare modus. Zij hebben laten zien dat veel theorieën die gesteund worden in een culturele context, niet gesteund worden in een andere culturele context. Zo ook de Müller-Lyer illusie (twee soorten lijnen die niet even lang lijken, maar waarvan de lengte even groot is). Blijkbaar hangt het vallen voor visuele illusies af van de cultuur waar je in opgegroeid bent. Mensen die opgegroeid zijn in een ontwikkeld land hebben meer ervaring met rechte hoeken en zij hebben dus een andere diepte perceptie dan mensen uit dorpen in Afrika. Nederlanders zullen anders tegen de Müller- Lyer illusie aankijken dan Afrikaanse dorpelingen. Psychologen moeten er altijd rekening mee houden dat processen, zelfs basisprocessen, beïnvloed kunnen worden door cultuur. De meeste studies zijn gedaan met proefpersonen uit de Verenigde Staten, Australië en Europa. Deze proefpersonen worden ook wel de WEIRD populatie genoemd: western, educated, industrialized, rich en democratic. Deze WEIRD mensen representeren niet de hele wereld. Het is belangrijk om te beseffen dat je niet kan aannemen dat je resultaten generaliseerbaar zijn naar de hele wereld als ze generaliseerbaar zijn naar de Nederlandse populatie.
Veel mensen denken onterecht dat onderzoeken die in het veld (dagelijks leven) gedaan worden, belangrijker zijn dan onderzoeken die in een kunstmatige laboratorium worden gedaan. Onderzoeken die in het veld ('field-setting') worden gedaan, hebben vrijwel zeker een goede externe validiteit. Echter, de ecologische validiteit van een setting is maar een aspect van de generaliseerbaarheid van de setting. Een setting kan dan wel realistisch zijn, maar het representeert niet alle settings die een persoon tegen kan komen. Vaak is het ook zo dat onderzoekers de settings in een laboratorium zo nauwkeurig mogelijk namaken. Emoties en gedragingen die vertoond worden tijdens het laboratorium onderzoek kunnen net zo echt zijn als in de echte wereld. Veel laboratorium experimenten zijn hoog in experimenteel realisme. Dat betekent dat ze settings maken waarin mensen oprechte emoties, motivaties en gedragingen vertonen. Door het verhogen van ecologische validiteit van een onderzoek kunnen wetenschappers er voor zorgen dat hun bevindingen generaliseerbaar zijn naar niet-laboratorium settings. Onderzoeken die vanuit de theorie-test modus zijn gedaan, vinden het belangrijk om de interne validiteit goed te hebben, al gaat het ten koste van de externe validiteit. Dat wil echter niet zeggen dat deze onderzoeken niet belangrijk zijn. Veel van zulke studies hebben bijgedragen aan onze kennis over psychologie. Externe validiteit is niet alles.
Een enquête is een onderzoeksmethode binnen de sociale wetenschappen waarin onderzoekers een groep individuen vraagt een aantal vragen te beantwoorden. Dit is heel geschikt om nog niet eerder onderzochte sociologische vragen te beantwoorden. Enquêtes worden daarom veel gebruikt in de sociologie, ongeveer 1/3e van alle studies maken er gebruik van.
Politici, marktonderzoekers, de overheid, gezondheidsorganisaties en academici maken allen gebruik van enquêtes om dingen te leren over attitudes van mensen in allerlei gebieden.
Er zijn verschillende soorten enquêtes. Wanneer onderzoekers een eigen enquête ontwikkelen, heet dit primaire data collectie ('primary data collection').
Wanneer onderzoekers al bestaande enquêtes gebruiken die zijn ontwikkeld door bijvoorbeeld de overheid, universiteiten, academici, etc., dan is de data die zij verkrijgen bij het afnemen van deze enquêtes de secundaire data bron ('secondary data source').
De personen die de enquêtes invullen heten respondenten. De meeste enquêtes gaan over hoe individuen leven, denken en zich gedragen. Een voorbeeld is: “Hoe vaak voert u religieuze activiteiten uit? Hoe vaak gaat u naar de kerk?”
Ook bij sociale instituten zoals scholen, verenigingen of religieuze organisaties kunnen enquêtes worden afgenomen om bijvoorbeeld te weten te komen hoe de verdeling in afkomst is, bijvoorbeeld hoe groot is het percentage allochtone studenten op de Universiteit Utrecht? Om deze dingen te weten komen is er één persoon, een sleutelinformant (key informant) die als respondent dient. Hij beantwoordt dan de vragen van de enquête.
In een enquête zijn de vragen van te voren bedacht. Er is geen ruimte voor uiteenlopende gesprekken, omdat er specifieke antwoorden worden verwacht. Daarom bestaan de meeste vragenlijsten uit gesloten vragen, respondenten kunnen kiezen uit antwoordcategorieën zoals heel erg mee oneens tot heel erg eens. Hierdoor kunnen onderzoekers goed vergelijken binnen verschillende populaties.
Dit is het tegenovergestelde van open vragen die vooral in diepte interviews worden gebruikt.
Enquêtes kunnen op één moment in de geschiedenis worden afgenomen worden, dit heet de cross-sectionele enquête. Bijv: Hebben mannen en vrouwen een ander beeld over wapengebruik in 2017?
Een longitudinale enquête wordt gebruikt om informatie over langere tijd te verzamelen. Twee soorten:
Herhaalde crosssectionele enquêtes: onderzoekers ondervragen verschillende groepen individuen worden ondervraagd. Bijv: Voor de afgelopen 50 jaar zijn elk jaar alle eerstejaarsstudenten gevraagd naar hun attitudes, doelen en gedrag.
Nadeel: Moeilijk een causaal verband te ontdekken.
Paneel enquête: dezelfde groep individuen meerdere keren interviewen over langere tijd.
Onderzoekers kiezen de manier die het best past bij wat hun doel van onderzoek.
Nadeel: Afslijting ('attrition'). Dit houdt in dat mensen stoppen met hun deelname. Dit zijn meestal mensen die lager opgeleid zijn, waardoor de resultaten die de onderzoekers uiteindelijk krijgen te positief gekleurd zijn.
Pluspunten van enquêtes:
Wanneer er een goede willekeurige steekproef is genomen kan dit veel informatie bieden over een hele populatie, zelfs als de steekproef bestaat uit maar duizend of tweeduizend respondenten
Onderzoekers kunnen veel onderwerpen onderzoeken, subgroepen vergelijken, sociale veranderingen over tijd bijhouden en hele grote populaties onderzoeken
Demografische data zijn heel belangrijk voor enquêtes, omdat de meeste sociale wetenschappers geïnteresseerd zijn in het vastleggen van ongelijkheden tussen groepen op basis van ras, leeftijd, geslacht, etc. Enquêtes verschillen in de hoeveelheid vragen. Dit ligt aan wat de onderzoekers te weten wil komen. Een hele korte enquête die gaat over één onderwerp heet een poll. Dit bevat vaak maar één of een paar vragen en kunnen vaak beantwoord worden met ja/nee.
Omnibus enquêtes (GSS en MIDUS) gaan over meerdere onderwerpen. De bedoeling is om veel en gedetailleerde informatie te verzamelen, maar het liefst in 30-45 minuten tijd, omdat anders de respondenten zich kunnen gaan vervelen en de kwaliteit van de antwoorden omlaag gaat. Om dit te bereiken maken onderzoekers gebruik van een split-ballon design. Dit houdt in dat de helft van de respondenten antwoorden geeft op een aantal onderwerpen (ballot of module) en de andere helft op een andere ballot of module.
Consistentie is een belangrijk onderdeel van enquêtes. Dit zorgt er voor dat onderzoekers goed kunnen vergelijken, omdat de enquêtes consistent zijn. Iedereen beantwoordt dezelfde vraag op dezelfde manier.
Enquêtes hebben een betere externe validiteit dan andere onderzoeksmethoden. Di tis vooral zo bij willekeurige steekproeven.
Er zijn vier typen fouten die kunnen optreden bij het afnemen van enquêtes.
Non-respons: Sommige respondenten kiezen er voor om niet mee te doen aan de enquête of om sommige vragen niet te beantwoorden. Als er dus respondenten zijn die niet meedoen, dan vertekent dit de resultaten. Dit is ook één van de grootste uitdagingen in enquête onderzoek.
Meetfouten: Wanneer de methode van afname de antwoorden beïnvloedt. Bijvoorbeeld het design van de enquête, de interviewer en de setting. Als bijvoorbeeld de interviewer stinkt, dan zal de respondent wellicht afgeleid worden.
Dekfouten: Als de steekproef niet de populatie weerspiegelt. Dit kan gebeuren doordat sommige mensen bijvoorbeeld geen telefoon hebben of dat één persoon twee telefoons heeft en twee keer de enquête invult.
Steekproef fouten: Wanneer de steekproef verschilt van de populatie.
Enquêtes kunnen op verschillende manieren worden afgenomen. Er zijn vier manieren. Elk heeft zijn voor- en nadelen. Onderzoekers kunnen ook een combinatie van deze methoden toepassen. Er wordt ook rekening gehouden met interviewer effecten, wat gaat over de invloed van een interviewer (denk aan de interviewer die stinkt of iemand die zijn eigen mening erg laat doorschemeren).
Face-to-face.
Telefonisch.
Zelfingevulde vragenlijst (self-administered questionnaire): Een vragenlijst die direct wordt ingevuld door de respondenten via de post.
Internet gebaseerde enquêtes.
Een interviewer spreekt af met een respondent en vraagt vragen van het interview-schema. Dit is de lijst met alle vragen. Er wordt ook paradata verzamelt, zoals hoe veel geluid er is in het huis, of er een familielid aanwezig is en of de respondent alle vragen goed heeft begrepen. Hiermee kunnen onderzoekers beter begrijpen hoe mensen vragen beantwoorden. De antwoorden van de respondent werden opgeschreven (PAPI) en later door iemand anders overgenomen om in de database te komen. Dit leidde vaak tot vertekeningen. Daarom is er tegenwoordig de CAPI. Met behulp van de computer worden de antwoorden opgeslagen. Soms wordt een showcard gebruikt om respondenten te helpen bij het herinneren van welke antwoordcategorieën er allemaal zijn. Ook is er een skip pattern. Dit houdt in dat sommige vragen worden overgeslagen. Bijv: “Als u kinderen heeft, ga door naar vraag 4. Indien dit niet het geval is, ga verder met vraag 6.” Dit is dan de screener vraag.
Face-to-face interviews zijn heel geschikt, omdat onderzoekers er voor kunnen zorgen dat respondenten de vragen écht goed begrijpen. Maar er zijn dus ook nadelen. Mensen kunnen sociale wenselijkheid vertonen. Zo zeggen mensen in de US dat ze vaker naar de kerk gaan dan dat écht het geval is, omdat er in de US een grote waarde aan wordt gehecht. Sociale wenselijkheid reflecteert dus de culturele normen en waarden. Om dit te voorkomen wordt er soms gebruik gemaakt van ACASI, een tablet of een computer die de vragen opleest en waar de respondent zijn antwoorden in kan vullen zonder dat de interviewer dit kan zien.
Er wordt gebruik gemaakt van de CATI technologie. Heeft veel voordelen. Het is bijvoorbeeld goedkoper dan face-to-face interviews. Vaak werken de interviewers in een callcenter, waar ze in de gaten gehouden worden door hun supervisor. Dit leidt tot goede kwaliteit afname van enquêtes. Ook kunnen telefooninterviews vrij spontaan worden afgenomen, zonder te hoeven reizen of te mailen.
Ook zijn er nadelen. Wederom zijn er mensen die liever niet over persoonlijke zaken praten via de telefoon. Ook zijn er weer interviewer effecten, zoals dat er ideeën kunnen zijn over geslacht, leeftijd, etniciteit op basis van iemand zijn of haar stem. Zo blijkt uit onderzoek dat respondenten optimistischer zijn over de economie wanneer een man hen interviewt.
Andere nadelen zijn bijvoorbeeld dat er robot calls zijn en dat mensen geen oproepen aannemen van onbekende nummers. Om deze nadelen te verminderen kan er van tevoren een brief worden gestuurd met informatie over de studie. In deze brief moet duidelijk staan wat de doelen zijn van de studie, het onderwerp belichten en de waarde er van. Ook moeten respondenten gewezen worden op dat het anoniem en vertrouwelijk is. Ten slotte moet er de respondent bedankt worden en moet er een telefoonnummer, website, of e-mailadres worden vermeld zodat de respondenten contact kunnen opnemen. Ook de dag en tijdstip van bellen zijn belangrijk. Ook moeten telefooninterviews niet te lang zijn, veel mensen willen niet lang aan de telefoon zitten. Daarnaast moeten de vragen heel erg simpel zijn. Andere nadelen zijn dat interviewers geen paradata kunnen verzamelen en geen showcards laten zien om de respondenten te helpen bij het kiezen uit de antwoordcategorieën.
Een groot voordeel van post enquêtes is dat mensen het zelfstandig kunnen invullen. Nadeel is dan ook gelijk dat er niemand bij is om dingen te verduidelijken. Daarnaast is er minder sprake van interviewer effecten en mensen rapporteren dan ook beter hun ongezonde en ‘niet goede’ gedrag. Ook zijn ze vaak goedkoper dan face-to-face interviews. Daarnaast zijn mail enquêtes goed te gebruiken om een grote, geografisch diverse groep te bereiken.
Nadelen zijn dat er niet goed gecontroleerd kan worden wie de enquête invult. Daarnaast is er een lage respons rate, veel mensen gooien vragenlijsten bijvoorbeeld weg of reageren simpelweg niet. Ook hier zijn manieren om dit te verbeteren: bellen na het invullen, een herinnering versturen of een gepersonaliseerde letter versturen. Ook een klein geldbedrag kan helpen.
Dit is één van de meest nieuwe methoden. Te vinden op het internet. Verstuurd via mail. De respondent kan gemakkelijk de vragenlijst bereiken en invullen. Er zijn veel voordelen: goedkoop, er hoeft niks geprint te worden. Ook hoeven de antwoorden niet overgetypt te worden. Ze zijn makkelijk toe te passen door middel van verschillende programma’s zoals SurveyMonkey of Zoomerang. Ook kunnen internet enquêtes mooier gemaakt worden en er kan geluid aan toegevoegd worden. De respons rates zijn vergelijkbaar met post enquêtes. Vaak zijn er herinneringen nodig.
De nadelen van online enquêtes is dat zij meer gericht zijn op jongeren en op mensen met een hoger inkomen, omdat niet iedereen toegang heeft tot internet. De resultaten kunnen dus vertekend (biased) zijn. Ook kan het zijn dat niet iedereen te bereiken is of dat mensen de mail simpelweg verwijderen.
Gemixte methoden worden om verschillende redenen gebruikt. Daarnaast kunnen onderzoekers de kwaliteit waarborgen en eventuele bias voorkomen. Mensen rapporteren hun eetgewoontes bijvoorbeeld anders bij zelf-geadministreerde vragenlijsten dan bij face-to-face surveys, omdat zij niet zo makkelijk kunnen liegen over hun lengte/gewicht etc.
Daarnaast is het soms zo dat sommige respondenten niet een bepaalde methode willen gebruiken. Iemand die geen internet heeft bijvoorbeeld wil het liever via post doen. Ten slotte leidt het gebruik van gemixte methoden van afname tot een hogere response rate.
Omdat de data op verschillende manieren wordt verkregen kunnen onderzoekers niet zomaar alle data combineren en conclusies trekken. Daarom moet er bij de data analyse gebruik rekening worden gehouden met methode-effecten: de manieren waarop de manier van afname (de methode) invloed heeft op de antwoorden van respondenten.
Er zijn meerdere factoren die de antwoorden van respondenten kunnen beïnvloeden.
De meeste enquêtes hebben dezelfde structuur: een stam die de vraag bevat en de antwoordcategorieën. De meeste enquêtes bevatten gesloten vragen. De meest simpele vorm van antwoorden is de dichotome uitkomst: ja of nee. Meestal zijn er echter meer antwoord categorieën.
Antwoordcategorieën moeten wederzijds exclusief (mutually exclusive) en uitputtend (exhaustive) zijn. Mutually exclusive houdt in dat de antwoorden niet met elkaar overlappen. Exhaustive houdt in dat het juiste antwoord er tussen moet zitten. Dus de respondent moet zijn antwoord kunnen geven.
Vaak hebben gesloten vragen een beoordelingsschaal. Als de vraag bijvoorbeeld is: hoe belangrijk is gezond eten voor jou? Dan kan het niet zo belangrijk tot heel erg belangrijk zijn.
Één van de meest gebruikte beoordelingsschalen is de Likert schaal. Dit is een schaal voor het meten in hoeverre iemand het met een bepaalde stelling eens is. Onderzoekers vinden dat data analisten categorieën kunnen combineren en dat er genuanceerde antwoordcategorieën moeten zijn. Echter vinden sommigen ook dat respondenten gedwongen moeten worden tot een keuze. Bij een “eens of niet eens” categorie kan het zo zijn dat iemand zegt ergens mee eens te zijn, omdat het hem of haar niet zo veel interesseert (dit heet de 'acquiescence bias'). Dit gebeurt vooral bij lager opgeleiden. Om dit te voorkomen kan er dus een geforceerde keuze gemaakt worden.
Een ander type van gesloten vragen is het op rang zette van objecten of personen. Bijvoorbeeld: Wat is het allerbelangrijkste wanneer je een auto gaat kopen? En daarna? En als laatst?
Soms zijn vragen best lastig en gaat het om gokken. Bijvoorbeeld als mensen gevraagd worden naar hoeveel ze precies verdienen. Dan kan er een ontvouwingsvraag (unfolding question) gebruikt worden. Dan wordt er niet gevraagd: “Hoeveel verdien je?”, Maar dan wordt er gevraagd: “Verdien je meer of minder dan 20.000 euro per jaar?” Dit is dus vooral goed te gebruiken voor inkomensvragen of seksuele vragen.
Sommige enquêtes bevatten open vragen of semi-gestructureerde vragen. Vaak is een kort antwoord voldoende.
Wordt vaak gebruikt aan het einde van een gesloten vraag, zoals "Wat is je afkomst?". Als het antwoord er dan niet tussenstaat kan je bij “anders, namelijk: ….” Je afkomst alsnog invullen.
Respondenten kunnen hun antwoord geheel zelf invullen.
Data verkregen met open vragen wordt vaak op twee manieren gepresenteerd.
Ze kunnen de antwoorden gebruiken als verduidelijking bij de gesloten vragen.
Ze kunnen de antwoorden op de open vragen interpreteren als gesloten vragen.
Of er gesloten of open vragen worden gebruikt hangt af van:
De doelen van de enquêtes.
De kennis van de respondent over het onderwerp.
Hoeveel de respondent heeft nagedacht over een onderwerp.
In hoeverre de respondent gemotiveerd is om te antwoorden.
Gesloten vragen zijn vooral handig voor het in kaart brengen van frequentie, feiten of de mate van overeenstemming met een bepaalde stelling/attitude.
Wanneer onderzoekers zich afvragen “waarom” zo iets is, dan gebruiken ze eerder open vragen.
Meestal bevatten enquêtes één vraag. Soms is er een composiet van meerdere vragen nodig. Dit kan een index of een schaal zijn.
Wanneer je een enquête ontwerpt, moet je er voor zorgen dat je duidelijke, valide en betrouwbare vragen hebt. Dit kan door:
Duidelijke en simpele taal te gebruiken.
Precies te zijn, zonder het gebruikt van double-barreled vragen. Dit zijn vragen die meer dan één vraag bevatten. Bijvoorbeeld: “Kan uw docent goed de controle houden en goed uitleggen?” Het kan zo zijn dat je docent wel goed kan uitleggen, maar niet goed de controle kan houden in de klas.
Gebruik duidelijke definities, ga er niet van uit dat een respondent kennis heeft over een bepaald gebied en wees specifiek met de antwoordcategorieën. Zeg liever “eens per week” in plaats van “soms”.
Wanneer er naar gevoelige onderwerpen wordt gevraagd, moet er neutrale taal gebruikt worden. Er moet geen emotionele lading zitten in de vragen. Dus niet: “Bent u ooit verkracht?”, maar: “Bent u ooit gedwongen tot seks tegen uw zin?”. Als je dit niet doet kan het zijn dat respondenten uit de studie stappen.
Vermijd leidende vragen. Zeg niet: “de meeste mensen”. Zeg niet: “Moeten verantwoordelijke ouders kinderzitjes gebruiken?”, maar: “Bent u het eens of oneens met dat de overheid kinderzitjes moet verplichten?”
Onderzoekers gebruiken vaak bestaande vragen waarvan de validiteit en betrouwbaarheid al is onderzocht. Er zijn verschillende websites hiervoor. Een codeboek bevat alle vragen in een enquête samen met de antwoordcategorieën. Bestaande vragen worden ook vaak gebruikt om groepen met elkaar te vergelijken.
Onderzoekers besteden veel aandacht aan de volgorde van het stellen van vragen.
Er zijn drie belangrijke factoren die hier invloed op hebben:
Vertrouwen opbouwen. De eerste vraag moet altijd een makkelijke, duidelijke vraag zijn.
Vermijd monotone vragen. Zo zorg je er voor dat de respondenten zich niet vervelen. Wissel de vragen af. Wanneer mensen zich vervelen kan er een response set zijn: dat is de neiging om hetzelfde antwoord te kiezen op vragen na elkaar omdat ze sneller klaar willen zijn. Er zijn twee manieren om dit te voorkomen:
Verander de antwoordcategorieën na een paar items.
Gebruik positief en negatief door elkaar. Dus zeg soms: “Ik voel mij goed over mezelf” en soms “Ik denk dat ik niet veel kan”.
Vermijd volgorde-effecten. Dit is het effect dat het antwoord op een vraag beinvloed kan zijn door een vraag die eerder is geweest. Als je bijvoorbeeld eerst iemand vraagt hoe religieus die is en die persoon zegt “heel erg” en daarna vraagt hoe vaak hij of zij naar de kerk gaat, wil de persoon graag consistent in zijn antwoord zijn en het liefst ook heel vaak invullen.
Om dit te voorkomen is het handig om de volgorde van vragen willekeurig te maken. Hier kan je weer een split-ballon design voor hebben.
Een ander volgorde-effect is het priming effect. Dit houdt in dat bepaalde woorden, plaatjes, vormen mensen beïnvloeden. Bijvoorbeeld wanneer mensen worden geprimed om na te denken over politieke schandalen en daarna de mate van vertrouwen moeten aangeven in de huidige verkiezingen, geven zij aan minder vertrouwen te hebben.
Het meest belangrijke van een enquête is het pre-testen. Dit is een test om te kijken of er onduidelijke vragen zijn of bijvoorbeeld de volgorde van de vragen niet goed is. De pre-test moet op precies dezelfde manier als de echte afname gaan. De methode moet hetzelfde zijn, de steekproef moet lijken op de échte steekproef en de condities van afname moeten ook hetzelfde zijn. Er kan ook een cognitief interview plaatsvinden. Hierin wordt de respondent gevraagd om hardop na te denken, om zo te kijken of de vraag duidelijk was en waarom zij voor een bepaald antwoord kiezen.
Om te weten of de pre-test succesvol was en je de enquête echt kan gaan gebruiken, kan je
'soft' en 'hard' data gebruiken. 'Hard' data houdt in dat er gekeken wordt naar de frequentie distributies. Dat is de verdeling van de antwoorden. Als veel mensen aangeven dat ze iets niet weten, dan moet de vraag herzien worden. Soms weet men het ook echt niet, dit is dan een non-attitude. Ook als onderzoekers een genuanceerder beeld willen omdat veel mensen aan één kant van de antwoordcategorie zitten kunnen zij de antwoordcategorieën aanpassen.
Nadat de pre-test is gedaan en de enquête eventueel is aangepast, kan je je enquête afnemen. Vaak wordt er met behulp van een brief de respondenten bereikt. Dit moet één week voor de echte afname plaatsvinden. Het eerste contact met de respondent moet een duidelijke uitleg geven van het doel van de survey en moet dankbaarheid en respect tonen voor de respondent. Ook moet er informed consent van de respondent zijn: hij moet aangeven vrijwillig mee te doen. Ook moet de onderzoeker aangeven wat de risico’s en voordelen zijn van het meedoen. Daarnaast moet een respondent gewezen worden op dat hij vragen kan overslaan of kan stoppen met invullen.
Onderzoekers moeten hun participanten geen schade toebrengen. Ze moeten alle risico’s vermelden en hun best doen om de vertrouwelijkheid en anonimiteit van hen te waarborgen.
Er zijn verschillende strategieën om ethische gedragsregels te waarborgen:
Confidentialiteit: gevoelige informatie mag niet openbaar worden gemaakt. Alleen het team van onderzoekers heeft toegang tot de informatie. Dit kan worden bereikt door elke respondent een ID nummer te geven. Een document die de namen bevat moet goed bewaard worden.
Anonimiteit: Het is moeilijk en onrealistisch om anonimiteit te beloven aan de respondenten. Vaak willen onderzoekers nog een follow-up interview doen en dan moeten zij wel weten wie welke respondent is.
Onderzoekers moeten ook rekening houden met dat vragen psychologische distress kunnen opleveren.
Etnografie, ook wel participerende observatie, is een onderzoeksmethode waarbij de onderzoekers zich onderdompelen in het leven en de sociale wereld van de mensen die ze willen begrijpen. Het doel is om de wereld te zien vanuit het perspectief van zij die onderzocht worden. Het gaat daarbij niet alleen om een beschrijving, maar ook om het testen van theorieën uit de sociale wetenschappen en bijdragen aan de wetenschap.
Begin twintigste eeuw is de antropologie ontwikkeld, waarbij antropologen vooral via veldwerk op verre locaties volkeren bestudeerden. De methode die de antropologen gebruikten, heet etnografie. Toen ontstond het onderscheid tussen antropologie (andere culturen, niet-Westers) en sociologie (subculturen, een groep binnen een grotere groep met andere overtuigingen en gedrag). Gaandeweg is dit onderscheid vervaagd.
Met de globalisering en komst van het internet kregen verafgelegen culturen zelf een stem. Mensen voelden zich minder prettig bij het idee van de blanke Westerse antropoloog die de cultuur van een stam uit gaat leggen. Daarom worden antropologie en sociologie nu niet gedefinieerd door locatie maar door hun methoden en onderwerpen. Vroeger werd de term etnografie geassocieerd met antropologie (vooral gericht op cultuur) en participerende observatie werd geassocieerd met sociologie (waarbij cultuur slechts een aspect is van het geheel). Later is dit onderscheid vervaagd.
Een etnograaf kan vier verschillende rollen aannemen, met verschillende gradaties van participatie en de mate waarin mensen weten dat ze geobserveerd worden.
Als complete participant dompelt de onderzoeker zich onder in de cultuur tijdens veldwerk en blijft het geheim dat hij/zij een onderzoeker is. Dit heeft een aantal risico's en nadelen:
Het is niet ethisch om dit geheim te houden voor de onderzoekssubjecten.
De onderzoeker kan zijn/haar eigen identiteit verliezen en teveel opgaan in de cultuur die bestudeerd wordt, dit heet going native.
Er kan reactiviteit optreden, waarbij de onderzoeker de overtuigingen en gedragingen van de onderzoekssubjecten (ongewild) verandert.
Bij de manier waarop iemand zich verhoudt tegenover de wereld, kan cognitieve dissonantie een rol spelen. Dit is het onaangename gevoel dat iemand krijgt als diegene ideeën heeft die met elkaar in conflict zijn of gedrag vertoont dat in strijd is met zijn/haar ideeën. Alles bij elkaar genomen is de rol van complete participant erg risicovol en wordt deze rol weinig gebruikt.
In de rol van participerende observer vertelt de onderzoeker aan alle of sommige onderzoekssubjecten dat het om een onderzoek draait. Belangrijk hierbij is geïnformeerde toestemming (informed consent): de vrijheid om wel of niet mee te doen aan een onderzoek als alle mogelijke nadelen en voordelen goed zijn uitgelegd. Er kan echter het Hawthorne effect optreden, waarbij onderzoekssubjecten enkel hun beste gedrag vertonen, vernoemd naar een fabriek die geobserveerd werd. Gelukkig is het Hawthorne effect meestal van korte duur. De rol van participant als observer is de meest gebruikte rol.
Een andere mogelijkheid is die van observant. Hierbij is het geen geheim dat het om een onderzoek gaat, maar participeert de onderzoeker niet in de ondernomen activiteiten. Dit kan bijvoorbeeld handig zijn als er bijzondere opleidingen of talenten vereist zijn, zoals bij het waarnemen van topatleten of chirurgen.
Tot slot is er de rol van verborgen observer, waarbij mensen niet weten dat ze geobserveerd worden. Bij systematische observatie volgt de onderzoeker een checklist en schema voor het observeren van fenomenen. De informatie die in te winnen valt als verborgen observer, is echter beperkter dan bij participerende rollen. Soms begint een onderzoeker als verborgen observer en wordt er daarna een andersoortig onderzoek gestart.
Populair onder etnografen zijn 'community studies', waarbij hele gemeenschappen worden bestudeerd. Antropologen bestuderen dorpen, stammen en soms steden en sociologen bestuderen stadsdelen of grote steden. De trend is dat delen van grote steden vaker bestudeerd worden dan kleine steden of dorpen. Onderzoek vindt daarnaast ook plaats op andere plekken, zoals scholen en inrichtingen. Een plek die groeit in populariteit voor onderzoeken, is de werkvloer, waar ook allerlei subculturen ontstaan.
Vaak worden er subgroepen bestudeerd die afwijken van de norm. Ook worden arme subculturen meer bestudeerd dan rijke of invloedrijke subculturen, omdat de onderzoekers vaak zelf niet uit de arme subculturen komen en deze erg anders van hun eigen leefwereld zijn.
Er zijn twee manieren om met de relatie tussen theorie en onderzoek om te gaan:
Volgens de grounded theory benadering is het beter om kwalitatief onderzoek te starten zonder theorie. Dit is een systematische, inductieve benadering, waarbij onderzoekers conceptuele verhoudingen uit data halen en niet vooraf hypotheses uit bestaande theorieën trekken.
Daartegenover staat de extended case study approach, ontwikkeld door Michael Burawoy. Volgens deze benadering moet een kwalitatief onderzoek worden gestart met een bestaande theorie die aan de hand van een veldonderzoek of anderszins wordt bekrachtigd of aangepast. De microcontext (locatie) wordt dan geïnterpreteerd aan de hand van de macrocontext (grote sociale structuren).
Hoe dan ook is het belangrijk dat onderzoekers een flexibele houding hebben, omdat er tijdens een onderzoek nieuwe theorieën of data uit andere onderzoeken kunnen voortkomen of omdat de situatie van het veldonderzoek kan veranderen.
De kwaliteit van een onderzoek hangt onder andere af van de validiteit en betrouwbaarheid. Externe validiteit betekent dat de resultaten van een onderzoek niet slechts op één geval van toepassing zijn. Etnografen proberen dus conclusies te trekken uit onderzoek, maar moeten hierbij oppassen dat hun beeld niet vertekend ('biased') is. Een manier om hiermee om te gaan, is een open houding hebben en op zoek naar rare, afwijkende gevallen. Een andere manier om vertekening tegen te gaan, is een voorbeeld van een ongemakkelijke situatie inbeelden, waarin de etnograaf het onderzoek moet verdedigen tegenover een jury, bestaande uit de onderzoekssubjecten en tegenstanders van het onderzoek.
Een etnografisch veldonderzoek bestaat uit zes stappen:
Een onderwerp kiezen. Hoewel flexibiliteit belangrijk is, werkt het het beste om te beginnen met een onderzoeksvraag over een interessant onderwerp. Het moeilijkst voor etnografen is namelijk het proces van een onderwerp of locatie omvormen tot een onderzoeksvraag en tot slot een antwoord. Een methode is selecte steekproeftrekking ('purposive sampling'); gevallen kiezen die zich op basis van bepaalde eigenschappen onderscheiden van andere gevallen.
Toegang krijgen. Dit is makkelijker als de onderzoeker zelf een insider is in de te bestuderen cultuur, en vanuit die positie het onderzoek begint. Dit schept echter andere voordelen en nadelen dan wanneer de onderzoeker een outsider is. Als outsider moet een onderzoeker eerst de poortwachters van de cultuur/plek overhalen om toegang te verschaffen.
Tijd in het veld besteden en interactie hebben met de subjecten. De eerste contacten kunnen bepalend zijn voor het onderzoek. Terwijl etnografen zoals Herbert Gans vinden dat de onderzoeker neutraal en objectief moet blijven, bracht Max Weber een subjectiever beeld van onderzoek naar voren waarin verstehen belangrijk is (empathisch begrijpen). Rapport opbouwen is belangrijk, een hechte harmonieuze band zodat mensen elkaar begrijpen en effectief communiceren. Vooral sleutelinformanten kunnen een onderzoek verder helpen; centrale of populaire personen binnen de onderzoekssetting die hun kennis delen met de onderzoeker en een vertrouwenswaardige leraar of ondersteuner van het onderzoek worden.
Data produceren en field notes schrijven. Dit zijn de opgeschreven observaties, dialogen en gedachten tijdens een veldonderzoek. Dit kunnen directe observaties zijn, inferenties (voorspellingen over mogelijke theorieën), eigen gevoelens en reacties en een sociologische analyse (vergelijking met bestaande theorieën). Deze stap valt eigenlijk samen met de vorige stap; interactie hebben met de subjecten en notities opschrijven moeten snel achter elkaar gebeuren om te voorkomen dat er details worden vergeten.
Het veld verlaten. Dit gebeurt meestal als er verzadiging is; als nieuwe materialen geen nieuwe inzichten meer bieden en slechts bevestigen wat de onderzoeker al wist.
De etnografie schrijven. Een realistisch verhaal (ofwel klassieke of mainstream etnografie) is objectief, is in de derde persoon, besteedt veel aandacht aan de methoden en beschrijft de rol van de etnograaf in de introductie of appendix. Een verhaal uit de zogeheten reflexive turn is echter veel persoonlijker. Deze confessionele verhalen ofwel postmoderne etnografieën besteden vooral aandacht aan de rol van de onderzoeker en de invloed daarvan op de onderzoekssubjecten. Een andere mogelijkheid is een belangenbehartigend verhaal, waarin wordt aangestuurd op verandering in de politiek.
Etnografie wordt steeds meer gebruikt door bedrijven. Het wordt bijvoorbeeld gebruikt om klanten beter te begrijpen, nieuwe productideeën te ontwikkelen en te monitoren hoe klanten producten gebruiken. Op het gebied van computers zijn er usability experts ontstaan, mensen die bestuderen hoe consumenten omgaan met websites zodat deze verbeterd kunnen worden.
Een andere trend is visuele etnografie; het filmen en fotograferen van mensen tijdens hun alledaagse leven. Door tv-shows zoals Big Brother en Expeditie Robinson zijn mensen het normaler gaan vinden om continu gefilmd te worden. Sommige onderzoekers sluiten aan bij deze trend en plaatsen camera's bij mensen thuis. Ook kunnen onderzoekers met behulp van Google Street View bepaalde stadsdelen bestuderen.
Ook is er recent een toename geweest van (grootschalige) team-etnografie. Hierbij werken meerdere etnografen samen. Dit maakt triangulation mogelijk: het gebruik van meerdere onderzoeksmethoden om te testen of dezelfde onderzoeksvraag bij verschillende benaderingen en materialen tot dezelfde bevindingen leidt.
Een andere ontwikkeling is cyberetnografie (ofwel netnografie), de etnografische bestudering van het online leven dat mensen leiden. Dit kan bijvoorbeeld op Second Life, World of Warcraft, of online forums.
Een diepte-interview afnemen is een kwalitatieve methode waarbij de onderzoeker open vragen stelt om zoveel mogelijk te weten te komen van de ervaringen, interpretaties, gedachten, gevoelens en overtuigingen van de geïnterviewde. Het afnemen van een diepte-interview is een kunst op zich. Het kan leiden tot een rijkheid aan informatie over de geïnterviewden. Een focusgroep is een alternatieve vorm van een interview waarbij de interviewer onderwerpen ter sprake brengt die de respondenten met elkaar gaan bespreken.
Diepte-interviews zijn niet geschikt om in te schatten hoe veel voorkomend of wijdverbreid een overtuiging is, maar zijn wel geschikt voor hoe-vragen en waarom-vragen. Allerlei uiteenlopende onderwerpen kunnen bestudeerd worden met diepte-interviews. Ook bedrijven gebruiken diepte-interviews, bijvoorbeeld om de manier waarop een consument een product gebruikt te onderzoeken of de manier waarop ze het meest effectief kunnen communiceren met consumenten.
Enquêtes worden soms ook wel gestructureerde interviews genoemd maar verschillen erg van diepte-interviews. Enquêtes zijn namelijk erg gestructureerd, hebben meestal multiplechoicevragen en dezelfde vraag wordt aan alle respondenten op dezelfde manier gesteld. Een diepte-interview daarentegen kan semi-gestructureerd zijn of ongestructureerd. Bij een semi-gestructureerd interview heeft de interviewer een interviewschema, een lijst vragen waar losjes mee om wordt gegaan, de conversatie mag zich op natuurlijke wijze ontwikkelen. Bij een ongestructureerd interview heeft de interviewer slechts een lijst onderwerpen.
Er zijn een aantal soorten interviews, onder andere mondelinge geschiedenis, levensverhaal interviews en cognitieve interviews. Onder mondelinge geschiedenis wordt een interview verstaan waarin mensen hun ervaringen tijdens een specifiek historisch tijdperk of historische gebeurtenis vertellen. Dit zijn meestal ooggetuigenverslagen, overwegend informeel. Bij een levensverhaal interview speelt analyse een grotere rol. Een levensverhaal interview is een diepte-interview om begrip te krijgen van hoe levens zich met het verstrijken van de tijd ontwikkelen en hoe de timing en volgorde zijn van belangrijke life events en turning points. De levensloop wordt hierbij bestudeerd; de menselijke ontwikkeling tijdens een mensenleven, gevormd door sociale patronen en historische verandering. Een heel ander soort interview is een cognitief interview, dit is een interview met enquêterespondenten om te begrijpen hoe ze bepaalde vragen en termen interpreteren. De geïnterviewde denkt hardop en de interviewer kan aanzetjes geven om de geïnterviewde verder te helpen. Dit is nuttig voor het verbeteren van enquêtes of als onderzoek op zich.
Interviews worden gekenmerkt door zes stappen:
Bepalen wie te interviewen en hoeveel mensen.
Het interviewschema schrijven en uittesten.
Het interview afnemen.
Het interview opnemen en transcriberen (uitschrijven).
De antwoorden coderen.
De resultaten analyseren en de conclusies opschrijven.
De eerste vier stappen gaan specifiek over interviews, de laatste twee stappen zijn een onderdeel van kwalitatief onderzoek in het algemeen.
Zoals gezegd is de eerste stap bepalen wie er geïnterviewd worden. Dit kunnen informanten zijn (mensen met speciale kennis vanuit een sociale of professionele positie) of respondenten (gewone mensen). In tegenstelling tot kanssteekproeven, is het bij diepte-interviews wenselijker om gebruik te maken van selecte steekproeftrekking ('purposive sampling'); gevallen kiezen die zich op basis van bepaalde eigenschappen onderscheiden van andere gevallen. Voor de resultaten is het beter om elk geval als een uniek geval te zien. Dit heet case study logic: een benadering waarbij het doel is om diepgaand begrip te krijgen van elk geval of elke persoon en ze niet enkel als representatie van een bredere populatie te zien. Om toch een breder begrip te krijgen, kan gebruik worden gemaakt van steekproeftrekking op basis van bereik ('sampling for range'), waarbij geïnterviewden met een zo groot mogelijke spreiding aan ervaringen worden geselecteerd. De meest gebruikte methode voor diepte-interviews is de sneeuwbalsteekproef, een geschikte respondent kent dan soortgelijke mensen en leidt zoals bij een rollende sneeuwbal tot andere geschikte respondenten. Na een aantal interviews treedt verzadiging op, daarom vinden veel onderzoekers dat er binnen een onderzoek maximaal 30-35 interviews moeten plaatsvinden met 10-15 interviews per subcategorie.
Zodra de geïnterviewden zijn geselecteerd, is de volgende stap het maken van het interviewschema. Meestal worden suggestieve en argumentatieve vragen op een neutrale manier gesteld, maar soms kunnen provocatieve vragen nuttig zijn. Vervolgens moeten de vragen per onderwerp worden gesorteerd. De meest open vragen genereren de langste antwoorden, dus het is het beste om een onderwerp niet met specifieke vragen te beginnen. Kleine bruggetjes kunnen helpen om de overgang naar een volgend onderwerp te maken. Mensen zijn bereid om meer informatie te delen als het interview als een natuurlijk gesprek aanvoelt. De vragen moeten meestal aangepast worden, zodat ze geen academisch jargon bevatten. Om mensen zich meer te doen openstellen, kun je beter hoe-vragen dan waarom-vragen stellen. Soms kan het helpen als de interviewer zich dommer of onwetender opstelt dan hij/zij eigenlijk is, zodat de geïnterviewde meer kennis deelt. Interviewen is complex, goeie vragen opstellen gaat met trial and error. Met follow-up vragen ('probes') kan de interviewer de geïnterviewde aanzetten om dieper of specifieker op een onderwerp in te gaan. Bij gevoelige onderwerpen kunnen foto's of vignettes (korte beschrijvingen van personen of situaties) helpen om een respons te krijgen. Het uittesten van de vragen gebeurt meestal niet met een onderzoekssubject maar met iemand anders.
Het interview kun je het beste opnemen, zodat je geen notities hoeft te maken tijdens het interview. De richtlijn van het IRB (Institutional Review Board, een comité voor onderzoeksethiek) is om aan de geïnterviewde toestemming te vragen en aan te geven dat je stopt met opnemen op zijn/haar verzoek. Er zijn vier tips om technische problemen te voorkomen:
Check vooraf je batterijen (indien van toepassing) en breng reservebatterijen of een oplader mee.
Doe vooraf een soundcheck.
Check na het interview het begin, midden en einde van de opname.
Als de opname niet goed is, schrijf dan gelijk het interview uit, voordat je details vergeet.
Het komt steeds vaker voor dat onderzoekers een kleine vergoeding betalen voor een interview, dit gebeurt meestal achteraf.
Na het interview beschrijft de interviewer in 'field notes' een korte impressie en begint het transcriberen (uittypen) van het interview. Om tijd te besparen, kan speech to text worden gebruikt, software die opnames omvormt tot tekst. Sommige onderzoekers vinden dat het beter is om het interview zelf uit te schrijven, omdat dit ze dichter tot de data brengt. Het transcriberen is geen hersenloze taak, het is een proces waarin analyse en het interview vervlochten zijn. Transcriberen kan tot nieuwe inzichten leiden.
De betrouwbaarheid geeft aan hoe consistent een meting is, of andere onderzoekers op hetzelfde resultaat uit zouden komen. De validiteit geeft aan hoe waarheidsgetrouw en accuraat een meting is, of het echt meet wat de bedoeling is. Bij een diepte-interview heeft echter de onderzoeker een grote invloed op de uitkomsten van het interview.
Socioloog Stephen Vaisey beargumenteert dat enquêtes beter zijn dan diepte-interviews voor het registreren van onbewuste, intuïtieve overtuigingen. Sommige etnografen vinden dat diepte-interviews te oppervlakkig zijn in vergelijking tot etnografie. Wat iemand doet is soms heel anders dan wat iemand zegt.
Diepte-interviewers zijn ervan overtuigd dat een belangrijk onderdeel van het interview het interpreteren van lichaamstaal kan zijn. Uiteindelijk is het afhankelijk van de onderzoeksvraag welke soort onderzoek het meest geschikt is. Etnografie is geschikt voor het beschrijven van gedrag, enquêtes voor het onderzoeken van de prevalentie van overtuigingen en gedrag en diepte-interviews voor het begrijpen van hoe mensen de wereld zien.
Focusgroepen worden zowel gebruikt in de sociale wetenschappen als in marktonderzoek en onderzoek voor politieke doeleinden. Er zijn twee belangrijke verschillen tussen focusgroepen en diepte-interviews:
Focusgroepen zijn gericht op interactie. Meningen die tijdens diepte-interviews sterk lijken, kunnen in focusgroepen onderuit worden gehaald.
Bij focusgroepen gaat de aandacht meer uit naar een specifiek onderwerp.
Focusgroepen worden geleid door een moderator die de conversatie begeleidt. Mensen durven meer te zeggen wat ze denken als er homogeniteit is; als de onderzoekssubjecten een soortgelijke sociale status of achtergrond hebben. Soms kunnen mensen gevoelige informatie delen in focusgroepen, de onderzoeker kan dan niet garanderen dat dit privé blijft en dat de andere groepsleden het voor zichzelf houden.
Kwalitatieve data-analyse is het proces waarin onderzoekers bevindingen halen uit kwalitatieve data zoals tekst, audio, video en foto's. Het materiaal dat verzameld wordt tijdens bijvoorbeeld etnografisch onderzoek en diepte-interviews kan omvangrijk zijn, het is een uitdaging om hier conclusies uit te trekken.
Kwalitatieve data-analyse is een kunst, er is creativiteit voor nodig. Het is echter een uitdaging, ook door de volumes aan data. Sociaal-wetenschappelijk onderzoek moet transparant zijn, logisch en rigoureus.
Er zijn verschillende benaderingen ten opzichte van de aard van sociaal-wetenschappelijk onderzoek. Volgens het positivisme is er een externe realiteit die objectief beschreven en geanalyseerd kan worden aan de hand van wetenschappelijke standaarden. Volgens het anti-positivisme (interpretivism) gaat onderzoek niet om een objectieve waarheid maar om een waarheidsgetrouwe weerslag van de interpretatie van het subject van gebeurtenissen, sociale ontwikkelingen en andere fenomenen.
Er is een verschil tussen het perspectief van de onderzoeker en van de onderzoekssubjecten. Onderzoekers met een emisch uitgangspunt proberen zich in te leven in het perspectief van de respondenten. Onderzoekers met een ethisch uitgangspunt houden afstand van de respondenten, met als doel wetenschappelijke objectiviteit.
Waar kwantitatief onderzoek meer gericht is op grote hoeveelheden data verzamelen en conclusies trekken over hoe vaak een fenomeen voorkomt, gaat kwalitatief onderzoek meer de diepte in met de bestudering van specifieke gevallen. Eigenlijk is er zowel bij kwantitatief onderzoek als bij kwalitatief onderzoek een interesse in causaliteit. Deze onderzoeksvormen bestuderen causaliteit echter elk op hun eigen manier. Kwantitatieve onderzoekers willen de effecten van oorzaken weten ('effects of causes approach'), terwijl kwalitatieve onderzoekers de oorzaken van bepaalde fenomen willen achterhalen ('causes-of-effects approach').
Kwalitatieve vergelijkende analyse ('qualitative comparative analysis', QCA) heeft causale relaties blootleggen als doel. Deze methode is ontwikkeld door Charles Ragin, heeft een causes-of-effects approach en past logica toe op causaliteit. Volgens deze methode is een verband causaal als een bepaald fenomeen nodig en voldoende is voor een bepaald ander fenomeen. Er kunnen allerlei variabelen zijn die in verband staan met een bepaald fenomeen. Om dit te inventariseren, moet er eerst worden bekeken welke positieve gevallen er zijn (gevallen met de gewenste uitkomst) en welke negatieve gevallen (gevallen die het causale verband niet bevestigen). Vervolgens wordt er een waarheidstabel gemaakt, een tabel die gevallen rangschikt aan de hand van de aanwezigheid of afwezigheid van bepaalde variabelen. In deze tabel is per variabele overzichtelijk te zien of er veel positieve uitkomsten zijn of juist niet. Bij complexere onderzoeken kan software helpen om de positieve gevallen aan te wijzen. Het nadeel van deze methode is echter dat er enkel een verhouding wordt getoond, maar niet het mechanisme van welke combinatie van factoren precies een fenomeen veroorzaakt en waarom.
Een andere methode, ook binnen de causes-of-effects approach, bestudeert processen en mechanismen. Deze methode legt meer de nadruk op hoe-vragen. Vooral etnografen gebruiken deze methode, meestal aan de hand van zes soorten vragen:
Wat zijn mensen aan het doen, wat proberen ze te bereiken?
Hoe en met welke middelen en strategieën doen ze dit?
Hoe praten mensen over wat er gebeurt, hoe karakteriseren en begrijpen ze het?
Welke aannames doen ze?
Wat zie ik hier gebeuren, wat heb ik geleerd van deze notities?
Waarom heb ik dit genoteerd?
Deze methode is beter in het leren begrijpen hoe processen werken.
Inductief onderzoek begint met data en generaliseert vervolgens conclusies daaruit. Abductief onderzoek zoekt naar verrassende elementen in onderzoek en schept theorieën op basis daarvan. Deductief onderzoek begint met theorieën en hypotheses waaruit een strategie volgt voor het verzamelen van data die vervolgens geanalyseerd wordt (dit heet top-down onderzoek). In kwalitatief onderzoek worden de inductieve en abductieve methode het meest gebruikt.
De sociologen Barney G. Glaser en Anselm L. Strauss hebben de 'grounded theory' benadering ontwikkeld. Dit is een systematische, inductieve benadering, waarbij onderzoekers conceptuele verhoudingen uit data halen en niet vooraf hypotheses uit bestaande theorieën trekken. Deze benadering geeft de voorkeur aan selecte steekproeftrekking ('purposive sampling') en opeenvolgende steekproeftrekking (sequential sampling). Anders gezegd, onderzoekssubjecten moeten bewust worden uitgekozen gedurende het gehele onderzoeksproces, totdat verzadiging optreedt. Tegenwoordig wordt minder gebruik gemaakt van deze benadering omdat academische instituten veel eisen stellen aan het vooraf vastleggen van onderzoeksdoelen.
Daartegenover staat de extended case study approach, ontwikkeld door Michael Burawoy. Volgens deze benadering moet een kwalitatief onderzoek worden gestart met een bestaande theorie die aan de hand van een veldonderzoek of anderszins wordt bekrachtigd of aangepast. Gedurende het onderzoek wordt de theorie dan uitgediept en verbreed met behulp van meerdere locaties voor veldonderzoek.
Kwalitatieve data-analyse heeft zes stappen:
De data managen en voorbereiden. Belangrijk hierbij is de-identificatie; de data aanpassen zodat de respondenten anoniem blijven. Bij het transcriberen kunnen ook de interviewer effects worden aangeduid; de manier waarop bepaalde interviewers (onbewust) bepaalde antwoorden uitlokken. QDA software (qualitative data analysis software) helpt bij het verwerken van alle data.
De data vertrouwd maken en reduceren. Transcriberen zelf doen dwingt de onderzoeker om over de data na te denken. Ook kunnen afleidingen en onderbrekingen uit het interview geschrapt worden. Na het transcriberen wordt er een korte samenvatting geschreven van het interview.
Coderen. Dit betekent het labelen van segmenten van de data in gestandaardiseerde categorieën. Deze segmenten dienen dan als een voorbeeld van of staan in relatie tot een theoretisch idee, thema of concept. De onderzoeker moet besluiten hoe hij/zij een lijst met codes ontwikkelt, hoeveel materiaal elke code dekt en hoe bepaald moet worden of codes gesplitst of gecombineerd worden.
Memo's schrijven.
Modellen bouwen en testen.
Het uiteindelijke rapport schrijven.
Toen het coderen voor het eerst werd ontwikkeld, als onderdeel van grounded theory, werden codes eerst op erg gedetailleerd niveau gebruikt en later meer geabstraheerd tot theoretische concepten. Nu is onder andere vanwege software het coderen veel efficiënter geworden. Er zijn drie soorten codes: attribuutcodes (classificerende labels), indexcodes (antwoorden op vragen uit het interviewschema) en analytische codes (relaties tot de onderzoeksvraag). In een onderzoek over of er een verband is tussen leeftijd en urbanisatie, is de leeftijdscategorie bijvoorbeeld een attribuutcode, 'meerdere keren verhuisd' een indexcode, en 'meer plek nodig voor kinderkamers' een analytische code.
Een typologie is een manier van generaliseren uit concrete gevallen door een gemeenschappelijke kern binnen een groep gevallen te definiëren. Dit is bijvoorbeeld het geval wanneer een analytische code een hele persoon aanduidt en daarmee een attribuutcode wordt.
Coderen en analyseren zijn met elkaar verbonden in een proces dat uit drie fases bestaat: de data voorbereiden met attribuutcodes en indexcodes, analytische codes toepassen, en modellen bouwen en uittesten.
De data voorbereiden met attribuutcodes en indexcodes is een tijdrovende bezigheid. Bij het bepalen welke data belangrijk zou kunnen zijn voor het onderzoek, helpt het om de vraag te stellen welke implicaties een bepaald fragment informatie zou kunnen hebben.
Het is moeilijk om analytische codes op een consistente manier toe te passen, daarom is het beter de tekst meerdere keren te lezen en elke keer slechts enkele nieuwe analytische codes toe te passen. Het risico van software is dat er zoveel codes zijn toegepast, dat er geen overzicht meer is. Tijdens het coderen kun je gebruik maken van memo's om notities te maken. Memo's zijn notities over de relaties tussen de gebruikte codes en kennis, interpretaties van de onderzoeksvragen en gedachten over het bewijs van de conclusies. Ook belangrijk is een codeboek, een systeem met informatie over een verzameling data, met daarin de variabelen, mogelijke waarden, overzicht van codes en gemaakte besluiten.
Een model is in deze context een verbale of visuele beschrijving van een argument. Een model beschrijft dus hoe de verschillende variabelen samen iets aangeven over de realiteit. Software kan in een matrix aangeven welke variabelen vaak samengaan, maar het is de taak van de onderzoeker om hier wel of niet conclusies uit te trekken. Een voorbeeld van een dergelijke matrix is een 'ethnoarray'; een matrix die een etnografisch onderzoek vormgeeft in kolommen met respondenten en rijen met domeinen en andere metingen. Belangrijk bij het aftasten of een hypothese klopt, is de betrouwbaarheid van het onderzoek. De nulhypothese moet kunnen weerlegd; de aanname dat er geen relatie bestaat tussen concepten of geen verschil in de afhankelijke variabele bij een vergelijking tussen twee groepen. Bij het uittesten van een model kunnen afwijkende gevallen helpen om de theorie te verscherpen.
Het rapport mag delen van de memo's of citaten van respondenten bevatten, maar dit moet geen te groot deel van het rapport worden. Voor het rapport maakt het uit of je case studies erbij voegt, je richt op een allesomvattend verslag of slechts een paar gevallen beschrijft, en of je het rapport thematisch indeelt. De gedetailleerde informatie over de individuen die geïnterviewd zijn mag beperkt blijven, maar het is belangrijk om de methodologie en gemaakte keuzes uit te leggen. Spellingscorrectie van uitspraken die in interviews zijn gedaan is toegestaan, maar de betekenis moet hetzelfde blijven. Hoe transparanter je bent over het onderzoeksproces, hoe makkelijker andere onderzoekers je onderzoek kunnen gebruiken en hoe meer je bijdraagt aan de sociale wetenschappen.
Hoe maak je gebruik van samenvattingen en studiehulp via studievereniging Versatile?
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
Main summaries home pages:
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
3095 | 3 |
Add new contribution