Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Deze samenvatting is gebaseerd op het studiejaar 2013-2014.
Introduction to the practice of statistics
7. Statistische gevolgtrekkingen voor distributies
7.1 Het gemiddelde van een populatie
Standaarddeviatie van de populatie en de steekproef
In het vorige deel is bij de significantietoets uitgegaan van een bekende σ. In de praktijk kennen we de standaarddeviatie van de populatie vaak niet. De standaarddeviatie van de steekproef (s) wordt dan gebruikt om σ te schatten.
De t-distributie
We gebruiken de t-distributie (in plaats van de z-distributie) wanneer we de standaarddeviatie van de populatie niet kennen.
- Wanneer de standaarddeviatie van een statistiek uit de data wordt geschat, dan wordt het resultaat de (geschatte) standaardfout van de statistiek genoemd. De standaardfout van het steekproefgemiddelde is: SEM = s/.
- Het gestandaardiseerde steekproefgemiddelde wordt ook wel weergegeven met de één-steekproef-z-toets: z=(-μ)/ (σ/). Deze toets is de normaalverdeeld: N(0,1).
Wanneer we (σ/) vervangen door (s/), dan is er echter geen sprake meer van een normaalverdeling. Er is nu een t-distributie ontstaan.
- Als er een SRS van grootte n uit een normaalverdeelde populatie N(μ,σ) wordt getrokken, dan is de één-steekproef-t-toets: t=(-μ)/ (s/). Dit is een t-distributie met n-1 vrijheidsgraden (k).
- Bij elke vrijheidsgraad hoort een andere t-distributie. De dichtheidscurves van de t-distributies lijken qua vorm op die van de bekende normaalverdeelde curve. De piek is echter lager en de staarten staan wat hoger. Er is dus meer spreiding aanwezig. Dit komt omdat de standaarddeviatie van de populatie niet gebruikt wordt in de formule. De standaarddeviatie van de steekproef zorgt voor meer spreiding. Tabel D geeft kritische t*-waarden voor de t-distributies. Bij het gebruiken van de tabel moet gekeken worden naar de bijbehorende vrijheidsgraden.
Betrouwbaarheidsintervallen voor t-distributies
Als je een SRS van grootte n uit een populatie met een onbekend gemiddelde (μ) trekt, dan is het betrouwbaarheidsinterval (C) voor μ:
- ±t*(s/). In dit verband is t* de waarde voor de t(n-1) dichtheidscurve met gebied C tussen –t* en t*. In deze formule staat t*(s/) voor de foutenmarge.
De t-toets
Het toetsen van significantie met een t-toets lijkt erg op het toetsen van significantie met de z-toets. De t-waarde wordt verkregen door:
- t= (- μ0)/ (s/). De bijbehorende p-waarde kan opgezocht worden in tabel D achterin het boek.
- We kunnen er, net zoals bij de z-toets, voor kiezen om eenzijdig of tweezijdig te toetsen. Als er geen vermoeden over de richting van het effect bestaat, dan is het altijd beter om een tweezijdige toets uit te voeren.
Gematchte paren en de t-distributie
Bij een gematchte paren-onderzoek vormen deelnemers paren. Vervolgens wordt er naar de onderzoekresultaten binnen elk paar gekeken. De onderzoeker kan bijvoorbeeld twee vormen van therapie uitproberen op de verschillende leden van een paar om te kijken of er verschillen in uitkomsten optreden. We willen elk lid van een paar dus met het andere lid vergelijken. Er wordt voor elk paar (of elk individu) een verschilscore berekend. Deze scores worden gebruikt als data. Tot slot kunnen met deze informatie t-betrouwbaarheidsintervallen en t-significantietoetsen uitgevoerd worden. Zo een onderzoek wordt vaak ook gedaan als randomisatie niet mogelijk is.
9. Analyse van tweewegtabellen (paragraaf 9.1)
9.1 Tweewegtabellen
Samenhang
Het is mogelijk om de samenhang tussen twee categorische variabelen uit te zoeken. Denk in dit verband maar eens aan geslacht (man/vrouw) en het hebben van een rijbewijs (ja/nee). De variabelen kunnen in een tweewegtabel gezet worden met twee rijen en twee kolommen. De kolommen staan voor onafhankelijke steekproeven uit verschillende populaties. Er zijn c aantal distributies voor de rijvariabele, één voor elke populatie.
- De nulhypothese stelt dat er geen samenhang tussen twee categorische variabelen bestaat. Deze hypothese zegt dus eigenlijk dat de c-distributies van elke rijvariabele hetzelfde zijn.
- De alternatieve hypothese stelt dat er sprake is van samenhang tussen de twee variabelen. In de alternatieve hypothese wordt echter geen richting aangegeven. Deze hypothese zegt dus dat de distributies niet allemaal gelijk zijn.
De chi-kwadraat toets
Om de nulhypothese over de rxc (rij x kolom) informatie te toetsen, vergelijken we de geobserveerde celtellingen met de verwachte celtellingen. Omdat het om een tweewegtabel gaat, zijn er in totaal vier cellen.
- De verwachte celtelling: (rijtotaal/ kolomtotaal)/n.
Om de nulhypothese te toetsen moet een chi-toets berekend worden.
- Eerst moet het verschil tussen elke geobserveerde telling en de bijbehorende verwachte telling berekend worden. Alle verschillen moeten gekwadrateerd worden, zodat alle uitkomsten positief zijn.
- Vervolgens moet elk gekwadrateerde verschil door de bijbehorende verwachte telling gedeeld worden. Dit is een methode om de verschillen te standaardiseren.
- Tot slot moeten alle resultaten opgeteld worden. Het resultaat is de chi-kwadraat toets (X 2). De bijbehorende formule is: X 2 = Σ (geobserveerde telling - verwachte telling) 2 / verwachte telling.
Chi-kwadraat distributie
Als de verwachte tellingen en de geobserveerde tellingen erg verschillend zijn, zal er een grote chi-kwadraat toets gevonden worden. Grote waarden van X 2 geven bewijs tegen de nulhypothese. Om een p-waarde te vinden gaan we aan de gang met de chi-kwadraat distributie. Zoals de t-distributies zijn vrijheidsgraden ook belangrijk voor chi-kwadraat distributie. Er kunnen alleen maar positieve chi-kwadraat toetsen verkregen worden op basis van onderzoeksdata. De chi-kwadraat distributie heeft een afwijking naar rechts.
- Als de nulhypothese waar is, dan heeft X 2 een distributie met (r-1)(c-1) vrijheidsgraden. De p-waarde kan gevonden worden door de berekende chi-kwadraat toets op te zoeken in de chi-tabel en te kijken tussen welke p-waarden deze ligt.
De z-toets en de chi-kwadraat toets
Een z-toets uitvoeren op basis van dezelfde onderzoeksdata geeft dezelfde resultaten als een chi-kwadraat toets. Het voordeel van een z-toets is echter dat we zowel eenzijdig als tweezijdig kunnen toetsen, terwijl we met de chi-kwadraat toets alleen tweezijdig kunnen toetsen. Het voordeel van de chi-kwadraat toets is dat er meer dan twee populaties met elkaar vergeleken kunnen worden.
Introduction to research methods in the social and behavioral sciences
3. Het meten van gedrag (pp. 53-70)
Betrouwbaarheid als systematische variantie
Wetenschappers weten nooit precies hoeveel meetfouten er in een studie bestaan en wat de ware scores van deelnemers precies zijn. Ook weten ze niet precies hoe betrouwbaar hun meting is, maar ze kunnen aan de hand van statistische analyses wel inschatten hoe betrouwbaar hun meting is. Als zij zien dat hun meting niet betrouwbaar genoeg is, dan kunnen ze proberen hun meting meer betrouwbaar te maken. Is ook het betrouwbaarder maken van de meting niet mogelijk, dan kunnen ze ervoor kiezen om de meting helemaal niet te gebruiken in het onderzoek.
· De totale variantie in een dataset van scores bestaat uit twee onderdelen: (1) variantie door ware scores en (2) variantie door meetfouten. In formulevorm is dit : totale variantie = variantie door ware scores + variantie door meetfouten.
· We kunnen ook zeggen dat de proportie totale variantie die samenhangt met de ware scores van de deelnemers systematische variantie is, omdat de ware scores op systematische wijze gerelateerd zijn aan de meting.
· De variantie die door meetfouten ontstaat is errorvariantie omdat deze variantie niet gerelateerd is aan wat de wetenschapper onderzoekt.
· We zeggen daarom dat de betrouwbaarheid wordt berekend door de ware score variantie te delen door de totale variantie, dus: betrouwbaarheid = ware score variantie/totale variantie. De betrouwbaarheid van een meting ligt tussen de 0 en de 1. Een betrouwbaarheid van .00 zegt ons dat er helemaal geen ware score variantie aanwezig is in de data en dat de scores alleen maar staan voor meetfouten. Bij een betrouwbaarheid van 1.00 is het precies omgekeerd; daar is er alleen sprake van ware score variantie en zijn er geen meetfouten. De vuistregel is dat een meting betrouwbaar genoeg is als deze minimaal een betrouwbaarheid van .70 heeft. Dit betekent dat 70% van de variantie in de data staat voor ware score variantie.
Soorten betrouwbaarheid
Onderzoekers maken gebruik van drie soorten betrouwbaarheid bij het analyseren van hun data: (1) ‘test-retest’ betrouwbaarheid, (2) ‘interitem’ betrouwbaarheid en (3) ‘interrater’ betrouwbaarheid. Een correlatiecoëfficiënt is een statistiek die aangeeft hoe sterk de relatie tussen twee metingen is. Deze statistiek ligt tussen de .00 (geen relatie tussen de metingen) en 1.00 (perfecte relatie tussen metingen). Correlatiecoëfficiënten kunnen positief of negatief zijn. Als deze statistiek wordt gekwadrateerd, dan zien we in welke mate de proportie van de totale variantie van beide metingen systematisch is. Hoe hoger de correlatie, hoe meer twee variabelen gerelateerd zijn. Hieronder wordt ingegaan op drie soorten betrouwbaarheid.
1. Test-retest betrouwbaarheid
De meeste schattingen van betrouwbaarheid worden gedaan aan de hand van de correlatie tussen twee metingen van hetzelfde gedrag, attribuut of kenmerk. Bij test-retest betrouwbaarheid gaat het om de consistentie van de responsen van deelnemers door de tijd heen. Proefpersonen worden twee keer gemeten. Tussen deze twee metingen zit meestal een periode van een aantal weken. Als we ervan uitgaan dat een kenmerk stabiel is, dan zou iemand twee keer dezelfde score moeten hebben op dezelfde test. Als iemand de eerste keer een score van 110 heeft op een IQ-test, dan is het de bedoeling dat hij de volgende keer ook een score van rond de 110 heeft op dezelfde test. Dit omdat intelligentie een relatief stabiel kenmerk is. Toch zullen beide metingen niet hetzelfde zijn, omdat er altijd sprake zal zijn van meetfouten. Als beide IQ-scores een hoge correlatie hebben (minstens .70), dan heeft een meting (dus de IQ-test) een goede test-retest betrouwbaarheid. We verwachten een hoge test-rest betrouwbaarheid voor intelligentie-, attitude- en persoonlijkheidstesten. Bij minder stabiele eigenschappen, zoals honger of vermoeidheid, heeft het meten van test-retest betrouwbaarheid geen nut.
2. Interitem betrouwbaarheid
De interitem betrouwbaarheid is van belang bij metingen die bestaan uit meer dan één item. Interitem betrouwbaarheid gaat dan ook over de mate van consistentie tussen meerdere items op een schaal. Persoonlijkheidsvragenlijsten bestaan bijvoorbeeld vaak uit meerdere items die worden opgeteld tot een score die iets zeggen over bijvoorbeeld de extraversie of het zelfvertrouwen van deelnemers. Deze items worden vervolgens opgeteld tot een score. Wanneer wetenschappers de antwoorden van deelnemers optellen om een enkele score te krijgen, moeten ze er wel zeker van zijn dat alle items hetzelfde construct (bijvoorbeeld extraversie) meten. Om te kijken in hoeverre items met elkaar samenhangen, kan voor elke combinatie van items een item-totaal correlatie berekend worden. Dit is de correlatie tussen een item en de rest van alle items bij elkaar. Elk item op de schaal zou moeten correleren met de rest van de items. Een item-totaal correlatie van .30 of hoger per item wordt als voldoende beschouwd. Naast het feit dat berekend moet worden of elk item samenhangt met alle andere items is het ook nodig om de betrouwbaarheid van alle items bij elkaar te berekenen. In het verleden werd hiervoor de split-half betrouwbaarheid berekend. Eerst werd met de split-half methode de interitem betrouwbaarheid berekend.
· Bij de split-half betrouwbaarheid worden de items over twee sets verdeeld. Soms worden de even getallen in de ene lijst gezet terwijl de oneven getallen in de andere lijst worden gezet. Soms wordt er echter voor gekozen om, bijvoorbeeld als er tien items zijn, de eerste vijf items in een lijst te zetten en de volgende vijf items in de andere lijst te zetten. Daarna wordt voor elke set een totaalscore berekend. Vervolgens wordt er een correlatie tussen beide sets berekend. Als de items in beide sets hetzelfde construct meten, dan zou er een hoge correlatie tussen beide sets moeten zijn. Onder een hoge correlatie wordt ook in dit verband .70 of hoger verstaan. Het nadeel van de split-half betrouwbaarheid is dat correlatie die gevonden wordt afhangt van welke items je in welke set plaatst. Als je de sets net iets anders indeelt, kan er een hele andere split-half betrouwbaarheid uitkomen. Het berekenen van de split-half betrouwbaarheid geeft dan ook vrij weinig zekerheid.
· Om deze reden wordt tegenwoordig de ‘Cronbach’s alpha coëfficiënt’ berekend. Met de Cronbach’s alpha bereken je (door middel van een simpele formule) het gemiddelde van alle mogelijke split-half betrouwbaarheden. Wetenschappers gaan ervan uit dat de interitem betrouwbaarheid goed is als Cronbach’s alpha .70 of hoger is.
1. Interrater betrouwbaarheid
Interrater betrouwbaarheid wordt ook wel ‘interjudge’ of ‘interobserver’ betrouwbaarheid genoemd. Het gaat hierbij om de mate waarin twee of meerdere onderzoekers het gedrag van de proefpersonen hetzelfde observeren en opslaan. Als de ene onderzoeker stelt dat een rat 15 keer een hendeltje heeft ingedrukt en de andere onderzoeker stelt dat dezelfde rat 20 keer een hendeltje heeft ingedrukt, dan is er dus iets mis met de interrater betrouwbaarheid. Onderzoekers gebruiken vaak twee methoden om de interrater betrouwbaarheid te berekenen. Als onderzoekers alleen moeten noteren of een gedraging zich heeft voorgedaan, kunnen we een percentage berekenen dat staat voor hoe vaak zij het met elkaar eens zijn. Als de onderzoekers het gedrag van de deelnemers echter moeten beoordelen op een schaal (bijvoorbeeld een score op angst tussen de 1 en 5), dan kunnen we kijken of de onderzoekers alle deelnemers dezelfde beoordeling geven. Als de onderzoekers soortgelijke beoordelingen maken (dus bij een hoge interrater betrouwbaarheid), dan zou de correlatie tussen hun beoordelingen .70 of hoger moeten zijn.
De betrouwbaarheid van metingen vergroten
Het is van belang dat een onderzoeker probeert de betrouwbaarheid van een meting zo groot mogelijk te maken. Dit kan op vier manieren:
1. Het standaardiseren van de administratie van een meting. Elke deelnemer moet onder precies dezelfde omstandigheden getest worden. Verschil in het afnemen van de meting kan leiden tot meetfouten, dus tot een verlaging van de betrouwbaarheid.
2. Het verduidelijken van instructies en vragen. Meetfouten ontstaan wanneer deelnemers instructies of vragen niet helemaal goed begrijpen. Het is goed om van te voren als onderzoeker te testen of de vragen begrijpelijk zijn voor deelnemers.
3. Het trainen van onderzoekers. Als het gedrag van deelnemers moet worden geobserveerd en beoordeeld, dan is het nodig om onderzoekers goed te trainen.
4. Het minimaliseren van fouten in het coderen van data. Hoe betrouwbaar een meettechniek ook is, meetfouten ontstaan wanneer onderzoekers fouten maken in het coderen of verwerken van data, bijvoorbeeld bij het opslaan van gegevens in de computer.
Validiteit
Meettechnieken moeten niet alleen betrouwbaar, maar ook valide zijn. Validiteit staat voor de mate waarin een meettechniek meet wat het hoort te meten. De vraag is dus of we meten wat we willen meten. Het is belangrijk om op te merken dat betrouwbaarheid en validiteit twee verschillende dingen zijn. Een meetinstrument kan tegelijkertijd betrouwbaar maar niet valide zijn. Een hoge betrouwbaarheid vertelt ons dat het meetinstrument iets meet, maar niet precies wat het meetinstrument precies meet. Om daar achter te komen is het van belang om naar de validiteit te kijken. Validiteit is niet een vaststaand kenmerk van een meettechniek. Een meting kan voor het ene doel valide zijn, terwijl deze niet valide is voor een ander doel. Onderzoekers maken onderscheid tussen drie soorten validiteit: (1) ‘face’ validiteit, (2) construct validiteit en (3) ‘criterion-related’ validiteit.
1. Face validiteit
Face validiteit gaat over de mate waarin een meting lijkt te meten wat hij hoort te meten. Een meting heeft face validiteit als mensen denken dat dat zo is. Deze vorm van validiteit kan dus niet statistisch berekend worden, maar is meer een oordeel van mensen die de meting gevoelsmatig beoordelen. De face validiteit wordt vastgesteld door de onderzoeker, door de proefpersonen en/of door experts op het betreffende vakgebied. Als een meting geen face validiteit heeft, dan vinden proefpersonen het niet van belang om echt mee te doen. Als een persoonlijkheidstest geen face validiteit heeft en proefpersonen moeten deze test wel invullen, dan snappen ze de toegevoegde waarde van de test niet. Dit verlaagt hun motivatie om deel te nemen aan het onderzoek. Het is van belang om drie dingen te onthouden: (1) dat een meting face validiteit heeft, betekent niet dat deze ook echt valide is, (2) wanneer een meting geen face validiteit heeft, hoeft dit niet te betekenen dat er in het echt geen sprake is van validiteit en (3) soms willen onderzoekers hun doelen maskeren. Als ze bijvoorbeeld bang zijn dat deelnemers gevoelige vragen niet eerlijk zullen beantwoorden, kunnen zij meetinstrumenten ontwerpen die geen face validiteit hebben.
2. Construct validiteit
Vaak zijn onderzoekers geïnteresseerd in hypothetische constructen. Dit zijn constructen die niet direct geobserveerd kunnen worden op basis van empirisch bewijs. Denk aan constructen als intelligentie, status, zelfconcept, moraliteit en motivatie. Het is de vraag hoe we kunnen weten of de meting van een hypothetisch construct (dat niet waarneembaar is) valide is. Cronbach en Meehl stellen dat de we de validiteit van de meting van een hypothetisch construct kunnen vaststellen door deze meting te vergelijken met andere metingen. Het is dus van belang om te kijken naar de relatie tussen de verschillende metingen. Scores op een meetinstrument voor zelfvertrouwen zouden bijvoorbeeld positief gecorreleerd moeten zijn met metingen op optimisme, maar negatief gecorreleerd moeten zijn met meetinstrumenten die onzekerheid en angst meten. We berekenen de construct validiteit dus door te analyseren in hoeverre een meetinstrument gerelateerd is aan andere meetinstrumenten. Dit wordt vaak gedaan door middel van correlatiecoëfficiënten.
In tegenstelling tot betrouwbaarheid (waarbij de correlaties boven de .70 moeten liggen) is er geen regel voor hoe groot de correlaties moeten zijn die berekend worden om de construct validiteit vast te stellen. Een meetinstrument heeft construct validiteit als deze (1) in hoge mate correleert met meetinstrumenten waar het mee zou moeten correleren (convergente validiteit) en (2) niet correleert (of in lage mate correleert) met meetinstrumenten waar het niet mee zou moeten correleren (discriminante validiteit).
3. Criterion-related validiteit
Criterion-related validiteit gaat over de mate waarin een meetinstrument ervoor zorgt dat we onderscheid kunnen maken tussen deelnemers op basis van een bepaald gedragscriterium. Een vraag is bijvoorbeeld of verschillende scores op een motivatietest op het VWO iets zeggen over wie het wel en niet goed zullen doen tijdens een universitaire studie. Het gedragscriterium is in dit geval de universitaire studie. Er wordt vooral gebruik gemaakt van criteriumvaliditeit in toegepaste onderzoekssettings. Denk hierbij aan onderwijssettings of sollicitaties. Onderzoekers maken onderscheid tussen twee primaire soorten van criteriumvaliditeit: (1) concurrente en (2) predictieve validiteit. Het belangrijkste verschil tussen deze twee soorten criteriumvaliditeit is de hoeveelheid tijd tussen de afname van het meetinstrument en het vaststellen van het gedragscriterium.
· Van concurrente validiteit is sprake wanneer twee meetinstrumenten ongeveer op hetzelfde moment worden gebruikt. De vraag is of het meetinstrument op een goede manier onderscheid kan maken tussen mensen die hoog en laag scoren op het gedragscriterium op dat specifieke moment. Wanneer scores op het meetinstrument gerelateerd zijn aan gedragingen waar ze op dat moment zelf aan gerelateerd zouden moeten zijn, dan heeft het meetinstrument concurrente validiteit.
· We spreken van predictieve validiteit wanneer een meetinstrument onderscheid kan maken tussen mensen op een gedragscriterium in de toekomst (bijvoorbeeld de motivatietest op het VWO en een prestatietest tijdens het studeren aan de universiteit). Het gaat er hier dus om of een score op de motivatietest op het VWO kan voorspellen hoe iemand het zal doen tijdens een universitaire studie. Criteriumvaliditeit is vooral van belang voor onderzoeken die uitgevoerd worden in een onderwijssetting.
Bias
In de afgelopen jaren is veel aandacht geweest voor het idee dat sommige meetinstrumenten gebiased zijn ten opzichte van bepaalde bevolkingsgroepen. Dit zou in het bijzonder gelden voor intelligentesten en testen die academische vermogens meten. Testbias ontstaat wanneer een specifiek meetinstrument niet even valide is voor iedereen die de test invult. Dat houdt in dat de testscores de capaciteit van de ene groep beter reflecteren dan de capaciteit van de andere groep. Het lijkt dus alsof de ene groep op dat gebied vaardiger is dan de andere groep, terwijl dit in het echt niet zo hoeft te zijn.
Het is vaak lastig om testbias vast te stellen. Omdat de ene groep slechter op een test presteert dan de andere groep, betekent niet gelijk dat er sprake is van een testbias. Het is mogelijk om testbias vast te stellen door de predictieve validiteit van een meetinstrument voor verschillende groepen vast te stellen. Als er sprake is van bias, dan zullen de toekomstige uitkomsten beter voorspeld worden voor de ene groep dan voor de andere groep.
5. Het selecteren van de participanten
Steekproeven trekken
Psychologen gebruiken beschrijvende onderzoeken minder vaak dan correlationele en (quasi-) experimentele onderzoeken. Toch blijven beschrijvende onderzoeken belangrijk en het is daarom nodig om op een betrouwbare manier steekproeven te trekken. Een steekproef (‘sample’) bestaat uit een aantal mensen uit een populatie waar de onderzoeker uitspraken over wil doen. Bij het trekken van steekproeven (‘sampling’) selecteert een onderzoeker een steekproef van deelnemers uit een populatie.
Kanssteekproeven
Een representatieve steekproef is een steekproef waarmee accurate en foutloze schattingen gemaakt kunnen worden over de populatie. Een steekproef is representatief als een bepaald aspect net zo vaak voorkomt in de steekproef zelf als in de populatie. Vaak is een steekproef echter geen perfecte weerspiegeling van de populatie. Het verschil tussen een steekproef en de bijbehorende populatie wordt ‘sampling error’ genoemd. Als een onderzoeker bijvoorbeeld het cijfergemiddelde van 100 studenten op een universiteit bekijkt, dan kan dat gemiddelde afwijken van het gemiddelde van alle studenten op een universiteit. Gelukkig kunnen onderzoekers inschatten in hoeverre hun steekproefresultaten beïnvloed zullen worden door sampling error. De foutenmarge (‘error of estimation’/ ‘margin of error’) geeft een indicatie voor de mate waarin verwacht wordt dat de data van een steekproef afwijken van de gehele populatie. In een verkiezingspoll kan de foutenmarge die hoort bij het kiezen van president X (45%) bijvoorbeeld 3% zijn, wat betekent dat we met 95% zekerheid kunnen stellen dat president X tussen de 42 en 48% van de stemmen zal krijgen. Hoe kleiner de foutenmarge, hoe meer de resultaten uit de steekproef lijken op de populatiegegevens. De foutenmarge wordt beïnvloed door drie factoren: (1) de grootte van de steekproef, (2) de grootte van de populatie en (3) de spreiding in de data:
· Hoe groter een kanssteekproef is, hoe meer deze lijkt op de populatie en hoe representatiever deze dus is voor de populatie. Dus hoe groter de kanssteekproef, hoe kleiner de foutenmarge. Wetenschappers kiezen echter niet voor de grootst mogelijke steekproef. Ze kiezen voor een economische steekproef (‘economic sample’): deze geeft een redelijk accuraat beeld van de populatie en kost zo min mogelijk inspanning en geld.
· De grootte van de populatie is natuurlijk ook van belang. Een steekproef van 100 man uit een populatie van 500 mensen is meer representatief dan een steekproef van 100 man uit een populatie van 100.000 mensen.
· Tot slot geldt dat hoe meer spreiding de data bevatten, hoe moeilijker het wordt om op accurate wijze de populatiewaarden te schatten.
Een foutenmarge is alleen betekenisvol wanneer we een kanssteekproef (‘probability sample’) gebruiken. Dit is een steekproef waarvan de onderzoeker weet wat de rekenkundige kans is dat elk individu uit de populatie voor de steekproef geselecteerd zal worden. Als er geen kanssteekproef gebruikt wordt, dan is het niet duidelijk of de steekproefdata echt iets zeggen over de populatie. Kanssteekproeven kunnen op drie manieren geselecteerd worden: (1) ‘simple random sampling’, (2) ‘stratified random sampling’ en (3) ‘cluster sampling’.
1. Simple random sampling
Bij ‘simple random sampling’ wordt de steekproef zo gekozen dat elk sample even veel kans heeft om geselecteerd te worden uit de populatie. Als een onderzoeker bijvoorbeeld een steekproef van 100 man wil selecteren uit een populatie van 5000 man en elke combinatie van 100 man heeft dezelfde kans om geselecteerd te worden, dan is er sprake van een ‘simple random sample’. Om zo’n steekproef te selecteren, moet een onderzoeker een ‘sampling frame’ gebruiken. Dit is een lijst met daarop de hele populatie waaruit de steekproef getrokken zal worden. Vervolgens worden de proefpersonen willekeurig gekozen van de lijst. Met grote populaties is het lastig om een lijst te maken van alle mogelijke deelnemers. In dat geval kan gebruikgemaakt worden van een tabel met willekeurige getallen (‘table of random numbers’). Een nadeel van de ‘simple random sampling’ is dat we vooraf informatie moeten hebben over hoeveel individuen er in een populatie zitten en we een ‘sampling frame’ nodig hebben. In sommige situaties is het opstellen van een ‘sampling frame’ namelijk niet mogelijk. In zulke gevallen wordt er gekozen voor ‘systematic sampling’. Bij ‘systematic sampling’ kan er niet van tevoren een lijst (samling frame) worden opgesteld. Daarom wordt tijdens het onderzoek zelf pas gebruik gemaakt van het random selecteren van proefpersonen. Elke zoveelste persoon wordt gekozen om deel te nemen aan de steekproef. Er kan bijvoorbeeld gezegd worden dat elke achtste persoon die binnenkomt mee mag doen met het onderzoek.
2. Stratified random sampling
Stratified random sampling is eigenlijk een variatie op simple random sampling. In dit geval worden mensen echter niet direct uit de populatie geselecteerd, maar wordt de populatie eerst verdeeld in meerdere strata. Een stratum is een deel van de populatie dat overeenkomt op een bepaald kenmerk.
We kunnen de populatie bijvoorbeeld verdelen in mannen en vrouwen of in drie leeftijdsgroepen (20-29, 30-39 en 40-49). Vervolgens worden proefpersonen random gekozen uit elk van de strata. Door deze procedure kunnen onderzoekers er zeker van zijn dat er uit elk stratum evenveel mensen geselecteerd worden. Vaak gebruiken onderzoekers een ‘proportionate sampling method’. Hierbij worden individuen uit elk stratum geselecteerd naar proportie. Dat houdt in dat het percentage mensen dat meedoet aan het onderzoek (uit een bepaald stratum) overeenkomt met hoe vaak deze mensen in de populatie voorkomen. Als 55% van de mensen in een populatie man is en 45% vrouw is, dan is het de bedoeling dat de steekproef er ook zo uitziet.
3. Cluster sampling
Het grote nadeel van simple en stratified random sampling is dat eerst informatie moet bestaan over hoeveel (en welke) individuen in een populatie voorkomen voordat een selectie gemaakt kan worden. Dit is vooral een probleem bij populaties die ontzettend groot zijn (bijvoorbeeld bij een onderzoek naar ‘de Nederlandse burger’). Wanneer het moeilijk is om van tevoren aan de benodigde informatie te komen, wordt er vaak gebruik gemaakt van ‘cluster sampling’. In dit geval trekt de onderzoeker niet eerst individuen uit de populatie, maar juist clusters van mogelijke proefpersonen. Deze clusters zijn vaak gebaseerd op natuurlijk bestaande clusters, zoals gebieden in een land. Vaak wordt het bij cluster sampling gebruik gemaakt van ‘multistage sampling’. Hierbij worden eerst grote clusters vastgesteld. Vervolgens worden kleinere clusters binnen deze grotere clusters vastgesteld. En zo gaat het door totdat er een steekproef ontstaat. Cluster sampling heeft twee voordelen: (1) er is geen sampling frame voor nodig (maar alleen een lijst met clusters, die veel makkelijker vast te stellen is) en (2) elk cluster bestaat uit een groep van deelnemers die geografisch gezien dicht bij elkaar leven. Hierdoor kost het minder tijd en moeite om contact op te nemen met de proefpersonen.
Non-respons en misgeneralisatie
Het non-respons probleem ontstaat wanneer individuen die voor een steekproef geselecteerd zijn niet reageren. Denk bijvoorbeeld aan het telefonisch benaderen van de geselecteerde proefpersonen. Niet iedereen die dit telefoontje krijgt, wil daadwerkelijk deelnemen aan het onderzoek. In dit geval is de kans groot dat zij de telefoon ophangen. Non-respons is een probleem, omdat de mensen die niet willen deelnemen aan het onderzoek op bepaalde eigenschappen significant kunnen verschillen van mensen die wel willen deelnemen. De mensen die niet willen deelnemen worden niet onderzocht, dus met hun eigenschappen wordt geen rekening gehouden in het onderzoek. Dit vermindert de voordelen van het probability sample. Het non-respons probleem kan op twee manieren opgelost worden: (1) Onderzoekers kunnen ervoor zorgen dat de respons toeneemt. Dit kunnen zij bijvoorbeeld doen door de proefpersonen na afloop van het eerste onderzoek persoonlijk op te bellen, en hen te vragen om ook deel te nemen aan het vervolgonderzoek. (2) Onderzoeken of de mensen die wel en niet reageren systematisch van elkaar verschillen. Bij het rekruteren van proefpersonen kunnen onderzoekers bijvoorbeeld gebruik maken van de belofte van een klein geldbedrag als beloning voor deelname. Mensen met weinig geld zullen hier gevoeliger voor zijn dan mensen met veel geld. In dit onderzoek zullen waarschijnlijk relatief veel armere mensen meedoen.
Zelfs wanneer een kanssteekproef gebruikt is, kunnen de resultaten misleidend zijn en kan de onderzoeker dus foutieve uitspraken doen. In zo een geval is sprake van misgeneralisatie. Een voorbeeld van misgeneralisatie is een onderzoek naar kinderen op basisscholen. Om een representatief beeld te krijgen, zouden zowel arme als rijke kinderen moeten worden opgenomen in het onderzoek. Als er in dit geval alleen kinderen op privéscholen zouden worden onderzocht (en er wel een uitspraak wordt gedaan over de hele populatie van basisschoolkinderen), dan is er sprake van misgeneralisatie.
Andere steekproeven
In sommige situaties is het onhandig of onmogelijk om een kanssteekproef te selecteren. In dat geval wordt een ‘nonprobability sample’ getrokken. Onderzoekers weten dan niet wat de kans is dat een individu voor de steekproef wordt gekozen. Om deze reden kan het foutenmarge ook niet berekend worde. Ze weten daardoor niet hoe representatief hun steekproef is. Veel psychologisch onderzoek wordt gedaan aan de hand van steekproeven die niet representatief zijn voor de populatie. Toch zijn dit soort steekproeven erg geschikt voor bepaalde onderzoeken. Nonprobability samples zijn geschikt voor onderzoeken waarbij het toetsen van hypothesen van belang is, en waarbij de populatie niet beschreven wordt. Hypothesen zijn van theorieën afgeleid en er worden onderzoeken uitgevoerd om te bekijken of de voorspelde effecten van de onafhankelijke variabele op de afhankelijke variabele ook echt voorkomen. De generaliseerbaarheid van nonprobability samples kan bij experimentele studies ontdekt worden door onderzoeken steeds te repliceren. Hetzelfde experiment kan worden uitgevoerd met individuen die verschillen in leeftijd, opleidingsniveau en/of sociaaleconomische status. Er is meer vertrouwen in de validiteit wanneer verschillende steekproeven (over hetzelfde onderwerp) soortgelijke resultaten opleveren. Vaak is het om uitspraken te doen over psychologische stoornissen echter niet nodig om steeds een andere steekproef te gebruiken, omdat de kans klein is dat de steekproeven erg verschillend zijn. Er zijn drie soorten nonprobability steekproeven:
1. Convenience sampling: een ‘convenience sample’ is een steekproef waarbij onderzoekers gebruikmaken van de deelnemers die meteen beschikbaar zijn. Een onderzoeker kan bijvoorbeeld de eerste 150 mensen op straat aanspreken en vragen of ze mee willen doen aan zijn of haar onderzoek. Het is dus zeker niet zo dat iedereen op straat dezelfde kans heeft om geselecteerd te worden. Een groot voordeel van de convienience sample is dat het bij deze methode veel makkelijker is om proefpersonen te rekruteren dan bij representatieve steekproeven.
2. Quota sampling: Bij een ‘quota sample’ stelt de onderzoeker van tevoren vast aan welke percentages moet worden voldaan. Op basis van deze percentages wordt de steekproef uiteindelijk geselecteerd. Een onderzoeker kan zeggen dat hij precies 20 mannen en 20 vrouwen voor het onderzoek wil selecteren in plaats van willekeurig 40 mensen te selecteren zonder te letten op sekse.
3. Purposive sampling: bij een ‘purposive sample’ hebben onderzoekers een bepaald beeld in hun hoofd van proefpersonen die volgens hen typisch zijn voor de populatie. Op basis van dit beeld selecteren zij welke personen mee mogen doen aan hun onderzoek. Het probleem van purposive sampling is echter dat dit proces erg subjectief is. Daarom kan het over het algemeen beter niet gebruikt worden voor wetenschappelijk onderzoek.
Power
Power verwijst naar de mate waarin een onderzoek de effecten van de onderzochte variabelen kan detecteren. Een onderzoek met veel power ontdekt welke effecten aanwezig zijn, terwijl een onderzoek met weinig power deze effecten niet opmerkt. De power wordt door veel zaken beïnvloed. Één van deze zaken is het aantal proefpersonen. In het algemeen geldt dat hoe meer proefpersonen er zijn, hoe groter de power is.
Sterke effecten zijn makkelijker op te merken dan zwakke. Een onderzoek met een lage power herkent dan ook vaak wel de sterkte effecten, maar de zwakke niet. De power neemt toe naarmate er meer proefpersonen zijn. Om zwakke effecten te herkennen is er een grote power nodig. Bij het herkennen van zwakke effecten is het dan ook nuttig om veel proefpersonen te hebben.
7. Experimenteel Onderzoek
Drie voorwaarden
Beschrijvend en correlationeel onderzoek zijn belangrijk, maar hebben een gebrek. Ze geven geen informatie over oorzaken van gedrag, gedachten emoties. Wanneer onderzoekers geïnteresseerd zijn in het blootleggen van oorzaak-gevolgrelaties, en dus naar causaliteit, dan voeren ze experimenten uit. Een goed ontworpen experiment voldoet aan drie voorwaarden: (1) de onderzoeker moet minstens één van de onafhankelijke variabelen manipuleren om te zien wat voor effect dit heeft op het gedrag van de deelnemer. Daarnaast (2) moet de onderzoeker de deelnemers op gelijke wijze toewijzen aan verschillende experimentele condities. Tenslotte (3) moet de onderzoeker controle hebben over externe variabelen die het gedrag van de deelnemers zouden kunnen beïnvloeden.
De onafhankelijke variabele manipuleren
In een experiment manipuleert een onderzoeker één of meer onafhankelijke variabelen (x-variabelen) om te zien hoe dit effect heeft op de afhankelijke variabele (de y-variabele). Een onafhankelijke variabele heeft meerdere niveaus (‘levels’). Dit zijn de verschillende waarden van de onafhankelijke variabele. Niveaus worden ook wel condities genoemd. Soms zijn condities het gevolg van kwantitatieve verschillen. In dit geval zijn de hoeveelheden van de onafhankelijke variabele verschillend per conditie. In andere gevallen zijn de condities verschillend door kwalitatieve verschillen. In dat geval krijgen deelnemers in verschillende condities bijvoorbeeld andere instructies.
Er zijn meerdere soorten manipulaties van de onafhankelijke variabele mogelijk:
1. Omgevingsmanipulaties (‘environmental manipulations’): in dit geval wordt de fysieke of sociale omgeving van de deelnemer gemanipuleerd. In sociale, ontwikkelings- en persoonlijkheidspsychologie worden soms handlangers (‘conferates’) van de onderzoeker gebruikt. Zij doen zich voor als proefpersonen terwijl zij dat niet zijn. Hierbij wordt de invloed van de aanwezigheid van de handlangers op de andere proefpersonen gemeten. Ook dit is een vorm van omgevingsmanipulatie.
2. Instructie-manipulaties (‘instructional manipulations’): in dit geval worden de instructies en/of de informatie die de proefpersonen krijgen gemanipuleerd. Instructie-manipulaties zijn ontworpen om te kunnen zien hoe bepaalde informatie of bepaalde opmerkingen de gedachten, emoties of het gedrag van mensen kunnen veranderen.
3. Invasieve manipulaties (‘invasive manipulations’): in dit geval worden veranderingen aangebracht in het lichaam van de deelnemer. Dit kan bijvoorbeeld door mensen middeltjes te laten innemen om te zien hoe dit hun emoties of gedrag beïnvloedt.
Experimentele groepen en controlegroepen
In sommige onderzoeken wordt een conditie toegevoegd waarbij de onafhankelijke variabele helemaal niet wordt gemanipuleerd. Deelnemers die wel een bepaalde mate van de onafhankelijke variabele krijgen, zitten in een experimentele groep. Deelnemers die niets van de onafhankelijke variabele krijgen, zitten in de controlegroep. Onderzoekers moeten zelf de keuze maken of ze wel of niet een controlegroep willen inzetten. Vaak wordt voor een controlegroep gekozen om het basisniveau (‘baseline’) van een gedraging vast te stellen. Het basisniveau van een gedraging is de mate van die gedraging wanneer de onafhankelijke variabele helemaal niet wordt gemanipuleerd.
Het komt vaak voor dat de onderzoekshypotheses van een onderzoeker correct zijn, maar dat de gewenste resultaten niet gevonden worden omdat de onafhankelijke variabele niet goed genoeg gemanipuleerd is. Als de onafhankelijke variabele niet sterk genoeg is om de voorspelde effecten te vinden, dan is het onderzoek bij voorbaat al gedoemd om te mislukken. Vaak proberen wetenschappers hun onderzoek eerst uit op een klein aantal proefpersonen om te zien of de onafhankelijke variabele wel echt goed gemanipuleerd is. In dit geval spreken we ook wel van een pilot test. In andere woorden; met een pilot test kan gezien worden of de verschillende condities van de onafhankelijke variabele wel genoeg van elkaar verschillen om significant invloed te hebben op het gedrag van de proefpersonen. Daarnaast maken wetenschappers tijdens hun onderzoek ook gebruik van manipulatiechecks. Een manipulatiecheck is een vraag (of set van vragen) die ontworpen is/zijn om te bepalen of de onafhankelijke variabele op succesvolle wijze gemanipuleerd is. Manipulatiechecks zijn echter niet altijd noodzakelijk en zijn soms niet eens mogelijk. Toch is het van belang dat onderzoekers altijd overwegen of het nuttig is om een manipulatiecheck uit te voeren.
Soms kunnen wetenschappers bepaalde variabelen niet manipuleren, omdat deze variabelen niet veranderd kunnen worden. Voorbeelden van deze variabelen zijn sekse, leeftijd en intelligentieniveau. Dit soort onveranderlijke variabelen noemen we ook wel subjectvariabelen of proefpersoonvariabelen. Afhankelijke variabelen zijn de variabelen die beïnvloed worden door de onafhankelijke variabelen in een onderzoek. Vaak wordt iemands score op de afhankelijke variabelen geobserveerd, lichamelijk gemeten of via zelfrapportage verkregen.
Deelnemers toewijzen aan condities
Het is belangrijk dat deelnemers op een eerlijke manier worden toegewezen aan condities, zodat deelnemers die op elkaar lijken niet systematisch in de ene conditie terechtkomen.
Er zijn drie verschillende manieren om deelnemers toe te wijzen aan condities:
· Simpele willekeurige toewijzing (‘simple random assignment’): in dit geval heeft elke deelnemer evenveel kans om toegewezen te worden aan elke conditie. Dit kan bijvoorbeeld door te tossen. Simpele willekeurige toewijzing zorgt ervoor dat deelnemers in de groepen gemiddeld niet van elkaar verschillen. Er is echter een kleine kans dat simpele willekeurige toewijzing geen exact gelijke groepen oplevert. Simpele willekeurige toewijzing wordt ook wel ‘randomizes groups design’ genoemd.
· Gematchte willekeurige toewijzing (‘matched random assignment’): van deze methode is sprake wanneer de onderzoeker de deelnemers eerst test op een variabele die relevant is voor het onderzoek. Vervolgens worden de scores van de deelnemers bekeken en worden deelnemers die op elkaar lijken gematcht. Dit design wordt ook wel ‘between-subjects design’ genoemd.
Zo ontstaan er een aantal clusters. Vervolgens worden alle deelnemers uit een cluster willekeurig toegewezen aan de verschillende condities.
· Herhaalde metingen (‘repeated measures design’): hierbij worden de proefpersonen meerdere keren getest, in alle experimentele condities. Er kan hierbij zowel gebruik gemaakt worden van simpele willekeurige toewijzing als van gematchte willekeurige toewijzing. Dit design wordt ook wel een ‘within-subjects design’ genoemd.
Voor- en nadelen van herhaalde metingen
Het grootste voordeel van het herhaalde metingen design (within-subjects design) is dat de power groter is dan bij between-subjects designs. Power is de mate waarin een onderzoek de effecten van een onafhankelijke variabele kan detecteren. Dat de power groter is, komt doordat de proefpersonen in alle condities aan elkaar gelijk zijn. Het zijn immers dezelfde mensen die deelnemen aan alle condities. Hierdoor kan er geen sprake zijn van verschillen tussen de proefpersonen die invloed kunnen hebben op de resultaten van het onderzoek. Een tweede voordeel is dat er minder deelnemers voor het onderzoek nodig zijn, omdat elke participant deelneemt aan alle experimentele condities.
Dit design heeft echter ook een aantal nadelen. Het design zorgt namelijk voor volgorde-effecten (‘order effects’): het gedrag van de deelnemers wordt beïnvloed door de volgorde waarin ze worden blootgesteld aan de condities. Er wordt onderscheid gemaakt tussen vier soorten volgorde-effecten.
1. Oefening (‘practice effects’): deelnemers presteren steeds beter, omdat ze de afhankelijke variabele meerdere keren meemaken. Ze kunnen dus als het waren met de afhankelijke variabele ‘oefenen’.
2. Vermoeidheid (‘fatigue effects’): deelnemers hebben vaak minder zin of raken vermoeid naarmate het onderzoek vordert. Daardoor kunnen behandelingen naarmate ze later in het onderzoek plaatsvinden, steeds minder effectief worden.
3. Sensitisatie (‘sensitization’): deelnemers kunnen de onderzoekshypothesen raden omdat ze al aan zoveel condities deelgenomen hebben. Omdat ze weten waar de onderzoeker naar op zoek is, kunnen zij zich onnatuurlijk gaan gedragen.
4. Overdracht (‘carryover effects’): het effect van een conditie kan als het ware blijven hangen. Het kan nog effect hebben wanneer de proefpersoon zich al in de volgende conditie bevindt. Dit is problematisch, omdat de onderzoeker dan geen onderscheid meer kan maken tussen de effecten van de verschillende condities. Om dit effect tegen te gaan, kunnen onderzoekers gebruikmaken van een methode die ‘counterbalancing’ wordt genoemd. Bij counterbalancing worden alle deelnemers in verschillende volgorden blootgesteld aan de verschillende condities.
Een ‘Latin Square design’ is een voorbeeld van counterbalancing. Als een design bijvoorbeeld vier condities heeft, dan kunnen deelnemers aan de hand van vier verschillende volgorden blootgesteld worden aan de condities.
Experimentele controle
Experimentele controle staat voor het elimineren of constant houden van externe factoren die de uitkomsten van een onderzoek zouden kunnen beïnvloeden. Dit is belangrijk, want als er geen controle over externe factoren zou zijn, dan was het niet duidelijk of de afhankelijke variabele beïnvloed is door de onafhankelijke variabele(n) of door andere factoren.
Systematische variantie
Systematische variantie (ook wel ‘between-groups variance’ of tussen-groepen variantie genoemd) is het deel van de totale variantie dat staat voor echte verschillen tussen experimentele groepen. De grote vraag in een onderzoek is of de spreiding in de scores van deelnemers systematisch is. Dit houdt in dat de spreiding veroorzaakt wordt door de onafhankelijke variabele. We zouden dan ook systematische verschillen moeten vinden tussen de scores die horen bij verschillende condities. Er is sprake van systematische variantie wanneer de scores tussen de condities systematisch van elkaar verschillen. Systematische variantie kan het gevolg zijn van twee bronnen: (1) de onafhankelijke variabele (‘treatment variance’/ ‘primary variance’) of (2) externe variabelen (‘confound variance’/’secondary variance’). Als niets anders dan de onafhankelijke variabele de reacties van de deelnemers heeft beïnvloed, dan is er alleen sprake van treatment variantie. Dit is echter zelden het geval. Er zijn namelijk ook twee andere bronnen van variantie: (1) externe variabelen en (2) errorvariantie.
Proefpersonen kunnen op meerdere gebieden van elkaar verschillen. Wanneer zij niet alleen van elkaar verschillen op de onafhankelijke variabele, is er sprake van externe variabelen. Deze beïnvloeden de onderzoeksresultaten, terwijl dat niet de bedoeling is. Het zorgt voor oneerlijk onderzoek. De proportie variantie die het gevolg is van externe variabelen, wordt ‘confound variance’ genoemd. Het is onmogelijk voor onderzoekers om treatment variance te onderscheiden van confound variance. Daarom is het noodzakelijk om de confound variance hoe dan ook te elimineren.
Errorvariantie
Errorvariantie wordt ook wel ‘within-groups variance’ genoemd. Het is het resultaat van onsystematische verschillen tussen proefpersonen. Het kan hierbij gaan om verschillen in persoonlijkheid, humeur en capaciteit. Maar ook kan het gaan om verschillen in omgang door de onderzoeker. De onderzoeker kan verschillende proefpersonen namelijk (soms onbewust) verschillend behandelen.
Errorvariantie is minder problematisch dan confound variantie. We kunnen namelijk op statistische wijze onderscheid maken tussen systematische variantie en errorvariantie. Daardoor kunnen we errorvariantie gemakkelijker elimineren en beïnvloedt het het experiment in mindere mate dan confound variantie. Het blijft echter wel zo dat hoe meer errorvariantie er is, hoe moeilijker het is om de effecten van de onafhankelijke variabelen te detecteren. De errorvariantie verkleint dus de power van het experiment. Daarom willen we de errorvariantie zo laag mogelijk houden.
Variantie samengevat
Samengevat kun je de totale variantie verdelen in systematische variantie en errorvariantie: totale variantie = systematische variantie + errorvariantie.
De systematische variantie is vervolgens weer te verdelen in treatment variance en confound variance: systematische variantie = treatment variance + confound variance.
Hierbij is het van belang om de confound variance te elimineren, de treatmentvariance zo hoog mogelijk te houden, en de errorvariantie zo laag mogelijk te houden.
Interne validiteit
Interne validiteit gaat over de mate waarin een onderzoeker de juiste conclusies trekt over de effecten van de onafhankelijke variabele. Een experiment heeft interne validiteit wanneer alle bronnen van confound variantie worden geëlimineerd Interne validiteit ontstaat vaak door experimentele controle. Experimentele controle zorgt er namelijk voor dat de onafhankelijke variabele het enige is dat verschilt tussen de condities. Als deelnemers in verschillende groepen systematisch van elkaar verschillen op meer dan alleen de onafhankelijke variabele, dan spreken we van ‘confounding’. Het is erg belangrijk om confounding tegen te gaan en te elimineren.
Gevaren voor de interne validiteit
De interne validiteit van een experiment kan door meerdere factoren bedreigd worden:
· Foutieve toewijzing (‘biased assignment’): hier is sprake van wanneer deelnemers niet willekeurig over de condities verdeeld zijn. Er bestaan dan systematische verschillen tussen de groepen. De gevonden resultaten kunnen in zo’n geval het gevolg zijn dan de verschillen tussen de groepen, in plaats van het gevolg zijn van de onafhankelijke variabele. De groepen verschillen dan op meer gebieden dan op alleen de onafhankelijke variabelen.
· Uitval (‘differential attrition’): Uitval (‘attrition’) is het verlies van deelnemers gedurende het onderzoek. Deelnemers willen of kunnen midden in het onderzoek niet meer deelnemen. Wanneer uitval op willekeurige wijze voorkomt en alle experimentele condities in dezelfde mate treft, dan is uitval niet erg gevaarlijk voor de interne validiteit. Het is echter een ander verhaal wanneer in sommige condities meer deelnemers uitvallen dan in andere condities (‘differential attrition’). In dat geval loopt de interne validiteit van een onderzoek wel gevaar.
· Voortest sensitisatie (‘pretest sensitization’): In sommige experimenten worden deelnemers van tevoren getest. Dit geeft de onderzoeker een idee van het gedrag voordat de manipulatie van de onafhankelijke variabele heeft plaatsgevonden. Ook kan het helpen bij het eerlijk verdelen van proefpersonen over condities. Een nadeel van het van tevoren testen van de proefpersonen is dat ze hierdoor anders zouden kunnen reageren op de onafhankelijke variabele. Ze worden als het ware gevoeliger (meer sensitief) voor deze variabele. Wanneer proefpersonen als het gevolg van een voortest anders reageren op de manipulatie va de onafhankelijke variabele, spreken we van voortest sensitisatie.
· Geschiedenis (‘history’): de resultaten van sommige onderzoeken worden beïnvloed door externe gebeurtenissen die buiten de onderzoekssetting voorkomen. In dit geval zijn de gevonden resultaten niet het gevolg van de onafhankelijke variabele, maar door een interactie tussen de onafhankelijke variabele en geschiedeniseffecten (‘history effects’).
· Ontwikkeling (‘maturation’): als een experiment lang duurt, dan kan de ontwikkeling (‘maturation’) van de deelnemers de oorzaak zijn van de afhankelijke variabele in plaats van de onafhankelijke variabele.
· Designfouten (‘miscellaneos design confounds’): het gaat hierbij om fouten die voor kunnen komen in het onderzoeksdesign zelf. Zo kan een onderzoeker bijvoorbeeld op een andere manier omgaan met verschillende deelnemers. Het is erg belangrijk dat een onderzoeker er altijd op let dat dit niet gebeurt. Designfouten liggen volledig in handen van de onderzoeker. Daardoor zijn ze goed te elimineren. Het is dus belangrijk dat de onderzoeker hier goed op let.
Verwachtingen
De interne validiteit van een onderzoek wordt ook bepaald door de verwachtingen van de proefpersonen en onderzoeker met betrekking tot wat zou moeten gebeuren in het experiment.
Hierbij wordt onderscheid gemaakt tussen drie problemen:
1. Verwachtingen van de onderzoeker (‘experimenter expectancy effects’): Vaak hebben onderzoekers al een vermoeden van hoe de proefpersonen zullen reageren. De verwachtingen van een onderzoeker zijn gebaseerd op de onderzoekshypothesen. Vooraf aanwezige verwachtingen van onderzoekers kunnen ervoor zorgen dat ze de onderzoeksresultaten verkeerd interpreteren. Bovendien kunnen de onderzoekers onbewust de reacties van de proefpersonen beïnvloeden.
2. Verwachtingen van proefpersonen (‘demand characteristics’): Proefpersonen kunnen vermoeden (of denken te vermoeden) wat de onderzoeker van hen verwacht. Zij kunnen zich hiernaar gaan gedragen, omdat ze goede proefpersonen willen zijn. Daardoor gedragen ze zich niet meer op een natuurlijke manier, en ontstaat er een bias in het onderzoek.
Door een dubbel-blind procedure (‘double-blind procedure’) te gebruiken kan zowel de invloed van de verwachtingen van de onderzoeker als de invloed van de verwachtingen van de proefpersonen geëlimineerd worden. Bij een double-blind procedure weten zowel de onderzoekers als de proefpersonen niet welke proefpersonen aan welke conditie zijn toegewezen. Hierdoor hebben beide geen verwachtingen.
3. Placebo-effecten: Een placebo-effect is een fysiologische of psychologische verandering die plaatsvindt door de suggestie of het geloof dat verandering zal plaatsvinden. De verandering vindt dus plaats omdat de proefpersoon denkt dat er verandering zal plaatsvinden. Een medicijn kan bijvoorbeeld genezen zonder dat het een werkende stof bevat. Dit is omdat patiënten denken dat ze geholpen worden en zullen genezen.
Wanneer een placebo-effect mogelijk is, maken onderzoekers vaak gebruik van een ‘placebo control group’. Deelnemers in deze groep krijgen een behandeling die eigenlijk niet werkt. De effecten van een placebocontrolegroep kunnen worden vastgesteld door ook een echte controlegroep toe te voegen. De echte controlegroep krijgt helemaal geen pilletje, terwijl de placebocontrolegroep een pilletje krijgt dat geen effect heeft. Als blijkt dat deelnemers in de placebocontrolegroep het beter doen (bijvoorbeeld sneller genezen) dan deelnemers in de echte controlegroep, dan is er sprake van een placebo-effect.
Errorvariantie
Errorvariantie kan vijf oorzaken hebben:
1. Individuele verschillen: er zijn vaak individuele verschillen tussen proefpersonen, die al bestonden voordat zij deelnamen aan het onderzoek. Dit kan ervoor zorgen dat deelnemers in de experimentele condities op verschillende manieren reageren op de onafhankelijke variabele. Niets kan gedaan om deze verschillen te elimineren, maar hoe minder individuele verschillen er zijn, hoe minder errorvariantie er is. Onderzoekers kunnen er dus voor kiezen om zo veel mogelijk gebruik te maken van homogene groepen proefpersonen.
2. Tijdelijke stemmingen (‘transient states’): het gaat hierbij om factoren die steeds kunnen veranderen. Voorbeelden zijn attitudes en humeur. Het enige dat onderzoekers kunnen doen is proberen om zelf zo min mogelijk te zorgen voor tijdelijke stemmingen bij deelnemers. Zij kunnen bijvoorbeeld altijd even vriendelijk zijn tegen alle deelnemers.
3. Omgevingsfactoren: voorbeelden zijn afleidende geluiden in de onderzoekssetting en het testen van proefpersonen in verschillende situaties. Het is van belang om alle proefpersonen in dezelfde situatie te onderzoeken. Daarom proberen onderzoekers om de omgeving waarin het experiment wordt afgenomen zo constant mogelijk te houden.
4. Verschillende manieren van behandeling (‘differential treatment’): Hiervan is sprake wanneer een onderzoeker op verschillende manieren met de proefpersonen omgaat. Een onderzoeker kan bijvoorbeeld erg aardig zijn ten opzichte van vrolijke en spontane deelnemers, terwijl hij of zij minder aardig is ten opzichte van andere deelnemers. Een oplossing voor dit probleem kan zijn het onderzoek zo veel mogelijk te automatiseren. Hierdoor heeft de proefpersoon minder direct contact met de onderzoeker. Daardoor kan de onderzoeker de resultaten van de proefpersoon in mindere mate beïnvloeden.
5. Meetfouten (‘measurement error’): Elk onderzoek bevat meetfouten die bijdragen aan de errorvariantie. Om meetfouten te verminderen is het belangrijk om betrouwbare meetinstrumenten te gebruiken.
Het dilemma van de onderzoeker
Externe validiteit gaat over de mate waarin gevonden onderzoeksresultaten generaliseerbaar zijn naar andere steekproeven . Interne validiteit gaat daarentegen over de zekerheid waarmee een onderzoeker kan stellen dat de afhankelijke variabele beïnvloed is door de onafhankelijke variabele, en niet door andere variabelen. Vaak gaat een hoge mate van interne validiteit samen met een lage mate externe validiteit, en vice versa. De discrepantie tussen interne en externe validiteit wordt ook wel het onderzoekersdilemma (‘experimenter’s dilemma’) genoemd. Hoe meer controle een onderzoeker wil hebben over het experiment, hoe meer de interne validiteit stijgt. Maar door een verhoging van de controle, wordt het onderzoek minder natuurlijk en is het minder goed generaliseerbaar. De externe validiteit daalt dan dus. Een verhoging van de interne validiteit gaat dan ook ten koste van de externe validiteit. Onderzoekers hechten echter meer waarde aan interne validiteit. Het is namelijk belangrijker om zeker te zijn van de resultaten van het onderzoek (interne validiteit) dan om het onderzoek te kunnen generaliseren (externe validiteit). Wanneer je niet zeker bent van je onderzoeksresultaten, heeft het immers geen nut om ze te generaliseren. Daarom gaat interne validiteit voor externe validiteit.
Daarnaast worden experimenten zelden uitgevoerd om te kunnen generaliseren. Het doel van experimenteel onderzoek is niet om te kunnen generaliseren naar de ‘echte wereld’, maar juist om generalisaties uit de echte wereld te testen (door middel van hypothesen). Het is zelfs zo dat de resultaten van één experiment nooit moeten worden gegeneraliseerd, hoe goed het onderzoek ook is. De resultaten van elk onderzoek hangen te veel samen met de context waarin het onderzoek is uitgevoerd.
Voordelen van het internet
Veel wetenschappers gebruiken het internet om onderzoeken uit te voeren. Daarom wordt er geprobeerd om de validiteit van internetonderzoeken (‘web-based research’) te vergroten. Het uitvoeren van onderzoeken middels het internet heeft zowel voor- als nadelen. De voordelen van dit soort onderzoeken zijn hieronder beschreven:
· Door het internet te gebruiken kunnen onderzoekers aan veel grotere steekproeven komen.
· Onderzoek via internet kost de onderzoekers minder tijd en geld.
· De steekproeven die op het internet worden samengesteld zijn vaak diverser dan steekproeven die op een andere manier worden samengesteld.
· Onderzoekers die op internet op zoek gaan naar deelnemers vinden het vaak gemakkelijk om daar deelnemers met specifieke kenmerken en eigenschappen te vinden.
· Omdat deelnemers op internet vaak anoniem zijn, worden hun reacties minder beïnvloed door sociale wenselijkheid. Ook is er in mindere mate sprake van ‘experimenter expectancy effects’.
Nadelen van het internet
De nadelen van internetonderzoeken worden hieronder beschreven:
1. Onderzoekers vinden het vaak lastig om controle uit te oefenen over een steekproef die via het internet is samengesteld.
2. De omgevingen van de proefpersonen kunnen erg veel van elkaar verschillen. Ze kunnen de vragen bijvoorbeeld allemaal op een andere locatie invullen, waardoor de ene proefpersoon veel meer afleiding heeft dan de andere. Dit beïnvloedt de onderzoeksresultaten.
3. Vaak maken deelnemers op internet een onderzoek niet af.
4. Internetonderzoeken kunnen alleen gebruikt worden als proefpersonen vragen in moeten vullen of moeten reageren op geschreven stimuli. Het is vaak niet mogelijk om bijvoorbeeld het effect van medicijnen te testen middels proefpersonen op het internet. Het is ook niet mogelijk om experimenten met meerdere sessies uit te voeren. Tenslotte is het niet mogelijk om als onderzoeker één-op-één contact te hebben met een proefpersoon.
Contributions: posts
Spotlight: topics
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why would you use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, study notes and practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the menu above every page to go to one of the main starting pages
- Starting pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
- Use the topics and taxonomy terms
- The topics and taxonomy of the study and working fields gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
- Check or follow your (study) organizations:
- by checking or using your study organizations you are likely to discover all relevant study materials.
- this option is only available trough partner organizations
- Check or follow authors or other WorldSupporters
- by following individual users, authors you are likely to discover more relevant study materials.
- Use the Search tools
- 'Quick & Easy'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject.
- The search tool is also available at the bottom of most pages
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Field of study
- All studies for summaries, study assistance and working fields
- Communication & Media sciences
- Corporate & Organizational Sciences
- Cultural Studies & Humanities
- Economy & Economical sciences
- Education & Pedagogic Sciences
- Health & Medical Sciences
- IT & Exact sciences
- Law & Justice
- Nature & Environmental Sciences
- Psychology & Behavioral Sciences
- Public Administration & Social Sciences
- Science & Research
- Technical Sciences
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
1527 |
Add new contribution