Collegeaantekeningen Onderzoeksmethoden en statistiek (OMS) - B1 - Psychologie - UVA - voor alle 4 deeltoetsen
- 1458 reads
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
- voor alle 4 deeltoetsen -
Behandelde stof: Hoofdstuk 1 en 2
Wetenschap is het verkrijgen van kennis. Dit kan op verschillende niveau’s: wetenschappelijke kennis en kennis over dingen uit het dagelijks leven. In het geval van die laatste categorie zijn er vier verschillende manieren om aan kennis te komen:
Kennis op basis van authoriteit: De dingen geloven die door een authoriteit, bijvoorbeeld de politie of een docent, gezegd worden. Vaak zien wij deze personen als ‘degenen die ergens verstand van hebben’.
Kennis op basis van common sense: Dingen ‘weten’, aannemen of uitspreken op basis van wat voor de hand ligt. Voorbeelden van uitspraken die hierbij passen beginnen vaak met ‘iedereen weet toch dat…”.
Kennis door intuïtie: Iets aannemen omdat het aannemelijk is, bijvoorbeeld doordat alleen al dénkt dat iets waar is, doordat je uitgaat van je eigen gevoel.
Kennis door persoonlijke ervaring: Iets geloven of ‘weten’ omdat je het zelf zo hebt meegemaakt. Bij deze laatste categorie kunnen enkele problemen voorkomen:
Sampling bias: De observaties zijn niet representatief voor mensen in het algemeen.
Observer bias: De observaties worden beïnvloedt door verwachtingen van de observer (degene die iets observeert).
Confounding: De factor waarin je geïnteresseert bent systematisch samenhangt met andere factoren die ook een effect kunnen hebben op datgene wat je observeert.
Deze vier soorten van kennis verkrijgen worden allemaal gebruikt in de wetenschap, hoewel ze niet altijd de waarheid zijn. Je zou deze vier manieren van kennis verkrijgen dus kunnen zich als problemen in de wetenschap, maar helaas kun je deze nooit helemaal uit de weg gaan, vooral bij persoonlijke ervaring is dit lastig. Ze kunnen slechts voorkomen worden.
Soorten wetenschap
In de wetenschap is er een onderscheid te maken tussen formele wetenschap en empirische wetenschap:
De formele wetenschap maakt gebruik van deductie. Dit houdt in dat je van het algemene naar het bijzondere gaat door middel van het gebruiken van je verstand. Hierdoor zijn de conclusies die je trekt onontkoombaar. Voorbeelden van formele wetenschappen zijn wiskunde en logica.
De empirische wetenschap maakt gebruik van inductie. Dit is het tegenovergestelde van deductie: je komt tot een algeme regel door het gebruik van enkele ervaringen (empirie)/waarnemingen. Dit zorgt ervoor dat inductieve conclusies betwijfelbaar zijn. Voorbeelden van empirische wetenschappen zijn biologische, sociale wetenschappen en geneeskunde.
Hoe kom je tot goede wetenschap?
Er zijn veel verschillende soorten pseudowetenschap bekend: Astrologie, Uri Geller, Derek Ogilvie, Char et cetera. Dit zijn voorbeelden van hoe het níét moet in de wetenschap. Maar hoe moet het dan wel? Goede wetenschap doorloopt de empirische cyclus. Dit gaat als volgt:
Onderzoek begint bij observatie van iets wat je interessant vindt.
Je gaat kijken wat er al bekend in over het geobserveerde (inductie).
Op basis van wat je niet kan vinden in de literatuur, formuleer je een onderzoeksvraag.
Vervolgens vindt er theorievorming plaats waarin je een statement doet over je onderzoeksvraag.
Er zijn twee dingen belangrijk bij theorievorming:
Het principe van spaarzaamheid (ook wel: Occam’s Razor). Dit houdt in dat wanneer er meerdere hypotheses zijn die een verschijnsel kunnen verklaren, je het beste kan kiezen voor de simpelste hypothese die de minste entiteiten veronderstelt.
Falsificeerbaarheid. Dit houdt in dat een hypothese in principe verworpen zou moeten kunnen worden. Oftewel: Je moet precies kunnen aangeven bij welk resultaat de hypothese verworpen wordt. Dit hoeft dus niet te betekenen dat je daadwerkelijk de hypothese móét verwerpen.
Je stelt een hypothese op: één bewering die volgt uit de theorie, die je wil gaan toetsen in een onderzoek.
Uit de hypothese formuleer je een voorspelling (deductie). Een voorspelling is te definieren als een concrete observatie die je zal doen als een hypothese waar is.
Vervolgens ga je de voorspelling operationaliseren, oftewel een methode verzinnen om de voorspelling te meten of toetsen. Hierbij gaat je data verzameling, hierdoor wordt dit ook de toetsingsfase genoemd.
Na de voorspelling getoetst te hebben volgt de evaluatiefase: je gaat kritisch kijken naar de gekregen resultaten en jezelf afvragen hoe overtuigend deze zijn.
Uit de evaluatiefase kan blijken dan de resultaten niet goed genoeg zijn. In dat geval is er sprake van een nieuwe observatie, en begint de empirische cyclus opnieuw.
Correctiemechanismen
In de wetenschap is er geen baas die zegt wat wel en wat niet goede wetenschap is. Daarom maakt men gebruik van verschillende correctemechanismen. Onder deze correctiemechanismen zijn er eigenlijk maar twee die echt goed zijn. Deze twee zijn:
Peer review: De onderzoeker laat zijn artikel (manuscript) testen door het op te sturen naar een editor. Deze zal vervolgens meerdere reviewers aan het werk zetten om te kijken of het geschreven artikel wel of niet goedgekeurd wordt als correcte wetenschap.
Replicatie: Het onderzoek opnieuw laten doen door een andere wetenschapper, om zo te kijken of deze dezelfde uitkomst oplevert.
Spelregels in de wetenschap
In de wetenschap zijn er enkele ‘spelregels’ waaraan wetenschappers zijn moeten houden om tot betrouwbare informatie te komen:
Openheid: Iedereen moet mee kunnen kijken met de werkwijze van de wetenschapper.
Grondigheid: De hele empirische cyclus moet doorlopen worden.
Eerlijkheid: Het is niet de bedoeling dat een wetenschapper ligt door zijn data aan te passen of zelfs te verzinnen.
Behandelde stof: Hoofdstuk 3
In de exacte wetenschappen dingen vaak niet zo moeilijk te meten: lengte meet je met een meetlint, temperatuur meet je met een themometer en gewicht weet je met een weegschaal, et cetera. Hierbij weet je precies wat je meet (namelijk de lengte, de temperatuur of het gewicht) en je weet ook dat er niet zo snel sprake is van ‘ruis’, oftewel meetfouten omdat je nagenoeg telkens dezelfde waarde zult krijgen.
Bij het meten van constructen (= eigenschap die je niet direct kan meten, bijvoorbeeld agressie of motivatie) in de psychologie is dit lastiger. Daarom moet je deze constructen operationaliseren: ‘meetbaar’ maken. Bij het meten van persoonlijkheidskenmerken wordt vaak gebruik gemaakt van de ‘Big Five’, een vragenlijst die zich richt op vijf verschillende kenmerken die een persoon kan hebben:
Het openstaan voor nieuwe ervaringen
Zorgvuldigheid
Extraversie
Vriendelijkheid
Neuroticisme
Deze vijf kenmerken zijn moeilijk te ‘observeren’ bij personen, dus worden deze constructen geoperationaliseerd door middel van de vragenlijst ‘Big Five’, waar vragen worden gesteld die specifiek iets zouden kunnen zegen over deze vijf persoonlijkheidskenmerken.
Naast het feit dat meten in de psychologie lastiger is dan in de exacte wetenschappen, komt er bij psychologische onderzoeken ook vaker ‘ruis’ voor, oftewel extra invloeden die het onderzoek verstoren en daardoor meetfouten opleveren. Dit kan bijvoorbeeld de motivatie van de subjecten zijn, die eigenlijk niet mee willen doen en daardoor onzin antwoorden geven op bepaalde vragen om er snel van af te zijn.
Tenslotte is er nog een derde moeilijkheid bij meten in de psychologie, namelijk dat je nooit zeker weet of je door de operationalisatie daadwerkelijk meet wat je wilt meten. Zo kan je bijvoorbeeld intelligentie meten door middel van de WAIS-III, een IQ-test. Je hoopt hiermee dat de uitslag van de WAIS-III genoeg zegt over de intelligentie van het subject, maar het blijft onduidelijk welk proces tot de antwoorden in deze test lijkt, en dus weet je nooit zeker of je daadwerkelijk (op een goede manier) iemands intelligentie getest hebt.
Objectief vs subjectief
In de wetenschap is het belangrijk een onderscheid te maken tussen objectieve en subjectieve metingen:
Objectieve metingen zijn bijvoorbeeld tellingen (voorbeeld: aantal rekensommen goed) of fysieke maten (voorbeeld: tijd, meters).
Subjectieve metingen zijn bijvoorbeeld zelfrapportage (een subject een vragenlijst laten invullen, bijvoorbeeld de Big Five) of observatie door middel van een beoordelaar (een onderzoeker observeert een subject).
Zoals we al eerder besproken hebben, is meten in de psychologie lastig. Omdat objectieve metingen (bijna) niet mogelijk zijn, wordt er voornamelijk gebruik gemaakt van subjectieve metingen.
Let op: ‘Objectief’ betekent niet per se goed. Zo kan het bijvoorbeeld voorkomen dat er bij de WAIS-III, de eerdergenoemde IQ-test, een aantal vragen gaan over natuurwetenschappelijke onderwerpen (bijvoorbeeld: wie bedacht de relativiteitstheorie?). Dit kan negatief uitpakken wanneer een bepaalde groep hoger scoort op de WAIS-III, doordat ze meer voorkennis hebben op het gebied van de natuurwetenschappelijke vragen. Zo kan het bijvoorbeeld zijn dat mannen (die over het algemeen vaker een beta-profiel hebben gedaan dan vrouwen) hoger scoren dan vrouwen.
Ook de subjectieve metingen hebben zo hun nadelen. Zo zijn er enkele problemen die voor kunnen komen bij zelfrapportage, namelijk:
‘Demand characteristics’: De antwoorden van de subjecten worden beïnvloed doordat ze graag ‘goede’ proefpersonen willen zijn, door bijvoorbeeld datgene te beantwoorden wat de beoordelaar verwacht, omdat de subjecten er voor betaald worden.
Zelfperceptie: Mensen kunnen een verdraaid beeld van zichzelf hebben.
Sociaal wenselijkheid: Mensen kunnen een goed beeld van zichzelf doen laten voorkomen.
Vraagstelling: De manier waarop de vraag geformuleerd wordt kan invloed hebben op hoe de subject deze opvat.
Antwoordopties: De manier waarop de antwoordopties geformuleerd worden kunnen invloed hebben op hoe de subject deze opvat.
Niet alleen bij zelfrapportage, maar ook bij observatie door middel van een beoordelaar kunnen problemen optreden, bijvoorbeeld:
Observer drift: Wanneer een subject door twee of meer beoordelaars geobserveerd wordt, bestaat er de mogelijkheid dat de ene beoordelaar zijn mening op zo’n manier uit dat de tweede (of derde, vierde, vijfde en ga zo maar door) beoordelaar zich laat meeslepen door de mening van de beoordelaar voor hem.
Regels voor onderzoek doen kunnen over tijd veranderen, waardoor het kan gebeuren dat een beoordelaar zich houdt aan gedateerde regels.
Primacy effects: Het effect van als eerste beoordeeld te worden. Denk bijvoorbeeld aan het nakijken van essayvragen waarbij de beoordelaar bij het eerste subject nog heel streng is, en losser wordt na een aantal essay’s nagekeken te hebben of andersom.
Recency effects: Het effect van als laatste beoordeeld te worden. Dit kan bijvoorbeeld gebeuren bij sollicatiegesprekken, waarbij de laatste sollicitant niet meer interessant is door alle voorgaande sollicitanten.
Halo effects: Treedt op wanneer een goede beoordeling op de ene dimensie ook zorgt voor hogere beoordelingen op andere dimensies.
Kwaliteitsanalyse van psychologische meetinstrumenten
Om na te gaan of een psychologisch meetinstrument (oftewel de manier waarop je iets in de psychologie wil meten) van goede kwaliteit is om het een betrouwbaar onderzoek te kunnen noemen, moet er gekeken worden naar de betrouwbaarheid en validiteit van het meetinstrument.
Betrouwbaarheid
Bij betrouwbaarheid wordt gekeken naar hoeveel meetfout (ruis) er op de metingen bij een onderzoek voorkomen. De betrouwbaarheid wordt hierbij over het algemeen uitgedrukt door middel van een getal tussen de 0 en de 1. Dit houdt bijvoorbeeld in dat wanneer een onderzoek een betrouwbaarheid heeft van 0,7 dat 70% van de verschillen die je ziet tussen de subjecten komt door het onderzochte construct, en 30% komt door meetfout.
De betrouwbaarheid van een onderzoek kan op verschillende manieren getest worden:
Hertest betrouwbaarheid: Een test twee of meerdere keren afnemen. Wanneer er sprake is van een sterke samenhang tussen de resultaten van test één en test twee, dan geeft dit een indicatie van de betrouwbaarheid van het meetinstrument.
Nadeel: De te meten eigenschap moet stabiel zijn tussen test 1 en test 2.
Split-halves/interne consistentie: Een test (bijvoorbeeld een vragenlijst) in tweeën opdelen om te kijken of het ene deel overeenkomt met het andere deel.
Nadeel: De betrouwbaarheid is afhankelijk van de deling.
Oplossing: Interne consistentie. Dit houdt in dat je de test opdeelt in alle mogelijke delen en vervolgens de gemiddelde samenhang tussen de delen neemt als uitslag.
De bovenstaande mogelijkheden voor het meten van de betrouwbaarheid van data gaan alleen in op de meetfouten die de data kan bevatten. Of het onderzoek in zijn geheel betrouwbaar is, hangt niet alleen af van de hoeveelheid meetfouten maar ook van de vraag of de beoordeelaar zélf wel betrouwbaar is, deze kan bijvoorbeeld beïnvloed worden door observer effects of observer bias. Om te kunnen meten of de beoordelaar betrouwbare data heeft, zijn er weer twee manieren:
Intra-observer reliability: Eén beoordelaar meet de subjecten op twee of meerdere momenten, om te kijken of deze data overeenkomt.
Inter-observer reliability: Twee beoordelaars meten onafhankelijk van elkaar de subjecten om te kijken of deze data overeenkomt.
Validiteit
Wanneer je de validiteit van een onderzoek wilt weten, dan houdt dit in dat je je afvraagt of je wel daadwerkelijk meet wat je wilt meten, in plaats van dat je bijvoorbeeld iets meet wat je helemaal niet wilde onderzoeken. Er zijn vier manieren om erachter te komen of de data uit het onderzoek wel valide is:
Predictieve validiteit: Kijken of de test samenhangt met een criterium. Zo kan je bijvoorbeeld bij het meten van intelligentie de validiteit van de WAIS-III controleren door deze te vergelijken met de schoolcijfers van een persoon. Het probleem van deze methode is dat in de psychologie alles met alles samenhangt. Zo kan bijvoorbeeld de intelligentie van een persoon op een positieve manier beïnvloed worden door de gezondheid van een persoon en op negatieve manier door het alcoholgebruik van een persoon, en zo kun je nog veel meer factoren bedenken die samenhangen met de intelligentie van deze persoon.
Convergente validiteit: Kijken of de test een samenhang heeft met een andere test die hetzelfde meet (en valide is). Het probleem van deze methode is dat er sprake is van oneindige regressie: je weet nooit helemaal zeker of de tweede test valide is waardoor je daarvoor weer een derde test nodig hebt, en ga zo maar door.
Bij zowel predictieve als convergente validiteit wordt gekeken samenhang. Hierbij is het belangrijk om in gedachten te houden dat een samenhang tussen een test en een criterium of tussen een test en een andere test niet automatisch betekent dat er sprake is van validiteit. Deze twee methodes zijn als methodes alleen niet voldoende om de validiteit van een onderzoek echt vast te stellen. Hiervoor zijn nog twee methodes te gebruiken:
Discriminate validiteit: Kijken of de test niet hoger samenhangt met een test die iets anders meet. Wanneer je bijvoorbeeld wil kijken of de WAIS-III voor het meten van intelligentie een valide test is, dan mag de uitslag van het IQ-criterium niet hoger zijn dan de uitslag van de motivatiescore van de deelnemers.
Construct validiteit: Het construct dat je wilt meten opdelen in termen van een netwerk van relaties om zo ieder construct te operationaliseren met een meting en vervolgens te kijken of de relaties tussen de metingen in overeenstemming zijn met de theorie. Wanneer je bijvoorbeeld het construct ‘geheugen’ wil meten, kun je daarbij ook kijken naar de intelligentie, motivatie en het leervermogen van de subjecten. Vervolgens kun je deze drie constructen apart van elkaar onderzoeken om te kijken of ze in overeenstemming zijn met de theorie die je hebt over het geheugen.
In dit college zullen we eerst kort stilstaan bij hoe je kan redeneren, daarna bij verschillende soorten data en hoe je data kan interpreteren.
Redeneren
Er zijn 3 vormen van redeneren. Je hebt deductief, inductief en statistisch redeneren.
Bij deductief redeneren, is je redenatie noodzakelijk waar. Je stelt een voorwaarde en je leert weinig.
Bv. Als het regent, dan gebruik ik mijn paraplu.
Het regent. Ik gebruik mijn paraplu.
Bij inductief redeneren hoeft het niet noodzakelijk waar te zijn.
Bv. Als het regent, dan gebruik ik mijn paraplu.
Ik gebruik mijn paraplu. Dan hoeft het niet per se te regenen.
Bij statistisch rederen gebruik je woorden als vaak en waarschijnlijjk.
Bv. Heel vaak als het regent, gebruik ik mijn paraplu.
Het regent. Ik gebruik waarschijnlijk mijn paraplu.
Belangrijke termen die in statistiek worden gebruikt zijn populatie, steekproef en inferentie. Een populatie bestaat uit alle proefpersonen of elementen waarin we geïnteresseerd zijn. Een steekproef is een deel van de proefpersonen van een populatie.
Inferentie is een conclusie die we trekken uit de gegevens van de steekproef, waarmee we een uitspraak doen over de populatie. De gegevens die we door onderzoek vinden, noemen we data.
Soorten data
Een variabele is een aspect dat (indirect) geobserveerd kan worden. Er zijn twee typen variabelen. Je hebt categorische variabelen en kwantitatieve variabelen. Bij een catergorische variabele behoort elke observatie tot een categorie. Hierbij kan je denken aan bijvoorbeeld geslacht, talen maar ook muzikaliteit. Kwantitatieve variabelen hebben een nummerieke waarde. We kunnen deze weer opdelen in discreet kwantitatief en continu kwantitatief. Discreet zijn hele getallen, zoals hoeveel kinderen heb je? Hoeveel sigaretten rook je op een dag? Continu is vaak op een interval, er kunnen dus getallen achter de komma komen. Bijvoorbeeld de hoogte van je IQ.
Centrummaten
Er zijn drie centrummaten: het gemiddelde, de mediaan en de modus.
Het gemiddelde bereken je door alle uitkomsten op te tellen, en dat te delen door het aantal proefjes die je hebt gedaan. ∑x÷n = . Het gemiddelde is dan
De mediaan is de middelste uitkomst van je data, wanneeer de data op volgorde staan.
Als je een even aantal hebt, dan neem je het gemiddelde van de middelste 2.
De modus is het meest voorkomende getal.
Data organiseren
Er zijn verschillende manieren om de gevonden data van een onderzoek overzichtelijk te maken. Hiervoor kan je een pie-chart (taart) gebruiken of een staaf diagram.
Ook kan je gebruik maken van een histogram. Ook hier wordt de data doormiddel van staven weergegeven. Het verschil met een staafdiagram is dat de staven direct naast elkaar staan, zonder tussen ruimte. Op de afbeelding (bron: mzandee.net) zijn de staven met elkaar verbonden door een lijn. Als de top van deze curve in het midden zit (zoals op de afbeelding) dan wordt dit een normaalverdeling genoemd.
Figuur 1: zie bijlage
De top hoeft niet precies in het midden te zitten. Als de top rechts zit, noemen we de grafiek skewed to the left. Als de top links zit noemen we de grafiek skweded to the right.
Boxplot en kwartielen
Een verdeling is ingedeel in vier kwarielen, die elk 25% van de data bevatten. Het tweede kwartiel (50%) is dus de mediaan. Als de verdeling scheeef is, kunnen deze kwartielen worden weergegeven in een boxplot. Dit is een manier om data snel en makkelijk in te schatten. Het voordeel van een boxplot is dat deze geschikt is om niet-symmetrische verdelingen weer te geven. Daarnaast kan je in een boxplot makkelijk outliers (extreem grote of kleine waarden) detecteren.
De IQR (interquartile range) is het verschil tussen het eerste en het derde kwartiel.
Om te bepalen of er outliers zijn wordt de IQR vermenigvuldigd met 1,5. Dit getal tel daarna op bij het derde kwartiel en trek je af van het eerste kwartiel. Alle data die buiten de uitkomst valt is een outlier. Deze geven we in een boxplot aan met stippen. (bron plaatje: ni.com)
Figuur 2: zie bijlage
Associatie
In dit college kijken we naar de samenhang tussen variabelen. Eerst kijken we naar wat een associatie precies is. Dan gaan we kijken naar regressie en correlatie. Ten slotte kijken we naar extreme waarden.
Wat is een associatie?
Om te begrijpen wat een associatie is moeten we eerst de begrippen afhankelijke variabele (y) en onafhankelijke variabele (x) kennen. De afhankelijke variabelen is de variabele die je wil onderzoeken en dus meet doormiddel van het varieren van de onafhankelijke variabele. De afhankelijke variabele word ook wel respons variabele genoemd. De onafhankelijke variabele wordt ook wel explanatory variabele genoemd.
Bij een kwantitatieve variabele is er is sprake van een associatie wanneer de waarde van variabele y afhangt van de waarde van variabele x.
Bij categorische variabelen kijk je naar conditionele proporties. Dat is een tabel waar je de verhoudingen makkelijk mee uit kunt rekenen.
Motor: Ja Nee totaal Getrouwd
Ja 8 90 98
Nee 20 50 70
totaal 28 140 168
De conditionele proportie van getrouwde mensen is 8 gedeeld door het totaal. Dus 8/168 = 0.05.
Correlatie
Er is sprake van een correlatie wanneer er een linear verband is in de data. Een correlatie ligt altijd tussen -1 en 1. Er is sprake van een negatieve correlatie (r = -1) waneer een waarde op x stijgt, de zelfde waarde op y daalt. Of wanneer een waarde op x daalt en de zelfde waarde op y steigt. Er is sprake van een positieve correltie (r = 1) wanneer een waarde op x daalt en dezlfde waarde op y daalt of wanneer een waarde op x stijgt en dezelfde waarde op y stijgt. Als er geen sprake is van de voorgaande situatie is er geen correlatie (r = 0). Let op: een correlatie geeft geen causaal verband weer!
Regressie
Met de regressielijn kan je voorspellen. ŷ=a+bx is de algemene formule die geld voor die lijn. a is het startgetal, b het hellingsgetal. Ŷ betekend de voorspelde waarde voor y en dus niet de exacte waarde. De punten in de grafiek hoeven niet precies op de lijn te zitten. Het verschil tussen een punt en de lijn noem je het residu (y- ŷ). Dat is de predictiefout. Je kan door y- ŷ te kwadrateren en daar de som van te nemen de residual sum of squares krijgen. Als je die zo laag mogelijk weet te krijgen spreken we van least squares (LS).
De helling (slope) en het startgetal (intercept) kan je vinden met de formules in het boek op bladzijde 118. Extreme waarden kunnen de regressielijn heel sterk beïnvloeden, wees daarvan bewust.
Kansrekening
We gaan het dit college hebben over wat kans precies is. Daarna behandelen we de wet van grote getallen, en tot slot de rekenregels van kansrekening.
Kans en grote getallen
Een dobbelsteen is symmetrisch: alle uitkomstmogelijkheden zijn 'gelijkwaardig' en hebben dus een gelijke kans om gegooid te worden. De kans dat je een 6 gooit, 1/6. Dat betekend niet dat als je 6 keer gooit, je elke zijde een keer raakt. Je moet veel herhalen om de kans van een systeem te kunnen onderzoeken. Dat is het basisprincipe van de empirische wet.
Veel gokkers denken dat ze op basis van een klein stukje geschiedenis kunnen voorspellen waar bijvoorbeeld de bal valt na roulette. Dat wordt het gambler’s fallacy genoemd. Maar meestal komt de kans pas naar voren op de lange termijn. Voorwaarde is dat elke trial, keer dat je het systeem test, onafhankelijk van elkaar is.
Hieronder zijn drie bevindingen over kansrekening geformuleerd:
Empirische wet van de grote aantallen: de relatieve frequentie van een gebeurtenis zal minder en minder schommel rond een vaste waarde wanneer het aantal herhalingen van de gebeurtenis toeneemt.
Frequentistische benadering: kans van een uitkomst is de proportie dat die uitkomst voorkomt in the long run. Belangrijk hierbij is dat de trials (bijv. worpen met een dobbelsteen) onafhankelijk zijn. Dit is het geval wanneer de trial geen invloed heeft op een andere trial.
Theoretische wet van de grote aantallen: de kans op gebeurtenis A is gelijk aan de proportie van gebeurtenis A waarbij het experiment waarin A kan voorkomen een oneindig aantal keren onafhankelijk en onder exact gelijke omstandigheden is herhaald.
Rekenregels
De uitkomstruimte is een verzameling van alle mogelijke uitkomsten.
Bijvoorbeeld: dobbelsteen {1,2,3,4,5,6} Muntje {kop, munt}
Een term die veel gebruikt wordt is gebeurtenis. Een deelverzameling van de uitkomstruimte. Bijvoorbeeld A {2,4,6} . In de uitkomst van een gebeurtenis ben je geïnteresseerd.
De formule voor het berekenen van het aantal combinaties is:
Combinaties = (aantal mogelijke uitkomsten) tot de macht (aantal herhalingen).
Bv. Je gooit 5 keer met een dobbelsteen. Dat is 6 tot de macht 5 aantal combinaties.
Gigantische uitkomstruimten zetten we in een venn diagram.
Daar gebruiken we de termen disjunct, intersection en vereniging. Bij disjunct is er niks gemeenschappelijks tussen de gebeurtenissen. Bij intersection (doorsnede) delen ze een waarde of waarden. Verenigingen vallen hele gebeurtenissen samen.
Rekenregel die we daarbij gebruiken:
De totale kans dat iets gebeurt is 1.
Als 2 gebeurtenissen disjunct zijn, dan is de kans op de ene, 1 - de ander.
P(A) = 1 – P(B)
Bij een doorsnede geldt de volgende formule:
P (A of B) = P(A) + P(B) – P(A+B)
Zijn P(A) en P(B) onafhankelijk (dus er is geen doorsnede of vereniging), dan geldt:
P (A en B) = P(A) * P(B)
Als iemand voor de ene gebeurtenis (bruin haar hebben) iets weet over een andere gebeurtenis (geen blond haar hebben) zijn de gebeurtenissen afhankelijk.
Wanneer een gebeurtenis disjunct is, is de kans dat de gebeurtenissen samen voorkomen 0.
Conditionele kans en toepassingen
In dit college wordt behandeld wat conditionele kans is en wat onafhankelijkheid precies is. Ook wordt er in gegaan op diagnostische instrumenten en welke fout veel mensen daarmee maken.
Wat is conditionele kans?
Vandaag gaan we vooral kijken naar het concept achter de conditionele kans.
Bij conditionele kans, kijk je naar de kans op een gebeurtenis, gegeven een bepaalde conditie. Bijvoorbeeld P (auto | rood haar). We kijken hoe groot de kans is dat je een auto hebt, gegeven dat je rood haar hebt. We doen dan alleen onderzoek onder roodharigen.
Je berekent de conditionele kans met de volgende formule:
P (A|B) = P (A en B) / P (B)
Je bekijkt hoe groot de verhouding is dat iemand beide eigenschappen heeft (zowel A als B, zowel rood haar als auto) op de totale hoeveelheid van eigenschap B of rood haar.
Wat is onafhankelijkheid?
Onafhankelijkheid is een belangrijk begrip, dat de hele tijd terug komt. Condtionele kans zegt iets over de afhankelijkheid en onafhankelijkheid. Twee gebeurtenissen A en B zijn onafhankelijk als het optreden van gebeurtenis B niets veranderd aan de kans van het optreden van gebeurtenis A.
Gegeven de formule hierboven, kunnen we de formule ombuigen naar een tweede formule.
P (A|B) = P (A en B) / P (B)
We weten van vorige les dat voor onafhankelijke variabelen geldt: P (A en B) = P(A) * P(B)
Daarom: P (A|B) = P (A)
B heeft in die formule dus geen invloed op A.
Diagnostische instrumenten
Laten we naar een voorbeeld kijken.
In een populatie is de kans op autisme 0,1%. De kans dat de diagnose juist voorspelt dat mensen autisme hebben is 99% en de diagnose voorspelt 98% juist wanneer mensen geen autisme hebben. De kans dat een test terecht een positieve uitslag heeft heet snsitiviteit. De kans dat een test terecht een negatieve uitslag heeft heet specifiteit. Prevalentie is de mate waarin een bepaalde stoornis voorkomt.
P (diagnose autisme juist) = 0,99
P (diagnose geen autisme juist) = 0,98
P (kans op autisme) = 0,001
Als je dat in een tabel zet, en de resterende waarde uitrekent, krijg je het volgende (totaal is altijd 1)
Uitslag
Autisme + - Totaal
Ja 0,99 0,01 1
Nee 0,02 0,98 1
Wanneer er positief wordt gediagoniseerd, maar de persoon heeft geen autisme, wordt dat het false positive rate genoemd. Mensen die negatief worden gediagnotiseerd maar wel autisme hebben, wordt het false negative rate genoemd.
Bij de grafiek hoort nog een formule. Namelijk de formule van Bayes.
P (A|B) = P (A en B) / P (B) was de formule waarmee we begonnen.
Alleen nu hebben we in ons onderzoek alleen maar mensen die autisme hebben gediagnotiseerd, je moet daarom meenemen hoeveel mensen in de hele populatie dat hebben.
Als je dat meeneemt krijg je de volgende formule (je hoeft hem niet te onthouden, je krijgt een formuleblad bij het tentamen.
P(A|+) =( P(+|A) * P(A) ) / ( P(+|A) * P(A) + P(+|Ag) * P )
Onderwerp van het college: Observationeel onderzoek en de daarbijbehorende problemen
In de wetenschap worden conclusies gebaseerd op ‘data’: de resultaten uit onderzoek. Deze data moet juist zijn, zodat ze leiden tot een geldige conclusies. Er zijn verschillende manieren hoe je aan ongeldige data/conclusies komt:
Sampling bias = Het observeren van organismen of gebeurtenissen die verschillend zijn van organismen of gebeurtenissen waar je een conclusie over wilt trekken: de steekproef komt niet overeen met de populatie.
Observer effects = Het verstoren van datgene wat je observeert dóórdat je het observeert. Het geobserveerde kan zich hierdoor anders gaan gedragen.
Observer bias = Het onbewust verdraaien van de data die leidt uit een observatie, bijvoorbeeld door vooroordelen of verwachtingen.
Inferential bias = Het trekken van verkeerde conclusies uit de (misschien wel accurate) data. Een voorbeeld hiervan is de correlation and causality fallacy.
Naast de fouten die kunnen voorkomen bij het verkrijgen van data, moet je drie verschillende beweringen kennen. Deze claims zijn meestal fout, maar dit hoeft niet!
Frequentie claim = Een bewering waarbij een bepaald percentage voldoet aan een bepaalde eigenschap (vb 1 op de 4 vrouwen houdt van koken).
Associatie claim = Een bewering gebaseerd op eigenschappen (vb meisjes kunnen slechter tegen alcohol dan jongens).
Causale claim = Een bewering op basis van een oorzaak-gevolgrelatie (vb veel seks leidt tot een jonger uiterlijk).
Uit observationeel onderzoek komen vaak frequentie en associatie claims, terwijl causale claims voornamelijk voorkomen bij experimenteel onderzoek.
De hoofdstukken uit dit college gaan over observationeel onderzoek. Het is dan ook belangrijk om te weten wat observationeel onderzoek is, en wat experimenteel onderzoek is:
Experimenteel onderzoek = Een bepaalde variabelen manipuleren en kijken naar het effect op andere variabelen. VB: Stress opwekken bij babies om te kijken wat voor gevolg dit heeft. Oftewel: ‘Je laat je handjes niet thuis’.
Observationeel onderzoek = Kijken naar waarden die variabelen van nature hebben.
Er zijn verschillende soorten observationeel onderzoek, waarvan je er vier moet weten. Die vier, en hun voor en nadelen zijn:
Case studies = Eén ding onderzoeken. VB: Vliegtuigongeluk.
Voordelen:
1) Er is een hoge mate van diepgang.
2) Genereert veel ideeën (het is exploratief).
Nadelen:
1) Generaliseerbaarheid (in heterogene gevallen): een conclusie toepassen op meerdere gevallen terwijl deze conclusie slechts geldt voor die ene observatie.
2) Aanwezigheid van alternatieve verklaringen.
3) Ad-hoc redeneren: achteraf een verklaring geven aan iets wat niet meer getoetst kan worden.
Surveys = Enquêtes/interviews bij een (grote) groep mensen. Doel: gedrag meten die moeilijk door onderzoekers te observeren is.
Voordelen:
1) Snel en gemakkelijk.
2) Geeft veel informatie.
3) Onderwerpen onderzoeken die anders lastig of niet te observeren zijn (vb alcoholconsumptie).
Nadelen:
1) Juistheid van de gegevens is betwijfelbaar.
2) Non-response: Veel mensen die niet reageren op het verzoek tot een survey.
3) Weinig diepgang: De vragenlijst staat van tevoren vast, achteraf kan je niet doorvragen op het gegeven antwoord.
Directe observatie = Gedrag wordt geobserveerd in een natuurlijke of een kunstmatige omgeving. VB: Strange situation test (baby met mama in kamer, mama gaat weg, wat doet de baby?).
Voordelen:
1) Je observeert precies waar je in geïnteresseerd bent.
Nadelen:
1) Nauwelijk controle: Je kijkt naar een natuurlijke situatie dus je hebt helemaal geen invloed. VB: Oversteekgedrag onderzoeken bij een bepaald kruispunt, terwijl er net op die dag op die plek niemand oversteekt.
Participerende observatie = Onderzoeker neemt deel in een proces wat hij wil onderzoeken. VB: Cognitieve dissonantie theorie, Festinger sluit zich aan bij een sekte om de leden van de sekte te onderzoeken.
Voordelen:
1) Proefpersonen hebben niet door dat ze geobserveerd worden.
2) Je krijgt toegang tot waardevolle informatie die niet zomaar voor iedereen beschikbaar is.
Nadelen:
1) Reactiviteit: Je hebt bewust of onbewust invloed op het proces en zo ook de uitkomt van het onderzoek.
Sampling bias
Bij het omzetten van afzonderlijke observaties van een steekproef naar een conclusie over de gehele populatie, is vaak sprake van het probleem van de sample bias: de steekproef is niet representatief voor de gehele populatie (behalve wanneer de onderzoeker juist uitspraken wil doen over een heel specifieke populatie). Om dit te voorkomen is random sampling een oplossing: ieder persoon uit de populatie dezelfde kans geven om geselecteerd te worden voor de steekproef. Dit kan gedaan worden door iedereen uit de populatie een nummer te geven, en een computer dan willekeurig nummers te laten selecten.Dit is echter vaak niet mogelijk of te veel werk, denk hierbij bijvoorbeeld aan een populatie als ‘alle vrouwen in Nederland’.
Andere mogelijkheden van random sampling zijn:
Multi-stage sampling = Het opdelen van de gehele groep in clusters, waarbij at random een of meerdere clusters gekozen worden en daaruit de random sample genomen wordt. Bijvoorbeeld in plaats van iedereen in Nederland (de populatie) een nummer te geven, kun je het ook aanpakken door te kijken naar: provincies woonplaatsen straten huizen.
Systematic sampling = Het observeren/interviewen van iedere m-de geval, startende met de n-de subject, waarbij m en n allebei random gekozen zijn. Voorbeeld: Je bent in het gemeentehuis en observeert voorbij lopende personen. Stel: M=3 en n=4, dan begin je vanaf het vierde subject dat voorbij komt telkens de derde te observeren/interviewen. Zo is je sample dus 4-7-10-13-16 etc.,
Niet iedere wetenschapper dringt aan op een representatieve steekproef. Soms is dit ook niet handig. Het gaat dan om het principe ‘mensen zoals deze’ (‘subjects like these’): je trekt een conclusie waarbij je niet zozeer een uitspraak doet over een populatie, maar eerder over ‘personen zoals deze’. Hierbij horen twee vormen van sampling:
Purposive sampling = Een steekproef vormen op basis van je gewenste doelgroep. Hierbij ga je bijvoorbeeld op zoek naar ‘gezonde niet-rokende mensen tussen de 25 en 40 jaar oud’.
Convenience sampling = Een steekproef uit de populatie nemen die makkelijk voor handen ligt, zo gebruiken masterstudenten psychologie bijvoorbeeld voor hun masterthese als steekproef eerstejaarsstudenten psychologie. Het voordeel hiervan is dat de steekproef makkelijk te vormen is.
Bij beide soorten sampling zijn de resultaten niet altijd representatief. Dit hoeft ook niet altijd, zeker als je uitgaat van het ‘mensen zoals deze’-principe. Pas op het moment dat er echt een populatie is waarnaar je je resultaten wilt generaliseren, zoals vaak het geval is bij frequentieclaims, is een representatieve steekproef van groot belang.
Observer effects
Bij observationeel onderzoek kan de aanwezigheid van een observeerder effect hebben op de personen of dieren die geobserveerd worden. Dit probleem noem je observer effects. Hiervoor zijn vijf oplossingen:
Hiding: De observeerder verstopt zich ten opzichte van datgene wat hij observeert (= het subject of de subjecten). Een bekend voorbeeld uit psychologische onderzoeken is de ‘one-way mirror’.
Waiting it out: De observeerder blijft zo lang bij de subjecten, dat deze gewend raken aan zijn of haar aanwezigheid en zich uiteindelijk weer natuurlijk gaan gedragen.
Deception: Jezelf voordoen als iemand anders waardoor de subjecten niet weten dat er iemand aanwezig is die ze observeert.
Ubobtrusive measures: Niet het gedrag van subjecten observeren, maar het gevolg van het gedrag van de subjecten. Je meet hierbij dus gedrag wat al gebeurd is. Bijvoorbeeld: Om te weten te komen hoeveel studenten in de UB koffie drinken tijdens het studeren, ga je aan het eind van de dag alle bekertjes in de prullenbak tellen.
Blind observers: De observeerders weten zelf ook niet wat ze (moeten) observeren. Dit komt vooral voor bij onderzoeken waar gebruikt gemaakt wordt van placebo’s.
Observer bias
Bij de observer bias wordt de observeerder beïnvloed door wat hij verwacht te gaan zien, waardoor hij onjuist ook datgene ziet wat hij verwacht, of zal zeggen dat hij het op die (verwachte) manier heeft gezien. Een voorbeeld hiervan is wanneer voetbalfans stellen dat het andere team meer overtredingen gemaakt heeft, wanneer in feite beide teams even veel overtredingen gemaakt hebben. Het verschil tussen observer effects en observer bias is dat er bij observer effects er écht sprake is van een effect, terwijl bij observer bias dit effect alleen maar wordt verwacht maar niet gebeurt.
Er zijn drie manieren om de observer bias te voorkomen:
Blind observers: De observeerders weten niet wat er onderzocht wordt, dus hebben ze tijdens het observatie geen vooroordelen over datgene wat ze observeren.
Objective measures: Vragen naar concreet gedrag, in plaats van een globeel oordeel. Op die manier kan het antwoord van de subject niet beïnvloed worden door de manier waarop een vraag is gesteld.
Multiple observers of Interobserver reliability: Meerdere observeerders gebruiken, want als meerdere waarnemers het eens zijn over wat er gebeurd is, is het waarschijnlijker dat dat echt is wat er gebeurd is.
Inferential bias
Als laatste probleem binnen observationele onderzoeken is er nog het probleem van de inferential bias. Hierbij wordt uit een correlationeel onderzoek een causale claim getrokken. Echter: een correlatie tussen twee of meerdere zaken zegt niks over het verband tussen deze zaken. Zo kan bij een correlatie tussen variabele A: ‘crèche bezoek door peuters’ en variabele B: ‘probleemgedrag bij peuters’ niet gezegd worden dat probleemgedrag veroorzaakt wordt door crèche bezoek, omdat variabele B misschien veroorzaakt wordt door een derde variabele, bijvoorbeeld variabele C: ‘de leeftijd van de ouders’.
Onderwerp van het college: Experimenteel onderzoek
Correlationeel onderzoek
Gedurende het college wordt er gewerkt met een voorbeeld van een directe observatie studie, namelijk: verbeterd caffeïne consumptie de concentratie? Hierbij is het doel het verband aantonen tussen caffeïne inname en een toegenomen concentratie. Om dit te operationaliseren is er een constructschema ter verduidelijking gemaakt, deze ziet er als volgt uit:
Construct | Caffeïne consumptie ----------> | <---------------------Concentratie |
Operationalisatie | Hoeveel koffie per persoon wordt er gedronken bij binnenkomst | Concentratietaak de ‘d2’ |
Uitslag: Er is een correlatie van 0.8 tussen de hoeveelheid gedronken koffie en de concentratiescore van de subjecten. |
Zoals je ziet, is hierin ook de uitslag van het onderzoek in opgenomen. Echter zijn er enkele nadelen aan deze conclusie, waardoor hij ongeldig verklaard kan worden:
· Er kunnen alternatieve variabelen meespelen (vb opleidingsniveau: de hoogopgeleiden kunnen op hun kantoor misschien meer koffie drinken dan bij beroepen voor laagopgeleiden, of een verschil in genetica: de ene persoon kan zich beter concentreren dan de andere persoon).
· Er kan sprake zijn van een omgekeerd effect, bijvoorbeeld: Mensen met een hogere concentratie hebben meer dorst, of merken dat ze moe worden en gaan daardoor meer koffie drinken voor de caffeïne die er in zit.
Experiment
Wanneer je, zoals bij bovenstaand onderzoek, een causaal verband (oorzaak-gevolgrelatie) wil aantonen, maak je gebruik van een experiment. Dit gaat als volgt:
1. Je maakt onderscheid maken tussen de onafhankelijke variabele (caffeïne consumptie) en afhankelijke variabele (concentratie).
v Een ezelsbruggetje hierbij is: OOGA. De oorzaak is onafhankelijk, het gevolg is afhankelijk.
2. De onafhankelijke variabele wordt gemanipuleerd om te kijken wat het effect is op de afhankelijke variabele.
v Bijvoorbeeld angst manipuleren door de proefpersoon enge filmpjes te laten zien (mits dit ethisch verandwoord is).
3. Bij de onafhankelijke variabele is een groep die gemanipuleerd wordt (groep die koffie moet drinken), en een ‘controlegroep’, de groep die niet gemanipuleerd wordt (en dus geen koffie moet drinken).
Problemen bij experimenteel onderzoek
Bij experimenteel onderzoek kan gebruik gemaakt worden van een Independent groups design (ook wel: between subjects design). Dit houdt in dat er twee onafhankelijke groepen zijn: De ene groep krijgt koffie, de andere groep krijgt geen koffie (dat is de controlegroep). Na het experiment worden de verschillen tussen de resultaten van de ene groep vergeleken met de resultaten van de andere groep. Bijvoorbeeld wel koffie: gemiddelde 16.7 en sd 7.2 en geen koffie: gemiddelde 11.7 en sd 2.9.
Hierbij kunnen twee problemen opspelen:
1. Confounding: factoren die zorgen voor een systematisch verschil in resultaten (van de concentratietest) tussen de twee groepen (koffie-groep en de controlegroep), wat niet door de manipulatie (caffeïneconsumptie) komt.
2. Obscuring factors: factoren die zorgen voor ruis waardoor het effect van de manipulatie niet te detecteren is.
Confounding
Er is een groep die koffie drinkt (de koffie-conditie) en een groep die geen koffie drinkt (geen-koffie conditie oftewel de controlegroep). De fouten die hierbij voor kunnen komen zijn:
· Dat in de koffie-conditiegroep alleen maar vrouwen zitten, terwijl in de geen-koffie conditiegroep alleen maar mannen zitten.
· In de koffie-conditiegroep hadden vijf proefpersonen net gegeten, in de andere groep hadden twee personen net gegeten.
· In de koffie-conditiegroep hadden 3 personen ook melk en suiker bij hun koffie, terwijl de andere groep 6 personen melk en suiker hadden.
· De koffie-conditiegroep mocht rustig binnenkomen, terwijl de andere groep direct aan de slag moest gaan.
· De koffie-conditiegroep geen dorst hadden, terwijl de andere groep dorst hadden.
· De koffie-conditiegroep had een hoge motivatie, terwijl de andere groep een neutrale motivatie had.
Deze fouten, die de resultaten van het experiment op een foute manier kunnen beïnvloeden, noem je confounding factoren.
Tussen deze confounding factoren zitten bepaalde controlevariabelen. Voorbeelden hiervan zijn: wel of niet rustig binnenkomen, wel of niet dorst, wel of niet gemotiveerd. Deze variabelen liggen aan de onderzoeksopzet, oftewel ze liggen in de hand van de onderzoeker. De oplossing hiervoor is dat je deze controlevariabelen zo moet controleren dat er maar weinig verschillen zijn tussen de koffie-conditiegroep en de geen-koffie conditiegroep.
Dan blijven er na deze oplossing nog steeds problemen over:
· In de koffiegroep alleen vrouwen, in de niet-koffiegroep alleen mannen.
· In de koffiegroep hebben 5 mensen net gegeten, in de niet-koffiegroep hebben 2 mensen net gegeten.
· In de koffiegroep gebruiken 3 mensen melk en suiker, in de niet-koffiegroep gebruiken 6 mensen melk en suiker.
Dit zijn allemaal individuele verschillen-variabelen. De oplossing hiervoor is randomizeren, oftewel alle proefpersonen puur willekeurig indelen in de twee groepen. Er kunnen nog enkele kleine verschillen (behalve dat de ene groep koffie drinkt en de andere groep niet) tussen de twee groepen zijn, maar dit is dan gebaseerd op toeval. Het enige probleem wat dan nog steds kan spelen is dat proefpersonen misschien kunnen proeven dat ze echte koffie drinken of juist caffeïne-vrije koffie.
Obscuring factors
In het geval van het voorbeeld dat gegeven is aan het begin (‘verbeterd caffeïne consumptie de concentratie?’) is de afhankelijke variabele het psychologische construct concentratie. Dit wordt geoperationaliseerd door de score op een concentratietaak te meten. De onafhankelijke variabele is hierbij de caffeïneconsumptie. De caffeïneconsumptie wordt hierbij dus gemanipuleerd om te kijken wat voor effect dit heeft op de concentratie van de proefpersonen.
Het probleem van obscuring factors wat hierbij invloed kan hebben op de resultaten is dat de concentratie ook beïnvloed kan worden door andere dingen dan caffeïne, bijvoorbeeld:
· Het opleidingsniveau van personen wat weer kan komen door de genen.
· De hoeveelheid afleiding, bijvoorbeeld: een lawaaierige omgeving, mensen lopen langs, iemand kijkt mee.
· De leeftijd, motivatie en het beroep van de proefpersonen.
· De aard van het werk: mensen die gewend zijn zich goed te concentreren, bijvoorbeeld doordat ze dit al veel doen in het dagelijks leven tijdens hun werk.
· Gewenning: mensen die vaak koffie drinken zullen minder van de caffeïne merken.
· Eten en drinken: op lege maag komt caffeïne harder aan.
· Geslacht: vrouwen gevoeliger voor caffeïne dan mannen.
· Gewicht: zware mensen nemen caffeïne trager op.
Al deze invloeden op onze concentratie zullen het effect van de caffeïne veranderen: ze vormen ruis. Ze kunnen hierdoor:
Individuele verschillen
De ene groep krijgt echte koffie (caffeïne groep), de andere groep krijgt caffeïnevrije koffie (de niet-caffeïne groep/controlegroep). Bij de niet-caffeïne groep zal het gemiddelde altijd laag liggen terwijl de caffeïne groep een hoog gemiddelde hebben, máárr: Bij beide groepen zijn er tussen de personen binnen in de groep individuele verschillen. Bijvoorbeeld: In de koffie groep begrijpt iemand de opdracht niet, terwijl iemand uit de niet-koffiegroep zich sowieso al goed kan concentreren.
Hiervoor zijn verschillende oplossingen:
· Controleren:
o Voor het onderzoek de motivatie van proefpersonen controleren.
o Voor het onderzoek controleren of iedereen de taak begrijpt.
· Within-subjects design: Dit is een alternatief voor het independent group design. Hierbij meet je mensen twee keer: de ene keer in de koffiegroep en de andere keer in de niet-koffiegroep. (‘Within’ = binnen, omdat je binnen de groep personen meet).
o Voordeel: Je hebt geen individuele verschillen tussen de metingen, omdat bijvoorbeeld de gemiddelde leeftijd bij de eerste meting hetzelfde is als bij de tweede meting, omdat het telkens dezelfde mensen zijn.
o Nadelen:
v Volgorde effecten: Bij de tweede meting snapt de proefpersoon de taak veel beter of is de proefpersoon beter ‘opgewarmd’.
v Oplossing: counterbalancing. Dit houdt in dat bij de eerste meting de ene helft van de proefpersonen eerst bij de koffie-groep hoort en de andere helft bij de niet-koffie, de tweede meting worden deze groepen omgedraaid.
v Omkeerbaarheid: Als je eenmaal iets gemanipuleerd hebt, kun je dit soms niet meer weghalen of omkeren (als je iets geleerd hebt, is het moeilijk dit niet meer te kunnen).
v Oplossing: Is er niet.
v Carry-over effects: Wanneer de proefpersoon eerst in de koffiegroep zit en 3 uur later in de niet-koffiegroep, kan de caffeïne van de eerste meting nog steeds effect hebben.
v Oplossing: Tussen de ene meting en de andere meting moet genoeg tijd zitten, bijvoorbeeld een week.
v Proefpersoonuitval: Dit houdt in dat proefersoon soms na de eerste meting niet meer mee willen doen.
· Randomized block design (ook wel: matched subjects design): Proefpersonen indelen in verschillende groepen aan de hand van belangrijke individuele verschillen (Voorbeeld: Stel – Mensen met een groter hoofd hebben een betere concentratie, hierdoor worden alle mensen met een groot hoofd verdeeld over de verschillende groepen).
o Voordelen:
v Er is geen sprake van carry-over effecten of volgorde effecten.
v Er is meer controle over individuele verschillen vergeleken met de between-subjects design.
o Nadelen:
v Er is minder controle over individuele verschillen vergeleken met een within-subjects design
Manipulatie ineffectief
Soms kan de manipulatie van de onafhankelijke variabele, caffeïneconsumptie, ineffectief worden. Dit kan bijvoorbeel gebeuren wanneer een proefpersoon uit de niet-koffiegroep tijdens het experiment toch onder invloed was van caffeïne, doordat hij voor het onderzoek koffie of redbull gedronken had of chocolade gegeten. Zoiets kan ook voorkomen in de koffiegroep, bijvoorbeeld wanneer proefpersonen caffeïne minder goed opnemen doordat ze van tevoren veel gegeten hadden, iets aan de zware kant waren of normaal gesproken ook al enorm veel caffeïne binnen krijgen.
De oplossingen hiervoor zijn:
· Alle variabelen die direct samenhangen met de manipulatie proberen te controleren.
o Geef de proefpersonen gerichte instructies, bijvoorbeeld: 2 uur voor het onderzoek niet eten en geen caffeïnehoudende producten gebruiken.
o Alleen gemiddelde caffeïnegebruikers selecteren (dus niet mensen die nooit caffeïne binnenkrijgen of mensen die verslaafd zijn aan caffeïne, deze personen zorgen voor uitschieters in de data).
· Randomizeer de rest:
o Geslacht.
o Leeftijd.
o Lichaamsgewicht.
Soms is er tussen test 1 en test 2 te weinig verschil (in het geval van het voorbeeld kan het bijvoorbeeld zijn dat de caffeïne niet sterk genoeg is). De oplossing hiervoor is een manipulatiecheck, oftewel het toetsen of de variabele daadwerkelijk verschilt tussen de twee condities (de manipulatiegroep en de controlegroep). Een voorbeeld hiervan is bij een experiment over alcoholgebruik een blaastest af laten nemen, bij angst een score op een angstvragenlijst meten en bij motivatie een score op een motivatievragenlijst.
Externe factoren
De data van het experiment kan ook beïnvloeden door factoren buiten de proefpersonen om, de externe factoren die voor kunnen komen. Oplossingen hiervoor zijn:
· Externe factoren zoveel mogelijk te verkleinen door controle te nemen, bijvoorbeeld door een test niet af te laten nemen in een lokaal waar mensen continue langslopen maar in een rustige ruimte, en niet de proefpersonen opjagen maar ze alle tijd geven.
· Alle overige externe factoren die je niet kan voorkomen moet je randomizeren, anders wordt het een confound factor. Bijvoorbeeld door beide condities in verschillende onderzoeksruimtes af te nemen.
Meetproblemen
Ten slotte kan het gebeuren dat er tijdens het experiment meetfouten gemaakt worden. Twee voorbeelden hiervan zijn:
· Plafond effect (ceiling effect) = Een testitem is te makkelijk waardoor er minder verschillen tussen proefpersonen zullen zijn, oftewel: veel mensen zullen hetzelfde (goede) antwoord geven waardoor de data niet meer relevant is.
· Bodem effect (floor effects) = Testitem is te moeilijk waardoor er minder verschillen tussen proefpersonen zullen zijn: de meesten zullen de vraag of opdracht niet (juist) kunnen beantwoorden, waardoor de data niet meer relevant is.
Kansverdeling
Dit college gaat over discrete en continue kansverdeling. Daarna volgen twee illustraties van verdelingen, namelijk de normaalverdeling (continu) en de binominaalverdeling (discreet).
Random variabelen
Een random variabele is een variabele waarvan de waarden afhangen van een random proces. Er zijn meerdere mogelijke uitkomsten en bij deze uitkomsten hoort een kansverdeling. Er zijn zowel discrete als continue random variabelen. De random variabele schrijf je met een hoofdletter (X), de mogelijke uitkomsten met een kleine letter (x).
Discrete kansverdeling
Een discrete random variabele kan een een bepaald aantal discrete waarden aannemen. De kansverdeling die hierbij gemaakt kan worden geeft elke variabele X een mogelijke waarde x.
Deze waardes liggen tussen de 0 en 1. Het gemiddelde van een kansverdeling is de verwachte waarde. De formule hiervoor is: µ =xP(x). Dit is de som van alle mogelijke waarden van x keer de kans P(x). De verwachte waarde zien we vaak niet in een specifieke situatie maar pas bij een groot aantal observaties (the long run).
Voorbeeld: random variabele X is het aantal vragen dat goed beantwoord wordt. Er zijn vier vragen en dus 5 mogelijke uitkomsten {0,1,2,3,4}. Deze mogelijke uitkomsten zijn weergegeven in deze kansverdeling:
Om de verwachte waarde uit te rekenen:
vrouw: µ= 0(0.00) + 1(0.03) + 2(0.63) + 3(0.23) + 4(0.11) = 2.42
man: µ= 0(0.04) + 1(0.03) + 2(0.57) + 3(0.23) + 4(0.13) = 2.38
Continue kansverdeling
Een continue random variabele kan waarden aannemen uit een interval, bijvoorbeeld lengte. De bijbehorende kansverdeling is een kromme waarvoor geldt dat de kans dat de random variabele in een deelinterval ligt, bepaald wordt door die kromme. Elk deelinterval heeft een kans tussen 0 en 1. Het is het oppervlak onder de kromme. Het gehele interval met alle mogelijke waarden heeft kans 1, het gehele oppervlak is gelijk aan 1.
Normaalverdeling
De normaalverdeling is symmetrisch. Hij wordt gebruikt voor IQ test, het gewicht van baby's, lengte, enz. De oppervlakte tussen de lijnen representeert de kans dat iemand binnen dat gebied valt. Bij één sd is deze kans 68%. Bij twee sd is dat 95% en bij drie sd is dat 100%.
Er geldt dat X is groter dan µ – σ en X is kleiner dan µ + σ, Hier bij is µ het gemiddelde en σ de standaarddeviatie. Afbeelding 1 is een normaalverdeling.
Voorbeeld: de gemiddelde lengte van mannen in Nederland is 180 cm met een sd van 15 cm.
180 – 30 = 150 180 + 30 = 210
95% van de Nederlandse mannen is dus tussen de 150 cm en 210 cm.
Wat is de kans op lengte 201.45 of kleiner?
µ = 180cm σ = 15 cm X = 180 + 1.43(15) = 201.45 x ligt dus 1.43 sd van het gemiddelde af. De z-score is dus 1.43
Bij de standaard normaalverdling is het gemiddelde 0.
Als we voor alle variabelen een aparte tabel zouden afdrukken zouden we heel veel tabellen krijgen. Daarom kunnen we de variabelen gewoon in een normaalverdeling zetten.
Binominaalverdeling
Deze verdeling geldt voor trials die twee mogelijke uitkomsten hebben met gelijke kans (bijvoorbeeld een muntje). Een voorbeeld van een vraag hierbij is: als ik tien keer met een muntje gooi, hoe groot is dan de kans dat ik vijf keer kop gooi? De formule hierbij is, voor n onafhankelijke trials met allemaal een kans op succes p is de kans op x successen:
P(x) =(n! / x!(n − x)!) px(1 − p)n−x
n! = n faculteit
Afbeelding 2 is een binominaalverdeling.
Voorbeeld: ganzfeld experiment. Bij dit experiment wordt op een wetenschappelijke manier onderzoek gedaan naar telepathie. Hierbij moet de ontvanger dezelfde afbeelding kiezen als de zender probeerde te verzenden. Als telepathie niet werkt is de kans dat de ontvanger het goede kaartje pakt 20%, want er zijn 5 afbeeldingen. Als er vier trials zijn met kans op succes p = 0.20 zijn er 16 verschillende mogelijke uitkomsten. Dit zijn onafhankelijke gebeurtenissen dus je mag de kansen met elkaar vermenigvuldigen.
In dit voorbeeld n=4 en p=0.20. Hier mee kun je de formule invullen.
De kans op gggf is (0.20^3)(0.80).Je kan dus verwachten dat als er geen telepathie bestaat iemand na 100 trials, er ongeveer 20 goed heeft.
Steekproeven
In dit college wordt de steekproevenverdeling en centrale limietstelling behandeld. Als laatste wordt kort geintroduceerd wat een quincunx is.
Steekproevenverdeling
De steekproefverdeling is een samenvatting van alle verschillende steekproefuitkomsten van één variabele. Het is dus interessant om te zien hoe de steekproefverdeling eruit ziet als een experiment meerdere keren wordt uitgevoerd. Een steekproevenverdeling van een statistic is een kansverdeling die de kansen weergeeft die een statstic kan aannemen.
Voor een binominale steekproevenverdeling schrijven geven we het gemiddelde aan met p. De standaarddeviatie, ook wel standaard error, kan je met deze formule uitrekenen: Ѵ(p(1 − p)/n). Met de standard error kan je bepalen hoe dicht de schatting van de proportie bij het gemiddelde ligt. Wanneer je de steekproef vergroot wordt de geschtte proportie nauwkeuriger. De steekproevenverdeling is dus nodig om de breedte van het betrouwbaarheidsinterval uit te rekenen. Het betrouwbaarheidsinterval wordt voglend college behandeld.
Het is waarschijnlijker dat als je een random steekproef doet, je een uitkomst vindt die meer in het midden valt ipv een extreme uitkomst. Een extreme uitkomst kan namelijk maar op één manier voorkomen.
Centrale limietstelling
Als we een steekproef trekken van voldoende grootte, is de steekproevenverdeling van een statistic bij benadering normaal verdeeld. Belangrijk hierbij is dus dat de steekproef groot genoeg is en random getrokken is uit de populatie.
Quincunx
De quincunx, ook wel Bord van Galton genoemd, is een apparaatje waarmee de centrale limietstelling geïllustreerd kan worden. Het apparaat bestaat uit pinnen die in driekhoek vorm uit het bord steken, met de punt boven. Onderaan de pinnen zitten bakjes. Boven worden kogeltjes in het apparaat gedaan die hun weg naar benden zoeken via de pinnen en uiteindelijk in een bakje belanden. Als je voldoende kogeltjes in het apparaat gooit zullen de uiteindelijk een normaalverdling vormen in de bakjes (zie afbeelding 3).
Schatten
Dit college gaat over schatten met steekproefgegevens en het betrouwbaarheidsinterval. Eerst worden twee soorten schattingen behandeld, daarna het betrouwbaarheidsinterval.
Puntschatting en intervalschatting
Er zijn twee soorten schattingen. Bij een puntschatting doe je de beste inschatting van een parameter. Je schat dan het gemiddelde van de popualtie. Bij een intervalschatting doe je een schatting van het interval waar de parameter (populatie gemiddelde) tussen ligt. Essentieel hierbij is dat wat je gaat schatten onbiased (zuiver) is. Dit betekend dat het gemiddelde van de steekproevenverdeling gelijk moet zijn aan de ware parameter van de verdeling. Daarnaast moet de steekproevenverdeling een zo klein mogelijke standaard deviatie hebben. Om de parameter te schatten wordt de mediaan van de steekproevenverdeling geprefereerd omdat deze smaller is dan de mediaan van de parameter.
Wat al behandeld hebben:
de law of large numbers: hoe meer trials hoe dichter je bij de ware kans komt
centrale limietstelling: de verdeling van een steekproevengemiddelde wordt bij genoeg trials een normale verdeling
het gemiddelde van de steekproevenverdeling is het populatiegemiddelde/de ware proportie
de standaarddeviatie bepaalde de breedte van de verdeling
Wat we willen weten met schatten:
dat de geschatte proportie naar de ware proportie gaat
we willen informatie over hoe dichtbij de geschatte proportie bij de ware proportie ligt
hoe nauwkeurig de schatting is ten aanzien van de populatieparameter
Deze punten komen dus overeen met de punten die we al behandeld hebben. De law of large numbers en de centrale limietstelling kunnen ons helpen bij het maken van schattingen.
Betrouwbaarheidsinterval
Om een schatting te maken moeten we eerst de linker en rechter grens vastleggen zodat het betrouwbaarheidsinterval 95% is. Een betrouwbaarheidsinterval van 95% geeft aan dat van de herhaalde keren dat een proportie is geschat, de ware proportie ṗ in 95% van de gevallen in dat interval zit. De mate waarin dit ernaast kan zitten heeft de margin of error. Deze geeft de nauwkeurigheid van de puntschatting aan. De breedte van de margin of error is 1.96 standaarddeviaties. Dit is de z-waarde die hoort bij de buiten grenzen van 95% (zie afbeelding 4).
Een 95% interval krijg je door proportie – margin of error, proportie + margin of error. Dit geldt als de kansen normaal verdeeld zijn. De uitkomsten zijn dus de waardes van de buitengrenzen (95%).
Als je een steekproef uitkomst hebt waar de populatiewaarde niet binnen valt heb je een waarde die buiten de 95% ligt. Hier is dus maar 5% kans op.
De breedte van het betrouwbaarheidsinterval
Dat de bij het betrouwbaarheidsinterval de grens 95% is is een afspraak. Je kan ook een andere breedte nemen. Bij een groot interval weet je bijvoorbeeld zekerder dat het er tussen ligt. Het nadeel hiervan is dat het interval dus breder wordt en je eigenlijk geen eenduidende conclusie kan trekken. De standaardafwijking neemt namelijk toe als het interval groter wordt.
Betrouwbaarheid en gemiddelden
Dit college gaat over het betrouwbaarheidsinterval voor gemiddelden, robuustheid en steekproefgrootte kiezen.
Herhaling
Eerst een herhaling van de belangrijkste punten uit het vorige college die nodig zijn om de t-verdeling te begrijpen. Een goede schatting van een statistiek heeft twee eigenschappen: hij moet onbiased zijn en de standaarddeviatie moet klein zijn. Een steekproevenverdeling geeft aan welke waarden voor een proportie je kan verwachten bij herhaling van het experiment. Daarbij is er maar één ware proportie (populatie). Een 95% betrouwbaarheidsinterval geeft aan dat van de
herhaalde keren in 'the long run' proportie in 95% van de gevallen in het interval zit.
t-verdeling
Het betrouwbaarheidsinterval voor het populatie gemiddelde wordt uitgerekend door het gemiddelde van de steekproef + margin of error en – margin of error. Om de margin of error te berekenen gebruiken we in dit geval niet de z-waarde maar de t-waarde.
Een paar punten die we al behandeld hebben:
wanneer de populatieverdeling normaal verdeeld is, is de steekproevenverdeling ook normaal verdeeld
Wanneer de populatieverdeling niet normaal verdeeld is, dan gaat deze bij benadering alsnog richting een normale verdeling als de steekproef groot genoeg is
het gemiddelde van de steekproevenverdeling schrijven we als: µ
de standaarddeviatie van de steekproevenverdeling reken we uit door: σ/ѵn
Het probleem hier is dat we de sigma (σ) meestal niet weten. De vraag is dan hoe we de standaarddeviatie kunnen uitrekenen. We gebruiken in dit geval niet de sigma (σ) maar de standaarddeviatie van de populatieverdeling (s). Dit zorgt voor onzorgvuldigheid. Als we de standerd error dan op dezelfde manier zouden uitrekenen als voor een normale punt- of intervalschatting dan krijgen we een te smal interval. Daarom gebruiken we de bredere t-verdeling. Ook gebruiken we deze voor kleine steekproeven, als het aantal trials n30 of kleiner is. De t-verdeling is symmetrisch rondom 0 en klokvormig net als de normaal verdeling. De exacte vorm van de t-verdeling hangt af van het aantal vrijheidsgraden (df). Bij een groot aantal vrijheidsgraden is de t-verdeling hetzelfde als de normaalverdeling. Om de t-waarde te vinden in de tabel moet je df uitrekenen. Dit doe je door n-1 te doen.
Robuustheid
Een statistiek is robuust als er één of meerdere waarden aan een steekproef worden toegevoegd en dit invloed heeft op het betrouwbaarheidsinterval. Als er aan één kant een extreme waarde wordt toegevoegd aan de data, dan heeft dit effect op het gemiddelde en op de breedte van het betrouwbaarheidsinterval.
Het kiezen van steekproefgrootte
De grootte van de steekproef heeft invloed op de breedte van het betrouwbaarheidsinterval. Je moet dus een afweging maken tussen zo min mogelijk proefpersonen omdat dit bijvoorbeeld financieel gezien beter/makkelijker is maar ook niet te weinig. Anders kan je geen eenduidende conclusie kan trekken. De vraag is dus hoeveel proefpersonen er nodig zijn om een betrouwbare margin of error te krijgen. Om dit te berekenen wordt de formule om de margin of error uit te rekenen zo omgedraaid dat we n er mee kunnen uitrekenen. De formule ziet er zo uit: n= (ṗ(1- ṗ)z^2)/(m^2)
z is hier het confidence level (dus 1,96 bij 95%). Vaak kunnen we ṗ alleen nog niet berkenen omdat we het onderzoek nog niet hebben gedaan. In dit geval wordt voor ṗ de grootste waarde van (ṗ)(1-ṗ) genomen. Hierbij is 0.50 een veilige keuze, want dan is de teller van ṗ het grootst.
Inleiding
In het college werd als voorbeeld EMDR-therapie (eye movement desensitization and reprocessing) bij post-traumatische stress stoornissen (PTSS) gebruikt. Deze therapievorm ziet er als volgt uit:
Hoe EMDR-therapie werkt is onduidelijk. De meest populaire uitleg is de droomslaapgelijkenishypothese, wat stelt dat de snelle oogbewegingen vergelijkbaar zijn aan je oogbewegingen tijdens de diepste fase van je slaap, de REM-slaap. Dit werkt als volgt: Al je ervaringen worden opgeslagen in je episodische geheugen. Tijdens je REM-slaap worden de ervaringen uit je episodische geheugen gekopieërd naar de semantische geheugen, en verwijderd uit je episodische geheugen. Wanneer je een traumatische ervaring hebt meegemaakt, wordt deze ervaring tijdens je slaap niet weggehaald uit je episodische geheugen, waardoor je er last van blijft hebben. EMDR-therapie zou ervoor zorgen dat deze herinneringen toch verwijderd worden.
Er zijn enkele problemen die zich voor doen bij EMDR-therapie waardoor de betrouwbaarheid in twijfel getrokken kan worden:
Maar, klopt de werking van de EMDR-therapie dan wel? De alternatieve verklaringen voor de effectiviteit van de behandeling kunnen ook zijn:
Confouding tijdens interventie onderzoek
Een interventie onderzoek kan aantonen of EMDR-therapie wel of niet werkt. Hiervoor zijn vijf onderzoeksdesign. Je zou dit kunnen zien als de onderzoeksdesigns die door de tijd heen bedacht zijn. Het eerste design is nog een ruwe versie van een interventie onderzoek omdat het design niet goed genoeg is. Het vijfde design is het beste design wat er tot nu toe bestaat.
Tijdens interventie onderzoek kunnen enkele confounds optreden. Dit zijn factoren die ervoor zorgen dat de resultaten van het onderzoek moeilijk te interpreteren zijn. Hierdoor is een dergelijk onderzoek onbruikbaar. De confounding factoren die op kunnen treden zijn:
De vijf designs voor interventie-onderzoek en hun bijbehorende confounds
Design 1: Een groep mensen EMDR-therapie geven en daarna kijken of ze wel of geen PTSS hebben. Dit is per definitie al een slecht design, omdat je het effect van EMDR-therapie niet kan meten als je van tevoren niet eens weet of mensen wel of niet PTSS hebben.
Design 2: Een within-subjects design, waarbij je een voormeting doet bij alle proefpersonen om van tevoren te kijken hoe erg de proefpersonen last hebben van PTSS, om vervolgens na het experiment te kijken of de PTSS is afgenomen. Bij dit design komen alle confounds voor.
Design 3: Een mixed-subjects design met een controlegroep. De ene groep krijgt hierbij een voormeting, EMDR-therapie en een nameting en de andere groep (de controlegroep) krijgt alleen een voormeting en nameting. Hierbij treden de confounds spontaan herstel en regressie niet meer op, want wanneer het bij de eerste groep na de EMDR-therapie beter gaat met alle proefpersonen dan bij de tweede groep, kun je stellen dat dit enkel door therapie kan komen.
Design 4: Een mixed design met placebo. De ene groep krijgt een voormeting, EMDR-therapie en een nameting en de andere groep (de controlegroep) krijgt een voormeting, placebo en een nameting. Hierbij treedt de confound placebo effects niet meer op, je hebt namelijk bij zowel de EMDR-therapiegroep en de placebogroep placebo effects, waardoor een verbetering bij de EMDR-therapiegroep puur door de therapie komt. Daarnaast treden de niet-specifieke effecten niet op, omdat beide groepen een behandeling krijgen.
Verschillende controls die hierbij horen:
Design 5: Mixed design met ‘double blind placebo control’. De ene groep krijgt een voormeting, EMDR-therapie en een nameting en de andere groep (de controlegroep) krijgt een voormeting, placebo en nameting maar zowel de patiënten als de observeerders die kijken of er bij de voor- en nameting verbetering is weten niet of de persoon EMDR-therapie of een placebo heeft gehad.
Interventie onderzoek bij één persoon
De reden om een onderzoek te doen met één proefpersoon is omdat datgene wat voor het gemiddelde van een hele groep geldt, niet voor één persoon hoeft te gelden. Het probleem hierbij is dat je geen controlegroep kan gebruiken. Dit zorgt ervoor dat bepaalde confounds (zoals regressie naar het gemiddelde) problemen blijven. De oplossing hiervoor is het stable baseline design: de voor- en nametingen repliceren (herhalen) om een goede indicatie te krijgen van iemands ‘baseline’, oftewel de gemiddelde conditie van de persoon.
Het probleem wat dan nog opspeelt is de vraag of het effect van verbetering écht komt door de behandeling. De oplossing hiervoor is een reversal design: veel metingen doen om te kijken of er een bepaalde trend is te zien waarbij de gemiddelde baseline naar beneden gaat. Vervolgens wordt gestopt met de therapie, om te kijken of de baseline weer omhoog gaat. Wanneer de therapie hervat wordt, hoort de baseline weer omlaag te gaan. In dat geval is de therapie succesvol. Om jezelf vervolgens nog meer te overtuigen of de therapie effect heeft is er nog de multiple baseline design, waarbij meerdere baselines vastgesteld worden.
Twee onafhankelijke variabelen
Tijdens een college werd een voorbeeld voorgesteld. Stel: Je bent in een bar met een vriend/vriendin en van een afstandje zie je een verleider. Hij verleidt ofwel je vriend/vriendin, ofwel jou. De vraag in het experiment is dan ‘In welke van deze twee situaties vind je hem aantrekkelijker?’. De onafhankelijke variabele is in dit geval ‘aandacht van een verleider’, en de afhankelijke variabele is ‘de interesse van degene die verleidt wordt’.
Er is hierbij sprake van een between-subjects design met meer dan één variabele. Dit houdt in dat de andere variabele(n) naast de onafhankelijke variabele ook effect heeft op de afhankelijke variabele. Bijvoorbeeld, uitgaande van bovenstaand voorbeeld: Relatiestatus.
Vervolgens wordt een vragenlijst afgenomen, waarbij er vier groepen met proefpersonen zijn:
Dit noem je een twee-bij-twee (factorial) design. Er zijn twee niveaus: de status (wel/niet een partner en het scenario (interesse in jou of in een vriend(in)).
Bij een interactie-effect heb je twee onafhankelijke variabelen, waarbij het effect van de ene variabele afhangt van de andere variabele. Bijvoorbeeld: Je beheerst een truc wanneer je deze in je eentje doet. Wanneer je deze voor een publiek doet, mislukt de truc opeens. Of je de truc beheerst hangt dus af van of er wel of niet een publiek aanwezig is.
In het geval van het voorbeeld uit dit college wordt onderzocht of er een interactie is tussen interesse in jou/een vriendin in combinatie met het wel of niet hebben van een partner. Bij dit onderzoek wordt gekeken naar twee hoofdeffecten:
Hieruit volgt dus: Bij het hebben van een partner is de aandacht gericht op de verleider gelijk bij interesse in jou of een vrien(din). Wanneer je geen partner hebt, is de aandacht gericht op de verleider hoger wanneer de verleider interesse heeft in jou dan wanneer hij interesse heeft in een vriend(in).
Een trucje hierbij is:
Je kan het twee-bij-twee design ook nog uitbreiden naar drie variabelen. In dat geval is er bijvoorbeeld sprake van een drie-bij-twee design. De extra, derde variabele is dan bijvoorbeeld het effect van interesse in een vreemde (in plaats van interesse in jou of in een vriend(in)). Hierbij krijgt de grafiek die je maakt op basis van het onderzoek drie lijtjes. Daarnaast kun je ook nog een drie-bij-drie design maken. Dit kan bijvoorbeeld door nog een extra status toe te voegen, waardoor je uitkomt op drie niveaus: vrijgezel, getrouwd of een relatie. Op deze manier kan je zoveel mogelijke niveaus toevoegen als je wilt. Het nadeel blijft hierbij wel: Hoe meer niveaus je bedenkt, hoe meer proefpersonen je nodig hebt.
Drie onafhankelijke variabelen
Naast meerdere niveaus te hebben kun je ook nog een extra onafhankelijke variabele hebben. Hieruit volgt bijvoorbeeld een twee-bij-twee-bij-twee design (2x2x2 factorial design). Stel bijvoorbeeld dat je niet alleen kijkt naar de status (wel/niet partner) en het scenario (interesse in vriend(in) of in jou) maar ook nog naar de locatie, bijvoorbeeld of de verleiding plaatsvind in een café of in een sauna. In dat geval kunnen er meerdere interactie-effecten plaatsvinden:
De designs kunnen op deze manier eindeloos varieren, zo kun je ook nog een drie-bij-twee-bij-twee design maken of een drie-bij-twee-bij-drie design, enzovoorts. Om het aantal condities te berekenen, vermenigvuldig je het aantal onafhankelijke variabelen met elkaar. Bijvoorbeeld: bij een drie-bij-twee-bij-drie design zijn er 3x2x3 = 18 condities.
Je kunt daarnaast ook nog factoren toevoegen die niet gemanipuleerd worden (subject variables of individual differences variables), bijvoorbeeld eigenschappen van personen als het geslacht of de leeftijd, of within-subjects factoren zoals bijvoorbeeld eerst ‘interesse in jou’ en later ‘interesse in een vriend(in)’.
Om subsidie te krijgen voor een experiment zullen mensen je altijd vragen ‘Wat is de power van je experiment?’. De statistische power Is de kans dat je een effect vindt als er in de populatie ook een effect is. Dit is een getal wat varieert tussen 0 en 1. Een power van 0.8 is goed.
Power hangt van vier dingen af:
-Dit kan je inschatten door literatuuronderzoek of vooronderzoek.
-De standaarddeviatie kan je inschatten door literatuur, vooronderzoek of kennis van de populatie.
-Meestal nemen we een 95% betrouwbaarheidsinterval aan.
-Het aantal proefpersonen is een onderdeel van je onderzoeksplan.
De eerste drie factoren liggen meestal al vast, terwijl je het aantal proefpersonen zelf kan bepalen. Hierbij moet je dus uitrekenen hoeveel proefpersonen je nodig hebt om een power van 0.8 te krijgen, oftewel een kans van 0.8 om een verschil te vinden. In dat geval is je onderzoeksvoorstel goed.
Er zijn twee vormen van redeneren. Namelijk deductief redeneren, dit is van het algemeen naar een specifieke regel. Dit wil zeggen: als A dan B, dus: observeer A, dus B. Daarnaast geldt hier ook modus tollens, dit wil zeggen: niet B dus niet A. Ook heb je inductief redeneren. Maar deductief redeneren wordt gebruikt bij hypotheses toetsen.
Een significantietest is een methode om bewijs op te sommen voor een bepaalde hypothese. En een hypothese is een verklaring of voorspelling over de populatie in de vorm van numerieke waarde. Eerst bekijk je of de variabele zijn dan maak je gebruik van categorisch variabelen dus proporties. Of Kwantitatieve variabele en gebruik je dus gemiddelden. We kijken nu alleen nog naar eenzijdige toetsen, maar er zijn ook tweezijdige toetsen.
Vijf stappen voor een significantietest:
Assumpties.
Aannames die we vooraf kunnen vaststellen:
Random gekozen.
Categorisch of kwantitatief.
Populatie normaal of binominaal verdeeld. Bij binominaal kijk je of je de CLT, als dit kan dan heb je voldaan aan assumpties.
Hypothese.
Elke test heeft twee hypotheses over een populatieparameter(categorisch = p en kwantitatief = µ):
Nulhypothese(H0) dit is een vaste waarde, dit wil zeggen geen effect of geen verschil.
Alternatieve hypothese(Ha) is een alternatieve waarde:
Specifiek : groter of kleiner dan H0.
Algemeen : niet H0.
H0 wordt als sterk gezien tot dat er sterk tegenbewijs is dan wordt H0 verworpen en Ha aangenomen.
Statistische test.
Er wordt berekend hoeveel standaarderror er zit tussen de geschatte waarde en H0. Het soort test hangt af van het soort variabele:
Categorisch(binominaal verdeeld, maar wordt dus door middel van CLT als normaal verdeeld gezien.). Je gebruikt hier de volgende formules:
Kwantitatief(normaal verdeeld), dan gebruik je de volgende formules:
P-waarde.
De kans dat de gevonden uitkomst bij de statistische test als wordt aangenomen dan H0 waar is. Hoe kleiner de p-waarde, hoe groter bewijs tegen H0 is.
Categorisch dan maak je gebruik van de z-score.
Kwantitatief dan maak je gebruik van de t-waarde.
Je gaat hier dus de z-score of t-waarde in de appendix opzoeken, wanneer:
Kans kleiner dan significantie niveau dan H0 verwerpen.
Kans groter als significantie niveau dan H0 niet verwerpen.
Conclusie.
Noteren en interpreteren van de p-waarde. Bij conclusies wordt er bepaald of H0 verworpen wordt of niet. Wanneer de p-waarde kleiner is dan het gekozen significantieniveau(meestal ) dan wordt H0 verworpen. Is de p-waarde groter dan het significantieniveau dan werpen we H0 niet. De conclusie wordt aan de hand van de context gegeven. Voor de duidelijkheid: H0 niet verwerpen, betekent niet dat we H0 accepteren.
Wanneer de consumpties worden geschonden, kan men alsnog een t-toets uitvoeren. Dit moet dan wel een tweezijdige toets worden.
Er is limitatie van significantietesten. Ten eerste niet verwerpen van H0 betekent niet accepteren H0. Daarnaast betekent statistische significantie niet praktische significantie en de p-waarde kan niet worden geïnterpreteerd als de kans dat H0 waar is. Ten slotte is het misleidend om de resultaten alleen te melden als ze statistisch significant zijn.
Fouten bij significantie testen:
| Beslissing | Beslissing |
Werkelijkheid | H0 niet verwerpen | H0 verwerpen |
H0 is waar | juiste beslissing | Type 1 fout |
H0 is niet waar | Type 2 fout | Juiste beslissing(power) |
Wanneer de nulhypothese waar is maar je deze toch verwerpt. De kans hierop is zo groot als het significantieniveau. Grote consequenties omdat je een kleiner significantieniveau hebt. Wanneer de nulhypothese niet waar is maar je deze toch niet verwerpt. Dit wordt groter als het significantieniveau kleiner wordt. De kans op de fout wordt kleiner wanneer de sample size groter wordt. Kans op fout kleiner (power) groter.
Vergelijken van twee groepen
Hierbij heb je onafhankelijke en afhankelijke steekproeven. Daarnaast kun je betrouwbaarheidsintervallen en hypothesetoetsen uitrekenen. Betrouwbaarheidsintervallen heb je voor categorische variabelen(proporties) en kwantitatieve variabelen(gemiddelden). Ook voor hypothesetoetsen heb je categorische variabelen(proporties) en kwantitatieve variabelen(gemiddelden). Al deze opties kunnen dus gaan over onafhankelijke variabelen of over afhankelijke variabelen.
Aantekeningen bij hoofdstuk 11 en 12 ontbreken.
Multipele regressie
Bij multiple regressie zijn er meerder prediktoren x1, x2, x3, .. gezamenlijk kunnen ze y beter voorspellen. We schatten het gemiddelde van y gerelateerd aan verschillende explanatory variabelen voor x. Bij 3 variabelen wordt de grafiek driedimensionaal. Een multipele regressie schat dus geen lijn door een tweedimensionaal plaatje, maar een vlak door een driedimensionale ruimte.
Hierbij hoort de formule: ŷ= a+b1x1+b2x2+b3x3+..
Het toevoegen van meerder prediktoren doet de relatie veranderen tussen eerdere prediktoren en y. Om een multipele regressiecoëfficiënt (b) te bepalen moeten de andere predictoren fixed (constant) blijven. Er is een verschil tussen het constant houden van de overige variabelen en het controleren van de variabelen. De helling van de predictor blijft gelijk ongeacht de waarde van de andere predictor.
Multipele correlatie R^2
De gekwadrateerde multipele regressie correlatie (r2) voor een multipele regressie model is de gekwadrateerde correlatie tussen de geobserveerde waarden y en de voorspelde waarden ŷ op basis van het multipele regressie model. Dit is de explained variance, een R^2 van 0.177 betekent dus dat 17.7% verklaard wordt door het model ŷ= a+b1x1+b2x2+b3x3+..
Om te bepalen of R^2 hoog genoeg is en dus een significant schuinere lijn vormt bekijken we eerst wat het betekend als R^2 = 0. In dit geval zijn de hellingen 0, er volgt dus een horizontaal vlak. We kunnen y dan niet beter schatten dan wanneer we het gemiddelde van y nemen.
Als R^2= 1 betekent dit dat alle residuen 0 zijn y = ŷ, de residual sum of squares is dan ook 0.
R^2 wordt hoger of blijft gelijk indien een explanatory variabele wordt toegevoegd aan het multiple regressie model. R^2 is correlationeel, de waarde van x hangt dus af van de waarde van y.
R^2 toetsen
R^2 kan omgebouwd worden tot een statistiek (f).
df1 is het aantal predictoren en df2 n- het aantal parameters. De parameters zijn de variabelen + alfa (a+b1x1+b2x2+b3x3 – in dit geval is het aantal parameters dus 4). Nu kan aan de hand van de df waarde worden opgezocht welke p-waarde bij de F waarde hoort.
In dit college
In dit college wordt het basisidee van ANOVA behandeld en daarna wordt ingegaan op de berekening van ANOVA. Vervolgens wordt gekeken naar hoe het betrouwbaarheidsinterval voor ANOVA berekend wordt en wordt dit vergeleken met het betrouwbaarheidsinterval uit hoofdstuk 10.
Analysis of Variance (ANOVA)
ANOVA wordt gebruikt als de steekproef/populatie niet normaal verdeeld is. In het geval van ANOVA is de afhankelijke variabele kwantitatief en de onafhankelijke variabele categorisch. De omnibus toets toetst of er een verschil is tussen de gemiddelden van twee groepen. Bij meerdere factoren is er sprake van hoofdeffecten, effecten van iedere factor apart en is er vaak sprake van aparte interacties. Simpele effecten zijn paarsgewijze verschillen tussen groepen die bekeken worden aan de hand van betrouwbaarheidsintervallen. ANOVA is een vorm van regressie met categorische predictoren.
De assumpties bij ANOVA zijn: onafhankelijke steekproeven en normaal verdeelde standaarddeviaties binnen iedere groep.
g = het aantal groepen, n is het aantal proefpersonen per groep. σ^2 is de variantie van de afhankelijke (kwantitatieve) variabele in de populatie. σ^2 kan zowel geschat worden met de within-groups schatter als met de between-groups schatter. De laatste zegt iets over de spreiding tussen de groepen, terwijl de eerste iets zegt over de spreiding binnen de groepen. We gebruiken een F test om tot σ^2 te komen.
Met de F score kan de p waarde gevonden worden.
Within-groups schatting
De Within-groups schatting wordt ook wel de MS error genoemd. Door binnen elke groep de variantie uit te rekenen en die met elkaar te middelen komen we tot de within-groups variance, de formule ziet er dus als volgt uit:
s^2 = s1^2 + s2^2 + s3^2 / 3
Hoe meer observaties, hoe beter de schatter.
Between-groups schatting
De between-groups schatting wordt ook wel de MS group genoemd. Door de spreiding (standaarddeviatie/variantie) tussen de groepen uit te rekenen komen we tot de between-groups variability. Dit komt door verschillen tussen de groepen via de manipulatie. Het verschil is systematisch en veroorzaakt verschillen tussen groepen via een verandering van locatie. De between-groups vaiability wordt berekend door de variantie van de gemiddelden te berekenen en deze vervolgens te vermenigvuldigen met n. Om de variantie te berekenen hebben we de algemene gemiddelden nodig: y= y1=y2=y3 / 3.
Betrouwbaarheidsinterval
We gebruiken het betrouwbaarheidsinterval om het verschil tussen twee gemiddelden te toetsen. Om het betrouwbaarheidsinterval uit te rekenen moeten we de waarde van t en s weten. S = ѴMS error
se = sѴ1/n1 + 1/n3
Vervolgens kan met de df de t waarde worden opgezocht in de tabel.
Multiple comparison methoden
Bij meerdere betrouwbaarheidsintervallen is er bij elk interval dat wordt uitgerekend een kans van 5% dat er foute beslissing wordt genomen. Dit is het multiple comparison probleem. Bij 28 intervallen zal in 1,4 van de gevallen het interval de waarde 0 niet bevatten. Nu is de kans op een type 1 fout dus geen 5% meer. De bekendste oplossing voor dit probleem komt van Carlo Bonferroni, hij stelt voor om bij elk betrouwbaarheidsinterval een onbetrouwbaarheidsniveau van 0.05/k te nemen. Hierbij is k het aantal intervallen dat je wil meten. De keer zijde hier van is dat de power afneemt.
Een andere oplossing voor dit probleem is de Tukey methode, wat deze precies inhoudt gaan we niet op in.
In dit college wordt aan de hand van ANOVA naar hoofdeffect met twee factoren gekeken en interactie effecten met twee factoren
Hoofdeffecten ANOVA
We gaan eerst kijken naar de hoofdeffecten bij een 2x2 design. Er is geen hoofdeffect wanneer de gemiddelden van de populatie voor alle niveaus van factor A en alle niveaus van factor B aan elkaar gelijk zijn. Om de hoofdeffecten te bepalen moeten de factoren vergeleken worden met de gemiddelden van de andere factoren.
Om A en B van een 2x2 design te toetsen op de nulhypothese van geen hoofdeffecten (H0: μm=μv) gebruik je de volgende formule:
F= MS voor factor A / MS error
Interactie effect ANOVA
Er is sprake van een interactie effect wanneer het verschil in gemiddelden tussen A bij het ene niveau van B anders zijn dan bij het andere niveau van B. Er is dus geen sprake van een interactie effect wanneer de lijnen tussen de gemiddelden van de niveaus van de ene factor en de niveaus van de andere factor parallel zijn. Wanneer de lijnen in de grafiek elkaar kruisen is er alleen sprake van een interactie effect en geen hoofdeffect. Om het interactie effect te berekenen (H0: ymN – yvN = μmB=μvB) gebruiken we dezelfde formule om F te berekenen (F= MS voor factor A / MS error).
De totale Sum of Square (SS) is:
SSTotal = SSfactor1 + SSfactor2 + SSfactor1*factor2 + SSerror
SSbetween = SSfactor1 + SSfactor2 + SSfactor1*factor2
SSwithin = SSerror
Bij een significant interactie effect zijn hoofdeffecten niet goed te interpreteren.
ANOVA en regressie
De afhankelijke variabele is kwantitatief en de onafhankelijke variabele is categorisch. De onafhankelijke variabele wordt ook wel indicator variabele genoemd. De indicator variabele geeft aan in welke groep de proefpersoon zit. X=0 als de proefpersoon niet in de groep zit en x=1 als de proefpersoon wel in de groep zit. X is categorisch en binair.
Waarom niet-parametrische statistiek?
Voor situaties waarin je twijfelt of er aan de aannames is voldaan is er non parametrische statistiek. We moeten hierbij nagaan wat er in dit experiment voor test statistics de mogelijke waarden zijn en hoe de kansverdeling eruit zou zien. Meestal is dit bij kleine steekproeven omdat grotere steekproeven vaak wel normaal verdeeld zijn. Bij niet parametrische statistiek zijn er geen assumpties over de verdeling. Verder gaan we er vanuit dat het niet gevoelig is voor outliers en de methode goed werkt bij veel en bij weinig data. Wel is deze methode vaak erg tijdrovend.
De scores moeten in rangorde worden gezet. Wanneer twee of meer proefpersonen een gelijke score hebben is er sprake van een tie. De rangordes worden dan voor de proefpersonen met gelijke score gemiddeld, dit heeft geen invloed op verdeling van alle verschillen tussen de gemiddelden.
We gaan hier kijken hoe de Wilcoxon niet parametrische toets voor twee groepen in zijn werk gaat.
De hypothesen zijn: H0: gelijke populatieverdelingen, Ha: ongelijke gemiddelde rangordeningen of Ha: hoger gemiddelde rangorde voor een van beide groepen. De toetsingsgrootheid is het verschil tussen gemiddelde rangordeningen of de som van de rangordeningen van de twee groepen. De p-waarde is de kans in de twee staarten (of één) in de steekproevenverdeling van alle mogelijke verschillen. We gaan er vanuit dat er twee onafhankelijke groepen zijn.
Als er in beide groepen dezelfde verdeling is verwachten we dat beide groepen ook dezelfde rangordening hebben.
De Kruskal-Wallis test werkt een beetje hetzelfde als de Wilcoxon test. Eerst moeten alle getallen weer ingedeeld worden in rangorden, waarna de gemiddelden berekend worden. Om de test statistic uit te rekenen heb je de gemiddelden, de gemiddelde van alles samen en het aantal n nodig.
Deze bundel bevat college aantekeningen bij de vakken aan de Universiteit van Amsterdam, studie Psychologie, jaar 1.
Onder andere:
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
Field of study
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
2614 |
Add new contribution