Aantekeningen Kennismaking met Onderzoeksmethoden en Statistiek (Psychologie). Hoorcolleges Experimenteel en Integriteit.

Experimenteel

Voorwaarden van causaliteit:

  1. Covariance
  2. Temporal precendence
  3. Internal validity

Uitleg:

  1. Er moet een relatie zijn tussen oorzaak en gevolg
  2. Deze oorzaak moet in de tijd voorafgaan aan het gevolg
  3. Alternatieve verklaringen voor de gevonden relatie moeten zijn uitgesloten

Deze drie voorwaarden moeten nagestreefd worden. Dit kan het best via een gerandomiseerd experiment.

Dit is een oknderzoeksopzet waarbij:

  • De groepen hetzelfde worden verondersteld door randomisatie.
  • De onderzoeker één variabele manipuleert (de onafhankelijke variabele)
  • De onderzoek meet het effect daarvan op een andere variabele (de afhankelijke variabele)

Bij een experiment wordt er een aselecte steekproef getrokken. De ene groep krijgt een bloeddrukverlagend middel, de andere groep krijgt een placebo. Wat kan misgaan: bij randomisatie wil je wel gelijke verdeling leeftijd en man/vrouw-verdeling in de groepen, dat is niet altijd het geval.

De vraag is: Wanneer is er sprake van samenhang tussen type aantekeningen en leerprestatie?

  • Hier kun je geen puntenwolk bij maken. Dit is omdat het nominale groepen zijn (de onafhankelijke variabele). Daarom kan je een boxplot gebruiken:
  • Als de gemiddelden tussen de twee groepen verschillen, dan zeggen we dat er een samenhang is tussen de twee variabelen. De uitkomsten verschillen namelijk.

Bedreigingen bij experimenteel onderzoek:

  • Design confounds: ligt bij de onderzoeker.
  • Was de gemanipuleerde variabele wel het enige verschil in de behandeling van de twee groepen.
  • Alles hetzelfde, behalve hetgeen wat we willen manipuleren: de onafhankelijke variabele.
  • De ene groep kreeg een TED talk van klimaatverandering en de andere over social media.

Selectie effect:

  • Waren de twee groepen wel vergelijkbaar bij aanvang van het experiment. De ene groep studenten studeerde scheikunde en de andere psychologie.
  • Verdeling man en vrouw, hoogst afgeronde studie, gemiddelde leeftijd, SES, opleidingsniveau ouders, de moedertaal. Hier wordt vaak naar gekeken of de twee groepen vergelijkbaar zijn.
  • Contaminatie = deelnemers in experimentele groep vertellen deelnemers in controlegroep over de deelname.

Soms is willekeurige toewijzing niet mogelijk: niet ethisch of praktisch onhaalbaar. Double blind = ook de onderzoeker weet niet in welke groep de deelnemer zit.

Een onderzoeksvraag van een experimenteel onderzoek kun je herkennen aan de volgende elementen:
PICO:

  • Population
    • De populatie die onderzocht wordt.
  • Intervention
    • Wat manipuleer jij, welke interventie voer je uit.
  • Comparison
    • De controlegroep, met wie vergelijk jij de experimentele conditie
  • Outcome
    • De afhankelijke variabele

De interventie (de experimentele conditie) en de comparison (de controlegroep) maken samen de gemanipuleerde variabele.

PICO:

Met behulp van simulatiespel (waarin men wel of niet wordt buitengesloten) wordt er gekeken of er een verschil in stemming is na afloop tussen degenen die wel en niet buitengesloten worden.

  • P: Participanten
  • I: wel buitengesloten worden
  • C: niet buitengesloten worden (de controlegroep)
  • O: verschil in stemming

Gerandomiseerd experiment:

  • Uit de aselecte steekproef haal je de experimentele groep en de controlegroep.

Inferentiële statistiek = mogen we het steekproefresultaat generaliseren naar de populatie?

NHST = nulhypothese significantietoetsing

De stappen van NHST (nulhypothese significantietoetsing) zijn:

  1. Formuleren van hypothesen
  2. Keuze & berekenen van een toetsingsgrootheid → Willen we een correlatie (de ro waarde) berekenen of verschil tussen twee groepen (de t-waarde).
  3. Kans bepalen op resultaat of nog extremer gegeven H0
  4. Beslissing nemen over H0 (wel of niet verwerpen)
  5. (Extra) Conclusie opschrijven

Goed om te weten:

  • Bij steekproefgemiddelden gebruik je Romeinse letters = M
  • Bij populatiegemiddelde gebruik je Griekse letters = mu

Voorbeeld statistische hypothese

  • H0 = mu revisie = mu recopy
  • HA = mu revisie > mu recopy
  • Dit is een statistische hypothese
  • Op deze manier kan je een hypothese veel korter opschrijven.

Als de gemiddelde scores van twee onafhankelijke groepen worden vergeleken, dan gebruik je de t-toets voor onafhankelijke groepen.

  • M1 - M2, is dit nou een groot of een klein verschil? Dat doen we met de t-toets.
  • Met de t-toets bepalen we het relatieve verschil tussen de twee groepen op grond van:
    • Verschil in gemiddelden tussen de groepen: M1 - M2
    • De spreiding in scores in de groepen: SD1 en SD2
    • De grootte van de groepen: n1 en n2
  • De correlatie varieert van steekproef tot steekproef.
  • Ook de waarden van M1 - M2 variëren ook van steekproef tot steekproef.
  • We berekenen ook hier de standaardfout. Grote steekproef? → steeds vaak hetzelfde antwoord. Kleine steekproef → veel spreiding in de uitkomsten die we steeds berekenen.

Factoren van de standaardfout:

  • De grootte van de groepen wordt meegenomen in het berekenen van de standaardfout.
  • Ook de spreiding in de groepen wordt meegenomen bij het berekenen van de standaardfout. Grote spreiding? → dan is de kans dat de gevonden waarde juist is, klein.
  • De toetsingsgrootheid t is verschil M1 - M2 delen door SE. Dit is een gestandaardiseerde score en de waarden van t zijn onafhankelijk van de meeteenheid en liggen allemaal op dezelfde schaal.
  • Dit is goed want je krijgt een gestandaardiseerde score. Deze score kan je dan tussen verschillende experimenten vergelijken.
  • Kijk een verschil van 0,4 op een honderd meter sprint gemiddeld is best veel. Maar 0,4 op een marathon stelt niks voor.
  • Als je kijkt naar gemiddelde inkomens in Europa zit je op een schaal van per 1000 euro. Terwijl op een andere schaal 1000 euro heel weinig kan zijn, kijk naar vermogens van Miljonairs.
  • Daarom deel je door de standaardfout.
    • Dat is t, verschil in gemiddelden delen door de standaardfout.
    • Waarde t altijd tussen de -3 en de 3.

Paar feitjes:

  • Als de nulhypothese waar is, is er geen verschil in groepen, dan verwachten we een t-waarde rond de 0.
  • Delen door de standaardfout zorgt ervoor dat je een gestandaardiseerd antwoord hebt, zie voorbeeld met hardlooptijden en gemiddeld inkomen van Europa.
  • De grootte van de steekproevenverdeling van t hangt af van hoeveel mensen in de steekproef zitten. Hij wordt breder met meer mensen.
  • p-waarde is de overschrijdingskans. Wanneer de nulhypothese niet meer waar is.
  • Wordt berekend onder de aanname dat er géén verschil is (H0 is waar).

De proportie die zich bevindt naast de t-waarde (zie steekproevenverdeling van t), dat is de p-waarde. Die is bijvoorbeeld 4%. Dus de p-waarde is 0,04. Je hebt een extreme waarde, maar toch is de nulhypothese waar? Die kans is erg klein. Die kans is 4%. Daarom ga je eerder van de alternatieve hypothese uit.

M1 en M2

  • M1 - M2 ligt dicht bij 0 → grote p
  • M1 - M2 ligt ver van 0 → kleine p

Als de waarde boven de alfa zit kan je geen type 1 fout maken. Want dan is hij dus niet significant, en voor je een type 1 fout maakt moet de waarde op zijn minst wel significant zijn

Power, alfa en bèta

  • Power is de kans op een juiste conclusie
  • alfa is de kans op een type 1 fout
  • bèta is de kans op een type 2 fout

De standaardfout

  • Standaardfout, standaard betekent gemiddeld gezien.
  • Hoe ver liggen de verschilscores af van wat we verwachten dat hij moet zijn. We verwachten de waarde 0.
  • Verschillen tussen de gemiddelden als we het experiment steeds maar weer opnieuw doen = standaardfout.
  • Standaardschaal = t-verdeling.
  • Hoe groter de steekproefgrootte, hoe minder spreiding, hoe kleiner de standaardfout. Dat hebben we bij correlaties, maar ook hier.
  • Als de SD groter wordt, dus de scores in de steekproef variëren heel veel, dan variëren de gemiddelden ook heel erg. Dan wordt de standaardfout ook groter.

SE hangt af van n, steekproefgrootte en van spreiding, SD.

  1. Een groter verschil in gemiddelden → t wordt groter
  2. Spreiding groter → t wordt kleiner
  3. Hoe groter de steekproefgrootte → t wordt groter

Relatief vs absoluut

  • Absoluut verschil telt niet
  • Je moet altijd kijken naar relatief verschil.
  • Ik heb een verschil gevonden in duizend euro! Tja waar gaat het over?
  • Zakgeld? Of winst van grote banken.

Begrippen t-scores, p-waarden en hypothese

  • Hypothese is altijd een voorspelling over een populatie.
  • We hebben het dus over de letter mu. Want het gaat over de populatie.
  • t-scores zijn gestandaardiseerde verschillen.
  • Wanneer is een p-waarde nou klein? Wanneer mag een onderzoeker de nulhypothese verwerpen?
  • p-waarde is ook wel de kans dat de nulhypothese toch waar is. Dus kleine p-waarde is hele kleine kans.

Een p-waarde van p = 0.48 betekent dat wanneer er herhaaldelijk steekproeven getrokken worden en de nulhypothese waar is, er in 4,8% van de keren resultaten gevonden worden die gelijk zijn aan de resultaten in het huidige onderzoek of resultaten nóg extremer.

p-waarde

  • Met een p-waarde van p = 0.48 is er weinig ondersteuning voor de nulhypothese. De onderzoeker zou kunnen beslissen om de nulhypothese te verwerpen.
  • De nulhypothese kan alsnog waar zijn. Die kans is 4,8%
  • P-waarde gaat uit van het feit dat er de nulhypothese waar is.

Wanneer onderzoekers een beslissing nemen over de nulhypothese, is er altijd een kans op het maken van een fout.

  • Als de nulhypothese waar is, kan het voorkomen dat op grond van een kleine p-waarde tóch de H0 wordt verworpen.
  • Er wordt geconcludeerd dat er wel een verschil is tussen de twee groepen terwijl dit er in de werkelijkheid niet is.
  • Dit noemen we een Type 1 fout
  • Een onderzoeker heeft de H0 foutief verworpen. Eigenlijk had hij dat niet moeten doen.

Wetenschappelijk onderzoek en fouten

  • Wetenschappelijk onderzoek is probabilistisch is. De keuzes die de onderzoeker maakt, hangt af van die kans. De p-waarde.
  • Voorkomen van fouten is onmogelijk. Die kans blijft bestaan.
  • Onderzoekers kunnen er wel voor zorgen dat de kans op een fout heel klein is.
  • P = 0 kan niet. Dan is de kans op een fout ook gelijk aan 0.
  • Als de kans 0 is, kunnen we nooit naar een andere theorie gaan. Omdat deze theorie gwn vaststaat.
  • De kans kan wel heel klein zijn. Dit kan door een grens te trekken, maar wat is die grens?
  • Alleen een p-waarde die nog kleiner is dan deze grens, leidt tot het verwerpen van de nulhypothese.

Die grens is alfa (Griekse letter)

  • Alfa is de kans dat een onderzoeker een type I fout maakt.
  • Een veelgebruikte grenswaarde in de sociale wetenschappen is alfa = 0,05. Een kans op 5% op een type I fout vindt de onderzoeker dus acceptabel.
  • Alfa noemen we in NHST het significantieniveau. Kans op een Type I fout.
  • Wanneer een onderzoeker de keuze maakt H0 te verwerpen, wordt het resultaat statistisch significant genoemd.
  • Alfa is dus echt de grenswaarde die de onderzoekers stellen.
  • Binnen sociale wetenschappen altijd 0,05. Maar waarom? Deze is ooit maar een keer uit een hoedje getrokken.
  • Als onderzoeker heb je een keuze voor alfa. Die keuze hangt af van de consequenties van het maken van een type I fout.

In welk geval heeft het maken van een Type I fout ernstigere gevolgen?

  • Stel je probeert psychische klachten te verhelpen op twee manieren: Met een Mindfullness cursus of met Lithiumpillen.
  • Stel het werkt niet die mindfulness training → patiënt heeft wat tijd verspilt, maar maakt niet uit het is bijna gratis
  • Als Lithium niet werkt → veel geld kwijt en heftige bijwerkingen voor de patiënt.
  • Consequenties van het maken van een type I fout zijn veel zwaarder in die tweede situatie.
  • Bij medisch onderzoek is de alfa dan:  .001
  • Het risico van het maken van fouten is veel groter hier.
  • De keuze van alfa definieert, wanneer wordt de H0 verworpen en wanneer niet.

Significant: de waarden waren zo extreem, dat de p-waarde zo klein was dat de H0 wel verworpen moest worden. Alfa is de kans op een type 1 fout.

Type II fout en power

  • H0 is niet waar, maar de onderzoeker verwerpt de H0 niet?! Dan is dat een Type II fout.
  • Type II fout = foutief de nulhypothese niet verwerpen.
  • Onderzoekers streven naar het nemen van de juiste beslissing. Als de H0 niet waar is, dan willen onderzoekers mogen concluderen dat deze inderdaad niet waar is.
  • De kans hierop noemen we de power of het onderscheidingsvermogen
  • De situatie waarin er echt een verschil is, daar hoopt de onderzoeker op.
  • De power is het onderscheidingsvermogen. De power van een toets is de kans dat wanneer er in het echt een verschil is, dat je dat verschil ook terugvindt in je steekproeven.

Power is het omgekeerde van een type II fout. Dat is: er is een verschil en we vinden hem niet. De power is: er is een verschil en we vinden hem wel.

Power = de kans op het juist verwerpen van de nulhypothese.

  • Het meten heeft invloed op de power: als je gaat meten 100 meter sprint op hele seconden, dat is niet nauwkeurig ofc. Terwijl er een verschil is van 0,3 seconden. Je bent niet nauwkeurig aan het meten. Dus het meten heeft invloed op de power.
  • Onderzoekers willen een hoge power.
  • Hij wil een grote kans op het juist verwerpen van de H0.

Hoe kan een onderzoeker zorgen voor een hoge power:

  • Nauwkeurig meten
  • Onderzoeksopzet, past deze wel bij het onderwerp: interviews houden bij 100 meter sprint werkt natuurlijk niet.

Grotere steekproef is altijd goed:

  • Lagere steekproevenspreiding. Dit is nauwkeuriger meten.
  • Soms zijn grote steekproeven echter niet praktisch of te duur om het experiment mee uit te voeren.
  • De standaardfout wordt kleiner, nauwkeuriger meten →  daardoor wordt het onderscheidingsvermogen groter.
  • Hoe groter de steekproef (n), hoe groter de power.
  • Onderscheidingsvermogen is een ander woord voor power.
  • Als de verkeerde toets wordt uitgekozen, dan heeft dat ook invloed op de power.
  • Hoe groter het verschil tussen de groepen, hoe hoger de power is.

Een verschil bij hardlopen met of zonder energy drink is als het groot is, erg goed te zien. Als het een klein verschil is, is dat slechter te zien. Dus het is bij groot verschil makkelijker om het ook terug te vinden in de steekproef.

Alfa is niet altijd gelijk aan 0.05. Niemand zegt dat als wet. Die keuze ligt aan de onderzoeker.

Kleinere alfa-waarde kiezen?

  • Zijn de consequenties van het onderzoek niet heel zwaar: tuurlijk dan is een alpha van 0.05 prima.
  • Is het wel zwaar met flinke gevolgen, durf dan een kleinere alfa waarde te kiezen.
  • Kans op type I fout is alpha
  • Kans op een type II fout is bèta.

Er is een relatie tussen alfa en bèta. Als de ene groter wordt, wordt de ander kleiner. Wordt alfa kleiner, wordt bèta groter. Niet evenredig. Als de ene 1% omlaag gaat, gaat de ander niet per se 1% omhoog. Kiest de onderzoeker een grotere waarde voor alfa? Dan gaat bèta naar beneden.

Type II fout is H0 niet verwerpen als dat wel moet. De power is de kans op H0 wel verwerpen.

  • De kans dat ik een type II fout maak (bèta), 
  • De power is gelijk aan 1 - bèta. Das best logisch. Want bèta en power zijn het tegenovergestelde.
  • Alfa groter? Bèta kleiner, power groter.
  • Dus hoe groter alfa, hoe hoger de power.

Nou da’s lekker makkelijk, ik doe grote alfa, dan heb ik hogere power. Maar nee, daar betaal je een prijs voor. Als ik alfa van 10% of 20% kies. Ik krijg dan een hele grote kans dat ik een type I fout maak. Je moet dus een balans vinden als onderzoeker.

De onderzoeker moeten een balans vinden tussen een kleine alfa en een grote power.

  • P-waarde moet gelijk zijn of kleiner zijn dan alfa
  • Bij een kleinere alfa gaat de power omlaag.
  • Om een grotere power te krijgen zouden de onderzoekers een grotere steekproef kunnen nemen.
  • Of een groter verschil vinden, maar daar hebben de onderzoekers niet zo veel invloed op hahah.

Wees kritisch: Is er wel de juiste statistische toets gebruikt?

De t-toets kan gebruikt worden om twee groepen te vergelijken

  1. Twee groepen van een gerandomiseerd experiment worden gebruikt.
  2. Twee bestaande groepen worden gebruikt, waar wel een onafhankelijke variabele wordt gemanipuleerd. Dus niet random groepen, maar wel manipulatie. Dit heet een quasi-experiment.
  3. Bij een experiment waar geen randomisatie of manipulatie plaatsvindt, heet een non-experiment.

Een soort experiment waar niet wordt gerandomiseerd, maar wel wordt gemanipuleerd, noemen we een quasi-experiment. Dit is bij klassen van basisschool kids. Deze kan je niet zomaar randomiseren, dat is vervelend voor de kids.

  1. Er zijn twee bestaande groepen en er wordt ook niks gemanipuleerd.

  • Zoals bij Vlamingen en Nederlanders vergelijken over het gebruik van Engelse woorden.
  • Dit noemen we een non-experiment.
  • Én geen randomisatie én geen manipulatie.

Inferentiële statistiek is dat cirkeltje rondmaken: terugkoppelen naar de populatie.

De alternatieve hypothese is de onderzoekshypothese.

alfa is significantieniveau. Kans op een type 1 fout.

Wanneer noemen we een p-waarde klein en wanneer noemen we hem niet klein?

  • Als alfa = .05
  • Dan is alles wat kleiner is dan 0,05 een significante p-waarde.
  • Als de nulhypothese niet wordt verworpen, kan er een type 2 fout plaatsvinden.
  • Als de nulhypothese niet verworpen wordt, en het is een fout. Eigenlijk had hij wel verworpen moeten worden. De alternatieve hypothese is waar. Dan kan er een type 2 fout plaatsvinden.

H0 waar? → kan je alleen een type 1 fout maken. En de kans op een type 1 fout is alfa.

H1 waar? → dan kan je alleen een type 2 fout maken. De kans op een type 2 fout is bèta.

Het feit dat het significant is? Hoe kunnen we dat eigenlijk beoordelen? We moeten ook kijken naar wat is de waarde van dat resultaat.

  • Spreiding wordt gemeten door delen door standaardfout.
  • Hoe groter de steekproef, hoe kleiner de standaardfout.
  • De standaardfout kan ontzettend klein worden door 15.000 mensen (een grote steekproef). Daardoor werd het significant. Maar is het ook relevant?

Bij een grote steekproef kan een klein verschil al significant zijn. Een significant effect is niet hetzelfde als een groot effect.

Cohen’s d drukt verschil tussen de twee gemiddelden uit in standaardafwijkingen

  • Je gebruikt de standaarddeviatie, omdat je standaardfout heel klein wordt door een grote steekproef.
  • Hoe interpreteer je dat? Hier zijn richtlijnen voor.
    • d = 0.20 - Sterkte: klein - r = 0.10
    • d = 0.50 - Sterkte: Medium - r = 0.30
    • d = 0.80 = Sterkte: Groot - r = 0.50
  • Dit zijn geen grenzen, dit zijn richtlijnen.
  • Rond de 0.50 interpreteren we als een middelgroot effect.
  • Cohen’s d zegt iets over de relevantie

Een andere manier om de grootte van het verschil tussen de twee groepen te beschrijven is met een betrouwbaarheidsinterval (BI). CI in het Engels.

  • Stel je hebt een flessenfabriek en je wil weten hoeveel doppen er verkeerd worden gemaakt. Hoeveel doppen zijn verkeerd geproduceerd?
  • Als het percentage in een heel groot interval ligt, heb je er nog niks aan. Daarom wil je een smal betrouwbaarheidsinterval.
  • Een smal interval zegt iets over de nauwkeurigheid van het resultaat.

Elk steekproefgemiddelde wijkt af van het populatiegemiddelde. 

Het verschil tussen twee groepen in steekproef wijkt af van verschil in populatie. Dit heet de steekproeffout.

Een enkele waarde die we uit de steekproef krijgen noemen wij een puntschatting. We willen daarbij iets rapporteren over de nauwkeurigheid van dit resultaat. Dus hoe ver de eigenlijke waarde af kan liggen van dit resultaat. Hoe nauwkeurig is deze ene waarde? Hoeveel zal deze afwijken van de waarde in de populatie.

Daarom hebben wij een betrouwbaarheidsinterval. 

  • De gemiddelde waarde van hoe groot de steekproeffout is, heet de standaardfout.
  • BI: twee standaardfouten boven de puntschatting en twee standaardfouten eronder. Dat is het betrouwbaarheidsinterval (BI).
  • Als de standaardfout groot is, wordt het interval heel groot, dat is niet nauwkeurig.
  • De echte waarde ligt binnen de grenzen van het BI. We zijn daar vrij zeker van.
  • De meeste intervallen zullen de echte waarde bevatten, soms ligt deze er toch buiten.
  • Dit heeft niets te maken met de betrouwbaarheid van mijn meetinstrument. Dit is een wiskundig principe.

Betrouwbaarheidsinterval (BI)

  • Onderzoekers willen graag een teken van nauwkeurigheid. We willen een smal interval. Een smal BI geeft ons inzicht van dat we goed op het resultaat af kunnen gaan.
  • De steekproefgrootte heeft altijd invloed. Hoe groter de steekproef hoe beter. Hoe groter de steekproef, hoe kleiner de standaardfout. Puntschatting +- de 2 standaardfouten → je BI wordt ook smaller.
  • Veel spreiding in scores? Dan wordt de standaardfout groter.
  • Slordig gemeten? Meer spreiding, en een groter interval.
  • Een veel gebruikt significantieniveau is alfa = 0,05
  • Daarom is een veel gebruikt betrouwbaarheidsniveau 95%.
  • Die 95% meet het percentage van die intervallen die om de echte waarde heen liggen.
  • 5% van die intervallen zullen niet om de echte waarde heen liggen.
  • Het is dus niet 1 betrouwbaarheidsinterval, maar keiveel betrouwbaarheidsintervallen. 95% daarvan bevatten de echte waarde. 5% bevat de echte waarde niet.

Een betrouwbaarheidsinterval geeft ons een interval van plausibele waarden voor het verschil in de populatie.

Wat gebeurt er als we het betrouwbaarheidsniveau omhoog gooien? Dit geeft meer zekerheid, maar een breder interval.

  • Bij een 99% BI is het waarschijnlijker dat het interval om de populatiewaarde heen valt.
  • Bij een 90% BI hebben we minder zekerheid (dat de waarde binnen het interval ligt), maar je hebt wel een smaller interval.

Betrouwbaarheidsniveau? Dan heb je er meer vertrouwen in dat je waarde in het interval ligt. Als ik ga gokken wat de leeftijd van mijn docent is, doe ik: jaaa tussen de 10 en de 100. Tja de kans is heel groot, maar wel een breed interval.

Grotere alfa is een grotere kans op een type 1 fout.

Voordat onderzoekers de t-toets mogen gebruiken, moet worden voldaan aan enkele assumpties / voorwaarden:

  1. De steekproef is een aselecte steekproef
  2. Afhankelijke variabele is van interval of ratio meetniveau
  3. De twee groepen zijn onafhankelijk
  4. Scores in beide groepen zijn normaal verdeeld
  5. Scores in beide groepen hebben gelijke spreiding

Het schenden van deze assumpties leidt tot een lagere statistische validiteit. Je kan geen gemiddelde uitrekenen, als het meetniveau niet interval of ratio is.

Mening over onderwijs en je gaat vaders en moeders meten. Waarschijnlijk geven binnen hetzelfde gezin de ouders gelijkgestemde antwoorden. De metingen zijn niet onafhankelijk. Dan hebben we geen onafhankelijke groepen. Daarom moet het onderzoek gerandomiseerd zijn.

Aselecte steekproef heeft naast statistische validiteit ook te maken met externe validiteit. Bij veel experimenten willen ze interne validiteit aantonen. Aantonen dat er überhaupt een effect is. Als er continu aangetoond wordt dat er een effect is, pas dan kan je overwegen wel een aselecte steekproef uit te voeren om te kijken of het voor de hele populatie geldt. Dan pas is de externe validiteit relevant.

Bij experimenten geldt vaak:

  • interne validiteit is belangrijker dan de externe validiteit.
  • Externe validiteit staat niet op 1. Het gaat om interne validiteit. Zijn de groepen gelijk behandeld, waren ze vanaf het begin al gelijk.
  • Selectie effect: waren de twee groepen wel vergelijkbaar bij aanvang van het experiment?

Begripsvaliditeit:

  • Hoe werden de onafhankelijke en afhankelijke variabelen gemanipuleerd / gemeten.

Bij experimenteel onderzoek staat interne validiteit voorop. Externe validiteit hangt samen met of de steekproef representatief was voor de doelpopulatie.

Statistische validiteit kunnen we opdelen in vier opdelen:

  • Significantie (a.d.h.v. toetsingsgrootheid t en overschrijdingskans p)
  • Relevantie (a.d.h.v. Cohen’s d)
  • Nauwkeurigheid (a.d.h.v. een betrouwbaarheidsinterval)
  • De geschiktheid van de statistische toets (beoordeeld door controleren van de assumpties)

Onderzoek wordt vaak maar 1 keer gedaan. Dus je hebt niet 580 betrouwbaarheidsintervallen.

Wat is de waarde dan van één resultaat? Soms heb je dus onterecht een significante uitkomst.

Vormen van replicatieonderzoek:

  • Directe replicatie
    • Dit is zeer goed vergelijkbaar met het originele onderzoek, maar problemen met de interne validiteit bij het originele onderzoek zijn nog steeds aanwezig.
  • Conceptuele replicatie
    • Hier verbetert de onderzoek het originele onderzoek, het voordeel is dat de interne validiteit omhoog gaat. Het nadeel is dat het minder goed vergelijkbaar is met het originele onderzoek.
  • Replicatie + uitbreiding
    • Dit is extra onderzoek dat je toevoegt aan de replicatie. Het voordeel is dat je aanvullende vragen kunt onderzoeken. Het nadeel is dat ook hier het minder goed vergelijkbaar is met het originele onderzoek. Oorspronkelijk onderzoek herhalen, maar je voegt ook een extra onderdeel toe.

Integriteit

Kwantitatief onderzoek:

  • Begripsvaliditeit, externe validiteit, interne validiteit en statistische validiteit.
  • Interne validiteit gaat over wat er binnen het onderzoek gebeurt, zijn er eventuele alternatieve verklaringen.
  • Significantie wordt bepaald aan de hand van de toetsingsgrootheid t en de overschrijdingskans p
  • Relevantie wordt beoordeeld a.d.h.v. effectgrootte zoals Cohen’s d
  • Nauwkeurigheid wordt beoordeeld a.d.h.v. een betrouwbaarheidsinterval

De geschiktheid van de statistische toets wordt beoordeeld door het controleren van:

  • De voorwaarden van de toets
  • Het juist uitvoeren van de toets
  • Het juist interpreteren van de resultaten
  • Dit valt allemaal onder statistische validiteit.

Externe validiteit

  • Als je geen aselecte steekproef hebt, heeft dit invloed op de externe validiteit.
  • Bij een experiment is de interne validiteit het hoofddoel.
  • Als er geen aselecte steekproef getrokken is, moeten we voorzichtig zijn met het interpreteren van de statistische resultaten. Kunnen we dit wel generaliseren?
  • Bij categorische variabelen heb je een andere toets nodig. Dan kun je geen t-toets gebruiken.

Bij een gerandomiseerd experiment moeten de groepen onafhankelijk zijn. Als je alle mensen uit hetzelfde huishouden vraagt om de mening van een wegoponthoud, dan is dat afhankelijk. Niet onafhankelijk, want ze beïnvloeden elkaar gewoon. Ook cijfers tussen de tussentoets en de eindtoets zijn afhankelijk: leerlingen die slecht zijn in statistiek, snappen de stof nou eenmaal niet goed.

Oplossing: gebruik een andere statistische toets. Dit is speciaal voor gekoppelde metingen:

  • t-toets voor afhankelijke groepen

Voorwaarde 4 is dat de waarden normaal verdeeld zijn.

  • Bij kleine afwijkingen kan je gewoon een t-toets gebruiken.
  • Bij grote steekproeven kan je gewoon een t-toets gebruiken
  • Bij kleine steekproeven én grote afwijkingen gebruiken we een alternatieve statistische toets.

Voorwaarde 5 is gelijke spreiding

  • Dit kan je controleren door boxplots te maken. Zijn de IQR’s in de groepen (ongeveer) gelijk
  • Bij twee steekproeven: cafeïne op studieresultaten. De spreiding moet hetzelfde zijn, alleen dan mag je een t-toets uitvoeren.
  • Dus de spreiding in de groep van met cafeïne moet hetzelfde zijn als de spreiding in de groep zonder cafeïne.
  • De onafhankelijke t-toets heeft veel meer power dan de t-toets zonder de voorwaarde dat de spreiding gelijk is.
  • Als de spreiding niet gelijk is en daar is niets aan te doen, gebruik je de Welch’s toets. Deze heeft dus wel minder power.
  • De Welch’s t-toets heeft minder power. Deze gebruik je alleen als de resultaten niet voldoen aan voorwaarde 5: de gelijke spreiding.

Bij de correlatietoets hebben we ook voorwaarden:

  • De steekproef is een aselecte steekproef
  • Beide variabelen zijn van interval / ratio meetniveau
  • De relatie is een lineaire relatie
  • Niet voldoen aan deze voorwaarden leidt tot een lagere statistische validiteit.

Je kunt geen t-toets uitvoeren bij een categorische variabele. Als 1 of beide variabelen ordinaal zijn kun je een Spearman correlatie toepassen. Bij een correlatie-toets geeft deze alleen de sterkte en de richting van een lineair verband.

Oplossing:

  • Indien er wel sprake is van alleen een toename of alleen een afname dan kan je alsnog de Spearman correlatie toepassen.
  • Je kan dus niet de Spearman correlatie gebruiken bij een parabool.
  • Maak eerst een grafiek! Je moet de data zien voor je de p-waarde kan interpreteren.
  • T-toets: maak een histogram of boxplots
  • Correlatie: maak een spreidingsdiagram

Gericht en ongericht toetsen

  • Er zit een nadeel aan het gericht toetsen. Als het verband in de verkeerde richting valt (het blijkt opeens negatief verband te zijn). Dan mag je H0 niet verwerpen, al lijkt p > alfa
  • Dan maar ongericht toetsen (een tweezijdige toets). Dit kan, maar heeft ook nadelen! Deze toets heeft minder power. Ook is deze toets niet theorie-gestuurd.
  • rho is de griekse letter r en gaat dus over de populatie. Het is de correlatiecoëfficiënt in de populatie.

5 voorwaarden voor goede en integere wetenschapsbeoefening:

  • Eerlijkheid
  • Zorgvuldigheid
  • Transparantie
  • Onafhankelijkheid
  • Verantwoordelijkheid

Eerlijkheid:

  • Fabricage = data verzinnen, bewuste schending
  • Plagiaat = werk van anderen kopiëren, bewuste schending
  • Dit zijn beiden vormen van falsifying.
  • Beiden zijn een schending van de eerlijkheid.
  • Falsifying is bewust, als je onbewust data vergeet te noteren is dit een vorm van schending van zorgvuldigheid.
  • Is het verwijderen van de outlier bij de data-analyse een vorm van falsifying / fouten maken?
  • Check of het een meetfout is, of dat juist bij die ene participant er een externe factor meespeelt.
  • Je mag een uitschieter niet zomaar verwijderen.

File-drawer problem

  • Uitgevers van vaktijdschriften willen graag nieuwe interessante bevindingen publiceren. Jonge onderzoekers hun carrière is afhankelijk van deze publicaties.
  • Niet significante resultaten komen niet in het artikel, want:
    • Zonde van de moeite (zoals hierboven)
    • Confirmation bias: resultaten die niet overeenkomen met verwachting worden (on)opzettelijk genegeerd door de onderzoeker
  • Dit heet een file-drawer problem

Er is daardoor een vertekening in alles wat we lezen in de publicaties. Dit heet publication bias. Afwezigheid negatieve en nulresultaten leidt tot vertekening in de richting van grote (positieve) effecten.

Replicatie-onderzoek is onderzoeken nog een keer uitvoeren om te checken. Die 5% die wel een effect vind, die wordt wel gepubliceerd. Publication bias is daarom een bedreiging voor meta-analyses.

Onderzoekers doen niet altijd alles 100% integer. Ze doen niet fabriceren, maar kleinere dingetjes. Dit zijn Questionable Research Practices (QRP). Op deze manier worden hun resultaten bijvoorbeeld tóch significant. Denk aan een uitschieter verwijderen. Verwijderen mag, alleen als het om een fout gaat!

QRP:

  • Uitschieters verwijderen om een verschil significant te maken
  • Een paar deelnemers toevoegen om de resultaten significant te maken
  • Een andere analyse uitvoeren dan gepland

p-hacking

  • Als er iets wordt gedaan, alleen maar om de p-waarde om de 0,05 te krijgen. Dan heet dat p-hacking.
  • Dit valt onder eerlijkheid

Transparantie:

  • Zoeken naar verbanden mag, mits gepresenteerd als exploratief onderzoek.
  • Denk aan: Zoeken naar  significante verbanden in de data zonder vooraf hypotheses op te stellen. Bij veel variabelen vinden onderzoekers meestal wel iets significants.

Eerlijkheid:

  • Hypothesizing After Results are Known (HARKing).
  • Het achteraf formuleren van hypotheses en doen alsof deze vooraf waren opgesteld. Dit is falsifying.

Onafhankelijkheid:

  • Onafhankelijkheid is dat je niet gebonden zit aan bijvoorbeeld commerciële doeleinden met je onderzoek. Dit mag wel, mits er transparant over gecommuniceerd wordt.

Verantwoordelijkheid:

  • Verantwoordelijkheid is dat je verantwoordelijk omgaat met mens en dier.

Oplossingen:

Retractie

  • Het onderzoek wordt teruggetrokken. Vorm van zelfcorrectie achteraf. Dit heeft nadelen. Het leidt tot reputatieschade onderzoeker, reputatieschade wetenschap. Er zit vaak een lange tijd tussen publicatie en retractie.
  • Probleem: Veel mensen hebben in de tussentijd gerefereerd naar dit onderzoek in hun eigen onderzoek.

Post Publication Peer Review (PPPR)

  • Dit is een online discussieplatform over publicatie. Tussen auteurs, redacteuren en peers.
  • De verantwoordelijkheid ligt nu niet alleen bij de auteur, maar bij het hele veld binnen de wetenschap.
  • Dit leidt tot transparantie en verantwoordelijkheid.

Beste manier:

Pre-registratie

  • Je moet vooraf verplicht een onderzoeksprotocol indienen. Je hebt een half artikel.
    • Hypothesen
    • Methodologie
    • Verwachting
  • Je krijgt publicatie onafhankelijk van de uitkomst.
  • Dit wordt ingeleverd bij het tijdschrift. Onafhankelijk van de resultaten wordt er besloten of het uiteindelijk gepubliceerd wordt.
  • Rapportage moet zowel bij significante als bij niet-significante uitkomsten aan pas komen.

Je hebt een steekproevenverdeling: als er ook echt niks aan de hand is, zit de waarde 0 mooi in het midden. De ene keer er iets boven de andere keer er iets onder. Dan krijg je die mooie normaalverdeling.

Random notes/aantekeningen

Ik heb een verschil gevonden van 380. Is dat een groot verschil? Geen idee, hangt er vanaf.

  • We willen een standaardmaat hebben die dat verschil kan aantonen.
  • We delen bij de t-score door de standaardfout. Het is een manier dat het voor alle situaties geldt: een gestandaardiseerde maat.
  • Cohen’s d lijkt een beetje op een t-score. We delen niet door de standaardfout, maar door de standaardafwijking. Dus we kijken naar de steekproef en niet naar de populatie.
  • t-score is afhankelijk van de steekproefgrootte. Hoe groter n, hoe kleiner de standaardfout. 
  • Een 6 seconden kortere reistijd. Ja het was heel snel significant door de grote steekproef, maar is het ook relevant? Dat meten we met Cohen’s d. Die is onafhankelijk van de steekproefgrootte.
  • We omzeilen het interpreteren van de grootte van het verschil aan de hand van de significantie. Bij Cohen’s d nemen we ook de relevantie mee.

PICO:

  • Population
  • Intervention
  • Comparison
  • Outcome

Groepen moeten vooraf gelijk zijn en gelijk behandeld worden tijdens het onderzoek.

Intervention en Comparison zijn de twee groepen die vergeleken worden

  • Intervention is: Tekst lezen over determinisme
  • Comparison: De neutrale tekst lezen
  • Outcome: hoeveel er vals gespeeld wordt.

Onderzoeksontwerp: Bij wie verzamelen we de data en hoe worden de data gemeten?

Methode

  • Bij de participanten onder method hoort normaal ook te staan hoe de steekproef is geselecteerd, leeftijd, hoeveel mannen en vrouwen, welke universiteit. Hoe zijn ze geselecteerd. Bij welk vak zitten deze studenten?

Bij het onderzoeksontwerp moeten we het bij experimenten vooral hebben over interne validiteit:

  • Is het wel de gemanipuleerde variabele die het verschil tussen de groepen verklaart of is er een alternatieve verklaring?

Bedreiging van interne validiteit (Confounding):

  • Design Confounds:
    • Was de gemanipuleerde variabele wel het enige verschil in de behandeling van de twee groepen.
  • Selectie effect:
    • Waren de twee groepen wel vergelijkbaar bij aanvang van het experiment?

Ook bij experimenteel onderzoek moet je kijken hoe wordt de onafhankelijke en afhankelijke variabele gemeten.

  • Je moet dus gaan operationaliseren: Conceptuele definitie en een Operationele definitie.

t-waarden

  • Bij een t-waarde van 3,28 is de verdeling dus rond de 0 en dan 3,28 erboven en eronder.

Je kan eenzijdig en tweezijdig toetsen.

  • Het symbool in de alternatieve hypothese wijst 1 kant op. Dan is het een eenzijdige toets.
  • Symbool voor een tweezijdige toets is: het niet-gelijk teken. Een = teken met een streep er doorheen. Als dat teken erin staat zeggen we: het kan de ene kant op, maar ook de andere kant.

Met de t-toets bepalen we het relatieve verschil tussen de twee groepen:

  • Een groter verschil tussen de gemiddelden leidt tot een grotere t-waarde.
  • Dit is het verschil in boven de streep van de formule.
  • Bij een grotere steekproef, krijg je een grotere t-waarde. Want de SE wordt kleiner door een grotere steekproef en minder spreiding.
  • Meer spreiding in de steekproef leidt tot een kleinere t-waarde. Want de SE wordt groter door een grotere spreiding.
  • Hoe meten we of de steekproevenverdeling (die curve) smaller of breder wordt. Dit meten we door de standaardfout.
  • De t-score is het relatieve verschil.

Bij de resultaten moeten staan: de t-score, de p-waarde, de gemiddelden en standaardafwijking. Naast de t-score en de p-waarde moet ook nog de effectgrootte staan (hoe relevant is het verschil): dit is de Cohen’s d.

Bij t = 3,04 krijg je deze waarde van t helemaal in de staart. Rechts daarvan ligt de p-waarde. Dan krijg je dus een hele kleine p-waarde.

p-waarde meet de overschrijdingskans. Significante resultaten zijn significant als de H0 wordt verworpen.

Significantie wordt bepaald aan de hand van:

  • toetsingsgrootheid t
  • overschrijdingskans p

Bij 95% BI hoort de waarde van alfa 5. Want we tellen op tot 100.

  • Bij een alfa van 5% vind ik een BI dat in zijn geheel boven 0 ligt. We zijn er vrij zeker van dat het echte verschil tussen de twee groepen tussen de 0,66 punt en 8 punten ligt.
  • 0 ligt niet in het interval. Het echte verschil is dus niet 0.

Maar als we 99% BI hebben, dan is de alfa 1. Interval wordt hier breder, omdat het 99% is.

  • Dan zien we dat de ondergrens -0,67 punt en de bovengrens is 9,32 punten.
  • Bij dit BI zit de waarde nul wel in het BI.
  • Bij een alfa van 1% zeg ik: het echte verschil kan ook 0 zijn. Dan is er dus geen verband gevonden en wordt H0 niet verworpen.

Je wil een hoge t-score en een lage p-waarde.

  • Als alfa omhoog gaat, gaat bèta omlaag. Bij een kleinere kans op een type II fout, gaat de power omhoog.

Factoren die power beïnvloeden:

  • Steekproefgrootte
  • Verschil tussen de gemiddelden
  • Significantieniveau

Verschil directe replicatie en conceptuele replicatie:

  • Bij een directe replicatie doe je de replicatie identiek
  • Bij een conceptuele replicatie worden eventueel kleine foutjes gecorrigeerd. De onafhankelijke of de afhankelijke variabele wordt anders gemeten.

Replicatie + uitbreiding heb je ook nog. Ipv alleen 'valsspelen' meet je ook het begrip 'intelligentie' bijvoorbeeld.

Belangrijk:

  • Als je een significante p-waarde krijgt bij een tweezijdige alternatieve hypothese, dan heb je dus bewezen dat er een verschil is. Je hebt alleen niet bewezen dat de een beter werkt dan de ander.
  • De eenzijdige p-waarde is de helft van de tweezijdige p-waarde.
  • Bij de Cohen's d druk je het effect uit in het aantal standaarddeviaties.

De 5 principes van integer onderzoek doen:

Eerlijkheid

  • Niet fabricage en plagiaat
  • Open zijn over de onzekerheidsmarges

Zorgvuldigheid

  • Precisie

Transparantie

  • Transparant zijn in wat je hebt gedaan en van wie je hulp heb gehad
  • Onderzoek mag wel in opdracht, maar wees transparant hierover

Onafhankelijkheid

  • Geen banden met bedrijven

Verantwoordelijkheid

  • Doe onderzoek dat relevant is. Houd rekening met dieren en mensen.
  • Open science houdt in: Open access (iedereen heeft toegang tot wetenschappelijke verslagen). en FAIR.
  • Dit staat voor Findable, Access, Interoperable and Reusable.
  • Interoperable is dat de gegevens makkelijk gecombineerd moeten kunnen worden met andere onderzoeken.

Image

Access: 
Public

Image

Join WorldSupporter!
Search a summary

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Check the related and most recent topics and summaries:
This content is also used in .....

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Follow the author: Hugo
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
1993 3