Statistische Modellen 2 - College 2
College 2
Model staat spreiding rond lijn toe
Het is niet nodig dat alle punten op de regressielijn liggen
Restrictie: homoscedasticiteit
= verticale spreiding (van onder naar boven) is voor ongeveer alle waarden van X gelijk
Lineariteit en homoscedasticiteit kan je met deze plot beoordelen
Lineariteit en homoscedasticiteit
Spreidingsdiagram van voorspelde waarden tegen gestandaardiseerde residuen. Dit kan ook als er meerdere voorspellende waarden zijn.
Gebruik voor checken van
- lineariteit
- homoscedasticiteit
Assumpties houdbaar als de
residuen random gespreid
rond lijn ei = 0 liggen
Terminologie
Populatie en steekproef
Parameter en statistiek
Beschrijvende en inferentiële (toetsende) statistiek
Toetsen en p-waarde
Populatie en steekproef
Onderzoeksvraag: Is er verschil in de gemiddelde leestijd tussen 7-jarige kinderen
van het platteland en kinderen uit de stad?
Onderzoeker wil iets weten over
Populatie 1: alle 7-jarige kinderen van Groningse platteland
Populatie 2: alle 7-jarige kinderen uit de stad Groningen
Steekproef is dan een selectie van 7-jarige kinderen van platteland en uit stad
Representatieve steekproef
Populatie: alle 7-jarige kinderen uit de stad Groningen
Welke steekproef is representatief? Hoe kom je aan je data?
Bijv. data van
1. Alle 7-jarige leerlingen van vier Groningse basisscholen
(omdat je hier contacten mee hebt)
2. 350 random 7-jarige leerlingen van acht Groningse basisscholen
3. 200 random 7-jarige leerlingen van alle Groningse basisscholen
Random = beter
Meer = niet altijd beter (het gaat om representativiteit)
Representativiteit steekproef
wetenschappelijk artikel bevat een beschrijving van de steekproef/data
over welke populatie zegt de steekproef wat? Dat staat in artikelen niet altijd erbij.
vb: 200 random 7-jarige leerlingen van alle Groningse basisscholen
1. Populatie van 7-jarige kinderen in Groningen
2. als Groningen = een typerende noordelijke stad
- steekproef representatief voor alle 7-jarige kinderen in steden Groningen,
Friesland, Drenthe?
Parameter en statistiek
onderzoeksvraag:
is er verschil in de gemiddelde leestijd van 7-jarige kinderen
van het platteland en kinderen uit de stad?
parameter (bijv. mp)
numerieke samenvatting van een eigenschap in de populatie (niet direct te meten)
statistiek (bijv. yp) (= schatter)
numerieke samenvatting van eigenschap in de steekproef (te berekenen)
à wordt gebruikt om parameter van populatie te schatten
Beschrijvende statistiek
alle statistieken waarmee je de steekproef (data) samenvat
- beschrijvende maten
gemiddelde, SD, mediaan, minimum, maximum, IQR
- grafische weergaven
histogram, boxplot, spreidingsdiagram, QQ-plot, etc.
voordat je toetst kan je altijd eerst de steekproef beschrijven
uitspraken over alleen de steekproef hebben geen toets nodig
Bijv. yp = 27 is hoger dan ys
= 25 in steekproef
Inferentiële statistiek (toetsend)
gebruiken we om kansuitspraken te doen over parameters (populatie)
vb:
het gemiddelde in de steekproef kun je gebruiken om
- het gemiddelde in populatie te schatten
- kansuitspraken te doen over het gemiddelde in de populatie
- wijkt gemiddelde af van een bepaalde waarde (bijv. 0)?
- is gemiddelde gelijk aan een ander gemiddelde?
Twee methoden voor inferentie
toetsen van hypotheses
“de kans op deze steekproefuitkomst is zo klein, gegeven de nulhypothese, dat het onwaarschijnlijk is dat de populatiegrootheid een bepaalde waarde heeft”
betrouwbaarheidsintervallen
“met zoveel % zekerheid ligt een onbekende populatiegrootheid tussen twee getallen”
Toetsen van hypotheses
nulhypothese: een populatiegrootheid heeft een bepaalde waarde
alternatieve hypothese: de populatie-grootheid heeft die waarde niet (groter, kleiner, ongelijk)
- probeer de nulhypothese te verwerpen
Bijv. H0: m = 0 versus Ha: m ≠ 0
p-waarde
Hoe kleiner p des te sterker is het bewijs tegen de nulhypothese, d.w.z. hoe onwaarschijnlijker de nulhypothese is
Hoe klein is p?
Vergelijk met significantieniveau a.
Bijv. a = 0.05
Interpretatie uitkomst significantietoets
p < α à significant effect
“Er is waarschijnlijk een populatie-effect.”
p > α à geen significant effect
“Niet voldoende bewijs om nulhypothese te verwerpen” (je kan niet zeggen dat er geen-effect is)
We kunnen altijd fouten maken > Daarom zeggen we niet H0 is waar of Ha is waar
Betrouwbaarheidsinterval (BHI)
BHI gebaseerd op verdeling rond parameter (bijv. µ, p)
- middelste C% van de verdeling (bijv. C = 95)
- afstand tot midden = foutenmarge (margin of error)
- foutenmarge = kritieke waarde * standaardfout (bijv. 1.96 * SE) (1,96 hoort bij 95%)
- vb.: y±1.96*SE
Onderzoeksvraag bepaalt statistisch model
twee typen onderzoeksvragen
1. vb.: is er een gemiddeld verschil tussen jongens en meisjes m.b.t. leessnelheid of rekenprestatie?
groepsverschillen: t-toetsen, variantieanalyse,
2. vb.: is IQ een goede voorspeller van de Citoscore?
voorspellen: lineaire regressieanalyse, logistische regressieanalyse
Twee rollen variabelen
afhankelijke variabele (Y)
variabele waar we iets over willen zeggen (voorspellen)
verschillen groepen gemiddeld op een variabele?
kan een variabele voorspeld worden door een aantal andere variabelen?
onafhankelijke variabele (X)
voorspeller of groepen waar we verschillen tussen zoeken
verschillen groepen gemiddeld op een variabele?
kan een variabele voorspeld worden door een aantal andere variabelen?
Aantal onafhankelijke variabelen
bij alle modellen is er precies één afhankelijke variabele
modellen met één onafhankelijke variabele
- t-toetsen (bijv. geslacht)
- éénwegvariantieanalyse (bijv. hechtingstype)
modellen met meerdere onafhankelijke variabelen
- tweewegvariantieanalyse (bijv. geslacht + hechtingstype)
- lineaire en logistische regressieanalyse (bijv. IQ + aantal studie-uren)
- covariantieanalyse (bijv. wel/niet training + Citoscore)
Meetniveau
keuze model wordt verder bepaald door meetniveau van de variabelen
drie niveaus relevant in deze cursus
- nominaal (NOM; categorisch) – onderscheidt groepen/condities
vb.: hechtingstijl, leiderschapsstijl
- interval (INT) – intervallen zijn betekenisvol
vb.: gewicht, lengte, Citoscore, BDI score, IQ score
- dummy (DUM) – variabele met precies twee categorieën.
vb.: geslacht, wel/niet slagen, wel/niet behandeling
Wanneer welk model?
onafh. afh.
X1 X2 Y model
DUM INT t-toets voor onafhankelijke groepen
NOM INT éénwegvariantieanalyse
NOM NOM INT tweewegvariantieanalyse
INT INT enkelvoudige regressieanalyse
INT INT INT multipele regressieanalyse
INT NOM INT covariantieanalyse
INT DUM DUM logistische regressieanalyse
Modellen
Week 1: regressieanalyse
1 afhankelijke variabele Y (INT)
meerdere onafhankelijke variabelen X1, X2, X3 (INT)
(vb.: Y = depressie, X1 = affectieve coping, X2 = cognitieve coping)
(lineaire) regressievergelijking:
depressie = 4.3 + .38*affectieve coping + .65*cognitieve coping
Causaliteit
diagram met pijlen suggereert causaliteit
drie criteria voor causaliteit
- associatie (e.g. correlatie, regressieanalyse, of ander model): relatie nodig
- juiste tijdsvolgorde (e.g. experiment, voor- en nameting) als ze tegelijk gemeten zijn kan je er minder over zeggen, over de causaliteit.
- eliminatie van alternatieve verklaringen (moeilijkste!)
- neem alternatieve verklaringen (variabelen) op in regressiemodel (moet je ze wel gemeten hebben)
- (statistisch) belangrijke voorspellers blijven over
- relevante alternatieve verklaring kan niet gemeten zijn
Met modellen in Statistische Modellen 2 kunnen we
- associatie (vb: regressie- of variantieanalyse)
- alternatieve verklaringen (variabelen opnemen als voorspellers)
onderzoeken
(tijds)volgorde worden vastgesteld
- logica (vb: opleiding à inkomen)
- onderzoeksdesign: experiment met voormeting, interventie en nameting
Multivariate relaties
met 1 onafhankelijke variabele
- 1 soort relatie:
- 4 modellen afhankelijke van meetniveau X en Y
Twee onafhankelijke variabelen
met 2 onafhankelijke variabelen 5 soorten relaties (interessanter)
- spurieuze relatie
- kettingrelatie (indirect effect, volledige mediatie)
- interactie
- meerdere voorspellers
- direct en indirect effect
deze week is meetniveau van X1, X2 en Y alleen INT
focus eerst op de soorten relaties, niet op meetniveau’s
Spurieuze relatie
Welk model klopt kan je uitzoeken met mediatieanalyse.
Kettingrelatie
Bij kettingrelatie is er een indirect effect van X1 op Y via X2. Het effect wordt volledig gemedieerd.
Interactie
de bijdrage van X1 en X2 op Y kan verschillen voor verschillende waarden van X1 en X2
onderzoeken met een (gewone) regressieanalyse met X1 en X2 en
product X1*X2 als drie voorspellers
Meerdere voorspellers
de bijdrage van X1, X2 en X3 op Y in hetzelfde regressiemodel zijn allemaal (statistisch) significant
iedere voorspeller draagt iets unieks bij
à onderzoeken met een gewone
regressieanalyse
Direct en indirect effect
Kettingrelatie plus een direct effect.
- direct effect van X1 op Y
- is er ook een indirect effect van van X1 op Y via X2
associatie tussen X1 en Y is complexer dan
onderzoeken met mediatieanalyse
Week 1: regressieanalyse
1 afhankelijke variabele Y (INT)
meerdere onafhankelijke variabelen X1, X2, X3 (INT) (voorspellers)
onderzoeksvraag
- kan Y voorspeld worden
door X1, X2 en/of X3?
- alle voorspellers hebben
dezelfde status
Eenvoudige mediatie (3 variabelen)
zowel direct effect van X1 op Y
als een indirect effect van van X1 op Y via X2
onderzoeksvraag
- wordt de relatie tussen X1 en Y gemedieerd door X2
- nieuwe rol X2 = mediator
(afhankelijke t.o.v. X1 en onafhankelijke variabele t.o.v. Y)
- mediator X2 verklaard (een deel van) relatie X1 en Y
Mediatie voorbeeld
Onderzoeksvraag: Wordt de relatie tussen leeftijd en bloeddruk gemedieerd door gewicht?
variabelen: Y = bloeddruk, X1 = leeftijd, X2 = gewicht
- ouder worden gaat gepaard met een hogere bloeddruk (direct effect)
- ouder worden gaat gepaard met toename in gewicht
- zwaardere mensen hebben vaker een hogere bloeddruk (indirect effect)
Volledige mediatie
we onderscheiden drie situaties
- volledige mediatie (kettingrelatie)
gedeeltelijk mediatie (direct en indirect effect)
- geen mediatie (eventueel spurieuze relatie)
volledige mediatie (kettingrelatie)
- indirect effect: invloed van X1 op Y volledig via X2
- geen direct effect van X1 op Y
Gedeeltelijke of geen mediatie
gedeeltelijke mediatie
- indirect effect: invloed van X1 op Y via X2
- direct effect van X1 op Y
geen mediatie
- geen indirect effect
- alleen een direct effect van X1 op Y
Klassieke benadering
Baron en Kenny (1986)
- aantal noodzakelijke stappen voor mediatie
ongemedieerde model mediatiemodel
aantal regressieanalyses om coëfficiënten te schatten
à probleem geen goede standaardfout voor indirecte effect ab
Moderne benadering
Hayes (2013)
ongemedieerde model mediatiemodel
Ab wordt in één keer geschat, ipv apart. Met één regressieanalyse.
direct schatten van hele mediatiemodel
bootstrap methode voor standaardfout van indirecte effect ab
Mediatie voorbeeld
onderzoeksvraag
- relatie tussen leeftijd en bloeddruk gemedieerd door gewicht?
SPSS
- schatten van c met Analyze > Regression > Linear
- schatten van c' en ab met Analyze > Regression > PROCESS
Vb: totale effect
Vb: directe effect
LLCI-ULCI = 95%-BHI
Vb: indirecte effect
Sterkte (in)directe effect
coëfficiënt ab = .367
als een mediatiemodel opgaat (= gedeeltelijk mediatie)
- hoe sterk is indirecte effect t.o.v. directe effect? (het effect tussen leeftijd en bloeddruk (direct effect) is sterker dan het effect tussen gewicht en bloeddruk (indirect effect).
totale effect (= c) kan opgesplitst worden in 2 delen
- directe effect = c'
- indirecte effect = ab
dus c = c' + ab
Pdir = direct / totaal = c' / c
Pindir = indirect / totaal = ab / c
Pdir + Pindir = 1
totale effect = c = .822
directe effect = c' = .455
indirecte effect = ab = .367
Pdir = c' / c = .455 / .822 = .554
Pindir = ab / c = .367 / .822 = .446 à directe effect iets sterker
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Concept of JoHo WorldSupporter
JoHo WorldSupporter mission and vision:
- JoHo wants to enable people and organizations to develop and work better together, and thereby contribute to a tolerant and sustainable world. Through physical and online platforms, it supports personal development and promote international cooperation is encouraged.
JoHo concept:
- As a JoHo donor, member or insured, you provide support to the JoHo objectives. JoHo then supports you with tools, coaching and benefits in the areas of personal development and international activities.
- JoHo's core services include: study support, competence development, coaching and insurance mediation when departure abroad.
Join JoHo WorldSupporter!
for a modest and sustainable investment in yourself, and a valued contribution to what JoHo stands for
- Login of registreer om te kunnen reageren
- 1551 keer gelezen
Statistische Modellen 2 - Collegeaantekeningen
- Login of registreer om te kunnen reageren
- 1175 keer gelezen
Work for JoHo WorldSupporter?
Volunteering: WorldSupporter moderators and Summary Supporters
Volunteering: Share your summaries or study notes
Student jobs: Part-time work as study assistant in Leiden
- Login of registreer om te kunnen reageren
- 1265 keer gelezen
Favorite WorldSupporter insurances for backpackers, digital nomads, interns, students, volunteers or working abroad:
Search only via club, country, goal, study, topic or sector
Select any filter and click on Search to see results









