Statistische Modellen 2 - College 2

College 2

Model staat spreiding rond lijn toe

Het is niet nodig dat alle punten op de regressielijn liggen

Restrictie: homoscedasticiteit

= verticale spreiding (van onder naar boven) is voor ongeveer alle waarden van X gelijk

Lineariteit en homoscedasticiteit kan je met deze plot beoordelen

Lineariteit en homoscedasticiteit

Spreidingsdiagram van voorspelde waarden tegen gestandaardiseerde residuen. Dit kan ook als er meerdere voorspellende waarden zijn.

Gebruik voor checken van

lineariteit
homoscedasticiteit

Assumpties houdbaar als de

residuen random gespreid

rond lijn e_i = 0 liggen

Terminologie

Populatie en steekproef

Parameter en statistiek

Beschrijvende en inferentiële (toetsende) statistiek

Toetsen en p-waarde

Populatie en steekproef

Onderzoeksvraag: Is er verschil in de gemiddelde leestijd tussen 7-jarige kinderen

van het platteland en kinderen uit de stad?

Onderzoeker wil iets weten over

Populatie 1: alle 7-jarige kinderen van Groningse platteland

Populatie 2: alle 7-jarige kinderen uit de stad Groningen

Steekproef is dan een selectie van 7-jarige kinderen van platteland en uit stad

Representatieve steekproef

Populatie: alle 7-jarige kinderen uit de stad Groningen

Welke steekproef is representatief? Hoe kom je aan je data?

Bijv. data van

1. Alle 7-jarige leerlingen van vier Groningse basisscholen

(omdat je hier contacten mee hebt)

2. 350 random 7-jarige leerlingen van acht Groningse basisscholen

3. 200 random 7-jarige leerlingen van alle Groningse basisscholen

Random = beter

Meer = niet altijd beter (het gaat om representativiteit)

Representativiteit steekproef

wetenschappelijk artikel bevat een beschrijving van de steekproef/data

over welke populatie zegt de steekproef wat? Dat staat in artikelen niet altijd erbij.

vb: 200 random 7-jarige leerlingen van alle Groningse basisscholen

1. Populatie van 7-jarige kinderen in Groningen

2. als Groningen = een typerende noordelijke stad

steekproef representatief voor alle 7-jarige kinderen in steden Groningen,

Friesland, Drenthe?

Parameter en statistiek

onderzoeksvraag:

is er verschil in de gemiddelde leestijd van 7-jarige kinderen

van het platteland en kinderen uit de stad?

parameter (bijv. m_p)

numerieke samenvatting van een eigenschap in de populatie (niet direct te meten)

statistiek (bijv. yp) (= schatter)

numerieke samenvatting van eigenschap in de steekproef (te berekenen)

à wordt gebruikt om parameter van populatie te schatten

Beschrijvende statistiek

alle statistieken waarmee je de steekproef (data) samenvat

beschrijvende maten

gemiddelde, SD, mediaan, minimum, maximum, IQR

grafische weergaven

histogram, boxplot, spreidingsdiagram, QQ-plot, etc.

voordat je toetst kan je altijd eerst de steekproef beschrijven

uitspraken over alleen de steekproef hebben geen toets nodig

Bijv. yp= 27 is hoger dan ys= 25 in steekproef

Inferentiële statistiek (toetsend)

gebruiken we om kansuitspraken te doen over parameters (populatie)

vb:

het gemiddelde in de steekproef kun je gebruiken om

het gemiddelde in populatie te schatten
kansuitspraken te doen over het gemiddelde in de populatie
- wijkt gemiddelde af van een bepaalde waarde (bijv. 0)?
- is gemiddelde gelijk aan een ander gemiddelde?

Twee methoden voor inferentie

toetsen van hypotheses

“de kans op deze steekproefuitkomst is zo klein, gegeven de nulhypothese, dat het onwaarschijnlijk is dat de populatiegrootheid een bepaalde waarde heeft”

betrouwbaarheidsintervallen

“met zoveel % zekerheid ligt een onbekende populatiegrootheid tussen twee getallen”

Toetsen van hypotheses

nulhypothese: een populatiegrootheid heeft een bepaalde waarde

alternatieve hypothese: de populatie-grootheid heeft die waarde niet (groter, kleiner, ongelijk)

probeer de nulhypothese te verwerpen

Bijv. H₀: m = 0 versus H_a: m ≠ 0

p-waarde

Hoe kleiner p des te sterker is het bewijs tegen de nulhypothese, d.w.z. hoe onwaarschijnlijker de nulhypothese is

Hoe klein is p?

Vergelijk met significantieniveau a.

Bijv. a = 0.05

Interpretatie uitkomst significantietoets

p < α à significant effect

“Er is waarschijnlijk een populatie-effect.”

p > α à geen significant effect

“Niet voldoende bewijs om nulhypothese te verwerpen” (je kan niet zeggen dat er geen-effect is)

We kunnen altijd fouten maken > Daarom zeggen we niet H₀ is waar of H_a is waar

Betrouwbaarheidsinterval (BHI)

BHI gebaseerd op verdeling rond parameter (bijv. µ, p)

middelste C% van de verdeling (bijv. C = 95)
afstand tot midden = foutenmarge (margin of error)
foutenmarge = kritieke waarde * standaardfout (bijv. 1.96 * SE) (1,96 hoort bij 95%)
vb.: y±1.96*SE

Onderzoeksvraag bepaalt statistisch model

twee typen onderzoeksvragen

1. vb.: is er een gemiddeld verschil tussen jongens en meisjes m.b.t. leessnelheid of rekenprestatie?

groepsverschillen: t-toetsen, variantieanalyse,

2. vb.: is IQ een goede voorspeller van de Citoscore?

voorspellen: lineaire regressieanalyse, logistische regressieanalyse

Twee rollen variabelen

afhankelijke variabele (Y)

variabele waar we iets over willen zeggen (voorspellen)

verschillen groepen gemiddeld op een variabele?

kan een variabele voorspeld worden door een aantal andere variabelen?

onafhankelijke variabele (X)

voorspeller of groepen waar we verschillen tussen zoeken

verschillen groepen gemiddeld op een variabele?

kan een variabele voorspeld worden door een aantal andere variabelen?

Aantal onafhankelijke variabelen

bij alle modellen is er precies één afhankelijke variabele

modellen met één onafhankelijke variabele

t-toetsen (bijv. geslacht)
éénwegvariantieanalyse (bijv. hechtingstype)

modellen met meerdere onafhankelijke variabelen

tweewegvariantieanalyse (bijv. geslacht + hechtingstype)
lineaire en logistische regressieanalyse (bijv. IQ + aantal studie-uren)
covariantieanalyse (bijv. wel/niet training + Citoscore)

Meetniveau

keuze model wordt verder bepaald door meetniveau van de variabelen

drie niveaus relevant in deze cursus

nominaal (NOM; categorisch) – onderscheidt groepen/condities

vb.: hechtingstijl, leiderschapsstijl

interval (INT) – intervallen zijn betekenisvol

vb.: gewicht, lengte, Citoscore, BDI score, IQ score

dummy (DUM) – variabele met precies twee categorieën.

vb.: geslacht, wel/niet slagen, wel/niet behandeling

Wanneer welk model?

onafh. afh.

X₁ X₂ Y model

DUM INT t-toets voor onafhankelijke groepen

NOM INT éénwegvariantieanalyse

NOM NOM INT tweewegvariantieanalyse

INT INT enkelvoudige regressieanalyse

INT INT INT multipele regressieanalyse

INT NOM INT covariantieanalyse

INT DUM DUM logistische regressieanalyse

Modellen

Week 1: regressieanalyse

1 afhankelijke variabele Y (INT)

meerdere onafhankelijke variabelen X₁, X₂, X₃ (INT)

(vb.: Y = depressie, X₁= affectieve coping, X₂= cognitieve coping)

(lineaire) regressievergelijking:

depressie = 4.3 + .38*affectieve coping + .65*cognitieve coping

Causaliteit

diagram met pijlen suggereert causaliteit

drie criteria voor causaliteit

associatie (e.g. correlatie, regressieanalyse, of ander model): relatie nodig
juiste tijdsvolgorde (e.g. experiment, voor- en nameting) als ze tegelijk gemeten zijn kan je er minder over zeggen, over de causaliteit.
eliminatie van alternatieve verklaringen (moeilijkste!)
- neem alternatieve verklaringen (variabelen) op in regressiemodel (moet je ze wel gemeten hebben)
- (statistisch) belangrijke voorspellers blijven over
- relevante alternatieve verklaring kan niet gemeten zijn

Met modellen in Statistische Modellen 2 kunnen we

associatie (vb: regressie- of variantieanalyse)
alternatieve verklaringen (variabelen opnemen als voorspellers)

onderzoeken

(tijds)volgorde worden vastgesteld

logica (vb: opleiding à inkomen)
onderzoeksdesign: experiment met voormeting, interventie en nameting

Multivariate relaties

met 1 onafhankelijke variabele

1 soort relatie:
4 modellen afhankelijke van meetniveau X en Y

Twee onafhankelijke variabelen

met 2 onafhankelijke variabelen 5 soorten relaties (interessanter)

- spurieuze relatie
- kettingrelatie (indirect effect, volledige mediatie)
- interactie
- meerdere voorspellers
- direct en indirect effect

deze week is meetniveau van X₁, X₂ en Y alleen INT

focus eerst op de soorten relaties, niet op meetniveau’s

Spurieuze relatie

Welk model klopt kan je uitzoeken met mediatieanalyse.

Kettingrelatie

Bij kettingrelatie is er een indirect effect van X1 op Y via X2. Het effect wordt volledig gemedieerd.

Interactie

de bijdrage van X₁ en X₂ op Y kan verschillen voor verschillende waarden van X₁ en X₂

onderzoeken met een (gewone) regressieanalyse met X₁ en X₂ en

product X₁*X₂ als drie voorspellers

Meerdere voorspellers

de bijdrage van X₁, X₂ en X₃ op Y in hetzelfde regressiemodel zijn allemaal (statistisch) significant

iedere voorspeller draagt iets unieks bij

à onderzoeken met een gewone

regressieanalyse

Direct en indirect effect

Kettingrelatie plus een direct effect.

direct effect van X₁ op Y
is er ook een indirect effect van van X₁ op Y via X₂

associatie tussen X₁ en Y is complexer dan

onderzoeken met mediatieanalyse

Week 1: regressieanalyse

1 afhankelijke variabele Y (INT)

meerdere onafhankelijke variabelen X₁, X₂, X₃ (INT) (voorspellers)

onderzoeksvraag

kan Y voorspeld worden

door X₁, X₂ en/of X₃?

alle voorspellers hebben

dezelfde status

Eenvoudige mediatie (3 variabelen)

zowel direct effect van X₁ op Y

als een indirect effect van van X₁ op Y via X₂

onderzoeksvraag

wordt de relatie tussen X₁ en Y gemedieerd door X₂
nieuwe rol X₂ = mediator

(afhankelijke t.o.v. X₁ en onafhankelijke variabele t.o.v. Y)

mediator X₂ verklaard (een deel van) relatie X₁ en Y

Mediatie voorbeeld

Onderzoeksvraag: Wordt de relatie tussen leeftijd en bloeddruk gemedieerd door gewicht?

variabelen: Y = bloeddruk, X₁ = leeftijd, X₂ = gewicht

ouder worden gaat gepaard met een hogere bloeddruk (direct effect)
ouder worden gaat gepaard met toename in gewicht
zwaardere mensen hebben vaker een hogere bloeddruk (indirect effect)

Volledige mediatie

we onderscheiden drie situaties

volledige mediatie (kettingrelatie)
gedeeltelijk mediatie (direct en indirect effect)
geen mediatie (eventueel spurieuze relatie)

volledige mediatie (kettingrelatie)

indirect effect: invloed van X₁ op Y volledig via X₂
geen direct effect van X₁ op Y

Gedeeltelijke of geen mediatie

gedeeltelijke mediatie

indirect effect: invloed van X₁ op Y via X₂
direct effect van X₁ op Y

geen mediatie

geen indirect effect
alleen een direct effect van X₁ op Y

Klassieke benadering

Baron en Kenny (1986)

aantal noodzakelijke stappen voor mediatie

ongemedieerde model mediatiemodel

aantal regressieanalyses om coëfficiënten te schatten

à probleem geen goede standaardfout voor indirecte effect ab

Moderne benadering

Hayes (2013)

ongemedieerde model mediatiemodel

Ab wordt in één keer geschat, ipv apart. Met één regressieanalyse.

direct schatten van hele mediatiemodel

bootstrap methode voor standaardfout van indirecte effect ab

Mediatie voorbeeld

onderzoeksvraag

relatie tussen leeftijd en bloeddruk gemedieerd door gewicht?

SPSS

schatten van c met Analyze > Regression > Linear
schatten van c' en ab met Analyze > Regression > PROCESS

Vb: totale effect

Vb: directe effect

LLCI-ULCI = 95%-BHI

Vb: indirecte effect

Sterkte (in)directe effect

coëfficiënt ab = .367

als een mediatiemodel opgaat (= gedeeltelijk mediatie)

hoe sterk is indirecte effect t.o.v. directe effect? (het effect tussen leeftijd en bloeddruk (direct effect) is sterker dan het effect tussen gewicht en bloeddruk (indirect effect).

totale effect (= c) kan opgesplitst worden in 2 delen

directe effect = c'
indirecte effect = ab

dus c = c' + ab

P_dir = direct / totaal = c' / c

P_indir = indirect / totaal = ab / c

Pdir + Pindir = 1

totale effect = c = .822

directe effect = c' = .455

indirecte effect = ab = .367

P_dir = c' / c = .455 / .822 = .554

P_indir = ab / c = .367 / .822 = .446 à directe effect iets sterker

Access:

Public

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

This content is related to:

Statistische Modellen 2 - Collegeaantekeningen

Going abroad?

Insure your way around the world

International expat insurances

Travel & Worldsupporter insurances (NL)

Study with summaries

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Spotlight: topics

Check how to use summaries on WorldSupporter.org

Submenu: Summaries & Activities

Follow the author: LavaVanDrooge

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics

Search a summary, study help or student organization

Select any filter and click on Search to see results

Statistische Modellen 2 - College 2

Statistische Modellen 2 - Collegeaantekeningen

Contributions: posts

Add new contribution

Spotlight: topics

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

Quicklinks to fields of study for summaries and study assistance