Statistische Modellen 2 - College 2

College 2

Model staat spreiding rond lijn toe

Het is niet nodig dat alle punten op de regressielijn liggen

Restrictie: homoscedasticiteit

= verticale spreiding (van onder naar boven) is voor ongeveer alle waarden van X gelijk

Lineariteit en homoscedasticiteit kan je met deze plot beoordelen

Lineariteit en homoscedasticiteit

Spreidingsdiagram van voorspelde waarden tegen gestandaardiseerde residuen. Dit kan ook als er meerdere voorspellende waarden zijn.

Gebruik voor checken van

  • lineariteit
  • homoscedasticiteit

Assumpties houdbaar als de

residuen random gespreid

rond lijn ei = 0 liggen

Terminologie

Populatie en steekproef

Parameter en statistiek

Beschrijvende en inferentiële (toetsende) statistiek

Toetsen en p-waarde

Populatie en steekproef

Onderzoeksvraag: Is er verschil in de gemiddelde leestijd tussen 7-jarige kinderen

van het platteland en kinderen uit de stad?

Onderzoeker wil iets weten over

Populatie 1: alle 7-jarige kinderen van Groningse platteland

Populatie 2: alle 7-jarige kinderen uit de stad Groningen

Steekproef is dan een selectie van 7-jarige kinderen van platteland en uit stad

Representatieve steekproef

Populatie: alle 7-jarige kinderen uit de stad Groningen

Welke steekproef is representatief? Hoe kom je aan je data?

Bijv. data van

1.    Alle 7-jarige leerlingen van vier Groningse basisscholen

       (omdat je hier contacten mee hebt)

2.    350 random 7-jarige leerlingen van acht Groningse basisscholen

3.    200 random 7-jarige leerlingen van alle Groningse basisscholen

Random = beter

Meer = niet altijd beter (het gaat om representativiteit)

Representativiteit steekproef

wetenschappelijk artikel bevat een beschrijving van de steekproef/data

over welke populatie zegt de steekproef wat? Dat staat in artikelen niet altijd erbij.

vb: 200 random 7-jarige leerlingen van alle Groningse basisscholen

1. Populatie van 7-jarige kinderen in Groningen

2. als Groningen = een typerende noordelijke stad

  • steekproef representatief voor alle 7-jarige kinderen in steden Groningen,

Friesland, Drenthe?

Parameter en statistiek

onderzoeksvraag:

is er verschil in de gemiddelde leestijd van 7-jarige kinderen

van het platteland en kinderen uit de stad?

parameter (bijv. mp)

numerieke samenvatting van een eigenschap in de populatie (niet direct te meten)

statistiek (bijv. yp) (= schatter)

numerieke samenvatting van eigenschap in de steekproef (te berekenen)

à wordt gebruikt om parameter van populatie te schatten

Beschrijvende statistiek

alle statistieken waarmee je de steekproef (data) samenvat

  • beschrijvende maten

    gemiddelde, SD, mediaan, minimum, maximum, IQR

  • grafische weergaven

    histogram, boxplot, spreidingsdiagram, QQ-plot, etc.

voordat je toetst kan je altijd eerst de steekproef beschrijven

uitspraken over alleen de steekproef hebben geen toets nodig

Bijv. yp = 27 is hoger dan ys  = 25 in steekproef

Inferentiële statistiek (toetsend)

gebruiken we om kansuitspraken te doen over parameters (populatie)

vb:

het gemiddelde in de steekproef kun je gebruiken om

  • het gemiddelde in populatie te schatten
  • kansuitspraken te doen over het gemiddelde in de populatie
    • wijkt gemiddelde af van een bepaalde waarde (bijv. 0)?
    • is gemiddelde gelijk aan een ander gemiddelde?

Twee methoden voor inferentie

toetsen van hypotheses

“de kans op deze steekproefuitkomst is zo klein, gegeven de nulhypothese, dat het onwaarschijnlijk is dat de populatiegrootheid een bepaalde waarde heeft”

betrouwbaarheidsintervallen

“met zoveel % zekerheid ligt een onbekende populatiegrootheid tussen twee getallen”

Toetsen van hypotheses

nulhypothese: een populatiegrootheid heeft een bepaalde waarde

alternatieve hypothese: de populatie-grootheid heeft die waarde niet (groter, kleiner, ongelijk)

  •  probeer de nulhypothese te verwerpen

Bijv.       H0: m = 0 versus Ha: m ≠ 0

p-waarde

Hoe kleiner p des te sterker is het bewijs tegen de nulhypothese, d.w.z. hoe onwaarschijnlijker de nulhypothese is

Hoe klein is p?

Vergelijk met significantieniveau a.

Bijv. a = 0.05

Interpretatie uitkomst significantietoets

p < α     à significant effect

“Er is waarschijnlijk een populatie-effect.”

p > α     à geen significant effect

“Niet voldoende bewijs om nulhypothese te verwerpen” (je kan niet zeggen dat er geen-effect is)

We kunnen altijd fouten maken > Daarom zeggen we niet H0 is waar of Ha is waar

Betrouwbaarheidsinterval (BHI)

BHI gebaseerd op verdeling rond parameter (bijv. µ, p)

  • middelste C% van de verdeling (bijv. C = 95)
  • afstand tot midden = foutenmarge (margin of error)
  • foutenmarge = kritieke waarde * standaardfout (bijv. 1.96 * SE) (1,96 hoort bij 95%)
  • vb.: y±1.96*SE

Onderzoeksvraag bepaalt statistisch model

twee typen onderzoeksvragen

1. vb.: is er een gemiddeld verschil tussen jongens en meisjes m.b.t. leessnelheid of rekenprestatie?

groepsverschillen: t-toetsen, variantieanalyse,

2. vb.: is IQ een goede voorspeller van de Citoscore?

voorspellen: lineaire regressieanalyse, logistische regressieanalyse

Twee rollen variabelen

afhankelijke variabele (Y)

variabele waar we iets over willen zeggen (voorspellen)

verschillen groepen gemiddeld op een variabele?

kan een variabele voorspeld worden door een aantal andere variabelen?

onafhankelijke variabele (X)

voorspeller of groepen waar we verschillen tussen zoeken

verschillen groepen gemiddeld op een variabele?

kan een variabele voorspeld worden door een aantal andere variabelen?

Aantal onafhankelijke variabelen

bij alle modellen is er precies één afhankelijke variabele

modellen met één onafhankelijke variabele

  • t-toetsen (bijv. geslacht)
  • éénwegvariantieanalyse (bijv. hechtingstype)

modellen met meerdere onafhankelijke variabelen

  • tweewegvariantieanalyse (bijv. geslacht + hechtingstype)
  • lineaire en logistische regressieanalyse (bijv. IQ + aantal studie-uren)
  • covariantieanalyse (bijv. wel/niet training + Citoscore)

 

Meetniveau

keuze model wordt verder bepaald door meetniveau van de variabelen

drie niveaus relevant in deze cursus

  • nominaal (NOM; categorisch) – onderscheidt groepen/condities

     vb.: hechtingstijl, leiderschapsstijl

  • interval (INT) – intervallen zijn betekenisvol

     vb.: gewicht, lengte, Citoscore, BDI score, IQ score

  • dummy (DUM) – variabele met precies twee categorieën.

     vb.: geslacht, wel/niet slagen, wel/niet behandeling

Wanneer welk model?

    onafh.            afh.

  X1            X2          Y          model

DUM                   INT        t-toets voor onafhankelijke groepen

NOM                   INT        éénwegvariantieanalyse

NOM     NOM     INT        tweewegvariantieanalyse

INT                      INT        enkelvoudige regressieanalyse

INT        INT        INT        multipele regressieanalyse

INT        NOM     INT        covariantieanalyse

INT        DUM     DUM     logistische regressieanalyse

Modellen

Week 1: regressieanalyse

1 afhankelijke variabele Y (INT)

meerdere onafhankelijke variabelen X1, X2, X3 (INT)

(vb.: Y = depressie, X1 = affectieve coping, X2 = cognitieve coping)

(lineaire) regressievergelijking:

depressie = 4.3 + .38*affectieve coping + .65*cognitieve coping

Causaliteit

diagram met pijlen suggereert causaliteit

drie criteria voor causaliteit

  • associatie (e.g. correlatie, regressieanalyse, of ander model): relatie nodig
  • juiste tijdsvolgorde (e.g. experiment, voor- en nameting) als ze tegelijk gemeten zijn kan je er minder over zeggen, over de causaliteit.
  • eliminatie van alternatieve verklaringen (moeilijkste!)
    • neem alternatieve verklaringen (variabelen) op in regressiemodel (moet je ze wel gemeten hebben)
    • (statistisch) belangrijke voorspellers blijven over
    • relevante alternatieve verklaring kan niet gemeten zijn

Met modellen in Statistische Modellen 2 kunnen we

  • associatie (vb: regressie- of variantieanalyse)
  • alternatieve verklaringen (variabelen opnemen als voorspellers)

onderzoeken

(tijds)volgorde worden vastgesteld

  • logica (vb: opleiding à inkomen)
  • onderzoeksdesign: experiment met voormeting, interventie en nameting

Multivariate relaties

met 1 onafhankelijke variabele

  • 1 soort relatie:
  • 4 modellen afhankelijke van meetniveau X en Y

Twee onafhankelijke variabelen

met 2 onafhankelijke variabelen 5 soorten relaties (interessanter)

    • spurieuze relatie
    • kettingrelatie (indirect effect, volledige mediatie)
    • interactie
    • meerdere voorspellers
    • direct en indirect effect

deze week is meetniveau van X1, X2 en Y alleen INT

focus eerst op de soorten relaties, niet op meetniveau’s

Spurieuze relatie

Welk model klopt kan je uitzoeken met mediatieanalyse.

Kettingrelatie

Bij kettingrelatie is er een indirect effect van X1 op Y via X2. Het effect wordt volledig gemedieerd.

Interactie

de bijdrage van X1 en X2 op Y kan verschillen voor verschillende waarden van X1 en X2 

                       onderzoeken met een (gewone) regressieanalyse met X1 en X2 en

                                          product X1*X2 als drie voorspellers

 

 

Meerdere voorspellers

de bijdrage van X1, X2 en X3 op Y in hetzelfde regressiemodel zijn allemaal (statistisch) significant

                                          iedere voorspeller draagt iets unieks bij

                                          à onderzoeken met een gewone

                                          regressieanalyse

 

Direct en indirect effect

Kettingrelatie plus een direct effect.  

  • direct effect van X1 op Y
  • is er ook een indirect effect van van X1 op Y via X2

associatie tussen X1 en Y is complexer dan

onderzoeken met mediatieanalyse

Week 1: regressieanalyse

1 afhankelijke variabele Y (INT)

meerdere onafhankelijke variabelen X1, X2, X3 (INT) (voorspellers)

onderzoeksvraag

  • kan Y voorspeld worden

     door X1, X2 en/of X3?

  • alle voorspellers hebben

     dezelfde status

Eenvoudige mediatie (3 variabelen)

zowel direct effect van X1 op Y

als een indirect effect van van X1 op Y via X2

onderzoeksvraag

  • wordt de relatie tussen X1 en Y gemedieerd door X2
  • nieuwe rol X2 = mediator

    (afhankelijke t.o.v. X1 en onafhankelijke variabele t.o.v. Y)

  • mediator X2 verklaard (een deel van) relatie X1 en Y

 

Mediatie voorbeeld

Onderzoeksvraag: Wordt de relatie tussen leeftijd en bloeddruk gemedieerd door gewicht?

variabelen: Y = bloeddruk, X1 = leeftijd, X2 = gewicht

  • ouder worden gaat gepaard met een hogere bloeddruk  (direct effect)
  • ouder worden gaat gepaard met toename in gewicht
  • zwaardere mensen hebben vaker een hogere bloeddruk (indirect effect)

Volledige mediatie

we onderscheiden drie situaties

  • volledige mediatie (kettingrelatie)
  • gedeeltelijk mediatie (direct en indirect effect)
  • geen mediatie (eventueel spurieuze relatie)

volledige mediatie (kettingrelatie)

  • indirect effect: invloed van X1 op Y volledig via X2
  • geen direct effect van X1 op Y

Gedeeltelijke of geen mediatie

gedeeltelijke mediatie

  • indirect effect: invloed van X1 op Y via X2
  • direct effect van X1 op Y

geen mediatie

  • geen indirect effect
  • alleen een direct effect van X1 op Y

Klassieke benadering

Baron en Kenny (1986)

  • aantal noodzakelijke stappen voor mediatie

ongemedieerde model                mediatiemodel

aantal regressieanalyses om coëfficiënten te schatten

à probleem geen goede standaardfout voor indirecte effect ab

 

Moderne benadering

Hayes (2013)

ongemedieerde model                mediatiemodel

Ab wordt in één keer geschat, ipv apart. Met één regressieanalyse.

direct schatten van hele mediatiemodel

bootstrap methode voor standaardfout van indirecte effect ab

Mediatie voorbeeld

onderzoeksvraag

  • relatie tussen leeftijd en bloeddruk gemedieerd door gewicht?

SPSS

  • schatten van c met Analyze > Regression > Linear
  • schatten van c' en ab met Analyze > Regression > PROCESS

Vb: totale effect

Vb: directe effect

LLCI-ULCI = 95%-BHI

Vb: indirecte effect

Sterkte (in)directe effect

coëfficiënt ab = .367

als een mediatiemodel opgaat (= gedeeltelijk mediatie)

  • hoe sterk is indirecte effect t.o.v. directe effect? (het effect tussen leeftijd en bloeddruk (direct effect) is sterker dan het effect tussen gewicht en bloeddruk (indirect effect).

totale effect (= c) kan opgesplitst worden in 2 delen

  • directe effect = c'
  • indirecte effect = ab

dus c = c' + ab

Pdir = direct / totaal = c' / c

Pindir = indirect / totaal = ab / c

Pdir + Pindir = 1

totale effect = c = .822

directe effect = c' = .455

indirecte effect = ab = .367

Pdir = c' / c = .455 / .822 = .554

Pindir = ab / c = .367 / .822 = .446             à directe effect iets sterker

Image

Access: 
Public

Image

Join WorldSupporter!
This content is related to:
Statistische Modellen 2 - Collegeaantekeningen
Search a summary

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Follow the author: LavaVanDrooge
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
1040