Werkgroepaantekeningen bij Multivariate Data-Analyse (MVDA) - UL - 2012/2013

Deze samenvatting is gebaseerd op collegejaar 2012-2013.

Werkgroep 1 Multipele Regressie Analyse
Werkgroep 2: Twee-weg ANOVA
(ook als Regressie met Dummy Variabelen)
Werkgroep 3: ANCOVA
Werkgroep 4: Logistische Regressie Analyse (LRA)
Werkgroep 5: Multivariate Variantie Analyse (MANOVA) en Discriptieve Discriminantanalyse
Werkgroep 6: Repeated measures ANOVA
Werkgroep 7 Padanalyse

Werkgroep 1 Multipele Regressie Analyse

Opdracht 1.

A1) Y= attitude tegenover monogamie. X1= godsdienstigheid. X2= jaloezie. Gestandaardiseerde regressiegewichten: β1= 0.47. β2= 0.37.

Gestandaardiseerde regressievergelijking: Yz pred (voorspelde waarde) = β1Xz1 + β2Xz2, dus Yzpred = 0.47Xz1 + 0.37Xz2. Beide variabelen lijken een positieve bijdrage te leveren aan Y pred.

A2) De ruwe score regressievergelijking: Ypred = 0.5 + X1 + 0.5X2.

Hieronder de voorspelde Y waarden voor de 6 personen. Invullen van de formule met de scores uit de onderstaande tabel.

Persoon	X1	X2	Y	Ypred
1	3	1	5	4
2	3	2	4	4.5
3	4	3	4	6
4	5	3	8	7
5	5	4	7	7.5
6	4	5	8	7

B1) R²= maat voor totaal verklaarde variantie van y.

Ry.12 = √(( r²y1 + r²y2 – 2r12*ry1*ry2)/(1- r²12)),

ry1 = .707 ry2 = .671 r12 = .632,

Ry.12 = √(( .707)²+(.671)²-2(.632)(.707)(.671)) /(1- (.632)²),

Ry.12= √(.583)= .764

dus het multipele correlatiecoëfficiënt Ry.12 = .764. R² = 0.583, dus 58.3% van de variantie van Y wordt verklaard door X1 en X2 samen.

B2) Als beide (onafhankelijke) predictoren ongecorreleerd zijn, is r12 = 0

In de formule zie je dan √(( r²y1 + r²y2 – 2*0*ry1*ry2)/(1- 0)) : √( r²y1 + r²y2)

C) De semi-partiele correlatie ry(1.2) = .365
De semi-partiele correlatie ry(2.1) = .289 De schrijfwijze ry(1.2) betekent dat de semipartiële correlatie op Y van X1, na correctie (overlap) van X2 op X1 .365 bedraagt. De unieke verklaarde variantie is dus: De verklaarde variantie door één predictor, die niet te herleiden is door andere predictoren.

De unieke proportie verklaarde variantie reken je uit door de semi-partiele correlatie van een afhankelijke variabele te kwadrateren.

Ry(1.2)² = .365² = .133. De unieke bijdrage van voorspeller X1 bedraagt 13%.

Ry(2.1)² = .289² = .084. De unieke bijdrage van voorspeller X2 bedraagt 8.4%.

De som = .133+.084 = .217. Beide voorspellers verklaren zonder hun overlap 22%.

D) Verklaarde variantie (VAF) kan men op verschillende manieren uitrekenen

1. Het multipele correlatiecoëfficiënt kwadrateren: R² = Ry.12².

2. De verklaarde variantie van X1 (inclusief overlap met X2) optellen met de verklaarde variantie van X2 zonder overlap met X1: R² = r²y1 + r²y(2.1).

3. De verklaarde variantie van X2 (inclusief overlap met X1) optellen met de verklaarde variantie van X1 zonder overlap met X2 R² = r²y2 + r²y(1.2).

R² = .764² = .58
R² = .707² + .289² = .58
R² = .671² + .365² = .58

De beide voorspellers (X1 en X2) verklaren 58% van Y. 58% minus beide unieke verklaarde variantie = .583 – .216 = .367. Beide voorspellers verklaren tezamen (de overlap) 37%.

E) Beide regressieanalyses zijn positief. We kunnen dus stellen dat hoe meer X1 (godsdienstigheid) en hoe meer X2 (jaloezie) hoe sterker de Y (attitude tegenover monogamie). Godsdienstigheid is de beste voorspeller (13,3% unieke bijdrage). Beide voorspellers hebben een grote overlap. Opvattingen over monogamie worden door 58% verklaard door godsdienstigheid en jaloezie.

Opdracht 2

A) In grafiek 1 lijkt het erop dat X en Y positief samenhangen. Met andere woorden, een hogere score op godsdienstigheid geeft een hogere score op monogamie.

B) In grafiek 2 lijkt het erop dat er maar weinig verband zit tussen X en Y.

Grafiek 3

C) In grafiek 3 kunnen we zien dat een hogere score op X1 een hogere score op Y
geeft. Een hogere score op X2 geeft juistvaak een lagere score op Y. Een lijn van
links boven naar rechts onder suggereert dat X2 zeker wel belangrijk is. Toename van Y bij toename van X1 en bij afname van X2.

D) Yzpred= 1.054Xz1 – 0.657Xz2

E) De 2e bèta; -0.657, is opvallend(substantieel),
ondanks dat de bijbehorende ry2; -0.048, vrij
klein is en daarom verwacht je eigenlijk ook niet
zoveel van de bijbehorende Bèta.

F) R² = r²y1 + r²y(2.1). =
(0.674) ² + (-0.536) ² = 0.454+ 0.287= 0.741

G) R² neemt met bijna 29% toe vanwege X2. (0.287x 100 = ongeveer 29%). Ondanks dat X2 nagenoeg ongecorreleerd is met Y, heeft het een aardige bijdrage.
Door X1 verklaarde variantie is 45.43% (ry²x1)
Door X2 verklaarde variantie is 28,6% (ry²x2)
H) De totaal verklaarde variantie is:
R²y.X1.X2 x 100 = 0.742 x 100 = 74.2%
I) Volgens de gewone r zou conformisme (X2) geen bijdrage hebben aan monogamie (Y), maar uit de Bèta en de semi-partiële correlaties blijkt dat dit wel zo is. In dit geval is godsdienstigheid (X1) een suppressor van verband tussen conformisme (X2) en Y.
J) De inhoudelijke conclusie is, dat hoe minder conformistisch iemand is en hoe meer godsdienstig des te positiever is de attitude ten opzichte van monogamie.
Opdracht 3

A) Schoolsucces (y), Intelligentie (X1), Prestatie vermogen (X2).

ry1= 0.67 (intelligentie en schoolsucces)

β1= 0.60. Positief verband

ry2= 0.55 --> positief verband

β2= 0.10 --> nauwelijks een verband ry2= een schijnverband (spurieuze correlatie)

B) VAF= R²= (0.67)²= 0.449  bijna 45% verklaarde variantie komt van beide voorspellers. In feite is dit alleen van X1, want deze heeft een proportie verklaarde variantie die bijna gelijk is aan het totaal.

C) Intelligentie (X1) heeft een positieve invloed op schoolsucces (Y). Na correctie voor intelligentie levert prestatievermogen (X2) geen bijdrage aan verklaring schoolsucces.

Opdracht 4

A) VAF model 1: R² (R Square)= 0.397. Het model verklaart dus bijna 40% van de variantie van schoolsucces.

B) Unieke bijdrage van beide voorspellers: gekwadrateerde semi- partiële correlatie (in SPSS: Part correlation)

Ability: 0.452²= 0.204 --> 20,4%

Interest: 0.209² = 0.044 --> 4,4%

Correlaties en regressie- coëfficiënten zijn zowel voor Ability als voor Interest significant.

C) Alleen Ability (X1) als voorspeller van schoolprestatie (Y).

VAF= kwadraat van zero-order correlatie.

r²y1= (0.594)²= 0.353 --> 35.5%

Ability en Interest verklaren samen 39.7%.

Dus variabele interest voegt toe: 39.7-35.5 = 4,4%

D) Als we uitgaan van geen suppressie, maximaal mogelijke R² change = gelijk aan gewone (zero-order) correlatie van Parental Interest met Achievement in het kwadraat.

E) De feitelijke R² change= 0.084²= 0.007, oftewel 0,7% verschil in R² tussen model 1 en 2. De verandering is niet significant (p= 0.078).

Parental interest overlapt met andere voorspellers (corelatie van 0.30), voegt daarom weinig extra verklaarde variantie toe.

F) Kijk naar R square change: Belangstelling leerkracht voegt 0.15²= 0.022, dus 2,2% verklaarde variantie toe. Dit is significant.

De totale VAF van model 3 = 0.426 = 42,6%

G) Met hiërarchische multipele regressieanalyse werd schoolsucces voorspeld uit

de onafhankelijke variabelen intellectueel vermogen van kind, belangstelling

van kind, belangstelling van ouders en belangstelling van leerkracht. Beide

kindkenmerken correleerden matig en beide andere variabelen laag met

schoolsucces.

De multipele R van het eerste model met beide kindkenmerken was

significant, F(2, 267) = 87.87, p < .001, R2 adj = .39. De bijdrage van het

intellectueel vermogen was groter dan die van de belangstelling van het kind,

de semi-partiële correlaties met schoolsucces waren .45 respectievelijk .21 (p

< .001).

De toevoeging van ouderlijke belangstelling in het tweede model was

niet significant, F(1, 266) = 3.14, p > .05. Toevoeging van belang-stelling van

de leerkracht in het derde model was wel significant, R2 Change = .02,

F(1,265) = 10.34, p < .005, met R2 adj = .43 voor dit model.

Schoolsucces hing vooral samen met intellectueel vermogen en ook

met belangstelling van het kind en van de leerkracht. Belangstelling van de

ouders voegde gegeven de kindkenmerken niets meer toe aan het

schoolsucces. (Blackboard)

Opdracht 5

A) antwoord b: T-toets voor gepaarde waarnemingen
B) antwoord d: PCA
C) antwoord c: MRA: hiërarchisch (intellectueel vermogen eerst)

Werkgroep 2: Twee-weg ANOVA
(ook als Regressie met Dummy Variabelen)

Opdracht 1:
a. Alle combinaties van methode en geslacht hebben evenveel cases (namelijk 42, zie descriptives tabel). Dit maakt dat het hierbij gaat om een gebalanceerde onderzoeksopzet. Daarom zullen de onafhankelijke variabelen niet met elkaar overlappen. r12=0, geen samenhang tussen beide onafhankelijke predictoren.

b. We spreken van een gebalanceerd design dus we verwachten dat Sum of Squares van de effecten precies optellen tot de Sum of Squares van het Corrected model:
SScorrected model = SSmethode + SSgeslacht + SSinteractie =
85.714 + 1.524 + 34.381 = 121.619
Dit klopt precies. Er is dus een eenduidige opsplitsing in hoofd- en interactie-effecten.
c. Om de effecten te kunnen bekijken berekenen we de Eta Squared:
- Het hoofdeffect methode is significant en heeft een effectgrootte van 0.001.
- Het hoofdeffect geslacht is niet significant en heeft een effectgrootte van 0.068.
- Het interactie effect is significant en heeft een effectgrootte van 0.027.
Het is niet duidelijk waarom SPSS alleen de 'partial eta squared' geeft. Voor de effectgrootte wordt namelijk de 'eta squared' als maat gebruikt. Dit bereken je met de volgende formule: ŋ²= SSmethode/SScorrected total

Hoeveelheid verklaarde variantie = R² = ŋ²
ŋ² = SScorrected model / SScorrected total
121.619 / 1256.286 = 0.097
d. Twee gelijkwaardige interpretaties:

1. Effect van methode (RW>WG) is veel sterker voor meisjes dan voor jongens.

Meisjes: MRW-MWG (gemiddelde van RW-WG) = 8.05-5.71= 2.34 (p,0.001)
Jongens: MRW-MWG = 6.95-6.43= 0.52 (niet significant)

2. Effect van sekse is tegengesteld voor RW en GW

RW: Mboys-Mgirls= 6.95-8.05= -1.10

WG: Mboys- Mgirls= 6.43-5.71= 0.52

e. Resultaten

Een 2 x 2 between-subjects ANOVA wees uit dat de gebruikte rekenmethode een

significant effect had op de toetscore, F(1, 164) = 12.39, p < .005, partial η2 = .070.

Het effect van geslacht was niet significant, F(1, 164) = 0.22, p > .63, maar het

interactie-effect wel, F(1, 164) = 4.67, p < .05, partial η2 = .029.

Meisjes met de methode Rekenen & Wiskunde scoorden significant hoger (M

= 8.1) dan meisjes met Wereld in Getallen (M = 5.7), F(1, 82) = 17.81, p < .001,

partial η2 = .18. Bij jongens (M = 6.7) was het scoreverschil tussen de rekenmethoden niet significant, F(1, 82) = 0.78, p > .38.

Dit is de manier waarop men moet rapporteren volgens de APA regels.

Opdracht 2:
a. We hebben weer te maken met een gebalanceerd design aangezien het aantal proefpersonen in de cellen gelijk zijn.

Controle met de kwadratensommen: Corrected model= SSmethode+ SSniveau+ SSinteractie

315,500= 85,714+ 189,893+ 7735,714. Dit klopt!

b. Alle effecten zijn significant.

Hieronder staan voor alle effecten de eta square scores vermeld:
Methode: 85.714/ 1256.286= .068
Cniveau: 189.893/ 1256.286= 0.151
Methode * Cniveau: 39.893/ 1256.286= 0.032
Om de gemiddelden te vergelijken kun je in de tabel ‘descriptives statistics’ kijken.

MRW= 7.5. MWG= 6.07

Mlow= 5.41< Mmed= 6.95< Mhigh= 8.00 In de tabel van Scheffe (multiple Comparisons) kan men zien dat Mlow significant verschilt van Mmed en Mhigh.

c. Resultaten

Rekentoetsscores werden geanalyseerd met een tweeweg ANOVA met twee lagen

voor rekenmethode (RW, WG) en drie lagen voor algemeen rekenniveau (laag,

midden, hoog). Dit wordt een 3x2 ANOVA genoemd. Alle effecten waren significant.

Het hoofdeffect van rekenmethode liet zien dat leerlingen met RW (M = 7.5)

hoger scoorden dan leerlingen met WG (M = 6.1), F(1, 162) = 14.76, p < .001, partial

η2 =.08. Het hoofdeffect van rekenniveau, F(2, 162) = 16.35, p < .001, partial η

2 = .17, werd onderzocht met Scheffe’s post-hoc toetsen. Leerlingen van een laag rekeniveau (M = 5.4) scoorden significant minder dan leerlingen van een midden- of hoog niveau (M = 7.5).

Het interactie-effect van methode en niveau, F(2, 162) = 3,44, p < .05, partial

η2 =.04, werd onderzocht met simpele effecten. Deze wezen uit dat alleen leerlingen

van een laag rekenniveau significant hoger scoorden met RW (M = 6.8) dan met WG

(M = 4.0), F(1, 54) = 14.38, p < .001, partial η2 =.21. Er was geen significant scoreverschil tussen beide rekenmethoden voor leerlingen van een middenniveau, p >.12, en voor leerlingen van een hoog niveau, p > .38.

Conclusie
Alleen leerlingen van een laag rekenniveau hadden met de methode Rekenen & Wiskunde een hogere toetsscore dan met de methode Wereld in Getallen.
Opdracht 3:

a. De verschillende combinaties hebben niet evenveel cases. Ofwel: De n is ongelijk verdeelt in de verschillende cellen. Hieraan kun je zien dat het gaat om een ongebalanceerde onderzoeksopzet.

b. Rekenniveau en geslacht hangen waarschijnlijk samen. Hoe hoger het niveau hoe meer jongens er in de cases zitten. Het geslachtsverschil wordt overschat. Om dit probleem te het hoofd te bieden kun je naar de gecorrigeerde gemiddelden kijken.

c. Hierbij moeten we weer nagaan of de verschillende delen van het Corrected Model goed bij elkaar optellen:
SScorrected model = 389.333
SScniveau + SSgeslacht + SSinteractie =

350.377 + 6.452 + 0.608 = 357.437
Dit is minder dan het corrected model. De opgesplitste Sum of Squares zijn dus niet gelijk aan het totaal ( het corrected model).
d. Berekening van de unieke bijdragen:

SSeffect / SScorrected total

Geslacht: 6.452 / 1723.755 = 0.004

Niveau: 350.377 / 1723.755 = 0.203

Interactie is niet in de afbeelding te zien.

e. Resultaat

Scores op Toets2 werden geanalyseerd met een between-subjects ANOVA voor rekenniveau (1, 2, 3) en geslacht (jongen, meisje). Alleen het hoofdeffect van rekenniveau was significant, F(2, 239) = 31.38, p < .001, partial η2 = .21. Het hoofdeffect van geslacht, p > .28, en de interactie, p > .94, waren niet-significant. Het effect van rekenniveau werd verder onderzocht met Scheffe’s posthoc toetsen. Leerlingen van een laag rekenniveau (M = 5.7) hadden een significant lagere score dan leerlingen van een middenniveau (M = 7.2), p < .001, die op hun beurt significant lager scoorden dan leerlingen van een hoog niveau (M = 8.9), p < .001.

Opdracht 4:

4.1 d

4.2 b

4.3 c

Werkgroep 3: ANCOVA

Opdracht 1

a. Ja, het is zinvol om een covariaat toe te voegen.
Er is een flinke (within groups) correlatie tussen voortoets (covariaat) en natoets (de afhankelijke variabelen). Reductie van errorvariantie is hierdoor mogelijk.

Er is ook een aanzienlijk verschil in gemiddelden op de voortoets (MA=4, MB=7.5). Door een covariaat toe te voegen kunnen we mogelijk systematische bias verwijderen.
b. Regressielijnen berekenen en tekenen

We weten dat de regressielijn van groep A door punt ( Xa,Y) moet lopen.
De algemene formule is Ŷi= a + b Xi

Voor methode A:

Gemiddelden Xa (=4) en Ya (=9) en regressiegewicht/slope (Bw =0.6) zijn bekend. Alleen a is niet bekend.

Dus 9 = a + .6 * 4
a = 9 - .6 * 4 = 6.6

Voor methode B:

Gemiddelden Xb (=7,5) en Yb (=10) en regressiegewicht/slope (Bw) zijn bekend. Alleen a is niet bekend.

Dus 10 = a + .6 * 7,5

a = 10 - .6 * 7,5 = 5.5

We hebben nu twee punten voor elke regressielijn:

het gemiddelde
het beginpunt (a, wanneer X=0):

Teken de twee lijnen door de verkregen punten en je hebt de regressielijn.

c. Bij de voortoets scoorden de 2 groepen verschillend: 4 en 7,5. Het gemiddelde van de twee groepen is (4+7,5)/2 = 5,75.

We willen zien wat er gebeurt wanneer we de beide groepen gelijk stellen op de voortoets (het gecorrigeerde gemiddelde op de covariaat: 5,75). Dit mag alleen als het aantal observaties hetzelfde is.

We maken gebruik van gecorrigeerde groepsgemiddelden. We doen dus alsof de groepen hetzelfde gemiddelde hebben op het covariaat.

We vullen dit in de formule: Ŷi= a + b Xi

Voor methode A:
Ya* = 6.6 + .6 * 5,75 = 10,05
Voor methode B:

Yb* = 5,5 + .6 * 5,75 = 8,95

De snelste manier om het gecorrigeerde gemiddelde te bereken (handig voor tentamen)=

Yj* = Yj – Bw (Cj- C)

Voorbeeld voor methode A: 9 - .6 (4-5,75) = 10,05
(WB, p. 11)

d. Het absoluut verschil tussen de groepen is iets groter na correctie: 1,0 (voor correctie) vs. 1,1 (na correctie). Het teken van verschil is wel omgeslagen: na correctie voor verschillen op de voormeting (waar groep A het veel slechter deed dan groep B), doet groep A het beter dan groep B.

Dus rekenmethode A lijkt (na correctie voor de verschillen op de voormeting) effectiever dan rekenmethode B.

Opdracht 2: Covariantie-analyse
Is de (gepoolde) correlatie positief, nul, negatief?
Een tip om deze grafieken op de juiste manier te interpreteren is een ellips rond de punten te tekenen. De vorm en richting van de ellips, de lange as van de ellips, kunnen je dan vertellen of er een positief (van links onder naar rechts boven), negatief (van links boven naar rechts onder) of geen correlatie is (van links naar rechts op dezelfde hoogte). De ellips kan een ronde bollige vorm (zwakke correlatie) of een scherpe sigaar vorm (sterke correlatie) aannemen. Om te zien over er een verschil optreedt in de afstand tussen de gemiddelden, moeten we kijken wat er op de y-as verandert voor de gemiddelden. De relatieve afstand ten opzichte van de afstand zonder correctie bepaalt of het gemiddelde verandert en zo ja: in welke richting.

Figuur A: Totale correlatie is +
Within correlatie is 0

Het verschil tussen de gemiddelden verandert niet

Figuur B: Totale correlatie is 0

Within correlatie is +

Het verschil tussen de gemiddelden wordt groter

Figuur C: Totale correlatie is -
Within correlatie is –

Het verschil tussen de gemiddelden wordt kleiner, verdwijnt
Figuur D: Totale correlatie is 0
Within correlatie is 0

Het verschil tussen de gemiddelden verandert niet

Opdracht 3: Covariantie analyse
a. Voor reductie van de systematische bias zal het geen zin hebben om de begrijpend lezen test als covariaat te nemen. De groepen verschillen namelijk niet op het covariaat begrijpend lezen.

Voor de reductie van de (random) error zal het wel zin hebben om de begrijpend lezen test als covariaat te nemen. De pooled within correlatie is namelijk .68. Wanneer er een correlatie zichtbaar is, afwijkend van 0 is er reductie van error mogelijk.

b. SSw = SSt – SSb, dus 800-160 = 640

DFb = k – 1 (k = het aantal groepen), dus 3-1 = 2

DFw = n – k (n = totaal aantal respondenten), dus 27 – 3 = 24

MSb = SSb / DFb = 160 / 2 = 80

MSw = SSw / DFw = 640 / 24 = 26,67

F = MSb / MSw = 80 / 26,67 = 3,00

De p-waarde moet je opzoeken in de tabel met kritieke waarden voor F (F critical values; Moore & McCabe).

c. In de F kritieke waarden tabel zien we dat we te maken hebben met een p-waarde groter dan 0,05 (p>0.05). Hieruit kunnen we concluderen dat de groepen niet significant van elkaar verschillen.

d. SSt* = (1 - .63²) * 800 = 482,48
SSw* = (1 - .68²) * 640 = 344,06

SSb* = SSt* - SSw* = 482,48 – 344,06 = 138,42

DFb = k – 1, dus 3-1 = 2

DFw = n – k – C (C = het aantal covariaten), dus 27 – 3 – 1 = 23

MSb = SSb / DFb = 138,42 / 2 = 69,21

MSw = SSw / DFw = 344,06 / 23 = 14,96

F = MSb / MSw = 69,21 / 14,96 = 4,63

De p-waarde moet je opzoeken in de tabel met kritieke waardes voor F (F critical values; Moore & McCabe).

e. De p-waarde duidt significantie aan (p < 0.025).

Zonder covariaat is er geen significant verschil tussen de 3 methoden zichtbaar.
Als de covariaat wordt meegenomen in de analyse, dan wordt een deel van de error variantie verwijderd (hogere power) en wordt er een effect gevonden voor rekenmethode.

f. Indien men dezelfde formules gebruikt als bij opdracht d, zal men tot de volgende resultaten moeten komen:

SSb* = 44,10 DFb* = 2 MSb* = 22 F* = 1,31

SSw* = 385,98 DFw* = 23 MSw* = 16,78

SSt* = 430,08 p = .289

De p-waarde duidt geen significant effect aan (p>0.05), ondanks correctie met covariantie.

Kleine veranderingen kunnen dus grote gevolgen hebben. Als de gepoolde correlatie lager is dan de totale correlatie, zorgt de covariaat er juist voor dat:

het qoutient van MSb en MSw kleiner wordt,
waardoor de F ook kleiner wordt
en daarmee wordt de bijbehorende p-waarde groter.

Opdracht 4: Welke behandeling resulteert in het minste aantal gaatjes in het gebit?

a. Onafhankelijke nominale variabele: behandelmethode met drie categorieën: FA, FB en P. De afhankelijke variabele is het aantal gaatjes in het gebit (interval variabele).

b. Bij de gewone gemiddelden: verschil tussen de condities in gemiddelden. Bij de gecorrigeerde gemiddelden is dit idem. In de ANOVA is het effect van treatment significant. Verschil tussen FA en P significant. Rest is niet significant.

c. Er is een aanzienlijke positieve within-groups correlatie tussen leeftijd (covariaat) en het aantal gaatjes (afhankelijke variabele). Door leefijd als covariaat op te nemen kan er error reductie plaatsvinden.

Aanzienlijke groepsverschillen in leeftijd worden er gevonden, hierdoor is er een correctie van de systematische bias mogelijk.

d. Er wordt voldaan aan de assumpties van de parallele regressielijnen. De interactie tussen behandeling en leeftijd is namelijk niet significant. Doordat er geen schending van deze assumptie is, kan de ANCOVA worden uitgevoerd.

e. Behandeling is niet significant, na correctie voor groepsverschillen in leeftijd.

Opdracht 5: Techniekkeuze Cariësonderzoek (vervolg)
4.1 b We proberen prestatie (interval) te voorspellen uit de onafhankelijke variabele rekenstrategie (nominaal). Hiervoor gebruiken we de techniek ANOVA.

4.2 c We hebben te maken met twee variabelen. Gezinsinkomen (interval), Nationaliteit (nominaal) en gezinsinkomen (intervalniveau. We proberen cariësschade (Interval) te voorspellen. Hiervoor gebruiken we ANCOVA.

4.3 a Ze willen het tentamencijfer voorspellen uit het aantal studie uren (interval), aantal keer bijwonen van het college (interval) en het cijfer op de proeftoets (interval).

Dit doe je met een MRA.

Werkgroep 4: Logistische Regressie Analyse (LRA)

Bij alle opdrachten van deze week zal bij de logistische regressievergelijking het teken ĉ gebuikt worden als vervanging voor het teken ‘p met een dakje’. Dit vanwege afwezigheid van p-dakje in ‘words’. Allereerst enkele formules om bepaalde termen die deze week aan bod komen te verduidelijken. Deze week wordt er in de opgaven namelijk gevraagd naar de (voorspelde) kans (p), de odds, de (voorspelde) logit en de predictoren. De formules en definities komen hieronder aan bod:

De letter ‘e’ staat in de volgende formules voor een vast getal, namelijk: 2,718.

Onthoud dit getal goed! Het zal ook in formules op het tentamen opduiken.

Loĝit = b₀+ b₁ * X₁

Van logit naar odds

Odds = e^logit

Van odds naar kans:

P= odds

1+ odds

Van logit naar kans wordt dan dus:

P= e^logit

1+ e^logit

Van predictoren naar kans:

ĉ = e^{b0 + b1 * X1}

1 + e^{b0 + b1 * X1}

Opdracht 1: Logistische regressie

a) De logistische regressie vergelijking ziet er in algebra termen als volgt uit:

ĉ = e^{b0 + b1 * X1}

1 + e^{b0 + b1 * X1}

Als we de verkregen informatie vanuit opdracht 1 invullen krijgen we dus:

ĉ = e(^{-4.200 + .671 * Xi)}

1 + e(^{-4.200 + .671 * Xi)}

b) ĉ = e^{-4.2 + .671 * 5}= 0.43 = 0.30
1 + e^{-4.2 + .671 * 5} 1+0.43

De geschatte slaagkans bij een score van 5 op de voortoets is .30 (30%), de zakkans (1- p) is .70 (70%).

c) ĉ = e^{-4.2 + .671 * 7}= .62
1 + e^{-4.2 + .671 * 7}

De geschatte slaagkans bij een score van 7 op de voortoets is .62, de zakkans is .38.

d) De vraag is dus wanneer ĉ = e^{-4.2 + .671 * Xi}= .5
1 + e^{-4.2 + .671 * Xi}

Dit is alleen het geval als e⁰, want e⁰ = 1 en ĉ = e⁰= 1 = 0.5.
1 + e⁰ 1+1

Dan is de vraag dus wanneer is e^o . Is wanneer -4,2 + .671 * X = 0 .

.671*X=4.2

X = 4,2 = 6.26

.671

Iemand heeft een even grote kans op zakken als slagen (ĉ= 0.5), als de score op de voortoets X = 6.26.

e) De volgende tabel geeft de succeskans weer van X-scores 0 tot en met 10.

Score (X)	Kans (ĉ)
0	.01
1	.03
2	.05
3	.10
4	.18
5	.30
6	.46
7	.62
8	.76
9	.86
10	.92

Extra (hoort niet bij de opdracht):
Bij X=5 p= 0.30, 0.30/0.70= 0.43 (=odds)

f) Odds ratio (OR)= e^b1 = 2,718^.671 = 1,96 (afgerond 2)

De OR geeft de verandering in odds van de ‘target’ groep (hier: slagen) Bij toename van 1 op de predictor X, worden de kansen odds keer zo groot.. OR is in spss Exp (B).

Om deze uitleg te verduidelijken is er een tabel als voorbeeld bijgevoegd:

Score (X)	Kans (ĉ)	Odds(p/(1-p))	Berekening naar OR	OR
4	.18	18/82 = 9/41	-	-
5	.30	30/70 = 3/7	(3/7) / (9/41) =41/21	= 1.95
6	.46	46/54 = 23/27	(23/27) / (3/7) =161/81	= 1.98
7	.62	62/38 = 31/19	(31/19) / (23/27) =837/437	= 1.92

g) OR (3) = e^{.671 * 3} = 7,49 (dit is ook (ongeveer) 1,96³)

Voorbeeld:

De tabel hierboven laat zien dat bij een score van 4 de odds 9/41 zijn.

Om te weten wat de OR is bij een toename van 3 op de score (X) hebben we de volgende formule:
X+a = Odds * OR^a

De ‘a’ staat in deze formule voor de toename van de score (X).

In dit voorbeeld krijgen we

4+3 = 18/82 * 1.96³ = 1.65

Als we dan kijken bij de score van 7 zien we de odds van 62/38 = 1,63

MRA: een additief model (lineaire toename). LRA: een multiplicatief model (exponentiële odds toename).

h) Er is geen verband tussen de predictor variabele (X) en de OR. De OR heeft een constante waarde (hier: 1.96). De OR geeft slechts de verandering van de Odds als X met 1 punt in waarde stijgt. Deze verandering is een verhouding: als X met 1 punt stijgt worden de Odds 1,96 maal zo groot. De relatie tussen X en Odds is exponentieel. Tussen X en logit is er wel een significant verband.

i) Het verband tussen de predictor variabele en de geschatte kans is niet lineair. Zoals in de grafiek en tabel van opgave e) te zien is, is de toename van de kans bij een verandering van de predictor waarde van 2 naar 3 veel kleiner dan een verandering van predictor waarde van 5 naar 6.

j) z = b₁= .671 = 2.66 Dit geeft een p-waarde van 0.0039

SE .252

De regressiecoëfficiënt b₁verschilt significant van 0. Hieruit kunnen we concluderen dat er in de populatie een verband bestaat tussen X1 en Y.

k) Eerst moeten we het 95% betrouwbaarheidsinterval van het regressiegewicht berekenen:

b₁ – 1,96 * SE < b₁< b₁+ 1,96 * SE

.671 – 1,96 * .252 < b₁ < .671 + 1,96 * .252

.177 < b₁ < 1.165

De waarde 0 ligt niet in dit interval. Ook hieruit volgt dat het regressiecoëfficiënt significant van 0 afwijkt.

Het 95% betrouwbaarheidsinterval van de OR is nu:

e^.177 < OR < e^1.165

1.19 < OR < 3.21

De waarde 1 ligt niet in dit interval, dus in de populatie veranderen de odds als X verandert.

Opdracht 2 Logistische regressie

a) ĉ = e^{b0 + b1 * X}
1 + e^{b0 + b1 * X}

Als het regressiecoëfficiënt (b1) 0 is, houden we alleen de constante over:

ĉ = e^b0
1 + e^b0

In een grafiek zullen we een horizontale lijn aantreffen. Zonder betekenisvolle predictor heeft de regressie geen enkele voorspellende waarde.

b) De snelst stijgende curve is b1 = 4. Hier wordt eigenlijk gevraagd bij welk regressiecoëfficiënt de lijn in de grafiek het snelst stijgt bij de 50% slaagkans (dus in het middengebied).

Bij bepaalde waarden van X kunnen we stellen dat iemand zeer waarschijnlijk zal slagen of zakken. Er bestaat echter ook altijd een twijfelgebied (rond het punt 0.5).

Als de regressielijn daar sneller stijgt (zoals bij b=4) is er een kleiner twijfelgebied. Er wordt ook wel gesproken over een groter discriminerend vermogen wanneer het twijfelgebied kleiner is: de scores op y kunnen dan namelijk gemakkelijker worden onderscheiden bij bepaalde x-scores.

c) Een regressiecoëfficiënt kan natuurlijk ook negatief zijn (b1 = -1,25). In dat geval geldt: hoe hoger de score op de predictor (X), des te kleiner is de kans op slagen. Dit kan bijvoorbeeld het geval zijn bij gespannen zijn (X) en het al dan niet slagen voor een toets. De grafiek geeft een voorbeeld van een negatieve curve.

d) ĝ₁ = -4.0 + .80 * X1

ĝ₂ = -2.0 + .35 * X2

Welke toets kan het beste het cursusresultaat voorspellen in termen van geslaagd of gezakt?

Het antwoord is G1. Deze formule bevat een grotere waarde van de regressiecoëfficiënt en daardoor een beter discriminerend vermogen.

Opdracht 3 Logistische regressie met ENTER

a) De (efficient) score statistic van regressie analyse is de maat van samenhang tussen X en Y. Vergelijkbaar in MRA met correlaties.

b) De Chi² = 145.521.

Dit is het verschil in –2LL tussen zowel het model met alleen een constante, ‘nul-model’, als het model met alle 4 voorspellers. De dF is 4, omdat er 4 – 0 predictoren zijn.

(Het aantal vrijheidsgraden wat wordt berekend bij een chi2 is niet zoals met andere toetsen met -1)

c) Het nagestreefde model is met 4 predictoren. De –2LL is een ‘badness-of-fit’-maat: hoe hoger –2LL, des te slechter is de fit. –2LL van het nul-model is:

198.2 + 145.5 = 343.7

=-2LL_{4 pred}=Chi²= -2LL_{0 pred}

d) Het Overall percentage ‘correct voorspeld’ bedraagt:

(correct voorspelde zakkers + correct voorspelde slagers)/ alle gevallen.
(30+150)/270 = 180/270 = 2/3 = .667

Slagen wordt beter voorspeld dan zakken, want er zijn 2 maal zoveel slagers als zakkers.

e) Het regressie coëfficiënt b₁= 2.19. Exp. B= Odds ratio.= e^2.19 = 8.932

De odds om te slagen worden bijna 9 maal zo groot als de predictor 1 punt toeneemt.

f) De Childs interest (p= 0.076) en Parental interest (p> .10) zijn niet significant.

Er is daarom geen reden om een verband tussen X1, X2 en Y in de populatie aan te nemen.

Opdracht 4 Techniek keuze

a) We voorspellen een dichotome afhankelijke variabele (ongeluk) uit onafhankelijke variabele: interval (leeftijd en prijs) en categorische (kleur). De techniek die we daarvoor gebruiken is de Logistische Regressie Analyse, doordat de afhankelijke variabele dichtoom is: D

b) We voorspellen een interval afhankelijke variabele (duurdere auto’s ) met een dichotom variable (geslacht) en een interval variabele (aantal jaren rijbewijs). De techniek die we daarvoor gebruiken is de ANCOVA, doordat je een interval variabele voorspeld uit een dichotome en een interval variabele. (een MRA is ook mogelijk): C

c) We voorspellen een Interval afhankelijke variabele (schade) uit verschillende onafhankelijke variabele: inkomen (interval) en prijs (interval) De techniek die we daarvoor gebruiken is de MRA: A

Werkgroep 5: Multivariate Variantie Analyse (MANOVA) en Discriptieve Discriminantanalyse

Opdracht 1:

Multivariaat effect (multivariate toetsen, Wilks ed.): Is er verschil tussen de groepen op de 4 afhankelijke (Y) variabelen gezamenlijk?
Univariaat effect (Univariate F-toetsen): Is er verschil tussen de groepen op bepaalde afhankelijke (Y) variabele?
De verschillen tussen de groepen zijn over het algemeen redelijk groot in vergelijking tot de standaarddeviaties, behalve bij IQ (geen significante verschillen).
Bij de andere 3 variabelen zou er dus wel eens een univariaat effect kunnen zijn.
Als 3 uit de 4 variabelen univariaat verschillen dan is er vermoedelijk ook een lineaire combinatie te maken die de groepen multivariaat onderscheidt, wat dus wijst op een multivariaat effect. SE= SD/√n
Kijk in de ‘multivariate tests’ tabel onder het kopje ‘Sig.’ Alle 4 de multivariate toetsen zijn significant. Er zit dus ergens een verschil tussen de groepen. We weten nog niet waar dat verschil zit, maar door te kijken naar de significantie weten we dat tenminste één lineaire combinatie van Y’s twee groepen van elkaar onderscheid.

Kijk in de ‘Tests of Between-Subjects Effects’ tabel onder het kopje ‘Sig.’. Er zijn 3 variabelen met een significante univariate F-toets:
-Externe motivatie (p=.0001)
- Interne motivatie (p < .001)
- Doorzetten (p < .001)
Op deze 3 variabelen zijn minstens 2 (lineaire combinaties van) groepsgemiddelden significant verschillend.
Het is mogelijk om een multivariaat effect te hebben en geen univariaat effect!
Verklaring: De verschillen op afzonderlijke variabelen (univariate effecten) zijn elk op zich te klein, maar wel er zijn wel verschillen op de lineaire combinatie (discriminant functievariaat). Dit omdat de effecten dan in wezen cumulatief significant worden.
Een post hoc analyse maakt het mogelijk te bepalen welke groepen significant van elkaar verschillen (op de afhankelijke variabelen waarvan de F-toets significant was).
Als men bij 4 variabelen 3 groepen wil vergelijken zijn er 4x3=12 toetsen.
Als je gewone t-toetsen doet dan is de kans op een ‘toevalstreffer’ (het verschil is significant terwijl in de populatie niets aan de hand is) onaanvaardbaar groot.
Bonferroni is een methode die een type 1 fout verlaagt. De methode richt zich op gewone t-toetsen maar met p-waarden die gecorrigeerd zijn voor het aantal toetsen dat je doet. De ‘over-all’ kans op toevalstreffers over 12 toetsen blijft ongeveer 0.05.
Je betaalt wel een prijs: Het uitvoeren van een Bonferroni gaat ten koste van de statistische power (type 2 fout).

Een alternatief is: Tukey-Scheffe

Zoals te verwachten zijn er geen verschillen op IQ. Wel zijn er verschillen op andere variabelen.
- Topsporters scoren significant hoger op intrinsieke motivatie, extrinsieke motivatie en doorzettingsvermogen dan beide andere groepen.
- Er is geen enkel significant verschil tussen recreanten en niet-sporters.

Opdracht 2:

Gemiddelden en standaard deviaties zijn in beide sets precies hetzelfde.
Univariate F-toetsen zijn ook precies hetzelfde en niet significant.
Alleen de multivariate toetsen verschillen:
Set 1 Pillai’s Trace p<0.05, Wilks’ Lambda, Hotelling’s Trace en Roy’s Largest Root tonen allen een significant verband aan met een p waarde <0.01.
Set 2: niet significant
De afhankelijke variabelen gaan op de assen en dan per persoon de data erin zetten.
Set 1: nauwelijks overlap tussen puntenwolken.

Set 2: Enorme overlap tussen puntenwolken.

Uit de plaatjes blijkt dat er veel meer overlap is bij de data van de Russen. Bij de data van de Nederlanders is minder overlap te zien en de groepen worden daarom ook beter dan elkaar onderscheiden.
Gevolg: In set I worden groepen uit elkaar getrokken op de eerste canonische variaat maar in set II niet.

*discriminant fuctie en canonische variaat zijn allebei lineaire functies van afhankelijke variabelen.

Opdracht 3:

Het minimaal aantal groepen bij twee variaten: k =3. Bij 2 groepen kun je maar 1 variaat hebben. In dit voorbeeld zijn er 2, dus dat kan eigenlijk niet. Er moet dus een groep zijn weggelaten. 3-1 = 2, dus 2 groepen.
Voor elke groep (A of B) en voor elke dimensie (1 of 2) het gewicht voor elke variabele vermenigvuldigen met het gemiddelde van die groep op dezelfde variabele.

P1A: 4+(0,5*2)+(1,5*8)+(1,2*5)+(0,8*6)= 27,8

P1B: 4+ (0.5*4) +(1,5*3) +(1,2*5) +(0,8*4) = 19,7

P2A: 1+(-0,6*2)+(0,5*8)+(-1,2*5)+(0,8*6)= 2,6

P2B: 1+(-0,6*4)+(0,5*3)+(-1,2*5)+(0,8*4)= -2,7

Functie D1: Alle gewichten positief--> algemene angst en depressievariaat

Functie D2: Gewichten X1 en X3 (angst) zijn negatief en X2 en X4 (depressie) zijn positief --> angst vs. Depressie variaat.

Interpretaties zijn gebaseerd op ongestandaardiseerde regressiegewichten.ek

Ontgestandaardiseerd--> we weten niets over de sterkte van de relatie tussen de variabelen en variaten. Groep A scoort gemiddeld hoger op algemene psychopathologie variaat en op depressie & angst variaat. Relatief veel psychopathologie in het algemeen, daarbinnen veel depressie.

Gewichten--> zeggen iets over de unieke bijdragen van variabelen aan de variaat, maar niets over de totale bijdrage.

e) Interpretaties: Hier heb je de correlaties nodig van de variaten met de variabelen.

Opdracht 4:
I: LRA, want X- variabelen zijn interval en de Y is dichotoom.
II: MRA, alle variabelen zijn interval.

III: MANOVA: deze opdracht is weggevallen in het werkboek, maar zal op blackboard terug te vinden zijn.

Werkgroep 6: Repeated measures ANOVA

Is er een verschil in gemiddelden tussen p herhaalde metingen van een intervariabele (within subjects)? Errors zijn gecorreleerd, dus gewone ANOVA niet mogelijk. Aantal cotracten p-1.

Opdracht 1:
Orthogonaal: De contrasten hebben niets met elkaar te maken, ze beïnvloeden elkaar op geen enkele manier. De uitkomst van onderstaande formule is dan 0.
Het maakt voor de contrasten niet uit welke je negatief maakt en welke positief zolang ze maar optellen tot 0.

Paar van contrasten: bepaal voor elke Yi het product van de coëfficiënten (ViWi). Tel deze producten op over alle Yi's. Als de som 0 is, is de paar contracten orthogoaal.

Set van p-1 contrasten als geheel. Hoeveel paren bij m contrasten? m*(m-1)/2

De contrasten moeten paarsgewijs berekend worden!
Simple: Vergelijkt 2 variabelen met elkaar (elke keer Y1 met een ander).
L1: 1 -1 0 0 (Y1 vs Y2)
L2: 1 0 -1 0 (Y1 vs Y3)
ViWi: 1 0 0 0 ∑ViWi = 1 (-->niet 0, dus niet orthogonaal)
Vi = 1e contrast (L1), Wi = 2e contrast (L2), dit bereken je door L1 *L2 te doen--> L1(1)*L2(1)=1

L1: 1 -1 0 0 (Y1 vs Y2)
L3: 1 0 0 -1 (Y1 vs Y4)
ViWi: 1 0 0 0 ∑ViWi = 1

L2: 1 0 -1 0 (Y1 vs Y3)
L3: 1 0 0 -1 (Y1 vs Y4)
ViWi: 1 0 0 0 ∑ViWi = 1

Geen enkel paar in de ‘simple set’ is dus orthogonaal (∑ViWi = 1).
De andere sets gaan volgens hetzelfde idee, ze worden niet per paar uitgeschreven.

Repeated: Elke afhankelijke variabele wordt vergeleken met de direct voorgaande afhankelijke variabele.
L1: 1 -1 0 0
L2: 0 1 -1 0
L3: 0 0 1 -1
ViWi(1.2) 0 -1 0 0 ∑ = -1
ViWi(1.3) 0 0 0 0 ∑ = 0
ViWi(2.3) 0 0 -1 0 ∑ = -1
De opeenvolgende contrasten (1.2 & 2.3) zijn dus niet-orthogonaal, de rest wel. De set als geheel is niet-orthogonaal. Een set is alleen orthogonaal als alles orthogonaal is.

Difference: Hiërarchisch opgebouwd

Eerst wordt Y1 met Y2 vergeleken, daarna worden Y1 en Y2 samen genomen en met Y3 vergeleken daarna worden Y1, Y2 en Y3 samen genomen en vergeleken met Y4 etc.
L1: -1 1 0 0
L2: -.5 -.5 1 0
L3: -.333 -.333 -.333 1

ViWi(1.2) .5 -.5 0 0 ∑ = 0

ViWi(1.3) .333 -.333 0 0 ∑ = 0
ViWi(2.3) 1/6 -.333 -.333 0 ∑ = 0

Deze set is als geheel orthogonaal.
Helmert: Hetzelfde als ‘difference’ alleen dan achterstevoren.

Omdat het hetzelfde is als difference zijn de uitkomsten hetzelfde en is deze set ook als geheel orthogonaal.
Polynomial: Te gebruiken bij verschillende soorten trends.

ViWi(1.2) -3/8 1/8 -1/8 3/8 ∑ = 0
ViWi(1.3) 3/16 -3/16 3/16 3/16 ∑ = 0
ViWi(2.3) -1/8 -3/8 3/8 1/8 ∑ = 0

Deze set is dus ook als geheel orthogonaal.
Opdracht 2:
a)

Werkt toediening van een medicijn beter dan de placebo?

Y1 Y2 Y3 Y4 Y5 P

L1 ¼ ¼ ¼ ¼ -1

Werkt medicijn A beter dan medicijn B?

Y1 Y2 Y3 Y4 Y5 P

L2 ½ ½ - ½ - ½ 0

Is bij medicijn A een hoege dosis beter dan een lage dosis?

Y1 Y2 Y3 Y4 Y5 P

L3 1 -1 0 0 0

Is bij medicijn B een hoge dosis beter dan een lage dosis?

Y1 Y2 Y3 Y4 Y5 P

L4 0 0 1 -1 0

Alle paren zijn orthogonaal.

b)
Werkt toediening van een lage dosis medicijn beter dan de placebo?

Y1 Y2 Y3 Y4 Y5 P

L1 0 ½ 0 ½ -1

Werkt toediening van een hoge dosis medicijn beter dan de placebo?

Y1 Y2 Y3 Y4 Y5 P

L2 ½ 0 ½ 0 -1

Werkt toediening van een hoge dosis medicijn beter dan een lage dosis?

Y1 Y2 Y3 Y4 Y5 P

L3 ½ - ½ ½ - ½ 0

Werkt medicijn A beter dan medicijn B?

Y1 Y2 Y3 Y4 Y5 P

L4 ½ ½ - ½ - ½ 0

L4 is orthogonaal ten opzichte van L1,L2,L3. Dus als L4 vergeleken werd met de anderen was deze elke keer orthogonaal.
L1, L2 en L3 zijn onderling niet orthogonaal. De set als geheel is dus niet orthogonaal.

Opdracht 3:

Er zijn 4 meetmomenten en de gemiddelden zijn gegeven in het werkboek. Als je de meetmomenten op de x as zet en de gemiddelden op de y-as dan krijg je de volgende grafieken op de volgende bladzijde:

a) Cubic b) Kwadratisch

c) Lineair

Voor het berekenen van de uitkomsten van contrasten voor de lineaire, kwadratische en cubic trend moet je eerst de ‘voorgebakken contrasten’ in het werkboek bekijken. Deze zijn de volgende: (hiervoor kijk je bij de polynoom contrasten)

L1: - ¾ - ¼ ¼ ¾ lineair
L2: ½ - ½ - ½ ½ kwadratisch
L3: - ¼ ¾ - ¾ ¼ cubic
Om tot de uitkomsten te komen moet je de contrasten vermenigvuldigen met de gemiddelden:
Dus bij de gemiddelden van set a (3, 7, 5, 9) zijn dit de volgende:
L1 = (- ¾ x 3) + ( - ¼ x 7) + ( ¼ x 5) + ( ¾ x 9) = 4 (lineair)
L2 = ( ½ x 3 ) + ( - ½ x 7) + (- ½ x 5) + ( ½ x 9) = 0 (kwadratisch)
L3 = (- ¼ x 3) + ( ¾ x 7 ) + (- ¾ x 5 ) + ( ¼ x 9) = 3 (cubic)
Hoe meer de uitkomst van een contrast afwijkt van 0 des te belangrijker is de bijbehorende trend.
In deze set (set a) is de kwadratische trend niet belangrijk, deze is immers gelijk aan 0, de rest is wel belangrijk.

De lineaire trend wijkt het meeste af van 0 (de uitkomst is 4) dus deze is het belangrijkst.
b) De gemiddelden van set b zijn 0 3 4 1. De berekeningen gaan op dezelfde manier als in set a, alleen gebruik je nu dus de gemiddelden van set b.
L1 = (- ¾ x 0) + ( - ¼ x 3) + ( ¼ x 4) + ( ¾ x 1) = 1 (lineair)
L2 = ( ½ x 0 ) + ( - ½ x 3) + (- ½ x 4) + ( ½ x 1) = -3 (kwadratisch)
L3 = (- ¼ x 0) + ( ¾ x 3 ) + (- ¾ x 4 ) + ( ¼ x 1) = - ½ (cubic)
In deze set is de kwadratische trend het belangrijkst, deze wijkt namelijk het meeste af van 0.
c) De gemiddelden van set c zijn 9 7 4 0.
L1 = (- ¾ x 9) + ( - ¼ x 7) + ( ¼ x 4) + ( ¾ x 0) = -7.5 (lineair)
L2 = ( ½ x 9 ) + ( - ½ x 7) + (- ½ x 4) + ( ½ x 0) = -1 (kwadratisch)
L3 = (- ¼ x 9) + ( ¾ x 7 ) + (- ¾ x 4 ) + ( ¼ x 0) = 0 (cubic)

In deze set is de lineaire trend het belangrijkst want deze wijkt het meeste af van 0. Cubic is hier gelijk aan 0 en dus niet belangrijk.
Opdracht 4:
a) De 2 hoofdeffecten in deze opgaven zijn sekse en conditie.

Hoofdeffect sekse:
Om dit effect goed te interpreteren heb je de marginale gemiddelden nodig van mannen en vrouwen.

Deze marginale gemiddelden kun je terug vinden in de ‘estimates tabel’ in het werkboek.
Voor de mannen is het marginale gemiddelde 11.25, voor de vrouwen is dit 15.77.

(Je kunt het ook als volgt berekenen: Mm= (7,77+9,20+16,37+11,66)/4= 11,25

Mv= (10,18+15,75+17,51+19,63)/4= 15,77)

Deze gemiddelden zeggen dat vrouwen (15.77) al met al een meer depressief affect hebben dan mannen (11.25).
Hoofdeffect conditie:
Om het hoofdeffect van conditie te kunnen interpreteren moet er weer gekeken worden naar de ‘conditie estimates tabel’.
Conditie 1 = Voormeting. (m=8.98)
Conditie 2 = Ongedifferentieerde stemmingsinductie (m=12,48)
Conditie 3 = Faal stemmingsinductie (m=16,94)
Conditie 4 = Afwijzing stemmingsinductie. (m=15,65)
De gemiddelden in de estimates tabel lopen op, dit zegt ons het volgende:
Na ongedifferentieerde stemmingsinductie is er meer depressief affect dan in de voormeting.

Nog meer depressief affect na afwijzing- en faalinductie, deze verschillen nog meer van het gemiddelde van de voormeting en de ongedifferentieerde inductie.
Al met al zegt dit dat stemmingsinducties werken, vooral de faal- en afwijzingsinducties.
b) Om de interactie te interpreteren moet er gekeken worden in de ‘descriptive statistics tabel’ .
Het verschil tussen vrouw en man is het sterkst bij afwijzing (19.631 – 11.658 = 7.9), iets minder bij ongedifferentieerd (6.6) en nog minder bij de voormeting (2.437). We weten niet welke marginale gemiddelden (hoofdeffecten) of welke celgemiddelde (interactie) significant van elkaar verschillen.

c) Om deze vraag te kunnen beantwoorden kijk je simpelweg naar de opbouw van de gemiddelden:
V – OFA
O- FA
F –A NB: V = voormeting, O =ongedifferentieerd, F = Faalinductie, A = Afwijzinginductie.

Het begint met variabele 1 vergelijken met variabelen 2,3 en 4.
Daarna variabele 2 met 3 en 4. En uiteindelijk variabele 3 met variabele 4.

Zoals je in de modellen in de eerdere opgaven hebt kunnen zien lijkt de opbouw uit deze opgave het meest op de Helmert set met contrasten.

d) In de tabel ‘Tests of Within-Subjects contrasts’ kun je zien welke toetsen significant zijn gebleken, dit zijn de volgende:
V vs OFA
O vs FA
Interactie F vs A
Voor deze significante contrast- toetsen moeten de gemiddelden berekend worden:

Om deze gemiddelden te berekenen moet opnieuw gekeken worden in de estimates tabel.
V vs OFA: 9 vs 15 (12.5+16.9+15.6 /3 = 15)
OFA heeft een hoger gemiddelde dan V. Dit wil zeggen dat er na stemmingsinductie meer depressief affect was dan bij voormeting.

O vs FA: 12.5 vs 16.3 (16.9+15.6/2 = 16.3)
FA heeft een hoger gemiddelde dan O. Dit wil zeggen dat na gerichte stemmingsinducties (falen, afwijzing) een meer depressief affect optreed dan na ongedifferentieerd stemmingsinducties.

Interactie F vs A: Verschillen tussen gemiddelden (F-A) is 4.7 bij de mannen en –2.1 bij de vrouwen.
Mannen zouden dus meer depressief affect ervaren na falen, vrouwen meer depressief affect na afwijzing.
Opdracht 5:
5.1 Repeated Measures ANOVA, omdat er 3 herhaalde metingen zijn en alle variabelen zijn op intervalniveau.

5.2 LRA, DICH (Knipperlichtrelatie: ja of nee)--> INT, INT, INT

5.3 MRA, INT-->INT

Werkgroep 7 Padanalyse

Opdracht 1

Alleen variabelen die voorspeld worden, waar dus een pijl naartoe gaat, krijgen een error.

Error staat hier voor de geobserveerde – de voorspelde scores.
Er hadden ook correlatie pijlen kunnen lopen van de coping stijlen naar elkaar toe, maar hierover is geen duidelijkheid aangegeven in de opgave, dus zijn deze achterwege gelaten. In een SEM model moeten deze pijlen er wel zijn anders krijg je een slechte fit: als men een pijl weglaat in het model, wordt dit namelijk gezien als het ontbreken van een relatie tussen variabelen.

Met SPSS kan je alleen twee losse regressiemodellen bestuderen, maar kan het model als geheel niet toetsen.
2. Goede voorspellers kun je herkennen doordat ze significant zijn op p <0.05.
Dit zijn de volgende voorspellers:
- BASS
- BOUT

BAVO was bijna significant en daarom ook de moeite waard om nader te bekijken.
Positief gerelateerd aan ‘anger mood’ (dus de positieve regressiegewichten) zijn de volgende:

- BOUT

- BSOS

- BDIF

Negatief gerelateerd aan ‘anger mood’ (dus de negatieve regressiegewichten) zijn de volgende:

- BASS
- BRUM
– BAVO
De hoeveelheid verklaarde variantie vind je terug in ‘model summary’ tabel, bij R Square.

Hier vind je de waarde 0.235 = 23.5% van de variantie van ‘anger mood’ wordt verklaard door de 6 coping stijlen.
3. Dit kun je zien door naar de 2^e regressie uitwerkingen te kijken, waar ‘anger mood’ voorspeld wordt. In de coefficients tabel kun je zien dat deze variabele significant is en dus een goede voorspeller van ‘somatische klachten’.

In de model summary tabel, onder R Square vinden we de waarde 0.087 = ± 9% van de variantie van ‘somatische klachten wordt verklaard door ‘anger mood’. Dat is ‘aardig’, maar niet heel goed.
4. Om deze vraag te kunnen beantwoorden moet je in de ANOVA tabel kijken onder df. De degrees of freedom kunnen bepaald worden door het aantal deelnemers -1 te doen (N-1).

Door dus nu bij Total 1 op te tellen kom je bij het aantal deelnemers.
392 + 1 = 393. Er waren dus 393 deelnemers.

5. Een indirect effect, van bijvoorbeeld A op C, kun je als volgt visualiseren:

       ßba         ßcb
A    -->      B ---> C
BOUT      ANG      SCL

Om een indirect effect te berekenen moet je de gestandaardiseerde regressiegewichten met elkaar vermenigvuldigen. In dit geval dus de regressiegewichten van ‘outright display’ à Anger: ß = 0.400
Anger à SCL: ß = 0.295

Indirect effect van ‘outright display’ op ‘SCL’ is dus 0.400 x 0.295 = 0.118

(NB. De gestandaardiseerde regressiegewichten vind je terug in de coefficients tabel).

6. Dit is eigenlijk een strikvraag.
Met behulp van alleen regressie analyses in SPSS kunnen we niet zeggen of het model bij de data past, het heeft namelijk geen modeltoets.
We kunnen wel zeggen dat er 2 redelijke (significante) regressievergelijkingen zijn gevonden.
7. Terug te vinden in regel 8 en 9:
V3 = BASS V1 = SCL
8. Dit houdt in dat er covarianties zijn tussen alle onafhankelijke variabelen.
Deze dienen enkel als voorspeller en worden zelf niet voorspeld (=exogene variabele). De bijbehorende covarianties moeten geschat worden.
9. Model zonder relaties tussen de variabelen: alle covarianties zijn gelijk aan 0. Je hebt dus 8 variabelen die op geen enkele manier gecorreleerd zijn met elkaar.
Wordt eigenlijk gebruikt als baseline model: slechter kun je het niet doen.
10. Chi square = 24.786 met df =6 p = 0.00037
Dus het model fit niet met de data volgens de Chi Square.
(Je verwerpt de nulhypothese dat model en data gelijk zijn).
11. Degrees of freedom = 6.
Met de volgende formules kun je deze berekenen:

DF= V-P

V =aantal observaties in covariantie matrix= n (n+1) / 2
P = aantal vrije parameters= aantal exogene variabelen + aantal pijlen in het model.

n= aantal manifeste variabelen.
V = 8 (8+1) /2 = 36
P= aantal padcoefficienten= 7

aantal exogene variabelen= 6

aantal errorpijlen= 2

covariantie tussen exogene variabelen = n(n-1)/2= 6(6-1)/2= 15

Dus: p= 7+6+2+15=30 ( Je kan hier ook het aantal sterretjes tellen)

DF = 36 – 30 = 6.

12. Terug te vinden op blz. 6 van de output in de ‘Goodness of fit summary for method’ tabel.
Bentler-Bonnet normed fit-index: 0.961
Deze waarde moet groter zijn dan 0.90, dus volgens deze statistiek is het model een goede fit met de data.
13. RMSEA = 0.89
Deze waarde moet kleiner zijn dan 0.10, dus het model is OK.
14. Residu is data die je niet kunt voorspellen. Het verschil tussen de werkelijke en de geschatte score.
Gestandaardiseerde residu is het verschil tussen correlaties.

We kijken in de ‘largest standardized residuals tabel’ bekijken:
v6, v1   0.202
v5, v1   0.180
v3, v1   0.070
v8, v1   -0.013
v4, v1   0.010
v7, v1   0.004

- Residuen die groter zijn dan 0.10, kunnen problematisch zijn.
- Residuen die niet 0 zijn, zijn punten waarop het model het misschien wel fout kan hebben.

Verbeteren kan door directe pijlen van de onafhankelijke variabelen naar SCL te trekken.
Vooral bij v6,v1 en v5,v1 zou dit erg hulpvol kunnen zijn.
15. Op pagina 11 van de output: ‘Measurement equations with SE’s and test statistics’.
Er staan elke keer 3 getallen onder elkaar.
1^e rij = het regressiegewicht.

2^e rij = de standaard error van het regressiegewicht.
3^e rij = de toets statistiek ( regressiegewicht / SE Regressiegewicht), waarbij een ‘@’ betekent dat deze significant is.
16. Op pagina 14 kun je deze terugvinden: ‘Standardizes solution’.

17. Het model fit niet met de data.

Opdracht 2

a r12, r13, r15. Omdat X1 vs. X2, X3, en X5 op geen enkele wijze zijn verbonden. (geen directe pijlen, geen gemeenschappelijke oorzaken en geen dubbele pijlen). r12, r13 en r15 zijn 0.

b De stelsels van vergelijkingen zijn hieronder weergegeven:

X4= β41X1+β42X2+E4

X5= β52X2+ β53X3+E5

X6= β64X4+ β65X5+E6

c β43= β51= β61= β62= β63=0

Bovendien is er geen pad tussen X4 en X5 (Geen β45 of β54 of niet geanalyseerde correlatie) en r12=r13=0

d Hieronder staan de indirecte effecten die door het model voorspeld worden:

X1 --> X4 --> X6

X2 --> 4à --> 6

X2 --> X5 --> X6

X3 --> X5 --> X6

Opdracht 3

a) Zres (X1,X2)= 0.28 Volgens model zou r12 nul moeten zijn, maar is blijkbaar 0.28. Oplossing: dubbele pijl tussen X1 en X2.

Zres (X3,X4)= -0.18 Volgens model zou r34 nul moeten zijn, maar is blijkbaar -0.18. Oplossing: pijl van X3 naar X4. Leidt: direct tot negatieve correlatie tussen X3 en X4. Indirect via gemeenschappelijke oorzaak X3 tot lagere negatieve correlatie tussen X4 en X5.

b) X²(7)= 14.35. Dit is significant, want het is hoger dan 14.07, p < 0.05. Data zeggen 'nee' tegen het model. (Eigenlijk zou je ook nog de fitmaten moeten bekijken).

c) De verandering van ) X²= 30.48-14.35= 16.13. Verandering in vrijheidsgraden: 9-7= 2. Met een p-waarde < 0.0005. Het is een significante verbetering ten opzichte van het andere model.

d) Model 3 is genest binnen het oorspronkelijke model.

Opdracht 4

Techniekkeuze:
1. D :PCA
2. B: NOM+NOMàINT is 2-weg ANOVA.
3. C: PAD Analyse.

Access:

Public

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check more of topic:

Samenvattingen voor psychologie en gedrag

Universiteit Leiden en studieverenigingen

Going abroad?

Insure your way around the world

International expat insurances

Travel & Worldsupporter insurances (NL)

Study with summaries

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Spotlight: topics

Check the related and most recent topics and summaries:

Activities abroad, study fields and working areas:

Follow the author: Psychology Supporter

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics

Search a summary, study help or student organization

Select any filter and click on Search to see results

Werkgroepaantekeningen bij Multivariate Data-Analyse (MVDA) - UL - 2012/2013

Werkgroep 1 Multipele Regressie Analyse

Werkgroep 2: Twee-weg ANOVA
(ook als Regressie met Dummy Variabelen)

Werkgroep 3: ANCOVA

Werkgroep 4: Logistische Regressie Analyse (LRA)

Werkgroep 5: Multivariate Variantie Analyse (MANOVA) en Discriptieve Discriminantanalyse

Werkgroep 6: Repeated measures ANOVA

Werkgroep 7 Padanalyse

Samenvattingen voor psychologie en gedrag

Universiteit Leiden en studieverenigingen

Contributions: posts

Add new contribution

Spotlight: topics

Samenvattingen voor psychologie en gedrag

Research, science and statistics

Development Goal 04: Quality Education

Universiteit Leiden en studieverenigingen

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

Quicklinks to fields of study for summaries and study assistance

Werkgroepaantekeningen bij Multivariate Data-Analyse (MVDA) - UL - 2012/2013

Werkgroep 1 Multipele Regressie Analyse

Werkgroep 2: Twee-weg ANOVA(ook als Regressie met Dummy Variabelen)

Werkgroep 3: ANCOVA

Werkgroep 4: Logistische Regressie Analyse (LRA)

Werkgroep 5: Multivariate Variantie Analyse (MANOVA) en Discriptieve Discriminantanalyse

Werkgroep 6: Repeated measures ANOVA

Werkgroep 7 Padanalyse

Samenvattingen voor psychologie en gedrag

Universiteit Leiden en studieverenigingen

Contributions: posts

Add new contribution

Spotlight: topics

Samenvattingen voor psychologie en gedrag

Research, science and statistics

Development Goal 04: Quality Education

Universiteit Leiden en studieverenigingen

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

Quicklinks to fields of study for summaries and study assistance

Werkgroep 2: Twee-weg ANOVA
(ook als Regressie met Dummy Variabelen)