Werkgroepaantekeningen bij Multivariate data-analyse (MVDA) aan de Universiteit Leiden - 2018/2019

Werkgroep 1: Multipele Regressie Analyse
Werkgroep 2: ANOVA
Werkgroep 3: Ancova
Werkgroep 4: Logistic Regression Analysis
Werkgroep 5: MANOVA
Werkgroep 6: Repeated Measures ANOVA
Werkgroep 7: Mediatie Analyse

Let op: niet alle vragen worden in de werkgroepen besproken, dus aantekeningen zijn niet compleet met de werkboekstof

Werkgroep 1: Multipele Regressie Analyse

Deze week gaat over MRA, hierbij wordt een Y van interval niveau voorspeld uit meerdere X'en van interval niveau wordt. Binair is tegelijk ook interval, omdat alle intervallen gelijk zijn, gezien er maar één interval is.

Opdracht 1.1 A

Check de assumpties lineariteit, homoscedasticiteit en normaliteit van residuen. Is het regressiemodel geschikt voor de data?

Alle variabelen zijn van interval niveau. In een scatterplot kan er gekeken worden naar of er een patroon aanwezig is dat op non-lineariteit duidt of op heteroscedasticiteit. In dit geval is er sprake van lineairiteit en homoscedasticiteit. De normaliteit van residuen of error wordt gecheckt met standardized residual. De punten moeten dicht bij de lijn liggen en in dit geval klopt dat. Hieruit valt te concluderen dat dit model geschikt is voor de data.

Opdracht 1.1 B

Is er bewijs voor multicollineariteit in de data?

Multicollineariteit geeft een overlap tussen variabelen/predictoren aan. Voor deze vraag kijk je in de tabel bij Collinearity Statistics. In dit geval is de Tolerance niet < 0,1 en de VIF niet > 10. Dus er is geen multicollineariteit in de data.

Opdracht 1.1 C

Zijn er outliers, influential points of outliers op de predictoren aanwezig?

Outliers on dependent variable: niet aanwezig, want Residual < |3|
Influential points: niet aanwezig, want Cook's Distance < 1
Outliers on predictors: niet aanwezig, want Leverage: 0,074 < 3 (2+1)/58 = 0,155

Opdracht 1.1 D

Wat zijn de nulhypothese en de alternatieve hypothese om het regressiemodel te testen?

H0: β1 = β2 = 0.

Ha: minstens 1 βj is niet gelijk aan 0.

Er wordt gebruikt gemaakt van β in plaats van b, omdat het gestandaardiseerd is.

Opdracht 1.1 E

Kan de nulhypothese verworpen worden?

Ja, F(2, 55) = 37.770, p < .001

Opdracht 1.1 F

Wat zijn de nulhypothese en alternatieve hypothese om de individuele coefficienten te testen?

H0: β1 = 0

Ha: β1 is niet gelijk aan 0

H0: β2 = 0

Ha: β2 is niet gelijk aan 0

Opdracht 1.1 G

Welke predictoren zijn significant?

Language skill
- β1 = .495
- t(55) = 3.849, p < .001
Motor skill
- β2 = .342
- t(55) = 2.998, p < .001

Opdracht 1.1 H

Geef de ongestandaardiseerde en de gestandaardiseerde regressievergelijking.

Ongestandaardiseerd: Voorspelde RA = -1,596 + 1,049 (Language Skill) + 0,464 (Motor Skill). Dit is opgesteld uit ŷ = b0 +b1X1 + b2X2.

Gestandaardiseerd: (Voorspelde RA)st = 0,495 (LS)st + 0,342(MS)st. Deze is opgesteld vanuit ŷst = β1X1st + β2X2st. Hier is b0 gelijk aan 0, dus staat deze niet in de formule.

Opdracht 1.1 I

Interpreteer de regressievergelijkingen van Opdracht 1h.

Ongestandaardiseerd:
- als Language skills + 1, dan reading a + 1,049
- als Motor skills + 1, dan
Gestandaardiseerd:
- als LS + 1 st.dev, dan (Voorspelde RA)st + 0.495 st.dev
- als MS + 1 st.dev, dan (Voorspelde RA)st + 0,342 st.dev

Opdracht 1.1 J

Hoeveel variantie van Y is in totaal door X1 en X2 verklaard?

VAF=R squared= 0,579 en dus 57,9%. Dit is af te lezen, maar ook te berekenen met SSregressie / SStotaal. R is de correlatie tussen de voorspelde en de daadwerkelijke waarde. Dit is R squared in model summary.

Opdracht 1.1 K

Wat is de uniek verklaarde variantie van X1? Wat is de uniek verklaarde variantie van X2? Wat is de beste predictor?

Om de uniek verklaarde variantie te berekenen, doe je de waarde bij Part (in de tabel) in het kwadraat.

X1 (language skills): 0,380² = 0,144
X2 (motor skills): 0,262² = 0.069

De beste predictor heeft de hoogste absolute part of/en de hoogste absolute β. In dit geval is X1 dus de beste predictor.

Opdracht 1.1 L

Teken de Venn diagram die hoort bij de variantie van Y.

De Venn diagram is in te vullen met: de totaal verklaarde variantie = R squared = 0,579. De uniek verklaarde varianties zijn: 0,144 + 0,069 = 0,213. De algemeen verklaarde variantie is dan: 0,579 - 0,213 = 0,366. Het Venn diagram bestaat uit drie overlappende cirkels. 0,144 is het gebied van overlap tussen Y en X1.0,069 is het gebied van overlap tussen Y en X2. 0,366 is het gebied van overlap tussen Y, X1 en X2.

Opdracht 1.2 A

Wat is de uniek verklaarde variantie van X1? En van X2?

X1: 0,300² = 0,090
X2: 0,447² = 0,200

Opdracht 1.2 B

Hypothetisch gezien, hoeveel variantie van Y zou verklaard worden door X1 en X2 bij elkaar als deze volledig onafhankelijk waren van elkaar?

R² = .500² + .600² = .610

Opdracht 1.2 C

Hoeveel variantie van Y is werkelijk verklaard door X1 en X2 samen?

Hierbij tel je het kwadraat van Zero-order van de ene X op bij het kwadraat van Part van de andere X.

X1: 0,500² + 0,447² = 0,450
X2: 0,600² + 0,300² = 0,450

Opdracht 1.2 D

Check dat beide formules leiden tot dezelfde uitkomst.

Zie uitwerking van opdracht 1.2 C

Opdracht 1.3

Volg bij toetskeuze het volgende stappenplan:

Welke variabelen doen mee?
Verdeel de variabelen in sets
Bepaal het meetniveau
Wat is de onderzoeksvraag?

Opdracht 1.3 A

Kan child's interest worden voorspeld uit parental interest en teacher's interest?

Volgens bovenstaand stappenplan:

3 variabelen: child's interest, parental interest, teacher's interest
2 sets:
- Y = child's interest
- X = parental interest, teachers interest
3x INT level

Het gaat hier om de multiple regressie analyse (MRA)

Opdracht 1.3 B

Hebben ouders een grotere interesse dan leraren?

Het gaat hier om de dependent samples t test

Opdracht 1.3 C

Meten alle items in de test hetzelfde?

Het gaat hier om een exploratory factor analysis (EFA)

Opdracht 1.4 A

Hoeveel variantie van Y wordt verklaard door Extraversie in Model 1?

R² = 0,494

Opdracht 1.4 B

Hoeveel variantie van Y wordt verklaar door Age in Model 2?

R³ = 0,416

Opdracht 1.4 C

Hypothetisch gezien, hoeveel variantie zou verklaard worden door beide predictoren samen wanneer deze volledig onafhankelijk waren van elkaar?

R² = 0,494 + 0,416 = 0,910

Opdracht 1.4 E

Hoeveel variantie wordt verklaard door Extroversion en Age bij elkaar in Model 3?

R² = 0,832

Opdracht 1.4 F

Hoeveel overlap is er tussen X1 en X2 in Model 3?

.910 − .832 = .078

Opdracht 1.4 G

Wat is de uniek verklaarde variantie van X1? En van X2?

X1: .494 − .078 = .416
X2: .416 − .078 = .338

Opdracht 1.5

Check de volgende figuren op schendingen van lineariteit en/of homoscedasticiteit.

Figuur 1: sprake van heteroscedasticiteit
Figuur 2: geen schendingen
Figuur 3: non-lineariteit
Figuur 4: heteroscedasticiteit en non-lineariteit
Figuur 5: heteroscedasticiteit
Figuur 6: heteroscedasticiteit en non-lineariteit

Opdracht 1.6 A

Bevestigen de resultaten in model 1 de associaties tussen intelligentie, motivatie en schoolprestatie zoals gevonden in de meta-analyse?

Ja, want zowel child’s ability, β = .498, t(267) = 9.506, p < .001, als motivation, β = .230, t(267) = 4.392, p < .001, zijn significant en positief gerelateerd aan child's interest.

Opdracht 1.6 B

Hoeveel variantie van schoolprestatie is verklaard door intelligentie en motivatie in model 1?

R squared = 0,397 en deze is hier hetzelfde als R squared change.

Opdracht 1.6 C

Wordt model 1 significant verbeterd door de toevoeging van teacher's interest in model 2?

Ja, F(1, 266) = 12.322, p = .001 en R2 Change = .027

Opdracht 1.6 D

Wordt model 2 verbeterd door toevoeging van parental interest in model 3?

Nee, want F(1, 265) = 1.256, p = .263

Opdracht 1.8

Geen tekenen van non-lineariteit of heteroscedasticiteit
P-P plot duidt op een normale verdeling van de residuen
Er is geen sprake van multicollineariteit
St. residuals < -3 en Leverage > 0,18, maar geen van deze zijn invloedrijk, want Cook's < 1.

Resultaat:

Een MRA uitgevoerd om stresslevel van bankmedewerkers te voorspellen uit het aantal taken dat zij hebben en de complexiteit van de taken.
Beide predictoren voorspellen samen 50,2% van de variantie in stresslevel, R2 = .502, F(2,46) = 23.16, p < .001.
Het aantal taken is geassocieerd met hogere stress levels: β = .71, t(46) = 5.23, p < .001
De complexiteit van de taken is niet gerelateerd aan het stresslevel: β = -.01, tt(46) = -.06, p = .953

Werkgroep 2: ANOVA

We hebben in een ANOVA te maken met nominale X variabelen en een Y variabele van interval niveau.

Opdracht 2.1 A

Voor de homogeniteit van de varianties wordt er in de output gekeken naar de Levene's test, deze is niet significant.

Voor de normaliteit van de residuen kijk je naar het histogram. Deze is niet normaal verdeeld.

Opdracht 2.1 B

In elke groep n≥15 → F is robuust voor 'non-normality'

Design is gebalanceerd → F robuust voor heterogene groepvarianties

Opdracht 2.1 C

H0: μ11 = μ12 = μ21 = μ22

Ha: at least two μij not equal

Opdracht 2.1 D

Ja, F(3,164)= 12.679, p<.001

Method: F(1,164)=20.734, p<.001

Method*Gender: F(1,164)= 17.201, p<.001

Opdracht 2.1 E

Teken een plot met daarin 'Method' (AM en WN) op de x-as en 'Estimated Marginal Means' (3-4-5-6-7) op de y-as.

Teken hierin de lijnen voor 'boys' en 'girls'.

Opdracht 2.1 F

Method: AM heeft betere resultaten (M= 6.339) dan WN (M= 4.505)

Method*Gender: Jongens presteren beter met methode AM dan WN (Mdif f= 3.539); geen verschil voor meisjes (Mdif f= 0.128

Method*Gender: Binnen AM hogere scores voor jongens (Mdif f= 0.787); binnen WN hogere scores voor meisjes (Mdif f=−2.624).

Opdracht 2.1 G

η2 Corrected Model= .188,

η2 Method=.102,

η2 Gender=.000,

η2 Method*Gender=.085

Opdracht 2.1 H

Teken een Venn-diagram.

Grote, middelste cirkel: 'Arithmetic Performance'

Kleinere rechtercirkel: 'Method' Schrijf in het overlappende stuk tussen method en arithmetic performance '.103'

Kleinere linkercirkel: Method*Gender Schrijf in het overlappende stuk tussen Method*Gender en arithmetic performance .085

Opdracht 3 A

In het histogram is te zien dat het een beetje normaal verdeelde data is. Er is sprake van homogeniteit als Levene’s niet significant is en in dit geval is dat zo. Hieruit valt te concluderen dat het model passend is.

Opdracht 3 B

Het corrected model is hier significant, dus is er ergens een relatie. Dit geeft aan dat H0 kan worden verworpen. Hoofdeffecten A en B zijn significant, maar het interactie effect A*B niet.

Opdracht 3 C

De η squared van A = 40,2/2177=0,018. De η squared van B = 327/2177=0,15. De η squared van A*B = 5/2177=0,0023. η squared zegt iets over de sterkte van het gevonden verband.

Opdracht 3 D

Lassaiz-faire leiderschap zorgt gemiddeld voor meer tevredenheid (8,3) dan paternalistisch leiderschap (6,3) en deze zijn weer iets tevredener dan mensen onder authoritarian leiderschap (5,7). Dit kan je halen uit de estimated marginal means tabel. Er is geen significant verschil te zien tussen paternalistisch leiderschap en authoritarian leiderschap. De Bonferoni multiple comparisons laat zien dat er een significant verschil zit tussen authoritarian leiderschap en laissez-faire leiderschap en tussen paternalistisch leiderschap en laissez-faire leiderschap. Er is dus geen verschil tussen authoritarian leiderschap en paternalistisch leiderschap en laissez-faire leiderschap doet het significant beter dan beide authoritarian leiderschap en paternalistisch leiderschap.

Opdracht 4 A

De groepen zijn groter dan 15, maar niet even groot en dus is er geen balans. 35/26=15. De test is robuust tegen homogeniteit en tegen niet normaliteit.

Opdracht 4 B

H0 wordt verworpen, omdat p = 0,000 bij corrected model. Dit houdt in dat er samenhang is.

Opdracht 4 C

Leeftijd is hier significant en de interpretatie hiervan is dat jongeren meer SNS gebruiken dan ouderen. De interpretatie van het interactie effect leeftijd*stad is hier: oudere mensen uit een grote stad gebruiken het meest SNS. Jongere uit een grote stad gebruiken meer SNS en ouderen uit een grote stad gebruiken minder SNS. Er is een klein verschil in kleine stad tussen jongeren en ouderen.

De interpretatie van het interactie effect geslacht*stad is hier: vrouwen uit een kleine stad gebruiken het meest SNS, meer dan mannen uit een kleine stad. Mannen uit een grote stad gebruiken meer SNS dan vrouwen uit een grote stad.

Opdracht 4 D

De η squared wordt berekent als er naar uniek verklaarde variantie wordt gevraagd.

Opdracht 5

Error = 414-12-30-12=360, want er is balans.

DF= aantal groepen – 1. Interactie DF= DF A * DF B. Totale DF = N-1. DFe= N – IJ (groepen A*groepen B). Het telt hier weer op tot corrected total.

MS effect = SS effect / DF effect.

SS effect	DF effect	MS effect	F
12	1	12	4
30	2	15	5
12	2	6	2
360	120	3
414	125

Opdracht 6

Er zijn 15 variabelen, 1 set en alle 15 variabelen zijn van interval niveau. Er wordt gekeken naar de specifieke item structuur en dimensionaliteit. Er wordt hier niet één variabele uit de ander voorspeld, dus maken we gebruik van CFA.
Er zijn hier 3 variabelen, 2 sets en alle variabelen zijn van interval niveau. Hier willen we wel voorspellen, dus maken we gebruik van MRA.
Er zijn 2 variabelen, 2 sets en 1 variabele is van interval niveau en 1 van nominaal niveau. We maken hier gebruik van een one-way ANOVA.

Werkgroep 3: Ancova

Bij Ancova maak je gebruik van X variabelen op nominaal en interval niveau en een Y variabele op interval niveau. Daarnaast is er een C variabele, de covariantie, die ook op interval niveau is. De pre-test is de C variabele.

Opdracht 1 A

In totaal zijn er 180 proefpersonen. In iedere groep zitten 60 proefpersonen. Dit is meer dan 15 personen per groep, dus is de test robuust tegen niet normaliteit. Alle groepen zijn ook even groot, dus is er sprake van een gebalanceerd design en is de test robuust tegen heterogeniteit.

Opdracht 1 B

F(2, 177)=13,3171, P<.001, wel significant. Je kijkt daarna naar de means in de estimated marginal means. Dan is er met het blote oog te zien dat B het hier het beste doet, dan A en dan C. In de Tukey kan je kijken naar significante verschillen in multiple comparisons bij Sig. Dan kan je zien dat B significant verschilt van A en C, maar deze verschillen onderling niet significant van elkaar.

Opdracht 1 C

In within groups correlation, kan je zien dat er vrij hoge correlaties zijn, die significant zijn, tussen de pre-test en post-test. De covariaat hangt dus samen met variabelen, dus wordt hiermee de error gereduceerd. Hiermee wordt de systematische bias ook verwijderd. Er is sprake van systematische bias, als er geen correlatie is tussen de variabelen en de covariaat, of als de groepsgemiddelden verschillen op de covariaat. Het doel is dus het hebben van correlatie en geen verschil. Als er wel verschil is in groepsgemiddelden op de covariaat, maar als er wel correlatie is, is er geen sprake van bias. Het verschil in groepsgemiddelden is dan niet significant. Het heeft hier wel zin om een pre-test te doen, omdat de error dan wordt gereduceerd en de systematische bias wordt eruit gewerkt. Er is hier namelijk geen correlatie maar wel verschil.

Opdracht 1 D

Uit de scatterplot valt te halen, dat de data redelijk niet lineair is. Blauw wijkt af van de steekproef, maar er is hier toch sprake van parallellisme in de populatie, omdat er niet heel veel verschil is. Er wordt gekeken naar de test of between-subjects effects. In deze tabel moet je alleen kijken naar het interactie effect en niet naar de rest. De data verandert namelijk als het interactie effect wordt toegevoegd. Parallellisme wordt niet geschonden. Er is namelijk geen rede om aan te nemen dat er geen parallellisme in de populatie is. Hiermee wordt er gecheckt of er tussen de groepen dezelfde relatie is tussen de covariaat en de afhankelijke variabele.

F(2,174)=1,008 , p=0,367, niet significant.

Dit is dus een goed model voor de data. Er is namelijk lineairiteit, parallellisme en robuusteid tegen niet normaliteit en ongelijke groepsvarianties.

Opdracht 1 E

Je kijkt naar test of between-subjects effect zonder het interactie effect erin. De pre-test is significant, want p=0,000. Method is nog steeds significant, maar iets minder en de groepsgemiddelden verschillen. Je kijkt naar de estimated marginal means en Tukey multiple comparisons. Het gemiddelde van B is nog steeds het hoofst, maar het gemiddelde van C is omhoog gekropen naar A, als je met het blote oog naar de estimated marginal means kijkt. Uit de Tukey kan je halen dat B iets minder significant verschilt van A en C en dat A en C weer onderling niet verschillen.

Opdracht 2 A

Dit is nuttig voor de reductie van error. Bw=0,75 en dit duit op samenhang. B doet het systematisch beter dan A. dit houdt in dat er systematische bias is op gebied van groepsgemiddelden die verschillen op de covariaat.

Opdracht 2 B

De pre-test (C) staat op de X-as en de post-test op de Y-as.

Groep A: 4 o p C en 7 op Y, dit leidt tot punt (4,7).

Groep B: 8 op C en 9 op Y, dit leidt tot punt (8,9).

Hier gebruiken we voor de regressielijn per groep Bw=0,75. Dit houdt in dat als er 1 plaats wordt opgeschoven, er 0,75 bij komt.

De formule die hier gebruikt wordt is: ‘kies een punt op de lijn’ + Bw x ‘het verschil tussen het gegeven punt en het gekozen punt’.

Voor A: 7+0,75 x 4= 10, dus punt (8,10). Tussen de twee punten (4,7 en 8,10) wordt een lijn getrokken.

Voor B: 4-8=-4, 9+0,75 x -4=6 en hier komt dus punt (4,6) uit.

De regressielijn van A ligt hoger dan die van B.

C met een streepje erop = (4+8)/2=6. 4 is hier het gemiddelde van A op de pre-test en 8 is het gemiddelde van B op de pre-test. Vanuit punt C met een streepje eruit (6 op de X-as), wordt een verticale streep getrokken.

Het gecorrigeerde gemiddelde van A = de kruising tussen de regressielijn van A en de lijn die getrokken is vanuit C met een streepje. Hier komt ongeveer 8,5 uit. Voor B is dit ongeveer 7,5. Het gecorrigeerde gemiddelde van A is hoger dan dat van B. A lijkt dus de beste methode, maar in die groep zitten de zwakkere leerlingen.

Het gemiddelde van A = 7 en het gemiddelde van B = 9. Het gecorrigeerde gemiddelde van A = 8,5 en het gecorrigeerde gemiddelde van B = 7,5.

Opdracht 2 C

Het gecorrigeerde gemiddelde van A = 7- 0,75(4-6) = 8,5.

Het gecorrigeerde gemiddelde van B = 9-0,75(8-6)=7,5.

Opdracht 3 A

Hoe ouder mensen zijn, hoe meer kans ze hebben om gemiddeld gezien gaatjes te hebben. De groepen bestaan uit 20, 22 en 27 proefpersonen. Dit is in alle gevallen meer dan 15, dus is de test robuust. 27/20-1,35. Dit is minder dan 1,5 dus is de test ook hier robuust.

Opdracht 3 B

APF en gedestilleerd water verschillen, APF doet het namelijk beter.

Opdracht 3 C

Er is een duidelijk positief verband uit de scatterplot te halen, dus een pre-test zorgt in ieder geval voor een reductie van error. De groep die APF test, heeft gemiddeld gezien ook de jongste kinderen en gedistilleerd water gemiddeld de oudste. Er is dus ook spraken van mogelijke bias.

Opdracht 3 D

Er is sprake van lineairiteit en parallellisme. Het interactie effect is niet significant (p=0,106). Er is dan dus rede om aan te nemen dat parallellisme klopt in de populatie bij benadering. Dit geeft aan dat het een goed model is voor deze data.

Opdracht 3 E

Age heeft een significant effect (p=0,000), maar treatment niet meer (p=0,154). De groepsgemiddeldes liggen nu dichter bij elkaar. De conclusie die hieruit getrokken van worden, is dat het in het begin leek als APF het beter deed, maar dit blijkt na correctie niet zo te zijn.

Opdracht 4

Er is een negatieve samenhang tussen de groepen en over het algemeen. De lijnen lopen namelijk naar beneden. De gemiddelden verschillen niet op de afhankelijke variabele. Na een correctie lijkt het alsof B het beter doet dan A.
Er is een negatieve samenhang tussen de groepen en over het algemeen. A ligt hoger dan B. na een correctie gaan deze dichter naar elkaar toe. Een aanpassing is niet nuttig.
Er is een positieve samenhang tussen de groepen en over het algemeen. B ligt ietsje hoger dan A, maar dit verschil is maar erg klein. Na een correctie doet A het beter dan B en is het verschil groter.
Er is een negatieve samenhang tussen de groepen en over het algemeen. Er is geen verschil. Na de correctie, ligt de lijn niet in een groep. B doet het beter dan A, maar de score komt nergens voor, omdat de lijn niet in een groep ligt. Als er geen overlap tussen groepen zit, is het vaak niet zinvol. Het gemiddelde van de covariaat heeft in dit geval dus geen betekenis.
Er is een positieve samenhang tussen de groepen en over het algemeen. Er is wel verschilt, A doet het namelijk beter dan B. na de correctie gebeurd er niks. Er is geen verschil op de covariaat. Er is geen bias, dus is de correctie eigenlijk niet nodig.
Er is een positieve samenhang tussen de groepen en over het algemeen. A doet het beter dan B. na de correctie komen ze naar elkaar toe.

Opdracht 5 A

SSe: 720 = 820-100.

DFa: 3-1=2.

DFe: 48-3=45.

MSa: 100/2=50.

MSe: 720/45=16.

F=50/16=3,125.

P=0,0516 en dit is niet significant.

Opdracht 5 B

Substantial pooled-within correlation (0,54), dus zorgt een pre-test hier voor een reductie in error. Er is echter geen bias die hiermee verminderd kan worden, omdat er geen verschil is tussen de groepsgemiddelden.

Opdracht 5 C

SS*ct = (1-r in het kwadraat van yc) x SSct = (1-(0,50) in het kwadraat) x 820 = 615.

SS*e = (1- r in het kwadraat van yc(w)) x SSe = (1-(0,54) in het kwadraat) x 720 = 510,05.

SS*a = SS*ct – SS*e = 615-510,05 = 104,95.

DFa = 3-1=2, DFe = 48-3-1=44 (N-K-C)

MS*a = 104,95/2=52,48.

MS*e = 510,05/44=11,60

F=MS*a / MS*e = 52,48/11,60 = 4,53, p=0,0163. Dit is een significant verschil en omdat de error variantie dealt is er meer power.

	SS	DF	MS	F	Sig.
Teaching approach	104,95	2	52,48	4,53	P = 0,0163
Error	510,05	44	11,60
CT	615

Opdracht 5 D

SS*ct = -(0,54) in het kwadraat x 820 = 580,89.

SS*e = 1-(0,50) in het kwadraat x 720 = 540.

SS*a = 580,80 – 540 = 40,89.

DFa = K-1 = 3-1 = 2.

DFe = N-K-C = 48 – 3 – 1 = 44.

MSa = 40,89 / 2 = 20,44.

MSe = 59 / 44 = 12,27.

F = 20,44 / 12,27 = 1,67, p=0,201. Dit is niet significant.

	SS	DF	MS	F	Sig.
A	40,89	2	44	1,67	P = 0,201
E	540	44	12,27
CT	580,89

Opdrachten 6 en 7: techniek keuze

Er zijn 2 variabelen, 2 sets met 1 interval variabele en 1 nominale variabele. Y is van interval niveau, dus maken we gebruik van ANOVA.
Er zijn 3 variabelen, 2 sets met 2 interval variabelen en 1 nominale variabele. Y is van interval niveau, dus maken we gebruik van ANCOVA.
Er zijn 4 variabelen, 2 sets met 4 interval variabelen. We maken gebruik van MRA.

Werkgroep 4: Logistic Regression Analysis

De X variabelen zijn in dit geval van interval niveau en de Y variabele op binair niveau, dus maken we gebruik van LRA.

Opdracht 1 A

De nulhypothese wordt verweropen, omdat er in ‘variables in the equation’ staat bij Grade: Wald chi-square (1) = 7,090, p=0,006.

Opdracht 1 B

P1 = e ^{b0 + b1X1} / (1+e^{b0 + b1X1} ) = e ^{-4,2+0,671(Grade)}/ (1+e ^{-4,2+0,671(Grade)})

Hier gebruik je e = 2,7, b0 is constant B uit ‘variables in the equation’ en b1 is Grade constant.

Opdracht 1 C

Hier vul je 5 in, in de formule en dit ziet er zo uit: P1= e ^-4,2+0,671x5/ (1+e ^{-4,2+0,671x5)})=0,30.

0,30 is de kans dat iemand slaagt. De kans dat iemand faalt bereken je zo: P0=1-p1=1-0,3=0,7.

Opdracht 1 D

P1=P0 P1=0,5 dus e ^{-4,2+0,671(Grade)}/ (1+e ^{-4,2+0,671(Grade)})=0,5 dus e ^{-4,2+0,671(Grade)}= 1, omdat p1=1/(1+1)=0,5.

e⁰= 1, dus -4,2+0,671(Grade) = 0, dus Grade = 6,26.

Dit komt altijd op het tentamen terug.

Opdracht 1 E gecombineerd met Opdracht 1 F en met Opdracht 1 G gedeeltelijk

X	P1	Odds = P/(1-P)= e ^{-4,2+0,671(Grade)}	Odds ratio = e^b1
0	0,0148	0,0150
1	0,0283	0,0293	1,95
2	0,0543	0,0574	1,96
3	0,1009	0,1123	1,96
4	0,1801	0,2196	1,96
5	0,3005	0,4296	1,96
6	0,4566	0,8403	1,96
7	0,6218	1,6438	1,96
8	0,7628	3,2156	1,96
9	0,8628	6,2902	1,96
10	0,9248	12,3044	1,96

Het verschil tussen kansen en odds is dat een odd 10 tegen 1 is en dat de bijbehorende kans is 10/11. Odds worden nooit kleiner dan 0, maar kunnen wel oneindig groot zijn. Er komt altijd een S-curve uit de data van een logistic regression analysis. Het kruispunt van 0,5 op de Y-as met de lijn, zit op 6,26 op de X-as, zoals berekend is bij opdracht 1 D.

Opdracht 1 G de rest

Dit is een exponentiële functie. B1=0,671 en Odds Ratio = e^b1= 1,96. Dit geldt voor alle odds. De interpretatie hierbij is: als Grade met 1 unit verhoogd, is de kans op slagen met een factor 1,96 verhoogd. Dit komt uit de lineaire regressie: X0+K wordt Y dakje +b1(K). De logistische vergelijking wordt dan X0+1 wordt odds met een dakje(Y0) x OR^k. OR kan je ook berekenen door odds van 2/odds van 3 enzovoort. Er is een constante toename.

Opdracht 1 H

Als Grade met 3 units toeneemt, OR(1)= e ^0,671= 1,96. OR(K) = OR(1)^k= (1,96)³= 7,49. Dit is te controleren met odds van 4 / odds van 1, omdat daar een verschil van 3 tussen zit. Dit kan bij alle odds met een verschil van 3.

Opdracht 1 I

Als je een confidence interval van 95% gaat berekenen, maar je altijd gebruik van z=1,96.

Lower bound: CI0,95 = b1 – 1,96(SEb1)=0,671 – 1,96(0,252) = 0,177.

Upper bound: CI0,95 = b1 + 1,96(SEb1)=0,671 - 1,96(0,252) = 1,165.

Hierbij ligt 0 er niet tussen, dus de toets of b gelijk is aan 0, moet significant zijn.

Lower Bound OR= e^0,177= 1,194 en Upper Bounds OR = e^1,165= 3,206.

Bij een confidence interval van b1, ligt b in het midden van het interval, maar bij een confidence interval van OR is dit asymmetrisch. De interpretatie is: de waarde 1 zit onder de lower bound van de confidence interval, dus in de populatie verhogen de odds van slagen, wanneer Grade hoger wordt. OR wijkt dus significant af van 1.

Opdracht 2 A

Een negatieve S-curve (bij een negatieve regressiecoëfficient) loopt van hoog naar laag en een positieve (bij een positieve regressiecoëfficient) van laag naar hoog. Dit geeft een gespiegelde S weer. De kans op galen neemt af als Grade verhoogd. Bij een regressiecoëfficient van 0, is de lijn horizontaal. Bij P1=0,73 en b0=1, als voorbeeld, is 0,73 de base rate van de mensen die het haalt, dus 73% slaagt.

Opdracht 2 B

Deze predictor heeft geen voorspellende waarde.

Opdracht 3 A

De nulhypothese wordt verworpen, Wald Chi-squared (1)=21,588 , p=0,000. De odds ratio is Exp(B) in SPSS.

Opdracht 3 B

De pseudo R squared = 138,629-101,887/138,629=0,265. De pseudo R squared is een mate van badness of fit. Model 0 doet het altijd het slechtst. Het is een reductie van slechte fit of een reductive van onzekerheid.

Opdracht 3 C

P1=e ^{-5,108 + 0,964(Ability)}/ (1+ e ^{-5,108 + 0,964(Ability)})

De interpretatie is: 1 extra eenheid ability van het kind, zorgt ervoor dat de odds van slagen 2,6 keer zo groot worden.

Opdracht 3 D

De nulhypothese wordt verworpen, want de Chi-square = 50,904 , p=0,000.

Opdracht 3 E

Als je kijkt neet Step en Block zijn deze ook significant, de Chi-square (1) = 14,162 , p<0,001. Dit model is dus een significante verbetering in vergelijking met het vorige model.

Opdracht 3 F

De pseudo R squared = 138,629-87,725/138,629=0,367

Opdracht 3 G

P1=e ^{-8,82 + 1,139(Ability) + 0,539(Interest)}/ (1+ e ^{-8,82 + 1,139(Ability) + 0,539(Interest)})

De interpretative is: 1 extra eenheid bij ability van het kind, zorgt ervoor dat de odds 3,124 keer zo groot worden. Interest blijft constant. 1 extra eenheid bij Interest, zorgt ervoor dat de odds 1,714 keer zo groot worden. Ability blijft constant.

Opdracht 3 H

Parental interest geeft een significant model (0,000), maar de rest is niet meer significant. Er is dus geen significante verbetering, als is het model nog wel goed.

Opdracht 3 I

Je kijkt naar overall percentage, wat hier 76% is. Hier wordt er beter voorspeld voor degene die slagen, omdat dit 80% is en voor degene die zakken maar 72%.

Opdracht 3 J

PPV=40/(40+14)=0,741. Dit is de kans dat een voorspelling van slagen uitkomt.

NPV= 36/(10+36)=0,782. Dit is de kans dat een voorspelling van zakken uitkomt.

Hier wordt er dus beter voorspeld voor degene die zakken. Dit verschilt van het antwoord bij I, omdat het verschillende conditionele kansen zijn.

Opdracht 4 A

De nulhypothese wordt verworpen, Wald Chi-squared (1)=11 , p=0,000 en Wald Chi-squared (1) = 9,409 , P<0,001.

Opdracht 4 B

P1=e^{-6+0,1(Study Hours) + 0,5 ( Lectures)}/ (1+ e^{-6+0,1(Study Hours) + 0,5 ( Lectures)}).

Opdracht 4 C

P1=e^{-6+0,1x20 + 0,5x4}/ (1+ e^{-6+0,1x20 + 0,5x4}) = 0,119.

Opdracht 4 D

P1=e^{-6+0,1x60 + 0,5x7}/ (1+ e^{-6+0,1x60 + 0,5x7}) = 0,971.

Odds = 0,971/(1-0,971) = 33,115.

Opdracht 5: techniekkeuze

Er zijn 4 variabelen, 2 sets met 2 binaire variabelen en 2 interval variabelen. Y is binair, dus maken we gebruik van LRA.
Er zijn 3 variabelen, 2 sets met 2 interval variabelen en 1 binaire variabele. Y is van interval niveau, dus maken we gebruik van MRA of ANCOVA.
Er zijn 3 variabelen, 2 sets met 3 interval variabelen. Y is van interval niveau, dus maken we gebruik van een regressie analyse.

Werkgroep 5: MANOVA

In dit geval hebben we te maken met 3 Y variabelen van interval niveau en 1 X variabele van nominal niveau met drie groepen.

Opdracht 1 A

Je kijkt in dit geval naar de descriptive statistics. Hier is te zien dat de N per groep iedere keer 60 is. Er is dus balans en dit zorgt ervoor dat de toets robuust is tegen ongelijke matrixen. Daarnaast is in iedere groep de N groter dan 20, dus is de toets ook robuust tegen niet normaliteit. In de Box M tabel zie je dat deze een p waarde heeft van 0,121 en hier mag je dan aannemen dat er gelijkheid in de populatie.

Opdracht 1 B

Hier bekijk je de multivariate tests en alleen naar het effect van occupation. Hier is alles significant, dus wordt de nulhypothese van geen relatei verworpen. Daarnaast, als de vier toetsen elkaar tegenspreken, geldt er kiezen voor de meerderheid of wat het beste uitkomt als het 2 tegen 2 is. Pillai’s trace is minder gevoelig voor de schendig van aannames. De p waarde is hier < 0,05, dus is er minstens 1 lineaire combinatie van de 3 Y variabelen die minstens 2 groepen onderscheiden. Dan zou je verder kunnen gaan met een discriminante analyse of met de protected F methode.

Opdracht 1 C

In dit geval kijk je naar alles waar je bij A ook al naar hebt gekeken, maar vergelijk je nu met N>15 in plaats van N>20.

Opdracht 1 D

Je kijkt naar de tests of between-subject effects. De variabelen hebben allemaal een significant effect, want p <0,05.

Opdracht 1 E

Er is bij de protected F een grotere kans op type I fout, dus kan je een Bonferoni doen. Dan verlies je power en omdat de Bonferoni een over correctie is, kan je je afvragen of dit het waard is. In dit geval deel je de Alpha door het aantal groepen: 0,05/3=0,0167 en dan is alleen dissatisfaction nog significant.

Opdracht 1 F

Je kijkt naar de mulitple comparisons en dan alleen naar dissatisfaction, omdat alleen deze significant was. Je kijkt dan naar welke groep eruit springt. Catering is significant meer ontevreden dan management, want deze heeft een positieve lower bound en de rest een negatieve lower bound waarde in het Confidende Interval. Dit valt op en heeft ook een significante p waarde = 0,009. Ook is er te zien dat er meer hostility en dissatisfaction is in catering dan in management, maar hier kijk je alleen naar, als je geïnteresseerd bent in eventuele andere patronen.

Opdracht 1 G

Je gebruikt de Tukey, omdat je dan rekening houdt met het feit dat er meerdere keren getest wordt. Daarnaast is deze gespecialiseerd in Anova en heeft een betere balans tussen type I en type II fout.

Imax=min(K-1,P) en dit houdt in dat je bij het theoretisch maximum de kleinste kiest uit het aantal groepen (K) – 1 of het aantal afhankelijke variabelen (P). in dit geval is dat 3-1=2 en 3, dus kiezen we voor 2.

Opdracht 1 H

Je kijkt naar de Wilk’s Lambda. De eerste factor is in dit geval significant, p=0,047. De interpretatie hiervan is dat dit een algemene stress reactie factor is en dit haal je uit de structure matrix. Alles correleert hier namelijk hoog en positief. Dan zou je nog kunnen kijken naar de tweede factor, die een contrast factor is van fysieke klachten VS hostility en ontevredenheid.

Opdracht 1 I

Je kijkt naar functions at group centroids. Catering heeft hier de hoogste waarde, met 0,357. Dit kan je ook berekenen uit de Canonical Discriminant Function Coefficients tabel met means die je uit de descriptives kan halen. Je doet hier voor sales:

Constant + physical complaints op factor 1 x means van sales op physical complaints + etc

Dan ziet dit eruit als:

-1,858+0,68x3,683+0,111x2,73+0,122x10,002=-0,78.

Opdracht 2 A

Je hebt te maken met 2 Y variabelen van interval niveau met 1 nominale X variabele met 3 groepen in 2 data sets. De group means en de standaard deviaties zijn hetzelfde en de univariate F ook, maar er is verschil in de multivariate F. in de Nederlandse dataset is alles nog significant, terwijl dit in de Russische dataset niet meer zo is.

Opdracht 2 B & C

Uit het scatterplot blijkt dat de Nederlandse ballerina’s het laagst scoren, dan de gymnasts en dan de body builders. In de Russische dataset is dit hetzelfde, maar zijn de puntenwolken een kwartslag gedraaid. Er is niet zo veel overlap te zien in de Nederlandse dataset. Voor ballet en body builders is dit helemaal niet het geval. Als je naar 1 dimensie kijkt, worden de groepen niet goed onderscheiden. Er is dan veel overlap als je alleen kijkt naar range op de X-as en range op de Y-as. In 2 dimensies is er dus beter onderscheid in de Nederlandse dataset.

In de Russische dataset is er veel overlap, omdat de elipsen in elkaars verlengde liggen. In 2 dimensies is er dan geen beter onderscheid. Een regressielijn is gelijk aan de eerste discriminante functie, maar de gemiddelden liggen niet altijd precies op de lijn, zoals hier het geval is.

Opdracht 3 A

Je hebt te maken met Y van interval niveau en een nominale X met 4 groepen. N is overal 74, wat meer dan 20 is en er is balans. De Box M is niet significant met 0,004>0,001. Je gebruikt 0,001, omdat je sample groot is N=296. Dan moet je voorzichtiger zijn.

Opdracht 3 B

De nulhypothese wordt verworpen, want p<0,001.

Opdracht 3 C

Je kijkt weer net hetzelfde als bij A met een N moet groter zijn dan 15 in plaats van 20. Voor univariate data gelden namelijk soepelere regels. P=0,036.

Opdracht 3 D & E

Depression interview is significant, maar 0,05/4=0,0125, dus niet meer na de Bonferoni.

Depression self-report p = 0,003 en angst self-report = 0,002. Deze blijven wel significant na de Bonferoni. Fear interview is sowieso niet significant.

Opdracht 3 F

B scoort hoger op depression interview dan D met p=0,037.

C en B scoren hoger dan A op fear self-report met 0,001 en 0,049.

Opdracht 3 G

Imax= 4-1=3 VS 4, dus we kiezen 3.

Opdracht 3 H

1 en 2 zijn significant, wat je uit de Wilk’s Lambda haalt. De structure interpretatie is dat 1 een contrast factor is van angst (+) VS depressie (-). Als iemand hoog scoort, is deze wel angstig, maar niet depressief. 2 is een algemene distress factor.

Opdracht 3 I

Er komt altijd zo’n soort vraag op het tentamen! De getallen die tussen de haakjes staan variëren steeds, omdat het dan om een andere groep gaat. Deze groepsgemiddelden haal je uit de Descriptive Statistics. De rest van de formule stel je weer op met Constant + waarde van variabele 1 etc, net als bij opdracht 1 I.

A: 1,201 + 0,220(3,43) – 0,203(2,12) + 0,181(2,35) – 0,148(11,78) = 0,207.

B: 1,201 + 0,220(4,58) – 0,203(2,61) + 0,181(4,32) – 0,148(14,16) = 0,365.

C: 1,201 + 0,220(3,84) – 0,203(2,80) + 0,181(2,92) – 0,148(15,59) = 0,301.

D: 1,201 + 0,220(3,26) – 0,203(2,53) + 0,181(2,33) – 0,148(14,33) = 0,295.

B heeft in dit geval de hoogste waarde met 0,365.

Opdracht 3 J

Onder de classification table kan je 34,8% vinden. Vooral voor groep A wordt er goed voorspeld, met 48,6%.

Opdracht 4 A

Je hebt te maken met 4 Y variabelen van interval niveau en 1 nominale X met 3 groepen. N=20, dus dat is prima en er is ook balans. De toets is dus robuust tegen niet normaliteit en ongelijke covariantie matrixen. De Box M is daarnaast ook niet significant en dat is fijn.

Opdracht 4 B

Er is een multivariaat effect, want er zijn grote verschillen in gemiddelden op extrinsieke en intrinsieke motivatie en doorzettingsvermogen. Er zijn dus minstens 2 groepen die significant verschillen op een lineaire combinatie van minstens 2 variabelen. Het gemiddelde, de standaard deviatie en de groepsgroottes kan je uit de Descriptive Statistics halen. In deze tabel kijken we naar extrinsieke motivatie.

Standaard error = SD / de wortel van N. De wortel van N is in dit geval ongeveer 4,5. Dan is de standaard error dus ongeveer 1. Het is niet belangrijk om hier precies dingen te gaan uitrekenen, omdat je alleen een beeld wil krijgen van wat er ongeveer in de data aan de hand is.

Het Confidence Interval bereken je met het gemiddelde + of – 2 x SE. We gebruiken hier weer 2 in plaats van 1,96 omdat het niet belangrijk is om precies te rekenen.

	Mean	Standard Deviation	N	Standard Error	Confidence Interval
Groep 1	11,55	4,36	20	Ongeveer 1	Ongeveer 9,5 tot 13,5
Groep 2	6,8	1,96	20	Ongeveer 1	Ongeveer 4,8 tot 8,8
Groep 3	7,95	4,42	20	Ongeveer 1	Ongeveer 6,0 tot 10,0

Wat er hier te zien is, is dat groep 1 en groep 2 niet overlappen, als je kijk naar de Confidence Intervallen en dan 1 en 3 bijna niet overlappen. Dan is er vast een verschil op extrinsieke motivatie. Dan moet je nog een variabele checken, zoals intrinsieke motivatie en hier is ook geen of bijna geen overlap te zien.

Opdracht 4 C

Je verwerpt de nulhypothese, omdat alles een p waarde heeft van <0,001.

Opdracht 4 D

Hier doe je hetzelfde als bij opdracht 4 A, maar dan met een N>15.

Opdracht 4 E

Alles behalve intelligentie, heeft een significant univariaat effect.

Opdracht 4 F

0,05/4=0,0125 en dan blijven ze significant.

Opdracht 4 G

Professionals hebben meer extrinsieke motivatie dan amateurs en non-atleten, met p=0,001 en p=0,001. Er is geen verschil tussen amateurs en non-atleten, met p=1. Dit kan 1 zijn, omdat SPSS met een Bonferroni niet de Alpha deelt, maar de p waarde vermenigvuldigd. Dit is te zien in Multiple Comparisons. Dit geldt ook voor groep 2 en doorzettingsvermogen.

Opdracht 5

Er zijn 4 variabelen, 2 sets met 1 binaire Y en 3 X van interval, dus doe je een LRA. Als er een binaire Y is, doe je altijd een LRA. DA zou opzicht ook kunnen, in dit geval, maar LRA is aantrekkelijker, vanwege de statistische eigenschappen.
Er zijn 4 variabelen, 2 sets met 4x interval X en Y, dus doe je MRA.
Er zijn 5 variabelen, 2 sets met 4 Y van interval en 1 nominale X, dus doe je een MANOVA.

Werkgroep 6: Repeated Measures ANOVA

Opdracht 1 A: Deviation

Een set van contrasten is orthogonaal als alle paren contracten van de set orthogonaal zijn. Dan geldt er dus: de som van ViWi = V1W1 + V2W2 +VPWP = 0 als je kijkt naar

	Y1	Y2	YP
L1	V1	V2	VP
L2	W1	W2	WP

Dit pas je toe op de volgende opgaven. Daarnaast is het zo dat (m(m-1))/2 aangeeft hoeveel paren er mogelijk zijn. Je kijkt apart naar alle variabelen in een paar, zoals op L1 en L2 vergelijken, L2 en L3 en L1 en L3. Als een Y variabele erg afwijkt van de rest, zal ik dit in alle contrasten terug te zien zijn.

Deviation	Y1	Y2	Y3	Y4
L1	1	-1/3	-1/3	-1/3
L2	-1/3	1	-1/3	-1/3
L3	-1/3	-1/3	1	-1/3
					De som van ViWi
ViWi(L1,L2)	-1/3	-1/3	1/9	1/9	-1/3
ViWi(L1,L3)	-1/3	1/9	-1/3	1/9	-1/3
ViWi(L2,L3)	1/9	-1/3	-1/3	1/9	-1/3

In de Deviation set is er geen paar van contrasten dat orthogonaal is de set van contrasten is dan ook niet orthogonaal.

Simple	Y1	Y2	Y3	Y4
L1	1	-1	0	0
L2	1	0	1	0
L3	1	0	0	-1
					De som van ViWi
ViWi(L1,L2)	1	0	0	0	1
ViWi(L1,L3)	1	0	0	0	1
ViWi(L2,L3)	1	0	0	0	1

In de Simple set is er geen paar van contrasten dat orthogonaal is de set van contrasten is dan ook niet orthogonaal. Er is hier sprake van een referentiegroep.

Repeated	Y1	Y2	Y3	Y4
L1	-1	1	0	0
L2	0	-1	1	0
L3	0	0	-1	1
					De som van ViWi
ViWi(L1,L2)	0	1	0	0	1
ViWi(L1,L3)	0	0	0	0	0
ViWi(L2,L3)	0	0	-1	0	-1

In de Repeated set is er één paar van contrasten dat orthogonaal is de set van contrasten is dan nog niet orthogonaal. Er is hier sprake van opeenvolging. De ene wordt steeds vergeleken met degene die erna komt.

Difference	Y1	Y2	Y3	Y4
L1	-1	1	0	0
L2	-1/2	-1/2	1	0
L3	-1/3	-1/3	-1/3	1
					De som van ViWi
ViWi(L1,L2)	1/2	-1/2	0	0	0
ViWi(L1,L3)	1/3	-1/3	0	0	0
ViWi(L2,L3)	1/6	1/6	-1/3	0	0

In de Difference set zijn alle paren van contrasten orthogonaal en dus de set van contrasten ook. Helmert is een spiegeling van Difference, dus wordt deze in het werkboek overgeslagen.

Polynominal	Y1	Y2	Y3	Y4
L1	-3/4	-1/4	1/4	3/4	(Lineair)
L2	1/2	-1/2	-1/2	1/2	(Kwadratisch)
L3	-1/4	3/4	-3/4	1/4	(Cubic)
					De som van ViWi
ViWi(L1,L2)	-3/8	1/8	-1/8	3/8	0
ViWi(L1,L3)	3/16	-3/16	-3/16	3/16	0
ViWi(L2,L3)	-1/8	-3/8	3/8	1/8	0

In de Polynominal set zijn alle paren van contrasten orthogonaal, dus de set van contrasten is ook orthogonaal.

Opdracht 1 B

Bij een lineair contrast zijn de afstanden tussen gewichten altijd gelijk. Je hebt hier dus 5 variabelen en maar 1 L1 die polynominaal is. Het makkelijkst is om getallen te kiezen die gewoon lopen van 1 tot 5. De contrasten moeten wel een gemiddelde hebben van 0 en in dit geval is dat 3. Dit los je op door het gemiddelde ervan af te trekken, wat in dit geval 3 is. Dan moeten alle contrasten nog optellen tot 0 en dit kan door te delen door het gemiddelde.

	Y1	Y2	Y3	Y4	Y5
L1 (Stap 1)	1	2	3	4	5
L1 (Stap 2)	1-3=-2	2-3=-1	3-3=0	4-1=1	5-3=2
L1 (Stap 3)	-2/3	-1/3	0	1/3	2/3

Opdracht 1 C

Hier doe je hetzelfde als bij B, maar dan met 6 Y variabelen. Het gemiddelde bij Stap 1 is 3,5 dus trek je dit van alle getallen af om een gemiddelde van 0 te krijgen. Stap 2 telt op tot 4,5 dus deel je alles door 4,5.

	Y1	Y2	Y3	Y4	Y5	Y6
L1 (Stap 1)	1	2	3	4	5	6
L1 (Stap 2)	-2,5	-1,5	-0,5	0,5	1,5	2,5
Hetzelfde als	-5/2	-3/2	-1/2	1/2	3/2	5/2
L1 (Stap 3)	-5/9	-3/9	-1/9	1/9	3/9	5/9

Opdracht 2 A

Bij L1 wordt alles vergeleken met Y5, dus krijgt Y5 -1 en de rest 1/4. Bij L2 doet Y5 niet mee, dus deze krijgt 0. Daarnaast worden Y1 + Y2 vergeleken met Y3 + Y4, dus krijgen ze allemaal 1/2. Bij L3 worden Y1 en Y2 vergeleken, dus deze krijgen allebei 1/2 en de rest weer 0. Bij L4 worden Y3 en Y4 vergeleken, dus deze krijgen allebei 1/2 en de rest weer 0. Dit ziet er dan uit als

	Y1	Y2	Y3	Y4	Y5
L1	1/4	1/4	1/4	1/4	-1
L2	1/2	1/2	-1/2	-1/2	0
L3	1	-1	0	0	0
L4	0	0	1	-1	0
						SOM ViWi
ViWi(L1,L2)	1/8	1/8	-1/8	-1/8	0	0
ViWi(L1,L3)	1/4	1/4	0	0	0	0
ViWi(L1,L4)	0	0	1/4	-1/4	0	0
ViWi(L2,L3)	1/2	-1/2	0	0	0	0
ViWi(L2,L4)	0	0	-1/2	1/2	0	0
ViWi(L3,L4)	0	0	0	0	0	0

Opdracht 2 B

Hier zijn alle paren van contrasten orthogonaal, dus de set van contrasten is ook orthogonaal. Dit is dezelfde soort set als Difference.

Opdracht 2 C

	Y1	Y2	Y3	Y4	Y5
L1	0	1/2	0	1/2	-1
L2	1/2	0	1/2	0	-1
L3	1/2	-1/2	1/2	-1/2	0
L4	1/2	1/2	-1/2	-1/2	0
						SOM ViWi
ViWi(L1,L2)	0	0	0	0	1	1
ViWi(L1,L3)	0	-1/4	0	-1/4	0	-1/2
ViWi(L1,L4)	0	1/4	0	-1/4	0	0
ViWi(L2,L3)	1/4	0	1/4	0	0	1/2
ViWi(L2,L4)	1/4	0	-1/4	0	0	0
ViWi(L3,L4)	1/4	-1/4	-1/4	1/4	0	0

Opdracht 2 D

Sommige paren contrasten zijn wel orthogonaal en anderen niet. A VS B is de hele tijd orthogonaal en als er iets met dosis wordt vergeleken, dan zijn de paren niet orthogonaal. Dit is een duidelijk zichtbaar patroon. De set contrasten is dus niet orthogonaal.

Opdracht 3 A

De plot ziet er uit als een stijgende, lineaire lijn met een Cubic vorm eroverheen, dus stijgt, daalt en dan weer stijgt.

Opdracht 3 B

Per variabele wordt het gewicht van het contrast vermenigvuldigd met het gemiddelde. Hieruit komt de uitkomst van het contrast. Dit ziet er dan uit als:

Set A	3	7	5	9
L1: Lineair	-3/4	-1/4	1/4	3/4
L2: Kwadratisch	1/2	-1/2	-1/2	1/2
L3: Cubic	-1/4	3/4	-3/4	1/4

L1: -3/4 x 3 -1/4 x 7 + 1/4 x 5 + 3/4 x 9 = 4.

L2: 1/2 x3 -1/2 x 7 -1/2 x 5 + 1/2 x 9 = 0. Omdat deze 0 is, komt deze niet terug in het plot.

L3: -1/4 x 3 + 3/4 x 7 -3/4 x 5 + 1/4 x 9 = 3.

Set B	0	3	4	1
L1: Lineair	-3/4	-1/4	1/4	3/4
L2: Kwadratisch	1/2	-1/2	-1/2	1/2
L3: Cubic	-1/4	3/4	-3/4	1/4

L1: -3/4 x 0 -1/4 x 3 +1/4 x 4 + 3/4 x 1 = 1

L2: 1/2 x 0 -1/2 x 3 -1/2 x 4 + 1/2 x 1 = -3

L3: -1/4 x 0 + 3/4 x 3 -3/4 x 4 + 1/4 x 1 = -1/2

Set C	9	7	4	0
L1: Lineair	-3/4	-1/4	1/4	3/4
L2: Kwadratisch	1/2	-1/2	-1/2	1/2
L3: Cubic	-1/4	3/4	-3/4	1/4

L1: -3/4 x 9 -1/4 x 7 +1/4 x 4 + 3/4 x 0 = 7,5

L2: 1/2 x 9 -1/2 x 7 -1/2 x 4 + 1/2 x 0 = -1

L3: -1/4 x 9 + 3/4 x 7 -3/4 x 4 + 1/4 x 0 = 0. Deze komt weer niet terug in het plot.

Opdracht 3 C

De lineaire trend lijkt het belangrijkst in set A, omdat hier de hoogste uitkomst uit komt. Lineairiteit geeft algemene stijging of daling aan. De kwadratische trend lijkt het belangrijkst in set B, omdat hier de hoogste uitkomst uit komt. Je kijkt absoluut, dus negeer – en + tekens. De lineaire trend lijkt het belangrijkst in set C, omdat hier de hoogste uitkomst uit komt.

Opdracht 4 A

De groepsgroottes zijn 20.

Opdracht 4 B

De toets is robuust tegen multivariate normaliteit in iedere groep, omdat de groepen 20 (eigenlijk N>20) zijn. Ook is er balans.

Opdracht 4 C

Het effect van Gender is significant.

Opdracht 4 D

De groep vrouwen heeft de hoogste estimated marginal means.

Opdracht 4 E

Het effect van conditie is significant, met p<0,001.

Opdracht 4 F

Alle groepen verschillen significant van elkaar, behalve failure en rejection. We zien hier weer een Bonferoni, omdat de P waardes 1 kunnen zijn.

Opdracht 4 G

Er is een significant interactie effect. De interpretaties zijn hier: er zijn grote verschillen op undifferentiated en op rejection. Er zijn kleine verschillen op neutral en failure. Vrouwen zijn gevoeliger voor rejection en mannen voor failure.

Opdracht 4 H

Er is geen post hoc voor interactie, dus we kijken naar contrasten. De onderzoeksvragen zijn:

Werken stemmingsinducties? Dit is te zien aan de vergelijking tussen de voormeting en de recht.
Werken stemmingsinducties die ergens over gaan beter dan stemmingsinducties die nergens over gaan? Dit is te zien aan de vergelijking tussen indifferentiated en de rest.
Doet rejection het beter dan failure?

Opdracht 4 I

1	-1/3	-1/3	-1/3
0	1	-1/2	-1/2
0	0	1	-1

Opdracht 4 J

Level 1 VS later is significant met P=0,001. Level 2 VS later is significant met P=0,001. Level 3 VS level 4 is significant met P=0,002. Dit is het interactie effect. De interpretaties hierbij zijn: er zijn kleine verschillen op sekse en Failure en grote verschillen op sekse en rejection. Vrouwen zijn gevoeliger voor rejection en mannen zijn gevoeliger voor failure.

Werkgroep 7: Mediatie Analyse

Opdracht 1 A

Met een mediatie analyse is een algemene beperking dat je aanneemt dat het model klopt, maar dit kan je met een mediatie analyse niet bewijzen. We hebben in dit geval te maken met een X variabele, een Y variabele en een Mediator variabele, allemaal van interval niveau. De X variabele staat links en is opvoeding, de Y variabele staat hier rechts van en is vertrouwen. De mediator is hier zelfverzekerd zijn en deze staat buiten X en Y. Het indirecte effect loopt via de mediator en het directe effect zit tussen X en Y.

Opdracht 1 B

De nulhypothese van geen relatie tussen vertrouwen en opvoeding kan worden verworpen, bij een significant effect in de eerste regressie. Je kijkt nooit naar de significantie van constant. Er is hier een significant effect, t=6,144 , p<0,001.

Opdracht 1 C

De nulhypothese van geen relatie tussen zelfverzekerd zijn en opvoeding kan worden verworpen bij een significant effect in de tweede regressie. Dit is het geval, t=12,854 , p<0,001.

Opdracht 1 D

De nulhypothese van geen relatie tussen vertrouwen en zelfverzekerd zijn, met controle voor opvoeding, kan worden verworpen bij een significant effect in de derde regressie. Je kijkt hier bij het effect van de mediator. Dit is significant, t=5,716 , p<0,001.

Opdracht 1 E

De vereisten van Baron en Kenny zijn dat a (de relatie tussen X en M) niet gelijk is aan 0, dat b (De relatie tussen M en Y) niet gelijk is aan 0 en dat c (de relatie tussen X en Y in een model zonder de mediator) niet gelijk is aan 0. C haal je uit de eerste regressie, in coefficients onder standardized coefficients beta. Hetzelfde geldt voor A, maar dan bij de tweede regressie en B en C’ in de derde regressie. C’ is de relatie tussen X en Y in het model met de mediator erin.

Opdracht 1 F

C’ is niet significant en niet gleijk aan 0, dus is er sprake van volledige mediatie, want je kijkt naar de significantie van de mediator in de derde regressie, p=0,173.

Opdracht 1 G

De overlap tussen X en Y valt volledig binnen M

Opdracht 1 H

Met de Aroian versie van de Sobel test bereken je een z-waarde. De bijbehorende formule is:

Z = A*B / (De wortel van (b²*SEa²+ a²*SEb² + SEa²* SEb²))

Hier vul je de ongestandaardiseerde waardes B in. Dan ziet dit eruit als:

Z = 1,164*1,307 / (De wortel van (1,307²*0,091² + 1,164²*0,229² + 0,091²*0,229²)) = 5,199.

Je kijkt alleen naar de 2^e regressie voor waardes van A en naar de 3^e regressie voor B. De p waarde zoek je op in de Z tabel bij een cut-off waarde van 1,96, omdat er standaard gebruik wordt gemaakt van een Alpha van 0,05. Als je p waarde dan < 0,05 dan is er een significant effect. Hier is het indirecte effect dus significant.

Opdracht 1 I

Pmed = (c-c’)/C = (0,37-0,101)/0,37 = 0,73. C’ = het indirecte effect. In de populatie is er volledige mediatie, dus theoretisch gezien is de Pmed dan 1 of 100%. Pmed is niet vergelijkbaar met VAF.

Opdracht 2 A

De X variabele is hier steun, die links staat. De Y variabele is hier depressie en staat rechts. De mediator is coping en deze staat buiten de relatie tussen X en Y.

Opdracht 2 B

De nulhypothese wordt verworpen, want er is een significante p waarde.

Opdracht 2 C

De nulhypothese wordt ook hier verworpen, vanwege een significante p waarde.

Opdracht 2 D

De nulhypothese wordt ook hier verworpen. Je kijkt weer naar de significante van de mediator.

Opdracht 2 E

Er wordt hier ook aan de eisen voldaan.

Opdracht 2 F

Er is hier sprake van partiële mediatie, omdat X een p waarde van 0,020 heeft. De beta is -0,45 en -0,226. C’ heeft geen significant effect en dus is er geen supressie.

Opdracht 2 G

De Sobel ziet er hier uit als: Z = 1,063*-1,376 / (De wortel van (-1,376²*0,134² + 1,063²*0,348² + 0,134²*0,348²) = -3,516. Dit heeft een significante p waarde van 0,000438.

Opdracht 2 H

Het totale effect = C = -0,45

Het directe effect = C’ = -0,266.

Het indirecte effect = C-C’ = -0,45 - -0,226 = -0,224 en dit is ook te berekenen met a*b = 0,589*-0,379 = 0,223. Hier zit een klein verschil tussen vanwege afrondingsfouten.

Opdracht 2 I

Het totale effect = C = -2,943

Het directe effect = C’ = -1,48

Het indirecte effect = C-C’ = -2,943 - -1,48 = -1,46 of a*b = 1,063*-1,376 = -1,46

Opdracht 2 J

Pmed = -0,224 / -0,45 = 0,498. Dit betekent dat ongeveer 50% van het effect is toe te schrijven aan de mediator.

Opdracht 3 A

Leeftijd is hier de X variabele die links staat, salaris is de Y variabele die rechts staat en de mediator educatie level staat hierbuiten.

Opdracht 3 B

De correlatie tussen leeftijd en salaris is positief en significant, dus oudere mensen krijgen meer salaris. De correlatie tussen salaris en educatie level is positief en significant, maar niet zo sterk. Opleiding heeft dus niet zo veel effect op salaris. De correlatie tussen leeftijd en educatie level is negatief en significant, dus is er sprake van een cohort effect. Jongeren zijn over het algemeen hoger opgeleid dan ouderen.

Opdracht 3 C

De nulhypothese wordt verworpen, t=4,618 , p<0,001.

Opdracht 3 D

De nulhypothese wordt verworpen, t=-4,034 , p<0,001.

Opdracht 3 E

De nulhypothese wordt verworpen, t=5,522 , p<0,001/

Opdracht 3 F

Er wordt voldaan aan de vereisten van Baron en Kenny.

Opdracht 3 G

Supressie houdt in dat de Beta van 0,463 in dit geval naar 0,679 gaat. Hij wordt dus hoger. Het directe effect is nog significant en ook sterker dan het totale effect. De semipartiële correlatie (Part in SPSS) van 0,618 is hier groter dan de zero order correlatie van 0,463 voor leeftijd. Dit geldt ook voor educatie, waarbij 0,472 groter is dan 0,237. Er hoeft maar 1 effect groter te worden, maar in dit geval doen ze het allebei. Ze verschillen hier allebei meer van 0 als ze samen in een analyse zitten, dan als ze afzonderlijk zijn. Het overlap gebied van X, Y en M in een Venn diagram is negatief.

Het totale effect = 0,535

Het directe effect = 0,789

Het indirecte effect = -0,449*0,554 = -0,249

Het directe + het indirecte effect werken elkaar tegen, gezien er één negatief is en de ander niet. Dan is het totale effect dus minder. Het directe effect van leeftijd op salaris is met 0,784 groter dan het totale effect van 0,535. Via het indirecte effect zouden ouderen minder geld krijgen doordat ze lager opgeleid zijn, maar het directe effect is sterker, waarbij ze juist meer geld krijgen, omdat ze ouder zijn.

Opdracht 3 H

C = 0,463

C’ = 0,679

C-C’ = 0,463-0,679 = -0,216 en a*b = -0,415*0,519 = -0,215

Opdracht 4 A

De Quiz is X1, de Speed is X2 en de Test is Y, allemaal van interval niveau. De snelheid van het lezen is in dit geval geen goede predictor, omdat ry2 = 0,038 en p = 0,817, dus is deze niet significant.

Opdracht 4 B

Ry(1.2) = (ry1 – ry2*r12) / (De wortel van (1-r²12)) = 0,659 – (0,038*0,524) / (De wortel van (1-0,524²)) = 0,750

Ry(2.1) = 0,038 – (0,659*0,524) / (De wortel van (1-0,524²)) = -0,361

0,750 en -0,361 verschillen meer van 0 dan de zero order correlatie van 0,659 en 0,038, dus er is supressie.

Opdracht 4 C

Quiz (0,881) en Speed (-0,423) hebben beide een significant effect.

Opdracht 4 D

T=-3,323 , p<0,002 en dit is significant. Zie B, er is sprake van supressie.

Opdracht 4 E

VAF = R² = 0,659² + (-0,361)² = 0,565

Ook: R² = 0,038² + 0,75² = 0,564

Ook: R² = (0,659² + 0,038² – 2(0,659*0,038*0,524))/(1-(0,524)²) = 0,574

Opdracht 6

We hebben 7 variabelen, 1 set met 3 Y variabelen van interval niveau, dus maak je gebruik van repeated measure ANOVA.
We hebben 3 variabelen, 2 sets met een Y variabele van interval niveau en 2 X variabelen van nominaal niveau, dus maak je gebruik van ANOVA.

Opdracht 5 van vorige week

We hebben 3 variabelen, 1 set met 3 Y variabelen van interval niveau, dus je maakt gebruikt van RMA of een gepaarde T-toets. 1 set geeft aan dat je niet wil voorspellen, maar gemiddelden wil vergelijken.
We hebben 4 variabelen, 2 sets met een binaire Y en 3 X variabelen van interval niveau, dus maak je gebruik van LRA.
We hebben 4 variabelen, 2 sets met een Y variabele van interval niveau en 2 X variabelen van interval niveau, dus maak je gebruik van MRA.

Access:

Public

Click & Go to more related summaries or chapters

Studiegids met college-aantekeningen voor Psychologie Bachelor 2 aan de Universiteit Leiden

College-aantekeningen bij Ontwikkelingspsychopathologie aan de Universiteit Leiden - 2016/2017

College-aantekeningen bij Psychometrie aan de Universiteit Leiden - 2018/2019

College- en werkgroepaantekeningen bij Psychometrie aan de Universiteit Leiden - 2016/2017

College-aantekeningen bij Psychometrie aan de Universiteit Leiden - 2015/2016

College-aantekeningen bij Bewustzijn aan de Universiteit Leiden - 2016/2017

College-aantekeningen bij Groepsdynamica aan de Universiteit Leiden - 2018/2019

College-aantekeningen bij Groepsdynamica aan de Universiteit Leiden - 2016/2017

Werkgroepaantekeningen bij Groepsdynamica aan de Universiteit Leiden - 2018/2019

College-aantekeningen bij Psychodiagnostiek aan de Universiteit Leiden - 2016/2017

College-aantekeningen bij Multivariate data-analyse (MVDA) aan de Universiteit Leiden - 2015/2016

Werkgroepaantekeningen bij Multivariate data-analyse (MVDA) aan de Universiteit Leiden - 2018/2019

Psychology Leiden: summaries and study notes - Theme

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check more of topic:

Statistics and Data analysis Methods

Universiteit Leiden en studieverenigingen

Going abroad?

Insure your way around the world

International expat insurances

Travel & Worldsupporter insurances (NL)

Study with summaries

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Spotlight: topics

Check the related and most recent topics and summaries:

Activities abroad, study fields and working areas:

Follow the author: Psychology Supporter

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics

Search a summary, study help or student organization

Select any filter and click on Search to see results