College-aantekeningen bij Multivariate data-analyse (MVDA) aan de Universiteit Leiden - 2015/2016
- 3148 reads
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Deze week gaat over MRA, omdat er meerdere X’en van interval niveau zijn en een Y van interval niveau. Binair is tegelijk ook interval, omdat alle intervallen gelijk zijn, gezien er maar één interval is.
Alle variabelen zijn van interval niveau. In een scatterplot kan er gekeken worden naar of er een patroon aanwezig is dat op non-lineariteit duidt of op heteroscedasticiteit. In dit geval is er sprake van lineairiteit en homoscedasticiteit. De normaliteit van residuen of error wordt gecheckt met standardized residual. De punten moeten dicht bij de lijn liggen en in dit geval klopt dat. Hieruit valt te concluderen dat dit model geschikt is voor de data.
H0: β1 = β2 = 0.
Ha: minstens 1 βj is niet gelijk aan 0.
Er wordt gebruikt gemaakt van β in plaats van b, omdat het gestandaardiseerd is. In dit geval kan H0 worden verworpen, omdat het effect significant is (p<0,001).
Voorspelde RA = -1,5 + 1 (Language Skill) + 0,5 (Motor Skill). Dit is opgesteld uit ŷ = b0 +b1X1 + b2X2.
Interpretatie: als er bij Language Skill 1 punt omhoog gegaan wordt, betekent dit dat er bij RA ook een punt bij komt. Als er bij Motor Skill en punt bij komt, komt er bij RA een halve punt bij.
ŷj = -1,5 + (1x3) + (0,5x4)= 3,5
Gestandaardiseerd: (Voorspelde RA)st = 0,471 (LS)st + 0,373(MS)st. deze is opgesteld vanuit ŷst = β1X1st + β2X2st. Hier is b0 gelijk aan 0, dus staat deze niet in de formule. Interpretatie: Language Skill + 1 sd, zorgt voor RA + 0,471 sd's. Motor Skill + 1 sd, zorgt voor RA + 0,373 sd's.
VAF=R squared= 0,583 en dus 58,3%. Dit is af te lezen, maar ook te berekenen met SSregressie / SStotaal. R is de correlatie tussen de voorspelde en de daadwerkelijke waarde. Dit is R squared in model summary.
De uniek verklaarde variantie door een bepaalde X is de semi partiële correlatie in het kwadraat en is part in het kwadraat in SPSS. Dus 0,365 in het kwadraat = 0,133 en X1 verklaard dus 13,3% van de variantie. 0,289 in het kwadraat = 0,084 en X2 verklaart dus 8,4% van de variantie. De beste predictor heeft de hoogste absolute part of/en de hoogste absolute β (0,365 LS en 0,471 LS).
De Venn diagram is in te vullen met: de totaal verklaarde variantie = R squared = 0,583. De uniek verklaarde varianties zijn: 0,133+0,084=0,217. De algemeen verklaarde variantie is dan: 5,83-0,217= 0,366. Het Venn diagram bestaat uit drie overlappende cirkels. On217 is het gebied van overlap tussen Y en X2. 0,366 is het gebied van overlap tussen Y, X1 en X2. 0,133 is het gebied van overlap tussen Y en X1.
R squared = 78,2%
R=0,377 en r squared = 0,142.
0,6 in het kwadraat + X in het kwadraat = 0,782, dus 0,782-0,36=0,422. R kwadraat van Y (X2 x X1), geeft aan dat er een correctie is voor X1. Deze wordt eruit gepartialiseerd.
(0,8-(0,6x0,3))/(√ 1-0,3 kwadraat) is ook een manier om dit te berekenen en als het goed is, komt hier dus hetzelfde uit.
R kwadraat Yz= 0,8 kwadraat=0,64 of 64%. Dit is alleen het maximum als het niet negatief is. Dit wordt ook wel suppressie genoemd.
Ry(1x2)=0,377. Ry(2x1)= √0,422=0,650 en deze is hoger (X2). Het maakt niet uit of het getal negatief is, wanneer je aan het inschatten bent welke waarde het hoogst is. Je kijkt dus alleen naar absolute waardes.
R squared = 0,782. De unieke verklaarde variantie = 0,142+0,422=0,564. De algemene verklaarde variantie = 0,782-0,564=0,217. Het Venn diagram wordt hier ingevuld met 0,142 in de overlap tussen Y en X1, 0,218 tussen Y, X1 en X2 en 0,422 tussen Y en X2.
R squared = r in het kwadraat van Y1 + R in het kwadraat van Y2.
Hierbij is er geen overlap tussen X1 en X2, omdat hier geen relatie tussen is. Deze kan er ook uitzien als twee vierkante gebieden van X1 en X2 die naast elkaar liggen, waar een rechthoek van Y in ligt. In de linker kant van de rechthoek staat dan 0,36 bij X1 en rechts 0,64 bij X2.
Figuur | Lineariteit | Homoscedasticiteit |
1 | Ja | Nee |
2 | Ja | Ja |
3 | Niet | Ja |
4 | Niet | Niet |
5 | Ja | Ja |
6 | Ja | Niet |
7 | Ja, want er is hier sprake van een lineaire afwijking die aan te passen in met een transformatie | Ja |
8 | Niet | Niet |
Er is een relatie, dus wordt H0 verworpen. Er is namelijk een significant effect (p<0,001).
R squared = 0,397 en deze is hier hetzelfde als R squared change.
Voorspelde CA = 0,452 + 0,719 (Ability) + 0,262 (Motivation)
0,952 in het kwadraat = 0,209 (part in het kwadraat) en 0,209 in het kwadraat = 0,044. R squared = 0,397.
Deze wilde de docent overslaan, omdat hij de vraag nergens op vindt slaan.
Nee, 0,078 is niet significant, dus voegt het niets toe.
Dit voegt wel iets toe, omdat het effect significant is (p<0,001). De R squared change = 0,029.
Teachers interest
In het eerste geval is er 1 set, bestaande uit interesse van het kind (Y) die voorspeld wordt uit ouders en docenten (X’en). Deze zijn op interval niveau, omdat er een 7-puntsschaal is, dus maken we gebruik van MRA. Op het tentamen komen er waarschijnlijk 4 of 5 vragen over techniek keuze.
In het tweede geval is er 1 variabele per set, dus twee sets. Hier maak je gebruikt van een dependent T-test.
In het derde geval is er 1 set en kijk je naar dimensionaliteit, omdat er niks voorspeld wordt. Dan maak je gebruik van PCA.
We hebben in een ANOVA te maken met nominale X variabelen en een Y variabele van interval niveau.
Er is balans als alle groepen groter zijn dan 15. Dit is hier het geval en dus is de test robuust tegen heterogeniteit. Er is ook balans als alle Sums of Squares bij elkaar optellen tot het totaal. Dus effect A + effect B + A*B = totaal. Dit is hier ook het geval en dus is de test robuust tegen niet normaliteit. De derde aanname waar aan voldaan moet worden, is dat de errors onafhankelijk zijn, maar daar wordt alleen naar gekeken, als er rede is om hier aan te twijfelen.
H0 : μ1 = μ2 = μ3 = μ4.
Ha : minstens twee gemiddelden met μ i is niet gelijk aan μj.
In dit geval wordt de nul hypothese verworpen, omdat de F corrected model significant is.
F (3,56) = 14, p = 0,002.
Alle effecten zijn significant, omdat alle p’s kleiner zijn dan 0,05.
De η squared = SS effect / SS corrected total.
In dit geval komt hier dus uit: 210/490=0,429 algemeen. 70/490= 0,143 interactie. 90/490=0,184 Gender. 50/490=0,102 Marital Status.
Er is één grote cirkel die Stress (Y) bevat. Dan zijn er drie cirkels die wel overlappen met Y, maar niet met elkaar. In het gebied van overlap tussen Yen Gender, staat 0,184. In het gebied van overlap tussen Y en Interactie (de middelste cirkel) staat 0,143. In het gebied van overlap tussen Y en Marital Status staat 0,102.
Als factoren niet gecorreleerd zouden zijn, is er geen balans en wordt er gekeken naar de estimated marginal means. Mannen hebben gemiddeld meer werkstress dan vrouwen. Dit geld in de gehuwde groep en in de ongehuwde groep. Ongetrouwde mensen hebben gemiddeld meer werkstress dan getrouwde mensen. Ongetrouwde mannen hebben gemiddeld 1,5 meer werkstress dan vrouwen (kijk naar het verschil in gemiddelden). Getrouwde vrouwen hebben gemiddeld 0,3 meer werkstress. Je kijkt dus naar mannen, vrouwen, ongetrouwde mensen en getrouwde mensen en stelt per groep een interpretatie op. Dan kan je ook nog kijken naar welke groep opvalt en in dit geval zijn dat de ongehuwde mannen.
In het histogram is te zien dat het een beetje normaal verdeelde data is. Er is sprake van homogeniteit als Levene’s niet significant is en in dit geval is dat zo. Hieruit valt te concluderen dat het model passend is.
Het corrected model is hier significant, dus is er ergens een relatie. Dit geeft aan dat H0 kan worden verworpen. Hoofdeffecten A en B zijn significant, maar het interactie effect A*B niet.
De η squared van A = 40,2/2177=0,018. De η squared van B = 327/2177=0,15. De η squared van A*B = 5/2177=0,0023. η squared zegt iets over de sterkte van het gevonden verband.
Lassaiz-faire leiderschap zorgt gemiddeld voor meer tevredenheid (8,3) dan paternalistisch leiderschap (6,3) en deze zijn weer iets tevredener dan mensen onder authoritarian leiderschap (5,7). Dit kan je halen uit de estimated marginal means tabel. Er is geen significant verschil te zien tussen paternalistisch leiderschap en authoritarian leiderschap. De Bonferoni multiple comparisons laat zien dat er een significant verschil zit tussen authoritarian leiderschap en laissez-faire leiderschap en tussen paternalistisch leiderschap en laissez-faire leiderschap. Er is dus geen verschil tussen authoritarian leiderschap en paternalistisch leiderschap en laissez-faire leiderschap doet het significant beter dan beide authoritarian leiderschap en paternalistisch leiderschap.
De groepen zijn groter dan 15, maar niet even groot en dus is er geen balans. 35/26=15. De test is robuust tegen homogeniteit en tegen niet normaliteit.
H0 wordt verworpen, omdat p = 0,000 bij corrected model. Dit houdt in dat er samenhang is.
Leeftijd is hier significant en de interpretatie hiervan is dat jongeren meer SNS gebruiken dan ouderen. De interpretatie van het interactie effect leeftijd*stad is hier: oudere mensen uit een grote stad gebruiken het meest SNS. Jongere uit een grote stad gebruiken meer SNS en ouderen uit een grote stad gebruiken minder SNS. Er is een klein verschil in kleine stad tussen jongeren en ouderen.
De interpretatie van het interactie effect geslacht*stad is hier: vrouwen uit een kleine stad gebruiken het meest SNS, meer dan mannen uit een kleine stad. Mannen uit een grote stad gebruiken meer SNS dan vrouwen uit een grote stad.
De η squared wordt berekent als er naar uniek verklaarde variantie wordt gevraagd.
Error = 414-12-30-12=360, want er is balans.
DF= aantal groepen – 1. Interactie DF= DF A * DF B. Totale DF = N-1. DFe= N – IJ (groepen A*groepen B). Het telt hier weer op tot corrected total.
MS effect = SS effect / DF effect.
SS effect | DF effect | MS effect | F |
12 | 1 | 12 | 4 |
30 | 2 | 15 | 5 |
12 | 2 | 6 | 2 |
360 | 120 | 3 |
|
414 | 125 |
|
|
Er zijn 15 variabelen, 1 set en alle 15 variabelen zijn van interval niveau. Er wordt gekeken naar de specifieke item structuur en dimensionaliteit. Er wordt hier niet één variabele uit de ander voorspeld, dus maken we gebruik van CFA.
Er zijn hier 3 variabelen, 2 sets en alle variabelen zijn van interval niveau. Hier willen we wel voorspellen, dus maken we gebruik van MRA.
Er zijn 2 variabelen, 2 sets en 1 variabele is van interval niveau en 1 van nominaal niveau. We maken hier gebruik van een one-way ANOVA.
Bij Ancova maak je gebruik van X variabelen op nominaal en interval niveau en een Y variabele op interval niveau. Daarnaast is er een C variabele, de covariantie, die ook op interval niveau is. De pre-test is de C variabele.
In totaal zijn er 180 proefpersonen. In iedere groep zitten 60 proefpersonen. Dit is meer dan 15 personen per groep, dus is de test robuust tegen niet normaliteit. Alle groepen zijn ook even groot, dus is er sprake van een gebalanceerd design en is de test robuust tegen heterogeniteit.
F(2, 177)=13,3171, P<.001, wel significant. Je kijkt daarna naar de means in de estimated marginal means. Dan is er met het blote oog te zien dat B het hier het beste doet, dan A en dan C. In de Tukey kan je kijken naar significante verschillen in multiple comparisons bij Sig. Dan kan je zien dat B significant verschilt van A en C, maar deze verschillen onderling niet significant van elkaar.
In within groups correlation, kan je zien dat er vrij hoge correlaties zijn, die significant zijn, tussen de pre-test en post-test. De covariaat hangt dus samen met variabelen, dus wordt hiermee de error gereduceerd. Hiermee wordt de systematische bias ook verwijderd. Er is sprake van systematische bias, als er geen correlatie is tussen de variabelen en de covariaat, of als de groepsgemiddelden verschillen op de covariaat. Het doel is dus het hebben van correlatie en geen verschil. Als er wel verschil is in groepsgemiddelden op de covariaat, maar als er wel correlatie is, is er geen sprake van bias. Het verschil in groepsgemiddelden is dan niet significant. Het heeft hier wel zin om een pre-test te doen, omdat de error dan wordt gereduceerd en de systematische bias wordt eruit gewerkt. Er is hier namelijk geen correlatie maar wel verschil.
Uit de scatterplot valt te halen, dat de data redelijk niet lineair is. Blauw wijkt af van de steekproef, maar er is hier toch sprake van parallellisme in de populatie, omdat er niet heel veel verschil is. Er wordt gekeken naar de test of between-subjects effects. In deze tabel moet je alleen kijken naar het interactie effect en niet naar de rest. De data verandert namelijk als het interactie effect wordt toegevoegd. Parallellisme wordt niet geschonden. Er is namelijk geen rede om aan te nemen dat er geen parallellisme in de populatie is. Hiermee wordt er gecheckt of er tussen de groepen dezelfde relatie is tussen de covariaat en de afhankelijke variabele.
F(2,174)=1,008 , p=0,367, niet significant.
Dit is dus een goed model voor de data. Er is namelijk lineairiteit, parallellisme en robuusteid tegen niet normaliteit en ongelijke groepsvarianties.
Je kijkt naar test of between-subjects effect zonder het interactie effect erin. De pre-test is significant, want p=0,000. Method is nog steeds significant, maar iets minder en de groepsgemiddelden verschillen. Je kijkt naar de estimated marginal means en Tukey multiple comparisons. Het gemiddelde van B is nog steeds het hoofst, maar het gemiddelde van C is omhoog gekropen naar A, als je met het blote oog naar de estimated marginal means kijkt. Uit de Tukey kan je halen dat B iets minder significant verschilt van A en C en dat A en C weer onderling niet verschillen.
Dit is nuttig voor de reductie van error. Bw=0,75 en dit duit op samenhang. B doet het systematisch beter dan A. dit houdt in dat er systematische bias is op gebied van groepsgemiddelden die verschillen op de covariaat.
De pre-test (C) staat op de X-as en de post-test op de Y-as.
Groep A: 4 o p C en 7 op Y, dit leidt tot punt (4,7).
Groep B: 8 op C en 9 op Y, dit leidt tot punt (8,9).
Hier gebruiken we voor de regressielijn per groep Bw=0,75. Dit houdt in dat als er 1 plaats wordt opgeschoven, er 0,75 bij komt.
De formule die hier gebruikt wordt is: ‘kies een punt op de lijn’ + Bw x ‘het verschil tussen het gegeven punt en het gekozen punt’.
Voor A: 7+0,75 x 4= 10, dus punt (8,10). Tussen de twee punten (4,7 en 8,10) wordt een lijn getrokken.
Voor B: 4-8=-4, 9+0,75 x -4=6 en hier komt dus punt (4,6) uit.
De regressielijn van A ligt hoger dan die van B.
C met een streepje erop = (4+8)/2=6. 4 is hier het gemiddelde van A op de pre-test en 8 is het gemiddelde van B op de pre-test. Vanuit punt C met een streepje eruit (6 op de X-as), wordt een verticale streep getrokken.
Het gecorrigeerde gemiddelde van A = de kruising tussen de regressielijn van A en de lijn die getrokken is vanuit C met een streepje. Hier komt ongeveer 8,5 uit. Voor B is dit ongeveer 7,5. Het gecorrigeerde gemiddelde van A is hoger dan dat van B. A lijkt dus de beste methode, maar in die groep zitten de zwakkere leerlingen.
Het gemiddelde van A = 7 en het gemiddelde van B = 9. Het gecorrigeerde gemiddelde van A = 8,5 en het gecorrigeerde gemiddelde van B = 7,5.
Het gecorrigeerde gemiddelde van A = 7- 0,75(4-6) = 8,5.
Het gecorrigeerde gemiddelde van B = 9-0,75(8-6)=7,5.
Hoe ouder mensen zijn, hoe meer kans ze hebben om gemiddeld gezien gaatjes te hebben. De groepen bestaan uit 20, 22 en 27 proefpersonen. Dit is in alle gevallen meer dan 15, dus is de test robuust. 27/20-1,35. Dit is minder dan 1,5 dus is de test ook hier robuust.
APF en gedestilleerd water verschillen, APF doet het namelijk beter.
Er is een duidelijk positief verband uit de scatterplot te halen, dus een pre-test zorgt in ieder geval voor een reductie van error. De groep die APF test, heeft gemiddeld gezien ook de jongste kinderen en gedistilleerd water gemiddeld de oudste. Er is dus ook spraken van mogelijke bias.
Er is sprake van lineairiteit en parallellisme. Het interactie effect is niet significant (p=0,106). Er is dan dus rede om aan te nemen dat parallellisme klopt in de populatie bij benadering. Dit geeft aan dat het een goed model is voor deze data.
Age heeft een significant effect (p=0,000), maar treatment niet meer (p=0,154). De groepsgemiddeldes liggen nu dichter bij elkaar. De conclusie die hieruit getrokken van worden, is dat het in het begin leek als APF het beter deed, maar dit blijkt na correctie niet zo te zijn.
Er is een negatieve samenhang tussen de groepen en over het algemeen. De lijnen lopen namelijk naar beneden. De gemiddelden verschillen niet op de afhankelijke variabele. Na een correctie lijkt het alsof B het beter doet dan A.
Er is een negatieve samenhang tussen de groepen en over het algemeen. A ligt hoger dan B. na een correctie gaan deze dichter naar elkaar toe. Een aanpassing is niet nuttig.
Er is een positieve samenhang tussen de groepen en over het algemeen. B ligt ietsje hoger dan A, maar dit verschil is maar erg klein. Na een correctie doet A het beter dan B en is het verschil groter.
Er is een negatieve samenhang tussen de groepen en over het algemeen. Er is geen verschil. Na de correctie, ligt de lijn niet in een groep. B doet het beter dan A, maar de score komt nergens voor, omdat de lijn niet in een groep ligt. Als er geen overlap tussen groepen zit, is het vaak niet zinvol. Het gemiddelde van de covariaat heeft in dit geval dus geen betekenis.
Er is een positieve samenhang tussen de groepen en over het algemeen. Er is wel verschilt, A doet het namelijk beter dan B. na de correctie gebeurd er niks. Er is geen verschil op de covariaat. Er is geen bias, dus is de correctie eigenlijk niet nodig.
Er is een positieve samenhang tussen de groepen en over het algemeen. A doet het beter dan B. na de correctie komen ze naar elkaar toe.
SSe: 720 = 820-100.
DFa: 3-1=2.
DFe: 48-3=45.
MSa: 100/2=50.
MSe: 720/45=16.
F=50/16=3,125.
P=0,0516 en dit is niet significant.
Substantial pooled-within correlation (0,54), dus zorgt een pre-test hier voor een reductie in error. Er is echter geen bias die hiermee verminderd kan worden, omdat er geen verschil is tussen de groepsgemiddelden.
SS*ct = (1-r in het kwadraat van yc) x SSct = (1-(0,50) in het kwadraat) x 820 = 615.
SS*e = (1- r in het kwadraat van yc(w)) x SSe = (1-(0,54) in het kwadraat) x 720 = 510,05.
SS*a = SS*ct – SS*e = 615-510,05 = 104,95.
DFa = 3-1=2, DFe = 48-3-1=44 (N-K-C)
MS*a = 104,95/2=52,48.
MS*e = 510,05/44=11,60
F=MS*a / MS*e = 52,48/11,60 = 4,53, p=0,0163. Dit is een significant verschil en omdat de error variantie dealt is er meer power.
| SS | DF | MS | F | Sig. |
Teaching approach | 104,95 | 2 | 52,48 | 4,53 | P = 0,0163 |
Error | 510,05 | 44 | 11,60 |
|
|
CT | 615 |
|
|
|
|
SS*ct = -(0,54) in het kwadraat x 820 = 580,89.
SS*e = 1-(0,50) in het kwadraat x 720 = 540.
SS*a = 580,80 – 540 = 40,89.
DFa = K-1 = 3-1 = 2.
DFe = N-K-C = 48 – 3 – 1 = 44.
MSa = 40,89 / 2 = 20,44.
MSe = 59 / 44 = 12,27.
F = 20,44 / 12,27 = 1,67, p=0,201. Dit is niet significant.
| SS | DF | MS | F | Sig. |
A | 40,89 | 2 | 44 | 1,67 | P = 0,201 |
E | 540 | 44 | 12,27 |
|
|
CT | 580,89 |
|
|
|
|
Er zijn 2 variabelen, 2 sets met 1 interval variabele en 1 nominale variabele. Y is van interval niveau, dus maken we gebruik van ANOVA.
Er zijn 3 variabelen, 2 sets met 2 interval variabelen en 1 nominale variabele. Y is van interval niveau, dus maken we gebruik van ANCOVA.
Er zijn 4 variabelen, 2 sets met 4 interval variabelen. We maken gebruik van MRA.
De X variabelen zijn in dit geval van interval niveau en de Y variabele op binair niveau, dus maken we gebruik van LRA.
De nulhypothese wordt verweropen, omdat er in ‘variables in the equation’ staat bij Grade: Wald chi-square (1) = 7,090, p=0,006.
P1 = e b0 + b1X1 / (1+e b0 + b1X1 ) = e -4,2+0,671(Grade) / (1+e -4,2+0,671(Grade))
Hier gebruik je e = 2,7, b0 is constant B uit ‘variables in the equation’ en b1 is Grade constant.
Hier vul je 5 in, in de formule en dit ziet er zo uit: P1= e -4,2+0,671x5 / (1+e -4,2+0,671x5))=0,30.
0,30 is de kans dat iemand slaagt. De kans dat iemand faalt bereken je zo: P0=1-p1=1-0,3=0,7.
P1=P0 P1=0,5 dus e -4,2+0,671(Grade) / (1+e -4,2+0,671(Grade))=0,5 dus e -4,2+0,671(Grade) = 1, omdat p1=1/(1+1)=0,5.
e0 = 1, dus -4,2+0,671(Grade) = 0, dus Grade = 6,26.
Dit komt altijd op het tentamen terug.
X | P1 | Odds = P/(1-P)= e -4,2+0,671(Grade) | Odds ratio = eb1 |
0 | 0,0148 | 0,0150 |
|
1 | 0,0283 | 0,0293 | 1,95 |
2 | 0,0543 | 0,0574 | 1,96 |
3 | 0,1009 | 0,1123 | 1,96 |
4 | 0,1801 | 0,2196 | 1,96 |
5 | 0,3005 | 0,4296 | 1,96 |
6 | 0,4566 | 0,8403 | 1,96 |
7 | 0,6218 | 1,6438 | 1,96 |
8 | 0,7628 | 3,2156 | 1,96 |
9 | 0,8628 | 6,2902 | 1,96 |
10 | 0,9248 | 12,3044 | 1,96 |
Het verschil tussen kansen en odds is dat een odd 10 tegen 1 is en dat de bijbehorende kans is 10/11. Odds worden nooit kleiner dan 0, maar kunnen wel oneindig groot zijn. Er komt altijd een S-curve uit de data van een logistic regression analysis. Het kruispunt van 0,5 op de Y-as met de lijn, zit op 6,26 op de X-as, zoals berekend is bij opdracht 1 D.
Dit is een exponentiële functie. B1=0,671 en Odds Ratio = eb1 = 1,96. Dit geldt voor alle odds. De interpretatie hierbij is: als Grade met 1 unit verhoogd, is de kans op slagen met een factor 1,96 verhoogd. Dit komt uit de lineaire regressie: X0+K wordt Y dakje +b1(K). De logistische vergelijking wordt dan X0+1 wordt odds met een dakje(Y0) x ORk. OR kan je ook berekenen door odds van 2/odds van 3 enzovoort. Er is een constante toename.
Als Grade met 3 units toeneemt, OR(1)= e 0,671= 1,96. OR(K) = OR(1)k= (1,96)3= 7,49. Dit is te controleren met odds van 4 / odds van 1, omdat daar een verschil van 3 tussen zit. Dit kan bij alle odds met een verschil van 3.
Als je een confidence interval van 95% gaat berekenen, maar je altijd gebruik van z=1,96.
Lower bound: CI0,95 = b1 – 1,96(SEb1)=0,671 – 1,96(0,252) = 0,177.
Upper bound: CI0,95 = b1 + 1,96(SEb1)=0,671 - 1,96(0,252) = 1,165.
Hierbij ligt 0 er niet tussen, dus de toets of b gelijk is aan 0, moet significant zijn.
Lower Bound OR= e0,177= 1,194 en Upper Bounds OR = e1,165= 3,206.
Bij een confidence interval van b1, ligt b in het midden van het interval, maar bij een confidence interval van OR is dit asymmetrisch. De interpretatie is: de waarde 1 zit onder de lower bound van de confidence interval, dus in de populatie verhogen de odds van slagen, wanneer Grade hoger wordt. OR wijkt dus significant af van 1.
Een negatieve S-curve (bij een negatieve regressiecoëfficient) loopt van hoog naar laag en een positieve (bij een positieve regressiecoëfficient) van laag naar hoog. Dit geeft een gespiegelde S weer. De kans op galen neemt af als Grade verhoogd. Bij een regressiecoëfficient van 0, is de lijn horizontaal. Bij P1=0,73 en b0=1, als voorbeeld, is 0,73 de base rate van de mensen die het haalt, dus 73% slaagt.
Deze predictor heeft geen voorspellende waarde.
De nulhypothese wordt verworpen, Wald Chi-squared (1)=21,588 , p=0,000. De odds ratio is Exp(B) in SPSS.
De pseudo R squared = 138,629-101,887/138,629=0,265. De pseudo R squared is een mate van badness of fit. Model 0 doet het altijd het slechtst. Het is een reductie van slechte fit of een reductive van onzekerheid.
P1=e -5,108 + 0,964(Ability) / (1+ e -5,108 + 0,964(Ability) )
De interpretatie is: 1 extra eenheid ability van het kind, zorgt ervoor dat de odds van slagen 2,6 keer zo groot worden.
De nulhypothese wordt verworpen, want de Chi-square = 50,904 , p=0,000.
Als je kijkt neet Step en Block zijn deze ook significant, de Chi-square (1) = 14,162 , p<0,001. Dit model is dus een significante verbetering in vergelijking met het vorige model.
De pseudo R squared = 138,629-87,725/138,629=0,367
P1=e -8,82 + 1,139(Ability) + 0,539(Interest) / (1+ e -8,82 + 1,139(Ability) + 0,539(Interest))
De interpretative is: 1 extra eenheid bij ability van het kind, zorgt ervoor dat de odds 3,124 keer zo groot worden. Interest blijft constant. 1 extra eenheid bij Interest, zorgt ervoor dat de odds 1,714 keer zo groot worden. Ability blijft constant.
Parental interest geeft een significant model (0,000), maar de rest is niet meer significant. Er is dus geen significante verbetering, als is het model nog wel goed.
Je kijkt naar overall percentage, wat hier 76% is. Hier wordt er beter voorspeld voor degene die slagen, omdat dit 80% is en voor degene die zakken maar 72%.
PPV=40/(40+14)=0,741. Dit is de kans dat een voorspelling van slagen uitkomt.
NPV= 36/(10+36)=0,782. Dit is de kans dat een voorspelling van zakken uitkomt.
Hier wordt er dus beter voorspeld voor degene die zakken. Dit verschilt van het antwoord bij I, omdat het verschillende conditionele kansen zijn.
De nulhypothese wordt verworpen, Wald Chi-squared (1)=11 , p=0,000 en Wald Chi-squared (1) = 9,409 , P<0,001.
P1=e-6+0,1(Study Hours) + 0,5 ( Lectures) / (1+ e-6+0,1(Study Hours) + 0,5 ( Lectures) ).
P1=e-6+0,1x20 + 0,5x4 / (1+ e-6+0,1x20 + 0,5x4 ) = 0,119.
P1=e-6+0,1x60 + 0,5x7 / (1+ e-6+0,1x60 + 0,5x7 ) = 0,971.
Odds = 0,971/(1-0,971) = 33,115.
Er zijn 4 variabelen, 2 sets met 2 binaire variabelen en 2 interval variabelen. Y is binair, dus maken we gebruik van LRA.
Er zijn 3 variabelen, 2 sets met 2 interval variabelen en 1 binaire variabele. Y is van interval niveau, dus maken we gebruik van MRA of ANCOVA.
Er zijn 3 variabelen, 2 sets met 3 interval variabelen. Y is van interval niveau, dus maken we gebruik van een regressie analyse.
In dit geval hebben we te maken met 3 Y variabelen van interval niveau en 1 X variabele van nominal niveau met drie groepen.
Je kijkt in dit geval naar de descriptive statistics. Hier is te zien dat de N per groep iedere keer 60 is. Er is dus balans en dit zorgt ervoor dat de toets robuust is tegen ongelijke matrixen. Daarnaast is in iedere groep de N groter dan 20, dus is de toets ook robuust tegen niet normaliteit. In de Box M tabel zie je dat deze een p waarde heeft van 0,121 en hier mag je dan aannemen dat er gelijkheid in de populatie.
Hier bekijk je de multivariate tests en alleen naar het effect van occupation. Hier is alles significant, dus wordt de nulhypothese van geen relatei verworpen. Daarnaast, als de vier toetsen elkaar tegenspreken, geldt er kiezen voor de meerderheid of wat het beste uitkomt als het 2 tegen 2 is. Pillai’s trace is minder gevoelig voor de schendig van aannames. De p waarde is hier < 0,05, dus is er minstens 1 lineaire combinatie van de 3 Y variabelen die minstens 2 groepen onderscheiden. Dan zou je verder kunnen gaan met een discriminante analyse of met de protected F methode.
In dit geval kijk je naar alles waar je bij A ook al naar hebt gekeken, maar vergelijk je nu met N>15 in plaats van N>20.
Je kijkt naar de tests of between-subject effects. De variabelen hebben allemaal een significant effect, want p <0,05.
Er is bij de protected F een grotere kans op type I fout, dus kan je een Bonferoni doen. Dan verlies je power en omdat de Bonferoni een over correctie is, kan je je afvragen of dit het waard is. In dit geval deel je de Alpha door het aantal groepen: 0,05/3=0,0167 en dan is alleen dissatisfaction nog significant.
Je kijkt naar de mulitple comparisons en dan alleen naar dissatisfaction, omdat alleen deze significant was. Je kijkt dan naar welke groep eruit springt. Catering is significant meer ontevreden dan management, want deze heeft een positieve lower bound en de rest een negatieve lower bound waarde in het Confidende Interval. Dit valt op en heeft ook een significante p waarde = 0,009. Ook is er te zien dat er meer hostility en dissatisfaction is in catering dan in management, maar hier kijk je alleen naar, als je geïnteresseerd bent in eventuele andere patronen.
Je gebruikt de Tukey, omdat je dan rekening houdt met het feit dat er meerdere keren getest wordt. Daarnaast is deze gespecialiseerd in Anova en heeft een betere balans tussen type I en type II fout.
Imax=min(K-1,P) en dit houdt in dat je bij het theoretisch maximum de kleinste kiest uit het aantal groepen (K) – 1 of het aantal afhankelijke variabelen (P). in dit geval is dat 3-1=2 en 3, dus kiezen we voor 2.
Je kijkt naar de Wilk’s Lambda. De eerste factor is in dit geval significant, p=0,047. De interpretatie hiervan is dat dit een algemene stress reactie factor is en dit haal je uit de structure matrix. Alles correleert hier namelijk hoog en positief. Dan zou je nog kunnen kijken naar de tweede factor, die een contrast factor is van fysieke klachten VS hostility en ontevredenheid.
Je kijkt naar functions at group centroids. Catering heeft hier de hoogste waarde, met 0,357. Dit kan je ook berekenen uit de Canonical Discriminant Function Coefficients tabel met means die je uit de descriptives kan halen. Je doet hier voor sales:
Constant + physical complaints op factor 1 x means van sales op physical complaints + etc
Dan ziet dit eruit als:
-1,858+0,68x3,683+0,111x2,73+0,122x10,002=-0,78.
Je hebt te maken met 2 Y variabelen van interval niveau met 1 nominale X variabele met 3 groepen in 2 data sets. De group means en de standaard deviaties zijn hetzelfde en de univariate F ook, maar er is verschil in de multivariate F. in de Nederlandse dataset is alles nog significant, terwijl dit in de Russische dataset niet meer zo is.
Uit het scatterplot blijkt dat de Nederlandse ballerina’s het laagst scoren, dan de gymnasts en dan de body builders. In de Russische dataset is dit hetzelfde, maar zijn de puntenwolken een kwartslag gedraaid. Er is niet zo veel overlap te zien in de Nederlandse dataset. Voor ballet en body builders is dit helemaal niet het geval. Als je naar 1 dimensie kijkt, worden de groepen niet goed onderscheiden. Er is dan veel overlap als je alleen kijkt naar range op de X-as en range op de Y-as. In 2 dimensies is er dus beter onderscheid in de Nederlandse dataset.
In de Russische dataset is er veel overlap, omdat de elipsen in elkaars verlengde liggen. In 2 dimensies is er dan geen beter onderscheid. Een regressielijn is gelijk aan de eerste discriminante functie, maar de gemiddelden liggen niet altijd precies op de lijn, zoals hier het geval is.
Je hebt te maken met Y van interval niveau en een nominale X met 4 groepen. N is overal 74, wat meer dan 20 is en er is balans. De Box M is niet significant met 0,004>0,001. Je gebruikt 0,001, omdat je sample groot is N=296. Dan moet je voorzichtiger zijn.
De nulhypothese wordt verworpen, want p<0,001.
Je kijkt weer net hetzelfde als bij A met een N moet groter zijn dan 15 in plaats van 20. Voor univariate data gelden namelijk soepelere regels. P=0,036.
Depression interview is significant, maar 0,05/4=0,0125, dus niet meer na de Bonferoni.
Depression self-report p = 0,003 en angst self-report = 0,002. Deze blijven wel significant na de Bonferoni. Fear interview is sowieso niet significant.
B scoort hoger op depression interview dan D met p=0,037.
C en B scoren hoger dan A op fear self-report met 0,001 en 0,049.
Imax= 4-1=3 VS 4, dus we kiezen 3.
1 en 2 zijn significant, wat je uit de Wilk’s Lambda haalt. De structure interpretatie is dat 1 een contrast factor is van angst (+) VS depressie (-). Als iemand hoog scoort, is deze wel angstig, maar niet depressief. 2 is een algemene distress factor.
Er komt altijd zo’n soort vraag op het tentamen! De getallen die tussen de haakjes staan variëren steeds, omdat het dan om een andere groep gaat. Deze groepsgemiddelden haal je uit de Descriptive Statistics. De rest van de formule stel je weer op met Constant + waarde van variabele 1 etc, net als bij opdracht 1 I.
A: 1,201 + 0,220(3,43) – 0,203(2,12) + 0,181(2,35) – 0,148(11,78) = 0,207.
B: 1,201 + 0,220(4,58) – 0,203(2,61) + 0,181(4,32) – 0,148(14,16) = 0,365.
C: 1,201 + 0,220(3,84) – 0,203(2,80) + 0,181(2,92) – 0,148(15,59) = 0,301.
D: 1,201 + 0,220(3,26) – 0,203(2,53) + 0,181(2,33) – 0,148(14,33) = 0,295.
B heeft in dit geval de hoogste waarde met 0,365.
Onder de classification table kan je 34,8% vinden. Vooral voor groep A wordt er goed voorspeld, met 48,6%.
Je hebt te maken met 4 Y variabelen van interval niveau en 1 nominale X met 3 groepen. N=20, dus dat is prima en er is ook balans. De toets is dus robuust tegen niet normaliteit en ongelijke covariantie matrixen. De Box M is daarnaast ook niet significant en dat is fijn.
Er is een multivariaat effect, want er zijn grote verschillen in gemiddelden op extrinsieke en intrinsieke motivatie en doorzettingsvermogen. Er zijn dus minstens 2 groepen die significant verschillen op een lineaire combinatie van minstens 2 variabelen. Het gemiddelde, de standaard deviatie en de groepsgroottes kan je uit de Descriptive Statistics halen. In deze tabel kijken we naar extrinsieke motivatie.
Standaard error = SD / de wortel van N. De wortel van N is in dit geval ongeveer 4,5. Dan is de standaard error dus ongeveer 1. Het is niet belangrijk om hier precies dingen te gaan uitrekenen, omdat je alleen een beeld wil krijgen van wat er ongeveer in de data aan de hand is.
Het Confidence Interval bereken je met het gemiddelde + of – 2 x SE. We gebruiken hier weer 2 in plaats van 1,96 omdat het niet belangrijk is om precies te rekenen.
| Mean | Standard Deviation | N | Standard Error | Confidence Interval |
Groep 1 | 11,55 | 4,36 | 20 | Ongeveer 1 | Ongeveer 9,5 tot 13,5 |
Groep 2 | 6,8 | 1,96 | 20 | Ongeveer 1 | Ongeveer 4,8 tot 8,8 |
Groep 3 | 7,95 | 4,42 | 20 | Ongeveer 1 | Ongeveer 6,0 tot 10,0 |
Wat er hier te zien is, is dat groep 1 en groep 2 niet overlappen, als je kijk naar de Confidence Intervallen en dan 1 en 3 bijna niet overlappen. Dan is er vast een verschil op extrinsieke motivatie. Dan moet je nog een variabele checken, zoals intrinsieke motivatie en hier is ook geen of bijna geen overlap te zien.
Je verwerpt de nulhypothese, omdat alles een p waarde heeft van <0,001.
Hier doe je hetzelfde als bij opdracht 4 A, maar dan met een N>15.
Alles behalve intelligentie, heeft een significant univariaat effect.
0,05/4=0,0125 en dan blijven ze significant.
Professionals hebben meer extrinsieke motivatie dan amateurs en non-atleten, met p=0,001 en p=0,001. Er is geen verschil tussen amateurs en non-atleten, met p=1. Dit kan 1 zijn, omdat SPSS met een Bonferroni niet de Alpha deelt, maar de p waarde vermenigvuldigd. Dit is te zien in Multiple Comparisons. Dit geldt ook voor groep 2 en doorzettingsvermogen.
Er zijn 4 variabelen, 2 sets met 1 binaire Y en 3 X van interval, dus doe je een LRA. Als er een binaire Y is, doe je altijd een LRA. DA zou opzicht ook kunnen, in dit geval, maar LRA is aantrekkelijker, vanwege de statistische eigenschappen.
Er zijn 4 variabelen, 2 sets met 4x interval X en Y, dus doe je MRA.
Er zijn 5 variabelen, 2 sets met 4 Y van interval en 1 nominale X, dus doe je een MANOVA.
Een set van contrasten is orthogonaal als alle paren contracten van de set orthogonaal zijn. Dan geldt er dus: de som van ViWi = V1W1 + V2W2 +VPWP = 0 als je kijkt naar
| Y1 | Y2 | YP |
L1 | V1 | V2 | VP |
L2 | W1 | W2 | WP |
Dit pas je toe op de volgende opgaven. Daarnaast is het zo dat (m(m-1))/2 aangeeft hoeveel paren er mogelijk zijn. Je kijkt apart naar alle variabelen in een paar, zoals op L1 en L2 vergelijken, L2 en L3 en L1 en L3. Als een Y variabele erg afwijkt van de rest, zal ik dit in alle contrasten terug te zien zijn.
Deviation | Y1 | Y2 | Y3 | Y4 |
|
L1 | 1 | -1/3 | -1/3 | -1/3 |
|
L2 | -1/3 | 1 | -1/3 | -1/3 |
|
L3 | -1/3 | -1/3 | 1 | -1/3 |
|
|
|
|
|
| De som van ViWi |
ViWi(L1,L2) | -1/3 | -1/3 | 1/9 | 1/9 | -1/3 |
ViWi(L1,L3) | -1/3 | 1/9 | -1/3 | 1/9 | -1/3 |
ViWi(L2,L3) | 1/9 | -1/3 | -1/3 | 1/9 | -1/3 |
In de Deviation set is er geen paar van contrasten dat orthogonaal is de set van contrasten is dan ook niet orthogonaal.
Simple | Y1 | Y2 | Y3 | Y4 |
|
L1 | 1 | -1 | 0 | 0 |
|
L2 | 1 | 0 | 1 | 0 |
|
L3 | 1 | 0 | 0 | -1 |
|
|
|
|
|
| De som van ViWi |
ViWi(L1,L2) | 1 | 0 | 0 | 0 | 1 |
ViWi(L1,L3) | 1 | 0 | 0 | 0 | 1 |
ViWi(L2,L3) | 1 | 0 | 0 | 0 | 1 |
In de Simple set is er geen paar van contrasten dat orthogonaal is de set van contrasten is dan ook niet orthogonaal. Er is hier sprake van een referentiegroep.
Repeated | Y1 | Y2 | Y3 | Y4 |
|
L1 | -1 | 1 | 0 | 0 |
|
L2 | 0 | -1 | 1 | 0 |
|
L3 | 0 | 0 | -1 | 1 |
|
|
|
|
|
| De som van ViWi |
ViWi(L1,L2) | 0 | 1 | 0 | 0 | 1 |
ViWi(L1,L3) | 0 | 0 | 0 | 0 | 0 |
ViWi(L2,L3) | 0 | 0 | -1 | 0 | -1 |
In de Repeated set is er één paar van contrasten dat orthogonaal is de set van contrasten is dan nog niet orthogonaal. Er is hier sprake van opeenvolging. De ene wordt steeds vergeleken met degene die erna komt.
Difference | Y1 | Y2 | Y3 | Y4 |
|
L1 | -1 | 1 | 0 | 0 |
|
L2 | -1/2 | -1/2 | 1 | 0 |
|
L3 | -1/3 | -1/3 | -1/3 | 1 |
|
|
|
|
|
| De som van ViWi |
ViWi(L1,L2) | 1/2 | -1/2 | 0 | 0 | 0 |
ViWi(L1,L3) | 1/3 | -1/3 | 0 | 0 | 0 |
ViWi(L2,L3) | 1/6 | 1/6 | -1/3 | 0 | 0 |
In de Difference set zijn alle paren van contrasten orthogonaal en dus de set van contrasten ook. Helmert is een spiegeling van Difference, dus wordt deze in het werkboek overgeslagen.
Polynominal | Y1 | Y2 | Y3 | Y4 |
|
L1 | -3/4 | -1/4 | 1/4 | 3/4 | (Lineair) |
L2 | 1/2 | -1/2 | -1/2 | 1/2 | (Kwadratisch) |
L3 | -1/4 | 3/4 | -3/4 | 1/4 | (Cubic) |
|
|
|
|
| De som van ViWi |
ViWi(L1,L2) | -3/8 | 1/8 | -1/8 | 3/8 | 0 |
ViWi(L1,L3) | 3/16 | -3/16 | -3/16 | 3/16 | 0 |
ViWi(L2,L3) | -1/8 | -3/8 | 3/8 | 1/8 | 0 |
In de Polynominal set zijn alle paren van contrasten orthogonaal, dus de set van contrasten is ook orthogonaal.
Bij een lineair contrast zijn de afstanden tussen gewichten altijd gelijk. Je hebt hier dus 5 variabelen en maar 1 L1 die polynominaal is. Het makkelijkst is om getallen te kiezen die gewoon lopen van 1 tot 5. De contrasten moeten wel een gemiddelde hebben van 0 en in dit geval is dat 3. Dit los je op door het gemiddelde ervan af te trekken, wat in dit geval 3 is. Dan moeten alle contrasten nog optellen tot 0 en dit kan door te delen door het gemiddelde.
| Y1 | Y2 | Y3 | Y4 | Y5 |
L1 (Stap 1) | 1 | 2 | 3 | 4 | 5 |
L1 (Stap 2) | 1-3=-2 | 2-3=-1 | 3-3=0 | 4-1=1 | 5-3=2 |
L1 (Stap 3) | -2/3 | -1/3 | 0 | 1/3 | 2/3 |
Hier doe je hetzelfde als bij B, maar dan met 6 Y variabelen. Het gemiddelde bij Stap 1 is 3,5 dus trek je dit van alle getallen af om een gemiddelde van 0 te krijgen. Stap 2 telt op tot 4,5 dus deel je alles door 4,5.
| Y1 | Y2 | Y3 | Y4 | Y5 | Y6 |
L1 (Stap 1) | 1 | 2 | 3 | 4 | 5 | 6 |
L1 (Stap 2) | -2,5 | -1,5 | -0,5 | 0,5 | 1,5 | 2,5 |
Hetzelfde als | -5/2 | -3/2 | -1/2 | 1/2 | 3/2 | 5/2 |
L1 (Stap 3) | -5/9 | -3/9 | -1/9 | 1/9 | 3/9 | 5/9 |
Bij L1 wordt alles vergeleken met Y5, dus krijgt Y5 -1 en de rest 1/4. Bij L2 doet Y5 niet mee, dus deze krijgt 0. Daarnaast worden Y1 + Y2 vergeleken met Y3 + Y4, dus krijgen ze allemaal 1/2. Bij L3 worden Y1 en Y2 vergeleken, dus deze krijgen allebei 1/2 en de rest weer 0. Bij L4 worden Y3 en Y4 vergeleken, dus deze krijgen allebei 1/2 en de rest weer 0. Dit ziet er dan uit als
| Y1 | Y2 | Y3 | Y4 | Y5 |
|
L1 | 1/4 | 1/4 | 1/4 | 1/4 | -1 |
|
L2 | 1/2 | 1/2 | -1/2 | -1/2 | 0 |
|
L3 | 1 | -1 | 0 | 0 | 0 |
|
L4 | 0 | 0 | 1 | -1 | 0 |
|
|
|
|
|
|
| SOM ViWi |
ViWi(L1,L2) | 1/8 | 1/8 | -1/8 | -1/8 | 0 | 0 |
ViWi(L1,L3) | 1/4 | 1/4 | 0 | 0 | 0 | 0 |
ViWi(L1,L4) | 0 | 0 | 1/4 | -1/4 | 0 | 0 |
ViWi(L2,L3) | 1/2 | -1/2 | 0 | 0 | 0 | 0 |
ViWi(L2,L4) | 0 | 0 | -1/2 | 1/2 | 0 | 0 |
ViWi(L3,L4) | 0 | 0 | 0 | 0 | 0 | 0 |
Hier zijn alle paren van contrasten orthogonaal, dus de set van contrasten is ook orthogonaal. Dit is dezelfde soort set als Difference.
| Y1 | Y2 | Y3 | Y4 | Y5 |
|
L1 | 0 | 1/2 | 0 | 1/2 | -1 |
|
L2 | 1/2 | 0 | 1/2 | 0 | -1 |
|
L3 | 1/2 | -1/2 | 1/2 | -1/2 | 0 |
|
L4 | 1/2 | 1/2 | -1/2 | -1/2 | 0 |
|
|
|
|
|
|
| SOM ViWi |
ViWi(L1,L2) | 0 | 0 | 0 | 0 | 1 | 1 |
ViWi(L1,L3) | 0 | -1/4 | 0 | -1/4 | 0 | -1/2 |
ViWi(L1,L4) | 0 | 1/4 | 0 | -1/4 | 0 | 0 |
ViWi(L2,L3) | 1/4 | 0 | 1/4 | 0 | 0 | 1/2 |
ViWi(L2,L4) | 1/4 | 0 | -1/4 | 0 | 0 | 0 |
ViWi(L3,L4) | 1/4 | -1/4 | -1/4 | 1/4 | 0 | 0 |
Sommige paren contrasten zijn wel orthogonaal en anderen niet. A VS B is de hele tijd orthogonaal en als er iets met dosis wordt vergeleken, dan zijn de paren niet orthogonaal. Dit is een duidelijk zichtbaar patroon. De set contrasten is dus niet orthogonaal.
De plot ziet er uit als een stijgende, lineaire lijn met een Cubic vorm eroverheen, dus stijgt, daalt en dan weer stijgt.
Per variabele wordt het gewicht van het contrast vermenigvuldigd met het gemiddelde. Hieruit komt de uitkomst van het contrast. Dit ziet er dan uit als:
Set A | 3 | 7 | 5 | 9 |
L1: Lineair | -3/4 | -1/4 | 1/4 | 3/4 |
L2: Kwadratisch | 1/2 | -1/2 | -1/2 | 1/2 |
L3: Cubic | -1/4 | 3/4 | -3/4 | 1/4 |
L1: -3/4 x 3 -1/4 x 7 + 1/4 x 5 + 3/4 x 9 = 4.
L2: 1/2 x3 -1/2 x 7 -1/2 x 5 + 1/2 x 9 = 0. Omdat deze 0 is, komt deze niet terug in het plot.
L3: -1/4 x 3 + 3/4 x 7 -3/4 x 5 + 1/4 x 9 = 3.
Set B | 0 | 3 | 4 | 1 |
L1: Lineair | -3/4 | -1/4 | 1/4 | 3/4 |
L2: Kwadratisch | 1/2 | -1/2 | -1/2 | 1/2 |
L3: Cubic | -1/4 | 3/4 | -3/4 | 1/4 |
L1: -3/4 x 0 -1/4 x 3 +1/4 x 4 + 3/4 x 1 = 1
L2: 1/2 x 0 -1/2 x 3 -1/2 x 4 + 1/2 x 1 = -3
L3: -1/4 x 0 + 3/4 x 3 -3/4 x 4 + 1/4 x 1 = -1/2
Set C | 9 | 7 | 4 | 0 |
L1: Lineair | -3/4 | -1/4 | 1/4 | 3/4 |
L2: Kwadratisch | 1/2 | -1/2 | -1/2 | 1/2 |
L3: Cubic | -1/4 | 3/4 | -3/4 | 1/4 |
L1: -3/4 x 9 -1/4 x 7 +1/4 x 4 + 3/4 x 0 = 7,5
L2: 1/2 x 9 -1/2 x 7 -1/2 x 4 + 1/2 x 0 = -1
L3: -1/4 x 9 + 3/4 x 7 -3/4 x 4 + 1/4 x 0 = 0. Deze komt weer niet terug in het plot.
De lineaire trend lijkt het belangrijkst in set A, omdat hier de hoogste uitkomst uit komt. Lineairiteit geeft algemene stijging of daling aan. De kwadratische trend lijkt het belangrijkst in set B, omdat hier de hoogste uitkomst uit komt. Je kijkt absoluut, dus negeer – en + tekens. De lineaire trend lijkt het belangrijkst in set C, omdat hier de hoogste uitkomst uit komt.
De groepsgroottes zijn 20.
De toets is robuust tegen multivariate normaliteit in iedere groep, omdat de groepen 20 (eigenlijk N>20) zijn. Ook is er balans.
Het effect van Gender is significant.
De groep vrouwen heeft de hoogste estimated marginal means.
Het effect van conditie is significant, met p<0,001.
Alle groepen verschillen significant van elkaar, behalve failure en rejection. We zien hier weer een Bonferoni, omdat de P waardes 1 kunnen zijn.
Er is een significant interactie effect. De interpretaties zijn hier: er zijn grote verschillen op undifferentiated en op rejection. Er zijn kleine verschillen op neutral en failure. Vrouwen zijn gevoeliger voor rejection en mannen voor failure.
Er is geen post hoc voor interactie, dus we kijken naar contrasten. De onderzoeksvragen zijn:
Werken stemmingsinducties? Dit is te zien aan de vergelijking tussen de voormeting en de recht.
Werken stemmingsinducties die ergens over gaan beter dan stemmingsinducties die nergens over gaan? Dit is te zien aan de vergelijking tussen indifferentiated en de rest.
Doet rejection het beter dan failure?
1 | -1/3 | -1/3 | -1/3 |
0 | 1 | -1/2 | -1/2 |
0 | 0 | 1 | -1 |
Level 1 VS later is significant met P=0,001. Level 2 VS later is significant met P=0,001. Level 3 VS level 4 is significant met P=0,002. Dit is het interactie effect. De interpretaties hierbij zijn: er zijn kleine verschillen op sekse en Failure en grote verschillen op sekse en rejection. Vrouwen zijn gevoeliger voor rejection en mannen zijn gevoeliger voor failure.
Met een mediatie analyse is een algemene beperking dat je aanneemt dat het model klopt, maar dit kan je met een mediatie analyse niet bewijzen. We hebben in dit geval te maken met een X variabele, een Y variabele en een Mediator variabele, allemaal van interval niveau. De X variabele staat links en is opvoeding, de Y variabele staat hier rechts van en is vertrouwen. De mediator is hier zelfverzekerd zijn en deze staat buiten X en Y. Het indirecte effect loopt via de mediator en het directe effect zit tussen X en Y.
De nulhypothese van geen relatie tussen vertrouwen en opvoeding kan worden verworpen, bij een significant effect in de eerste regressie. Je kijkt nooit naar de significantie van constant. Er is hier een significant effect, t=6,144 , p<0,001.
De nulhypothese van geen relatie tussen zelfverzekerd zijn en opvoeding kan worden verworpen bij een significant effect in de tweede regressie. Dit is het geval, t=12,854 , p<0,001.
De nulhypothese van geen relatie tussen vertrouwen en zelfverzekerd zijn, met controle voor opvoeding, kan worden verworpen bij een significant effect in de derde regressie. Je kijkt hier bij het effect van de mediator. Dit is significant, t=5,716 , p<0,001.
De vereisten van Baron en Kenny zijn dat a (de relatie tussen X en M) niet gelijk is aan 0, dat b (De relatie tussen M en Y) niet gelijk is aan 0 en dat c (de relatie tussen X en Y in een model zonder de mediator) niet gelijk is aan 0. C haal je uit de eerste regressie, in coefficients onder standardized coefficients beta. Hetzelfde geldt voor A, maar dan bij de tweede regressie en B en C’ in de derde regressie. C’ is de relatie tussen X en Y in het model met de mediator erin.
C’ is niet significant en niet gleijk aan 0, dus is er sprake van volledige mediatie, want je kijkt naar de significantie van de mediator in de derde regressie, p=0,173.
De overlap tussen X en Y valt volledig binnen M
Met de Aroian versie van de Sobel test bereken je een z-waarde. De bijbehorende formule is:
Z = A*B / (De wortel van (b2*SEa2 + a2*SEb2 + SEa2 * SEb2 ))
Hier vul je de ongestandaardiseerde waardes B in. Dan ziet dit eruit als:
Z = 1,164*1,307 / (De wortel van (1,3072*0,0912 + 1,1642*0,2292 + 0,0912*0,2292)) = 5,199.
Je kijkt alleen naar de 2e regressie voor waardes van A en naar de 3e regressie voor B. De p waarde zoek je op in de Z tabel bij een cut-off waarde van 1,96, omdat er standaard gebruik wordt gemaakt van een Alpha van 0,05. Als je p waarde dan < 0,05 dan is er een significant effect. Hier is het indirecte effect dus significant.
Pmed = (c-c’)/C = (0,37-0,101)/0,37 = 0,73. C’ = het indirecte effect. In de populatie is er volledige mediatie, dus theoretisch gezien is de Pmed dan 1 of 100%. Pmed is niet vergelijkbaar met VAF.
De X variabele is hier steun, die links staat. De Y variabele is hier depressie en staat rechts. De mediator is coping en deze staat buiten de relatie tussen X en Y.
De nulhypothese wordt verworpen, want er is een significante p waarde.
De nulhypothese wordt ook hier verworpen, vanwege een significante p waarde.
De nulhypothese wordt ook hier verworpen. Je kijkt weer naar de significante van de mediator.
Er wordt hier ook aan de eisen voldaan.
Er is hier sprake van partiële mediatie, omdat X een p waarde van 0,020 heeft. De beta is -0,45 en -0,226. C’ heeft geen significant effect en dus is er geen supressie.
De Sobel ziet er hier uit als: Z = 1,063*-1,376 / (De wortel van (-1,3762*0,1342 + 1,0632*0,3482 + 0,1342*0,3482) = -3,516. Dit heeft een significante p waarde van 0,000438.
Het totale effect = C = -0,45
Het directe effect = C’ = -0,266.
Het indirecte effect = C-C’ = -0,45 - -0,226 = -0,224 en dit is ook te berekenen met a*b = 0,589*-0,379 = 0,223. Hier zit een klein verschil tussen vanwege afrondingsfouten.
Het totale effect = C = -2,943
Het directe effect = C’ = -1,48
Het indirecte effect = C-C’ = -2,943 - -1,48 = -1,46 of a*b = 1,063*-1,376 = -1,46
Pmed = -0,224 / -0,45 = 0,498. Dit betekent dat ongeveer 50% van het effect is toe te schrijven aan de mediator.
Leeftijd is hier de X variabele die links staat, salaris is de Y variabele die rechts staat en de mediator educatie level staat hierbuiten.
De correlatie tussen leeftijd en salaris is positief en significant, dus oudere mensen krijgen meer salaris. De correlatie tussen salaris en educatie level is positief en significant, maar niet zo sterk. Opleiding heeft dus niet zo veel effect op salaris. De correlatie tussen leeftijd en educatie level is negatief en significant, dus is er sprake van een cohort effect. Jongeren zijn over het algemeen hoger opgeleid dan ouderen.
De nulhypothese wordt verworpen, t=4,618 , p<0,001.
De nulhypothese wordt verworpen, t=-4,034 , p<0,001.
De nulhypothese wordt verworpen, t=5,522 , p<0,001/
Er wordt voldaan aan de vereisten van Baron en Kenny.
Supressie houdt in dat de Beta van 0,463 in dit geval naar 0,679 gaat. Hij wordt dus hoger. Het directe effect is nog significant en ook sterker dan het totale effect. De semipartiële correlatie (Part in SPSS) van 0,618 is hier groter dan de zero order correlatie van 0,463 voor leeftijd. Dit geldt ook voor educatie, waarbij 0,472 groter is dan 0,237. Er hoeft maar 1 effect groter te worden, maar in dit geval doen ze het allebei. Ze verschillen hier allebei meer van 0 als ze samen in een analyse zitten, dan als ze afzonderlijk zijn. Het overlap gebied van X, Y en M in een Venn diagram is negatief.
Het totale effect = 0,535
Het directe effect = 0,789
Het indirecte effect = -0,449*0,554 = -0,249
Het directe + het indirecte effect werken elkaar tegen, gezien er één negatief is en de ander niet. Dan is het totale effect dus minder. Het directe effect van leeftijd op salaris is met 0,784 groter dan het totale effect van 0,535. Via het indirecte effect zouden ouderen minder geld krijgen doordat ze lager opgeleid zijn, maar het directe effect is sterker, waarbij ze juist meer geld krijgen, omdat ze ouder zijn.
C = 0,463
C’ = 0,679
C-C’ = 0,463-0,679 = -0,216 en a*b = -0,415*0,519 = -0,215
De Quiz is X1, de Speed is X2 en de Test is Y, allemaal van interval niveau. De snelheid van het lezen is in dit geval geen goede predictor, omdat ry2 = 0,038 en p = 0,817, dus is deze niet significant.
Ry(1.2) = (ry1 – ry2*r12) / (De wortel van (1-r212)) = 0,659 – (0,038*0,524) / (De wortel van (1-0,5242)) = 0,750
Ry(2.1) = 0,038 – (0,659*0,524) / (De wortel van (1-0,5242)) = -0,361
0,750 en -0,361 verschillen meer van 0 dan de zero order correlatie van 0,659 en 0,038, dus er is supressie.
Quiz (0,881) en Speed (-0,423) hebben beide een significant effect.
T=-3,323 , p<0,002 en dit is significant. Zie B, er is sprake van supressie.
VAF = R2 = 0,6592 + (-0,361)2 = 0,565
Ook: R2 = 0,0382 + 0,752 = 0,564
Ook: R2 = (0,6592 + 0,0382 – 2(0,659*0,038*0,524))/(1-(0,524)2) = 0,574
We hebben 7 variabelen, 1 set met 3 Y variabelen van interval niveau, dus maak je gebruik van repeated measure ANOVA.
We hebben 3 variabelen, 2 sets met een Y variabele van interval niveau en 2 X variabelen van nominaal niveau, dus maak je gebruik van ANOVA.
We hebben 3 variabelen, 1 set met 3 Y variabelen van interval niveau, dus je maakt gebruikt van RMA of een gepaarde T-toets. 1 set geeft aan dat je niet wil voorspellen, maar gemiddelden wil vergelijken.
We hebben 4 variabelen, 2 sets met een binaire Y en 3 X variabelen van interval niveau, dus maak je gebruik van LRA.
We hebben 4 variabelen, 2 sets met een Y variabele van interval niveau en 2 X variabelen van interval niveau, dus maak je gebruik van MRA.
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
Field of study
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
4332 | 1 | 1 |
Add new contribution