Multivariate Data Analyse: Samenvattingen, uittreksels, aantekeningen en oefenvragen - UL
- 4950 keer gelezen
Werkgroepaantekeningen bij Multivariate data-analyse (MVDA) aan de Universiteit Leiden - 2018/2019
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
All the techniques we will discuss in the upcoming weeks have one thing in common: They explore the relationship among several variables. Up until now, we have always focused on 2 variables; but in this course, we will deal on 3.
We will learn how to choose a method for a specific problem, how to perform data analysis, to understand the output, to understand the theoretical properties, to interpret the parameters of the technique, and to judge if the interpretations are valid (so check for assumptions).
When we want to predict Y from Xi variables, in the case of interval variables, then we do multiple regression anaysis.Binary variables are variables with only 2 categories; and they can be included in the analysis both as nominal and interval variables. An example of a multiple regression model; Can depression (Y) be predicted from life events (X1) and/or coping style (X2)?
A multiple regression equation has the following formula:
Y = b0 + b1X1 + b2X2 + ... + bkXk + e
We choose the regression line such that the summed difference between Y and the predicted Y is as small as possible. With two predictors, we make a regression plane instead of a regression line; a three-dimensional space.
H0: b1 = b2 = ... = bk = 0
Ha; at least one bj ≠ 0
So, the null hypothesis is that there is no relation between Y and the X variables.
We test H0 with the F test: F = MSregression / MSresidual = (SSregression/dfregression) / (SSresidual / dfresidual). Remember that SStotal = SSregression + SSresidual. If the p-value of F is significant, so <.05; we can reject H0; At least one regression coefficient deviates from zero, so there is a relationship between Y and the X variables.
How good the prediction is can be
.....read moreLet op: niet alle vragen worden in de werkgroepen besproken, dus aantekeningen zijn niet compleet met de werkboekstof
Deze week gaat over MRA, hierbij wordt een Y van interval niveau voorspeld uit meerdere X'en van interval niveau wordt. Binair is tegelijk ook interval, omdat alle intervallen gelijk zijn, gezien er maar één interval is.
Alle variabelen zijn van interval niveau. In een scatterplot kan er gekeken worden naar of er een patroon aanwezig is dat op non-lineariteit duidt of op heteroscedasticiteit. In dit geval is er sprake van lineairiteit en homoscedasticiteit. De normaliteit van residuen of error wordt gecheckt met standardized residual. De punten moeten dicht bij de lijn liggen en in dit geval klopt dat. Hieruit valt te concluderen dat dit model geschikt is voor de data.
Multicollineariteit geeft een overlap tussen variabelen/predictoren aan. Voor deze vraag kijk je in de tabel bij Collinearity Statistics. In dit geval is de Tolerance niet < 0,1 en de VIF niet > 10. Dus er is geen multicollineariteit in de data.
Outliers on dependent variable: niet aanwezig, want Residual < |3|
Influential points: niet aanwezig, want Cook's Distance < 1
Outliers on predictors: niet aanwezig, want Leverage: 0,074 < 3 (2+1)/58 = 0,155
H0: β1 = β2 = 0.
Ha: minstens 1 βj is niet gelijk aan 0.
Er wordt gebruikt gemaakt van β in plaats van b, omdat het gestandaardiseerd is.
Ja, F(2, 55) = 37.770, p < .001
H0: β1 = 0
Ha: β1 is niet gelijk aan 0
H0: β2 = 0
Ha: β2 is niet gelijk aan 0
Ongestandaardiseerd: Voorspelde RA = -1,596 + 1,049 (Language Skill) + 0,464 (Motor Skill). Dit is opgesteld uit ŷ = b0 +b1X1 + b2X2.
Gestandaardiseerd: (Voorspelde RA)st = 0,495 (LS)st + 0,342(MS)st. Deze is opgesteld.....read more
Deze week gaat over MRA, omdat er meerdere X’en van interval niveau zijn en een Y van interval niveau. Binair is tegelijk ook interval, omdat alle intervallen gelijk zijn, gezien er maar één interval is.
Alle variabelen zijn van interval niveau. In een scatterplot kan er gekeken worden naar of er een patroon aanwezig is dat op non-lineariteit duidt of op heteroscedasticiteit. In dit geval is er sprake van lineairiteit en homoscedasticiteit. De normaliteit van residuen of error wordt gecheckt met standardized residual. De punten moeten dicht bij de lijn liggen en in dit geval klopt dat. Hieruit valt te concluderen dat dit model geschikt is voor de data.
H0: β1 = β2 = 0.
Ha: minstens 1 βj is niet gelijk aan 0.
Er wordt gebruikt gemaakt van β in plaats van b, omdat het gestandaardiseerd is. In dit geval kan H0 worden verworpen, omdat het effect significant is (p<0,001).
Voorspelde RA = -1,5 + 1 (Language Skill) + 0,5 (Motor Skill). Dit is opgesteld uit ŷ = b0 +b1X1 + b2X2.
Interpretatie: als er bij Language Skill 1 punt omhoog gegaan wordt, betekent dit dat er bij RA ook een punt bij komt. Als er bij Motor Skill en punt bij komt, komt er bij RA een halve punt bij.
ŷj = -1,5 + (1x3) + (0,5x4)= 3,5
Gestandaardiseerd: (Voorspelde RA)st = 0,471 (LS)st + 0,373(MS)st. deze is opgesteld vanuit ŷst = β1X1st + β2X2st. Hier is b0 gelijk aan 0, dus staat deze niet in de formule. Interpretatie: Language Skill + 1 sd, zorgt voor RA + 0,471 sd's. Motor Skill + 1 sd, zorgt voor RA + 0,373 sd's.
VAF=R squared= 0,583 en dus 58,3%. Dit is af te lezen, maar ook te berekenen met SSregressie / SStotaal. R is de correlatie tussen de voorspelde en de daadwerkelijke waarde. Dit is R squared in model summary.
De uniek verklaarde variantie door een bepaalde X is de semi partiële correlatie in het kwadraat en is part in het kwadraat in SPSS. Dus 0,365 in het kwadraat = 0,133 en X1 verklaard dus 13,3% van de variantie. 0,289 in het kwadraat = 0,084 en X2 verklaart dus 8,4% van de variantie. De beste predictor heeft de hoogste absolute part of/en de hoogste absolute β (0,365 LS en 0,471 LS).
De Venn diagram is in te vullen met: de totaal verklaarde variantie = R squared = 0,583. De uniek verklaarde varianties zijn: 0,133+0,084=0,217......read more
MVDA gaat over onderzoeksvragen. Bijvoorbeeld: kun je depressie voorspellen uit life events en coping? En: heeft een lesmethode effect op het rekenvermogen van middle class kinderen? Onderzoeksvragen hebben twee aspecten: de relatie tussen constructen en de populatie (steekproef = sample van de populatie). Geteste constructen noemen we variabelen. Om de data te analyseren moeten de juiste statistische technieken gebruikt worden bij de juiste onderzoeksvraag.
Er zijn 7 technieken verdeeld over 7 weken. Elke techniek kijkt naar 3 of meer variabelen. We gaan kijken welke methode we voor welk probleem kunnen gebruiken, we gaan data analyseren, we gaan naar de output kijken en we dieper naar de theorieën en of de interpretaties kloppend zijn.
We beginnen met MRA, dit is multipele regressie analyse. De technieken van de eerste vier weken hebben gemeen dat er één afhankelijke variabele is. Dit is de variabele die we willen voorspellen (Y). De onafhankelijke variabelen zijn de voorspellers, bij ANOVA worden ze factoren genoemd. Bij deze vier technieken is de vraag ‘kan ik Y voorspellen uit de onafhankelijke variabelen?’
Welke techniek je gebruikt hangt af van het meetniveau van de variabelen. Tijdens deze cursus zijn er drie meetniveaus die er toe doen:
Categorisch/nominaal: mensen worden in groepen ingedeeld
Interval: intervallen tussen scores hebben betekenis - afstand tussen de meetpunten heeft betekenis; vb.) depressiescore
Binair: Een categorische variabele die 2 categorieën heeft en interval eigenschappen heeft – er zijn twee niveaus en twee categorieën; vb.) man/vrouw, geslaagd/gezakt
De eerste week staat in het teken van Multipele Regressie Analyse (MRA). Bij multipele regressie analyse proberen we op basis van een aantal onafhankelijke variabelen (X1, X2….Xp) de afhankelijke variabele (Ypred) te voorspellen.
Belangrijk bij MRA:
Er zijn meerdere onafhankelijke variabelen en er is steeds slechts één afhankelijke variabele.
Zowel de onafhankelijke variabelen als de afhankelijke variabelen zijn van interval niveau.
Hieronder staat een overzicht van welke techniek je moet gebruiken bij verschillende niveaus van de variabelen (deze technieken worden in week 1 tot en met 4 behandeld).
X1, X2 … Xp | Y | Techniek |
Interval | Interval | Multipele regressie analyse (MRA) |
Nominaal | Interval | Variantie analyse (ANOVA) |
Nominaal + interval | Interval | Covariantie analyse (ANCOVA) |
Interval | Binair | Logistische regressie analyse (LRA) |
Op zoek naar een uitdagende job die past bij je studie? Word studentmanager bij JoHo !
Werkzaamheden: o.a.
Interesse? Reageer of informeer
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
Field of study
Add new contribution