Aantekeningen Correlationeel hoorcollege 3 Toepassing Onderzoeksmethoden en Statistiek - UU (2022-2023) - Psychologie

Correlationeel hoorcollege 3

Standaardschattingsfout is de gemiddelde fout die we maken als we het model gebruiken om voorspellingen mee te doen. In JASP heet dat RMSE.

Hypothesetest

Voor de richtingscoëfficiënt
Een hypothesetest uitvoeren voor de R kwadraat. Stukje variantie dat verklaard wordt door het model.
Beide manieren toetsen hetzelfde: is de relatie significant.

Horizontale lijn heeft een hellingsgetal of richtingscoëfficiënt is 0.

Toetsen of er een relatie tussen twee variabelen

Kijken of het hellingsgetal gelijk is aan 0.
bèta is de richtingscoëfficiënt in de populatie, hetzelfde als we de correlatie, r, als rho opschrijven in een populatie.
Gemiddelde is m, maar bij in de hypothese over de populatie gebruiken we de griekse letter mu.
Richtingscoëfficiënt uit de steekproef is b, uit de populatie is bèta.
Het is gewoon een t-toets (met t-score), berekent relatief aan de spreiding het verschil tussen de richtingscoëfficiënt in de steekproef en de waarde 0.
Er wordt gekeken naar een relatief verschil. Net zoals bij KOM.

t-scores die vallen in een standaarschaal. Vallen ongeveer tussen de -3 en de +3. Als de t-score -6 is, dan ligt die in de staart. Dat is dan ook te zien aan de p-waarde, die is kleiner dan 0,001. P-waarde is dan de kans dat we zo’n kleine t-waarde aantreffen vgm. We toetsten is de rc gelijk aan 0. P-waarde lager dan 0,05. Dus de rc verschilt significant van 0, dus er is een relatie tussen productiviteit op werk en PTSS.

De lijn is horizontaal door de puntenwolk. Valt precies op die plek van het gemiddelde van de y-variabele.
Geen enkel deel van de spreiding wordt verklaard door de lineaire relatie.

Tweede manier om te toetsen of er een significante relatie is

is om te toetsen of R kwadraat
percentage verklaarde variantie
significant groter is dan 0.
In de populatie is het rho. Het is dus dezelfde toets als de correlatietoets.

Soort toets

Dezelfde toets als de correlatie, alleen de interpretatie is verschillend.
Correlatie interpreteren we als een maat voor de richting en de sterkte van de lineaire relatie
r kwadraat of rho kwadraat interpreteren we als welk percentage van de spreiding in de y-variabele (de afhankelijke variabele, waarin je geïnteresseerd bent) wordt verklaard door de lineaire relatie.
De toets die we gebruiken is een F-toets. Soort t-toets, maar dan net iets anders.
p-waarde is precies hetzelfde als bij de correlatietoets, want de toets is hetzelfde.
De F-toets is te vinden in de tabel: ANOVA.
Analysis of Variance. We gaan de variantie analyseren. R kwadraat meet hoeveel van die verspreiding / variantie in die y-variabele wordt verklaard door het model, (en hoeveel wordt er niet verklaard staat er ook nog bij).

Spreiding rond de y-variabele:

Spreiding rond de y-variabele en richtingscoëfficiënt analyseren is eigenlijk vgm een beetje hetzelfde als je naar die puntenwolk kijkt.
Zowel boven als onder even veel spreiding bij de y-variabele en even grote residuen voor de rc.
p-waarde is ofcourse hier ook lager dan 0,001 want hij toetst hetzelfde als de vorige toets: is er een significante relatie tussen de twee variabelen.
Is de rc verschillend van 0 is de eerste manier en nu kijken we naar de spreiding bij de y-variabele.
Ook bij dit voorbeeld kunnen we dus de nulhypothese verwerpen.
Spreiding wordt gemeten door de kwadratensommen. De spreiding van de residuen.
We berekenen het regressiemodel: de som van de gekwadrateerde residuen, is de kleinste.
Andere regressievergelijking? Dan vind je altijd een grotere waarde.
R kwadraat meet hoeveel van de spreiding wordt verklaard door het regressiemodel, kun je terugrekenen uit de ANOVA tabel. Hoef je niet te weten.

Als we gaan kijken naar een gestandaardiseerde regressiecoëfficiënt, dan is dat een regressiecoëfficiënt die is uitgerekend met gestandaardiseerde variabelen. Dit betekent: hebben die PTSS (score tussen de 0 en 4) en productiviteitsscores (score tussen 0 en 40). Eerst de x-variabelen standaardiseren, dat zijn de z-scores. Zie boek. Dit doe je ook met de y-variabelen. Dan heb je geen eenheden meer, als je daar een regressiemodel op los laat, dan krijg je een gestandaardiseerde regressiecoëfficiënt.

Als we een enkelvoudig regressiemodel runnen:

Dit is gelijk aan de correlatie tussen productiviteit en de PTSS-scores.

In twee situaties heb je er wel iets aan:

Als de eenheden van de x- en y-variabelen zo erg van elkaar verschillen dat je problemen krijgt met afronden. Omzet van bedrijven: miljarden en rentepercentages 0,0010%.
Je krijgt hele kleine en hele grote waarden: afrondingsproblemen. Zulke grote afrondingsfouten dat je niks meer aan het model hebt.
Dan kan gestandaardiseerd fijn zijn. Dat is de eerste situatie dat je iets aan de gestandaardiseerde regressiecoëfficiënt hebt.
Tweede situatie waar we iets aan de gestandaardiseerde regressiecoëfficiënt hebben → als we naar multipele regressie gaan.
De gestandaardiseerde regressiecoëfficiënt wordt vaak in journal artikels gerapporteerd.

Wanneer mogen we een regressiemodel gebruiken?

De relatie tussen de twee variabelen moet lineair zijn.
Zowel de IV als de DV moeten een interval/ratio meetniveau hebben
De residuen moeten normaal gedistribueerd zijn
De residuen moeten gelijk spreiding hebben. (homoscedasticity.
Er moeten geen uitschieters zijn.

Voorwaarden uitgewerkt:

Beide variabelen zijn schaalscores en het meetniveau van een schaalscore is altijd interval.
Als we een histogram van de residuen maken, zie je een mooie klok vorm.
Als je gaat controleren of er voldaan is aan de voorwaarden, kijk dan niet naar de mooie curve. Die curve is een referentie, we moeten kijken naar het histogram van de residuen. De vorm van de blauwe staafjes in het histogram.

De regressielijn

We kunnen die residuen in een soort spreidingsdiagram zetten.
Niet x op de x-as en y op de y-as, maar x op de x-as en de residuen op de y-as. Dit is een residuenplot.
Bij multipele regressie kan dit niet, welke x zet je dan op de x-as?
Ipv de x op de x-as zetten, kunnen we de voorspelde waarde erop, de waarden van y dakje.
Voor elke waarde van x doe je een voorspelling uitrekenen met dat model. Lineaire transformatie van x.
We geven de voorkeur aan deze optie, omdat je die ook bij multipele regressie kunt gebruiken.
Je ziet de voorspelde waarden op de x-as en de residuen op de y-as. De spreiding van de residuen is overal even groot. Dat is waar we naar op zoek zijn. Je wil een horizontale band van de residuen om de x-as heen.
Als we de horizontale band terugvinden, spreken we over gelijke spreiding: homoscedasticiteit.
Niet sprake van horizontale band? Spreken we van heteroscedasticiteit.
Gestandaardiseerde waarden, de residuen liggen ongeveer tussen de -3 en de +3. Dan krijgen we de klokvorm van de normaalverdeling.

Als je geen voorwaarden schendt, dan mag je verder.

Hoe meer mensen in de studie hoe nauwkeuriger we de voorspelling kunnen doen. De gemiddelde standaardschattingsfout zal altijd kleiner worden.
R kwadraat is de andere maat: proportie van de variantie dat verklaard wordt. Ook die verandert altijd als we meer informatie hebben.
Hoe meer informatie, hoe meer van de spreiding verklaard wordt.
R kwadraat zal altijd groter worden en de standaardschattingsfout zal altijd kleiner worden met meer mensen. Het is niet altijd een significante toename of afname!

Wil je een model van 3 of 20 variabelen? Dat kunnen we bepalen aan de hand van de significantie. Hoe meer variabelen, hoe meer informatie, R kwadraat zal altijd hoger worden. De gemiddelde standaardschattingsfout zal met meer predictors. SE zal altijd afnemen → nauwkeurigheid van de prediction zal dus omhoog gaan! De vraag is hoeveel, en is dit significant.

Standaardschattingsfout = Dit is de gemiddelde fout die we maken wanneer we een voorspelling doen met het model.

De voorspellingen worden meer nauwkeurig, er wordt meer spreiding verklaard, hoe meer predictor variabelen er in het model zitten.

productiviteit is y dakje, vandaar het dakje.

Gestandaardiseerde regressiecoëfficiënten:

Eerste keer is bij hele andere schaal en eenheden.
De ander is bij multipele regressie.
Nu zou je zeggen: die PTSS heeft de grootste impact. Maarja die PTSS is op een hele andere schaal uitgedrukt. Als we die gestandaardiseerde regressiecoëfficiënten kunnen vergelijken (die zijn eenheidsloos) dan zien we welke predictor de grootste impact heeft.
Dat blijkt dus back at work te zijn, percentage terug op werk.

2 stappen:

Is het model significant?
Daarna: kan het model eenvoudiger?

Je gebruikt dezelfde toets als bij enkelvoudige regressie. Wordt er een significant deel van de spreiding verklaard door dit model? Ja of Nee. We gaan naar de F-score kijken en de p-waarde die daarbij hoort. Significant deel wordt verklaard door het model. Enkelvoudig model was al significant. Dus met een meervoudig model zou het raar zijn als het opeens niet significant zou zijn, want we weten al dat met meer variabelen R kwadraat alleen maar hoger wordt en SE alleen maar kleiner wordt.

Nu kunnen we kijken: Kan het model wat eenvoudiger? Voorspellingen gelijk houden in nauwkeurigheid, maar wel eenvoudiger.

Je kan aan de hand van een t-toets NOOIT meer dan 1 variabele uit je model verwijderen.
Dit moet een voor een.

R kwadraat en SE zullen drastisch veranderen als je een significante predictor zal verwijderen. Een niet-significante variabele verwijderen, dat verandert niet heel veel.

De voorwaarden zijn allemaal hetzelfde voor multipele regressie:

meetniveau
normaliteit residuen
geen uitschieters
homoscedasticiteit

Uit je residuenplot kun je je lineariteit halen.

De spreiding moet overal hetzelfde zijn. Maar als de band schuin zou lopen, maar nog steeds overal even breed, dan hebben we nog steeds voldaan aan de voorwaarde van gelijke spreiding.
Daarom zijn we op zoek naar een horizontale band van residuen, omdat als die band mooi horizontaal is. We ook de voorwaarde van lineariteit kunnen controleren. Daar hebben we dan aan voldaan.

Deze grafiek kunnen we daar dus ook voor gebruiken.

Stappen voor voldoen aan de voorwaarden:

Kijken of die band van de residuen, of die horizontaal is. Die trompetvorm van het begin, heb je niet voldaan aan gelijke spreiding, maar wel aan lineariteit.
De x-as zijn nu een combinatie van de verschillende predictor variabelen. Nu staat er ‘voorspelde waarde’ op de x-as. En de residuen op de y-as.
Als de band maar mooi horizontaal is, hebben we voldaan aan lineariteit.
Tot slot zien we ook geen uitschieters boven de +3 of onder de -3.
Bij enkelvoudig regressiemodel kun je lineariteit beoordelen a.d.h.v. het spreidingsdiagram.
Bij multipele regressie kun je daar beter de residuenplot gebruiken. Daarin op zoek gaan naar horizontale band van residuen, die niet boven de 3 of onder de -3 gaat.
Horizontaal zodat het lineair is.
Hij moet overal dezelfde breedte hebben zodat we voldoen aan de homoscedasticiteit voorwaarde.

Uitschieters mag je er niet zomaar uithalen. Eerst op onderzoek gaan. Als er niks aan de hand is met die persoon, moet je hem gewoon in je dataset houden.

Access:

Public

Check: concept of JoHo WorldSupporter

Concept of JoHo WorldSupporter

JoHo WorldSupporter mission and vision:

JoHo wants to enable people and organizations to develop and work better together, and thereby contribute to a tolerant tolerant and sustainable world. Through physical and online platforms, it support personal development and promote international cooperation is encouraged.

JoHo concept:

As a JoHo donor, member or insured, you provide support to the JoHo objectives. JoHo then supports you with tools, coaching and benefits in the areas of personal development and international activities.
JoHo's core services include: study support, competence development, coaching and insurance mediation when departure abroad.