Aantekeningen Correlationeel hoorcollege 3 Toepassing Onderzoeksmethoden en Statistiek - UU (2022-2023) - Psychologie
Correlationeel hoorcollege 3
Standaardschattingsfout is de gemiddelde fout die we maken als we het model gebruiken om voorspellingen mee te doen. In JASP heet dat RMSE.
Hypothesetest
- Voor de richtingscoëfficiënt
- Een hypothesetest uitvoeren voor de R kwadraat. Stukje variantie dat verklaard wordt door het model.
- Beide manieren toetsen hetzelfde: is de relatie significant.
Horizontale lijn heeft een hellingsgetal of richtingscoëfficiënt is 0.
Toetsen of er een relatie tussen twee variabelen
- Kijken of het hellingsgetal gelijk is aan 0.
- bèta is de richtingscoëfficiënt in de populatie, hetzelfde als we de correlatie, r, als rho opschrijven in een populatie.
- Gemiddelde is m, maar bij in de hypothese over de populatie gebruiken we de griekse letter mu.
- Richtingscoëfficiënt uit de steekproef is b, uit de populatie is bèta.
- Het is gewoon een t-toets (met t-score), berekent relatief aan de spreiding het verschil tussen de richtingscoëfficiënt in de steekproef en de waarde 0.
- Er wordt gekeken naar een relatief verschil. Net zoals bij KOM.
t-scores die vallen in een standaarschaal. Vallen ongeveer tussen de -3 en de +3. Als de t-score -6 is, dan ligt die in de staart. Dat is dan ook te zien aan de p-waarde, die is kleiner dan 0,001. P-waarde is dan de kans dat we zo’n kleine t-waarde aantreffen vgm. We toetsten is de rc gelijk aan 0. P-waarde lager dan 0,05. Dus de rc verschilt significant van 0, dus er is een relatie tussen productiviteit op werk en PTSS.
- De lijn is horizontaal door de puntenwolk. Valt precies op die plek van het gemiddelde van de y-variabele.
- Geen enkel deel van de spreiding wordt verklaard door de lineaire relatie.
Tweede manier om te toetsen of er een significante relatie is
- is om te toetsen of R kwadraat
- percentage verklaarde variantie
- significant groter is dan 0.
- In de populatie is het rho. Het is dus dezelfde toets als de correlatietoets.
Soort toets
- Dezelfde toets als de correlatie, alleen de interpretatie is verschillend.
- Correlatie interpreteren we als een maat voor de richting en de sterkte van de lineaire relatie
- r kwadraat of rho kwadraat interpreteren we als welk percentage van de spreiding in de y-variabele (de afhankelijke variabele, waarin je geïnteresseerd bent) wordt verklaard door de lineaire relatie.
- De toets die we gebruiken is een F-toets. Soort t-toets, maar dan net iets anders.
- p-waarde is precies hetzelfde als bij de correlatietoets, want de toets is hetzelfde.
- De F-toets is te vinden in de tabel: ANOVA.
- Analysis of Variance. We gaan de variantie analyseren. R kwadraat meet hoeveel van die verspreiding / variantie in die y-variabele wordt verklaard door het model, (en hoeveel wordt er niet verklaard staat er ook nog bij).
Spreiding rond de y-variabele:
- Spreiding rond de y-variabele en richtingscoëfficiënt analyseren is eigenlijk vgm een beetje hetzelfde als je naar die puntenwolk kijkt.
- Zowel boven als onder even veel spreiding bij de y-variabele en even grote residuen voor de rc.
- p-waarde is ofcourse hier ook lager dan 0,001 want hij toetst hetzelfde als de vorige toets: is er een significante relatie tussen de twee variabelen.
- Is de rc verschillend van 0 is de eerste manier en nu kijken we naar de spreiding bij de y-variabele.
- Ook bij dit voorbeeld kunnen we dus de nulhypothese verwerpen.
- Spreiding wordt gemeten door de kwadratensommen. De spreiding van de residuen.
- We berekenen het regressiemodel: de som van de gekwadrateerde residuen, is de kleinste.
- Andere regressievergelijking? Dan vind je altijd een grotere waarde.
- R kwadraat meet hoeveel van de spreiding wordt verklaard door het regressiemodel, kun je terugrekenen uit de ANOVA tabel. Hoef je niet te weten.
Als we gaan kijken naar een gestandaardiseerde regressiecoëfficiënt, dan is dat een regressiecoëfficiënt die is uitgerekend met gestandaardiseerde variabelen. Dit betekent: hebben die PTSS (score tussen de 0 en 4) en productiviteitsscores (score tussen 0 en 40). Eerst de x-variabelen standaardiseren, dat zijn de z-scores. Zie boek. Dit doe je ook met de y-variabelen. Dan heb je geen eenheden meer, als je daar een regressiemodel op los laat, dan krijg je een gestandaardiseerde regressiecoëfficiënt.
Als we een enkelvoudig regressiemodel runnen:
Dit is gelijk aan de correlatie tussen productiviteit en de PTSS-scores.
In twee situaties heb je er wel iets aan:
- Als de eenheden van de x- en y-variabelen zo erg van elkaar verschillen dat je problemen krijgt met afronden. Omzet van bedrijven: miljarden en rentepercentages 0,0010%.
- Je krijgt hele kleine en hele grote waarden: afrondingsproblemen. Zulke grote afrondingsfouten dat je niks meer aan het model hebt.
- Dan kan gestandaardiseerd fijn zijn. Dat is de eerste situatie dat je iets aan de gestandaardiseerde regressiecoëfficiënt hebt.
- Tweede situatie waar we iets aan de gestandaardiseerde regressiecoëfficiënt hebben → als we naar multipele regressie gaan.
- De gestandaardiseerde regressiecoëfficiënt wordt vaak in journal artikels gerapporteerd.
Wanneer mogen we een regressiemodel gebruiken?
- De relatie tussen de twee variabelen moet lineair zijn.
- Zowel de IV als de DV moeten een interval/ratio meetniveau hebben
- De residuen moeten normaal gedistribueerd zijn
- De residuen moeten gelijk spreiding hebben. (homoscedasticity.
- Er moeten geen uitschieters zijn.
Voorwaarden uitgewerkt:
- Beide variabelen zijn schaalscores en het meetniveau van een schaalscore is altijd interval.
- Als we een histogram van de residuen maken, zie je een mooie klok vorm.
- Als je gaat controleren of er voldaan is aan de voorwaarden, kijk dan niet naar de mooie curve. Die curve is een referentie, we moeten kijken naar het histogram van de residuen. De vorm van de blauwe staafjes in het histogram.
De regressielijn
- We kunnen die residuen in een soort spreidingsdiagram zetten.
- Niet x op de x-as en y op de y-as, maar x op de x-as en de residuen op de y-as. Dit is een residuenplot.
- Bij multipele regressie kan dit niet, welke x zet je dan op de x-as?
- Ipv de x op de x-as zetten, kunnen we de voorspelde waarde erop, de waarden van y dakje.
- Voor elke waarde van x doe je een voorspelling uitrekenen met dat model. Lineaire transformatie van x.
- We geven de voorkeur aan deze optie, omdat je die ook bij multipele regressie kunt gebruiken.
- Je ziet de voorspelde waarden op de x-as en de residuen op de y-as. De spreiding van de residuen is overal even groot. Dat is waar we naar op zoek zijn. Je wil een horizontale band van de residuen om de x-as heen.
- Als we de horizontale band terugvinden, spreken we over gelijke spreiding: homoscedasticiteit.
- Niet sprake van horizontale band? Spreken we van heteroscedasticiteit.
- Gestandaardiseerde waarden, de residuen liggen ongeveer tussen de -3 en de +3. Dan krijgen we de klokvorm van de normaalverdeling.
Als je geen voorwaarden schendt, dan mag je verder.
- Hoe meer mensen in de studie hoe nauwkeuriger we de voorspelling kunnen doen. De gemiddelde standaardschattingsfout zal altijd kleiner worden.
- R kwadraat is de andere maat: proportie van de variantie dat verklaard wordt. Ook die verandert altijd als we meer informatie hebben.
- Hoe meer informatie, hoe meer van de spreiding verklaard wordt.
- R kwadraat zal altijd groter worden en de standaardschattingsfout zal altijd kleiner worden met meer mensen. Het is niet altijd een significante toename of afname!
Wil je een model van 3 of 20 variabelen? Dat kunnen we bepalen aan de hand van de significantie. Hoe meer variabelen, hoe meer informatie, R kwadraat zal altijd hoger worden. De gemiddelde standaardschattingsfout zal met meer predictors. SE zal altijd afnemen → nauwkeurigheid van de prediction zal dus omhoog gaan! De vraag is hoeveel, en is dit significant.
Standaardschattingsfout = Dit is de gemiddelde fout die we maken wanneer we een voorspelling doen met het model.
De voorspellingen worden meer nauwkeurig, er wordt meer spreiding verklaard, hoe meer predictor variabelen er in het model zitten.
productiviteit is y dakje, vandaar het dakje.
Gestandaardiseerde regressiecoëfficiënten:
- Eerste keer is bij hele andere schaal en eenheden.
- De ander is bij multipele regressie.
- Nu zou je zeggen: die PTSS heeft de grootste impact. Maarja die PTSS is op een hele andere schaal uitgedrukt. Als we die gestandaardiseerde regressiecoëfficiënten kunnen vergelijken (die zijn eenheidsloos) dan zien we welke predictor de grootste impact heeft.
- Dat blijkt dus back at work te zijn, percentage terug op werk.
2 stappen:
- Is het model significant?
- Daarna: kan het model eenvoudiger?
Je gebruikt dezelfde toets als bij enkelvoudige regressie. Wordt er een significant deel van de spreiding verklaard door dit model? Ja of Nee. We gaan naar de F-score kijken en de p-waarde die daarbij hoort. Significant deel wordt verklaard door het model. Enkelvoudig model was al significant. Dus met een meervoudig model zou het raar zijn als het opeens niet significant zou zijn, want we weten al dat met meer variabelen R kwadraat alleen maar hoger wordt en SE alleen maar kleiner wordt.
Nu kunnen we kijken: Kan het model wat eenvoudiger? Voorspellingen gelijk houden in nauwkeurigheid, maar wel eenvoudiger.
- Je kan aan de hand van een t-toets NOOIT meer dan 1 variabele uit je model verwijderen.
- Dit moet een voor een.
R kwadraat en SE zullen drastisch veranderen als je een significante predictor zal verwijderen. Een niet-significante variabele verwijderen, dat verandert niet heel veel.
De voorwaarden zijn allemaal hetzelfde voor multipele regressie:
- meetniveau
- normaliteit residuen
- geen uitschieters
- homoscedasticiteit
Uit je residuenplot kun je je lineariteit halen.
- De spreiding moet overal hetzelfde zijn. Maar als de band schuin zou lopen, maar nog steeds overal even breed, dan hebben we nog steeds voldaan aan de voorwaarde van gelijke spreiding.
- Daarom zijn we op zoek naar een horizontale band van residuen, omdat als die band mooi horizontaal is. We ook de voorwaarde van lineariteit kunnen controleren. Daar hebben we dan aan voldaan.
Deze grafiek kunnen we daar dus ook voor gebruiken.
Stappen voor voldoen aan de voorwaarden:
- Kijken of die band van de residuen, of die horizontaal is. Die trompetvorm van het begin, heb je niet voldaan aan gelijke spreiding, maar wel aan lineariteit.
- De x-as zijn nu een combinatie van de verschillende predictor variabelen. Nu staat er ‘voorspelde waarde’ op de x-as. En de residuen op de y-as.
- Als de band maar mooi horizontaal is, hebben we voldaan aan lineariteit.
- Tot slot zien we ook geen uitschieters boven de +3 of onder de -3.
- Bij enkelvoudig regressiemodel kun je lineariteit beoordelen a.d.h.v. het spreidingsdiagram.
- Bij multipele regressie kun je daar beter de residuenplot gebruiken. Daarin op zoek gaan naar horizontale band van residuen, die niet boven de 3 of onder de -3 gaat.
- Horizontaal zodat het lineair is.
- Hij moet overal dezelfde breedte hebben zodat we voldoen aan de homoscedasticiteit voorwaarde.
Uitschieters mag je er niet zomaar uithalen. Eerst op onderzoek gaan. Als er niks aan de hand is met die persoon, moet je hem gewoon in je dataset houden.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Aantekeningen Correlationele statistiek; Toepassing Onderzoeksmethoden en Statistiek - UU (2022-2023) - Psychologie
- Aantekeningen Correlationeel hoorcollege 1 Toepassing Onderzoeksmethoden en Statistiek - UU (2022-2023) - Psychologie
- Aantekeningen Correlationeel hoorcollege 2 Toepassing Onderzoeksmethoden en Statistiek - UU (2022-2023) - Psychologie
- Aantekeningen Correlationeel hoorcollege 3 Toepassing Onderzoeksmethoden en Statistiek - UU (2022-2023) - Psychologie
- Aantekeningen Correlationeel hoorcollege 4 Toepassing Onderzoeksmethoden en Statistiek - UU (2022-2023) - Psychologie
- Aantekeningen Kennismaking met Onderzoeksmethoden en Statistiek (Psychologie), Kwalitatief en Correlationeel
- Studiehulp Toepassing en Onderzoeksmethoden en Statistiek - UU (2022-2023) - Psychologie
Contributions: posts
Spotlight: topics
Aantekeningen Correlationele statistiek; Toepassing Onderzoeksmethoden en Statistiek - UU (2022-2023) - Psychologie
Correlationele statistiek bij het vak Toepassing Onderzoeksmethoden en Statistiek - UU (2022-2023) - Psychologie
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the summaries home pages for your study or field of study
- Use the check and search pages for summaries and study aids by field of study, subject or faculty
- Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
- Check or follow authors or other WorldSupporters
- Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Main summaries home pages:
- Business organization and economics - Communication and marketing -International relations and international organizations - IT, logistics and technology - Law and administration - Leisure, sports and tourism - Medicine and healthcare - Pedagogy and educational science - Psychology and behavioral sciences - Society, culture and arts - Statistics and research
- Summaries: the best textbooks summarized per field of study
- Summaries: the best scientific articles summarized per field of study
- Summaries: the best definitions, descriptions and lists of terms per field of study
- Exams: home page for exams, exam tips and study tips
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
- Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
- Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
1262 |
Add new contribution