Samenvatting van de colleges week 6 en 7 (OP1)


College 6 Correlatie

 

Correlatie

Correlatie en regressie gaan over relaties tussen twee variabelen in een steekproef.

Het doel van correlationeel onderzoek is voorspellen. Op basis van één variabele wil je kijken of je ook iets over een andere variabele kunt zeggen. Bepaalde waarden van de ene variabele gaan vaker samen met bepaalde waarden van de andere variabele dan met andere waarden van die variabele (lengte & gewicht, sensitiviteit & gehechtheid, religie & mening over abortus). Bijvoorbeeld: als je weet dat een persoon 1.80 meter is, weet je dat die persoon geen 20 kilo weegt omdat over het algemeen langere mensen zwaarder zijn.

 

Let op: deze opmerking gaat op in groepsniveau Alles wat we bespreken in dit college gaat over groepen en niet over individuen.

 

Verschillende typen relaties

  • Numeriek - numeriek: bijvoorbeeld lengte en gewicht

  • Numeriek - categorisch: Bijvoorbeeld sensitiviteit en gehechtheid

  • Categorisch – categorisch: Bijvoorbeeld religie en mening over abortus

 

Relaties kunnen tussen twee numerieke (bv. lengte en gewicht) variabelen, tussen een numerieke en een categorische variabele(bv. sensitiviteit en gehechtheid) en tussen twee categorische variabelen (bv. religie en mening over abortus) zijn. Bij correlatie en regressie kijken we alleen naar de relatie tussen twee numerieke variabelen .

 

Relaties in sociale wetenschappen

Relaties in sociale wetenschappen zijn nooit perfect, vaak zwak en vaak complex. De relaties die we vinden zijn vaak ook niet sterk. Vaak zijn er andere dingen die invloed hebben op je verband. Er zijn vaak meer dan twee variabelen bij betrokken. Als je naar twee variabelen kijkt heb je vaak een hoop onverklaarde variantie over. Belangrijk daarbij is dat je het in context moet zien. Zo zijn ze in de natuurkunde pas tevreden bij 100% verklaarde variantie. In de sociale wetenschappen zijn we al eerder tevreden.

 

Stel: In de onderbouw van de basisschool geldt dat de gemiddelde leeftijd 96 maanden is en de gemiddelde leeftijdsscore 50. Hoe hoog schat je dan de leesvaardigheidsscore van een willekeurig kind van 84 maanden zonder informatie over de relatie tussen leeftijd en leesvaardigheid. De schatting die je het best kan doen is 50. Je kan niet zomaar aannemen dat het kind onder het gemiddelde zit, omdat het jonger is. Normaliter maak je gebruik van kennis die je hebt over relaties tussen twee dingen, zoals de relatie van het verband. Als je dit niet kan doen kan je beter uit gaan van het gemiddelde.

 

Doel correlatie en regressie

Het doel van de correlatie en regressie is informatie geven over de relatie en een voorspelling doen van score y op basis van een score op x. De spreiding van punten op de regressielijn geeft aan hoe groot de spreiding is. Hoe dichter de punten bij de lijn, hoe sterker de relatie. Correlatie gaat over de relatie, regressie gaat over de lijn.

 

Predictor en respons

Twee typen variabelen:

  • Een predictor is onafhankelijk, de bron, oorzaak, verklaring en een voorspeller, hiervan verwacht je dat het de oorzaak is. Ook wel de onafhankelijke variabele.

  • Een respons is afhankelijk, gevolg, uitkomst. Ook wel de afhankelijke variabele.

 

Twee typen samenhang:

  • Bij een symmetrische samenhang is er geen onderscheid tussen de predictor en de respons (beiden hebben dezelfde rol). Je weet niks over de richting.

  • Bij een asymmetrische samenhang is er wel onderscheid tussen de predictor en respons (de ene is de oorzaak, de andere is het gevolg, bv.: IQ en inkomen, het inkomen kan hoger worden wanneer je IQ hoger is maar andersom kan het niet). Je gaat uit van één oorzaak en één gevolg er is richting.

 

Correlatie: predictor/respons

In berekeningen: symmetrisch verband. Je hebt het over symmetrische benaderingen, omdat de correlatie berekening ook symmetrisch is, wat je x of y noemt maakt niet uit. Je hebt geen oorzaak, gevolg.

  • Conceptueel/ theoretisch: het is mogelijk dat je correlatie berekent voor asymmetrisch verbanden. De correlatie zegt echter alleen dat er een samenhang is, niet of het een het ander veroorzaakt.

  • Causaliteit: waar je erg op moet letten is dat je op basis van de analyse die je doet nooit kan zeggen dat je een causale conclusie mag trekken. Alleen echte causaliteit in een experimentele onderzoeksopzet (controle derde variabelen).

De opzet van je onderzoek is bepalend over de conclusie die je kan trekken.

 

Scatterplot

Als je gaat rekenen met correlaties moet je eerst kijken naar je gegevens. Hoe zien de data er uit? De beste manier om dit te doen als je twee numerieke variabelen hebt is een scatterplot maken. Een scatterplot is een plot met punten. De waarden van de variabele x staan op de x-as. Dit is de oorzaak (de predictor). De waarden van variabele y staan op de y-as. Dit is het gevolg (de respons). Elk punt is een combinatie van een waarde op x en een waarde op y. Het scatterplot geeft inzicht in de oorzaak, richting en sterkte van het verband.

  • Vorm: Is het lineair of niet lineair. Als het niet lineair is heeft een correlatie bereken niet veel nut, dit zal niet veel zeggen. De punten in het scatterplot moeten kunnen worden benaderd door een rechte lijn, veel spreiding is niet erg, maar als je er een rechte lijn doorheen trekt moet het overal ongeveer evenveel breed zijn. Een uitbijter moet normaal meer dan 1,5 interkwartiel afwijken van Q1 naar beneden of Q3 naar boven. Hier is een uitbijter wat anders: een waarneming die in de combinatie van 2 scores een gek patroon laat zien.

  • Richting: Wanneer een lijn stijgend is, is de richting positief. Dit betekent dat als er bijvoorbeeld een hogere waarde op x is er ook een hogere waarde op y is. Een lijn kan ook negatief, dus dalend zijn (een hogere waarde op x is een lagere waarde op y)

  • Sterkte: De sterkte kan je niet zien aan het plaatje van het scatterplot, omdat door verschillende schalingmanieren de punten sterker of dichter bij elkaar kunnen liggen. De kwalificatie is afhankelijk van de context. De maat waarmee we de samenhang meten is de correlatiecoëfficiënt. ‘

Soms kun je de relatie tussen twee variabelen alleen begrijpen als je de derde variabele erbij neemt. (bv.: hoe meer brandweermannen bij een brand, hoe groter de schade. Wat is de verklaring hiervoor? Derde variabele is de grootte van de brand, klein, middel of groot.)

 

Correlatiecoëfficiënt

De correlatiecoëfficiënt wordt aangeduid met Pearson’s R. Dit is een indicatie voor de sterkte van de samenhang. De correlatiecoëfficiënt ligt altijd tussen de -1 en 1. Wanneer hij dicht bij de -1 of 1 zit is er een sterke relatie, de punten benaderen een rechte lijn. Wanneer hij dicht bij de 0 zit, is er een zwakke relatie, de punten benaderen een cirkel. Bij precies 0 is er geen enkel verband. -1, 0 en 1 komen vrijwel nooit voor.

 

R: eigenschappen

  • Alleen zinvol bij lineaire relaties

  • Het gaat over symmetrische verbanden: het maakt niet uit wat je x en y noemt

  • Het gaat over 2 numerieke variabelen

  • De interpretatie van correlatiecoëfficiënt is belangrijk, je hebt het altijd over relatieve hoogtes van scores.

  • Het correlatiecoëfficiënt is ongevoelig voor schaling

  • Gevoelig voor uitbijters: als er waardes opduiken die afwijken van het patroon van de rest zal dit invloed hebben. Met uitbijters moet je opaassen, ze kunnen het beeld verteken. Kijk naar het scatterplot!

Correlatiecoëfficiënt berekenen

 

Berekening:

  • Reken z-scores uit per individu voor x en y

  • Vermenigvuldig de z-scores per individu

  • Uitkomsten bij elkaar optellen

  • Deel het resultaat door n-1

 

Haken en ogen aan correlatie

  • Bij een correlatie kun je alleen gebruik maken van numerieke variabelen, deze kun je ordenen en hebben een volgorde. Nominale variabelen kunnen dit niet (bijvoorbeeld de variabele 'sterrenbeeld'. Hier is geen duidelijke ordening). Een alternatief is kijken naar rug aan rug stemplots en zij aan zij boxplots.

  • Ook kun je geen uitspraak doen over de hoogte van scores. Correlatie zegt iets over de relatieve hoogte van scores.

  • Geen uitspraken over gemiddelde scores: Gemiddelden variëren altijd minder dan losse scores. R op gemiddelde is naar boven vertekend.

  • In principe kan je geen causale uitspraken doen, omdat je geen controle over externe variabelen hebt.

  • Onbetrouwbare meetinstrumenten: meetfouten zorgen voor meer variantie dan in ware score, de geobserveerde correlatie wordt lager dan de ware correlatie.

  • Het generaliseren naar de populatie is gevaarlijk wanneer je maar weinig observaties, een niet-representatieve steekproef en/of ongeloofwaardige verbanden hebt. Je kunt dus alleen iets zeggen over relatieve hoogtes en niet over de absolute hoogtes.

 

College 7 Regressie

college_7_joho.pdf

college_7_joho.pdf

Access: 
Public
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Image

Comments, Compliments & Kudos:

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
Check how to use summaries on WorldSupporter.org


Online access to all summaries, study notes en practice exams

Using and finding summaries, study notes en practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the menu above every page to go to one of the main starting pages
    • Starting pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
  2. Use the topics and taxonomy terms
    • The topics and taxonomy of the study and working fields gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
  3. Check or follow your (study) organizations:
    • by checking or using your study organizations you are likely to discover all relevant study materials.
    • this option is only available trough partner organizations
  4. Check or follow authors or other WorldSupporters
    • by following individual users, authors  you are likely to discover more relevant study materials.
  5. Use the Search tools
    • 'Quick & Easy'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject.
    • The search tool is also available at the bottom of most pages

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Field of study

Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
622