Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Image

Inleiding in de Methoden en Technieken - Aanvulling

Deze samenvatting is gebaseerd op collegejaar 2012-2013. Bekijk hier ons huidige aanbod.

Week 7                                                          Regressie-analyse en variantie verklaren   15-10-2012

 

Regressie

Bij regressie voorspel je één variabele uit één (of meerdere) andere variabelen. Bij een regressie-analyse heb je minstens twee metingen per observatie-eenheid nodig. Dit is nodig omdat je bij twee metingen pas een lijn kan maken. We hebben een verklarende variabele nodig die we op de x-as zetten, en een response variabele die op de y-as hoort. We spreken bij het vak Inleiding in de Methoden en Technieken van enkelvoudige lineaire regressie, omdat we maar één variabele gebruiken om iets te voorspellen.

 

De regressielijn

De regressielijn is een rechte lijn die optimaal beschrijft hoe de response variabele y verandert als de verklarende variabele x verandert. Hiervoor is de vergelijking:

ŷ = a + bx.

  • ŷ is de voorspelde waarde.
  • a is het intercept, dit is de voorspelde waarde van y bij x=0. a is dus de plek waar de lijn de y-as snijdt.
  • b is de slope (de hellingshoek), dit is de verandering in y per eenheid verandering in x. Als b kleiner wordt, wordt de lijn horizontaler. Als b groter wordt, wordt de lijn steiler.

De vergelijking voor ŷ kan ook geschreven worden als ŷ = b0 + b1.

 

De least squares regressielijn is de lijn waarbij de punten zo dicht mogelijk bij de lijn liggen en waarbij de errors zo klein mogelijk worden gehouden.

Om de regressielijn op te stellen moet je weten dat het een rechte lijn moet zijn met hellingshoek b. Daarnaast moet de lijn door het punt (0,a) gaan, en door het punt (x-gem, y-gem). Je kan de vergelijking ŷ = a + bx opstellen met behulp van de formules voor a en b:

a = y-gem – b * x-gem.

b = r * (Sy/Sx)

Bij de berekening van de hellingshoek heb je dus de correlatie en de standaarddeviaties van x en y nodig.

 

De regressievergelijking kan ook in standaardscores worden opgesteld. Dan gaat de lijn door (x-gem, y-gem) en door (0,0). De vergelijking is ẑy = A + Bzx met

B = r * (Szy/Szx)

A = z-gemy – B * z-gemx

Aangezien Szy gelijk is aan Szx, is B = r.

 

Interpolatie is een voorspelling doen binnen de range van x en y. Dit is dus een voorspelling binnen de data die uit het onderzoek zijn gekomen.

Extrapolatie is een voorspelling doen buiten de range van x en y. Dit is buiten de data, dus waar je de regressielijn hebt doorgetrokken. Hierbij heb je een grotere onzekerheid. Ook kan het zijn dat het model niet klopt omdat het niet altijd een rechte lijn blijft. Dit is bijvoorbeeld het geval bij een groeicurve. Bij baby’s is er een lineair verband tussen de leeftijd en de lengte. Maar dit blijft niet je hele leven geldig. Hierbij kan je dus geen voorspellingen doen voor latere leeftijden.

 

Om erachter te komen hoe goed de regressielijn voorspelt, moet je de variantie van de voorspelde waarden delen door de totale variantie. Hierbij krijg je de proportie verklaarde variantie, en deze is gelijk aan r2xy. Als de proportie verklaarde variantie groot is, is de helling steil en/of is er weinig scatter. Dit is goed, want hoe verder de punten van elkaar af liggen, hoe minder goed de voorspelling is.

 

Bij regressie-analyse zijn er een paar dingen waar je op moet letten:

 

Ten eerste zijn er de residual plots. Het residu is het verschil tussen de voorspelde score en de geobserveerde score (is het residu negatief, dan is de score lager dan verwacht). Het residuplot is een scatterplot van residuen tegen de waarden van de verklarende variabele. Deze plot mag geen systematisch patroon vertonen.

 

Ten tweede moet je rekening houden met de uitbijters en invloedrijke observaties. Uitbijters moet je onderscheiden in x en in y, deze kunnen namelijk verschillende invloeden hebben. Een uitbijter in x is alleen invloedrijk als y ver van de regressielijn ligt. Een invloedrijke observatie is een observatie die bij verwijdering de regressielijn relatief sterk wijzigt. Plot je regressielijn dus zonder mogelijke uitbijters of invloedrijke observaties om te kijken hoeveel invloed deze hebben, maar verwijder deze niet zomaar uit je data!

 

Ook moet je stil staan bij de verscholen variabelen. Dit zijn variabelen die zelf niet in het onderzoek zitten maar die wel de interpretatie van de relatie tussen de onderzochte variabelen beïnvloed. Een manier om erachter te komen of er een verscholen variabele is, is om de residuen tegen een andere mogelijke verklarende variabele te plotten.

 

Daarnaast moet je altijd kijken of het verband wel een lineair verband is. Als dit niet het geval is moet je geen regressielijn gebruiken.

 

Heterogene (sub)groepen kunnen een verschillend verband tonen. Als je deze groepen met verschillende gemiddelden samenvoegt kan het de Pearson r versterken of verzwakken, waardoor het geen goede afspiegeling is van het geheel. Check bijvoorbeeld het verschil tussen vrouwen en mannen.

 

Als laatst zijn er de geselecteerde subgroepen. Hier komt het restricted-range probleem bij kijken. Als je een relatie bekijkt tussen x en y subgroepen, kan dit leiden tot onder- of overschatting van de relatie. Als je maar een deel van de range bekijkt, kan het zijn dat je niet het gehele verband ziet. Bekijk relaties dus altijd over de volle range.

 

 

Week 7          

 

Opdracht 7.1.a.:

De mentale leeftijd is de verklarende (onafhankelijke) variabele. De leesscore is de respons (afhankelijke) variabele.

 

Opdracht 7.1.b.:

De vergelijking die je op moet stellen is ŷ = a + bx. Dit doe je met behulp van de gegevens die gegeven zijn en de formules voor a en b.

b = r * (Sy/Sx) = 0,7505 * (0,8165/1,2693) = 0,483

a = y-gem – b * x-gem = 7,0 – 0,483 * 7,5 = 3,379

De regressievergelijking is dan: ŷ = 3,379 + 0,483x

 

Opdracht 7.1.f.:

Voor een mentale leeftijd van 7,0 wordt een leesscore voorspeld van ŷ = 3,379 + 0,483 * 7,0 = 6,76. De waargenomen leesscore was 6,5. Het verschil tussen deze scores is het residu. Deze bereken je door de verwachte score af te trekken van de geobserveerde score. In dit geval is het residu dus 6,5 – 6,76 = -0,26. Dat het residu negatief is betekent dat de ware score lager is dan verwacht.

 

Opdracht 7.2.abc.:

De regressievergelijking voor de gestandaardiseerde scores is ẑy = A + BzJe stelt deze vergelijking op met behulp van de gegevens en de formules voor A en B.

B = r * (Szy/Szx), maar aangezien Szy en Szx aan elkaar gelijk zijn is B = r. B is dan dus 0,7505. Omdat B altijd gelijk is aan r ligt B altijd tussen de -1 en 1 (voor ruwe scores geldt dit niet omdat de standaarddeviaties dan wel invloed hebben).

A = z-gemy – B * z-gemx. Aangezien z-gemy en z-gemx allebei gelijk zijn aan 0 is A ook gelijk aan 0.

De vergelijking van ẑy is dan dus ẑy = 0,7505 * zx.

 

Opdracht 7.2.d.:

Als B gelijk is aan 0 dan is er geen correlatie en dus ook geen hellingshoek. De lijn loopt dan horizontaal. Bij een gestandaardiseerde regressielijn is A ook gelijk aan 0 en dan loopt de lijn dus gelijk aan de x-as.

 

Opdracht 7.3.a.:

Het gemiddelde van alle voorspelde waarden is 7,0. Dit is gelijk aan het gemiddelde van de geobserveerde waarden. Dit is omdat het gemiddelde van de voorspelde waarden gelijk is aan het gemiddelde van de formule a + b * x. Maar a en b zijn altijd hetzelfde dus is het gelijk aan de formule a + b * x-gem. Dit is dezelfde formule als de formule voor het gemiddelde van de geobserveerde waarden. Vandaar dat de gemiddeldes gelijk aan elkaar zijn.

 

Opdracht 7.3.ef.:

De proportie verklaarde variantie, oftewel VAF, kan je op twee manieren uitrekenen.

VAF = Sŷ2/Sy2 = 0,3755/0,6667 = 0,5632
VAF = r2 = 0,75052 = 0,5632

 

Opdracht 7.3.g.:

Een verbale omschrijving van de regel VAF = r2 is:

De proportie van de variantie in y wordt verklaard door x. Dit komt overeen met het kwadraat van de correlatie in x en y.

 

Opdracht 7.4.a.:

Het meetniveau is nominaal.

 

Opdracht 7.4.c.:

Er is een samenhang tussen wel/geen training en de prestaties. Training 1 scoort het best, training 2 gemiddeld, en geen training scoort laag.

 

Opdracht 7.4.d.:

Als er meerdere proefpersonen zouden zijn dan kan je beter een boxplot gebruiken. Dit ziet er overzichtelijker uit.

 

Opdracht 7.4.klm.:

De SS(tussen) is 310.

De SS(binnen) bereken je door de SS(tussen) af te trekken van de SS(totaal). Dit geeft 560 – 310 = 250.

De proportie verklaarde variantie (VAF) is gelijk aan SS(tussen)/SS(totaal). Dit geeft 310/560 = 0,55.

 

Image  Image  Image  Image

Access: 
Public

Image

Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Comments, Compliments & Kudos:

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why would you use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, study notes en practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the menu above every page to go to one of the main starting pages
    • Starting pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
  2. Use the topics and taxonomy terms
    • The topics and taxonomy of the study and working fields gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
  3. Check or follow your (study) organizations:
    • by checking or using your study organizations you are likely to discover all relevant study materials.
    • this option is only available trough partner organizations
  4. Check or follow authors or other WorldSupporters
    • by following individual users, authors  you are likely to discover more relevant study materials.
  5. Use the Search tools
    • 'Quick & Easy'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject.
    • The search tool is also available at the bottom of most pages

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Field of study

Check the related and most recent topics and summaries:
Activity abroad, study field of working area:
Statistics
1222 1