Correlatie & Regressie

CORRELATIE & REGRESSIE

Correlatie en regressie zijn twee statistische technieken die gebruikt worden om een verband tussen variabelen te analyseren. Een lineair verband tussen de variabelen wordt verondersteld.

Bij het berekenen van correlatie en regressie moeten alle variabelen interval/ratio-variabelen zijn. Ordinale data die lijken op intervaal data (ten minste 5 categorieen, en meer of minder dezelde “afstand” tussen categorieen) kunnen ook worden gebruikt.

Correlatie

Correlatie geeft de sterkte en de richting van het verband tussen twee (of meer) interval- of ratiovariabelen weer.

--Correlaties worden uitgedrukt in Pearson ‘s Product-moment correlatiecoëfficiënt r (kort: correlatiecoëfficiënt).

De waarde van de correlatiecoëfficiënt r ligt altijd tussen –l en +1. Hoe hoger de absolute waarde van de correlatiecoëfficiënt, des te sterker is het verband. ‘Verband’ kan zowel positief als negatief zijn.

Voor een positief verband: bij een toename van de x-variabele, neemt ook de y-variabele toe.
Voor een negatief verband: bij toename van x neemt y af.

Als je een spreidingsdiagram maakt, kun je het verband controleren.

correlatiecoëfficiënt r: vooronderstellingen

Het verband tussen de variabelen is lineair.
Voor elke waarde van de ene variabele wordt een normale verdeling van de andere variabele verondersteld (en vice versa).

******correlatie is NIET causaliteit.

Correlatie: correlatiecoëfficiënt berekenen

Als je de enkelvoudige correlatiecoëfficiënt (Pearson Correlation) in SPSS berekent, krijg je een correlatiematrix als output.

In de matrix worden worden voor elke combinatie van twee variabelen de volgende getoond:

de correlatiecoefficiënten (Pearson Correlation)
de tweezijdige significanties en
het aantal valide cases

Standaard staan achter de significante correlatiecoëfficiënten asterisken: ** bij 99% betrouwbaarheid (alpha = 0,01) en * bij 95% betrouwbaarheid (alpha = 0,05).

Partiële correlatie

Wanneer je met de correlatiecoëfficiënt het verband tussen twee variabelen hebt gevonden, bestaat de kans dat dit verband wordt beïnvloed door een derde (en vierde etc.) variabele, die ook samenhangt met de beide variabelen in de analyse. Met partiële correlatie wordt het lineaire verband tussen twee variabelen gecorrigeerd voor het effect van een derde (en vierde etc.) variabele. Op deze wijze kunnen indirecte relaties worden opgespoord.

REGRESSIE

Bij regressie-analyse wordt een causale relatie tussen een afhankelijke variabele Y en één of meerdere onafhankelijke variabele(n) Xs verondersteld. Met regressieanalyse is het dus mogelijk om waarden van een afhankelijke variabele te voorspellen aan de hand van één (of meerdere) onafhankelijke variabele(n).

Enkelvoudige regressie

Enkelvoudige regressie heeft één afhankelijke en één onafhankelijke variabele.

De best passende lijn wordt door de puntenwolk berekend (voor matematica-fans: Dit is de lijn, waarvoor geldt dat de som van de gekwadrateerde afstanden van alle punten tot die regressielijn minimaal is (least-square method)).

Enkelvoudige Regressie: Vooronderstellingen

Het verband tussen de variabelen is lineair.
Het verband tussen de variabelen is causaal.

Er is hierbij sprake van een asymmetrische relatie tussen de variabelen, waarbij de onafhankelijke variabele de afhankelijke variabele beïnvloedt. De onafhankelijke variabele wordt factor (of regressor of predictor) genoemd.

residuen & outliers

De verschillen tussen de door de regressielijn voorspelde waarden en de ‘echte’ waarden (van de afhankelijke variabele) worden de residuen genoemd. De cases met de grootste residuen – en dus met de grootste afwijkingen – heten outliers. Outliers zijn vaak van invloed op de uiteindelijke regressievergelijking. Je kunt ouliers opsporen en ze nader analyseren.

Residuen

De vooronderstelling van lineariteit kan aan de hand van de residuen worden gecontroleerd.

De afstanden van de punten tot de regressielijn zijn de afwijkingen van de feitelijke Y-waarden ten opzichte van de door X voorspelde Y-waarden (de lijn).

Dit is het deel van de variantie van Y dat niet door X wordt ‘verklaard’. We noemen deze afwijkingen de residuen (of: onverklaarde variantie).

Hoe dichter de punten bij de lijn liggen, des te kleiner zijn de residuen.

Regressielijn & regressievergelijking

Met enkelvoudige regressie wordt de best passende rechte lijn (fit line) door een puntenwolk berekend. (Matematica fans: Dit is de lijn waarvoor geldt dat de som van de gekwadrateerde verticale afstanden van alle punten tot die lijn minimaal is (lïnear leastsquare method)). De vergelijking van de enkelvoudige regressielijn is:

Y = A + B*X

Hier is A de intercept (of constant).

Dit is het snijpunt van de lijn met de Y-as, ofwel de waarde van Y als X=0.

De parameter B wordt de regressiecoëfficiënt genoemd en is de hellingshoek (slope) van de lijn. B geeft aan met hoeveel eenheden de afhankelijke variabele Y verandert, als de onafhankelijke variabele X met één eenheid toeneemt.

Lineariteit controleren en regressielijn tonen

Het is een goed idee voordat je de eigenlijke regressie-analyse uitvoert, eerst een spreidingsdiagram te maken van de relevante variabelen. In dat spreidingsdiagram kun je in één keer zien of aan de vooronderstelling van lineariteit is voldaan.

In het spreidingsdiagram kun je meteen bij het maken (of achteraf) een regressielijn zetten die de regressie toont.

Output regressie-analyse

De output van de regressie-opdracht bestaat uit vier tabellen.

a. De tabel Variables Entered/Removed – gebruikte variabelen.

b. De tabel Model Summary – met informatie over de regressie.

c. De tabel ANOVA – met een variantie-analyse.

d. De tabel Coefficients – met de eigenlijke regressievergelijking.

Model Summary

De R in de tabel Model Summary heet de multiple correlatiecoëfficiënt.

R geeft de correlatie aan van de afhankelijke variabele met alle onafhankelijke variabelen tezamen. Omdat er bij enkelvoudige regressie maar één onafhankelijke variabele is, is de waarde van R dus gelijk aan de enkelvoudige correlatiecoëfficiënt.

De richting van het verband kan niet uit de multiple R worden afgeleid. Hiervoor moet de regressiecoëfficiënt B worden gebruikt (tabel Coeffïcients).

De R Square (ofwel: R2) is de gekwadrateerde multiple R en heet de determinatiecoëfficiënt (in English the “coefficient of determination”).

De determinatiecoëfficiënt geeft het percentage verklaarde variantie in Y door X aan. Hoe groter de waarde van R2, des te beter ‘past’ het model (the better the “fit”), en des te geringer is het aandeel onverklaarde variantie of residu (= l –R2).

Bij (kleinere) steekproeven wordt R2 vaak te hoog geschat. Het model lijkt daardoor beter te passen dan het geval is. Daarom kan bij steekproefgegevens vaak beter de Adjusted R Square worden gebruikt. Dit is R2, gecorrigeerd voor het aantal cases (N) en het aantal onafhankelijke variabelen (k) in het model.

Std. Error of the Estimate is de standaarddeviatie van de residuen en is gelijk aan de wortel uit de variantie (Mean Square) van de residuen.

ANOVA

In de tabel ANOVA staat de variantie-analyse. De totale variantie van de afhankelijke variabele is opgesplitst in twee componenten: de verklaarde variantie en de onverklaarde variantie (Residual).

Het aantal vrijheidsgraden (df) van de verklaarde variantie is gelijk aan het aantal onafhankelijke variabelen (=1 voor enkelvoudige regressie).

Het aantal vrijheidsgraden van de residuen is gelijk aan het aantal cases min het aantal onafhankelijke variabelen min l . Uit de kwadraatsommen (Sum of Squares) kan de totale variatie van de afhankelijke variabele worden berekend.

[voor matematica fans: De Mean Square (variantie) is de Sum of Squares gedeeld door het aantal vrijheidsgraden].

Coefficients: de regressievergelijking

In de tabel Coefficients staat de regressievergelijking. De parameters A en B van de regressievergelijking worden, samen met hun standaardfouten (Std Error), weergegeven in de kolom Unstandardized Coeffïcients.

De intercept A wordt aangeduid met de term (Constant). De intercept kan bijvoorbeeld een waarde hebben van 3,051 en de regressiecoëfficiënt B van de onafhankelijke variabele ‘LITERACY’ bedraagt bijvoorbeeld .125.

De richting van het verband is positief. Een toename van LITERACY met een percentagepunt betekent dus een toename van het aantal WOMEN IN PARLIAMENT met .125 van een percentagepunt.

SPSS Studiehulp gde regressievergelijking ziet er dus als volgt uit:

% seats held by women = 3,051 + .125*LITERACY + E

In de tabel Model Summary staat dat de R square .114 is, en de adjusted R sqaure .108. Dus: het model verklaart ongeveer 11% van de variatie in de afhankelijke variable.

Coefficients: Bèta, t-waarde en significantie

In de tabel Coefficients staat ook de gestandaardiseerde regressiecoëfficiënt Bèta (Standardized Coefficients) en de toetsingsgrootheid met significantie (Sig.).

De variabele LITERACY is significant (p<.001). SPSS berekent of de t-waarde significant is. Soms zie je in oudere artikelen/boeken, echter dat een onderzoeker niet aangeeft met sterren of een t-waarde significant is, maar nu is dit standaard. Bijvoorveeld het artikel van Huber, Ragin en Stephens geeft de regressiecoefficienten en t-waarden aan, maar de lezer moet zelf uitzoeken of de t-waarde significant is. Dat doe je aan de hand van statistical tables (er zijn ook websites).

De Bèta wordt bij multiple regressie gebruikt om het relatieve belang van de verschillende onafhankelijke variabelen te bepalen. In het voorbeeld is Beta .337.

VOORBEELD:

Afhankelijke Variabele: “WOMPARL” (Seats in parliament held by women (as % of total), 2001)

Seats in parliament held by women (as % of total), 2001

Source:

Table 22. Gender empowerment measure: Seats in parliament held by women (as % of

total)

Note: According to , seats in parliament held by women “Refers to seats held by women in a lower or single house or an upper house or senate, where relevant.” Also, “Data are as of 8 March 2001.”

Onafhankelijke Variable: “LITERACY” (Literacy as percent of total population, various years)

Literacy as percent of total population, various definitions, various years

Source:

Table: Literacy

Bij enkelvoudige regressie is Bèta niet van belang en is Bèta altijd gelijk aan de correlatiecoëfficiënt R.

Multiple regressie

Bij multiple regressie (meervoudige regressie) wordt op vergelijkbare wijze als bij enkelvoudige regressie een lineair model berekend tussen een afhankelijke variabele Y en meerdere onafhankelijke variabelen x.

De vergelijking van een multiple regressiemodel met k onafhankelijke variabelen ziet er als volgt uit:

Y + A + B1*X1 + B2*X2 +........+ E

Intercept & partiële regressiecoëfficiënt B

De intercept A is het snijpunt met de Y-as. Dit is de waarde van Y als de waarde van alle onafhankelijke variabelen X gelijk is aan 0.

Elke partiële regressiecoëfficiënt geeft de invloed van de betreffende onafhankelijke variabele op Y aan, waarbij tevens gecontroleerd wordt op de invloed van alle overige onafhankelijke variabelen.

Multicollineariteit

Bij multiple regressie gelden dezelfde vooronderstellingen als bij enkelvoudige regressie. Daarbij komt de eis dat de onafhankelijke variabelen onderling niet te sterk mogen correleren, anders is er sprake van multicoltineariteit.

In dat geval meten de onafhankelijke variabelen ongeveer hetzelfde en is het niet mogelijk om het effect van iedere variabele afzonderlijk te bepalen. Hierdoor komt de validiteit van het model in gevaar.

Het is een goed idee om eerst een correlatiematrix van de onafhankelijke variabelen te maken, om sterke correlaties op te sporen. Indien er correlaties van r > 0,9 voorkomen is het aan te raden om een van beide onafhankelijke variabelen buiten het model te laten.

Multiple regressie: standaard methode (Enter)

Opdracht voor multiple regressie-analyse volgens de standaard methode (Enter)

l Analyze>>> Regression >>> Linear.

2. Geef in het venster Linear Regression bij Dependent de afhankelijke variabele

op en bij Independent(s) de onafhankelijke variabelen.

3. Kies bij Method voor Enter. Bevestig met OK.

De default settings bij SPSS produceren de nodige output. Meer is niet nodig---dus het is niet nodig op andere opties te klicken.

Uitvoer multiple regressie (bij de methode Enter)

De uitvoer bij multiple regressie (methode: Enter) bestaat uit vier tabellen:

a. De tabel Model Summary – met informatie over de perfectie van het model.

b. De tabel ANOVA – met de uitkomsten van de variantie-analyse.

c. De tabel Coefficients – met de eigenlijke regressievergelijking.

d. De tabel Variables Entered/Removed – met een overzicht van alle variabelen. (Deze tabel is bij multiple regressie volgens de standaard methode niet van belang, omdat alle variabelen tegelijk in het model, woraen opgenomen).

VOORBEELD:

afhankelijke variabele: . “POLRIGHT” (Political Rights score, 1999-2000)

Seven-point scale measuring political rights, 1999-2000.

Sources:

Table: Table of Countries: Comparative Measures of Freedom

and

Table: Table of Related Territories: Comparative Measures of Freedom

Note: According to ,

“1 represents the most free and 7 the least free category”

onafhankelijke variabelen:

1. “GINI” (Gini index, calculated based on data from various years)

Gini index, calculated based on data from various years

Source:

Table 12. Inequality in income or consumption: Inequality measures: Gini index

Note: According to , the Gini index “Measures the extent to which the distribution of income (or consumption) among individuals or households within a country deviates from a perfectly equal distribution. A value of 0 represents perfect equality, a value of 100 perfect inequality.

2. “LITERACY” (Literacy as percent of total population, various years)

Literacy as percent of total population, various definitions, various years

Source:

Table: Literacy

Model Summary

De Model Summary bevat R. Deze multiple R is de correlatiecoëfficiënt van de afhankelijke variabele met alle onafhankelijke variabelen tezamen.

De determinatiecoëfficiënt R Square geeft aan dat ruim 26% van de variantie van POLRIGHTS wordt verklaard door de twee onafhankelijke variabelen (maar je ziet beneden dat een van de variabelen geen invloed heeft).

ANOVA
De tabel ANOVA bevat een variantie-analyse. Met variantie-analyse kunnen we toetsen of het model significant is. Aan de hand van de toetsingsgrootheid F wordt de nulhypothese verworpen (Sig =,000). Het model is dus significant met een betrouwbaarheid van 99,9%.

Coefficients: de multiple regressievergelijking

In de tabel Coefficients wordt de eigenlijke regressievergelijking weergegeven. De intercept A wordt aangeduid met (Constant) en is in ons voorbeeld 6,144.

De partiële regressiecoëfficiënten Bs staan in kolom B. Ze geven de hoeveelheid verandering in Y aan, wanneer de betreffende onafhankelijke variabele met een eenheid toeneemt, terwijl de invloed van alle overige onafhankelijke variabele constant wordt gehouden.

Bij multiple regressie moet elke partiële regressiecoëfficiënt afzonderlijk worden getoetst op significantie (H0: Bi=0). Hiervoor worden de t-waarden (t=B/Std. Error) gebruikt.

Bèta-coëfficiënten

De waarde van de partiële regressiecoëfficiënten wordt beïnvloed door de eenheden waarin de variabelen zijn gemeten. Bijvoorbeeld een variabele ‘afstand’ kan worden in meters gemeten, terwijl andere variabele, bbijvoorbeeld uitgaven worden in euros gemeten. Het is dus lastig om de regressiecoëfficiënten te vergelijken (omdat hun meeteenheden gewoonlijk verschillende zijn).

Vergelijking is wel mogelijk aan de hand van de gestandaardiseerde coëfficiënten Bèta. SPSS berekent deze zijn berekend op basis van gestandaardiseerde variabelen.

De Bèta-coëfficiënten geven een indicatie van het relatieve belang van iedere onafhankelijke variabele, maar hun nut is vaak klein.

***Verwar de gestandaardiseerde regressiecoëfficienten Bèta niet met de regressiecoëfficiënten ß van de populatie!

--In ons voorbeeld is de verklaarde variatie ongeveer 25% (R square).

--Allen de variabele LITERACY is significant (kijk in de coefficients tabel, ‘Sig.” column). LITERACY is “significant at the p< .001 level.”---->probabality that the result occurred by chance is less than one percent.

--de variabele GINI is niet significant.

Dus: een toename van LITERACY met een percentagepunt betekent een afname van de POLRIGHTS score met .125 (7 punt schaal).

******een afname hier is goed: 1 is de “beste” score voor POLRIGHTS. Dus betekent een afnemende score een toename in POLRIGHTS.

Access:

Public

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check: concept of JoHo WorldSupporter

Concept of JoHo WorldSupporter

JoHo WorldSupporter mission and vision:

JoHo wants to enable people and organizations to develop and work better together, and thereby contribute to a tolerant tolerant and sustainable world. Through physical and online platforms, it support personal development and promote international cooperation is encouraged.

JoHo concept:

As a JoHo donor, member or insured, you provide support to the JoHo objectives. JoHo then supports you with tools, coaching and benefits in the areas of personal development and international activities.
JoHo's core services include: study support, competence development, coaching and insurance mediation when departure abroad.