Wat zijn correlatie, regressie en lineaire regressie?

Correlatie versus regressie
Correlaties
Sterke en zwakke correlaties
Scatterplot
Simpele regressie
Assumpties voor regressie
Voorspelde waarden
Gestandaardiseerde regressie coëfficiënten
Hypothesetesten voor regressie

Correlatie versus regressie

Correlatie en regressie zijn twee onderwerpen die sterk verweven zijn, maar toch anders zijn. Bij simpele correlatie en regressie kijken we naar N participanten die voor twee variabelen geobserveerd of getest zijn. Stel dat we kijken naar rensnelheid van een muis in een doolhof (Y). Dit is een willekeurige variabele waarover we geen controle hebben. Wanneer we de relatie van Y bekijken met het aantal keer dat de muis op een knopje drukt voordat het uiteindelijk lukt (X), hebben we twee willekeurige, niet te beïnvloeden variabelen. In dat geval gebruiken we de term correlatie. Beide variabelen zullen variëren per experiment (het zijn random variabelen) en hebben een steekproef error. In het geval waar X een van tevoren bepaalde variabele is, gespecificeerd door de onderzoeker (bijvoorbeeld: het aantal voedselkorrels dat de muis krijgt per goed gelukte poging), spreken we van regressie.

Correlaties

Een correlatie meet drie eigenschappen van de relatie tussen X en Y:

De richting van een relatie. Een positieve correlatie (+) ontstaat wanneer twee variabelen zich bewegen in dezelfde richting. Als de waarde van X stijgt (de lengte van een persoon), stijgt de waarde van Y ook (het gewicht van een persoon). Van een negatieve correlatie (-) is sprake wanneer de twee variabelen zich in verschillende richtingen bewegen. Als X stijgt, daalt Y (of omgekeerd).
De vorm van een relatie. Deze vorm kan lineair zijn, maar dat hoeft niet.
De mate van een relatie. Een perfecte correlatie heeft een waarde van 1 of -1. Een correlatie van 0 stelt dat er helemaal geen verband tussen twee variabelen bestaat. Een correlatie van 0.8 is daarom sterker dan een correlatie van bijvoorbeeld 0.5.

Pearson correlatie

De meest bekende maat voor correlatie is de Pearson-correlatie. Deze correlatie meet de mate en de richting van een lineaire relatie tussen twee variabelen. De Pearson-correlatie wordt aangegeven met de letter r. Deze wordt als volgt berekend: Pearson r = de covariantie van X en Y/ de variabiliteit van X en Y apart. Om de Pearson r te kunnen berekenen is het nodig om een nieuw concept te introduceren, namelijk de som van producten van afwijkingen (SP). In eerdere delen hebben we de som van afwijkingen (SS) gebruikt om de variabiliteit van één variabele te meten. Nu zullen we SP gebruiken om de mate van covariantie tussen twee variabelen te berekenen. Er zijn twee formules die gebruikt kunnen worden om SP uit te rekenen. Bij de ene formule moeten echter van te voren de gemiddelde waarden van X en Y berekend worden.

De formule waarbij eerst gemiddelden berekend moeten worden is: SP = Σ(X-M_X)( Y-M_Y).
Een andere formule (waarbij de gemiddelden niet eerst berekend hoeven te worden) is: SP = ΣXY – (ΣXΣY)/n.
Ook kan de formule r= (SP/ √SSxSSy) gebruikt worden als de som van afwijkingen berekend moeten worden.
Tot slot kan de Pearson-correlatie ook berekend worden voor z-scores. In dat geval wordt het: r=Σ(z_Xz_y)/n.

De proportieverklaarde variantie

Met de pearson correlatie op zichzelf kun je niet zoveel, omdat deze niet op ratioschaal ligt en je er dus geen berekeningen mee kan doen. Daarom moet deze gekwadrateerd worden. De waarde r² wordt de bepalingscoëfficiënt (coëfficiënt of determination) genoemd. Deze waarde meet de proportie van spreiding in één variabele, die verklaard kan worden door de relatie die deze variabele heeft met de andere variabele. Een correlatie van 0.80 (r=0.80) betekent bijvoorbeeld dat 0.64 (r²), oftewel 64%, van de spreiding in Y-scores verklaard kan worden door variabele X. Een r² van 0.01 staat voor een kleine correlatie en een r² van 0.09 staat voor een gemiddelde correlatie. Een grote correlatie wordt gekenmerkt door een r² van 0.25 of hoger.

Spearman correlatie

De Pearson-correlatie meet wat de lineaire relatie tussen twee variabelen is. Deze maat voor correlatie wordt vooral gebruikt wanneer de data van interval- of rationiveau zijn. Andere correlatiematen zijn ontwikkeld voor niet-lineaire relaties en voor andere meetschalen. De Spearman-correlatie meet de relatie tussen variabelen die gemeten zijn op ordinaal niveau. Ook kan de Spearman-correlatie gebruikt worden wanneer data op interval- of rationiveau gemeten is en er geen lineaire relatie tussen X en Y bestaat.

De Spearman-correlatie gaat op zoek naar een consistente relatie tussen X en Y, welke vorm deze ook heeft. De oorspronkelijke scores moeten in dat geval wel eerst op volgorde (van klein naar groot) gezet worden. De Spearman-correlatie kan berekend worden op de volgende manier: r_s= 1- 6ΣD²/ n(n²-1). In deze formule staat n voor het aantal scores en D staat voor difference: het verschil tussen elke volgorde voor een X- en Y-waarde. Met je X-waarde kun je bijvoorbeeld op de tweede plaats staan, terwijl je met de Y-waarde op de negende plaats staat.

De punt-biseriële correlatie

Een speciale variant van de Pearson-correlatie wordt de punt-biseriële correlatie genoemd. Deze correlatie wordt gebruikt als de ene variabele getallen bevat, maar de andere variabele alleen maar twee waarden heeft. Een variabele met slechts twee waarden wordt een dichotome variabele genoemd. Een voorbeeld is sekse. Om de punt-biseriële correlatie uit te rekenen, moet de dichotome variabele eerst omgezet worden naar een variabele met numerieke waarden. De ene waarde (bijvoorbeeld vrouw) krijgt een nul en de andere waarde (bijvoorbeeld man) krijgt een één. Vervolgens wordt de bekende formule voor Pearson r gebruikt. De punt-biseriële correlatie kan ook omschreven worden als: r= SP/ √(SSx)(SSy). Het kwadrateren van de punt-biseriële correlatie leidt tot de proportieverklaarde variantie. Dit is een maat voor effectgrootte. Er is een relatie tussen de proportieverklaarde variantie en een t-test voor onafhankelijke steekproeven: r² = t²/(t²+df). Ook kan het volgende gezegd worden: t²= r²/(1/ r²)/df.

De phi-coëfficiënt (Φ)

De phi-coëfficiënt (Φ) meet de relatie tussen twee variabelen die beide dichotoom zijn. Om dit te doen moet eerst aan de dichotome waarden van beide variabelen een 0 en 1 toegekend worden. Vervolgens moet de Pearson r formule toegepast worden.

Sterke en zwakke correlaties

Bij grote steekproeven is het zo dat zelfs zeer kleine correlaties snel statistisch significant worden. Een significante correlatie zegt ons alleen dat de kans zeer klein is dat de correlatie nul is in de populatie. De aanwezigheid van significantie vertelt ons dus niet of de relatie tussen de variabelen sterk is. Hoe sterk een correlatie is, hangt namelijk samen met de grootte van de correlatie en niet met de statistische significantie van de correlatie. De vuistregel is dat een correlatie van .10 als zwak, een correlatie van .30 als gemiddeld en een correlatie van .50 en hoger als sterk wordt beschouwd.

Scatterplot

Een handige manier om de relatie tussen twee kwantitatieve variabelen te onderzoeken is met een scatterplot. Elke proefpersoon wordt daarbij weergegeven door een stip met coördinaten, die de waarden op variabelen X en Y aangeven. Normaliter staat de voorspellende variabele op de X-as en de criterium variabele op de Y-as. De criterium variabele wordt voorspeld vanuit de voorspellende variabele. Als het echter om een correlatie coëfficiënt gaat, is het niet altijd duidelijk welke variabele X en welke variabele Y is. In dit geval maakt het niet uit hoe de variabelen gelabeld worden. In een scatterplot wordt zo goed mogelijk een lijn door de puntenwolk getrokken. Die lijn heet de regressielijn van Y voorspeld door X (oftewel Y op X) en geeft de beste voorspelling van Y_i voor een X_i-waarde. Wanneer de regressielijn recht is, heet de relatie tussen de variabelen een lineaire relatie. Is de lijn krom, dan is er sprake van een curvilineaire relatie.

De mate waarin de punten in de puntenwolk om deze regressielijn liggen is gerelateerd aan de correlatie (r) tussen X en Y. Hoe dichter de punten (de behaalde resultaten) bij de regressielijn liggen (de voorspelde waarde), hoe hoger de correlatie. Het correlatie coëfficiënt kan vorm aannemen tussen de -1 en 1, waarbij een perfecte correlatie 1.00 is (en alle punten op de lijn liggen). + of - geeft de richting van de relatie aan en beïnvloedt niet de mate van de relatie.

Simpele regressie

MVDA werkboek De algemene formule voor een simpele regressie is Y = b₀ + b₁X + e, waarbij Y staat voor de afhankelijke variabele en X voor de onafhankelijke variabele. De parameters die geschat moeten worden heten de intercept (b₀) en het regressiegewicht (b₁). De error (e) is het verschil tussen de geschatte en daadwerkelijke waarde van Y. Een voorbeeld is dat je bij een tennisclub vijf euro per uur moet betalen bovenop een startprijs van 30 euro. In dit geval ziet de formule er zo uit: Y=5X+30. b₁wordt de regressiecoëfficiënt (slope) genoemd. Deze laat zien hoe Y verandert als X toeneemt met één punt. Bij de tennisclub is 5 euro de regressiecoëfficiënt, want de totale kosten nemen steeds met 5 euro per uur toe. De waarde van b₀ wordt het intercept genoemd, omdat deze laat zien wat de waarde van Y is als X nul is. Als de regressiecoëfficiënt gelijk is aan nul, is de regressielijn horizontaal.

De relatie tussen X en Y kan ook grafisch worden weergegeven. De meest gebruikte methode om een optimale voorspelling te kunnen maken is de least squares methode. Bij deze methoden worden de parameters gekozen op zo’n manier dat de som van de gekwadrateerde voorspelde errors zo klein mogelijk is.

Assumpties voor regressie

Er zijn een aantal assumpties waaraan moet worden voldaan. Ten eerste moet er sprake zijn van homogeniteit van varianties. Dit houdt in, dat de variantie van Y bij elke waarde van X even groot is (in de populatie). Daarnaast moeten de waarden van Y overeenkomend met de bijbehorende X-waarden normaal verdeeld zijn rondom 0.

Wanneer we op zoek zijn naar de steekproefcorrelatie, vervangen we de regressie model assumpties met de assumptie dat we een steekproef trekken van een bivariate normaal verdeling. De conditionele verdelingen in deze verdeling zijn de verdelingen van Y en X gegeven een specifieke waarde van X of Y. Wanneer we kijken naar alle Y-waarden, onafhankelijk van X, spreken we van de marginale verdeling van Y. Als laatste gaan we er vanuit dat de relatie tussen X en Y lineair is.

Voorspelde waarden

Om te bepalen hoe goed een lijn bij de data past, moet eerst de afstand tussen de lijn en elk datapunt berekend worden. Voor elke X-waarde bepaalt de lineaire regressielijn een waarde voor de Y-variabele. Deze waarde wordt de voorspelde waarde genoemd (Ŷ). De afstand tussen deze voorspelde waarde en de werkelijke Y-waarde wordt bepaald met de volgende stappen:

Afstand = Y- Ŷ. Deze afstand meet de error tussen de lijn en de werkelijke data.
Omdat sommige afstanden negatief en anderen weer positief zullen zijn, is de volgende stap het kwadrateren van elke afstand, zodat er alleen maar positieve waarden overblijven.
Tot slot moet de totale afstand tussen de lijn en data uitgerekend worden. De gekwadrateerde waarden uit stap twee tellen we allemaal bij elkaar op: Σ(Y- Ŷ)². Dit noemen we de totale gekwadrateerde fout.

Een voorbeeld

Stel dat we de relatie tussen stress en mentale gezondheid onderzoeken. Dit laatste meten we met een checklist.

De eerste stap voor het berekenen van de correlatie is het berekenen van de covariantie (cov_xyof s_XY), die de mate weergeeft waarin twee variabelen samen variëren.

Het lijkt erg op de variantie, want als de Y’s vervangen worden door X’en (of de X’en vervangen door Y’s) krijgen we s²_X (of s²_Y). De formule wordt ook wel gegeven door: (∑XY - ∑X∑Y/N) / (N-1)

We verwachten een sterk positieve relatie: grotere waarden van X (stress) geven grotere waarden van Y (mentale gezondheid). Dit zal een grote covariantie-waarde geven. Als er sprake geweest was van een sterke negatieve relatie, zou de som van de producten van de afwijkingen van gemiddelden groot en negatief zijn. Als er geen relatie is tussen de variabelen zal de som uitkomen rond de nul. De covariantie van het voorbeeld is 1,336.

Om de correlatiecoëfficiënt te berekenen, moeten we nog rekening houden met de standaarddeviaties van X en Y.

r = cov_xy / s_xs_y

De correlatie loopt van -1,00 tot 1,00.

Uit het voorbeeld komt een correlatie van r = .529. Dit betekent niet dat er 53% relatie is tussen stress en symptomen. Het geeft alleen de sterkte van de relatie aan tussen de twee variabelen; hoe dichterbij de ± 1,00, hoe sterker de relatie. De + en - geven de richting van de relatie aan, waarbij een positieve correlatie aangeeft dat als X hoger is, Y ook hoger is.

Gestandaardiseerde regressie coëfficiënten

Wanneer de data gestandaardiseerd wordt geeft een verschil van één eenheid in X een verschil van één standaarddeviatie weer. Als de helling bijv. 0,75 is (voor gestandaardiseerde data) zal voor elke standaarddeviatie toename in X, Aanduiding 10 (zie formuleblad) drie kwart standaarddeviaties toenemen. De helling bij gestandaardiseerde data wordt gestandaardiseerde regressie coëfficiënt of β genoemd.

Bij gestandaardiseerde data geldt s_x = s_y = s²_x = 1, waarbij de helling en correlatiecoëfficiënt gelijk zijn. Een correlatie van r = .80 geeft dus aan dat één standaarddeviatie verhoging van X is geassocieerd met achttienden standaarddeviatie verhoging van Y. Er wordt echter nooit gesproken van oorzaak en gevolg. Het is een correlationeel verband.

Hypothesetesten voor regressie

De significantie van b

Wanneer X en Y correleren, en er een lineaire relatie is, dan zal de helling van de regressielijn niet gelijk zijn aan nul en b een bepaalde waarde anders dan nul hebben. Dit is het geval bij één voorspellende variabele, maar wanneer er meerdere voorspellende variabelen zijn, hoeft de helling niet voor elk van deze variabelen significant te zijn.

b* is het parametrische equivalent van b, namelijk de helling als we X en Y metingen op de hele populatie hadden.

De standaardfout is: $s_b$ = $\frac{^sY-X}{^sX\sqrt{N-1}}$

Om te testen dat de populatiehelling nul is, gebruiken we de volgende formule voor t: t = (b-b*)/s_b = b / (s_Y∙X / s_X $\sqrt{N-1}$ ) = (b)(s_X)( $\sqrt{N-1}$ )/s_Y∙X met N-2 vrijheidsgraden.

Het betrouwbaarheidsinterval van b* is: CI(b*) = b ± (t_α/2)( $\frac{^sY-X}{^sX\sqrt{N-1}}$ )

Verschil tussen twee onafhankelijke b’s

Het kan zijn dat je bij een onderzoek twee onderzoeksgroepen hebt met beide een andere helling. Met de volgende manier kan je testen of dit verschil in helling significant is.

H₀ = b*₁ = b*₂ en de steekproefverdeling van b₁ - b₂ is normaal met een gemiddelde van nul en standaardfout van s_b1-b2 = $\sqrt{s^2_{b1}+s^2_{b2}}$ met t=(b_1-b_2) / $\sqrt{ s^2_{b1} + s^2_{b2} }$ met N₁ + N₂ - 4 vrijheidsgraden.

De standaardfout van b is in de vorige alinea behandeld en maakt de formule dus tot:

s_b1-b2 = $\sqrt{ \frac{ s^2_{Y-X_1} } { s^2_{X_1}(N_1-1) } + \frac{ s^2_{Y-X_2} } { s^2_{X_2}(N_1-1) } }$

Wanneer we uitgaan van homogeniteit van error varianties kunnen we de twee schattingen samennemen, gewogen naar vrijheidsgraden:

\[s^{^2}_Y∙X = ((N_{_1}-2)s^{^{2Y}}_∙X1 + (N_2 - 2)s^2_Y∙X2 / (N_1 + N_2 – 4)\]

Access:

Public

Click & Go to more related summaries or chapters:

Samenvattingen per onderwerp bij Inleiding Statistiek

Wat is statistiek?

Hoe kan data worden verzameld door gedragswetenschappers?