Hoe voer je meervoudige regressie uit in SPSS? CH.13

Samengestelde samenvatting, gebaseerd op hoofdstuk 13 van SPSS Survival Manual van Pallant, 6e druk uit 2016.

Hieronder wordt uitgelegd hoe je SPSS kunt gebruiken bij meervoudige regressieanalyses. Meervoudige regressie is niet slechts één techniek, maar een verzameling technieken die gebruikt kan worden om de relatie tussen een continue afhankelijke variabele en meerdere onafhankelijke variabelen of voorspellers (meestal continu) te onderzoeken. Het is gebaseerd op correlatie, maar biedt een meer verfijnde analyse van de relatie tussen een reeks variabelen. Meervoudige regressie kan bij verschillende onderzoeksvragen worden toegepast, waaronder:

  • Hoe goed een reeks variabelen in staat is een bepaalde uitkomst te voorspellen.

  • Welke variabele binnen een reeks variabelen de beste voorspeller van een bepaalde uitkomst is.

  • Of een bepaalde voorspellende variabele nog steeds de uitkomst kan voorspellen wanneer gecontroleerd wordt voor de invloed van een andere variabele.

13.1 Wat zijn de belangrijkste soorten meervoudige regressie?

Er zijn verschillende soorten meervoudige regressieanalyses die je, afhankelijk van je onderzoeksvraag, kan toepassen. De drie belangrijkste meervoudige regressieanalyses zijn:

  1. Standaard of simultaan

  2. Hiërarchisch of sequentieel

  3. Stapsgewijs

Standaard meervoudige regressie

In de standaard meervoudige regressie worden alle onafhankelijke (of voorspellende) variabelen tegelijkertijd vergeleken. Iedere variabele wordt geëvalueerd in termen van zijn voorspellende waarde vergeleken met die van de andere onafhankelijke variabelen. Deze analyse gebruik je als je een reeks variabelen hebt en wil weten in welke mate ze als groep de variantie in een afhankelijke variabele kunnen verklaren.

Hiërarchische meervoudige regressie

In de hiërarchische meervoudige regressie (ook wel sequentiële regressie genoemd) worden de onafhankelijke variabelen aan de vergelijking toegevoegd in de volgorde die door de onderzoeker is vastgesteld op basis van een theoretisch kader. Variabelen of reeksen variabelen worden in stappen toegevoegd. Iedere variabele wordt gemeten in termen van wat het toevoegt aan de voorspelling van de afhankelijke variabele nadat is gecontroleerd voor de overige variabelen.

Stapsgewijze meervoudige regressie

In de stapsgewijze regressie levert de onderzoeker een lijst van onafhankelijke variabelen en laat vervolgens het programma, op basis van een reeks statistische criteria, selecteren welke variabelen worden toegevoegd en in welke volgorde deze worden toegevoegd aan de vergelijking. Er zijn drie verschillende versies van deze benadering: (1) voorwaartse selectie, (2) achterwaartse schrapping (backward deletion), en (3) stapsgewijze regressie.

13.2 Welke assumpties horen bij meervoudige regressie?

Steekproefgrootte

Het is belangrijk dat je steekproef niet te klein is, omdat de resultaten anders niet (voldoende) generaliseerbaar zijn. Tabachnick en Fidell kwamen met een formule om de benodigde steekproefgrootte uit te rekenen: N > 50 + 8m (m = aantal onafhankelijke variabelen). Je hebt meer casussen nodig als de variabele scheef (skewed) is. Voor stapsgewijze regressie heb je een ratio van 40 casussen per onafhankelijke variabele nodig.

Multicollineariteit en singulariteit

Dit verwijst naar de relatie tussen de onafhankelijke variabelen. Van multicollineariteit is sprake wanneer de onafhankelijke variabelen sterk met elkaar correleren (r = .9 en hoger). Van singulariteit is sprake wanneer een onafhankelijke variabele eigenlijk een combinatie is van andere onafhankelijke variabelen. Geen van beide draagt bij aan een goed regressiemodel.

Outliers

Meervoudige regressie is erg gevoelig voor outliers (extreem hoge of lage scores). Controleer dus alle variabelen (zowel de afhankelijke, als de onafhankelijke) op outliers. Outliers kunnen worden verwijderd uit de dataset, of ze kunnen een score krijgen die hoog/laag is, maar niet teveel afwijkt van de overige scores. Tabachnick en Fidell definiëren outliers als scores met gestandaardiseerde residuele waarden > 3.3 of < -3.3. Je kunt outliers vinden in de gestandaardiseerde residuele plot.

Normaliteit, lineariteit, homoscedasticiteit en onafhankelijkheid van residuen

Al deze termen verwijzen naar verschillende aspecten van de verdeling van scores en de aard van de onderliggende relatie tussen de variabelen. Deze assumpties kunnen worden afgelezen in de residuen scatterplots. Residuen zijn de verschillen tussen de verkregen en voorspelde afhankelijke variabele (AV) scores. Aan de hand van de residuen scatterplots kan je de volgende assumpties controleren:

  • normaliteit: de residuen moeten normaal verdeeld zijn over de voorspelde AV-scores.

  • lineariteit: de residuen moeten een lineaire relatie hebben met de voorspelde AV-scores.

  • homoscedasticiteit: de variantie van de residuen over de voorspelde AV-scores zou voor alle voorspelde scores hetzelfde moeten zijn.

13.3 Hoe ziet de standaard meervoudige regressie er uit?

In het geval van de standaard meervoudige regressie worden alle onafhankelijke variabelen tegelijkertijd in het model ingevoerd. De resultaten geven een indicatie hoe goed deze reeks variabelen in staat is om de afhankelijke variabele te voorspellen. Ook laat het zien hoeveel unieke variantie elk van de onafhankelijke variabelen kan verklaren ten opzichte van de overige onafhankelijke variabelen.

Procedure voor standaard meervoudige regressie

Klik voordat je met de volgende procedure begint op Edit in het menu. Selecteer vervolgens Options en zorg dat de box No scientific notification for small numbers in tables is aangevinkt.

  1. Klik in het menu bovenaan het scherm op Analyze, selecteer vervolgens Regression en daarna Linear.

  2. Klik op je continue afhankelijke variabele en verplaats deze naar de Dependent box.

  3. Klik op je onafhankelijke variabelen en klik op de pijl om ze te verplaatsen naar de Independent box.

  4. Zorg dat voor de Methode Enter is geselecteerd.

  5. Klik op de Statistics knop. Selecteer het volgende: Estimates, Confidence Intervals, Model fit, Descriptives, Part and partial correlations en Collinearity diagnostics. Selecteer in het Residuals gedeelte Casewise diagnostics en Outliers outside 3 standard deviations. Klik vervolgens op Continue.

  6. Klik op Options en selecteer in het Missing Values gedeelte Exclude cases pairwise. Klik op Continue.

  7. Klik op de Plots knop. Klik op *ZRESID en de pijl om deze te verplaatsen naar de Y-box. Klik op *ZPRED en de pijl om deze te verplaatsen naar de X-box. Vink in het Standardized Residual Plots de optie Normal probability plot aan en klik op Continue.

  8. Klik op Save. Vink in het Distances gedeelte Mahalanobis box en Cook’s aan. Klik op Continue en vervolgens op OK (of op Paste om de Syntax Editor op te slaan).

13.4 Hoe interpreteer je de standaard meervoudige regressie output?

Stap 1: Controleer de assumpties

Multicollineariteit

De correlaties tussen de variabelen in je model staan in de tabel Correlations. Controleer of je onafhankelijke variabelen ten minste enige relatie met je afhankelijke variabele vertonen (het liefst > .3). Controleer ook of de correlatie tussen je onafhankelijke variabelen niet te groot is (het liefst een bivariate correlatie < .7).

SPSS voert als onderdeel van de meervoudige regressieprocedure ook ‘collineariteitsdiagnostiek’ uit op je variabelen. Dit kan problemen met betrekking tot multicollineariteit ondervangen die niet in de correlatiematrix zichtbaar zijn. Deze resultaten staan in de tabel Coefficients. Hier worden twee waarden gegeven: Tolerance en VIF. Tolerance is een indicator van hoeveel van de variabiliteit van de gespecificeerde onafhankelijke variabele niet verklaard wordt door de overige onafhankelijke variabelen in het model. Als deze waarde erg laag is (< .10), geeft dit aan dat de meervoudige correlatie met andere variabelen hoog is, wat mogelijk wijst op multicollineariteit. VIF (variance inflation factor) waarden boven 10 zijn reden tot zorg, aangezien dit mogelijk wijst op multicollineariteit. Gebruik Tolerance en VIF alleen als waarschuwingsteken en check ook altijd je correlatiematrix.

Outliers, normaliteit, lineariteit, homoscedasticiteit en onafhankelijkheid van residuen

Een manier waarop deze assumpties kunnen worden gecheckt is door de Normal Probability Plot (P-P) of the Regression Standardised Residual en de Scatterplot te inspecteren. Deze staan aan het eind van de output. In de Normal P-P Plot hoop je dat de punten van links onder naar rechts boven een redelijk rechte diagonale lijn vormen. Dit suggereert dat er geen grote afwijkingen van normaliteit zijn. In de Scatterplot van de gestandaardiseerde residuen (het tweede plot) hoop je dat de residuen ruwweg rechthoekig verdeeld zijn, waarbij de meeste scores in het midden liggen (rond het 0-punt). Aan de hand van de Scatterplot kun je tevens outliers identificeren. Outliers kunnen ook worden geïdentificeerd door de Mahalanobis afstanden te inspecteren. Deze zijn niet zichtbaar in de output, maar zijn aan het eind van de data file als extra variabele toegevoegd. Om te achterhalen welke scores outliers zijn, heb je een kritieke chi-square waarde nodig. Tabachnik en Fidell suggereren het gebruik van een alfa-waarde van .001.

Stap 2: Evalueren van het model

Kijk in de Model Summary box en controleer de waarde onder het kopje R Square; dit vertelt je hoeveel van de variantie in de afhankelijke variabele verklaard wordt door het model. Het valt je misschien op dat er ook een Adjusted R Square-waarde in de output staat. Wanneer je een kleine steekproef hebt, is de R square-waarde vaak een optimistische overschatting van de echte populatiewaarde. De Adjusted R Square-statistiek ‘corrigeert’ deze waarde en voorziet van een betere schatting van de echte populatiewaarde. Dus als je een kleine steekproef hebt, kan je beter deze waarde rapporteren. Om de statistische significantie van de resultaten te achterhalen, moet je in de ANOVA-tabel kijken; deze test de nulhypothese dat meervoudige R in de populatie gelijk is aan 0.

Stap 3: Evalueren van alle onafhankelijke variabelen

Het volgende dat je wil weten is welke van de variabelen in het model bijdraagt aan de voorspelling van de afhankelijke variabele. We vinden deze informatie in de output-box, genaamd Coefficients. Kijk in Beta-kolom onder Standardized Coefficients. Om de verschillende variabelen met elkaar te kunnen vergelijken is het belangrijk dat je kijkt naar de gestandaardiseerde coëfficiënten en niet de ongestandaardiseerde (B); deze laatste gebruik je alleen als je een regressievergelijking wilt opstellen.

Controleer voor alle onafhankelijke variabelen de waarde in de Sig.-kolom; dit vertelt je of deze variabele een significante unieke bijdrage levert aan de vergelijking. Dit is erg afhankelijk van welke variabelen opgenomen zijn in de vergelijking en hoeveel overlap er is tussen de onafhankelijke variabelen. Als de Sig.-waarde kleiner is dan .05 (.01, .001, etc.), levert de variabele een significante unieke bijdrage aan de voorspelling van de afhankelijke variabele.

Een ander potentieel nuttig informatieonderdeel in de coëfficiëntentabel is de Part correlatiecoëfficiënten (soms ook wel semipartial correlation coefficients genoemd). Als je deze waarde kwadrateert, krijg je een indicatie van de bijdrage van die variabele aan de totale R-square. Met andere woorden, het vertelt je hoeveel van de totale variantie in de afhankelijke variabele uniek verklaard wordt door die variabele en hoeveel R-square zou zakken als deze variabele niet in je model opgenomen zou zijn.

13.5 Wat is hiërarchische meervoudige regressie?

Bij deze vorm van meervoudige regressie worden de variabelen in stappen in een vooraf bepaalde volgorde toegevoegd.

Procedure voor hiërarchische meervoudige regressie

  1. Klik in het menu bovenaan het scherm op Analyze, selecteer vervolgens Regression en daarna Linear.

  2. Kies je continue afhankelijke variabele en verplaats deze naar de Dependent box.

  3. Verplaats de variabelen waarvoor je wilt controleren naar de Independant box; deze vormen het eerste blok die ingevoerd zullen worden in de analyse.

  4. Klik op Next, dit levert een tweede onafhankelijke variabelen box op waarin je het tweede blok variabelen aan toe kunt voegen.

  5. Kies je volgende blok onafhankelijke variabelen.

  6. Zorg dat dit op default staat in de Method box (Enter).

  7. Klik op Statistics en vink de volgende opties aan: Estimates, Model fit, R squared change, Descriptives, Part and partial correlations en Collinearity diagnostics. Klik op Continue.

  8. Klik op Options. Klik in het Missing Values gedeelte op Exclude cases pairwise en klik op Continue.

  9. Klik op de Plots knop.

  10. Klik op *ZRESID en de pijl om deze te verplaatsen naar de Y-box.

  11. Klik op *ZPRED en de pijl om deze te verplaatsen naar de X-box.

  12. Vink in het Standardized Residual Plots de optie Normal probability plot aan en klik op Continue.

  13. Klik op Save. Vink in het Distances gedeelte Mahalanobis box en Cook’s aan. Klik op Continue en vervolgens op OK (of op Paste om de Syntax Editor op te slaan).

13.6 Hoe interpreteer je de hiërarchische meervoudige regressie output?

De output van deze regressieanalyse lijkt op die van de standaard meervoudige regressie, met hier en daar wat extra informatie. In de Model Summary box vind je twee modellen. Model 1 verwijst naar het eerste blok variabelen die is toegevoegd en Model 2 omvat alle variabelen die in beide blokken zijn toegevoegd.

Stap 1: Evalueren van het model

Controleer de R Square-waarden in de eerste Model Summary box. Let op! De tweede R square-waarde omvat alle variabelen van beide blokken en dus niet alleen de variabelen die tijdens de tweede stap zijn toegevoegd. Om te achterhalen hoeveel van de totale variantie wordt verklaard door de variabelen waarin je geïnteresseerd bent, kijk je in de kolom R Square change en de bijbehorende Sig. F change.

Stap 2: Evalueren van alle onafhankelijke variabelen

Om te achterhalen hoe goed alle variabelen bijdragen aan de uiteindelijke vergelijking, moet je kijken in de Coefficients tabel in de Model 2 rij. Dit vat de resultaten samen waarbij alle variabelen in de vergelijking zijn opgenomen. In de Sig. kolom zie je of de variabelen een unieke statistisch significante bijdrage leveren.

13.7 Op welke manier kan je resultaten uit meervoudige regressie presenteren?

Afhankelijk van het type analyse dat je hebt uitgevoerd en de aard van de onderzoeksvraag, zijn er een aantal verschillende manieren waarop de resultaten van meervoudige regressie kunnen worden gepresenteerd. Je moet minstens de volgende informatie noemen: (1) wat voor soort analyse je hebt uitgevoerd (standaard of hiërarchisch), (2) gestandaardiseerde (beta) waarden in het geval van een theoretisch onderzoek of ongestandaardiseerde (B) coëfficiënten in het geval van een toegepast onderzoek. Indien je een hiërarchische meervoudige regressie hebt uitgevoerd, dien je tevens de R square waarde veranderingen (value changes) voor iedere stap te noemen, samen met de waarschijnlijkheidswaarden (probability values).

 

Image

Access: 
Public

Image

Join WorldSupporter!
Search a summary

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Check the related and most recent topics and summaries:
Activity abroad, study field of working area:

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Follow the author: Psychology Supporter
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
10422 1