Hoe voer je logistische regressie uit in SPSS? CH.14

Samengestelde samenvatting, gebaseerd op hoofdstuk 14 van SPSS Survival Manual van Pallant, 6e druk uit 2016.

Aan de hand van logistische regressie kun je modellen testen waarmee je categorische uitkomsten – bestaande uit twee of meerdere categorieën – kunt voorspellen. Aan de hand van logistische regressie kan je meten hoe goed jouw verzameling voorspellende variabelen in staat is om jouw categorische afhankelijke variabele te voorspellen of verklaren. Het biedt je een indicatie van de toereikendheid van je model door de ‘goodness of fit’ in kaart te brengen. Je onafhankelijke variabele kan zowel categorisch als continu zijn, of een combinatie van beide. Hier wordt getoond hoe je een binomiale (ook wel binaire) logistische regressie uitvoert met een dichotome afhankelijke variabele (dus met slechts twee categorieën of waarden). Indien je afhankelijke variabele bestaat uit meerdere categorieën, zal je een multinomiale logistische regressie moeten uitvoeren. Deze wordt hier niet behandeld, maar is uiteraard wel beschikbaar in SPSS (zie het Help-menu).

14.1 Welke assumpties horen bij logistische regressie?

Steekproefgrootte

Net als bij alle andere analyses is het belangrijk dat je steekproefgrootte voldoende is. Voer altijd Descriptive Statistics uit over elk van je onafhankelijke variabelen en overweeg om categorieën met te weinig casussen te verwijderen.

Multicollineariteit

Controleer altijd of er hoge intercorrelaties tussen je onafhankelijke variabelen zijn. Maar hiervoor gebruik van door collinearity diagnostics op te vragen onder de Statistics-knop. Negeer de rest van de output en richt je enkel op de Coefficients tabel en de kolommen genaamd Collinearity Statistics. Zeer lage tolerance waarden (< .1) geven aan dat de variabele hoog correleert met andere variabelen. Heroverweeg in dat geval welke variabelen je in je model wil opnemen en verwijder een van de hoog intercorrelerende variabelen.

Outliers

Het is belangrijk voor outliers te controleren. Dit kan door de residuen te inspecteren.

14.2 Wat is de procedure bij logistische regressie?

Om de resultaten van logistische regressie te kunnen interpreteren, is het belangrijk dat je de codering van responsen van elk van je variabelen nauwkeurig opstelt. Voor de dichotome afhankelijke variabele moet je de responsen coderen als 0 en 1. De 0-waarde wijs je toe aan responsen waaruit een gebrek of afwezigheid blijkt van het kenmerk waarin je geïnteresseerd bent. De 1-waarde wijs je toe aan responsen waaruit aanwezigheid blijkt van het kenmerk waarin je geïnteresseerd bent. Voor je categorische onafhankelijke variabelen voer je een soortgelijke procedure uit. Voor continue onafhankelijke variabelen koppel je hoge waarden aan de waarden van het kenmerk waarin je geïnteresseerd bent (bijv. 0 uur slaap krijgt waarde 0 en 10 uur slaap, waarde 10).

Procedure voor logistische regressie

Voor je met de onderstaande procedure begint, ga eerst naar Edit in het hoofdmenu. Selecteer daar Options en zorg dat de box No scientific notation for small numbers in tables is aangevinkt.

  1. Klik in het menu bovenaan het scherm op Analyze, selecteer vervolgens Regression en daarna Binary Logistic.

  2. Verplaats je categorische afhankelijke variabele naar de Dependent box. Verplaats je onafhankelijke variabelen naar de Covariates box. Zorg dat bij Method de Enter-optie vertoond wordt.

  3. Als je categorische (nominaal of ordinaal) onafhankelijke variabelen hebt, klik dan op de Categorical-knop. Markeer alle categorische variabelen en verplaats ze naar de Categorical covariates box. Markeer weer al je categorische variabelen en klik op de First-knop in het Change contrast gedeelte. Klik op Change en je ziet het woord (first) verschijnen achter de naam van de variabele. Herhaal dit voor alle categorische variabelen. Klik op Continue.

  4. Klik op Options. Selecteer de volgende opties: Classification plots, Hosmer-Lemeshow goodness of fit, Casewise listing of residuals en CI for Exp(B).

  5. Klik op Continue en vervolgens op OK (of op Paste om de Syntax Editor op te slaan).

14.3 Hoe interpreteer je de logistische regressie output?

Het eerste waar je in je output naar moet kijken zijn de details met betrekking tot je steekproefgrootte. Deze vindt je in de Case Processing Summary tabel. Zorg ervoor dat hier het aantal proefpersonen in staan dat je hebt ingevoerd. De volgende tabel, Dependent Variable Encoding, laat zien hoe SPSS je afhankelijke variabele heeft gecodeerd. Controleer in de tabel die daarna volgt (Categorical Variables Coding) de codering van je onafhankelijke variabelen. Controleer ook in de Frequency kolom het aantal casussen per categorie; je wilt geen groepen met zeer kleine aantallen.

Het volgende output gedeelte (Block 0) betreft de resultaten van de analyse zonder dat een van de onafhankelijke variabelen in het model is opgenomen; dit dient als baseline om te vergelijken met het model waarin de variabelen wel zijn opgenomen. Ga nu eerst naar het volgende gedeelte; Block 1. Hier wordt je model (met daarin de onafhankelijke variabelen) getoetst. De Omnibus Tests of Model Coefficients biedt een algemene indicatie van hoe goed het model presteert, vergeleken met de resultaten uit Block 0, waar geen van de onafhankelijke variabelen in het model zijn opgenomen. Dit wordt ook wel de ‘goodness of fit’ toets genoemd. Hier wil je een hoge significante waarde (Sig. waarde < .05), omdat dat betekent dat je model met voorspellers beter is dan het baseline model. De resultaten in de tabel Hosmer and Lemeshow Test bieden ondersteuning voor de goodness of fit van je model. Let wel op dat deze test heel anders geïnterpreteerd wordt dan de omnibus test. Voor de Hosmer and Lemeshow Goodness of Fit Test wordt een slechte fit aangeduid met een significantiewaarde kleiner dan .05, wat betekent dat je hier dus juist een hoge significantiewaarde wil zien.

Ook de tabel Model Summary geeft informatie over de bruikbaarheid van het model. De Cox & Snell R Square en de Nagelkerke R Square waarden bieden een indicatie van de hoeveelheid variatie in de afhankelijke variabele die door het model wordt verklaard (variërend van 0 tot 1).

De Classification Table voorziet van een indicatie van hoe goed het model in staat is om voor iedere casus de juiste categorie te voorspellen. Deze tabel kan je vergelijken met de Classification Table uit Block 0 om te achterhalen hoeveel verbetering er optreedt in het model wanneer de onafhankelijke variabelen zijn opgenomen.

De sensitiviteit van het model is het percentage van de groep die het kenmerk bevat waarin je geïnteresseerd bent en die correct door het model zijn vastgesteld (‘true positives’). De specificiteit van het model is het percentage van de groep die niet het kenmerk bevat waarin je geïnteresseerd bent en correct zijn vastgesteld (‘true negatives’). De positief voorspellende waarde is het percentage casussen waarvan het model stelt dat ze over het kenmerk beschikken en die ook daadwerkelijk over dit kenmerk beschikken. De negatief voorspellende waarde is het percentage casussen waarvan het model stelt dat ze niet over het kenmerk beschikken en die ook daadwerkelijk niet over dit kenmerk beschikken.

De Variables in the Equation tabel geeft aan de hand van de Wald test informatie over de bijdrage of het belang van elk van je onafhankelijke variabelen; deze kun je aflezen in de Wald-kolom. Ga nu in de Sig.-kolom op zoek naar waarden kleiner dan .05; dit zijn de variabelen die significant bijdragen aan de voorspellende waarde van het model. Kijk of de B-waarden positief of negatief zijn; dit zegt iets over de richting van het verband. Als je alle variabelen correct gecodeerd hebt, betekenen negatieve B-waarden dat een toename in de onafhankelijke variabele-score zal resulteren in een verminderde kans dat de casus een score van 1 op de afhankelijke variabele zal hebben. Voor positieve B-waarden geldt het tegenovergestelde. Nog een ander nuttig informatieonderdeel in de Variables in the Equation tabel vindt je in de Exp(B)-kolom; deze waarden zijn de odds ratios (OR) voor elk van je onafhankelijke variabelen. Volgens Tabachnick en Fidell representeren de OR “the change in odds of being in one of the categories of outcome when the value of a predictor increases by one unit”. OR kleiner dan 1 zetten we het liefst om (1 gedeeld door de waarde) wanneer we deze rapporteren ten behoeve van de interpretatie.

Voor elk van de OR wordt een 95% betrouwbaarheidsinterval gegeven (95% CI for EXP(B)); deze dien je te noemen in je resultaten.

De laatste tabel in de output (Casewise List) biedt informatie over casussen in je steekproef voor wie het model niet goed past. Casussen met ZResid-waarden boven 2.5 of onder -2.5 zijn outliers en moeten daarom nauwkeuriger worden onderzocht.

 

Image

Access: 
Public

Image

Join WorldSupporter!
Search a summary

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Check the related and most recent topics and summaries:
Activities abroad, study fields and working areas:

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Follow the author: Psychology Supporter
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
4990