Samenvatting van SPSS Survival Manual van Pallant - 6e druk
- 3354 reads
Samengestelde samenvatting, gebaseerd op hoofdstuk 14 van SPSS Survival Manual van Pallant, 6e druk uit 2016.
Aan de hand van logistische regressie kun je modellen testen waarmee je categorische uitkomsten – bestaande uit twee of meerdere categorieën – kunt voorspellen. Aan de hand van logistische regressie kan je meten hoe goed jouw verzameling voorspellende variabelen in staat is om jouw categorische afhankelijke variabele te voorspellen of verklaren. Het biedt je een indicatie van de toereikendheid van je model door de ‘goodness of fit’ in kaart te brengen. Je onafhankelijke variabele kan zowel categorisch als continu zijn, of een combinatie van beide. Hier wordt getoond hoe je een binomiale (ook wel binaire) logistische regressie uitvoert met een dichotome afhankelijke variabele (dus met slechts twee categorieën of waarden). Indien je afhankelijke variabele bestaat uit meerdere categorieën, zal je een multinomiale logistische regressie moeten uitvoeren. Deze wordt hier niet behandeld, maar is uiteraard wel beschikbaar in SPSS (zie het Help-menu).
Net als bij alle andere analyses is het belangrijk dat je steekproefgrootte voldoende is. Voer altijd Descriptive Statistics uit over elk van je onafhankelijke variabelen en overweeg om categorieën met te weinig casussen te verwijderen.
Controleer altijd of er hoge intercorrelaties tussen je onafhankelijke variabelen zijn. Maar hiervoor gebruik van door collinearity diagnostics op te vragen onder de Statistics-knop. Negeer de rest van de output en richt je enkel op de Coefficients tabel en de kolommen genaamd Collinearity Statistics. Zeer lage tolerance waarden (< .1) geven aan dat de variabele hoog correleert met andere variabelen. Heroverweeg in dat geval welke variabelen je in je model wil opnemen en verwijder een van de hoog intercorrelerende variabelen.
Het is belangrijk voor outliers te controleren. Dit kan door de residuen te inspecteren.
Om de resultaten van logistische regressie te kunnen interpreteren, is het belangrijk dat je de codering van responsen van elk van je variabelen nauwkeurig opstelt. Voor de dichotome afhankelijke variabele moet je de responsen coderen als 0 en 1. De 0-waarde wijs je toe aan responsen waaruit een gebrek of afwezigheid blijkt van het kenmerk waarin je geïnteresseerd bent. De 1-waarde wijs je toe aan responsen waaruit aanwezigheid blijkt van het kenmerk waarin je geïnteresseerd bent. Voor je categorische onafhankelijke variabelen voer je een soortgelijke procedure uit. Voor continue onafhankelijke variabelen koppel je hoge waarden aan de waarden van het kenmerk waarin je geïnteresseerd bent (bijv. 0 uur slaap krijgt waarde 0 en 10 uur slaap, waarde 10).
Voor je met de onderstaande procedure begint, ga eerst naar Edit in het hoofdmenu. Selecteer daar Options en zorg dat de box No scientific notation for small numbers in tables is aangevinkt.
Klik in het menu bovenaan het scherm op Analyze, selecteer vervolgens Regression en daarna Binary Logistic.
Verplaats je categorische afhankelijke variabele naar de Dependent box. Verplaats je onafhankelijke variabelen naar de Covariates box. Zorg dat bij Method de Enter-optie vertoond wordt.
Als je categorische (nominaal of ordinaal) onafhankelijke variabelen hebt, klik dan op de Categorical-knop. Markeer alle categorische variabelen en verplaats ze naar de Categorical covariates box. Markeer weer al je categorische variabelen en klik op de First-knop in het Change contrast gedeelte. Klik op Change en je ziet het woord (first) verschijnen achter de naam van de variabele. Herhaal dit voor alle categorische variabelen. Klik op Continue.
Klik op Options. Selecteer de volgende opties: Classification plots, Hosmer-Lemeshow goodness of fit, Casewise listing of residuals en CI for Exp(B).
Klik op Continue en vervolgens op OK (of op Paste om de Syntax Editor op te slaan).
Het eerste waar je in je output naar moet kijken zijn de details met betrekking tot je steekproefgrootte. Deze vindt je in de Case Processing Summary tabel. Zorg ervoor dat hier het aantal proefpersonen in staan dat je hebt ingevoerd. De volgende tabel, Dependent Variable Encoding, laat zien hoe SPSS je afhankelijke variabele heeft gecodeerd. Controleer in de tabel die daarna volgt (Categorical Variables Coding) de codering van je onafhankelijke variabelen. Controleer ook in de Frequency kolom het aantal casussen per categorie; je wilt geen groepen met zeer kleine aantallen.
Het volgende output gedeelte (Block 0) betreft de resultaten van de analyse zonder dat een van de onafhankelijke variabelen in het model is opgenomen; dit dient als baseline om te vergelijken met het model waarin de variabelen wel zijn opgenomen. Ga nu eerst naar het volgende gedeelte; Block 1. Hier wordt je model (met daarin de onafhankelijke variabelen) getoetst. De Omnibus Tests of Model Coefficients biedt een algemene indicatie van hoe goed het model presteert, vergeleken met de resultaten uit Block 0, waar geen van de onafhankelijke variabelen in het model zijn opgenomen. Dit wordt ook wel de ‘goodness of fit’ toets genoemd. Hier wil je een hoge significante waarde (Sig. waarde < .05), omdat dat betekent dat je model met voorspellers beter is dan het baseline model. De resultaten in de tabel Hosmer and Lemeshow Test bieden ondersteuning voor de goodness of fit van je model. Let wel op dat deze test heel anders geïnterpreteerd wordt dan de omnibus test. Voor de Hosmer and Lemeshow Goodness of Fit Test wordt een slechte fit aangeduid met een significantiewaarde kleiner dan .05, wat betekent dat je hier dus juist een hoge significantiewaarde wil zien.
Ook de tabel Model Summary geeft informatie over de bruikbaarheid van het model. De Cox & Snell R Square en de Nagelkerke R Square waarden bieden een indicatie van de hoeveelheid variatie in de afhankelijke variabele die door het model wordt verklaard (variërend van 0 tot 1).
De Classification Table voorziet van een indicatie van hoe goed het model in staat is om voor iedere casus de juiste categorie te voorspellen. Deze tabel kan je vergelijken met de Classification Table uit Block 0 om te achterhalen hoeveel verbetering er optreedt in het model wanneer de onafhankelijke variabelen zijn opgenomen.
De sensitiviteit van het model is het percentage van de groep die het kenmerk bevat waarin je geïnteresseerd bent en die correct door het model zijn vastgesteld (‘true positives’). De specificiteit van het model is het percentage van de groep die niet het kenmerk bevat waarin je geïnteresseerd bent en correct zijn vastgesteld (‘true negatives’). De positief voorspellende waarde is het percentage casussen waarvan het model stelt dat ze over het kenmerk beschikken en die ook daadwerkelijk over dit kenmerk beschikken. De negatief voorspellende waarde is het percentage casussen waarvan het model stelt dat ze niet over het kenmerk beschikken en die ook daadwerkelijk niet over dit kenmerk beschikken.
De Variables in the Equation tabel geeft aan de hand van de Wald test informatie over de bijdrage of het belang van elk van je onafhankelijke variabelen; deze kun je aflezen in de Wald-kolom. Ga nu in de Sig.-kolom op zoek naar waarden kleiner dan .05; dit zijn de variabelen die significant bijdragen aan de voorspellende waarde van het model. Kijk of de B-waarden positief of negatief zijn; dit zegt iets over de richting van het verband. Als je alle variabelen correct gecodeerd hebt, betekenen negatieve B-waarden dat een toename in de onafhankelijke variabele-score zal resulteren in een verminderde kans dat de casus een score van 1 op de afhankelijke variabele zal hebben. Voor positieve B-waarden geldt het tegenovergestelde. Nog een ander nuttig informatieonderdeel in de Variables in the Equation tabel vindt je in de Exp(B)-kolom; deze waarden zijn de odds ratios (OR) voor elk van je onafhankelijke variabelen. Volgens Tabachnick en Fidell representeren de OR “the change in odds of being in one of the categories of outcome when the value of a predictor increases by one unit”. OR kleiner dan 1 zetten we het liefst om (1 gedeeld door de waarde) wanneer we deze rapporteren ten behoeve van de interpretatie.
Voor elk van de OR wordt een 95% betrouwbaarheidsinterval gegeven (95% CI for EXP(B)); deze dien je te noemen in je resultaten.
De laatste tabel in de output (Casewise List) biedt informatie over casussen in je steekproef voor wie het model niet goed past. Casussen met ZResid-waarden boven 2.5 of onder -2.5 zijn outliers en moeten daarom nauwkeuriger worden onderzocht.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Samengestelde samenvatting, gebaseerd op de SPSS Survival Manual van Pallant, 6e druk uit 2016.
Deze samenvatting is zowel te gebruiken bij versie 24 van IBM SPSS als bij andere versies. Bij gebruik van andere versies kan het voorkomen dat de opties een soortgelijke naam hebben gekregen...
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
Main summaries home pages:
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
4990 |
Add new contribution