Logistische regressie
Dit hoofdstuk gaat over logistische regressie met een categorische afhankelijke variabele en kwantitatieve of dichotome onafhankelijke variabelen. In een normale logistische regressie is er altijd een afhankelijke variabele (Y-waarde) en set van onafhankelijke variabelen (X-waarden), die zowel dichotoom, kwantitatief of een combinatie daarvan kunnen zijn. De afhankelijke variabele kan dichotoom zijn (zoals in binaire logistische regressie) of meerdere categorieën hebben, wat polytomous of multinominale logistische regressie heet. Binaire logistische regressie is een techniek waarbij een regressie-analyse wordt uitgevoerd bij een dichotome afhankelijke variabele. Het geeft een model voor de kans dat een gebeurtenis plaatsvindt afhankelijk van de waardes van de onafhankelijke variabele. Bijvoorbeeld in het geval waar we de reactie op een behandeling willen voorspellen, en de participanten ofwel ‘overleven’ of ‘niet overleven’ (zoals bij kanker). De kansen van logistische regressie liggen tussen 0 en 1. Daarnaast kunnen de onafhankelijke variabelen zowel categorisch of continu zijn.
Assumpties logistische regressie
- De afwezigheid van multicollineariteit (als meer dan twee voorspellende waarden erg sterk correleren).
- Geen fouten in specificatie. Alle irrelevante voorspellende waarden worden uitgesloten.
- De onafhankelijke variabelen moeten gemeten worden op opgetelde respons schaal, interval of ratio niveau.
- De errors moeten onafhankelijk van elkaar zijn, dus elke observatie is onafhankelijk van de andere observaties.
- De onafhankelijke variabelen moeten lineair gerelateerd zijn aan de log kansen.
- De afhankelijke variabele moet binair zijn.
- Grote steekproef, liefst 30 keer zo groot als het aantal parameters dat geschat wordt.
Coderen van binaire variabelen
Het wordt gesteld dat men variabelen het beste kan coderen met 1 voor het voorkomen van de onderzochte variabele en 0 voor het niet voorkomen ervan. Variabelen die onderzocht worden, worden gelabeld met 1 (ook wel de responsgroep, vergelijkingsgroep, doelgroep), de anderen als 0 (referentiegroep, basisgroep, controlegroep). Het doel van logische regressie is het voorspellen tot welke groep een individu behoort. Dit gebeurt door de kans dat hij of zij tot de categorie 1 behoort te berekenen. Een voordeel van deze codering is dat het gemiddelde van de afhankelijke variabele gelijk is aan de proportie 1-en in de verdeling. Het gemiddelde is ook de kans om een persoon als 1 te labelen bij een willekeurige steekproef.
- P = proportie 1-en, (1-P) = Q = proportie 0-en
- PQ = variantie, √PQ = standaard afwijking
Bij multinominale logistische regressie zijn er meer dan twee categorieën van de uitkomst variabele. Dit wordt vaak gecodeerd als 1, 2, 3, enzovoorts. De referentiegroep moet geïdentificeerd worden en de andere groepen worden gebruikt als doelgroep in aparte analyses.
Grafische weergave logistische regressie
De grafische weergave van lineaire regressie is een lijn, waarbij wordt aangenomen dat de verhoudingen constant zijn. Als x zoveel verandert, verandert y zoveel en dat is continu zo. Bij logistische regressie heeft de lijn een S-vorm. Het zorgt dat we kunnen voorspellen hoe groot de kans is dat de uitkomst 1 is gebaseerd op de waarde van de voorspeller. De eerste en de laatste waarden van X brengen nauwelijks verandering. Verandering is wel te vinden in het midden. Hoe steiler de helling, hoe meer verandering er teweeggebracht is. Je gebruikt logistische regressie wanneer er geen constante relatie is. Dan heeft logistische regressie een grote voorspellende waarde.
Logistische regressie en odds
Om logistische regressie te kunnen gebruiken moet je de data transformeren met de natural log transformation (ln transformatie). Hieronder eerst drie kernbegrippen.
- Odds: Voor een dichotome variabele zijn de odds van groepslidmaatschap gelijk aan de waarschijnlijkheid van lidmaatschap in de doelgroep gedeeld door de kans op lidmaatschap in de andere groep. Odds geven aan hoeveel waarschijnlijker het is dat een observatie tot de doelgroep behoort, ten opzichte van een andere groep.
- Kansen: de kans om bij de ene groep te horen gedeeld door de kans om niet bij die groep te horen = P/(1-P). Loopt van 0 tot hoge waardes.
- Odds ratio: Een ander belangrijk concept is de odds ratio, die schat wat de verandering in de odds van groepslidmaatschap is voor de doelgroep per one-unit toename in de predictor. De ruwe coëfficiënt van de predictorvariabele geeft de verandering weer in het natuurlijke logaritme van de odds ratio, welke moeilijker te interpreteren is dan de odds ratio. Deze ruwe coëfficiënt heeft echter wel een nuttige functie: een positieve ruwe coëfficiënt houdt in dat voorspelde odds ratio toeneemt wanneer de predictorwaarde toeneemt en andersom. Bij een ruwe coëfficiënt van 0 is de odds ratio 1 (de odds zijn hetzelfde voor elke waarde van de predictor).
We willen berekenen hoe groot de kans is dat een individu tot een bepaalde groep behoort. Hiervoor wordt de waarschijnlijkheid van de gebeurtenis omgezet in kansen. Dit wordt gedaan door de natuurlijke log (ook wel ln). Door de transformatie past de data op de S-curve om zo goed mogelijk het groepslidmaatschap van individuen te voorspellen. De logistische regressie vergelijking met v als aantal onafhankelijke variabelen:
Ln [kansen] = groeppred = a + b1X1 + b2X2+ ... + bvXv
Groeppred staat voor het voorspelde groepslidmaatschap. De b coëfficiënten geven de verandering in log kansen voor lidmaatschap aan bij verandering van één eenheid in de onafhankelijke variabelen, gecontroleerd voor de andere voorspellers. De waarden van b (helling) en a (constant) worden berekend met hulp van de Maximum Likelihood Estimation (MLE), die je kunt verkrijgen nadat de afhankelijke variabele is getransformeerd in de logit. Dit is een methode om de data te veranderen zodat we een lineaire functie krijgen. De scores worden omgezet naar kansen, en vervolgens naar log odds[log(p/1-p)], met p de kans op verbetering en 1-p de kans op geen verbetering. De log odds zullen positief zijn voor odds groter dan 1 en negatief voor odds kleiner dan 1.
X is de score van de voorspeller. Deze kan dus 0 of 1 zijn voor dichotome variabelen of deze kan van intervalniveau zijn bij kwantitatieve variabelen. Het geeft aan hoe waarschijnlijk het is dat de geobserveerde waarde van de afhankelijke variabele voorspeld kan worden uit de geobserveerde waarden van de onafhankelijke variabelen.
De logistische functie kan worden beschreven als P = en / 1 + en. De logistische functie heeft een bereik van 0 tot 1. Als n groot en negatief is, is de kans P klein. Als n groot en positief is, is de kans P groot. Indien geldt: n = 0, geldt e0 = 1. De bijbehorende kans wordt dan 1 / 1 + 2 = 0.5.
In de logistische functie wordt n vervangen door een lineair regressie gedeelte:
P1 = ea+b1x1+b2x2+…. / 1 + ea+b1x1+b2x2+….
P1 is hier de kans op slagen (slagen = 1). a is de constante onder B (uit de SPSS tabel). b1 en b2 zijn de regressiecoëfficiënten. x1 en x2 zijn de bijbehorende predictoren.
De uitkomst wordt geïnterpreteerd aan de hand van een regel: bij P1 groter of gelijk aan .5 is de code 1, bij P1 kleiner dan .5 is de code 0. De kansratio kan berekend worden uit de e en de b-coëfficiënt: ℮b = kans ratio
Evaluatie van het logistische model
2 log Likelihood Test: bekijkt of de set van de onafhankelijke variabelen de afhankelijke variabelen beter dan kans kunnen voorspellen. De likelihood waarden zijn vaak erg klein en daarom is de natuurlijke log ervan vaak in de output te zien. Dit wordt berekend door de log van de likelihood waarde te vermenigvuldigen met –2, waardoor de significantie getoetst kan worden met de chi²-toets. Dit is de –2LL (log likelihood). Er wordt getoetst of tenminste één voorspeller een significante contributie, verschillend van 0, heeft. Hoe hoger de -2LL, hoe minder goed het model bij de data past. Het 0-model past altijd het minst goed bij de data.
Om modellen met elkaar te vergelijken wordt het model zonder predictoren vergeleken met het model met één predictor. Het verschil tussen de -2LL waardes geeft de verandering in X2 weer die komt door het toevoegen van een voorspeller. Dit verschil kan bekeken worden met 1 df. In de Model Summary* (SPSS) kun je bij de -2Log likelihood (-2LL) zien hoe sterk de relatie is. De -2LL wordt ingevoerd in de formule van Hosmer en Lemeshow:
RL2 = -2LLmodel 0 – -2LLmodel x / -2LLmodel 0.
Je vergelijkt je huidige model, bijvoorbeeld model 1 of model 2, dus altijd met het nulmodel. RL2 geeft de proportionele reductie in -2LL weer. *Voor het nulmodel kijk je bij ‘Iteration history’ in SPSS.
Classificatieanalyse
Het percentage accuraat geclassificeerde gevallen (PAC) is het aantal correct geclassificeerde gevallen gedeeld door het totale aantal geclassificeerde gevallen. Er kunnen echter ook andere maten van accuraatheid gebruikt worden. Sensitiviteit is het percentage van de doelgroep dat correct geclassificeerd wordt. De positieve voorspellende waarde is het percentage dat correct door het model aan een bepaalde doelgroep wordt toegewezen. Specifiteit verwijst naar het percentage van de andere groep dat correct geclassificeerd wordt. De negatieve predictieve waarde is het percentage dat correct door het model aan de andere groep wordt toegewezen. Als je voor allebei de groepen een goede voorspelling wilt maken, is de gemiddelde predictieve waarde over klassen zeer bruikbaar. Tenslotte is het belangrijk om rekening te houden met de generaliseerbaarheid van de resultaten, bijvoorbeeld door het gebruik van een cross-validatie sample.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Contributions: posts
Spotlight: topics
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the summaries home pages for your study or field of study
- Use the check and search pages for summaries and study aids by field of study, subject or faculty
- Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
- Check or follow authors or other WorldSupporters
- Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Main summaries home pages:
- Business organization and economics - Communication and marketing -International relations and international organizations - IT, logistics and technology - Law and administration - Leisure, sports and tourism - Medicine and healthcare - Pedagogy and educational science - Psychology and behavioral sciences - Society, culture and arts - Statistics and research
- Summaries: the best textbooks summarized per field of study
- Summaries: the best scientific articles summarized per field of study
- Summaries: the best definitions, descriptions and lists of terms per field of study
- Exams: home page for exams, exam tips and study tips
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
- Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
- Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
1639 |
Add new contribution