Colleges week 1-4 MVDA


College 1 Multipele regressie analyse

 

MVDA gaat over onderzoeksvragen. Bijvoorbeeld: kun je depressie voorspellen uit life events en coping? Onderzoeksvragen hebben twee aspecten: de relatie tussen constructen en de populatie. Geteste constructen noemen we variabelen. Om de data te analyseren moeten de juiste statistische technieken gebruikt worden bij de juiste onderzoeksvraag.

 

De technieken van de eerste vier weken hebben gemeen dat er één afhankelijke variabele is. Dit is de variabele die we willen voorspellen (Y). De onafhankelijke variabelen zijn de voorspellers, bij ANOVA worden ze factoren genoemd. Bij deze vier technieken is de vraag ‘kan ik Y voorspellen uit de onafhankelijke variabelen?’

 

Welke techniek je gebruikt hangt af van het meetniveau van de variabelen. Tijdens deze cursus zijn er drie meetniveaus die er toe doen:

 

  • Categorisch/nominaal: mensen worden in groepen ingedeeld

  • Interval: intervallen tussen scores hebben betekenis

  • Binair: Een categorische variabele die 2 categorieën heeft en interval eigenschappen heeft

 

De eerste week staat in het teken van Multipele Regressie Analyse (MRA). Bij multipele regressie analyse proberen we op basis van een aantal onafhankelijke variabelen (X1, X2….Xp) de afhankelijke variabele (Ypred) te voorspellen.

 

Belangrijk bij MRA:

 

  1. Er zijn meerdere onafhankelijke variabelen en er is steeds slechts één afhankelijke variabele.

  2. Zowel de onafhankelijke variabelen als de afhankelijke variabelen zijn van interval niveau.

 

Hieronder staat een overzicht van welke techniek je moet gebruiken bij verschillende niveaus van de variabelen (deze technieken worden in week 1 tot en met 4 behandeld).

 



X1, X2 … Xp

Y

Techniek

Interval

Interval

Multipele regressie analyse (MRA)

Nominaal

Interval

Variantie analyse (ANOVA)

Nominaal + interval

Interval

Covariantie analyse (ANCOVA)

Interval

Binair

Logistische regressie analyse (LRA)

 

Regressie model

Als je een Y wil voorspellen uit X1 en X2 doe je dit met het volgende model: Y is een lineaire functie van X1 en X2. Y is een sommatie van X waar een regressiecoëfficiënt voor staat, een regressie constante en een residu. Het gaat om enkelvoudige regressie wanneer er 1 onafhankelijke is, en het gaat om multipele regressie wanneer er meerdere onafhankelijken zijn. Om de parameters uit te rekenen wordt de least squares estimation gebruikt in SPSS.

 

De beste voorspelling wordt gedaan als het verschil van de sum of squares minimaal is.

 

Om te testen of er een relatie is tussen Y en X1 en X2 (H0 testen) wordt een F-toets gebruikt. De F-toets laat zien of er een regressiecoëfficiënt ongelijk is aan nul, en of er dus een relatie is tussen Y en X1 of X2 of met allebei. De F-toets laat dus zien of het mogelijk is om Y te voorspellen uit X1 of X2. Om te testen hoe sterk de voorspelling is wordt de R2 ofwel VAF gebruikt. Dit geeft weer hoeveel variantie van Y verklaart wordt door X1 en X2, oftewel hoe goed het lineaire model de geobserveerde data beschrijft.

 

In SPSS output is (Constant) de regressie constante (b0). Onder de kolom ‘B’ vind je b1 en b2 bij de bijbehorende onafhankelijke variabele. Als sommige coëfficiënten niet significant zijn doe je de regressie analyse opnieuw zonder deze predictoren.

 

Je kunt ook de gestandaardiseerde regressie vergelijking gebruiken. Hiermee kun je de B’s vergelijken. In dit geval worden de scores van de predictoren gestandaardiseerd, dus het gemiddelde wordt op 0 gelegd en de spreiding op 1. Met deze regressie vergelijking zijn er geen constanten want die liggen op 0. De B’s zijn vervangen door bèta’s. Het voordeel van deze bèta’s is dat je ze nu kunt vergelijken omdat ze op dezelfde schaal liggen. Als de ene bèta groter is in absolute waarde dan de andere kun je stellen dat deze predictor belangrijker is dan de andere.

 

De voorkeur ligt bij het gebruiken van de semi-partiële correlatie. In SPSS wordt hij de ‘part’ correlatie genoemd. De waarden liggen tussen 1 en -1. Deze wordt gebruikt om de uniek verklaarde variantie te berekenen. Deze semi-partiële correlatie is de correlatie van Y en X1 gecorrigeerd voor X2. ry(1∙2)2 geeft weer hoeveel variantie van Y uniek wordt verklaard door X1.

 

Voordat je een model kan gebruiken als voorspellend model, moeten er assumpties worden gecheckt. De variabelen moeten van interval niveau zijn. Het model moet lineair zijn: het gemiddelde van de afhankelijke variabele is een lineaire combinatie van voorspellers, de voorspellers zijn gemeten zonder errors. Daarnaast moet het model homoscedasticiteit hebben: de variantie van de residuen is constant voor de voorspelde waarden. De residuen moeten onafhankelijk zijn: individuen moeten onafhankelijk van elkaar reageren. Het model moet normaal verdeelt zijn. Tevens moet er geen multicollineariteit in de voorspellers zijn: geen gemiddelde tot hoge intercorrelaties tussen de voorspellers.

In de slides zijn enkele grafische weergaven te zien van deze assumpties. Om te checken of de multicollineariteit goed is, moet je (in SPSS) naar de VIF en de Tolerance kijken. De Tolerance bereken je door Tj = 1- Rj2, en de VIF bereken je door VIFj = 1/Tj = 1/(1-Rj2). De VIF moet groot zijn (onder de 5) en de Tolerance moet klein zijn (onder de 0,1).

 

Als assumpties geschonden worden doordat een voorspeller voor afwijkingen zorgt kan je hem weglaten. Je kunt ook robuustere regressie technieken gebruiken.

 

De verklaarde variantie van Y in de steekproef wordt weergeven door R2. De adjusted R2 is om te meten hoeveel variantie van Y zou worden verklaard als we het model hadden afgeleid uit het regressiemodel van de populatie. De meest gebruikte formule voor de adjusted R2 is Wherry’s adjusted R2.

 

College 2 ANOVA

 

ANOVA hoort bij de verschillende mogelijkheden om een afhankelijke variabele te voorspellen uit een aantal onafhankelijke variabelen (week 1 tot en met 4). Bij ANOVA zijn de onafhankelijke variabelen van nominaal niveau. Dit houdt in dat elke categorie een willekeurig nummer krijgt, aan deze nummers is dus geen volgorde af te lezen. De onafhankelijke variabelen (X1, X2, enzovoorts) worden bij ANOVA factoren genoemd in plaats van variabelen. ANOVA kan je opdelen in twee soorten: eenweg ANOVA en meerweg ANOVA (bijvoorbeeld tweeweg ANOVA). Afhankelijk van het aantal factoren wordt een ANOVA gekozen.

 

Bij ANOVA is de onderzoeksvraag meestal: welk effect hebben X1 en X2 op de afhankelijke variabele Y?

 

Om hier achter te komen moet je eerst voor elke factor afzonderlijk het effect op Y bekijken.

 

Als de factor verdeeld is in 2 groepen, dan kan je een t-test uitvoeren waarin de gemiddelden van de 2 groepen worden vergeleken.

 

Als de factor is verdeeld in 3 of meer groepen, kan je een eenweg ANOVA uitvoeren. H0 stelt dat alle gemiddelden aan elkaar gelijk zijn, en Ha stelt dat minimaal 2 gemiddelden niet aan elkaar gelijk zijn. ANOVA vergelijkt de between-groep variantie (de variantie tussen de verschillende groepen) en de within-groep variantie (de variantie binnen één groep). Het verwerpen van H0 is waarschijnlijker als er een groter verschil is tussen de groepsgemiddelden (grotere between-groep variantie), als er kleinere verschillen zijn binnen de groepen (kleinere within-groep variantie) en als er een grote steekproefgrootte (N) is.

 

De formule van de F-toets van de eenweg ANOVA ziet er als volgt uit: Met de vrijheidsgraden df(between) = k-1 en df(within) = N-k. Formules van de verschillende varianties zijn tevens in de PowerPoint weergeven.

 

Om erachter te komen welke van de 3 groepen verschil maken, kan er een post-hoc toets (multiple comparisons) worden uitgevoerd.

 

Tweeweg ANOVA

Na het afzonderlijk checken van de effecten van de factoren op Y, moet het effect van de factoren samen worden bekeken; het interactie-effect. Hiervoor is de tweeweg ANOVA (twee staat voor het aantal factoren).

 

In SPSS vind je ANOVA onder Analyze > general linear model > univariate.

 

In de SPSS output wordt ook het Corrected Model en het Corrected Total weergeven. Het Corrected model is het model zonder het intercept. Hierin worden de effecten van de verschillende factoren en de interactiefactoren gecombineerd. Het Corrected Total is het totaal zonder het intercept.

 

Tweeweg ANOVA geeft 4 verschillende F-toetsen. Het Corrected Model, de 2 factoren en het interactie effect. Om H0 te testen wordt het Corrected Model gebruikt. Om te bekijken hoe sterk de relatie is, gebruiken we de determinatiecoëfficiënt R2 (VAF). Goed om hierbij te weten is dat ANOVA vaak minder VAF heeft dan MRA (week 1). Dit komt omdat de voorspellers in ANOVA nominaal zijn in plaats van interval, waardoor ze minder informatie geven.

 

Eta squared is vergelijkbaar met de semi-partiële correlatie van week 1. Het reflecteert hoeveel variantie van Y uniek wordt verklaart. Eta squared wordt niet gegeven in SPSS en moet je dus zelf uitrekenen. De eta squared van het Corrected Model is gelijk aan R2 (VAF).

 

Om de effecten te interpreteren gebruiken we de estimated marginal means. Dit zijn de geobserveerde groepsgemiddelden gecorrigeerd voor ongelijke groepsgroottes (ongebalanceerd model) en covarianties in het model. Wanneer het design gebalanceerd is (gelijke groepsgroottes) en er zijn geen covarianties, dan is het estimated marginal means gelijk aan het geobserveerde gemiddelde.

 

Om te kijken of er significante verschillen zijn in de groepen, moet er naar het 95% betrouwbaarheidsinterval worden gekeken. Als er geen overlap is, dan is er een significant verschil.

 

Een alternatief is een multiple comparisons (post hoc tests). Hier worden alle gemiddelden gepaard weergegeven, inclusief 95% betrouwbaarheidsinterval.

 

Bij de interpretatie van het interactie-effect gaat het erom dat er wordt gekeken of het effect van de ene factor afhankelijk is van een groep van de andere factor/variabele. Ter ondersteuning van deze interpretatie kan er een plot gebruikt worden.

 

Een gebalanceerd design betekent dat elke groep gelijke groepsgroottes (N) heeft. Als het design gebalanceerd is, bestaan er geen onderlinge correlaties.

 

De assumpties van ANOVA zijn de volgende. De residuen moeten onafhankelijk zijn, er moet groepsnormaliteit zijn en er moet sprake zijn van homoscedasticiteit: gelijkheid van de groepsvarianties, dit laatste wordt getest met een Levene’s toets.

 

Om te checken of de F-toets robuust is worden de volgende regels gebruikt.

 

  1. Robuust als de schending van de assumpties de Type 1 error niet substantieel beïnvloeden.

  2. Robuust tegen niet-normaliteit als N > 12 in elke groep

  3. Robuust tegen ongelijke groepsvarianties als Nmax/Nmin

 

Om te berekenen hoeveel variantie van Y verklaard wordt als het model in de populatie geldig was, gebruiken we omega squared.

 

College 3 ANCOVA

 

Inleiding ANCOVA

We hebben nu een mengeling van voorspellers die zowel nominaal (categorisch) als intervalniveau hebben. Dan komen we bij ANCOVA uit. De vraag die wordt gesteld bij ANCOVA is: ‘Wat is het effect van X op Y na correctie voor C?’ Hierbij is Y op intervalniveau, X op nominaal (categorisch) niveau en C (Covariaat) op interval niveau. C staat voor de covariaat. Covariaat is iedere intervalvariabele die je gebruikt in een variantieanalyse. Terwijl alle nominale (categorische) variabelen ‘factoren’ worden genoemd. ANCOVA is eigenlijk een combinatie tussen ANOVA en MRA (regressie). Makkelijker is het om ANCOVA te zien als een uitbreiding van ANOVA: ANCOVA = ANOVA + covariaat. ANCOVA is bruikbaar in zowel experimenteel als quasi-experimenteel onderzoek. Deze laatste gaat over bestaande groepen waarbij de onderzoeker bepaald welke groep de behandeling krijgt.

 

Binnen het ANCOVA-model is mu het algehele gemiddelde, αj het groepseffect van groep j, bw het within-groups regressie gewicht, Cij de covariaat-score van individu i in groep j en C- de gemiddelde waarde van de covariaat. De parameters μ, αj en bw moeten worden geschat uit de data met behulp van ‘Least squares estimation’ (SPSS). Het ANOVA gedeelte van het model is +αj en het regressiegedeelte is bw (Cij – C-).

 

Doelstelling van het toevoegen van covariaten aan ANOVA

Er zijn drie doelstellingen om covariaten toe te voegen aan een ANOVA-model. In dit college worden de eerste twee doelstellingen uitgebreid besproken.

 

  1. Reduceren van error-variantie: een goed gekozen covariaat kan een deel van de error-variantie verklaren. Hierdoor kan de power van de F-toets verhogen.

  2. Verwijderen van systematische bias: onderzoeksgroepen kunnen systematisch verschillen op externe variabelen die gerelateerd zijn aan de afhankelijke variabele. De toevoeging van deze variabelen als covariaat kan zorgen voor een verwijdering van bias.

  3. Covariaten kunnen een alternatieve verklaring van het model zijn: externe variabelen kunnen alternatieve verklaringen van een effect geven. Controleer hiervoor bij het toevoegen van deze variabelen als covariaten. De conclusies kunnen dan hetzelfde zijn, maar nu is er gecontroleerd voor alternatieve verklaringen.

 

Reduceren van error-variantie

Een geprefereerd model in experimenteel onderzoek is het pretest/post-test controle design. Hierbij is sprake van een random toewijzing in experimentele of controlegroep en een voormeting (pre-test). Hierna ontvangt de experimentele groep een behandeling en de controlegroep niet. Dan wordt er een nameting (post-test) gedaan. Als de behandeling effectief is verwachten we een significante F-toets. Dit houdt in dat de groepsgemiddelden verschillen in de post-test. De ANOVA F-toets kun je berekenen met de volgende formule:

 

F= MStreatment/MSerror

 

Random toewijzing van mensen aan groepen zorgt voor uitsluiting van systematische verschillen, maar kan niet garanderen dat de groep gelijk is op elke manier. Een groot gedeelte van de variantie van de post-test (Y) ontstaat door individuele verschillen. Deze individuele verschillen worden allemaal toegewezen aan de error (onverklaarde deel van Y). Als de error groot is, is er een hele grote variatie tussen de mensen. Dan wordt de F-toets klein en de p-waarde groot. Hierdoor is er geen significant verschil. Als F dicht bij de 0 ligt is de kans groot dat de nulhypothese klopt.

 

Wanneer je een covariaat zoekt die hoog correleert met Y dan hebben C en Y veel individuele verschillen met elkaar gemeenschappelijk waardoor C en Y een deel van de errorvariantie delen. Een goedgekozen covariaat die toegevoegd wordt aan het ANOVA model verklaart een deel van de errorvariantie, waardoor MSerror kleiner wordt en F groter wordt en meer power heeft. Het is mogelijk dat het model voor het toevoegen van de covariaat nog niet significant was, maar erna wel.

 

Om te kijken wanneer je ANCOVA toepast kun je eerst het ANOVA model bekijken. Als het ANOVA model niet significant is en je denkt dat dit komt door de vele individuele verschillen, dan kun je een geschikte covariaat kiezen en een pretest uitvoeren. De pretest bevat een deel van de individuele verschillen van de post-test. Als iemand bijvoorbeeld in de pretest beneden gemiddelde scoort dan zal hij in de post-test ook relatief laag scoren. ANOVA + pretest = ANCOVA. Wanneer de covariaat genoeg errorvariantie reduceert, is de F-test significant. Vervolgens kun je via SPSS naar de tabel ‘estimated marginal means’ kijken en bepalen welk gemiddelde het grootste is en of er dus sprake is van een positief effect.

 

Verwijderden van systematische bias

Dit wordt gebruikt bij quasi-experimenteel onderzoek, oftewel onderzoek naar al bestaande groepen. Deze groepen kunnen systematisch verschillen op variabelen die gerelateerd zijn aan de afhankelijke variabele. Dit kan verschillende effecten hebben:

  1. Echte effecten worden gemaskeerd. Als er sprake is van één sterke groep en één zwakke groep en de zwakke groep krijgt een training die effectief blijkt te zijn, dan verbeteren de mensen binnen de zwakke groep. De training werkt, maar er is geen significant verschil zichtbaar tussen de zwakke en de sterke groep, omdat de sterke groep al van het begin af aan zat op het niveau waar de zwakke groep na de training zit.

  2. Valse effecten worden ook gemaskeerd. Als een training eigenlijk niet effectief is, maar de training wordt gegeven aan een sterke groep, dan lijkt de trainingsgroep de betere groep te zijn. De verschillen tussen de twee groepen komen dan door de verschillen die al bestonden voorafgaand aan de training (sterk-zwak).

 

Wanneer je een covariaat gaat toevoegen moet je je afvragen of het een bruikbare covariaat is. Dit is het geval als een substantieel verschil is tussen de verschillende groepsgemiddelden op de covariaat. Als gedachte-experiment vraag je je af of er binnen de groep een effect zichtbaar zou zijn wanneer de groepsgemiddelden gelijk waren. Hiervoor kijk je naar de SPSS tabel ‘test of between-subjects effects.’ Hierbinnen kijk je of na toevoeging van de covariaat met behulp van de F-toets of de betreffende onafhankelijke variabele een significant effect heeft. Indien dit geval is, dan heeft de onafhankelijke variabele effect op de afhankelijke variabele.

 

Wanneer er sprake is van twee variabelen kun je in de SPSS tabel ‘estimated marginal means’ kijken en de gemiddelden vergelijken. De gemiddelde die groter is heeft een groter effect op de afhankelijke variabele. ‘Estimated marginal means’ zijn de geobserveerde gemiddeldes, oftewel de kleinste kwadratenschatters (least square estimates) van de groepspopulatiegemiddelden. Binnen een gebalanceerd design zijn deze 'estimated marginal means' de aangepaste groepsgemiddeldes, aangepast voor eventuele verschillen op de covariaat. Binnen een gebalanceerd design zijn het aangepaste groepsgemiddeldes voor eventuele verschillen op de covariaat en voor ongelijke groepsgroottes.

 

Assumpties van ANOVA en ANCOVA modellen

Assumpties zijn nodig voor steekproefverdelingen van F-toetsen. Het gaat hierbij om karakteristieken binnen de populatie, niet binnen de steekproef. Als niet aan de assumpties wordt voldaan heeft dit effect op de sum of squares en de F-statistieken. Hierdoor kunnen verkeerde conclusies over significantie getrokken worden. ANCOVA = ANOVA + Regressie. Alle ANOVA assumpties en sommige regressieassumpties gelden voor ANCOVA.

 

Assumpties van ANOVA

  • Onafhankelijkheid van de residuen

  • Groepsnormaliteit

  • Homogeniteit van de groepsvarianties

 

Onafhankelijke residuen worden meestal niet onderzocht. Groepsnormaliteit en homogeniteit van de groepsvariaties kan onderzocht worden met behulp van de Kolmogoroc-Smirnov test, de Levene’s test en de (robuuste) F-test. Robuustheid houdt in dat schending van een bepaalde assumptie de type I fout (alpha) beïnvloed. Er is robuustheid voor non-normaliteit wanneer N>15. Er is robuustheid voor heterogeniteit van de varianties wanneer Nmax/Nmin

 

Regressie-assumpties

  • Covariaat wordt gemeten zonder meetfouten (error)

  • Lineariteit: lineaire relatie tussen covariaat en afhankelijke variabele

  • Parallellisme van regressielijnen: regressielijnen tussen de covariaat en de afhankelijke variabele hebben hetzelfde within-groups regressiegewicht (bw)

 

Lineariteit kan bekeken worden door naar de scatterplot te kijken van de voorspelde waardes vs. de gestandaardiseerde residuen (zelfde als bij MRA). Parallellisme van de regressielijn kun je bekijken met een scatterplot. Bij een scatterplot van de verschillende groepen is de aanname dat de regressielijnen die je afzonderlijk voor deze groepen door de puntenwolken kunt trekken ongeveer dezelfde hellingshoek hebben. Echter hierbij gaat het om de steekproef en zullen de lijnen dus nooit helemaal parallel zijn. Men moet dus ook testen voor de populatie. Dit kan met behulp van een ANCOVA inclusief de Treatment*Covariate interactie. Als het interactie effect (in Test of between-subjects effects SPSS) significant is, dan is er sprake van parallellisme van regressielijnen.

 

De drie stappen van ANCOVA

  1. ANOVA om te checken of factor X effectief is

  2. Als factor X niet effectief is dan bekijken van ANCOVA + Treatment * Covariate interactie om de parallellisme assumpties te checken.

  3. Als de interacties niet significant zijn: ANCOVA

 

 

Gepoolde within-group correlatie

We onderscheiden twee soorten correlaties.

  1. De totale correlatie (rYC): de correlatie tussen de afhankelijke variabele (Y) en de covariaat.

  2. De gepoolde within-groups correlatie (rYC(W)): de correlatie tussen de afhankelijke variabele (Y) en de covariaat C binnen de groepen.

 

Waarom zijn covariaten bruikbaar?

  1. Als de gepoolde within-groep correlatie rYC(W) verschilt van 0, wordt de error-variantie gereduceerd. Als de rYC(W) > rYC, wordt de statistische power van de F-toets vergroot.

  2. Als de groepsgemiddelden verschillen op de covariaat, is het mogelijk om systematische bias te verwijderen.

 

Om erachter te komen welk groepsgemiddelde hoger is na correctie kun je deze visuele tool gebruiken:

  1. Begin met de scatter plot van de afhankelijke variabele Y en de covariaat C

  2. Plot de groep gemiddeldes

  3. Teken de within-groups regressielijnen

  4. Bereken het gemiddelde van de covariaat

  5. Teken een verticale lijn op het gemiddelde van de covariaat

  6. De snijpunten van de regressielijnen en verticale lijnen zijn de aangepaste groepsgemiddelden

 

College 4 Logistische regressie analyse (LRA)

 

Introductie

Deze week gaan we iets heel anders doen dan in de vorige weken. Toch gaan we ook nu weer een regressie doen. De afhankelijke variabele Y is echter binair in plaats van interval. Een binaire variabele heeft twee categorieën die als 0 en 1 worden gecodeerd. De predictors kunnen van intervalniveau of van binair niveau zijn.

 

Logistische regressie wordt in de praktijk vaak gebruikt omdat veel variabelen een binaire uitkomst hebben, bijvoorbeeld bij het voorspellen van overlevingskans (wel/niet overlijden).

 

Binaire uitkomstmaten kunnen worden uitgedrukt in proporties en percentages.

 

Bekijk slide 5 voor een voorbeeld van een LRA vraagstuk. Op slide 6 staat een overzicht weergegeven van het bijbehorende scatterplot. Je ziet hierop een beetje een vreemde puntenwolk. Er zijn twee categorieën op de y-as (0 en 1). Mensen die weinig gestudeerd hebben zijn bijna allemaal gezakt, een enkeling heeft weinig gestudeerd en is toch geslaagd. Andersom hebben de studenten die veel gestudeerd bijna allemaal hun tentamen behaald, een enkeling is gezakt. We willen het aantal studie-uren gebruiken om de slagingskans te voorspellen. Met lineaire regressie zou dit kunnen. Je trekt een lijn door de puntenwolk. Dit is echter geen goede beschrijving van de data, aangezien de y een waarde van onder de 0 en boven de 1 aanneemt. Een andere reden om geen regressieanalyse te gebruiken ligt in de assumpties. Deze worden later besproken.

 

De relatie tussen het aantal studieuren en het wel of niet slagen kan wel goed worden beschreven met een s-curve. Deze curve kan de onderliggende relaties goed beschrijven. De curve begint bij de nul en stijgt langzaam naar de 1, maar hij raakt de 0 en 1 net niet helemaal. De curve loopt het meest stijl halverwege en is niet-lineair.

 

De logistische regressievergelijking

Bij LRA gaan we werken met machtsverheffingen in de vorm van an = c. Je vermenigvuldigt a n keer met zichzelf om c te krijgen.

 

Een beroemde rekenkundige constante is het getal e (=2.718….). Wanneer je e machtsverheft wordt de waarde van e steeds groter met steeds grotere intervallen. Let op: e0 = 1. De curve loopt eerst heel vlak, maar loopt al gauw een stuk steiler omhoog. Dit wordt een exponentiële functie genoemd. De waarde die en aanneemt, loopt van 0 tot +∞.

 

De logistische functie kan worden beschreven als P = en / 1 + en. De logistische functie heeft een bereik van 0 tot 1. Als n groot en negatief is, is de kans P klein. Als n groot en positief is, is de kans P groot. Indien geldt: n = 0, geldt e0 = 1. De bijbehorende kans wordt dan 1 / 1 + 2 = 0.5.

 

In de logistische functie wordt n vervangen door een lineair regressie gedeelte:

P1 = ea+b1x1+b2x2+…. / 1 + ea+b1x1+b2x2+….

P1 is hier de kans op slagen (slagen = 1). a is de constante onder B (uit de SPSS tabel). b1 en b2 zijn de regressiecoëfficiënten. x1 en x2 zijn de bijbehorende predictoren.

 

Eigenschappen:

  1. Y is binair

  2. Het model geeft = P1 kansen

  3. De doelgroep is slagen

  4. Als we de kans op slagen (P1) weten, weten we ook de kans op zakken P0:

    P0 = 1 – P1

 

Hoe steiler de curve loopt, hoe groter de regressiecoëfficiënt is. Dit is het geval als het slagen en zakken goed uit elkaar te houden zijn. De R2 (proportie verklaarde variantie) is hoog.

 

De evaluatie van het model

Bij statistisch modelleren voeg je steeds een predictor aan je model toe, waardoor je model steeds beter bij de data past. Hiervoor moet je heel veel modellen nagaan, totdat je ene model hebt dat de data goed beschrijft. Je start met een 0-model. In dit model zitten geen voorspellers. Er zitten dus geen x-en in. Wanneer je naar model 1 gaat, wordt x1 toegevoegd. Wanneer je naar model 2 gaat, voeg je x2 toe enzovoorts. Hoe meer data en hoe meer voorspellers je hebt, hoe uitgebreider je model wordt. Er zijn twee bijbehorende fitmaten: R2 (verklaarde variatie ≠ verklaarde variantie) en -2LL (-2 log likelihood). De -2LL is een maat die aangeeft hoe goed of hoe slecht de data door het model wordt beschreven. Hoe hoger de -2LL, hoe minder goed het model bij de data past. Het 0-model past altijd het minst goed bij de data.

 

Ieder model heeft een -2LL. Wanneer je twee geneste modellen* met elkaar vergelijkt, kun je de bijbehorende -2LL van elkaar aftrekken. Hieruit vormt zich de X2 verdeling. Het aantal vrijheidsgraden dat hierbij hoort is het aantal extra predictoren in het complexere model. Met dit verschil kun je toetsen of het complexere model significant beter is dan het eenvoudigere model.

 

* bij geneste modellen past model 1 in model 2, het tweede model is dus een complexere versie van het eerste model.

 

Voorbeeld: slaag je wel/niet voor het tentamen (Y). Dit wordt voorspeld met behulp van het aantal studie-uren (x1) en het aantal gevolgde hoorcolleges (x2).

 

Aan de hand van de Omnibus Tests of Model Coefficients (SPSS) kun je de nulhypothese toetsen. Wanneer de X2 scores significant groter dan 0 zijn, kan H0 worden verworpen; er is dan tenminste één regressiegewicht ongelijk aan 0.

 

In de Model Summary* (SPSS) kun je bij de -2Log likelihood (-2LL) zien hoe sterk de relatie is. De -2LL wordt ingevoerd in de formule van Hosmer en Lemeshow:

RL2 = -2LLmodel 0 – -2LLmodel x / -2LLmodel 0.

 

Je vergelijkt je huidige model, bijvoorbeeld model 1 of model 2, dus altijd met het nulmodel. RL2 geeft de proportionele reductie in -2LL weer. *Voor het nulmodel kijk je bij ‘Iteration history’.

 

Om de significante predictors te bepalen, kun je de B met de standaarderror gebruiken om de Wald statistiek te berekenen. Voor de Wald statistiek geldt:

X2 = (b / SEb)2

 

Met deze statistiek wordt de B-waarde met 0 vergeleken. De nulhypothese is dat bj* gelijk is aan nul (en de alternatieve hypothese is dat dit niet het geval is).

 

Let op: bij logistische regressie staat de constante in SPSS altijd onder aan de tabel. Bij andere technieken staat de constante juist bovenaan weergegeven.

 

De logistische regressievergelijking kun je invullen aan de hand van de SPSS tabel Variables in the Equation. Hiervoor gebruik je de constante B-waarde voor a en de B-waarden behorend bij de verschillende x-variabelen bij b1 b2 enzovoorts.

 

Met de logistische regressievergelijking bereken je de kans op slagen. Wanneer je een voorspelling wilt doen over het al dan niet slagen en als je wilt weten hoe goed het model is, gebruik je de volgende beslisregel: als de kans lager dan .5 ligt, ben je gezakt. Als de kans gelijk is aan of hoger is dan .5, ben je geslaagd. De Classification Table (SPSS) geeft het percentage goed voorspelde gevallen en het gewogen gemiddelde daarvan: hoeveel procent is er in totaal correct voorspeld? Dit is een alternatief voor de RL2.

 

Positive predicted value (PPV): geslaagdgoed voorspeld / geslaagdalle voorspellingen

Negative predicted value (NPV): gezaktgoed voorspeld / gezaktalle voorspellingen

 

Odds en odds ratio (OR)

Bij de logistische regressiecoëfficiënt krijg je ook te maken met de odds. Dit is de kansratio: de kans dat een bepaalde gebeurtenis plaatsvindt gedeeld door de kans dat deze gebeurtenis niet plaatsvindt:

Oddsslagen = p / 1-p.

 

Elke voorspeller heeft een odds ratio (OR). Dit is de factor waarmee de odds groter worden bij een toename van 1 op de voorspeller:

OR = Oddsx=5 / Oddsx=4.

De OR kan ook met behulp van de b-coëfficiënt worden berekend:

OR = eb1

In SPSS zie je de OR terug onder de kolom Exp(B). Ook geldt er:

OR(k) = OR(1)k

k is hierbij het aantal units dat de odds toenemen, bijvoorbeeld wanneer je van de odds bij x=4 naar de odds bij x=7 wilt gaan, vul je voor k 7-4=3 in.

 

Bij de OR is ook een 95% betrouwbaarheidsinterval van belang. Dit doe je met behulp van de regressiecoëfficiënt. Je gebruikt een z-waarde van 1.96 (standaard getal). Je gebruikt ook de b1 en de SEb1:

b1 ± z*SEb1 = 95% betrouwbaarheidsinterval (CI)

De twee waardes die je hieruit krijgt vul je in in de OR formule op de plek van b1 (OR = eb1). Tussen de getallen die hieruit komen, ligt de OR met 95% zekerheid.

 

Assumpties bij LRA

  1. Lineair verband tussen de log odds van y en x-en (klopt (bijna) altijd*

  2. De predictoren moeten gemeten zijn zonder meetfout (hoef je niet te checken)

  3. Onafhankelijke residuen (hoef je niet te checken)

  4. Afwezigheid van multicollineariteit

 

Bij binaire afhankelijke variabelen is MRA niet mogelijk vanwege de assumpties normaliteit van de residuen en homoscedasticiteit. Beide assumpties zijn niet nodig bij LRA.

 

In vergelijking met MRA heb je bij LRA ten minste 30 individuen nodig per predictor (MRA: 20 individuen per predictor).

Access: 
Public
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Image

Comments, Compliments & Kudos:

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
Check how to use summaries on WorldSupporter.org


Online access to all summaries, study notes en practice exams

Using and finding summaries, study notes en practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Starting Pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
  2. Use the menu above every page to go to one of the main starting pages
  3. Tags & Taxonomy: gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
  4. Follow authors or (study) organizations: by following individual users, authors and your study organizations you are likely to discover more relevant study materials.
  5. Search tool : 'quick & dirty'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject. The search tool is also available at the bottom of most pages

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study (main tags and taxonomy terms)

Field of study

Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
796