11.1 Hoe ziet een model voor multipele regressie eruit?
Een bivariaat model heeft als basis E(y) = α + βx ; een model met slechts een predictor (x) en twee variabelen (x en y). Een multipele regressiemodel is een model dat meerdere verklarende variabelen en eventueel ook controlevariabelen aankan. Een multipele regressieformule heeft de vorm: E(y) = α + β1x1 + β2x2.
De verschillende verklarende variabelen krijgen nummers: x1, x2, etc. Als er een verklarende variabele bij komt, dan wordt β2x2 aan de formule toegevoegd. De parameters in deze formule zijn α en β1 en β2.
Als y de verticale as is en x1 de horizontale as, dan is x2 een horizontale as die loodrecht op de eerste x-as staat. Daarmee wordt het een driedimensionaal assenstelsel. De multipele regressieformule duidt een plat oppervlak aan.
Een voorbeeld is het verband tussen vandalisme (y) en veganisme (x1), hierbij hoort een bivariate formule: E(y) = -51,3 + 1,5 x1 . Dit is een positieve relatie: wanneer het veganismepercentage omhoog gaat, gaat ook het vandalismepercentage omhoog. Nu wordt urbanisatie (x2) toegevoegd aan de formule, omdat bekend is dat dit sterk gerelateerd is aan vandalisme. Er ontstaat een multipele formule: E(y) = 58,9 – 0,6 x1 + 0,7 x2 . Als de formule gecontroleerd wordt voor urbanisatie, dan blijft de waarde van urbanisatie constant, bijvoorbeeld het gemiddelde (50). De formule wordt dan E(y) = 58,9 – 0,6 x1 + 0,7(50) = 58,9 – 0,6 x1 + 35. Deze formule heet een partiële regressieformule, omdat deze formule maar naar een deel van de mogelijke observaties kijkt (namelijk alleen naar die gevallen die een urbanisatieniveau van 50 hebben). Het effect van veganisme is -0,6, wanneer gecontroleerd voor urbanisatie. Nu is het verband tussen veganisme en vandalisme negatief. Er is sprake van Simpson’s paradox: als het effect van een controlevariabele teniet wordt gedaan, verandert de richting van het verband. In dit geval heeft de bivariate formule een andere richting dan de multipele formule.
In multipele regressie geeft een coëfficiënt het effect aan van een verklarende variabele op een responsvariabele, terwijl gecontroleerd wordt voor andere variabelen in het model. Bij bivariate regressie geeft een coëfficiënt het effect aan van een verklarende variabele op een responsvariabele, terwijl alle andere mogelijke verklarende variabelen genegeerd worden. Bij multipele regressie worden de andere variabelen dus tijdelijk even weggepoetst, terwijl ze bij bivariate regressie compleet genegeerd worden. Dit is het
.....read more
Add new contribution