Samenvatting Using Econometrics (Studenmund) - 6e druk, 2010

Deze samenvatting bij Using Econometrics (Studenmund) is gebaseerd op het studiejaar 2013-2014.


joho_econometrie_h1.pdf
joho_econometrie_h2.pdf
joho_econometrie_h3.pdf
joho_econometrie_h4.pdf
joho_econometrie_h5.pdf
joho_econometrie_h6.pdf
joho_econometrie_h7.pdf
joho_econometrie_h8.pdf
joho_econometrie_h9.pdf
joho_econometrie_h10.pdf
joho_econometrie_h12.pdf
joho_econometrie_h13.pdf
joho_econometrie_h17.pdf

1. ‘Regressie analyses, een overzicht’

Econometrie betekent letterlijk economisch maatsysteem. In minder formele zin betekent econometrie het kwantitatieve meetsysteem en analyses van een actuele economische en bedrijfsgerelateerde fenomenen.

Econometrie heeft drie belangrijke toepassingen:

  • Het beschrijven van de economische realiteit: econometrie schat de relatie tussen variabelen, die je in kan vullen in een economische vergelijking. Deze relatie heet ook wel geschatte regressie coëfficiënt.

  • Hypotheses testen: theoretische modellen moeten getest worden voordat ze als waar/significant beschouwd mogen worden. Alleen als er genoeg bewijs gevonden is dat de coëfficiënt van een variabele bijna correct is, mag deze meegenomen worden in het model.

  • Prognose: de nauwkeurigheid van een prognose hangt af van de mate waar in het verleden cijfers in het heden goed heeft voorspelt.

Regressie analyses: kwantitatieve schattingen van economische relaties maken, die een volledig theoretisch karakter hebben. Om de richting van de verandering van een product te voorspellen, heb je de kennis van de economische theorie nodig. Om de hoeveelheid van de verandering van een product te voorspellen, heb je een dataset nodig en een manier (=regressie analyse) om de relatie te schatten.

In een regressie analyse wordt de verandering in de afhankelijke variabele weergegeven als een functie van de veranderingen in een set van onafhankelijke variabelen. De afhankelijke variabele is niet alleen afhankelijk van de onafhankelijke variabelen, er zijn ook weggelaten variabelen die niet in de dataset staan. De nauwkeurigheid van de regressie analyse is dus niet volledig, ook al blijkt dit wel uit de testen.

Enkele-vergelijking lineaire modellen: de meest simpele vorm van een lineair regressiemodel is:

Dit regressiemodel laat zien dat de variabele Y afhankelijk is van X. De βs zijn de coëfficiënten die de richting van de rechte lijn bepalen in elke punt. Β0 is de constante en β1 de hellingscoëfficiënt, wat ook weergegeven kan worden met . Als de regressie niet lineair is, kun je de niet-lineaire variabele vervangen door een ander teken om het lineair te maken, bijvoorbeeld:

Hierboven is gezegd dat de afhankelijke variabele niet alleen bepaald wordt, maar ook door weggelaten variabelen. Als je deze weggelaten variabelen toevoegt aan het regressiemodel, blijft er een alsnog een inherente onverklaarbare error over, een stochastische error term (ε = epsilon).De regressie vergelijking (1.1) ziet er als volgt uit:

zijn de deterministische componenten van de regressie vergelijking en ε is de stochastische. De deterministische componenten zijn de verwachte waarde van Y bij X gegeven. De stochastische error term moet je altijd vernoemen in de regressie vergelijking, omdat er altijd weggelaten variabelen aanwezig zullen zijn, fouten in de meting anders niet meegenomen worden, de vergelijking kan een andere functionele vorm hebben en niet alles is te voorspellen. De nieuwe vergelijking met de verwachte waarde ziet er zo uit:

Een dataset bijna altijd meerdere observaties van meerdere personen of jaren. Door het subscript i aan de variabelen toe te voegen, laat je zien om welke observatie het gaat. N geeft aan hoeveel observaties er zijn gedaan. Vergelijking 1.6 verandert als volgt:

Vergelijking 1.7 is een bivariaat lineair regressie model, Y is afhankelijk van één variabele namelijk X. Wanneer Y afhankelijk is van meerdere variabelen, is er sprake van een multivariaat lineair regressie model:

De regressie coëfficiënt van één van de variabelen in het multivariate model is het effect van een verhoging van de desbetreffende variabele met één unit op Y, terwijl de overige variabelen gelijk blijven. Het subscript K geeft het aantal onafhankelijke variabelen weer in het multivariate model.

 

Geschatte regressie vergelijking: de gekwantificeerde versie van een specifieke vergelijking. De geschatte regressie vergelijking wordt verkregen uit een dataset en ziet er als volgt uit:

(Y-hat) is de geschatte waarde van Y en en zijn de geschatte regressie coëfficiënten. Het is echter moeilijk om gelijk te krijgen aan Y. Het verschil tussen en Y heet het residual (ei) en kan je schrijven als:

De residual is dus het verschil tussen de geobserveerde Y en de geschatte regressie lijn (), terwijl de error term het verschil tussen de geobserveerde Y en de verwachte waarde van Y (E(Yi|Xi)) is. De error term is puur theoretisch en kan niet bestudeerd worden.

 

Cross-sectional: de observaties in een dataset zijn van hetzelfde punt in de tijd en representeren verschillende economische gehelen (bv. huizen) van dat punt in de tijd.

Time series: de observaties in een dataset zijn een serie van jaren of maanden.

2. ‘Ordinary Least Squares’

Een regressie analyse is bedoeld om de waarden voor de coëfficiënten van de onafhankelijke variabelen in een regressie vergelijking te vinden. Om deze geschatte coëfficiënten te vinden, kun je gebruik maken van de Ordinary Least Squares (OLS) methode. OLS is een regressie schatting techniek dat de berekent zodat de sum of the squared residuals minimaal wordt:

OLS heeft de voorkeur boven andere regressie schatting technieken, omdat:

  • OLS is relatief makkelijk te gebruiken: andere technieken hebben vaak non-lineaire formules.

  • Minimalisatie van is zeer geschikt vanuit theoretisch oogpunt: negatieve en positieve residuals heffen elkaar niet op; berekeningen met absolute waardes is niet nodig.

  • OLS schattingen hebben nuttige eigenschappen:

    1. Som van residuals is precies 0

    2. OLS is de best mogelijke schatter (estimator) wanneer een model aan een set van specifieke assumpties moet voldoen:

Schatter (estimator): wiskundige techniek dat je toepast op een data sample om realistische numerieke schattingen (estimates) van de ware populatie regressie coëfficiënten te krijgen.

 

OLS kiest bij een enkele-onafhankelijke-variabele regressie model de schattingen van en zo dat de squared residuals van de gehele sample minimaal zijn. Vergelijking 2.2 laat zien hoe geschat wordt en vergelijking 2.3 hoe geschat wordt. Hierbij is het gemiddelde van X en het gemiddelde van Y.

 

De OLS techniek kun je ook toepassen op multivariate regressie modellen. Het verschil tussen een multivariaat en een bivariaat regressie model zijn de partiële regressie coëfficiënten in het multivariate regressie model, deze coëfficiënten onderscheiden de impact van één onafhankelijke variabele van dat van een andere afhankelijke variabele.

De geschatte multivariate coëfficiënten kun je vinden door de volgende formules:

 

Hierbij geldt dat ; ;

 

De mate waarin de variatie van de afhankelijke variabele wordt verklaard door de geschatte regressie vergelijking, kun je op verschillende manieren meten.

 

Total sum of squares (TSS): de gekwadrateerde variaties van Y rondom zijn gemiddelde

 

 

Bij OLS bestaat de TSS uit twee componenten, namelijk de explained sum of squares en de residual sum of squares:

 

ESS meet de hoeveelheid van de gekwadrateerde deviatie van Yi vanuit zijn gemiddelde dat verklaard wordt door de regressielijn. RSS is het onverklaarbare deel van TSS.

 

De kwaliteit van een regressie schatting is nooit volledig, je kunt niet zo maar aannemen dat de geschatte coëfficiënten correct zijn. Het is daarom van belang om altijd over de uitkomsten van de regressie analyse na te denken.

 

Tevens kijk je bij het geschatte model of hij nuttig om de kwaliteit van de regressie te bepalen, maar ook om modellen met elkaar te kunnen vergelijken die verschillende data sets of combinaties van onafhankelijke variabelen hebben. Om te controleren of de regressie overeenkomt met de werkelijkheid, kijk je naar de determinant coëfficiënt (R2). R2 is de ratio van ESS ten opzichte van TSS.

 

Hoe hoger R2 is, hoe dichter de geschatte regressie vergelijking past bij de sample data. OLS zal door een zo klein mogelijk RSS, de zo groot mogelijke R2 geven. R2 zal altijd positief zijn, vanwege de kwadraten, en het interval ligt tussen 0 ≤ R2 ≤ 1, waarbij 1 de regressie perfect past bij de sample. In time series data sets kan R2 = 1 wel voorkomen, maar in cross-sectional data sets is R2 = 0.5 al genoeg om te kunnen concluderen dat de regressie goed gelukt is.

 

Een andere manier om te controleren hoe nuttig de regressie is geweest, is de simpele correlatie coëfficiënt (r). De r is een meting van de sterkte en richting van de lineaire relatie tussen twee variabelen. De r ligt tussen de -1 en de +1, waarbij -1 een perfecte negatieve correlatie tussen twee variabelen is, +1 een perfecte positieve correlatie en bij 0 zijn de twee variabelen niet gecorreleerd.

 

Een probleem met R2 is dat, wanneer je een andere onafhankelijke variabele toevoegt aan de vergelijking, R2 stijgt, omdat RSS afneemt. De OLS regressie zal de coëfficiënten opnieuw schatten, wat de degrees of freedom doet afnemen. De degrees of freedom zijn het verschil van de aantallen van observaties (N) ten opzichte van het aantal geschatte coëfficiënten (K+1). Om rekening te houden met het verschil in de degrees of freedom is de adjusted () bedacht.

 

3. ‘Regressie analyses leren gebruiken’

 

Een regressie analyse wordt in 6 stappen uitgevoerd. De nadruk en de inspanning die nodig is, verschilt per stap, maar elke stap is wel nodig om een succesvol onderzoek te doen. De stappen zijn:

  • Lees de literatuur en ontwikkel het theoretisch model;

  • Specificeer het model: selecteer de onafhankelijke variabelen en de functionele vorm;

  • Veronderstel de verwachte tekens (negatief/positief) van de coëfficiënten;

  • Verzamel de data en inspecteer en ‘zuiver’ de data;

  • Schat en evalueer de vergelijking;

  • Documenteer de resultaten.

 

De eerste stap geeft je een goed theoretisch beeld van het onderwerp dat je wilt bestuderen. De theorie is van uitermate belang bij econometrische beslissingen, omdat je zo de variabelen beter kan kiezen en begrijpen in het model. Vaak zijn er al onderzoeken naar het onderwerp gedaan. Deze papers kun je gebruiken voor je eigen model. Als er echter weinig informatie over je onderwerp te vinden is, kun je of informatie over een gerelateerd onderwerp zoeken of een interview regelen met iemand die verstand heeft van het onderwerp.

 

De tweede stap is de belangrijkste stap in het uitvoeren van een regressie analyse. Bij het specificeren van het model zoek je de afhankelijke variabele en vervolgens de 3 componenten, die hieronder worden genoemd. Als er een fout wordt gemaakt in één van de drie componenten, dan is er sprake van een specificatie error. De geschatte vergelijking is dan ongeldig. De drie componenten zijn:

  1. De onafhankelijke variabelen en hoe deze gemeten moeten worden;

  2. De wiskundige vorm van de variabelen;

  3. De eigenschappen van de stochastische error term.

 

Bij het kiezen van de onafhankelijke variabelen heb je een goede theorie nodig, anders heeft de uitslag geen waarde. Alleen de onafhankelijke relevante variabelen neem je op in het model, dus als ze een relatief groot effect hebben op de afhankelijke variabelen. Tevens neem je de onafhankelijke variabelen ook mee in je model als ze van bijzonder belang zijn voor de afhankelijke variabele.

 

Priors kun je ook meenemen in het model. Een prior is een eerdere theoretische overtuiging. Een prior bepaalt de hoeveel hypotheses en het soort hypothese dat de regressie vergelijking moet testen. Een prior kan echter ook verkeerd zijn en daardoor de bruikbaarheid van de vergelijking doen laten afnemen.

 

Dummy variabele kun je niet zo maar meenemen in een vergelijking, omdat ze van nature kwalitatief zijn en niet gekwantificeerd kunnen worden. Een dummy variabele heeft een waarde van 0 (telt niet mee in de vergelijking) of 1 (telt wel mee in de vergelijking).

 

In stap 3 bepaal je de tekens van de regressie coëfficiënten. Om een regressie model op te stellen moet je eerst de vergelijking als een functie uitschrijven en vervolgens de tekens boven de variabelen noteren.

 

Bij stap 4 moet je data verzamelen. De sample grootte is van groot belang om een goed resultaat te krijgen. De algemene regel voor de sample grootte is ‘hoe meer hoe beter’. Hoe groter de sample grootte is, hoe meer degrees of freedom de regressie analyse heeft. De degrees of freedom hebben een positief effect op de bruikbaarheid van het regressie model, omdat hoe meer degrees of freedom er zijn, hoe meer de daarbij horende errors elkaar wegstrepen. Naast de sample grootte moet je ook letten op de gemeten units van de variabelen. De units hebben geen effect op het regressie model, maar wel op de interpretatie van de regressie coëfficiënten.

 

Als laatste voordat je de te inspecteren vergelijking gaat schatten, is het handig om de vergelijking te plotten. Outliers zijn dan meteen te zien. Een outlier is een observatie dat buiten het bereik ligt van de rest van de observaties. Outliers laten vaak data entry errors zien. Deze errors kun je vervangen door de goede waarde, maar is vaak niet nodig, omdat je de gehele sample wilt verklaren en niet één waarde.

 

De een na laatste stap, stap 5, geeft je de geschatte regressie vergelijking. De geschatte regressie vergelijking controleer je daarna of deze aan je verwachtingen heeft voldaan. Als dit niet het geval is, zul je terug moeten naar stap 1 om te kijken welke variabele je mist en is een nieuwe geschatte regressie vergelijking nodig. Als het wel aan de verwachting voldoet, neem je de vergelijking mee naar stap 6.

 

In de laatste stap, stap 6, noteer je de gevonden waarden en de geschatte regressie vergelijking, bijvoorbeeld:

 

Het getal tussen haakjes (in dit geval 0.62) is de geschatte standaard error van de geschatte coëfficiënt, de t-waarde wordt gebruikt om de significantie van de geschatte coëfficiënt te testen.

4. ‘Het klassieke model’

 

Het klassieke model verwijst naar een set of passende basis assumpties die vereist zijn om de OLS de ‘beste’ schatter, die mogelijk is, te laten houden voor de regressiemodellen. Als er niet aan één van de assumpties voldaan kan worden, is een andere schattingstechniek beter.

 

De klassieke assumpties, de basis assumpties van het klassieke model, luiden als volgt:

  • Het regressie model is lineair, is correct gespecificeerd en heeft een toegevoegde error term;

  • De error terms populatie gemiddelde is gelijk aan 0;

  • Alle verklarende variabelen zijn niet gecorreleerd aan de error term;

  • De observaties van de error term zijn niet gecorreleerd aan elkaar (geen serial correlation);

  • De error term heeft een constante variantie (geen heteroskedasticiteit);

  • Geen verklarende variabele is een perfecte lineaire functie van een andere verklarende variabele (geen perfecte multicollineariteit);

  • De error term heeft een normale distributie.

 

De error term in assumptie 1 tot en met 5, heet de klassieke error term, en als assumptie 7 is toegevoegd, heet de error term de klassieke normale error term. Hieronder volgt een korte beschrijving van de klassieke assumpties.

 

Assumptie 1 wil zeggen dat het regressie model lineair moet zijn en een error term moet hebben. Niet-lineaire variabelen mogen vervangen worden door lineaire variabelen, om alsnog aan de assumptie te voldoen. Assumptie 1 moet ook nog aan twee andere eisen voldoen, wil het model aan de assumptie voldoen. Deze twee eisen zijn:

  • De vergelijking is correct gespecificeerd: er zijn geen weggelaten variabelen of de functie is niet correct

  • De stochastic error term is toegevoegd aan de vergelijking en kan niet worden vermenigvuldigd of gedeeld worden door andere variabelen in de vergelijking.

 

Assumptie 2 houdt in dat de error term een gemiddelde van 0 heeft. De error term, zoals eerder vermeldt, is een toegevoegde term aan een regressie vergelijking die de variatie in de afhankelijke variabele aangeeft, die niet verklaard kunnen worden door de onafhankelijke variabelen in regressie vergelijking. De error term kan niet geobserveerd worden, maar in dit geval doen we alsof we dat wel kunnen. Als de error term niet gelijk is aan 0, bv. 2, trekken we dit af van de error term, zodat de verwachte waarde 0 is en tellen we dit op bij de constante term, β0. Dus:

 

Assumptie 3 wordt geschonden als de verklarende variabelen afhankelijk zijn van de waardes van de error term. Als de variabele en de error term gecorreleerd zijn, dan zijn de OLS schattingen in de variatie van de afhankelijke variabele toe schrijven aan de onafhankelijke variabele, terwijl deze eigenlijk van de error term afkomstig zijn. Dit komt voor als er variabele niet wordt meegenomen in de vergelijking, terwijl dit wel het gemoeten.

 

Assumptie 4 is de assumptie dat de observaties in de error term niet gecorreleerd mogen zijn. Als dit wel het geval is, is het voor OLS moeilijker om nauwkeurige schattingen van de standaard errors van de coëfficiënten te maken.

Assumptie 4 komt vooral voor in time-series models. Als εt+1 gecorreleerd is met εt, is de error term serially correlated en is assumptie 4 geschonden.

 

Assumptie 5 gaat over de variantie. De variantie van de distributie moet constant zijn, dus het bereik van de observaties moet gelijk zijn. De daadwerkelijke waardes van de error term zijn niet direct te observeren, maar het ontbreken van een constante variantie van de distributie van de error term veroorzaakt bij OLS verkeerde schattingen van de standaard error van de coëfficiënten. De uiteenlopende variantie heet heteroskedasticiteit (figuur 1).

 

Figuur 1: heteroskedasticiteit (Studenmund, 2011)

 

Assumptie 6 is de afwezigheid van perfecte collineariteit tussen de verklarende variabelen. Perfecte collinearititeit houdt in dat twee onafhankelijke variabelen eigen dezelfde variabele zijn, of dat één een vermenigvuldiging van de ander, of dat er een constante bij de één is toegevoegd. Wanneer er meer dan twee variabelen collineariteit hebben, is er sprake van multicollineariteit. Door één van de variabelen te laten vervallen uit de vergelijking, wordt assumptie 6 niet meer geschonden.

Perfecte multicollineariteit kan ook ontstaan wanneer twee variabelen de som van een derde variabele zijn of als een variabele niet verandert in de sample.

 

De laatste assumptie, assumptie 7, hangt samen met assumptie 2, 4 en 5. Assumptie 7 is niet nodig voor OLS schattingen, maar wel voor het testen van de hypotheses. Er zijn twee redenen om de assumptie van een normale distributie van de error term toe te voegen:

  1. εi is de som van het aantal kleine invloeden of errors. Hoe groter het aantal van de kleine invloeden, hoe meer de distributie van de error term een normale distributie bereikt (= Central Limit Theory).

  2. De t- en de F-statistiek zijn niet volledig toepasbaar als de error term geen normale distributie heeft.

 

Sampling distribution of is de kansverdeling of de waardes van verschillende samples.

Onthoudt dat een schatter een formule is en een schatting de waarde van berekend door de formule van een sample. De s hebben een normale distributie, maar zijn niet voor elke sample van hetzelfde onderwerp gelijk. Voor een goede schattingstechniek, is het val belang dat de sampling distribution van de s gelijk is aan de ware β van de populatie, unbiasedness. Door een gemiddelde te nemen van de s, kom je bij genoeg samples uit op de ware β.

 

Een gewenste eigenschap van een distributie van s is dat het gemiddelde gelijk is aan het ware gemiddelde. De schatter die gelijk is aan de echte waarde heet een unbiased estimator.

 

Als de s zich niet rondom β bevinden, is er sprake van een biased estimator.

 

Ook de variantie heeft invloed op de unbiasedness van β. Een distributie die wel bij het gemiddelde ligt, maar met een grote variantie, kan niet gebruikt worden. De variantie van de sampling distribution van s kun je verkleinen door een grotere sample grootte te nemen. Een methode om een kleinere variantie in de sampling distribution van s waardevol genoeg te maken om de bias te compenseren, is het vergelijken van verschillende schattingstechnieken met behulp van Mean Square Error (MSE). Mean square error is gelijk aan de variantie plus het kwadraat van de bias. Hoe lager de MSE is, hoe beter.

Als laatste geldt dat als de variantie van de error term stijgt, stijgt ook de variantie van de sampling distribution van s.

 

Gauss-Markov Theorie: gegeven de klassieke assumpties 1 tot en met 5, de OLS formule of βk is de minimale variantie schatter uit de set van alle lineaire unbiased schatters van βk, voor k = 0, 1, 2, ..., K. Je kunt het onthouden door BLUE (Beste (=minimale variantie) Lineaire Unbiased Estimator).

Als elke vergelijkingscoëfficiënt unbiased is, dan geldt:

 

Een unbiased estimator met de kleinste variantie is efficiënt en de estimator heeft de property of efficiency.

 

Naam

Populatie parameters, symbolen

Naam

Schatting, symbolen

Regressie coëfficiënt

βk

Geschatte regressie coëfficiënt

 

Verwachte waarde van de geschatte coëfficiënt

E()

 

 

Variante van de error term

σ2 of VAR(εi)

Geschatte variantie van de error term

s2 of 2

Standaard deviatie van de error term

σ

Geschatte standaard error van de vergelijking

s of SE

Variantie van de geschatte coëfficiënt

σ2() of VAR()

Geschatte variantie van de geschatte coëfficiënt

s2() of

Standaard deviatie van de geschatte coëfficiënt

σ() of

Standaard error van de geschatte coëfficiënt

() of ()

Error van storingsterm

εi

Residual

ei

Tabel 4.1 Notatie gebruik (Studenmund, 2011)

5. ‘Testen van hypotheses’

 

Je kunt niet bewijzen dat een hypothese correct is, maar wel dat de sample grotendeels overeenkomt met de hypothese. Om te testen of een hypothese overeenkomt met de sample zul je dus de hypothese moeten verwerpen. Dit doe je aan de hand van de significance level.

 

Stap 1 in het proces van hypothese testen is het opstellen van de null hypothese, H0. De null hypothese stel je op voordat je een regressie gaat draaien van je vergelijking. De null hypothese bestaat vaak uit wat je niet verwacht. Naast de null hypothese, stel je ook de alternatieve hypothese, HA of H1, op. De alternatieve hypothese bestaat dus uit wat je wel verwacht. Met de twee hypotheses kun je vervolgens een one-sided test of een two-sided test/two-tailed test doen:

 

 

Na het testen van de hypothese, noteer je je bevindingen. Let hierbij op dat je zegt dat je H0 niet kan verwerpen, en zeg niet dat je de H0 accepteert.

 

Bij het testen van hypotheses kun je twee fouten maken, namelijk:

  • Type I Error: Het verwerpen van de goede null hypothese;

  • Type II Error: Het niet verwerpen van de verkeerde null hypothese.

Het is onmogelijk om beide errors te voorkomen. Wanneer je Type I Error verkleint, vergroot je Type II Error en andersom.

 

De decision rule is een methode om te besluiten om de null hypothese te verwerpen. In de decision rule is vergelijk je een sample statistiek met een kritieke waarde, die gegeven zijn in tabellen. De kritieke waarde is de waarde dat de accepteer regio scheidt van de verwerpingregio bij het testen van de null hypothese.

 

Een manier om de hypothese te testen is de t-test. De t-test wordt voornamelijk gebruikt om een individuele regressie coëfficiënt te testen. Tevens is de t-statistiek een gepaste test om te gebruiken wanneer de stochastische error term een normale distributie heeft en wanneer de variantie van deze distributie geschat moet worden. De t-statistiek voor de k-ste coëfficiënt bereken je als volgt:

 

 

Waarbij de geschatte regressie coëfficiënt is van de k-ste variabele

βH0 de grens waarde (vaak 0) voorstelt bij H0 voor βk (vergelijking 5.3)

grens waarde: H0:β = S  βH0 = S

SE() de geschatte standaard error van

 

Om te bepalen of je H0 verwerpt of niet, maak je gebruik van de kritieke t-waarde, tc. De tc is te vinden in de t-tabel en is afhankelijk van one- of two-sided test, de mate van de Type I Error of wel de level of significance, en de degrees of freedom (N-K-1). De algemene regel voor het verwerpen van H0 luidt:

‘Verwerp H0 als |tk| > tc en als tk het teken heeft dat wordt gesuggereerd in HA. Zo niet, verwerp H0 niet.’

 

Om een hypothese te testen, is een significance level nodig. Een significance level toont de waarschijnlijkheid van een geschatte t-waarde aan die groter is dan de kritieke t-waarde als de null hypothese “correct” is. Hoe kleiner de significance level is, hoe beter het resultaat van de test zal zijn volgens Type I Error. Maar door het verkleinen van Type I Error, vergroot je de Type II Error. Het is daarom beter om een 5% significance level te gebruiken als standaard.

 

Een andere manier om een hypothese te testen is met de level of confidence. De level of confidence is 100 minus de level of significance.

Een confidence interval (CI) is een bereik dat bestaat uit de echte waarde van een gedeelte op een specifiek percentage van de tijd (dus 80% CI bevat 80 van 100 echte waarden van de sample). De CI gebruik je voornamelijk om te voorspellen en vind je door de two-sided tc en de standaard error van de geschatte coëfficiënt te nemen:

 

Naast de confidence interval methode, kun je ook gebruik maken van de p-waarde om een

hypothese te testen. De p-waarde is een marginal significance level en is voor een t-score de mogelijkheid om een t-score van dezelfde grootte of groter (in absolute waarde) te observeren als de null hypothese waar zou zijn. De p-waarde is een mogelijkheid en ligt tussen 0 en de 1. Het laat de kleinst mogelijke level of significance zien om de null hypothese te verwerpen. Een p-waarde is standaard gemaakt voor een two-sided test. Door hem door 2 te delen, kun je de p-waarde ook gebruiken voor een one-sided test. De algemene regel die geldt bij het verwerpen van de null hyptohese en de p-waarde is:

‘Verwerp H0 als pk < level of significance en als het teken heeft dat gesuggereerd wordt in HA’.

P-waardes hebben als voordeel dat ze makkelijk te gebruiken zijn, je kunt je eigen level of significance kiezen en het geeft informatie over de mate waarin de null hypothese verworpen kan worden.

 

De meest gebruikelijke manier voor een one-sided t-test is om te bepalen wanneer een regressie coëfficiënt significant verschilt van 0 in de richting voorspeld door de theorie. Om met de t-test aan het werk te gaan, zijn er 5 stappen nodig:

  1. Opstellen van de H0 en HA;

  2. Level of significance kiezen en de daarbij horende tc;

  3. Een regressie draaien en het verkrijgen van de tk;

  4. Het toepassen van de decision rule en de H0 wel of niet verwerpen;

  5. Noteer in woorden je bevinding.

 

Een two-sided t test wordt in de volgende situaties gedaan:

  • Wanneer een geschatte coëfficiënt significant verschilt van 0, en

  • Wanneer een geschatte coëfficiënt significant verschilt van een specifieke niet-0 waarde;

Ook bij de two-sided t test voer je de 5 stappen uit die bij de one-sided t test zijn genoemd.

 

De t-test kan makkelijk misbruikt worden. Zo zal de t-test de theoretische kwaliteit niet testen, de t –test test niet welke onafhankelijke variabele relatief het grootste effect heeft op de afhankelijke variabele, en de t-test is niet representatief voor het testen van de hele populatie.

 

De laatste methode die je moet kennen om hypotheses te testen is de F-test. De F-test kan, in tegenstelling tot de t-test, meerdere hypotheses tegelijk testen. De F-test is een formele hypothese test die ontworpen is om een null hypothese met meerdere hypotheses of een enkele hypothese met een groep coëfficiënten te testen. De stappen die bij de F-test horen, zijn:

 

  1. Stap 1: Definieer de hypotheses, H0 en HA;

  2. Stap 2: Kies een significance level α;

  3. Stap 3: Draai een regressie van de restricted en unrestricted model, waar het restricted model verkregen is bij een goede H0;

  4. Stap 4: Vergelijk de RSS met de twee modellen door de F-statistiek te berekenen:

  5. Stap 5: Vind de kritieke waarde voor de F-statistiek, Fc = FM,N-K-1,α;

  6. Stap 6: Vergelijk de geobserveerde statistiek met Fc en verwerp H0 als F > Fc.

 

In stap 4 is RSSM De residual sum of squares van de restricted model

RSS De residual sum of squares van de unrestricted model

M Aantal geplaatste constraints (coëfficiënten in H0) in de vergelijking

(n-k-1) Degrees of freedom in de unconstrained vergelijking

 

De F-test kun je ook gebruiken voor de totale significantie:

 

Waarbij ESS Explained sum of squares

RSS Residual sum of squares

K Aantal onafhankelijke variabelen

N Aantal observaties in de sample

 

De F-test kan ook uitgevoerd worden met een Cobb-Douglas productie functie:

6. ‘Specificatie: Onafhankelijke variabelen kiezen’

 

Specialisatie van een econometrische vergelijking gebeurt in drie delen:

  • Kiezen van correcte onafhankelijke variabelen

  • Correcte functie vorm

  • Correcte vorm van de stochastische error term

 

Een specificatie error ontstaat wanneer een van deze drie delen incorrect is gedaan. In dit hoofdstuk gaat het alleen over het kiezen van de onafhankelijke variabelen, de andere twee punten worden later besproken.

 

Een omitted variable is een belangrijke verklarende variabele die niet de regressie vergelijking zit. Een omitted variable veroorzaakt biasedness in de coëfficiënten van de variabelen in de vergelijking. Deze bias heet ook wel een omitted variable bias of specificatie bias. De omitted variable zal zich, door het weglaten, bevinden in de error term. Hierdoor verandert de error term van ε in ε* en zijn ε* en de omitted variable gecorreleerd. Assumptie 3 wordt hierdoor geschonden.

 

De algemene formule voor een model met twee onafhankelijke variabelen, is het nodig om eerst de verwachte waarde van de coëfficiënt van de meegenomen variabele (X1) te vinden, hierbij is er ook een weggelaten variabele (X2):

 

Hierbij is α1 de functie van de correlatie tussen X1 en X2 of f(r12) en ui is de klassieke error term.

 

De bias van de omitted variable is te meten aan de hand van de vergelijking:

Er hoeft niet altijd sprake te zijn van een bias, omdat de echte coëfficiënt van de omitted variable gelijk is aan 0 of omdat de meegenomen en omitted variabelen niet gecorreleerd zijn.

 

Specificatie bias kan je moeilijk corrigeren, omdat:

  • Een omitted variable is moeilijk te vinden. De mate van bias kan klein zijn, wat betekent dat er sprake kan zijn van een omitted variable maar wat niet zo hoeft te zijn. Door een theoretische onderbouwing van het model, zie je sneller welke variabelen er missen.

  • Moeilijk te zeggen welke omitted variable de bias veroorzaakt. Door gebruik te maken van de verwachte bias analyse is de omitted variable te traceren. De verwachte bias is de vermoedelijke bias die de weggelaten variabele zou hebben veroorzaakt in de geschatte coëfficiënt van één van de meegenomen variabelen:

Als het teken (+/-) van de verwachte bias hetzelfde is als het teken van het onverwachte resultaat, dan kan de variabele de oorzaak zijn van de bias.

 

Het kan ook voorkomen dat er een variabele in de vergelijking staat, die daar niet thuis hoort. Een dergelijke variabele heet een irrelevante variabele. De impact van een irrelevante variabele is dat het niet een bias veroorzaakt, maar een grotere variantie, die een afname van de absolute waarde van de t-scores veroorzaakt. Ook veroorzaakt een irrelevante variabele een lagere adjusted R2.

 

Er zijn 4 criteria genoemd om te beslissen of een variabele wel of niet in de vergelijking hoort, namelijk: Theorie, t-Test, en Bias. Als al deze variabelen gelden, dan hoort de variabele in de vergelijking. Als geen enkel criterium geldt, dan is het een irrelevante variabele en mag het weggelaten worden in de vergelijking. Als er aan één criterium niet voldaan kan worden, zul je zelf een overweging moeten maken om de variabele wel of niet toe te voegen aan de vergelijking, hou dan in gedachten dat het theoretische gedeelte het meest belangrijke criterium is.

 

Elke dataset veranderd worden zodat er gewenste resultaten ontstaan. Om de beste specificatie vorm van de mogelijkheden te kiezen, zijn er een paar adviezen opgesteld:

  • Vertrouw meer op theorie dan op statistische technieken wanneer de variabelen en de functie vormen gekozen moeten worden;

  • Minimaliseer het aantal geschatte vergelijkingen;

  • Laat in een voetnoot of appendix alle geschatte alternatieve specificaties zien.

 

Econometristen specificeren testen en datasets. Dit kan onder andere door het gebruiken van de sequentiële specificatie onderzoekstechniek. Het sequentiële specificatie onderzoek staat een onderzoeker toe om een niet bekend aantal regressies te schatten en vervolgens de beste regressie te kiezen, alsof het zijn of haar enige regressie is geweest. Deze methode is statistisch niet verantwoordt, omdat:

  • De statistische significantie van de resultaten is overschat, omdat de schattingen van de vorige regressies genegeerd zijn;

  • De verwachtingen van de onderzoeker zijn onbekend. De verwachtingen van de onderzoeker zullen altijd voldoen aan het resultaat.

 

Een andere specificatie die gemaakt kan worden bij econometristen is het laten vervallen van onafhankelijke variabele als de t-score laag is. Dit kan in sommige gevallen een bias geven. Een derde specificatie kan de sensitivity analysis zijn. Sensitivity analysis bestaat uit het expres uitvoeren van een aantal alternatieve specificaties om er achter te komen welke bepaalde resultaten niet robuust zijn. Een vierde specificatie is data mining. Data mining is het schatten van een variatie van alternatieve specificaties voordat de ‘beste’ vergelijking gekozen is. Let hierbij wel op dat als je een hypothese test, terwijl je data mining gebruikt, je deze hypothese eerst op een andere data set moet testen. Anders weet je nog niet of je hypothese echt de beste is.

 

Eerder in dit hoofdstuk zijn 4 vier criteria genoemd om een onafhankelijke variabele te kiezen. Niet in alle gevallen zijn deze criteria voldoende om genoeg informatie te verschaffen aan een onderzoeker om zeker te zijn van een bepaalde specificatie. Er zijn nog andere testen en criteria waar een onafhankelijke variabele van kan afhangen om wel in de vergelijking te worden meegenomen.

 

De eerste alternatieve specificatie is de vervanger van de . Deze vervanger heet de Ramsey Regression Specification Error Test (Ramsey Reset). De Ramsey Reset test is een algemene test dat de waarschijnlijkheid bepaald van een omitted variable van een andere specificatie error door het meten wanneer het passen van een gegeven vergelijking significant kan worden bewezen door het toevoegen van , of . Dit zijn polinominale functie vormen. In het volgende hoofdstuk volgt hier meer over. De test bestaat uit drie stappen:

 

  1. Schat de vergelijking die je wilt testen via OLS

 

  1. Neem de waardes van en creëer de termen , en . Voeg deze toe aan vergelijking 6.5 als extra verklarende variabelen en schat de vergelijking weer via OLS

 

  1. Vergelijk vergelijking 6.5 en 6.6 met behulp van de F-test. Als de twee vergelijking significant verschillen in hun totale vorm, heeft vergelijking 6.5 de verkeerde specificatie.

De Ramsey Reset test laat zien dat er een fout gemaakt is in de vergelijking.

Een tweede methode om de specificatie criteria te testen is het aanpassen van de summed squared residiuals (RSS) door één factor een index te laten creëren om te laten zien of de vergelijking past. Zowel de Akaike’s Information Criterion (AIC) en de Schwarz Criterion (SC) zijn hier voorbeelden van. De formules voor deze voorbeelden zijn:

 

Om AIC en SC te gebruiken, schat je twee alternatieve specificaties en bereken je vervolgens de AIC en SC voor elke vergelijking. Hoe lager de AIC en SC zijn, hoe beter de specificatie.

7. ‘Specificatie: Een functie vorm kiezen’

 

In een lineair model is β0 het snijpunt of de constante term. Een schatting van de β0 bestaat uit drie componenten, die je niet afzonderlijk van elkaar kan onderzoeken:

  • De echte β0;

  • De constante impact van elke gespecialiseerde error;

  • Het gemiddelde van ε voor de correct gespecificeerde vergelijking (als deze geen 0 is).

 

De constante term onderdrukken (dus op 0 houden) is niet mogelijk, omdat hierbij de klassieke assumptie 2 wordt geschonden. De error term kan alleen een verwachte waarde van 0 hebben, als de constante term de niet-nul gemiddelden in zich opneemt. Door de constante term weg te laten, creëer je tevens een bias. De constante term is dus van belang bij een goede vergelijking, maar je kunt niet teveel waarde aan de grootte van deze coëfficiënt hechten, omdat de constante term ten eerste uit meerdere weggelaten variabelen bestaat en hier een gemiddelde van maakt. Het is daarom niet nuttig om een t-test uit te voeren op 0. Ten tweede is de constante term de waarde van de afhankelijke variabele als alle onafhankelijke variabelen en de error term 0 zijn. De onafhankelijke variabelen zijn over het algemeen altijd positief. Het begin van de constante term ligt hierdoor buiten het bereik van de sample.

 

Een vergelijking kan lineair in de variabelen zijn of lineair in de coëfficiënten. Als de vergelijking lineair in de variabelen is, wil dat zeggen dat bij het plotten van de functie Y in termen van X er een rechte lijn ontstaat. Een vergelijking die lineair in de coëfficiënten is bevat coëfficiënten in de meest simpele vorm, dus geen machten of vermenigvuldigen etc. Een lineaire regressie analyse kun je draaien met een non-lineaire vergelijking met lineaire coëfficiënten.

 

Het lineaire regressiemodel, dat telkens in het boek wordt genoemd, is gebaseerd op de helling van de relatie tussen de onafhankelijke en afhankelijke variabele. Deze relatie is constant:

 

Doordat de relatie tussen Y en Xk constant is, zal de elasticiteit van Y ten opzichte van X niet constant zijn. De elasticiteit er als volgt uit zien:

 

Niet alle functies zijn lineair. De meest bekende niet-lineaire functie is de dubbele log vorm, of wel de log-log vorm. De dubbele log functie vorm is de natuurlijke logaritme van Y de afhankelijke variabele en de natuurlijke logaritme van X is de onafhankelijke variabele:

 

Een dubbele log vorm gebruik je als de elasticiteit van de functie wel constant is, maar de helling niet. Het regressie coëfficiënt van een dubbele log vorm kan gezien worden als de elasticiteit van Y ten opzichte van X:

in een dubbele log vergelijking moet je zien als wanneer met 1% stijgt, terwijl de andere X’en constant blijven, dan zal Y met % veranderen. De dubbele log modellen kan je alleen maken wanneer de logaritme positieve waarden bevat, dus een dummy variabele kan je niet ‘loggen’, maar wel als gewone vorm in een vergelijking gebruiken.

 

Een logaritme gaat gepaard met de constante van Euler (e = 2.71828). Als e tot de macht b x produceert, dan is b de logaritme van x:

 

In het boek zie je alleen natuurlijke logaritmes (logaritmes met een basis e):

 

Een variant op de dubbele log functie is de semilog functie vorm. In de semilog functie vorm zijn niet alle variabelen, afhankelijk en onafhankelijk, ‘gelogd’. Een semilog functie gebruik je als de relatie tussen X1 en Y een stijging heeft met een afnemende ratio. Een voorbeeld van een semilog functie is een Engel curve, een curve die laat zien dat als het inkomen groter wordt, een kleiner percentage van het inkomen naar consumptie gaat en een groter gedeelte naar het sparen. Een log kan aan zowel de linker- als de rechterkant van een functie voorkomen. Als alleen de afhankelijke variabele een log bevat (een log level functie), kunnen de coëfficiënten van de X’en als volgt geïnterpreteerd worden: bij een stijging van 1 unit van Xk veranderd Y met βk%, terwijl de andere variabelen constant blijven. Als alleen onafhankelijke variabelen een log bevatten (een level log functie), kan je de coëfficiënt(en) interpreteren als de impact op de level van Y gedeeld door 100 door een 1% stijging van de X(‘en).

 

Het kan ook voorkomen dat de verwachte hellingen van een relatie afhankelijk zijn van de level van de variabele zelf. In dit geval gebruik je een polynomial model. Een polynomial functional form drukt Y uit als een functie van onafhankelijke variabelen, waarvan sommigen machten bevatten die anders zijn dan 1. Een polynomiale functie met de daarbij behorende helling ziet er als volgt uit:

 

Een dalparabool ontstaat, met vergelijking 7.3 en een constante X2, als < 0 en > 0.

Een bergparabool ontstaat, met vergelijking 7.3 en een constante X2, als > 0 en < 0.

De regressie coëfficiënten zijn bij een polynomiale functie niet goed te interpreteren.

 

Tot nu toe zijn de metingen van de afhankelijke en onafhankelijke variabelen van hetzelfde tijdsmoment geweest. Echter is het effect van een verandering in een onafhankelijke variabele in economische situaties vaak na langere tijd zichtbaar in de afhankelijke variabele. De tijd die tussen de oorzaak en het effect is, heet een lag. Veel econometrische vergelijking bevatten een lag, zoals:

 

De coëfficiënt van een ‘lagged’ variabele is een meting van de verandering van dit jaar van Y veroorzaakt door een één-unit stijging in de X van afgelopen jaar, terwijl de andere X’en constant blijven. Als de lag structuur over meerdere periodes plaats vindt of als er een lagged afhankelijke variabele aan de rechterkant van de vergelijking staat, heet dit een distributed lag. In hoofdstuk L volgt hier meer over.

 

In hoofdstuk 3 is de dummy variabele geïntroduceerd. Dit is een intercept dummy, een dummy variabele die de constante term veranderd, afhankelijk van wanneer er aan de kwalitatieve conditie is voldaan. Een 1 bij een intercept dummy variabele betekent dat er aan deze conditie is voldaan, een 0 betekent dat er niet aan deze conditie is voldaan. De coëfficiënt van een dummy variabele interpreteer je als volgt: X1 (= dummy variabele = 1) is zoveel hoger (β1 > 0) of lager (β1 < 0) als X1 (bij dummy variabele = 0), terwijl de andere X’en constant blijven.

 

In een vergelijking kunnen meerdere dummy variabelen voorkomen. Het risico bij meerdere dummy variabelen is dat ze in veel gevallen gecorreleerd zijn aan elkaar, een dummy variabele val, en klassieke assumptie 5 wordt hiermee geschonden. Creëer nooit een dummy variabele met de waarde 2 bij meerdere dummy variabelen, omdat je niet zeker weet of de waarde van het wel voldoen aan conditie 2 twee keer zo hoog is als de waarde van het voldoen aan conditie 1. Vermijdt ook zo veel mogelijk dummy variabelen met een enkele observatie, alleen als de theorie het nodig acht.

 

Een interactie term is een onafhankelijke variabele in een regressie vergelijking dat een meervoud is van twee of meer andere onafhankelijke variabelen. Elke interactie term heeft een eigen coëfficiënt. De meeste interactie termen bestaan uit een onafhankelijk variabele (X1) en een dummy variabele (D1), dit heet ook wel een hellingsdummy variabele. De hellingsdummy variabele voeg je toe aan de vergelijking om ze de helling van de relatie tussen de afhankelijke variabele en de onafhankelijke variabele, afhankelijk van of er aan de conditie van de dummy variabele is voldaan of niet. De hellingen van Y ten opzichte van X verschillen van elkaar met het toevoegen van een hellingsdummy variabele:

Functie vormen zien er soms hetzelfde uit en de theorie niet laat blijken welke vorm het beste is, is het niet mogelijk om te kijken naar de beste pasvorm van de vergelijking, omdat:

  • De kan niet meer gebruikt worden om te vergelijken welke functie (lineaire functie en bv. een log-level functie) beter geschikt is, omdat de afhankelijke variabele getransformeerd is naar een niet-lineaire functie. De TSS van de afhankelijke variabele rond het gemiddelde is verschillend in de twee vergelijkingen.

  • Een incorrecte functie vorm is een specificatie error die gelijk staat aan een omitted variable bias. De functie vorm probeer je te kiezen op basis van de theorie en vervolgens kijk je naar het bereik van de waardes van de sample. Echter liggen niet alle sample waarden binnen het bereik van de vergelijking, zoals te zien is op een plot van het regressie model.

8.‘Multicollineariteit’

 

De volgende hoofdstukken gaan over het schenden van de klassieke assumpties en wat hier tegen gedaan kan worden. De vragen om hier achter te komen zijn:

  • Wat is de aard van het probleem?;

  • Wat zijn de consequenties van het probleem?;

  • Hoe is het probleem gediagnosticeerd?;

  • Welke oplossingen zijn er voor het probleem beschikbaar?

 

Perfecte multicollineariteit zorgt voor het schenden van de klassieke assumptie nummer 6 door collineariteit tussen 3 of meer onafhankelijke variabelen. Perfecte multicollineariteit komt zelden voor, maar levert wel problemen op doordat de OLS niet weet effect door variabele X1 en door variabele X2 wordt veroorzaakt. OLS zal als uitkomt een onbepaald geschatte coëfficiënt van β1 en β2 geven en een standaard error van oneindig. Een perfecte lineaire functie tussen twee onafhankelijke variabelen zou kunnen zijn (de α’s constanten zijn) van vergelijking 8.2:

 

Een onafhankelijke variabele die sterk gecorreleerd is aan de afhankelijke variabele, heet een dominante variabele. Een dominante variabele maskeert de effecten op de afhankelijke variabele van de andere onafhankelijke variabelen volledig.

 

Perfecte multicollineariteit is makkelijk te voorkomen, maar imperfecte multicollineariteit niet. Imperfecte multicollineariteit is een lineaire functionele relatie tussen twee of meer onafhankelijke variabelen dat zo sterk is dat het significant effect heeft op de schattingen van de coëfficiënten van de variabelen:

 

Bij imperfecte multicollineariteit is een stochastische error term, ui. X2 kan niet alles van X1 verklaren, maar het grootste deel wel.

 

De belangrijkste gevolgen van multicollineariteit zijn:

  • Schattingen blijven unbiased: de s blijven rondom de ware β’s bij significante multicollineariteit als er aan de andere assumpties wordt voldaan.

  • De varianties en de standaard errors van de schattingen stijgen: door het niet kunnen onderscheiden van het effect van de ene variabele en de andere variabele, maak je sneller fouten. De distributie van de schattingen worden ook groter. Dit leidt tot grotere varianties en een grotere standaard errors. Een grotere variantie heeft als gevolg dat verder van de echte β af ligt.

  • De berekende t-scores dalen: doordat de standaard error van de geschatte coëfficiënt stijgt, zal tk afnemen ().

  • De schattingen worden gevoeliger voor veranderingen in specificatie: door het toevoegen of weg halen van een verklarende variabele of een paar observaties zullen de waarden van de s veranderen.

  • De totale pasvorm van de vergelijking en de schattingen van de coëfficiënten van de niet-multicollineaire variabelen zullen grotendeels onaangetast blijven: de zal door multicollineariteit niet afnemen. Hierdoor zal multicollineariteit ook weinig effect hebben op de voorspellingen die gedaan kunnen worden met de vergelijking.

Bij het ontdekken van multicollineariteit, moet je de twee volgende dingen onthouden:

  • Erken dat in elke vergelijking een zekere mate van multicollineariteit zit.

  • De mate van multicollineariteit verschilt per sample, theoretisch gezien moet je hier niet te veel waarde aan hechten. Kijk, bij het kiezen van variabelen, wel naar een zo klein mogelijke multicollineariteit tussen de variabelen.

 

Een manier om multicollineariteit op te sporen is door te kijken naar de correlatie coëfficiënt (r) tussen de verklarende variabelen. Als r hoog is in absolute waarde, dan zijn de twee variabelen sterk gecorreleerd. De r is hoog als het onacceptabele grote varianties in de geschatte coëfficiënten veroorzaakt. De correlatie coëfficiënt kan alleen aangeven dat er sprake is van sterke multicollineariteit, andersom (dus een lage r) is geen bewijs dat er geen sprake is van multicollineariteit.

 

Om de mate van de multicollineariteit te meten is de variance inflation factor (VIF). De variance inflation factor meet multicollineariteit door te kijken naar de mate waarin een gegeven verklarende variabele verklaard kan worden door alle andere verklarende variabelen in de vergelijking. De VIF is een index, een hoge VIF laat zien dat de multicollineariteit de geschatte variantie van de geschatte coëfficiënt heeft laten doen stijgen. De VIF berekenen van Xi bevat twee stappen:

  1. Draai een OLS regressie dat Xi als een functie heeft van alle andere verklarende variabelen in de vergelijking, dus voor i = 1 geldt:

 

Dit kun je voor elke variabele doen, er zijn dus K auxiliary regressions.

  1. Bereken de variance inflation factor voor :

 

is hierbij de coëfficiënt van determinantie van de auxiliary regression bij stap 1. Hoe hoger de VIF, hoe sterker het effect van de multicollineariteit. Een vuistregel van de VIF waarde is dat VIF(βi) > 5, de multicollineariteit sterk is.

 

De tolerance (TOL), is een variant van de VIF en bereken je op dezelfde manier als de VIF.

Een aantal problemen, dat VIF met zich mee brengt zijn: er zijn geen duidelijke VIF regels om te besluiten of er wel of geen sterke multicollineariteit is en dat er sprake kan zijn van een lage VIF, maar de correlatie coëfficiënt wel hoog kan zijn.

 

Bij de aanwezigheid van multicollineariteit, kun je verschillende dingen doen. De eerste stap die je moet ondervinden is om te beslissen of je wel iets moet doen of niet. De t-scores zullen niet altijd afnemen en/of de s veranderen niet drastisch, zodat niets doen een goede oplossing is. Ook kan door het weg laten van een variabele een bias ontstaan. Als laatste reden om niets te doen is dat hoe vaker je een regressie draait en de vergelijking aan past, hoe beter hij aan je eigen verwachtingen voldoet.

 

Als er toch iets veranderd moet worden in de regressie vergelijking, bij de aanwezigheid van multicollineariteit, is het in sommige gevallen goed om een variabele te laten droppen. De redundant variable mag je dan laten vallen. Een redundant variabele is variabele die bijna hetzelfde meet als een andere variabele.

 

Een andere manier om multicollineariteit op te lossen is de sample grootte te vergroten. Door een grotere sample grootte verklein je de mate van multicollineariteit. Deze optie is niet mogelijk voor de meeste time series data sets.

9. ‘Serial correlation’

 

De volgende twee hoofdstukken gaat over de derde en laatste stap van de specialisatie van een regressie analyse: het kiezen van een correcte vorm van de stochastische error term. Dit hoofdstuk gaat over het schenden van de klassieke assumptie 4: De observaties van de error term zijn niet gecorreleerd aan elkaar (geen serial correlation). Serial correlation, ook wel autocorrelatie genoemd, komt het vaakste voor in timeseries data sets en is niets minder dat de waarde van de error term van één tijdsperiode op een systematische manier afhankelijk is van de waarde van de error term in een andere tijdsperiode.

 

Pure serial correlation ontstaat als assumptie 4 wordt geschonden in een correct gespecificeerde vergelijking. Assumptie 4 in formule vorm is:

 

Als de verwachte waarde van de correlatie coëfficiënten van twee observaties van de error term niet gelijk zijn aan 0, dan is er sprake van serially correlation. De meest voorkomende soort serial correlation is de first-order correlation en deze functie vorm heet ook wel first order Markov scheme:

 

Waar ε Error term van de vergelijking

ρ First-order autocorrelatie coëfficiënt

u Een klassieke error term

ρ meet de functionele relatie tussen de waarde van een observatie van de error term en de waarde van de vorige observatie van de error term. De magnitude van ρ is de sterkte van de serial correlation. Bij ρ = 0 is er geen serial correlation en ρ = 1 houdt in dat de error term de neiging heeft hetzelfde teken (+ of -) van de periode tot de volgende. Dit heet de positieve serial correlation. ρ kan ook een waarde van -1 aannemen. Een negatieve waarde van ρ houdt in dat de error term de neiging heeft om van teken (+ of -) te switchen tussen negatief en positief en terug in de opeenvolgende observaties, dit heet negatieve serial correlation.

 

Serial correlation kan naast first-order correlation nog andere vormen aannemen, zo is er ook de seizoen gebaseerde serial correlation (vergelijking 9.3) of second-order serial correlation (vergelijking 9.4):

 

Impure serial correlation is serial correlation veroorzaakt door de specificatie error van bijvoorbeeld een omitted variable of een incorrecte functie vorm. Doordat de error term onder andere bestaat uit het effect van omitted variables en meet errors, kan er makkelijke serial correlation ontstaan met verklarende variabelen in de regressie vergelijking. Impure serial correlation is op te lossen door de omitted variable of de goede functie vorm te vinden, waardoor deze en de bias verdwijnen.

 

Het effect van een omitted variable op de serial correlation is aan de hand van de volgende formules zichtbaar. Hierbij is X2 de omitted variable:

De nieuwe error term εt* neigt serially correlated te zijn als: X2 zelf serially correlated is; of als de grootte van ε klein is vergeleken met de grootte van . Het effect is dat de geschatte coëfficiënt van X2 een bias heeft en/of dat de error term een grote hoeveelheid van het weggelaten effect van de variabele bevat.

 

De verkeerde functie vorm kan een error term veroorzaken, die serial correlated is. Wanneer je een lineaire functie vorm gebruikt terwijl je een niet-lineaire functie vorm had moeten gebruiken, is het resultaat vaak positive impure serial correlation.

 

De consequenties van serial correlation verschillen per aard van de problemen. In de meeste gevallen zorgt serial correlation vooral voor interne symptomen. Het heeft effect op de geschatte vergelijking op een manier zodat deze niet meer makkelijk te observeren is voor de benodigde resultaten. Serial correlation heeft 3 consequenties voor OLS:

  1. Pure serial correlation veroorzaakt geen bias in de geschatte coëfficiënten: Serial correlation schendt een assumptie van de Gauss-Markov Theorie, maar dit veroorzaakt geen bias. Impure serial correlation kan wel een bias veroorzaken, maar hoeft niet.

  2. Serial correlation veroorzaakt dat OLS niet langer de minimum variantie gebruikt van alle lineaire unbiased estimators): de serially correlated error term veroorzaakt dat de afhankelijke variabele fluctueert op een manier dat de OLS schattingsprocedure deze fluctuatie toeschrijft aan de onafhankelijke variabelen. OLS zal dus de echte β verkeerd schatten.

  3. Serial correlation veroorzaakt dat de OLS schattingen van SE() biased zijn, wat tot onbetrouwbare hypothese testen leidt: serial correlation produceert een bias en SE(wat een andere t-score oplevert en dus een verkeerde hypothese test. De t-scores zullen bij serial correlation te hoog liggen, waardoor je te snel de null hypothese zult verwerpen.

 

Een goed manier om serial correlation op te sporen is via de Durbin-Watson d test. De Durbin-Watson d test is een test om te bepalen of er first-order serial correlation in de error term van een vergelijking is door de residuals van een specifieke schatting van die vergelijking te onderzoeken. De Durbin-Watson d test kan alleen gedaan worden, als er aan de volgende eisen is voldaan:

  1. Het regressie model bevat een intercept term;

  2. De serial correlation is van nature first-order:

  1. Het regressieve model bevat geen lagged afhankelijke variabele, die als een onafhankelijke variabele werkt.

 

De formule voor de Durbin-Watson d statistiek voor T observaties is, waarbij et de OLS residuals zijn:

Als er een zeer positieve serial correlation is, is d = 0. Als er geen serial correlation is, is d = 2. Als er een zeer negatieve serial correlation is, is d = 4.

 

De Durbin-Watson d test is ongebruikelijk in twee opzichten:

  • Een one-sided null hypothese wordt niet getest op negatieve serial correlation, omdat dit theoretisch moeilijk te verklaren is.

  • De vorige besluitregels hadden een accepteer en verwerpingregio, de Durbin-Watson d test heeft een derde regio, de inconclusive regio.

 

Om positieve serial correlation te testen, zijn de volgende stappen nodig:

  1. Het verkrijgen van de OLS residuals van de vergelijking die getest moet worden en bereken de d-statistiek;

  2. Het bepalen van de sample grootte en het aantal verklarende variabelen, raadpleeg vervolgens de tabellen om de upper kritieke waarde van d, dU, te vinden en de lower kritieke waarde, dL.

  3. a) Gegeven de null hypothese: H0: ρ ≤ 0 en HA: ρ > 0 (one sided positive correlation)

Gegeven de besluitregel: als d < dL verwerp H0

als d > dU verwerp H0 niet

als dL ≤ d ≤ dUinconclusive regio

 

  1. Gegeven de null hypothese: H0: ρ = 0 en HA: ρ ≠ 0 (two sided no serial correlation)

Gegeven de besluitregel: als d < dL verwerp H0

als d > 4 - dL verwerp H0

als 4 – dU > d > dU verwerp H0 niet

anders inconclusive region

 

Om serial correlation op te lossen, is het niet handig om de data set opnieuw te ordenen, omdat de nieuwe error term, ε2, een functie van ε1 zal worden en je het probleem niet meer kan achterhalen. Door te kijken naar specificatie van de vergelijking, zie je sneller de fout en haal je impure serial correlation er uit, dus de omitted variable onder andere. Merk je pure serial correlation op, dan zijn er twee manieren om dit op te lossen, namelijk de Generalized Least Square en de Newey-West standard errors.

 

De Generalized Least Squares (GLS) is een methode om de vergelijking van pure first-order serial correlation te ontdoen en om de minimale variantie terug te krijgen. De GLS vergelijking voldoet niet aan de assumpties van de OLS. Om de vergelijking van GLS te krijgen, start je met een normale vergelijking welke first-order serial correlation heeft () (9.10). Vermenigvuldig de vergelijking met ρ en vertraag de nieuwe vergelijking met één tijdsperiode (9.11). Trek vervolgens vergelijking 9.11 van vergelijking 9.10 en krijg de GLS vergelijking (9.12):

 

Uit de GLS vergelijking is te halen dat de error term is niet meer serial correlated, wat de minimale variantie oplevert bij OLS; β1 is gelijk als de originele β1; van GLS en van OLS zijn niet gelijk aan elkaar, door een andere afhankelijke variabele.

 

Met een GLS vergelijking kun je geen OLS regressies draaien, door de niet-lineaire functies in de vergelijking. Een manier om de GLS vergelijking te gebruiken is de Cochrane-Orcutt method, een twee stappen techniek dat een schatting van ρ geeft en deze gebruikt om de vergelijking te schatten. De stappen zijn:

  1. Schat ρ door het draaien van een regressie gebaseerd op de residuals van de verwachte vergelijking met serial correlation (de residuals van de OLS):

 

  1. Gebruik de in vergelijking 9.12 en schat de vergelijking via OLS

Herhaal deze stappen een aantal keren, totdat weinig verandert. Twee problemen met deze methode zijn een kleine bias van de coëfficiënten en dat de ook een bias heeft in kleine samples.

 

Een andere methode om de GLS vergelijking te gebruiken is de AR(1) methode, deze methode schat β0, β1 en ρ tegelijk. Deze kom je niet vaak tegen.

 

De Newey-West Standaard Error methode maakt geen gebruik van GLS. Newey-West Standaard Errors zijn SE()s die serial correlation met zich mee brengen zonder de s te veranderen. De methode omzeilt de pure first-order serial correlation. De SE()s van Newey-West zijn groter dan de SE()s van OLS dat een lagere t-score oplevert en dus een grotere acceptatie van de null hypothese.

 

10. ‘Heteroskedasticiteit’

 

Heteroskedasticiteit schendt de klassieke assumptie 5, de observaties van de error term komen voort uit een distributie met een normale variantie. Heteroskedasticiteit komt vooral voor in cross-sectional modellen.

 

Heteroskedasticiteit is, net zoals serial correlation, onderverdeeld in pure en impure. Pure heteroskedasticiteit ontstaat als een functie van de error term van een correct gespecificeerde regressie vergelijking. Het tegenovergestelde van heteroskedasticiteit is homoskedasticiteit. Bij homoskedasticiteit is de variantie van de distributie constant:

 

Bij heteroskedasticiteit is de variantie van de distributie niet constant en varieert per variabele:

 

Heteroskedasticiteit kun je je voorstellen als verschillende error termen die zich in een groep wijd of smal bevinden, dit heet discrete heteroskedasticiteit. De wijde groep heeft een brede variantie en heeft een grotere heteroskedasticiteit.

 

In het meest simpele model met heteroskedasticiteit is de variantie van de error term gerelateerd aan een exogene variabele, Zi. Zi heet de proportionele factor, omdat de variantie van de error term proportioneel verandert in het kwadraat van Zi. Hoe hoger de Zi, hoe hoger de variantie van de distributie van de error term. De variantie van de error term is te vinden door de formule:

 

Heteroskedasticiteit treedt op in cross-sectional modellen, vanwege de grote variatie in de grote van de afhankelijke variabele. In timeseries modellen, vanwege een significante verandering in de afhankelijke variabele. En in elk model als de kwaliteit van de verzamelde data drastisch verandert.

 

Impure heteroskedasticiteit wordt veroorzaakt door een specificatie error, zoals een omitted variable. Als er in een regressie model sprake is van heteroskedasticiteit, ga eerst na of deze goed gespecificeerd is, voordat je naar de pure heteroskedasticiteit op zoek gaat.

 

De consequenties van heteroskedasticiteit in de error term zijn:

  • Pure heteroskedasticiteit veroorzaakt geen bias in de geschatte coëfficiënten: grote negatieve errors en grote positieve errors heffen elkaar op, wat de OLS schatting unbiased laat.

 

Impure heteroskedasticiteit veroorzaakt wel een bias.

  • Heteroskedasticiteit veroorzaakt dat de OLS niet langer de minimale variantie schatter is: de variantie van de error term veranderd (zie vergelijking 10.4). De heteroskedastische error term veroorzaakt fluctuaties in de afhankelijke variabele en de OLS schatting schrijft ze toe aan de onafhankelijke variabelen.

  • Heteroskedasticiteit veroorzaakt dat de OLS schattingen van de biased zijn, wat tot onbetrouwbare hypothese testen leidt: is de noemer van de t-statistiek en zal de t-scores worden overschat. De null hypothese zul je eerder verwerpen, terwijl deze waar had kunnen zijn.

 

Er is geen universele methode om heteroskedasticiteit te testen. In dit boek leer je twee testen: de Park test en de White test. Geen enkele test kan heteroskedasticiteit bewijzen in een vergelijking, maar wel de aanwezigheid hiervan aantonen. Voordat je een heteroskedasticiteit test gaat uitvoeren, stel jezelf de volgende vragen:

  • Zijn er specificatie errors?

  • Is het onderwerp van het onderzoek gevoelig voor heteroskedasticiteit?

  • Laat de grafiek van de residuals enig bewijs van heteroskedasticiteit zien?

 

De meest populaire oplossing voor heteroskedasticiteit is heteroskedastische gecorrigeerde (HC) standaard errors, welke de schatting van s aanpast voor heteroskedasticiteit terwijl je gebruik kan blijven maken van OLS. HC s hebben een lagere t-score dan OLS s, dus het verwerpen van de null hypothese gebeurt minder snel. Er zijn wel een paar problemen met de HC s, namelijk dat het alleen werkt in grote samples en het basis model voor heteroskedasticiteit is te simpel voor deze methode.

 

Een andere oplossing is om de basis theorie van de vergelijking te herdefiniëren en de variabelen hier op aan te passen. Ook kun je de functie vorm aanpassen om heteroskedasticiteit tegen te gaan. In sommige gevallen is het het verstandigst om het hele onderzoek opnieuw te doen met compleet nieuwe vergelijkingen en data sets.

12. ‘Timeseries modellen’

 

In hoofdstuk G is een lagged variabele eerder genoemd. Een lagged variabele gebruik je als je vermoedt dat X effect heeft op Y na een bepaalde tijd. De functie met een lagged variabele zag er als volgt uit:

 

Dit is een simpel lag model en de coëfficiënt van bv. β2 interpreteer je als de verandering van Y als X2 stijgt met één unit, terwijl de vorige X1 constant blijft. Naast een simpel lag model is er ook de gedistribueerde lag model:

 

Een gedistribueerd lag model verklaart de actuele waarde van Y als een functie van de actuele en vorige waarden van X. Deze functie veroorzaakt wel problemen bij OLS, namelijk:

  • De verschillende lagged waarden van X zijn waarschijnlijk multicollineair;

  • Door de multicollineariteit lopen de βs niet in waarde af;

  • De degrees of freedom nemen af door een groter aantal bij K en N.

 

Vergelijking 11.2, een ad hoc gedistribueerde lag vergelijking, pas je aan aan OLS via het vervangen van de lagged onafhankelijke variabelen door de lagged waarde van de afhankelijke variabele, de vergelijking wordt dan een dynamisch model. Het simpelste dynamische model ziet er als volgt uit:

 

Vergelijking 11.3 heet ook wel een autoregressieve vergelijking. De λ is de coëfficiënt van de lagged variabele en zo lang deze tussen de 0 en de 1 ligt, zal de impact van de onafhankelijke variabele dalen met de lengte van de lag. Het dynamische model voorkomt de drie problemen van een gedistribueerd lag model, echter moet de sample grootte wel meer dan 50 observaties bevatten. Wel is er de mogelijkheid tot serial correlation in de dynamische vergelijking. De serial correlation veroorzaakt een bias in de s die geproduceerd worden door OLS. De bias is te verklaren aan de hand van de error term ut. De error term is serially correlated: . De nieuwe ut vervang je in vergelijking 11.3 :

 

ut-1 is positief, wat een tevens een positieve ut veroorzaakt, omdat ρ ook positief is. Een stijging van ut-1 zorgt voor een stijging van Yt-1, omdat OLS de veranderde error term toe schrijft aan de lagged variabele.

 

Een methode om serial correlation in dynamische modellen te testen is de Lagrange Multiplier Serial Correlation (LMSC) Test. De LMSC Test analyseert hoe goed de lagged residuals de residuals van de originele vergelijking verklaren. De LMSC Test kun je ook gebruiken als specificatie test en heteroskedasticiteit test. De LMSC Test bestaat uit drie stappen:

  1. Verkrijg de residuals van de geschatte vergelijking:

  1. Gebruik de residuals als de afhankelijke variabele in een hulpvergelijking dat zowel alle onafhankelijke variabelen aan de rechterkant van de originele vergelijking als de lagged residuals:

  1. Schat vergelijking 11.6 met behulp van OLS en test de null hypothese dat a3 = 0 met de volgende test statistiek:

 

Waarbij N: Sample grootte en R2: Unadjusted determinantie coëfficiënt. Voor een grote N, Lm heeft een chi-square distributie. Als LM groter is dan χc, verwerp je de null hypothese. Bij een grotere orde serial correlation voeg je de lagged residuals van deze orders toe aan de hulpvergelijking (et-2 voor second-order, et-2 en et-3 voor third-order) en de null hypothese wordt a3 = a4 = a5 = 0.

 

Ad hoc gedistribueerde lag modellen wordt toegepast om de richting van de oorzaak in economische relaties te vinden. Met behulp van een test kan de Granger causality gevonden worden. Granger causality is een omstandigheid waarin één timeseries variabele consistent en voorspelbaar verandert voordat een andere variabele verandert. Granger causality laat zien welke variabele de andere variabele leidt (Granger causes). Dit wil niet zeggen dat de ene variabele de andere veroorzaakt. De Granger causality test je aan de hand van de volgende formule:

 

De null hypothese is dat alle α’s gezamenlijk 0 zijn. De null hypothese verwerp je door de F-test te gebruiken. Als je de null hypothese verwerpt, kun je zeggen dat A Granger-causes Y. De test kun je ook andersom doen, zo kun je achterhalen of Y Granger-causes A.

 

Een spurious correlation is een sterke relatie tussen twee of meerdere variabelen die niet veroorzaakt zijn door een echte onderliggende oorzakelijke relatie, zoals nominale inflatie. Draai je een regressie met deze variabelen en de afhankelijke variabele, dan krijg je een spurious regression, en de t-score en totale pasvorm zijn overschat en onbetrouwbaar.

 

Time serie data sets zijn stationair of niet-stationair. Een stationaire serie is waarvan de basis eigenschappen niet veranderen over tijd. Een niet-stationaire serie heeft één of meerdere basis eigenschappen die wel veranderen over tijd. De eigenschappen zijn:

  • Het gemiddelde van Xt is constant over de tijd;

  • De variantie van Xt is constant over de tijd;

  • De simpele correlatie coëfficiënt tussen Xt en Xt-k is afhankelijk van de lengte van de lag (k), maar niet van de andere variabelen.

Als er aan al deze eigenschappen wordt voldaan, mag je spreken van een stationaire serie. Zo niet, dan is de serie niet-stationair.

 

Error terms kunnen ook niet-stationair zijn. Zo is een heteroskedastische error term ook een voorbeeld van een niet-stationaire serie. De grootste consequentie van niet-stationair voor een regressie analyse is spurious correlation dat R2 en de t-scores opblaast. Dit leidt tot incorrect model specificatie. Spurious regressie resultaat kun je voorkomen door de onafhankelijke variabele tijd trend (t = 1, 2, 3, …, T) toe te voegen aan de vergelijking. Het toevoegen van een time trend variabele helpt niet altijd. Een dergelijke serie noem je ook wel een random walk, een timeseries variabele waar de volgende periode waarde gelijks is aan de actuele periode waarde plus een stochastische error term:

 

Om erachter te komen of een vergelijking spurious is, test je voor niet-stationariteit. De eerste stap van de test is het bekijken van de data of er grote verschillen in het gemiddelde van de variabelen zijn en of de serie niet-stationair is. De tweede stap is het uitvoeren van de Dickey-Fuller test, welke de hypothese onderzoekt dat de berokken variabele een unit root heeft. Een unit root is een kenmerk van processen die veranderen over de tijd, die problemen kan veroorzaken.

 

Unit roots spelen een rol in stationariteit en niet-stationariteit:

 

Als |γ| < 1 is Y stationair, als |γ| > 1 is Y niet-stationair en als |γ| = 1 is Y niet-stationair door een unit root. Bij de Dickey-Fuller test trek je Yt-1af van beiden kanten van vergelijking 11.10:

 

De null hypothese is dat Yt een unit root (γ = 1) bevat en de alternatieve hypothese is dat Yt stationair is. Als Yt stationair is, is |γ| < 1 en β1 < 0. Nu kun je een t-test uitvoeren met β1 = 0.

 

Eerder is genoemd dat bij non-stationariteit er een tijd trend variabele toegevoegd kan worden aan de vergelijking:

 

De Dickey-Fuller test blijft zich ook in dit geval focussen op β1. Wel is het belangrijk om te weten dat de tc’s van Dickey-Fuller niet helemaal gelijk zijn aan de tc van de t-statistiek. De tc’s van Dickey-Fuller worden apart gegeven. Als uit de test blijkt dat er sprake is van niet-stationariteit, vervang je Yt en Xt in de vergelijking voor de eerste verschillen: en . De verschillen mag je niet invoegen, zo lang de je residuals niet getest hebt op co-integratie. Co-integratie bestaat uit het koppelen van de degree van niet-stationariteit van de variabelen in de vergelijking op een manier dat de error term (en de residuals) van de vergelijking stationair zijn en de vergelijking ontdoet van enige spurious regressie resultaten. Aan de hand van de volgende stappen is te zien wat co-integratie is:

  1. Neem de basis vergelijking waarin Xt en Yt niet-stationair zijn:

  1. Herschrijf de formule zo dat de veroorzaker (ut) van de co-integratie aan de linkerkant staat:

Je verwacht dat ut ook niet-stationair is, maar als de unit roots in Yt en Xt teniet zijn gedaan, is ut stationair en zijn Yt en Xt ge-co-integreerd.

  1. Om te bepalen dat Yt en Xt ge-co-integreerd zijn, zoek je eerst de residuals van OLS van vergelijking 11.14 op:

 

  1. Voer de Dickey-Fuller test uit op de residuals. Als je de null hypothese kan verwerpen, dan kunnen we concluderen dat Yt en Xt ge-co-integreerd zijn en de OLS schattingen niet spurious zijn en je de originele functie mag gebruiken. Als Yt en Xt niet ge-co-integreerd zijn, dan gebruik je de eerste verschillen.

13. ‘Afhankelijke dummy variabele technieken’

 

Tot nu toe zijn dummy variabelen alleen nog maar als onafhankelijke dummy variabelen aan bod gekomen. Dit hoofdstuk behandelt afhankelijke dummy variabelen.

De meest gebruikelijke manier om een model met een afhankelijke dummy variabele is door het draaien van een OLS op een lineaire econometrische vergelijking. Een lineair kansmodel is een model waar een lineair-in-de-coëfficiënten vergelijking gebruikt wordt om een afhankelijke dummy variabele te verklaren:

 

Di is de afhankelijke dummy variabele. De onafhankelijke dummy variabele is 1 als item wel aan de eisen voldoet, bijvoorbeeld dat de persoon een vrouw is, en de variabele heeft een waarde van 0 als het item niet aan de eisen voldoet, de persoon geen vrouw is. Een onafhankelijke dummy variabele kan ook een waarde aannemen die niet gelijk zijn aan 0 en 1. Deze waarde is de kans, of het percentage, dat het item wel aan de eisen voldoet. Het is echter alleen mogelijk om de waarden 0 en 1 te observeren.

 

OLS gebruiken voor het schatten van de coëfficiënten van een vergelijking met een afhankelijke dummy variabele heeft twee problemen:

  • is niet meer betrouwbaar voor de totale pasvorm: de X’en kunnen nog zo goed de afhankelijke dummy variabele verklaren, maar als Di niet de juiste waarde heeft, is niet te zien;

  • is niet of 0 of 1: kan verschillen per geschat coëfficiënt en zal daarom andere waarden dan 0 of 1 kunnen aannemen.

 

Het eerste probleem is op te lossen door een alternatief te vinden voor . Zo kun je het percentage van de geschatte waarde van Di berekenen, als < 0.5 is deze 0 en als > 0.5 is deze 1. Dit is nogal een grove berekening. Je kunt beter het percentage 1’en en 0’en berekenen die overeen komen met Di en daar het gemiddelde van nemen. Het gemiddelde heet ook wel de .

 

Het tweede probleem is moeilijker op te lossen. Een simpele oplossing zou zijn dat alle ’s boven 1 bij 1 horen en alle negatieve s bij 0 horen. Dit is echter te kort door de bocht gedacht. Om dit probleem op te lossen is de binomial logit method nodig. De binomial logit is een schattingstechniek voor vergelijking met een afhankelijke dummy variabele die het grenzeloosheids probleem van het lineair kansmodel vermijdt door een variant te gebruiken van de cumulatieve logistieke functie:

kan door deze functie alleen nog maar waarden tussen 0 en 1 aannemen, en de waarde 0 en 1, want als = ∞ , dan e-∞ = 0 en als = -∞, dan e = ∞. Een nadeel aan de binomial logit is dat logits niet geschat kunnen worden via OLS. In plaats van OLS gebruik je de maximum likelihood (ML), een herhalingsschattingstechniek die speciaal gebruikt wordt bij vergelijkingen die niet lineair zijn in de coëfficiënten. De schattingen van OLS en ML zijn identiek aan elkaar, bij een lineaire vergelijking die aan de klassieke assumpties voldoet. ML heeft een aantal grote gewenste eigenschappen: zo is ML consistent en efficiënt met asymptoten. Wel heeft ML een grote sample grootte nodig. Ook moeten de logits in een sample groot vertegenwoordigd zijn, anders kan ML geen goede schattingen maken. Bij het schatten van de logit, gebruik je de ML techniek. De ML techniek gaat als volgt:

 

  1. Herschrijf vergelijking 12.2 zo dat het een logaritme bevat:

  1. Definieer de ratio van Di. Hierbij geeft L aan dat de vergelijking een logit is van de functie vorm van vergelijking 12.3:

  1. Herschrijf vergelijking 12.3 met behulp van vergelijking 12.4:

 

De hypotheses van de logit kun je testen met de t-test door vergelijking 12.5 te gebruiken. De coëfficiënten van het logit model interpreteer je op een andere manier, omdat ten eerste afhankelijke variabele in het lineaire kansmodel is niet hetzelfde als de afhankelijke variabele in het logit model en ten tweede zijn logit coëfficiënten dynamischer dan de coëfficiënten van het lineaire kansmodel. De coëfficiënten van het logit model kunnen op drie manieren uitgelegd worden:

  • Verander een gemiddelde observatie: creëer een gemiddelde observatie door de gemiddelden van alle variabelen in de geschatte logit vergelijking te stoppen en bereken vervolgens een gemiddelde . Verhoog dan de geïnteresseerde onafhankelijke variabele met één unit en herbereken . Het verschil tussen de ’s laat de impact van een één-unit stijging zien in die onafhankelijke variabele op de kans dat voor een gemiddelde observatie;

  • Gebruik een partiële afgeleide: Als je de afgeleide van de logit neemt, vind je de verandering in de verwachte waarde van veroorzaakt door een één-unit stijging in X1i;

  • Gebruik een grove schatting van 0.25: vermenigvuldig een logit coëfficiënt met 0.25 en je krijgt een equivalent lineair kansmodel coëfficiënt.

 

Naast de binomial logit techniek zijn er nog meer technieken om vergelijkingen met een afhankelijke dummy variabele te gebruiken. De binomial probit model en de multinomial logit model zullen hieronder toegelicht worden.

 

Het binomial probit model is een schattingstechniek voor vergelijkingen met een afhankelijke dummy variabele die grenzeloosheid voorkomt van het lineair kansmodel door een variant van de cumulatieve normale distributie te gebruiken:

 

Hierbij is Pi de kans dat de dummy variable Di = 1

Zi

s standaard normale variabele

inverse van de normale cumulatieve distributie functie

 

De binomial probit en binomial logit modellen lijken veel op elkaar, zo hebben ze beiden een grote sample grootte nodig voor een goede schatting en is niet betrouwbaar voor de totale pasvorm.

In veel gevallen zijn er meer dan twee kwalitatieve keuzes beschikbaar (dus bus, auto of fiets bijvoorbeeld). Als dit het geval is veronderstel dan dat de keuze op elkaar volgend worden gemaakt, deze keuzes heten een serie van binaire beslissingen. Als er meerdere alternatieven dan twee zijn, is er sprake van het Multinomial logit model. Het multinomial logit model is een verlenging van het binomial logit model. Er zijn N verschillende alternatieven, en N-1 dummy variabelen die de keuze beschrijven.

In het multinomial logit model is één alternatief geselecteerd als basis alternatief en elke andere mogelijke keuze vergelijk je met het basis alternatief met een logit vergelijking:

Hierbij is P1i kans dat de i-ste persoon het eerste alternatief kiest

Pbi kans dat de i-ste persoon het basis alternatief kiest

 

Als er N alternatieven zijn, zijn er N-1 logit vergelijkingen.

17. ‘Statistische principes’

 

In dit hoofdstuk worden alle basis principes uitgelegd die de specificatie en schattingen bepalen van econometrische modellen.

 

  • Kans

Een random variabele X is een variabele wiens numerieke waarde bepaald wordt door de kans, de uitkomst van een random fenomeen. Een discrete random variabele heeft telbaar aantal mogelijke waarden, een continue random variabele kan elke waarde aannemen op het interval. Een kansdistributie (P[X1]) voor een discrete random variabele X verwijst naar de kans op de mogelijke waarden van X1.

 

  • Mean (gemiddelde), Variance (variantie), en Standard Deviation (standaard deviatie)

De verwachte waarde (gemiddelde) van een discrete random variabele X is een gewogen gemiddelde van alle mogelijke waarden van X:

 

De variantie van een discrete random variabele X is de omvang waarin de uitkomsten verschillen van de verwachte waarde:

De standaard deviatie is de wortel van de variantie:

  • Continue random variabele

De waarde van een continue random variabele kan elke waarde aannemen binnen het gegeven interval. Elke waarde binnen het interval heeft een kans van zoveel om de uitkomst van de variabele te zijn. De interval mogelijkheden geef je weer met behulp van een continue mogelijkheid-dichtheidscurve.

  • Gestandaardiseerde variabelen

Wanneer je variabelen standaardiseert, zijn hun kansdistributies vaak virtueel identiek. Een manier om variabelen te standaardiseren is om deze te transformeren zodat ze hetzelfde gemiddelde en dezelfde standaard deviatie hebben:

De gestandaardiseerde variabele Z heeft een gemiddelde van 0 en een standaard deviatie van 1. De standaard variabele Z laat zien hoe veel standaard deviaties X boven of onder het gemiddelde ligt.

 

  • Normale distributie

Karl Gauss heeft de normale distributie bedacht, daarom heet een normale distributie ook wel de Gaussian distributie. Door veel kans distributies bij elkaar te voegen, ontstaat er een normale distributie. Deze theorie heet ook wel de Central Limit Theorem, als Z een gestandaardiseerde som van N onafhankelijk, identiek gedistribueerde random variabelen met een eindigende niet-0 standaard deviatie, dan nadert de kans distributie van Z de normale distributie als N toeneemt. In een grafiek van de normale distributie wordt de density curve getekend, met op de x-as de Z en op de y-as de density. Een normale gedistribueerde random variabele heeft 68% kans dat het in één standaard deviatie van het gemiddelde afligt, 95% kans dat het in twee standaard deviaties van het gemiddelde ligt en 99.7% dat het in drie standaard deviaties van het gemiddelde ligt.

 

  • Populatie en sample

De populatie is de gehele groep van het geïnteresseerde item. De sample is een deel van de populatie die je wilt observeren. Statistische conclusies worden getrokken uit de sample, die de karakteristieken van de populatie bevat.

 

  • Selectieve bias

Elke sample die grote verschillen toont met de echte populatie, heet ook wel een bias sample. Een van de grootste oorzaken van een bias sample is selectieve bias, deze treedt op wanneer de selectie van de sample systematisch bepaalde groepen uitsluit of onder vertegenwoordigd. Self-selection bias kunnen voorkomen wanneer je data observeert voor een groep van mensen die zichzelf in de groep gekozen hebben.

 

  • Survivor bias

Retrospectieve studies kijken naar de afgelopen data voor een gelijktijd geselecteerde sample. Een prospectieve studie selecteert een sample en volgt de leden voor onbepaalde tijd. Prospectieve studies leiden tot een survivor bias, er wordt alleen naar levende samples gekeken. Survivor bias is een vorm van selectieve bias.

  • Nonresponse bias

Het systematisch weigeren van bepaalde groepen om deel te nemen aan het experiment heet een nonresponse bias.

 

Om de invloed van subjectieve biases tegen te gaan, is het advies om de sample niet zo maar te kiezen.

Check page access:
Public
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Check more of this topic?
Check all content related to:
How to use more summaries?


Online access to all summaries, study notes en practice exams

Using and finding summaries, study notes en practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Starting Pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
  2. Use the menu above every page to go to one of the main starting pages
  3. Tags & Taxonomy: gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
  4. Follow authors or (study) organizations: by following individual users, authors and your study organizations you are likely to discover more relevant study materials.
  5. Search tool : 'quick & dirty'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject. The search tool is also available at the bottom of most pages

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study (main tags and taxonomy terms)

Field of study

Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
715
Comments, Compliments & Kudos:

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.