Samenvatting van Statistical Methods for the Social Sciences van Agresti - 6e druk- Exclusive
- Wat zijn statistische methoden? – Chapter 1
- Welke soorten steekproeven en variabelen zijn er? – Chapter 2
- Hoe werkt beschrijvende statistiek? - Chapter 3
- Hoe gebruik je kansverdelingen voor statistische inferentie? - Chapter 4
- Hoe maak je schattingen voor statistische inferentie? – Chapter 5
- Hoe gebruik je significantietoetsen? – Chapter 6
- Hoe vergelijk je twee groepen met elkaar in de statistiek? – Chapter 7
- Hoe kun je het verband tussen categorische variabelen analyseren? – Chapter 8
- Hoe werken lineaire regressie en correlatie? – Chapter 9
- Welke vormen hebben multivariate verbanden? – Chapter 10
- Hoe analyseer je multipele regressie? – Chapter 11
- Hoe werkt ANOVA? – Chapter 12
- Hoe werkt multipele regressie met zowel kwantitatieve als categorische predictoren? – Chapter 13
- Hoe construeer je een model voor multipele regressie van extreme of sterk gecorreleerde data? – Chapter 14
- Hoe werkt logistische regressie? – Chapter 15
- Welke geavanceerde methodologieën zijn er? - Chapter 16
Wat zijn statistische methoden? – Chapter 1
Wat is statistiek en hoe kun je het leren?
Statistiek wordt steeds meer gebruikt om het gedrag van mensen te bestuderen, niet alleen door de sociale wetenschappen maar ook door bedrijven. Het is voor iedereen mogelijk om statistiek te leren gebruiken, zelfs zonder veel wiskundige voorkennis en zelfs met angst voor statistiek. Het belangrijkst hierbij zijn logisch nadenken en doorzettingsvermogen.
Om statistische uitspraken te kunnen doen, moet er eerst data verzameld worden. Data zijn verzamelde observaties van een kenmerk van belang. Bijvoorbeeld de mening van 1000 mensen over of marihuanagebruik wel of niet moet worden toegestaan. Zulke data kan gegenereerd worden aan de hand van o.a. enquêtes, experimenten en observaties. Ook kunnen databases worden gebruikt, informatie die al verzameld is in bijvoorbeeld politierapporten en patiëntendossiers.
Statistiek bestaat niet enkel uit getallen die verkregen zijn uit data, het is breder. Statistiek betekent het geheel van methoden voor het verkrijgen en analyseren van data.
Wat is het verschil tussen beschrijvende statistiek en inferentiële statistiek?
Bij statistiek wordt allereerst aan de hand van een ‘design’ een planning gemaakt van hoe data wordt verzameld. Vervolgens zijn er twee vormen van statistische analyse; beschrijvende statistiek en inferentiële statistiek. Beschrijvende statistiek vat de informatie uit een verzameling data samen, zodat de data makkelijker te begrijpen is. Inferentiële statistiek maakt voorspellingen aan de hand van data. Afhankelijk van het doel wordt bepaald van welke vorm van statistiek er sprake is: als er wordt samengevat is het beschrijvend, als er voorspellingen worden gedaan is het inferentieel.
Om de verschillen tussen vormen van statistiek beter te begrijpen, zijn een aantal basisbegrippen belangrijk. De subjecten zijn de entiteiten die worden geobserveerd bij een onderzoek, meestal mensen maar soms families, scholen, steden etc. De populatie is het geheel van subjecten die je wilt onderzoeken (bijvoorbeeld de Nederlandse bevolking). De populatie wordt hierna aangeduid in formules met de hoofdletter N. De steekproef is een beperkt aantal geselecteerde subjecten waarover je daadwerkelijk data gaat verzamelen (bijvoorbeeld 1000 Nederlanders uit verschillende provincies). De steekproef wordt met de kleine letter n aangeduid in formules. Het uiteindelijke doel is iets te leren over de populatie, maar omdat het onmogelijk is om de gehele populatie te onderzoeken, trekt men een steekproef.
Beschrijvende statistiek is zowel te gebruiken als er data beschikbaar is voor de gehele populatie en voor enkel de steekproef. Inferentiële statistiek is alleen van toepassing op steekproeven, omdat er voorspellingen voor de nog onbekende toekomst worden gedaan. De definitie van inferentiële statistiek is het doen van voorspellingen over een populatie, gebaseerd op data verkregen uit een steekproef.
Het doel van statistiek is om meer te weten te komen over de parameter. De parameter is de numerieke samenvatting van de populatie, ofwel de onbekende waarde die iets zegt over de uiteindelijke toestand van het geheel. Het gaat dus niet om de steekproef maar om de populatie. Kort gezegd is de parameter de waarde van belang. Een belangrijk onderdeel van inferentiële statistiek is daarom beoordelen hoe representatief een steekproef is.
Een populatie kan echt zijn (bijvoorbeeld de Nederlandse bevolking) of nog conceptueel (bijvoorbeeld het deel van de Nederlandse bevolking dat in de toekomst aan longkanker lijdt).
Welke rol speelt software in statistiek?
Software zorgt dat complexe methoden makkelijk toe te passen zijn. De meest gebruikte software voor statistiek is SPSS, R, SAS en Stata.
Welke soorten steekproeven en variabelen zijn er? – Chapter 2
Wat zijn variabelen en hoe kun je ze meten?
Elk meetbaar kenmerk van een subject heet een variabele. Het is een kenmerk dat kan variëren in waarde tussen verschillende subjecten in een steekproef of populatie (bijvoorbeeld geslacht, inkomen, mening). Het nut van variabelen is dat ze de spreiding weergeven, hoeveel een waarde varieert. Bijvoorbeeld het aantal biertjes dat studenten per week consumeren. De waarden die een variabele kan aannemen, vormen de meetschaal ofwel het meetniveau. Er zijn verschillende meetniveaus; verschillende manieren om variabelen in te delen.
Ten eerste zijn er kwantitatieve en categorische variabelen. Kwantitatieve variabelen hebben een meetniveau met numerieke waarden, zoals leeftijd, aantal broers en zussen, inkomen. Categorische variabelen (ook wel kwalitatieve variabelen genoemd) hebben een meetniveau met categorieën, zoals geslacht, burgerlijke staat, religie. Hier is ook te zien hoe de meetniveaus zijn verbonden aan de statistische analyses: bij kwantitatieve variabelen kun je wel een gemiddelde berekenen (bijvoorbeeld de gemiddelde leeftijd), en bij categorische variabelen kan dat niet (het gemiddelde geslacht valt bijvoorbeeld niet te berekenen).
Vervolgens zijn er vier meetniveaus: nominaal, ordinaal, interval en ratio. Categorische variabelen zijn nominaal of ordinaal:
- Het nominale meetniveau is puur beschrijvend. Neem de variabele geslacht. De mogelijke waarden hierop zijn man en vrouw. Er is geen volgorde waar te nemen, de ene waarde is niet hoger dan de andere. Het is een puur beschrijvend verschil.
- Het ordinale meetniveau veronderstelt een bepaalde volgorde. Neem de variabele stemgedrag. De mogelijke waarden zijn extreemlinks, links, centrum, rechts en extreemrechts. Hier is het wel degelijk zo dat er een volgorde in zit, omdat extreemrechts meer rechts is dan rechts, en dat weer meer rechts is dan centrum etc. Dit is daarom een ordinaal meetniveau. Belangrijk hierbij is echter dat de afstanden tussen de waarden niet aan te duiden zijn: je kunt niet aangeven hoe groot het verschil is tussen rechts en extreemrechts. Dit is belangrijk, omdat het een kenmerkend verschil is tussen het ordinaal meetniveau en het interval meetniveau.
Kwantitatieve variabelen hebben een interval meetniveau of een ratio meetniveau:
- Het interval meetniveau heeft meetbare verschillen tussen de waarden. Neem de variabele temperatuur in Celcius. Niet alleen zit er een volgorde in (30 graden is meer dan 20 graden), maar dit verschil is ook duidelijk meetbaar en consistent. Het verschil tussen 10 en 20 graden is even groot als het verschil tussen 15 en 25 graden.
- Het onderscheid tussen interval en ratio meetniveau ligt in het feit dat het interval meetniveau geen nulpunt kent, terwijl ratio dat wel heeft. Het ratio meetniveau kent dus waarden die numeriek zijn, een bepaalde volgorde hebben, meetbare verschillen hebben, en tot slot een nulpunt hebben. Een voorbeeld is een percentage of inkomen.
Tot slot is er een onderscheid tussen discrete en continue variabelen. Een variabele is discreet wanneer de mogelijke waarden alleen bepaalde, afzonderlijke nummers zijn. Een variabele is continu wanneer de waarden alle mogelijke waarden kunnen aannemen. Neem bijvoorbeeld de variabelen aantal broers en zussen (een discrete variabele) en gewicht (een continue variabele). Aantal broers en zussen is een discrete variabele omdat de mogelijke waarden 0, 1, 2, 3, etc. kunnen zijn, maar geen 2,43 broer/zus. Dus niet alle waarden zijn hier mogelijk. Bij gewicht kan dit echter wel. Je kunt daar (in theorie) alle mogelijke waarden op hebben. Je kunt 70 kilo wegen, maar ook 70,1 en 70,5 en 70,52. Het is bij zo’n variabele onmogelijk om alle mogelijke waarden op te schrijven, omdat het te veel mogelijkheden zijn.
Categorische variabelen (nominaal of ordinaal) zijn discrete variabelen omdat ze een beperkte hoeveelheid categorieën hebben. Kwantitatieve variabelen kunnen zowel discreet als continu zijn. In de praktijk is het zo dat kwantitatieve variabelen die veel mogelijke waarden aan kunnen nemen, worden beschouwd als continue variabelen.
Hoe werkt randomisatie?
Randomisatie is het mechanisme achter het verkrijgen van een representatieve steekproef. Bij simpele random steekproeftrekking (of: aselecte steekproef) heeft ieder subject uit de populatie een even grote kans om in de steekproef terecht te komen. Je kunt het zien alsof je ieder lid van de populatie een nummer geeft, deze in een bak doet en er vervolgens willekeurig een aantal uittrekt. Deze willekeur is belangrijk, omdat je er zeker van moet zijn dat je data niet biased (vertekend) is. Dit zou de inferentiële statistiek nutteloos maken: je kunt dan niets zeggen over de populatie.
Om een willekeurige steekproef (random sample) te trekken, is er eerst een lijst nodig van alle subjecten in de populatie, een sampling frame. Vervolgens krijgen de subjecten een nummer en worden er willekeurig nummers aangewezen. Het aanwijzen van willekeurige nummers kan met software worden gedaan, bijvoorbeeld met R. In R gebruik je de volgende formule:
> sample(1:60, 4) #
[1] 22 47 38 44 #
Hierbij is > de opdrachtprompt, de indicatie voor het programma dat het een taak uit moet voeren. In het voorbeeld wil je vier willekeurige subjecten selecteren uit een lijst van 60 subjecten. Wat het programma vervolgens voor je doet, is vier willekeurige subjecten aanwijzen: nummers 22, 47, 38 en 44.
Data kan verzameld worden aan de hand van enquêtes, experimenten en observatiestudies. Bij al deze methoden kan randomisatie een rol spelen.
- Er zijn verschillende typen enquêtes, zoals telefonische enquêtes, persoonlijke vragenlijsten. Elke manier van data verzamelen heeft uitdagingen op het gebied van representativiteit.
- Het doel van experimenten is de reacties meten en vergelijken van subjecten onder verschillende condities. Deze condities zijn waarden van een variabele die de reactie kunnen beïnvloeden. De onderzoeker kan bepalen welke subjecten aan welke condities worden blootgesteld. Dat is waar randomisatie een rol speelt. De onderzoeker moet op basis van willekeur de groepen indelen. In een experimental design legt de onderzoeker vast welke subjecten aan welke behandelingen/omstandigheden zullen worden blootgesteld.
- Bij observatiestudies (observational studies) meet de onderzoeker waarden van bepaalde variabelen, zonder de situatie te beïnvloeden of manipuleren. Op basis van willekeur wordt bepaald wie er wordt geobserveerd. Het risico van deze methode is dat er mogelijk een variabele over het hoofd wordt gezien die de uitkomsten beïnvloedt.
Hoe beperk je de steekproefvariabiliteit en mogelijke vertekening?
Bij een steekproef is het belangrijk dat deze representatief is voor de populatie. Een meting moet valide zijn, wat inhoudt dat vooraf beschreven wordt wat je wil weten en dat de meetmaten accuraat het concept weergeven. Ook moet een meting betrouwbaar zijn, wat inhoudt dat de meting consistent is en een subject dezelfde respons zou geven als dezelfde vraag nogmaals gesteld wordt. In de praktijk zijn er echter allerlei factoren die een onderzoek kunnen beïnvloeden.
Ook al trek je meerdere volledig willekeurige steekproeven, dan nog zijn deze verschillend en wijken ze allebei anders af van de populatie. Het verschil heet de steekproeffout (sampling error); de mate waarin de statistiek (die voortvloeit uit een steekproef) verschilt van de parameter die de waarde in de populatie voorspelt. Met andere woorden, de steekproeffout geeft het percentage aan waarin de steekproef af kan wijken van de daadwerkelijke populatie. Bijvoorbeeld: in de populatie staat 66% achter het beleid van de regering, maar in de steekproef is dat 68%. De steekproeffout is in dat geval 2%. Verschillende steekproeven hebben verschillende steekproeffouten. In de meeste gevallen is de steekproeffout bij steekproeven van meer dan 1000 subjecten beperkt tot ongeveer 3%. Dit heet de foutmarge (margin of error), een term die vaak terugkomt in de statistiek omdat deze de kwaliteit van een onderzoek aan kan duiden.
Naast de steekproeffout zijn er nog andere factoren die de resultaten uit een random steekproef kunnen laten variëren. Er worden er hier drie besproken: de steekproef bias, de response bias en de non-response bias:
- Bij probability sampling (kanssteekproeven) is de waarschijnlijkheid van elke mogelijke steekproef bekend. Bij nonprobability sampling is dit echter niet bekend. De betrouwbaarheid is dan onbekend en dan ontstaat er steekproefbias. De steekproefbias is dus het geval wanneer het niet mogelijk is om vast te stellen dat alle leden uit de populatie een even grote kans hebben om in de steekproef te komen. Een voorbeeld hiervan is wanneer mensen worden opgeroepen om mee te doen aan een onderzoek. Je krijgt dan alleen vrijwilligers. Maar deze vrijwilligers kunnen op belangrijke variabelen verschillen van de mensen die zich niet aanmelden. Zij vertekenen dan de steekproefdata. De afwijking die deze vrijwilligers veroorzaken, heet selectiebias.
- Wanneer vragen in een enquête of interview slecht worden gesteld of in een ongelukkige volgorde, ontstaat er response bias. Een voorbeeld is het opwekken van sociaal wenselijke antwoorden, door vragen als: “Bent u het er ook mee eens dat…?”. Respondenten willen het liever niet oneens zijn met de onderzoeker en zullen eerder instemmen, terwijl ze dat misschien eigenlijk niet willen. Ook de neiging in het algemeen om antwoorden te geven die de interviewer waarschijnlijk prefereert, valt onder response bias.
- De non-response bias treedt op bij uitval en missing data. Sommige mensen kiezen ervoor om geen antwoord te geven op bepaalde vragen, om uiteenlopende redenen. Ook vallen sommige respondenten halverwege een onderzoek uit. Deze mensen kunnen op belangrijke variabelen verschillen van de overblijvers. Dit kan de data vertekenen, zelfs bij een random steekproef.
Welke methoden zijn er voor kanssteekproeven?
Behalve simpele random steekproeven zijn er ook andere methoden. Het doen van een volledig aselecte steekproef is niet altijd mogelijk. Soms is het wenselijker of makkelijker om dat niet te doen. Er zijn ook andere methoden waarbij er toch nog sprake is van probability sampling (waarbij de waarschijnlijkheid van iedere steekproef bekend is) en van randomisatie (waarbij het doel een representatieve steekproef is).
Bij een systematische willekeurige steekproef worden de subjecten die in de steekproef moeten komen op systematische wijze gekozen, namelijk door telkens een bepaald aantal subjecten over te slaan. Een voorbeeld hiervan is elk tiende huis in een straat selecteren. De formule hiervoor is:
\[k=\frac{N}{n}\]
- De k is hierbij het skip number, het subject dat wordt geselecteerd nadat een aantal subjecten zijn overgeslagen
- N is de populatie
- n is de steekproefgrootte.
Een gestratificeerde steekproef verdeelt de populatie in groepen, ook wel strata genoemd. Vervolgens wordt uit elk stratum willekeurig een aantal subjecten gekozen die samen de steekproef gaan vormen. Zo’n steekproef kan proportioneel of disproportioneel zijn. Bij een proportionele gestratificeerde steekproef zijn de proporties in de strata gelijk aan de proporties in de populatie. Bijvoorbeeld wanneer in de populatie 60% man is en 40% vrouw, dan moet dat in de steekproef ook zo zijn. Soms is het echter beter om een disproportionele gestratificeerde steekproef te doen. Stel je voor dat er een steekproef van 100 subjecten is, en dat in de populatie slechts 10% vrouw is. Dan zouden er anders ook maar 10 vrouwen in de steekproef zitten. Zo’n aantal is alleen te klein om representatief te zijn en dan valt er niks zeggen over de populatie. Het is dan beter om voor een disproportionele gestratificeerde steekproef te kiezen.
Bovenstaande steekproeven vereisen echter dat je toegang hebt tot de gehele populatie. Maar in de realiteit is dat niet altijd zo. Dan kan je beter een clustersteekproef doen. Hierbij verdeel je de populatie onder in clusters (bijvoorbeeld stadsblokken), en vervolgens kies je er willekeurig een cluster uit. Het verschil met gestratificeerde steekproeven is dat niet elk cluster gerepresenteerd wordt.
Een getrapte steekproef ('multistage sample') bestaat uit meerdere, gelaagde steekproeftrekkingen. Er worden bijvoorbeeld eerst willekeurig een aantal provincies gekozen, vervolgens worden daar willekeurig een aantal steden in gekozen, en daarin worden willekeurig een aantal straten gekozen.
Hoe werkt beschrijvende statistiek? - Chapter 3
Welke tabellen en grafieken worden gebruikt voor beschrijvende statistiek?
Beschrijvende statistiek dient om een overzicht te creëren van de data en deze samen te vatten. Er moet onderscheid gemaakt worden tussen kwantitatieve en categorische data. Bij deze typen data kunnen niet altijd dezelfde beschrijvende statistieken gebruikt worden.
Bij categorische data is het voor het overzicht het makkelijkst als de categorieën in een lijst staan met achter iedere categorie de frequentie (hoe vaak een waarde voorkomt). Om de categorieën beter met elkaar te kunnen vergelijken, worden vaak ook de relatieve frequenties weergegeven. De relatieve frequentie van een categorie geeft aan hoe vaak een subject binnen deze categorie valt, in vergelijking tot het geheel. Dit is te berekenen als percentage of als proportie. Het percentage is het totale aantal observaties binnen die categorie, gedeeld door het totale aantal observaties * 100. Er kunnen ook proporties berekend worden. Dat gaat op dezelfde manier, maar dan vermenigvuldig je niet met 100. De som van alle proporties moet uiteindelijk 1.00 zijn, en de som van alle percentages moet 100 zijn.
Frequenties zijn weer te geven met een frequentiedistributie. Een frequentiedistributie is een weergave van een lijst met alle mogelijke waarden van een variabele en het aantal observaties van elke waarde. Nog meer informatie wordt weergegeven in een relatieve frequentiedistributie, waarin ook de verhoudingen ten opzichte van het geheel worden getoond. Een voorbeeld hiervan is een relatieve frequentietabel.
Voorbeeld (relatieve) frequentietabel:
Geslacht | Frequentie | Proportie | Percentage |
Man | 150 | 0.43 | 43% |
Vrouw | 200 | 0.57 | 57% |
Totaal | 350 (=n) | 1.00 | 100% |
Naast tabellen wordt ook vaak gebruik gemaakt van meer visuele weergaven, zoals staafdiagrammen, taartdiagrammen, histogrammen en steelbladdiagrammen.
- Een staafdiagram wordt gebruikt bij categorische variabelen en geeft per categorie een staaf weer. De staven zijn van elkaar gescheiden om aan te geven dat er geen sprake is van kwantitatieve variabelen.
- Een taartdiagram wordt ook gebruikt bij categorische variabelen, elke categorie wordt gerepresenteerd door een stuk van de taart. Als de waarden echter dicht bij elkaar liggen, geven staafdiagrammen de verschillen duidelijker weer dan taartdiagrammen.
Voor kwantitatieve variabelen kunnen ook frequentietabellen en visuele weergaven gebruikt worden. Bij frequentietabellen worden dan niet de categorieën weergegeven maar de intervallen. Van elk interval kan de frequentie worden getoond, de proportie van het geheel en het percentage.
- Een histogram is een grafiek waarin de frequentiedistributie van een kwantitatieve variabele wordt getoond. Bij weinig waarden kun je per waarde een staaf weergeven, bij veel waarden is het overzichtelijker om ze in te delen in intervallen.
- Een steelbladdiagram (stem-and-leaf plot) geeft elke observatie weer met een steel en een blad; twee nummers die achter elkaar de observatie weergeven. Een steelbladdiagram is eigenlijk alleen nuttig als je weinig data snel wilt weergeven.
Wanneer visuele weergaven worden toegepast op een populatie spreekt men van een populatiedistributie; wanneer ze worden toegepast op een steekproef is dat een steekproefdistributie. De data kunnen worden weergegeven met een curve in een grafiek. Hoe groter de steekproef is en hoe meer data er beschikbaar is, hoe meer de grafiek lijkt op de curve van de gehele populatie.
De vorm van een grafiek geeft informatie over de verdeling (of distributie) van de data. De meest voorkomende vorm is de normale verdeling (ook wel normale distributie genoemd), een soort opstaande bel-vorm. Deze is symmetrisch. Als de x-as de waarde van een variabele aangeeft, geeft de y-as de relatieve frequentie aan dat die waarde voorkomt. Het hoogste punt ligt in het midden, de middelste waarde komt dus het vaakst voor.
Een andere mogelijkheid is een grafiek in de vorm van een U. De waarden die dan het meest voorkomen, zijn de hoogste en laagste scores, wat polarisatie aangeeft.
De twee uitersten van de curve worden staarten genoemd (tails). Wanneer de ene staart langer is dan de andere, en de verdeling dus niet symmetrisch van vorm, is de verdeling linksscheef of rechtsscheef (skewed).
Hoe bereken je centrummaten (gemiddelde, mediaan en modus)?
Centrummaten geven een idee over waar het midden van de data ligt van een frequentiedistributie van een kwantitatieve variabele. De meest bekende is het gemiddelde: de som van de observaties gedeeld door de totale hoeveelheid observaties. Bijvoorbeeld: een variabele (y) heeft de waarden 34 (y1), 55 (y2) en 64 (y3). Het gemiddelde (ȳ) is (34 + 55 + 64)/3 = 51. Het gemiddelde spreek je uit als y-streepje.
De berekening van het gemiddelde ziet er in een formule als volgt uit:
\[\bar{y}=\frac{\sum{y_i}}{n}\]
Het symbool ∑ is de Griekse hoofdletter sigma, dit betekent de som van hetgeen wat erachter staat. De kleine letter i betekent 1 tot n (de steekproefgrootte). Dus ∑ yi betekent y1 + y2 + … + yn (dit zijn dus alle observaties bij elkaar opgeteld).
Het gemiddelde kan alleen gebruikt worden bij kwantitatieve data en is zeer gevoelig voor uitschieters (outliers, ook wel uitbijters genoemd); bijzonder hoge of bijzonder lage waarden.
In geval van meerdere steekproeven (n1 en n2), kunnen er meerdere gemiddeldes worden berekend, te noteren als ȳ1 en ȳ2.
Een tweede centrummaat is de mediaan. De mediaan is de middelste observatie. Als een variabele bijvoorbeeld de waarden 1, 3, 5, 8 en 10 heeft, dan is de mediaan 5. Indien er een even aantal observaties is, bijvoorbeeld 1, 3, 8 en 10, dan is de mediaan (3 + 8)/2 = 5,5.
De mediaan heeft een aantal eigenschappen om rekening mee te houden:
- Behalve kwantitatieve data is de mediaan ook geschikt voor categorische data met een ordinaal meetniveau, omdat er een zekere orde in de observaties nodig is voor de mediaan.
- Bij volledige symmetrische data zouden de mediaan en het gemiddelde hetzelfde moeten zijn.
- Bij een scheve verdeling ligt het gemiddelde, ten opzichte van de mediaan, dichter bij de staart.
- De mediaan is niet gevoelig voor uitschieters. Dit is zowel iets positiefs als iets negatiefs. Het is positief, want als er één uitschieter in de data zit, geeft de mediaan geen vertekend beeld. Maar het is ook negatief, want variabelen kunnen van elkaar variëren met een enorme spreiding, terwijl de mediaan dan soms dezelfde middenwaarde aangeeft.
Het voordeel van de mediaan tegenover het gemiddelde is dat de mediaan een representatiever beeld geeft van de steekproef als er uitschieters zijn. De mediaan geeft meer informatie als de verdeling erg scheef is. Er zijn echter ook gevallen waarbij de mediaan minder handig is om te gebruiken. Als de data enkel binair is (alleen 0 of 1), dan is de mediaan de proportie van het aantal keer dat 1 geobserveerd wordt. Ook in andere gevallen waarin de data erg discreet is, geeft het gemiddelde een beter beeld van de data dan de mediaan.
Een derde maat is de modus: de waarde die het vaakst voorkomt. Deze is het nuttigst bij erg discrete variabelen, vooral bij categorische data, maar kan in principe voor alle typen gebruikt worden. De modus is ook nuttig bij bimodale distributies, waarbij de verdeling twee pieken heeft, bijvoorbeeld bij een opinieonderzoek waarin respondenten ofwel sterk tegen iets zijn ofwel sterk voor.
Hoe geef je de spreiding van data weer?
Naast het gebruik van centrummaten is het goed om ook de spreiding (ofwel variabiliteit) van de data te beschrijven. Je beschrijft dan de variabiliteit van de waardes van een variabele uit de data, bijvoorbeeld de spreiding van het inkomen van de respondenten. Er zijn verschillende manieren om de spreiding weer te geven.
Ten eerste kan het bereik (range) worden vermeld: het verschil tussen de laagste en de hoogste observatie. Bijvoorbeeld: de waarden 4, 10, 16 en 20. Het bereik is 20 – 4 = 16.
De meest gebruikte methode om de spreiding weer te geven, is echter de standaarddeviatie (s). Een deviatie in het algemeen is het verschil tussen een gemeten waarde (yi) en het gemiddelde van de steekproef (ȳ), ofwel (yi – ȳ). Elke observatie heeft zijn eigen deviatie. Deze kan zowel positief als negatief zijn. Hij is positief wanneer de observatie een hogere waarde heeft dan het gemiddelde, en negatief wanneer deze een lagere waarde heeft dan het gemiddelde. Behalve dat je dit voor iedere observatie apart kan doen, kan je ook de standaarddeviatie van een variabele berekenen, door de som te nemen van alle losse deviaties. Hierbij hoort de volgende formule:
\[s=\sqrt{\frac{\sum{(y_i-\bar{y})^2}}{n-1}}\]
Het bovenste gedeelte van de formule, namelijk ∑ (yi – ȳ)2 wordt som van de kwadraten (sum of squares) genoemd. Dit gedeelte is belangrijk, het kwadrateert de afzonderlijke deviaties van de observaties. Hoe groter de afzonderlijke deviaties, hoe groter de standaarddeviatie. De informatie die de standaarddeviatie geeft, is hoeveel een observatie typisch afwijkt van het gemiddelde, en dus hoe groot de spreiding van de data is. Als de standaarddeviatie 0 is, dan is er helemaal geen variabiliteit in de data.
De variantie is:
\[s^2=\sqrt{\frac{\sum{(y_i-\bar{y})^2}}{n-1}}\]
De variantie is het gemiddelde van de kwadraten van de deviaties. De standaarddeviatie wordt vaker gebruikt om de spreiding aan te geven dan de variantie.
Als er data beschikbaar is voor de gehele populatie, dan wordt bij het berekenen van de standaarddeviatie geen n-1 gebruikt maar de populatiegrootte.
Er is een vuistregels voor het interpreteren van s, deze regel heet de empirische regel:
- Ten eerste ligt 68% van de data tussen ȳ – s en ȳ + s.
- Ten tweede ligt 95% tussen de ȳ – 2s en ȳ + 2s.
- Ten derde vallen vrijwel alle observaties tussen ȳ – 3s en ȳ + 3s.
Deze regel uit de praktijk is vooral bruikbaar bij distributies in de vorm van een bel. In een voorbeeld: stel ȳ = 3 en s = 1,5. Dan valt 68% tussen 1,5 en 4,5. Dan valt 95% van de observaties tussen 0 en 6. En vrijwel alle observaties liggen tussen de -1,5 en 7,5.
Outliers hebben een groot effect op de standaarddeviatie.
Hoe kun je een distributie weergeven met kwartielen en andere op positie georiënteerde meetmaten?
Distributies kun je uitdrukken aan de hand van allerlei posities. Een manier om een distributie in te delen, is bijvoorbeeld in percentielen. Het pde percentiel is het punt waarbij p% van de observaties onder of op dat punt vallen en de rest van de observaties, namelijk (100-p)%, erboven. Let op, met percentiel wordt specifiek dat punt op de grafiek bedoeld, niet een deel van de grafiek.
Een andere manier om een distributie in te delen, is in vieren. Het 25e percentiel heet dan het eerste kwartiel (in het Engels lower quartile) en het 75e percentiel heet het derde kwartiel (in het Engels upper quartile). De helft van de data ligt hiertussen en wordt de interkwartielafstand genoemd (afgekort IQR). De mediaan verdeelt de IQR in tweeën. Het eerste kwartiel is de mediaan van de eerste helft en het derde kwartiel is de mediaan van de tweede helft. Het voordeel van de IQR tegenover het bereik en de standaarddeviatie is dat de IQR niet gevoelig is voor uitschieters.
Om een distributie weer te geven, kam de vijf-getallensamenvatting worden gebruikt: minimum, eerste kwartiel, mediaan, derde kwartiel en maximum. Deze vijf posities kun je tonen in een boxplot, een grafiek die aan de hand van deze vijf posities de spreiding weergeeft.
De lijnen die naar het minimum en maximum lopen, heten de whiskers. Als er extreme uitschieters zijn, worden ze aangeduid met een rondje buiten de whiskers. Een observatie wordt als uitschieter beschouwd wanneer deze zich meer dan 1,5 interkwartielafstand onder het eerste kwartiel of boven het derde kwartiel bevindt. In een boxplot zijn de uitschieters erg duidelijk te zien, dit is handig voor de onderzoeker omdat uitschieters een indicatie kunnen zijn dat er iets niet klopt of dat er nogmaals naar de onderzoeksmethoden moet worden gekeken.
Om twee of meerdere groepen te vergelijken voor een variabele, kunnen meerdere soorten grafieken worden gebruikt. Voorbeelden zijn een relatieve frequentiedistributietabel, histogram of twee boxplots naast elkaar.
Een andere positie is de z-score. Dit is het aantal standaarddeviaties dat een waarde afligt van het gemiddelde. De formule hiervoor is: z = (observatie – gemiddelde) / standaarddeviatie. In tegenstelling tot andere posities, geeft de z-score informatie over een afzonderlijke waarde.
Hoe heet statistiek met meerdere variabelen?
In statistiek wordt vaak de associatie tussen twee variabelen onderzocht; of de ene variabele invloed heeft op de andere variabele. Dit heet een bivariate analyse.
Meestal wordt het effect bestudeerd dat een verklarende variabele (ofwel onafhankelijke variabele) heeft op een responsvariabele (ofwel afhankelijke variabele). De uitkomst van de responsvariabele wordt uitgelegd door de verklarende variabele.
De invloed die een variabele heeft op een andere variabele, kan op verschillende manieren visueel worden weergegeven. Een kruistabel (contingency table) bestaat uit rijtjes met de uitkomsten van de combinatie van variabelen. Een puntgrafiek (scatterplot) is een grafiek met op de x-as de verklarende variabele en op de y-as de responsvariabele. Een puntgrafiek heeft voor elke uitkomst waarbij aan de twee variabelen wordt voldaan een puntje. De sterkte van de associatie wordt de correlatie genoemd. Met regressieanalyse kan worden voorspeld wat de waarde van y is bij een gegeven waarde x. Als er een associate is tussen variabelen, betekent dit echter niet per se dat er ook een causaal verband is. Er kan ook sprake zijn van meerdere variabelen, dan is multivariate analyse nodig.
Hoe maak je in formules het verschil tussen de steekproef en de populatie duidelijk?
Een belangrijk onderscheid is dat tussen de statistiek die enkel de steekproef beschrijft, en de parameter die de gehele populatie beschrijft. Griekse letters worden gebruikt voor de populatieparameters, Romeinse letters voor de steekproefstatistieken. Bij een steekproef is ȳ het gemiddelde en s de standaarddeviatie. Bij een populatie is μ het populatiegemiddelde en σ de standaarddeviatie van de populatie. Het gemiddelde en de standaarddeviatie van een steekproef kun je ook behandelen als variabelen. Bij een populatie kan dat niet, omdat er slechts een populatie is.
Hoe gebruik je kansverdelingen voor statistische inferentie? - Chapter 4
Wat zijn de basisregels van kansen?
Willekeur is erg belangrijk bij het verzamelen van data, het idee dat er bekend is welke observaties mogelijk zijn, maar nog niet bekend welke er daadwerkelijk voor gaan komen. Kansen spelen daar een rol. De kans (probability) is de proportie van het aantal keren dat een bepaalde observatie voorkomt in een lange sequentie van soortgelijke observaties. De lange sequentie is hierbij belangrijk: naarmate deze langer is, wordt de kans steeds nauwkeuriger. De proportie uit de steekproef gaat dan steeds meer lijken op de proportie uit de populatie. Kansen kunnen ook worden weergegeven in percentages (bijvoorbeeld 70%) in plaats van in proporties (bijvoorbeeld 0.7). Een specifieke tak binnen de statistiek gaat uit van subjectieve kansen, deze tak heet Bayesiaanse statistiek. Het merendeel van de statistiek draait echter om de reguliere kansrekening.
Een kans schrijf je vaak zo op: P(A). Hierbij is P de kans op uitkomst A. Stel dat er twee mogelijke uitkomsten zijn die elkaar uitsluiten: A (getrouwd) en B (niet getrouwd). Dan schrijf je de kans op A als P(A). De kans op B staat gelijk aan 1 – P(A).
Stel dat je wilt weten of de meeste mensen blauw of rood als lievelingskleur hebben. Laten we weer aannemen dat het gaat om elkaar uitsluitende mogelijkheden zonder overlap. De kans dat iemand rood (A) of blauw (B) als lievelingskleur heeft, is dan P(A of B) = P (A) + P (B).
Stel dat er meerdere vragen worden gesteld en je wilt weten hoeveel van de getrouwde mensen ook kinderen hebben. Dan vermenigvuldig je de kans dat iemand is getrouwd (A) met de kans dat iemand kinderen heeft (B). De formule ziet er als volgt uit: P(A én B) = P(A) * P(B als ook A). Omdat er hierbij een verband is tussen A en B, heet het een conditionele kans.
Stel dat je meerdere mogelijkheden wilt onderzoeken die geen verband hebben. De kans dat zowel willekeurige persoon A graag truien draagt en de kans dat ook persoon B graag truien draagt, is dan P (A en B) = P (A) x P (B). Het gaat hier om onafhankelijke kansen.
Wat is het verschil in kansverdelingen bij discrete en continue variabelen?
Een willekeurige variabele houdt in dat de uitkomst van observatie tot observatie kan verschillen, maar in de praktijk wordt dit vaak gewoon een variabele genoemd. Een discrete variabele heeft vastgestelde mogelijke waarden. Een continue variabelen kent ontelbare mogelijke waarden. Omdat een kansverdeling de kansen weergeeft bij elke waarde van een variabele, gebeurt dit op verschillende wijze voor discrete en continue variabelen.
Bij een discrete variabele geeft de kansverdeling de kansen weer bij elke mogelijke waarde van de variabele. Elke kans is een getal tussen de 0 en de 1. De som van alle kansen staat gelijk aan 1. De kansen kunnen worden genoteerd als zijnde P(y). Hierbij is P de kans op een bepaalde waarde van y. In formule ziet dit er als volgt uit: 0 ≤ P(y) ≤ 1, en ∑alle y P(y) = 1.
Omdat een continue variabele een ontelbaar aantal mogelijke waarden heeft, kan de kansverdeling niet bij elke waarde een kans tonen. Daarom geeft deze de kans weer van intervallen van mogelijke waarden. De kans dat een waarde binnen een bepaald interval ligt, ligt tussen de 0 en de 1. De kans dat alle mogelijke waarden binnen het interval liggen, is 1. Deze kansverdelingen worden weergegeven in een curve. Stel dat in een interval (zoals op de afbeelding) 20% van de data bevindt, dan is de kans dat een waarde zich binnen dat interval bevindt 0,20.
\[\mu=\sum{yP(y)}
Net zoals bij een populatiedistributie, heeft een kansverdeling voor de populatie parameters die de data beschrijven. Het gemiddelde beschrijft dan de centrale kans en de standaarddeviatie de variabiliteit. Het gemiddelde van de populatiedistributie bij een discrete variabele kan worden berekend met de volgende formule: µ = ∑ y P(y). In woorden: je vermenigvuldigt alle mogelijke waarden met hun kansen, en deze tel je bij elkaar op. Deze parameter wordt ook wel de ‘verwachte waarde van y’ genoemd, en wordt genoteerd als E(y). De standaarddeviatie van een populatiedistributie wordt op dezelfde manier berekend als bij een steekproef.
Hoe werkt de normale verdeling precies?
De normale verdeling is een belangrijke kansverdeling, omdat veel variabelen er in de werkelijkheid zo uit zien en omdat er heel veel statistische voorspellingen mee gedaan kunnen worden. De normale verdeling is symmetrisch, heeft een belvorm en heeft een gemiddelde (µ) en een standaarddeviatie (σ). De empirische regel is erop van toepassing: 68% valt binnen 1 standaarddeviatie, 95% valt binnen 2 standaarddeviaties en 97% valt binnen 3 standaarddeviaties.
Behalve dat er bij 1, 2 en 3 standaarddeviaties vaste percentages horen, kan dat natuurlijk ook voor 1,5 of 1,7 of 1,9 (etc.) standaarddeviatie. Deze proporties en standaarddeviaties staan allemaal vast. Meestal wordt de hoeveelheid standaarddeviaties aangegeven met de waarde z.
Er is bijvoorbeeld een variabele met µ = 18 en σ= 6. Je wilt weten hoe groot de proportie is die hoger heeft gescoord dan 30. De observatie is dus y = 30. Deze y moet je omzetten in een z-score. Dat doe je door (y - µ) / σ. In dit geval is z = (30 – 18) / 6 = 2. Nu kan worden opgezocht welke p-waarde (kans) er hoort bij een z = 2. Kansen zoeken voor een normale verdeling kan met R, SPSS, Stata of SAS. Als een curve symmetrisch is gevormd, is er sprake van zogenaamde cumulatieve kansen, dit betekent dat z links en rechts dezelfde afstand heeft tot het gemiddelde. De formule is:
\[z=\frac{y-\mu}{\sigma}\]
De z-score is het aantal standaarddeviaties dat de variabele y van het gemiddelde afligt; ofwel in hoeverre er wordt afgeweken. Bij een positieve z-score valt y boven het gemiddelde, bij een negatieve score eronder. Als onder studenten het gemiddelde cijfer voor het vak Geschiedenis van de psychologie bijvoorbeeld een 6 is, dan heeft de student die een 7 heeft een kleine maar positieve z-score en de student die een 3 heeft een erg negatieve z-score.
Andersom berekenen kan ook: als de kans P bekend is en de waarde y nog niet. Als de kansen in een kansverdeling worden weergegeven, kan de z-score worden gevonden met behulp van software. De formule voor het vinden van y is dan:
\[y=\mu+z*\sigma\]
Een normale verdeling kun je omzetten naar een standaardnormale verdeling, dit is een bepaalde distributie die vaak gebruikt wordt en die bestaat uit de z-scores. Je kunt een variabele y dus omzetten naar z door er het gemiddelde vanaf te trekken en vervolgens te delen door de standaarddeviatie. Wat overblijft, is een verdeling waarbij µ = 0 en σ = 1.
Een bivariate normale verdeling is een voorbeeld van een bivariate kansverdeling. Bij een verdeling met twee variabelen (y en x), zijn er twee gemiddelden (µy en µx) en twee standaarddeviaties (σy en σx). De covariantie is de manier waarop y en x samen variëren en heeft de volgende formule:
- Covariantie (x, y) = E[(x – µx)(y – µy)]
Wat is het verschil tussen een steekproefverdeling en een verdeling van de uitkomsten uit een steekproef?
Om te testen of een uitkomst, zoals een opinieonderzoek, een goeie representatie is van de populatie, kan een simulatie worden gebruikt. Met software kunnen willekeurige nummers worden gegenereerd.
Omdat soms niet bekend is hoe de populatie eruitziet, worden steekproeven gebruikt. De statistieken uit de steekproeven zeggen iets over de verwachte parameters uit de populaties. Een steekproefverdeling geeft de kansverdeling van steekproefgrootheden (het is niet de verdeling van de uitkomsten in een steekproef). Elke statistiek heeft een steekproefverdeling (zoals een voor de mediaan, voor het gemiddelde, etc.). Het is een kansverdeling die de kansen weergeeft van de mogelijke uitkomsten van een statistiek.
Het nut van een dergelijke steekproefverdeling is inschatten hoe dicht een statistiek ligt bij de voorspelde parameter. Een steekproefverdeling van een statistiek gebaseerd op n observaties is de relatieve frequentieverdeling van die statistiek, die het resultaat is van herhaalde steekproeftrekking van n, waarbij steeds de statistiekwaarde wordt berekend. Je kunt zo’n steekproefverdeling zelf maken door herhaalde steekproeftrekking, maar over het algemeen is de vorm van de verdeling wel bekend. Hiermee kun je dan de kansen van een waarde van een statistiek van een steekproef opzoeken bij een aantal (n) observaties.
Hoe werkt de steekproefverdeling van een steekproefgemiddelde?
Het gemiddelde is een veel gebruikte centrummaat. Maar wanneer het gemiddelde uit de steekproef bekend is, is nog niet bekend hoe dicht die ligt bij het gemiddelde van de populatie. Het is dus nog onbekend of ȳ = µ. Maar omdat de steekproefverdelingen al bekend zijn, kunnen er toch uitspraken over gedaan worden. Bijvoorbeeld dat er een hoge kans is dat ȳ binnen tien waarden van µ ligt. Echter, als er heel vaak een steekproef wordt getrokken, dan zal blijken dat het gemiddelde van deze steekproeven gelijk is aan het gemiddelde van de populatie. Het gemiddelde van een steekproefverdeling is dan ook gelijk aan het gemiddelde van de populatie.
De spreiding van de steekproefverdeling van ȳ wordt beschreven door de standaarddeviatie van ȳ, dit wordt de standaardfout van ȳ genoemd. Deze wordt genoteerd als σȳ. De standaardfout kan worden berekend aan de hand van de volgende formule:
\[\sigma_{\bar{y}}=\frac{\sigma}{\sqrt{n}}\]
Het nut van de standaardfout is aangeven hoeveel het gemiddelde per steekproef varieert, daarmee geeft de standaardfout informatie over hoe waardevol de steekproeven zijn.
Voor een willekeurige steekproef met grootte n, hangt de standaardfout van ȳ af van de standaarddeviatie van de populatie (σ). Uit de formule kan worden opgemaakt dat de standaardfout steeds kleiner wordt naarmate n groter wordt. Een grotere steekproef is dan ook een betere weergave van de populatie. Het feit dat het steekproefgemiddelde niet volledig overeenkomt met het populatiegemiddelde noemt men de steekproeffout. Deze wordt kleiner naarmate de steekproefgrootte (n) groter wordt.
De steekproeffout en de standaardfout zijn twee verschillende dingen. De steekproeffout is de aanduiding dat de steekproef en de populatie van elkaar verschillen wat betreft het gemiddelde. De standaardfout is een meting die aangeeft hoeveel steekproeven van elkaar verschillen wat betreft het gemiddelde.
Ongeacht de vorm van een populatiedistributie, de vorm van de steekproefverdeling van ȳ is altijd een belvorm, een normale verdeling. Dit wordt de centrale limietstelling genoemd. Ook al is de populatiedistributie zeer scheef verdeeld of heeft deze erg discrete waarden, dan nog heeft de steekproefverdeling een belvorm. Wanneer de populatie echter zeer scheef verdeeld is, moet de steekproef wel steeds groter worden om meer deze belvorm aan te nemen. Hoe schever de populatie verdeeld is, hoe groter de steekproef moet zijn. Voor kleine steekproeven gaat de centrale limietstelling niet per se op. Net als de standaardfout, kan de centrale limietstelling gebruikt worden om informatie te vinden over de steekproefverdeling en het steekproefgemiddelde ȳ. Omdat het om een normale verdeling gaat, kan de empirische regel bijvoorbeeld worden toegepast.
Hoe hangen de populatie, steekproefdata en steekproefverdeling met elkaar samen?
Omdat steekproeven trekken essentieel is voor statistiek, is het onderscheid tussen drie verdelingen erg belangrijk:
- De populatiedistributie beschrijft het geheel van de daadwerkelijke bevolking waaruit de steekproef wordt getrokken. De parameters µ en σ beschrijven het populatiegemiddelde en de standaarddeviatie van de populatie.
- De steekproefdataverdeling (sample data distribution) is de verdeling van de observaties die zijn gemaakt tijdens de steekproef. Het steekproefgemiddelde ȳ en de standaarddeviatie s van de steekproef beschrijven de curve.
- De steekproefverdeling (sampling distribution) geeft de kansen weer dat een statistiek van de steekproef, zoals het steekproefgemiddelde, bepaalde waarden heeft. Hiermee geeft het aan hoeveel steekproeven van elkaar kunnen verschillen.
Volgens de centrale limietstelling heeft de steekproefverdeling de vorm van een normale verdeling. Puur uit deze vorm kunnen gegevens worden afgeleid. De mogelijkheid om gegevens af te leiden, is de reden dat de normale verdeling zo belangrijk is binnen de statistiek.
Hoe maak je schattingen voor statistische inferentie? – Chapter 5
Hoe maak je puntschattingen en intervalschattingen?
Steekproefdata is te gebruiken voor het schatten van parameters die informatie geven over de populatie, zoals het gemiddelde en proporties. Bij kwantitatieve variabelen schat je het populatiegemiddelde (bijvoorbeeld hoeveel geld er gemiddeld is besteed aan medicijnen in een bepaald jaar). Bij categorische variabelen schat je populatieproporties voor de categorieën (bijvoorbeeld wie er wel of geen zorgverzekering heeft in een bepaald jaar).
Er zijn twee typen parameterschattingen:
- Puntschatting (een getal dat de beste schatting is).
- Intervalschatting (een interval rond een puntschatting, waarvan je denkt dat de populatieparameter erin valt).
Er is een verschil tussen een estimator (de schattingsmethode) en een estimate point (de schatting zelf). De estimator is het schatten op zich, het estimate (point) is het getal dat eruit komt. Zo is een steekproef een estimator voor de populatieparameter en is bijvoorbeeld 0.73 een schatting van de proportie van de populatie die gelooft in liefde op het eerste gezicht.
Een goede schatting heeft een steekproefdistributie die 1) gecentreerd is rond de parameter, en 2) een zo klein mogelijke standaardfout heeft. Een schatting is niet vertekend (unbiased) wanneer de steekproefdistributie gecentreerd is rond de parameter. Helemaal natuurlijk wanneer het steekproefgemiddelde ook daadwerkelijk de populatieparameter is. In dat geval is is ӯ (steekproefgemiddelde) gelijk aan µ (populatiegemiddelde). ӯ is dan een goede estimator voor µ.
Een schatting kan ook vertekend (biased) zijn en dan is het steekproefgemiddelde geen goede schatting van het populatiegemiddelde. Meestal zit het steekproefgemiddelde er dan onder, want de extremen in de steekproef kunnen nooit meer zijn dan die uit de populatie, alleen maar minder. Dus de distributie en variatie in de steekproef is dan kleiner, waardoor de steekproefvariatie de populatievariatie onderschat.
Het is ook wenselijk dat een estimator een kleine standaardfout heeft. Er is sprake van een efficiënte estimator wanneer de standaardfout kleiner is dan die van andere estimators (bijvoorbeeld als de standaardfout van de mediaan kleiner is dan de standaardfout van het gemiddelde).
Stel dat je een normale verdeling hebt. Bij een normale verdeling is de standaardfout van de mediaan 25% groter dan de standaardfout van het gemiddelde. Het gemiddelde van de steekproef ligt dichterbij het gemiddelde van de populatie dan de steekproefmediaan. Het steekproefgemiddelde is dan een efficiëntere estimator dan de steekproefmediaan.
Een goede estimator is onpartijdig (unbiased; de steekproefdistributie is gecentreerd rond de parameter) en efficiënt (kleinste standaardfout).
Meestal gebruik je gewoon het steekproefgemiddelde als estimator voor het populatiegemiddelde, de steekproefstandaarddeviatie als estimator voor de populatiestandaarddeviatie, etc. Dit wordt aangeduid door een circumflex (dakje) op een symbool, bijvoorbeeld:
\[\hat{\mu}\]
- betekent een schatting van het populatiegemiddelde µ.
Een betrouwbaarheidsinterval is een intervalschatting voor een parameter. In dit interval vallen betrouwbare schattingen van de parameter. Je kijkt hiervoor naar de distributie van de steekproef, wat vaak een normale verdeling is. Voor een betrouwbaarheidsinterval met 95% zekerheid, valt de schatting van de parameter binnen twee standaardfouten van het gemiddelde. In de praktijk vermenigvuldig je eerst de standaardfout met de z-waarde. De uitkomst tel je dan bij de puntschatting op en trek je van de puntschatting af, waarmee je twee getallen krijgt, die samen het betrouwbaarheidsinterval vormen. Je kunt nu met 95% zekerheid zeggen dat een populatieparameter tussen deze twee getallen ligt. De z-waarde maal de standaardfout noem je ook wel de foutmarge (margin of error).
Dus een betrouwbaarheidsinterval is: de puntschatting ± de foutmarge.
Het betrouwbaarheidsniveau is de kans dat de parameter daadwerkelijk binnen het betrouwbaarheidsinterval valt. Dit is een nummer dat bijna 1 is, zoals 0.95 of 0.99.
Hoe bereken je het betrouwbaarheidsinterval voor een proportie?
Nominale en ordinale variabelen zorgen voor categoriale data (bijvoorbeeld ‘mee eens’ en ‘niet mee eens’). Als je hier uitspraken over wilt doen, kun je geen gemiddelden berekenen. Je gebruikt dan proporties of percentages. Een proportie valt tussen de 0 en de 1, en een percentage tussen de 0 en de 100.
De onbekende proportie van een populatie wordt aangeduid met het teken: π. Dit kan bijvoorbeeld het deel van de bevolking zijn dat het eens is met de stelling dat er meer lantaarnpalen moeten komen. De steekproefproportie is de puntschatting van de populatieproportie. Hiermee schat je de populatie proportie. Je geeft de steekproefproportie aan met het teken:
\[\hat{\pi}\]
Aangezien de centrale limietstelling van toepassing is op de verdeling van het steekproefgemiddelde, heeft dit de vorm van een normale verdeling (want het gaat om een steekproefgrootheid). Omdat het een normale verdeling is, valt 95% binnen twee standaarddeviaties van het gemiddelde. Dit wordt gebruikt als het betrouwbaarheidsinterval. Voor het berekenen van een betrouwbaarheidsinterval is de standaardfout nodig. Omdat de standaardfout van de populatie vaak onbekend is, wordt de standaardfout van een schatting uit de steekproef gebruikt. Dit wordt aangeduid als se. De formule voor de schatting van de standaardfout vanuit de steekproef is:
\[se=\sqrt{\frac{\hat{\pi}(1-\hat{\pi})}{n}}\]
De z-waarde is hetgeen waarmee de standaardfout vermenigvuldigd moet worden. Bij een normale verdeling staat de kans op z standaardfouten van het gemiddelde gelijk aan het betrouwbaarheidsniveau. Voor een betrouwbaarheidsinterval van 95% en 99% is z gelijk aan 1.96 en 2.58. Een 95% betrouwbaarheidsinterval voor de proportie π wordt dan:
\[\hat{\pi}\pm 1.96(se)\]
De algemene formule voor een betrouwbaarheidsinterval is:
\[\hat{\pi}\pm z(se)\]
Betrouwbaarheidsintervallen worden afgerond tot twee getallen achter de komma.
Een grotere steekproef geeft een accurater betrouwbaarheidsinterval. Een grotere n zorgt voor een kleinere standaardfout, en een preciezer betrouwbaarheidsinterval. Meer specifiek: de steekproefgrootte moet verviervoudigen om de precisie te verdubbelen.
De foutkans (error probability) is de kans dat de parameter niet binnen het ingeschatte betrouwbaarheidsinterval valt. Dit wordt aangegeven met α (de Griekse letter alpha), en is 1 – betrouwbaarheidsniveau. Bij een betrouwbaarheidsniveau van 0.98 is de foutkans bijvoorbeeld 0.02.
Als de steekproef te klein is, zegt het betrouwbaarheidsinterval niet zoveel omdat de foutkans te groot is. Als vuistregel moeten minstens 15 observaties binnen een categorie vallen en minstens 15 observaties buiten een categorie.
Hoe bereken je het betrouwbaarheidsinterval voor een gemiddelde?
Een betrouwbaarheidsinterval berekenen voor een gemiddelde gaat op dezelfde manier als voor een proportie. Ook bij een gemiddelde is het betrouwbaarheidsinterval: puntschatting ± foutmarge. De foutmarge bestaat hier uit een t-score (in plaats van een z-score) maal de standaardfout. De t-score komt uit de t-distributie, een verdeling die betrouwbaarheidsintervallen geeft voor alle steekproefgroottes, zelfs hele kleine steekproeven. De standaardfout wordt berekend door de standaarddeviatie van de steekproef (s) te delen door de wortel van de steekproefgrootte (n). De puntschatting is in dit geval het steekproefgemiddelde ȳ.
De formule voor het berekenen van een 95% betrouwbaarheidsinterval voor een populatiegemiddelde µ met gebruik van de t-distributie is:
\[\bar{y}\pm t_{.025}(se)\]
waarbij
\[se=\frac{s}{\sqrt{n}}\]
en df = n – 1
Bij t-scores is het betrouwbaarheidsinterval wat wijder dan normaal. De t-distributie lijkt op de normale verdeling maar dan met een iets minder hoog opstaande bel. De t-distributie is symmetrisch vanaf het gemiddelde 0.
De standaarddeviatie van de t-distributie hangt af van de vrijheidsgraden (degrees of freedom), aangeduid als df. De standaarddeviatie van de t-distributie is daarmee ietsje groter dan 1. De vrijheidsgraden worden als volgt berekend: df = n – 1.
Hoe groter de vrijheidsgraden (df), hoe meer de t-verdeling gaat lijken op een normale verdeling. De verdeling wordt dan steeds puntiger. Bij df > 30 zijn ze bijna identiek.
De t-scores zijn te vinden op internet of in statistiekboeken. Een 95% betrouwbaarheidsinterval heeft bijvoorbeeld een t-score van t0.025.
Een statistische methode wordt robuust genoemd met betrekking tot een bepaalde aanname als zelfs wanneer die aanname teniet wordt gedaan, de methode goed functioneert. Zelfs als de verdeling niet geheel normaal is, kan met de t-distributie een betrouwbaarheidsinterval voor een gemiddelde worden berekend. Deze methode werkt echter niet bij extreme uitschieters of als de verdeling erg scheef is.
Een standaardnormale verdeling is een verdeling waarbij de vrijheidsgraden oneindig zijn.
De t-distributie was ontdekt door Gosset, die toen onderzoek deed voor een brouwerij en in het geheim artikelen publiceerde onder de naam Student. De t-distributie wordt daarom nu Student's t genoemd.
Hoe kies je de steekproefgrootte?
Om de steekproefgrootte te bepalen, moeten eerst de gewenste foutmarge en het gewenste betrouwbaarheidsniveau worden bepaald. De gewenste foutmarge wordt aangeduid als M.
De formule voor het vinden van de juiste steekproefgrootte om een populatieproportie in te schatten, is:
\[n=\pi(1-\pi)(\frac{z}{M})^2\]
Hierbij is de z-score degene voor het gekozen betrouwbaarheidsinterval, zoals 1,96. De z-score wordt bepaald door de kans dat de foutmarge niet groter dan M is. De steekproefproportie π kan worden geraden of veilig op 0,50 worden ingeschat.
De formule voor het vinden van de juiste steekproefgrootte om een populatiegemiddelde in te schatten, is:
\[n=\sigma^2(\frac{z}{M})^2\]
Hierbij geldt wederom dat de z-score bij het gekozen betrouwbaarheidsinterval hoort, zoals z = 1,96 bij 0,95. De standaarddeviatie van de populatie σ moet geschat worden.
De gewenste steekproefgrootte hangt naast de foutmarge en het betrouwbaarheidsniveau ook af van de variabiliteit. Als de data erg verspreid ligt, is een grotere steekproefgrootte nodig.
Andere factoren kunnen ook invloed hebben op het kiezen van de steekproefgrootte. Hoe complexer de analyse en hoe meer variabelen worden onderzocht, hoe groter de steekproef moet zijn. Ook tijd en geld spelen een rol. Als het onvermijdelijk is dat de steekproef klein is, worden van elke categorie twee nep-observaties toegevoegd, zodat de formules voor het betrouwbaarheidsinterval bruikbaar blijven.
Wat houden de meest aannemelijke schatter en bootstrap-methoden in?
Behalve gemiddelden en proporties, kunnen ook andere statistieken nuttig zijn voor het beschrijven van de data. Om puntschattingen te maken, ook voor andere statistieken, ontwikkelde R.A. Fisher de methode genaamd de meest aannemelijke schatter. Dit is een schattingsmethode die als schatting van een parameter die waarde kiest, waarvoor de aannemelijkheidsfunctie maximaal is. De aannemelijkheidsfunctie kan ook worden weergegeven als een curve, waarmee visueel gelijk duidelijk kan worden waar het hoogste punt van aannemelijkheid ligt. Hoe aannemelijk een parameterwaarde is, wordt gemeten aan de kans op het vinden van een steekproefuitkomst bij die waarde van de parameter.
Deze manier heeft drie voordelen, met name bij grote steekproeven: 1) ze zijn efficiënt: andere estimators hebben geen kleinere standaardfouten en liggen ook niet dichterbij de parameter, 2) ze zijn niet vertekend (minder vertekening wanneer de steekproef groter wordt), en 3) ze hebben meestal een normale steekproefverdeling.
Fisher ontdekte dat het gemiddelde een meer aannemelijke schatter is dan de mediaan. Alleen bij uitzonderingen is de mediaan nuttiger, zoals erg scheef verdeelde data. Als de vorm van de populatiedistributie niet bekend is, kan de bootstrap methode worden gebruikt. Software behandelt dan de steekproef alsof het de populatiedistributie is en genereert er een nieuwe 'steekproef' bij, dit proces wordt vele malen herhaald. De bootstrap methode kan op deze manier bijvoorbeeld de standaardfout en het betrouwbaarheidsinterval vinden.
Hoe gebruik je significantietoetsen? – Chapter 6
Uit welke vijf delen bestaat een significantietoets?
Een hypothese is een voorspelling dat een parameter binnen de populatie een bepaalde waarde heeft of binnen een bepaald interval valt. Er valt een onderscheid te maken tussen twee soorten hypotheses. Een nulhypothese (H0) is de veronderstelling dat de parameter een bepaalde waarde aanneemt. Daar tegenover staat een alternatieve hypothese (Ha), ook wel onderzoekshypothese genoemd, de veronderstelling dat de parameter juist in een bereik buiten die waarde valt. Meestal is de nulhypothese geen effect en is de alternatieve hypothese wel effect. Bij een significantietoets (ook wel hypothesetoets of kortgezegd toets) wordt meestal onderzocht of er genoeg ondersteunend materiaal is voor de alternatieve hypothese. Een significantietoets vergelijkt puntschattingen van parameters met de verwachte waarden van de nulhypothese.
Significantietoetsen bestaan uit vijf delen:
- Assumpties. Elke test maakt aannames over het type data (kwantitatief/categorisch), de vereiste randomisatie, de populatieverdeling (bijvoorbeeld normale verdeling) en de steekproefgrootte.
- Hypothesen. Elke test heeft een nulhypothese en een alternatieve hypothese.
- Toetsingsgrootheid. Deze geeft aan hoe ver de schatting af ligt van de parameterwaarde van H0. Dit wordt vaak weergegeven door het aantal standaardfouten tussen de schatting en de H0-waarde.
- P-waarde. Deze geeft de kans dat, in de verdeling gegeven door de nulhypothese, de waarde van de toetsingsgrootheid wordt behaald of overschreden. De P-waarde geeft aan hoe sterk het bewijs is dat H0 niet klopt. Let op, hoe kleiner de P-waarde, hoe meer bewijs er is dat H0 niet klopt en Ha wel.
- Conclusie. Deze hoort de P-waarde te interpreteren, en eventueel een uitspraak te doen over H0 (verwerpen/aannemen).
Hoe voer je een significantietoets uit voor een gemiddelde?
Bij significantietoetsen voor kwantitatieve variabelen wordt meestal het populatiegemiddelde µ onderzocht. Hierbij spelen de vijf delen van een significantietoets een rol. Er wordt aangenomen dat de data is verkregen uit een willekeurige steekproef en normaal verdeeld is.
De hypothese is tweezijdig, wat inhoudt dat er zowel een nulhypothese als een alternatieve hypothese is. De nulhypothese heeft meestal de vorm H0: µ = µ0 , waarbij µ0 de waarde is van het populatiegemiddelde. Deze hypothese geeft meestal aan dat er geen effect is (0). De Ha geeft dan de overige waarden aan en heeft meestal de vorm Ha: µ ≠ µ0.
De toetsingsgrootheid is hier de t-score. Deze wordt berekend met de formule:
\[t=\frac{\bar{y}-\mu_0}{se}\]
waarbij
\[se=\frac{s}{\sqrt{n}}\]
Het steekproefgemiddelde ȳ schat het populatiegemiddelde μ. Als H0 waar zou zijn, dan zou het gemiddelde van de verdeling van ȳ gelijk zijn aan de waarde van µ0 (en in het midden liggen van de verdeling van ȳ). Een waarde van ȳ die ver in de staart van de verdeling valt, geeft sterk bewijs tegen H0. Hoe verder ȳ van µ0 af ligt, des te groter zal de t-score zijn, en daarmee des te sterker het bewijs tegen H0.
De P-waarde geeft aan hoe extreem de gevonden data zou zijn indien H0 waar is. De kans dat dit het geval is, bevindt zich in de twee uiterste staarten van de t-distributie. Met behulp van software kan aan de hand van de t-distributie de P-waarde worden gevonden.
Om conclusies te trekken, moet er een interpretatie worden gemaakt van de P-waarde. Hoe kleiner de P-waarde, des te sterker het bewijs tegen H0.
Bij tweezijdige significantietoetsen komen de conclusies overeen van het betrouwbaarheidsinterval en van de significantietoets. Dit betekent dat als een betrouwbaarheidsinterval van µ de H0 waarde bevat, de P-waarde groter dan 0,05 moet zijn. Als het interval H0 niet bevat, dan is de P-waarde kleiner dan 0,05.
Bij tweezijdige toetsen bevindt de kritische regio zich aan beide kanten (beide staarten) van de normale verdeling. In de meeste gevallen wordt een hypothese tweezijdig getoetst. In sommige gevallen heeft een onderzoeker echter al een vermoeden over de richting van een effect, bijvoorbeeld dat een bepaalde vleessoort ervoor zorgt dat mensen aankomen, of is het natuurkundig onmogelijk dat de richting van het effect andersom zou zijn. In dit soort gevallen kan er eenzijdig getoetst worden. Op deze manier kan een specifiek vermoeden makkelijker getoetst worden. Bij een eenzijdige toets bevindt de kritische regio zich alleen in één staart van de normale verdeling. Welke staart dit is, hangt af van de alternatieve hypothese. Als er in de alternatieve hypothese staat dat gewicht na inname van een product zal toenemen, bevindt de kritische regio zich in de rechterstaart. Als de alternatieve hypothese echter beweert dat gewicht zal afnemen na het consumeren van een product, dan zal de kritische regio zich in de linkerstaart bevinden. Bij tweezijdige toetsen is Ha: µ ≠ µ0 (het populatiegemiddelde mag dus alles behalve een bepaalde waarde zijn), bij eenzijdige toetsen is Ha: µ > µ0 of Ha: µ < µ0 (het populatiegemiddelde moet dus óf groter, óf kleiner zijn dan een bepaalde waarde).
Alle onderzoekers zijn het erover eens dat een- en tweezijdige toetsing verschillende dingen zijn. Sommige onderzoekers vinden dat een tweezijdige toets overtuigender is dan een eenzijdige toets, omdat er bij een tweezijdige toets meer bewijs nodig is om de nulhypothese af te wijzen. Andere onderzoekers prefereren juist eenzijdige toetsen, omdat deze toetsen de uitkomsten zijn van een hele specifieke hypothese. Een eenzijdige toets is volgens hen gevoeliger. Een klein behandelingseffect kan significant zijn bij een eenzijdige toets terwijl hetzelfde effect niet significant is bij een tweezijdige toets. In het algemeen kan gesteld worden dat tweezijdige toetsen gebruikt zouden moeten worden in onderzoekssituaties waarin er geen vermoeden is over de richting van een effect.
De hypothesen worden altijd uitgedrukt in parameters voor de populatie (bijvoorbeeld µ) en niet in statistieken over de steekproef (bijvoorbeeld ȳ), omdat informatie achterhalen over de populatie het uiteindelijke doel is.
Meestal wordt de H0 verworpen als P kleiner of gelijk is aan 0.05 of aan 0.01. Deze grenswaarde heet het alfaniveau of significantieniveau, weergegeven met α. Hoe kleiner het alfaniveau, hoe voorzichtiger het onderzoek en hoe sterker het bewijs moet zijn dat de nulhypothese niet klopt.
Tweezijdige toetsen zijn robuust, zelfs als de verdeling niet normaal is, functioneren betrouwbaarheidsintervallen en toetsen met behulp van de t-distributie. Significantietoetsen werken echter niet zo goed voor eenzijdige toetsen voor een kleine steekproef en een erg scheef verdeelde populatie.
Hoe voer je een significantietoets uit voor een proportie?
Het uitvoeren van significantietoetsen voor proporties werkt op een soortgelijke manier als significantietoetsen voor gemiddelden. Bij een categorische variabele kan de steekproefproportie helpen om de populatieproportie te toetsen.
Er worden aannames gemaakt dat het een willekeurige steekproef is, uit een normale verdeling. Als de H0 waarde van π 0,50 is (als er vanuit wordt gegaan dat de bevolking 50-50% verdeeld is), dan moet de steekproefgrootte minstens 20 zijn.
De nulhypothese stelt dat er geen effect is of niets aan de hand, dus dat H0: π = π0. De alternatieve hypothese bij een tweezijdige toets omvat dan alle andere waarden, Ha: π ≠ π0.
De toetsingsgrootheid voor proporties is de z-score. De formule voor de z-score als toetsingsgrootheid voor een significantietoets van een proportie is:
\[z=\frac{\hat{\pi}-\pi_0}{se_0}\]
Deze z-score meet hoeveel standaardfouten de steekproefproportie verwijderd ligt van de waarde uit de nulhypothese. Anders gezegd, de z-score geeft aan hoeveel er wordt afgeweken, hoeveel van het voorspelde effect wordt waargenomen binnen het onderzoek.
De P-waarde kan worden gevonden met software of worden opgezocht in een tabel. Ook apps op internet kunnen de P-waarde vinden. De P-waarde geeft aan hoe groot de kans is op de geobserveerde proportie als H0 waar zou zijn. Bij eenzijdig toetsen wordt de kans op een z-waarde direct gegeven, bij tweezijdig toetsen moet de kans op een z-waarde verdubbeld worden.
Ook conclusies trekken werkt op een soortgelijke manier voor proporties als voor gemiddelden. Hoe kleiner de P-waarde, des te sterker het bewijs tegen H0. De nulhypothese wordt verworpen als P groter is dan α bij een alfaniveau zoals 0,05. Zelfs bij sterk bewijs voor H0 wordt H0 wordt meestal niet geaccepteerd maar voorzichtig 'niet verworpen'.
Wat voor fouten kun je maken in significantietoetsen?
Om anderen meer inzicht te geven in een significantietoets, is het beter om de P-waarde te geven dan om enkel te vermelden of de alternatieve hypothese is geaccepteerd is of niet. Deze benadering, waarbij het meer aan de lezer van een onderzoek wordt overgelaten om conclusies te trekken, is een idee van Fisher. De verzameling waarden waarbij de nulhypothese wordt verworpen heet het kritieke gebied (rejection region).
Het testen van hypothesen is een inferentieel proces. Dit betekent dat een beperkte hoeveelheid informatie (namelijk een steekproef) wordt gebruikt om een algemene conclusie te trekken. Het is mogelijk dat een onderzoeker denkt dat de nulhypothese afgewezen moet worden terwijl de behandeling eigenlijk geen effect heeft. Dit kan gebeuren doordat steekproeven niet identiek zijn aan populaties. Het kan allerlei redenen hebben. De onderzoeker kan toevallig een extreme steekproef geselecteerd hebben, waardoor het lijkt alsof een behandeling effect heeft gehad terwijl dat niet zo is. Dit noemen we een type 1 fout: een fout waarbij de nulhypothese wordt verworpen terwijl deze eigenlijk waar is. Zo een fout kan grote gevolgen hebben. Een onderzoeker kan namelijk ten onrechte publiceren dat zijn behandelingsmethode effectief is gebleken. Er is echter maar een hele kleine kans dat een onderzoeker een type 1 fout maakt. Het alfaniveau laat zien hoe groot de kans is dat een type 1 fout gemaakt wordt. In de meeste gevallen is er dus maar 5% kans dat er een type 1 fout gemaakt wordt. Als de onderzoeker strenger wil toetsen, kan ook een alfa van 2,5 of 1% gebruikt worden. Er is dan maar een zeer kleine kans op een type 1 fout. Lagere alfaniveaus geven minder kans op een type 1 fout, maar een lager alfaniveau brengt ook met zich mee dat er relatief meer bewijs uit de data moet blijken om de nulhypothese te kunnen afwijzen.
Van een type 2 fout is sprake wanneer een onderzoeker een nulhypothese niet afwijst, terwijl deze echt verkeerd is. Bij een type 1 fout wordt de nulhypothese juist onterecht verworpen. Hoe kleiner de kans op een type 1 fout, hoe groter de kans op een type 2 fout.
Bij een type 2 fout heeft de toets bijvoorbeeld een behandelingseffect (dat er in het echt wel is) niet gevonden. Een type 2 fout komt voor wanneer een steekproefgemiddelde zich niet in de kritische regio bevindt, terwijl de behandeling wel een effect heeft gehad op de steekproef. De kans op een type 2 fout hangt af van vele factoren. Als P kleiner dan 0,05 is, dan wordt H0 verworpen bij α = 0,05. Bij een type 2 fout vallen de µ0 waarden waarbij H0 niet verworpen wordt in het 95% betrouwbaarheidsinterval.
Wat zijn de beperkingen van significantietoetsen?
Het is belangrijk rekening te houden met het feit dat statistische significantie niet hetzelfde is als praktische significantie. Een significant effect vinden betekent niet dat het een belangrijke vondst is in een praktische zin. De grootte van P geeft simpelweg aan hoeveel bewijs er is tegen H0, niet hoe ver de parameter verwijderd is van H0.
Daarbij is het misleidend om alleen onderzoeken te rapporteren die significante effecten hebben gevonden. Zo kan er 20 keer hetzelfde onderzoek zijn uitgevoerd, met maar 1 keer een significant effect. Als alleen dat onderzoek wordt gerapporteerd, ontstaat er een verkeerd beeld over de situatie. Dit resultaat kan immers gewoon per toeval gevonden zijn.
Een significant effect zegt niet meteen dat een behandeling een groot effect heeft. Iets is significant of niet, maar dit zegt niets over de grootte van het effect dat gevonden is. Een significant effect is dus niet hetzelfde als een groot effect. Om meer inzicht te krijgen in de grootte van een significant effect, is het mogelijk om de effectgrootte te berekenen. Deze maat kan berekend worden door eerst het verschil tussen het steekproefgemiddelde en de waarde van het populatiegemiddelde bij de nulhypothese te vinden (M- µ0), en de uitkomst hiervan vervolgens te delen door de standaarddeviatie van de populatie. Een effectgrootte van 0,2 of minder is niet praktisch significant.
Voor het interpreteren van de praktische gevolgen van een onderzoek is eigenlijk het betrouwbaarheidsinterval belangrijker dan een significantietoets. H0 is vaak slechts een enkele waarde, terwijl andere waarden ook nog plausibel zouden zijn. Daarom zegt een betrouwbaarheidsinterval met een spectrum van meerdere waarden meer.
Andere manieren waarop significantietoetsen kunnen misleiden, zijn:
- Soms worden resultaten alleen bekend gemaakt als ze als statistisch significant worden beschouwd.
- Statistische significantie kan toeval zijn.
- De P-waarde is niet de kans dat H0 waar is, in de praktijk is H0 waar of niet waar (niet iets ertussenin).
- De echte effecten zijn meestal kleiner dan de effecten in de onderzoeken die veel aandacht krijgen.
Publicatiebias treedt op als onderzoeken met te kleine effecten niet eens gepubliceerd worden.
Hoe bereken je de kans op een type 2 fout?
Een type 2 fout bevindt zich in het bereik van Ha. Elke waarde binnen Ha heeft een P (type 2 fout), een kans op een type 2 fout. Een type 2 fout wordt berekend met software, de software maakt dan steekproefverdelingen voor de nulhypothese en de alternatieve hypothese en vergelijkt het overlappende gebied. De kans op een type 2 fout wordt kleiner als de parameterwaarde verder verwijderd is van H0, als de steekproef groter wordt en als de kans op een type 1 fout wordt verhoogd.
De power van een toets is de kans dat de toets de nulhypothese zal afwijzen als deze ook echt fout is. De power gaat dus om het vinden van een effect als dit effect ook daadwerkelijk bestaat. De formule voor het berekenen van de power van een bepaalde parameterwaarde is: power = 1 – P (type 2 fout). Hoe kleiner de kans op een type 2 fout, hoe groter de power.
Hoe gebruik je de binomiale distributie voor significantietoetsen van kleine steekproeven?
Proporties inschatten aan de hand van hele kleine steekproeven is lastig. Van de uitkomsten van een kleine steekproef met categorische discrete variabelen, zoals het opgooien van een muntje, kan een kansverdeling worden gemaakt, dit heet de binomiale distributie.
Een binomiale distributie kan alleen worden gemaakt als:
- Elke observatie binnen een van de twee categorieën valt.
- De kansen voor elke categorie hetzelfde zijn.
- De observaties onafhankelijk van elkaar zijn.
Het symbool π duidt hierbij de kans op categorie 1 aan, het symbool x duidt hierbij de binomiale variabele aan. De kans op x observaties in categorie 1 is:
\[P(x)=\frac{n!}{x!(n-x)!}\pi^x(1-\pi)^{n-x}\]
Het uitroepteken achter een letter, n!, heet n faculteit (dit is iets anders dan een afdeling binnen een universiteit). De faculteit is het product van alle getallen tot en met n, dus 1 x 2 x 3 x... x n.
De binomiale distributie is alleen symmetrisch bij π = 0,50. Het gemiddelde van deze distributie is µ= n π en de standaarddeviatie is:
\[\sigma=\sqrt{n\pi(1-\pi)}\]
Voor hele kleine steekproeven van minder dan 10 observaties in elke categorie kan een significantietoets worden gedaan. Er wordt dan echter gebruik gemaakt van de binomiale distributie. H0 is dan π = 0,50 en Ha is dan π < 0,50.
Hoe vergelijk je twee groepen met elkaar in de statistiek? – Chapter 7
Wat zijn de basisregels voor het vergelijken van twee groepen?
In de sociale wetenschappen worden vaak twee groepen met elkaar vergeleken. Bij kwantitatieve variabelen worden gemiddelden vergeleken, bij categoriale variabelen proporties. Wanneer je twee groepen met elkaar vergelijkt, creëer je een binaire variabele: een variabele met twee categorieën (soms ook wel dichotoom genoemd). Stel bijvoorbeeld dat je mannen en vrouwen vergelijkt, dan creëer je een binaire variabele ‘geslacht’ met de twee categorieën mannen en vrouwen. Het vergelijken van deze groepen is een voorbeeld van een bivariate statistische methode.
Twee groepen kunnen afhankelijk en onafhankelijk van elkaar zijn. De groepen zijn afhankelijk wanneer de respondenten van nature matchen met elkaar, bijvoorbeeld wanneer je dezelfde groep gebruikt voor en na een meting. Een longitudinaal onderzoek (met dezelfde subjecten maar op verschillende momenten in de tijd) is dan ook een voorbeeld van een afhankelijke steekproef. Er is sprake van een onafhankelijke steekproef wanneer er geen matching is tussen de groepen, bijvoorbeeld wanneer je gebruik maakt van randomisatie. Een voorbeeld van een onafhankelijke steekproef is een cross-sectioneel onderzoek, waarbij er een dwarsdoorsnede van de populatie wordt gemaakt.
Stel dat we twee groepen met elkaar vergelijken die onafhankelijk van elkaar zijn: mannen en vrouwen en hun tijdsbesteding aan slapen. Mannen en vrouwen zijn twee groepen, met allebei een ander populatiegemiddelde en een andere schatting daarvan. Er zijn dan ook twee standaardfouten. De standaardfout geeft namelijk aan hoeveel het gemiddelde per steekproef varieert. Omdat we het verschil tussen mannen en vrouwen in de populatie willen weten, heeft ook dit verschil een standaardfout (want je schat het populatieverschil met het steekproefverschil). Het verschil wat je wilt weten, is µ₂ – µ₁, dit wordt geschat door ȳ2 – ȳ1. Van ȳ2 – ȳ1 kan vervolgens een steekproefverdeling worden weergeven. De standaaardfout van ȳ2 – ȳ1 geeft aan hoeveel het gemiddelde varieert tussen verschillende steekproeven. De formule voor de standaardfout van het verschil tussen twee schattingen is:
\[\text{Geschatte standaardfout}=\sqrt{(se_1)^2+(se_2)^2}\]
Omdat het gaat om twee groepen, zijn er twee standaardfouten, twee steekproefgroottes, etc. Hierbij is se1 de standaardfout van groep 1 (mannen) en se2 de standaardfout van groep 2 (vrouwen).
In plaats van het verschil tussen gemiddelden, kan de ratio worden weergegeven, vooral in geval van hele kleine proporties. Als de proportie van taarten die in iemands gezicht worden gegooid 0,000967 is bij mannen en 0,000043 is bij mannen, zijn dit erg kleine getallen. De ratio is dan 0,000967/0,000043 = 967/43 = 22 en geeft wellicht duidelijker aan dat het toch zonde is van de verspilde taarten.
Hoe vergelijk je twee proporties van categorische data?
Het verschil tussen de proporties van twee populaties (π2 – π1) wordt geschat door het verschil tussen de steekproefproporties:
\[(\hat{\pi_2}-\hat{\pi_1})\]
Als de steekproeven echter erg groot zijn, is het verschil ertussen klein.
Het betrouwbaarheidsinterval bestaat uit de puntschatting van het verschil ± de t-score maal de standaardfout. De formule van het groepsverschil is:
\[betrouwbaarheidsinterval =(\hat{\pi_2}-\hat{\pi_1})\pm z(se)\]
waarbij
\[se=\sqrt{\frac{\hat{\pi_1}(1-\hat{\pi_1})}{n_1}+\frac{\hat{\pi_2}(1-\hat{\pi_2})}{n_2}}\]
Wanneer het betrouwbaarheidsinterval positieve waarden aangeeft, dan betekent dat dat µ₂ - µ₁ positief is, en dus dat µ₂ groter is dan µ₁. Wanneer het betrouwbaarheidsinterval negatieve waarden heeft, betekent het dan ook dat µ₂ kleiner is dan µ₁. Als de uitkomst een klein betrouwbaarheidsinterval is, betekent dat dat de twee groepen niet veel van elkaar verschillen.
Om een significantietoets uit te voeren waarbij de proporties van twee groepen worden vergeleken, is H0 : π2 = π1. Dit zou inhouden dat de proportie in beide groepen precies hetzelfde is. Een andere mogelijke H0 is π2 – π1 = 0, wat er ook op neerkomt dat er geen verschil is. Het berekenen van de z-score en de P-waarde werkt verder bijna hetzelfde als voor slechts één groep. Het verschil is datstaat voor een schatting van de proportie in beide groepen uit de steekproef. Dit heet een pooled estimate. De schatting komt in dit geval neer op 2 - 1. Hiermee kan de standaardfout worden berekend. Voor se0, de standaardfout waarbij de nulhypothese klopt, wordt bij een vergelijking van de proporties uit twee groepen een alternatieve formule gebruikt:
\[se_0=\sqrt{\hat{\pi}(1-\hat{\pi})(\frac{1}{n_1}+\frac{1}{n_2})}\]
Dit kan ook met software worden berekend. De uitkomsten kunnen overzichtelijk worden weergegeven, bijvoorbeeld in een kruistabel. In een kruistabel worden de categorieën van de verklarende variabele in de rijen geplaatst en de categorieën van de responsvariabele in de kolommen. De cellen geven dan de combinaties van uitkomsten weer.
Hoe vergelijk je twee gemiddelden van kwantitatieve data?
Voor de twee gemiddelden van de populatie (µ₂ – µ₁) kan een betrouwbaarheidsinterval worden berekend aan de hand van de steekproefverdeling (ȳ2 – ȳ1). De formule voor dit betrouwbaarheidsinterval is:
\[(\bar{y_2}-\bar{y_1})\pm t(se)\]
waarbij
\[se=\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}\]
De t-score is hierbij de score die past bij het gekozen betrouwbaarheidsniveau. De vrijheidsgraden df worden meestal berekend met software. Als de standaarddeviaties en de steekproefgroottes voor elke groep gelijk zijn, dan is een gesimplificeerde formule voor de vrijheidsgraden: df = (n1 + n2 – 2). De uitkomst is positief of negatief en geeft daarmee aan voor welke van de twee groepen het gemiddelde hoger is.
Bij een significantietoets om twee gemiddelden te vergelijken, wordt H0 : µ1 = µ2 wat op hetzelfde neerkomt als H0 : µ₂ – µ₁ = 0. De formule wordt dan:
\[t=\frac{(\bar{y_2}-\bar{y_1})-0}{se}\]
De standaardfout en de vrijheidsgraden zijn hetzelfde als bij een betrouwbaarheidsinterval voor twee gemiddelden. Onderzoekers zijn vaak geïnteresseerd in het verschil tussen twee groepen en gebruiken vaker significantietoetsen hiervoor dan voor een groep.
Hoe vergelijk je gemiddelden van afhankelijke steekproeven?
Bij afhankelijke steekproeven wordt gematchte paren data vergeleken. Bij een longitudinaal onderzoek (met dezelfde subjecten maar op verschillende momenten in de tijd) wordt gebruik gemaakt van herhaalde metingen. Een voorbeeld is een crossover study, waarbij een subject een bepaalde behandeling krijgt en later een andere behandeling.
Als er gematchte paren worden vergeleken, ontstaat er voor elk paar een variabele (genaamd yd): verschil = observatie in steekproef 2 – observatie in steekproef 1. Het steekproefgemiddelde is dan ȳd. Een regel bij gematchte paren is dat het verschil tussen de gemiddelden gelijkstaat aan het gemiddelde van de verschillende scores.
De significantietoets bij dit betrouwbaarheidsinterval wordt dan:
\[t=\frac{\bar{y_d}-0}{se}\]
Als een significantietoets over verschillende observaties voor afhankelijke paren gaat, heet het de gepaarde t-toets.
De voordelen van afhankelijke steekproeven zijn:
- Andere variabelen die meespelen, gelden zowel voor de eerste als voor de volgende steekproef, omdat het om dezelfde subjecten gaat.
- De spreiding is minder groot en daarmee de standaardfout ook.
Welke complexe methoden zijn er voor het vergelijken van gemiddelden?
Naast een gepaarde t-toets, zijn er ook andere methoden voor het vergelijken van gemiddelden. Deze methoden zijn onder andere: verondersteld identieke standaarddeviaties, gerandomiseerd blokontwerp, effectgrootte en een model.
Bij een onafhankelijke steekproef wordt aangenomen dat bij de nulhypothese de verdelingen van de responsvariabele identiek zijn, en daarmee ook de standaarddeviaties en de gemiddelden. De schatting van de standaarddeviatie wordt dan:
\[s=\sqrt{\frac{(n_1-1)s^2_1+(n_2-1)s^2_2}{n_1+n_2-2}}=\sqrt{\frac{\sum{(y_{i1}-\bar{y_1})^2}=\sum{(y_{i2}-\bar{y_2})^2}}{n_1+n_2-2}}\]
Het betrouwbaarheidsinterval is hierbij:
\[(\bar{y_2}-\bar{y_1})\pm t(se)\]
waarbij
\[se=\sqrt{\frac{s^2}{n_1}+\frac{s^2}{n_2}}=s\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\]
De vrijheidsgraden bestaan uit het gecombineerde aantal observaties min het aantal geschatte parameters (µ1 en µ2) en worden dan df = n1 + n2 – 2.
Een andere methode is het gerandomiseerd blokontwerp. Dit houdt in dat subjecten met soortgelijke kenmerken als een paar worden beschouwd en slechts een (willekeurig geselecteerd) subject een behandeling krijgt toegewezen. Ook het geval waarbij een subject voor en na een behandeling wordt geobserveerd, is een voorbeeld van een gerandomiseeerd blokontwerp. Bij complete randomisatie daarentegen worden individuen volledig willekeurig over twee groepen verdeeld. Een gerandomiseerd blokontwerp is dus een constructie waarbij een zekere mate van randomisatie van kracht is.
Software kan inferenties uitvoeren voor een spreiding die gelijk is in twee groepen, maar ook voor het geval dat een gelijke variantie niet wordt verondersteld. Er kan dus worden verondersteld dat de standaarddeviatie van de populatie hetzelfde is (σ1 = σ2), maar dat hoeft niet per se. Als de steekproefgroottes namelijk (bijna) hetzelfde zijn, worden de uitkomsten van toetsingsgrootheden voor gelijke varianties en ongelijke varianties identiek. Als er echter een vermoeden is van sterk verschillende standaarddeviaties, is het beter om deze methode niet te gebruiken. De functie F in software, die test of de standaarddeviaties van een populatie gelijk zijn, wordt afgeraden, omdat deze niet robuust is voor verdelingen die niet normaal zijn.
Een andere methode is om gemiddelden te vergelijken aan de hand van de effectgrootte. De formule hiervoor is:
\[Effect size = \frac{\bar{y_1}-\bar{y_2}}{s}\]
De uitkomst wordt als groot beschouwd indien deze ongeveer 1 of groter is. Deze methode is vooral handig als het verschil erg anders zou zijn in andere meeteenheden (bijvoorbeeld kilometers of mijlen).
Een manier om gemiddelden te vergelijken, is een model gebruiken. Een model is een simpele benadering van de echte verhouding tussen twee (of meer) variabelen in de populatie. We kunnen bijvoorbeeld uitgaan van een normale verdeling met een gemiddelde en een standaarddeviatie, op te schrijven als N(µ, σ). y1 is een observatie van groep 1 en y2 is een observatie van groep 2. Een model kan dan zijn:
- H0 : y1 heeft als verdeling N(µ, σ1) en y2 heeft als verdeling N(µ, σ2)
- Ha : y1 heeft als verdeling N(µ1, σ1) en y2 heeft als verdeling N(µ2, σ2) en µ1 ≠ µ2
Hierbij wordt dus onderzocht of de gemiddelden verschillen. Er wordt niet aangenomen dat de standaarddeviaties hetzelfde zijn, want dat zou de werkelijkheid misschien teveel simplificeren, waardoor grote fouten kunnen optreden.
Welke complexe methoden zijn er voor het vergelijken van proporties?
Zelfs voor afhankelijke steekproeven of hele kleine steekproeven zijn er methoden om proporties te vergelijken. Voor afhankelijke steekproeven kunnen proporties worden vergeleken met een z-score die de proporties vergelijkt, of met McNemar's toets, of met een betrouwbaarheidsinterval. Voor kleine steekproeven is Fishers exacte toets geschikt.
Voor afhankelijke steekproeven kunnen proporties vergeleken worden net zoals gemiddelden. De z-score meet het aantal standaardfouten tussen de schatting en de waarde van de nulhypothese en de formule ervan komt in dit geval neer op: (steekproefproportie – proportie van de nulhypothese) / standaardfout.
Voor gepaarde proporties kan ook McNemar's toets worden gebruikt. De toetsingsgrootheid van McNemar's toets is:
\[z=\frac{n_{12}-n_{21}}{\sqrt{n_{12}+n_{21}}}\]
Behalve een significantietoets kan ook een betrouwbaarheidsinterval nuttig zijn om de verschillen tussen afhankelijke proporties duidelijk te maken. De formule voor dit betrouwbaarheidsinterval is:
\[(\hat{\pi_2}-\hat{\pi_1})\pm z(se)\]
waarbij
\[se=\frac{1}{n}\sqrt{\frac{(n_{12}+n_{21})-(n_{12}-n_{21})^2}{n}}\]
Fishers exacte toets is geschikt voor kleine steekproeven, het is een complexe toets maar deze kan makkelijk met software worden uitgevoerd.
Welke nonparametrische methoden zijn er voor het vergelijken van groepen?
Parametrische methoden gaan uit van een bepaalde vorm van de distributie, zoals de normale verdeling. Nonparametrische methoden maken geen aannames over de vorm van een distributie.
Nonparametrische methoden voor het vergelijken van groepen worden vooral gebruikt bij kleine steekproeven en erg scheve verdelingen. Voorbeelden zijn de Wilcoxon toets, Mann-Whitney toets en nonparametrische effectgrootte meting.
Sommige nonparametrische toetsen nemen aan dat de vorm van de populatiedistributies identiek is, maar nemen niet aan dat het normale verdelingen zijn. Het model is dan:
- H0 : y1 en y2 hebben dezelfde distributie.
- Ha : De distributies van y1 en y2 hebben dezelfde vorm, maar de distributie van y1 is meer omhoog of omlaag gevormd dan degene van y2.
Een test van deze soort is de Wilcoxon toets. Deze toets opereert op een ordinale meetschaal en deelt de observaties in een klassement in.
Een andere test van deze soort is de Mann-Whitney toets. Deze toets vergelijkt een reeks observaties van een groep met een reeks observaties van een andere groep, bijvoorbeeld als twee weermannen het weer van een bepaalde week proberen te voorspellen.
De effectgrootte kan ook op nonparametrische verdelingen worden toegepast. Hierbij wordt bekeken hoe vaak de observaties van een groep bijvoorbeeld hoger waren dan de observaties van een andere groep. Een andere optie is ordinale variabelen behandelen als kwantitatieve variabelen. Hierbij krijgt elke categorie een score. Dit werkt soms makkelijker dan wanneer klassementen als ordinale variabelen worden behandeld.
Hoe kun je het verband tussen categorische variabelen analyseren? – Chapter 8
Hoe maak en interpreteer je een kruistabel?
Een kruistabel (contingency table) bevat categorische data waarbij de uitkomsten van alle mogelijke combinaties worden weergegeven. Een 4x5 kruistabel heeft 4 rijen (van links naar rechts) en 5 kolommen (van boven naar beneden). Een kruistabel geeft vaak percentages weer, dit wordt relatieve data genoemd.
Een conditionele verdeling betekent de data die afhankelijk is van een bepaalde conditie, hiermee worden percentages weergegeven ten opzichte van een subtotaal, bijvoorbeeld vrouwen die verkouden zijn. Een marginale verdeling geeft de afzonderlijke aantallen weer. Een simultane verdeling geeft percentages weer ten opzichte van het geheel van de steekproef.
Twee categorische variabelen zijn statistisch onafhankelijk wanneer de kans op het voorkomen van de ene gebeurtenis los staat van de kans dat de andere gebeurtenis voorkomt. Anders gezegd: ze zijn statistisch onafhankelijk wanneer de kansverdeling van de mogelijke uitkomsten van de ene variabele niet wordt beïnvloed door de uitkomsten van de andere variabele. Gebeurt dat wel, dan zijn ze statistisch afhankelijk.
Als de twee variabelen hondenras en haarkleur van een hond onafhankelijk van elkaar zouden zijn, dan zouden de percentages zo verdeeld zijn dat het percentage donkerbruine labradors precies gelijk is aan het percentage donkerbruine golden retrievers. Maar dat is niet zo, golden retrievers zijn vaker blond en deze variabelen zijn afhankelijk van elkaar.
Hoe voer je de chi-kwadraattoets uit?
Wanneer twee variabelen onafhankelijk zijn, dan gaat het over variabelen in de populatie. De verdeling in de steekproef zal min of meer gelijk zijn aan die in de populatie, maar dat is deze niet per se. Vanwege de steekproefvariabiliteit kan de verdeling per steekproef verschillen. Een significantietoets kan aangeven of het plausibel is dat de variabelen werkelijk onafhankelijk zijn in de populatie. De hypothesen worden dan:
- H0: de variabelen zijn statistisch onafhankelijk
- Ha: de variabelen zijn statistisch afhankelijk
Een geobserveerde frequentie (fo) is het aantal keer dat een bepaalde observatie is gemaakt, het wordt weergegeven in een cel. Een verwachte frequentie (fe) is het aantal dat verwacht wordt als de nulhypothese klopt, dus als de variabelen onafhankelijk zijn. Je berekent de verwachte frequentie van een cel door het totaal van de rij en het totaal van de kolom op te tellen en vervolgens te delen door de steekproefgrootte.
Bij een significantietoets voor onafhankelijkheid wordt een aparte toetsingsgrootheid gebruikt. X2 duidt aan hoe dicht de verwachte frequenties bij de geobserveerde frequenties liggen. De toets die met X2 wordt uitgevoerd, heet de chi-kwadraattoets. De formule voor de toetsingsgrootheid bij de chi-kwadraattoets is:
\[x_2=\sum{\frac{(f_0-f_e)^2}{f_e}}\]
Deze methode is ontwikkeld door Karl Pearson. Als X2 klein is, liggen de verwachte en geobserveerde frequenties dicht bij elkaar. Hoe groter X2 is, hoe verder de verwachte en geobserveerde frequenties uit elkaar liggen. Dit geeft aan in hoeverre er sprake is van toeval.
Een binomiale distributie is de verdeling van kansen op uitkomsten van een kleine steekproef met categorische discrete variabelen, zoals het opgooien van een muntje. Dit is dus geen verdeling van observaties of van een steekproef maar een verdeling van kansen. Een multinomiale distributie is hetzelfde maar dan voor meer dan twee categorieën.
De kansverdeling van de toetsingsgrootheid X2 is een multinomiale distributie. Dit wordt de chi-kwadraat kansverdeling genoemd. Het symbool χ2 van de chi-kwadraatverdeling is de overeenkomstige Griekse letter van het symbool X2 van de toetsingsgrootheid.
De belangrijkste eigenschappen van de chi-kwadraatverdeling zijn:
- De verdeling is altijd positief, X² kan nooit negatief zijn.
- De verdeling is rechtsscheef (lange staart rechts).
- De precieze vorm van de verdeling hangt af van het aantal vrijheidsgraden (df). Voor de Chi-kwadraat verdeling geldt dat µ = df en σ = de wortel van 2df. De curve wordt platter naarmate df groter wordt.
- Als r het aantal rijen aanduidt en c het aantal kolommen, dan is df = (r – 1)(c – 1).
- Hoe groter de kruistabellen zijn, hoe meer vrijheidsgraden je hebt, hoe groter je X² is.
- Hoe groter X², hoe sterker het bewijs tegen H0.
X² wordt niet alleen gebruikt voor gemiddelden maar ook voor proporties. De uitkomsten van een onderzoek (bijvoorbeeld 'ja' of 'nee') kunnen dan worden ingedeeld in succes en geen succes. π1 geeft dan de proportie van successen in groep 1 aan en π2 de proportie van successen in groep 2. Als de responsvariabele onafhankelijk is van de populaties, dan is π1 = π2. Deze nulhypothese heet een homogeniteitshypothese. De chi-kwadraattoets wordt ook wel homogeniteitstoets genoemd. De toetsingsgrootheid is als volgt:
\[z=\frac{\hat{\pi_2}-\hat{\pi_1}}{se_0}\]
waarbij X² = z2
De z-score en X² worden in verschillende gevallen gebruikt als toetsingsgrootheden. De z-score kan onder andere gebruikt worden bij eenzijdige alternatieve hypotheses. Bij een grotere kruistabel dan 2x2 is X² handiger omdat deze meerdere parameters aan kan. Df kan worden geinterpreteerd als het aantal benodigde parameters om de kruistabel te beschrijven.
De chi-kwadraattoets heeft beperkingen, deze werkt bijvoorbeeld alleen bij grote steekproeven met verwachte frequentie die hoger is dan 5 per cel. Voor kleine steekproeven is eventueel Fishers exacte toets mogelijk, die kan worden uitgevoerd met software. Ook is de chi-kwadraattoets meer geschikt voor nominale meetschalen; voor ordinale meetschalen zijn andere toetsen beter.
Op welke manier helpen residuen om het verband tussen variabelen te analyseren?
Als de P-waarde van een chi-kwadraattoets erg klein is, dan is er sterk bewijs dat er een verband is tussen de variabelen. Er wordt hiermee echter niks gezegd over hoe de variabelen samenhangen of hoe sterk het verband is. Daarom zijn residuen belangrijk. Een residu is het verschil tussen de geobserveerde en verwachte frequentie in een cel: fo – fe. Als een residu positief is, dan is de geobserveerde frequentie groter. Een gestandaardiseerd residu geeft aan wanneer bij welk getal H0 klopt en er sprake is van onafhankelijkheid.
De formule voor een gestandaardiseerd residu is:
\[z=\frac{f_0-f_e}{se}=\frac{f_0-f_e}{\sqrt{f_e(1-\text{row proportion})(1-\text{column proportion})}}\]
Een groot gestandaardiseerd residu vormt bewijs tegen onafhankelijkheid in een bepaalde cel. Als de nulhypothese klopt, dan is er maar 5% kans dat een gestandaardiseerd residu een waarde van hoger dan 2 heeft. Als een gestandaardiseerd residu dus onder -3 of boven 3 is, dan is dit zeer overtuigend bewijs. Software geeft meestal samen met de toetsingsgrootheid X² aan wat de residuen zijn. Bij een 2x2 kruistabel is het gestandaardiseerde residu hetzelfde als de z toetsingsgrootheid voor het vergelijken van twee proporties.
Hoe meet je het verband in een kruistabel?
Bij het analyseren van een kruistabel, beoogt een onderzoek de volgende informatie te vinden:
- Of er een verband is (gemeten door de chi-kwadraattoets)
- Hoe de data verschilt van onafhankelijkheid (gemeten door gestandaardiseerde residuen)
- Hoe sterk het verband is tussen variabelen
Er zijn verschillende manieren om een verband te meten, deze methoden (measures of association) vergelijken de meest extreme vorm van een verband met de meest extreme afwezigheid daarvan, en bepalen waar de data zich daartussenin bevindt.
Het minst sterke verband is bijvoorbeeld bij een steekproef met 60% studenten en 40% niet-studenten, en zowel 30% van de studenten aangeeft van bier te houden als 30% van de niet-studenten. Dit is geen werkelijke situatie. Het meest extreme verband zou zijn dat 100% van de studenten van bier houdt en 0% van de niet-studenten. In de werkelijkheid zal dit percentage ertussenin liggen.
Bij een simpele binaire 2x2 kruistabel kunnen de proporties makkelijk met elkaar vergeleken worden. Hoe sterker dan het verband is, hoe groter de absolute waarde van dit verschil.
De chi-kwadraattoets meet enkel hoeveel bewijs er is dat er een verband is, niet hoe sterk het verband is. Bij een grote steekproef kan er bijvoorbeeld veel bewijs worden gevonden dat er een zwak verband bestaat.
Als de uitkomsten van een binaire responsvariabele worden aangeduid als succes of geen succes, dan kunnen de odds worden uitgerekend: odds of success = kans op succes – kans op falen. Als de odds bijvoorbeeld op 3 uitkomen, dan is succes drie keer zo waarschijnlijk als geen succes. De kans op een bepaalde uitkomst is odds / (odds + 1). De odds ratio van 2x2 kruistabel vergelijkt de odds van een groep met de odds van een andere groep: odds van rij 1 / odds van rij 2. De odds ratio wordt weergegeven als θ .
De odds ratio heeft de volgende eigenschappen:
- De waarde is hetzelfde ongeacht welke variabele als responsvariabele wordt gekozen.
- De odds ratio staat gelijk aan een vermenigvuldiging van diagonaal kruisende cellen en wordt daarom ook wel de cross-product ratio genoemd.
- De odds ratio kan elk niet-negatief nummer hebben.
- Als de kans op succes voor twee rijen hetzelfde is, dan is de odds ratio 1.
- Als de odds ratio kleiner is dan 1, dan zijn de odds of success kleiner voor rij 1 dan rij 2.
- Hoe verder de odds ratio van 1 verwijderd is, hoe sterker het verband.
- Er kunnen ook twee waarden van de odds ratio zijn; in twee richtingen.
Als een kruistabel complexer is dan 2x2, wordt deze voor de odds ratio onverdeeld in kleinere 2x2 kruistabellen. Soms kan een complex geheel aan data worden samengevat in een enkel nummer, maar dit heeft niet de voorkeur omdat meerdere vergelijkingen (zoals meerdere odds ratios) de data beter reflecteren.
Hoe meet je het verband tussen ordinale variabelen?
Bij ordinale variabelen kan zich een positief of een negatief verband voordoen. Een positief verband houdt in dat een hoge score op de x-as, ook een hoge score op de y-as betekent. Een negatief verband betekent dat een hoge score op de x-as juist een lage score heeft op de y-as, en bij een lage score op de x-as is er juist een hoge score op de y-as.
Een paar van observaties kan concordant zijn of discordant. Een paar van observaties is concordant wanneer het subject dat hoger scoort op de ene variabele ook hoger scoort op de andere variabele (dit geeft bewijs van een positief verband). Een paar observaties is disconcordant wanneer het subject dat hoger scoort op een variabele juist lager scoort op de andere (bewijs van een negatief verband).
Omdat er bij grotere steekproeven meer paren zijn en vaker grotere verschillen tussen de waarden, standaardiseren we het verschil. Dit standaardiseren geeft gamma, dit wordt genoteerd als ŷ (niet y-streepje maar y-dakje). Gamma meet het verband tussen variabelen. De formule hiervoor is: ŷ = (C – D) / (C + D) waarbij c staat voor alle concordante paren en d voor alle disconcordante paren.
De eigenschappen van gamma zijn dat de waarde tussen -1 en +1 ligt, dat gamma aangeeft of het verband positief danwel negatief is en dat gamma zegt hoe sterk een verband is (hoe groter gamma, hoe sterker het verband tussen twee variabelen). Een gamma van 0,17 duidt bijvoorbeeld op een positief maar zwak verband.
Gamma komt eigenlijk neer op het verschil tussen ordinale proporties, het is het verschil tussen de proporties concordante en disconcordante paren.
Er zijn ook andere methoden om een verband te meten, zoals Kendall's tau-b, Spearman's rho-b, en Somers' d. Deze methoden kunnen ook de correlatie tussen kwantitatieve variabelen meten en hebben verder allerlei eigenschappen gemeen:
- Ordinale metingen van verbanden hebben waarden tussen -1 en 1, het getal geeft aan of een verband positief of negatief is.
- Als de variabelen onafhankelijk zijn, dan zijn de waarden van de populatie 0.
- Hoe groter het verband, hoe groter de absolute waarde, 1 en -1 zijn de sterkste verbanden.
- Er wordt geen onderscheid gemaakt tussen verklarende en responsvariabelen (behalve bij Somers' d).
Ook de gamma kan worden berekend als betrouwbaarheidsinterval. In dit geval is ŷ de steekproefgamma, y de populatiegamma en ŷ ± z(se) het betrouwbaarheidsinterval waarbij z = (ŷ – 0) / se. Deze formule werkt het beste als C en D beide hoger zijn dan 50.
Als twee variabelen ordinaal zijn, valt een ordinale meting te prefereren boven de chi-kwadraattoets omdat chi-kwadraattoets eventuele rangen in de data negeert.
Andere ordinale methoden werken op een soortgelijke manier als gamma. Een alternatief is een toets van een linear-by-linear association, waarbij elke categorie van elke variabele een score krijgt en de correlatie wordt geanalyseerd met een z-test. Dit is een methode om trend te detecteren.
Bij een mix van ordinale en nominale variabelen, zeker als de nominale variabele meer dan twee categorieën heeft, kan gamma beter niet gebruikt worden.
Hoe werken lineaire regressie en correlatie? – Chapter 9
Wat zijn lineaire verbanden?
Regressieanalyse is het onderzoeken van verbanden tussen kwantitatieve responsvariabelen en verklarende variabelen. Regressieanalyse heeft drie aspecten: 1) onderzoeken of er een verband bestaat tussen de variabelen, 2) bepalen wat de sterkte is van dit verband en 3) een regressieformule maken om zo de waarde van de responsvariabele te kunnen voorspellen aan de hand van de verklarende variabele.
De responsvariabele wordt weergegeven met y en de verklarende variabele met x. Een lineaire functie houdt in dat er een rechte lijn is door de datapunten in een grafiek. Deze functie heeft deze vorm: y = α + β (x). Hierbij is de Griekse letter alpha (α) de intercept, en de Griekse letter bèta (β) de hellingscoëfficiënt.
- De x-as is de horizontale as en de y-as is de verticale as. De oorsprong is het punt waarop x en y beide 0 zijn.
- De y-intercept is de waarde van y wanneer x = 0. Want als x = 0, dan vervalt β(x) en blijft alleen y = α over. De y-intercept is het punt waarop de lijn op de y-as begint.
- De hellingscoëfficiënt geeft de verandering aan in y, bij een toename van 1 punt bij x. Wanneer x er 1 punt bij krijgt, verandert y met β. De hellingscoëfficiënt geeft dus letterlijk aan hoe steil de helling is. Over het algemeen is het zo dat hoe groter β, hoe steiler de regressielijn.
Als β positief is, betekent het dat wanneer x hoger wordt, y ook hoger wordt. Dit is een positief verband. Wanneer β negatief is, betekent het dat wanneer x hoger wordt, y lager wordt. Dit is een negatief verband. Wanneer β = 0, betekent het dat de waarde van y constant is en niet verandert wanneer x verandert. Dit creëert een horizontale lijn in de grafiek. Dit is het geval wanneer de twee variabelen onafhankelijk van elkaar zijn.
Een lineaire functie is een voorbeeld van een model; een versimpelde benadering van het verband tussen variabelen in de populatie. Een model is dus niet de werkelijkheid maar een versimpelde weergave ervan. Er zijn goeie modellen en slechte modellen. Met een regressiemodel wordt meestal een complexer model bedoeld dan een lineaire functie.
Hoe vind je de voorspellingsvergelijking met de kleinste-kwadratenmethode?
Bij regressieanalyse worden α en β als onbekende parameters beschouwd, waarvan met de beschikbare data een inschatting wordt gemaakt. De eerste stap hierbij is het plotten van de data in een puntgrafiek. Hierbij wordt voor elke y-waarde een punt aangegeven in de grafiek, dit punt heeft de coördinaten (x, y). Zo kun je zien of het wel logisch is om een lineaire formule te maken. Wanneer de data een U-vorm heeft, heeft het geen zin om daar een lineaire lijn door te trekken.
De variabele y wordt geschat met ŷ (y met een dakje). De vergelijking wordt benaderd door de voorspellingsvergelijking (prediction equation): ŷ = a + b(x). Deze lijn zal de ‘beste’ lijn weergeven, in de zin dat deze het dichtste ligt bij alle datapunten. In de voorspellingsvergelijking is a = ȳ – bx̄ en:
\[b=\frac{\sum{(x-\bar{x})(y-\bar{y})}}{\sum{(x-\bar{x})^2}}\]
Een regressie-uitschieter is een datapunt dat ver buiten de trend van de andere datapunten valt. Zo’n datapunt wordt invloedrijk genoemd wanneer het verwijderen ervan een grote verandering teweeg brengt in de voorspellingsvergelijking. Dit effect is kleiner bij een grote dataset. Het is soms beter om een uitschieter buiten de voorspellingsvergelijking te laten en erbij te vermelden bij het rapporteren van de resultaten.
De voorspellingsvergelijking geeft een schatting van de y-waarden. Deze zullen niet helemaal overeenkomen met de daadwerkelijke (geobserveerde) y-waarden. Door het verschil tussen de geschatte waarden en de geobserveerde waarden te bekijken, wordt duidelijk hoe goed de voorspellingsvergelijking is. Het verschil tussen een geobserveerde waarde (y) en een voorspelde waarde (ŷ) heet een residu, dit is y – ŷ. Wanneer de geobserveerde waarde groter is dan de voorspelde waarde, is het een positief residu. Wanneer de geobserveerde waarde kleiner is dan de voorspelde waarde, is het een negatief residu. Hoe kleiner de absolute waarde van het residu, hoe beter de voorspelling.
De beste voorspellingsvergelijking is die met de kleinste residuen. Om die te vinden, worden de residuen van de datapunten gekwadrateerd en opgeteld. Dit heet SSE (sum of squared errors). SSE geeft dus aan hoe goed of slecht ŷ is in het inschatten van y. De formule voor de SSE is:
\[SSE=\sum{(y-\hat{y})^2}\]
De kleinste-kwadratenmethode houdt in dat a en b in de formule ŷ = a + b(x) de waarden hebben waarbij de SSE zo klein mogelijk is. De lijn die ontstaat heet de kleinste-kwadratenlijn, dit is de beste lijn van alle mogelijke lijnen. In de meeste software heet de SSE de residual sum of squares.
De SSE van de beste regressielijn heeft zowel negatieve als positieve residuen (die door het kwadrateren allemaal positief worden), waarvan samen de som en het gemiddelde 0 zijn. De beste regressielijn loopt door het punt van het gemiddelde van x en het gemiddelde van y, dus door het punt (x̄, ȳ), het centrale punt van de data.
Wat houdt het lineaire regressiemodel in?
Bij een regressieformule y = a + b(x) hoort bij elke x-waarde eenzelfde y-waarde. Dit heet een deterministisch model. Zo werkt het in de werkelijkheid meestal niet. Bijvoorbeeld als het aantal relaties dat iemand heeft gehad (y) wordt voorspeld door leeftijd (x), dan heeft niet iedereen met dezelfde leeftijd hetzelfde aantal relaties gehad. In plaats van een deterministisch model is een probabilistisch model dan beter; een model waarin er variabiliteit is in de waarde van y. Er kan dan gebruik worden gemaakt van een conditionele distributie, een verdeling waarbij er een extra conditie geldt, namelijk dat x een bepaalde waarde heeft. Er kan bijvoorbeeld een grafiek worden weergegeven van het aantal relaties dat mensen van 22 jaar oud hebben gehad.
Een probabilistisch model geeft het gemiddelde van de y-waarden weer (niet de daadwerkelijke waarde van y). De formule van een conditionele distributie is E(y) = α + β (x). Het symbool E staat voor de verwachte waarde. Als bijvoorbeeld mensen van 22 jaar verschillende aantallen relaties hebben gehad, kan met het probabilistische model het gemiddelde aantal relaties van een 22-jarige worden voorspeld.
Een regressievergelijking is een wiskundige vergelijking die beschrijft hoe het gemiddelde van de responsvariabele verandert als de waarde van de verklarende variabele verandert.
Het lineaire regressiemodel kent nog een parameter, namelijk σ. Deze beschrijft de standaarddeviatie van een conditionele distributie. Deze parameter meet de variabiliteit van de y-waarden voor alle personen met die bepaalde x-waarde. De parameter σ heet de conditionele standaarddeviatie.
Omdat de echte standaarddeviatie niet bekend is, wordt de standaarddeviatie uit de steekproef gebruikt, namelijk s. De formule van s is:
\[s=\sqrt{\frac{SSE}{n-2}}\]
Er wordt aangenomen dat de standaarddeviatie voor elke x-waarde hetzelfde is. Als de variabiliteit echter per distributie van een x-waarde verschilt, dan geeft s de gemiddelde variabiliteit aan. Het kwadraat van s heet de Mean Square Error (MSE). In software heeft de conditionele standaarddeviatie verschillende namen: Standard error of the estimate (SPSS), Residual standard error (R ), Root MSE (Stata en SAS).
De vrijheidsgraden van een regressievergelijking zijn df = n – p, waarbij p het aantal onbekende parameters is. Bij E(y) = α + β (x) zijn er twee onbekende parameters (α en β) dus is df = n – 2.
De standaarddeviatie van een conditionele distributie hangt zowel van y als van x af en wordt genoteerd als σy|x (voor de populatie) en sy|x (voor de steekproef), dit wordt meestal afgekort tot σ en s. Bij een marginale distributie hangt de standaarddeviatie echter alleen van y af, ongeacht de x. Daarom wordt hierbij de standaarddeviatie genoteerd als σy (voor de populatie) en sy (voor de steekproef). De formule van een puntschatting van de standaarddeviatie wordt dan:
\[\sqrt{\frac{\sum{(y-\hat{y})^2}}{n-1}}\]
In deze formule wordt het bovenste gedeelte binnen de wortel, namelijk Σ (y – ȳ)2, de totale som van kwadraten genoemd. De marginale standaarddeviatie (onafhankelijk van x) en de conditionele standaarddeviatie (afhankelijk van een bepaalde x) kunnen verschillen.
Hoe meet je de correlatie van een lineair verband?
De hellingscoëfficiënt geeft aan hoe steil de helling is en of het verband positief of negatief is, maar de hellingscoëfficiënt geeft niet aan hoe sterk het verband tussen twee variabelen is.
Het verband tussen x en y wordt gemeten met de correlatie, genoteerd als r. De correlatie is een gestandaardiseerde versie van de hellingscoëfficiënt. De r wordt ook wel de gestandaardiseerde regressiecoëfficiënt, of Pearson correlatie genoemd. De correlatie is de waarde die de hellingscoëfficiënt zou hebben als de variabelen op een gelijke manier verspreid zouden zijn. De correlatie wordt berekend als volgt:
\[r=\frac{\sum{(x-\bar{x})(y-\bar{y})}}{\sqrt{[\sum{(x-\bar{x})^2}][(y-\bar{y})^2]}}\]
In verhouding tot de hellingscoëfficiënt (b) is de r als volgt: r = (sx / sy) b. Hierbij is sx de steekproef deviatie van x en sy de steekproefdeviatie van y.
De correlatie heeft een aantal kenmerken:
- Je kunt de correlatie alleen gebruiken als een rechte lijn zinvol is.
- De r valt tussen 1 en -1.
- De r is positief/negatief gelijk aan b. Als b positief is (en er een positief verband is) is r ook positief en als b negatief is (en er een negatief verband is) is r ook negatief.
- Als b 0 is, dan is r ook 0, want dan is er geen helling en geen verband.
- Hoe groter r, hoe sterker het lineaire verband. Als r precies -1 of 1 is, is het lineaire verband perfect positief of perfect negatief, zonder inschattingsfouten.
- De r is niet afhankelijk van de meeteenheden.
De correlatie impliceert regressie richting het gemiddelde. Dit betekent dat hoe groter r wordt, hoe sterker het verband tussen de standaarddeviatie van x en de proportie van de standaarddeviatie van y.
De determinatiecoëfficiënt r2 is het kwadraat van r en geeft aan hoe goed x de y voorspelt. De determinatiecoëfficiënt geeft dit aan door te meten hoe goed de kleinste-kwadratenlijn ŷ = a + b(x) de y voorspelt in vergelijking tot de voorspelling van ȳ.
De determinatiecoëfficiënt heeft vier elementen:
- Regel 1: y wordt voorspeld ongeacht x. De beste voorspelling is dan ȳ, het steekproefgemiddelde.
- Regel 2: y wordt voorspeld met x. De voorspellingsvergelijking ŷ = a + b(x) voorspelt y.
- E1 zijn de fouten bij regel 1 en E2 de fouten bij regel 2.
- De proportionele beperking van het aantal fouten, ofwel de determinatiecoëfficiënt, is r2 = (E1 - E2) / E1. Hierbij is E1 = Σ (y – ȳ)2, ofwel de totale som van kwadraten (TSS). Hierbij is E2 = Σ (y – ŷ)2, ofwel de SSE.
R-kwadraat heeft een aantal kenmerken die sterk overeenkomen met r:
- Omdat r tussen 1 en -1 valt, moet r2 wel tussen 0 en 1 liggen.
- Als SSE = 0, dan r2 = 1. Alle punten moeten op de lijn vallen.
- Als b = 0 dan r2 = 0.
- Hoe dichter r2 bij 1 ligt, hoe sterker het lineaire verband.
- De meeteenheden en welke variabele de verklarende is (x of y), maken niet uit voor r2.
De TSS beschrijft de variabiliteit van de observaties van y. De SSE beschrijft de variabiliteit van de voorspellingsvergelijking. De determinatiecoëfficiënt geeft aan hoeveel procent de variantie van een conditionele distributie groter of kleiner is dan de variantie van een marginale distributie. Omdat de determinatiecoëfficiënt niet de originele meetschaal gebruikt maar een kwadraat ervan, vinden sommige onderzoekers dat de standaarddeviatie en de correlatie duidelijkere informatie geven.
Hoe voorspel je de hellingscoëfficiënt en de correlatie?
Wat de chi-kwadraattoets is voor categorische variabelen, is het betrouwbaarheidsinterval van de hellingscoëfficiënt of correlatie voor kwantitatieve variabelen. Het principe is hetzelfde, namelijk kijken of de variabelen onafhankelijk zijn.
De assumpties voor inferentie van regressie zijn:
- Randomisatie.
- Het gemiddelde van y wordt benaderd door de formule: E(y) = α + β (x)
- De conditionele standaarddeviatie σ is gelijk voor elke x-waarde.
- De conditionele distributie van y voor elke x-waarde is normaal verdeeld.
De nulhypothese is H0 : β = 0 (er is dan geen helling en de variabelen zijn onafhankelijk), de alternatieve hypothese is Ha : β ≠ 0.
De t-score wordt berekend door de hellingscoëfficiënt van de steekproef (b) te delen door de standaardfout van b. De formule is t = b / se. De vorm van de formule is gelijk aan die van elke t-score, namelijk de schatting min de nulhypothese (die hier 0 is en dus verdwijnt), gedeeld door de standaardfout van de schatting. Voor het opzoeken van de P-waarde gebruik je df = n – 2. De standaardfout van b is:
\[se=\frac{s}{\sqrt{\sum{(x-\bar{x})^2}}}\]
waarbij
\[s=\sqrt{\frac{SSE}{n-2}}\]
Hoe kleiner de standaarddeviatie s, hoe preciezer b de β inschat.
De correlatie wordt genoteerd met de Griekse letter ρ. De ρ is 0 in dezelfde situaties waarin β = 0. Een test of H0 : ρ = 0 gaat verder op dezelfde manier als bij de hellingscoëfficiënt. Bij de correlatie is de formule:
\[t=\frac{r}{\sqrt{\frac{1-r^2}{n-2}}}\]
Als veel verschillende variabelen mogelijk een responsvariabele beïnvloeden, kunnen deze worden getoond in een correlatiematrix. Van elke variabele kan afzonderlijk de correlatie worden berekend.
Een betrouwbaarheidsinterval zegt meer over de hellingscoëfficiënt dan een onafhankelijkheidstest. Het betrouwbaarheidsinterval van de hellingscoëfficiënt β is: b ± t(se). Een betrouwbaarheidsinterval berekenen van een correlatie is moeilijker, omdat de steekproefverdeling niet symmetrisch is tenzij ρ = 0.
De determinatiecoëfficiënt r2 geeft aan hoe goed x de y voorspelt en hangt af van TSS (de variabiliteit van de observaties van y) en SSE (de variabiliteit van de voorspellingsvergelijking). Het verschil tussen deze twee, TSS – SSE, wordt de regressie som van kwadraten ofwel modelsom van kwadraten genoemd. Dit verschil duidt de totale hoeveelheid variabiliteit in y aan die wordt verklaard door x met de kleinste-kwadratenvergelijking.
Wat gebeurt er als er niet aan de assumpties van een lineair model wordt voldaan?
Een assumptie die vaak wordt gemaakt, is dat er een lineair verband is. Het is belangrijk om altijd eerst de data weer te geven in een puntgrafiek om te kijken of het wel zinvol is om een lineair model te maken. Anders is er het gevaar een lineair verband te ontdekken in data die helemaal niet lineair is, maar bijvoorbeeld een U-vorm heeft. Dit kan ervoor zorgen dat het resultaat van een onafhankelijkheidstoets van de hellingscoëfficiënt niet klopt.
Andere assumpties zijn dat het om een normale verdeling gaat en dat σ identiek is voor elke x-waarde. Zelfs als het niet om een normale verdeling gaat, zijn de kleinste-kwadratenlijn, de correlatie en de determinatiecoëfficiënt nog bruikbaar. Maar als er de standaarddeviatie verschilt, dan zijn andere methoden efficiënter dan de kleinste-kwadratenmethode.
Sommige outliers kunnen grote effecten hebben op de regressielijnen en de correlaties. Het is soms nodig om bepaalde outliers eruit te halen. Één punt kan al veel invloed hebben, in het bijzonder bij een kleine steekproef.
De assumptie dat de data willekeurig is, zowel x en y, is belangrijk voor de correlatie. Als de data namelijk niet willekeurig is en de variabiliteit klein is, dan zal de steekproefcorrelatie ook klein zijn en onderschat deze de correlatie van de populatie. Voor andere aspecten van regressie, zoals de hellingscoëfficiënt, is de assumptie van willekeurigheid minder belangrijk.
Het is niet verstandig om de voorspellingsvergelijking te extrapoleren en te gebruiken voor (niet-existente) punten buiten het bereik van de geobserveerde data. Hierdoor kunnen absurde resultaten worden verkregen, zoals dingen die fysiek onmogelijk zijn.
Er is het theoretische risico dat het gemiddelde y bij een bepaalde waarde van x geen goeie inschatting is van de daadwerkelijke individuele observatie. De Griekse letter epsilon (ε) geeft daarom de error term aan; hoeveel y van het gemiddelde afwijkt. Het model van de populatie wordt dan y = α + β x + ε en de voorspellingsvergelijking van de steekproef wordt y = a + bx + e. De ε wordt ook wel het populatieresidu genoemd.
Een model blijft slechts een benadering van de werkelijkheid. Het moet niet te simpel zijn. Als het te simpel is, moet het aangepast of uitgebreid worden.
Welke vormen hebben multivariate verbanden? – Chapter 10
Welke rol speelt causaliteit in verbanden?
In veel wetenschappelijke studies wordt gekeken naar meer dan één of twee variabelen. Multivariate methoden worden dan gebruikt. Vooral de causale relatie tussen variabelen wordt veel bestudeerd, maar een causale relatie vaststellen is niet gemakkelijk. Het schijnbaar causale verband kan namelijk ook worden veroorzaakt door een andere variabele. Met statistische controle wordt bekeken of een verband tussen variabelen verandert of zelfs verdwijnt als de invloed van andere variabelen wordt verwijderd.
Een causaal verband bestaat uit een verklarende variabele (x) en een responsvariabele (y), waarin x de oorzaak is van y. In schema: X → Y. Dit is asymmetrisch, omdat dit niet per se hoeft te betekenen dat y ook x veroorzaakt.
Er is sprake van een causaal verband als aan drie criteria wordt voldaan:
- Er moet een verband zijn tussen de variabelen.
- De gebeurtenissen voltrekken zich in een logische tijdsvolgorde.
- Andere verklaringen zijn uitgesloten.
Een verband is noodzakelijk voor een causaal verband, maar een verband betekent niet dat er per se sprake is van causaliteit. Er kan ook een verband zijn zonder dat het een het ander veroorzaakt.
Het is meestal gelijk duidelijk wat een logische tijdsvolgorde is. De verklarende variabele gaat vooraf aan de responsvariabele, bijvoorbeeld bepaalde persoonlijke eigenschappen gaan vooraf aan bepaald gedrag. Soms is het echter niet gelijk duidelijk welke variabele de andere variabele veroorzaakt.
Naast x en y is er soms een extra variabele z voor een alternatieve uitleg. Met observatiestudies kan nooit worden bewezen dat een variabele een andere variabele veroorzaakt, want dit is nooit zeker. Causaliteit kan meestal niet worden weerlegd door een enkele uitschieter of anekdotisch tegenbewijs. Als een bepaalde wandelaar nooit blaren krijgt, wil dat niet zeggen dat wandelen geen blaarvorming veroorzaakt.
Het is makkelijker om causaliteit vast te stellen met gerandomiseerde experimenten dan met observatiestudies. Bij randomisatie worden namelijk willekeurig twee groepen aangewezen en is het tijdsframe van tevoren bepaald.
Hoe controleer je of andere variabelen een causaal verband beïnvloeden?
Om causaliteit vast te stellen, moeten andere verklaringen zijn uitgesloten. Dit is vaak heel lastig. Het uitsluiten van de invloed van andere variabelen op een causale verband kan door die andere variabelen te controleren. Controleren betekent het uitschakelen of op een constante waarde houden van andere variabelen. De andere variabelen heten de controlevariabelen. Het controleren betekent zorgen dat de controlevariabelen geen invloed meer hebben op het verband tussen x en y.
Bij een gerandomiseerd experiment is er als het ware ook sprake van gecontroleerde variabelen. De subjecten zijn willekeurig geselecteerd en de andere variabelen manifesteren zich op een willekeurige manier bij de subjecten.
Statistische controle is anders dan experimentele controle. Bij statistische controle worden subjecten met bepaalde eigenschappen bij elkaar gegroepeerd. Bij observatiestudies in de sociale wetenschappen worden vaak groepen gevormd op basis van sociaal-economische status, opleiding of inkomen.
- Het verband tussen twee kwantitatieve variabelen wordt weergegeven in een puntgrafiek. Om dit verband te controleren voor een categorische variabele, kun je de gemiddelden vergelijken.
- Het verband tussen twee categorische variabelen wordt weergegeven in een kruistabel. Om dit verband te controleren voor een derde variabele, kan elke waarde van de derde variabele in een aparte kruistabel worden getoond. De aparte kruistabellen heten dan partial tables.
Het effect van een controlevariabele is meestal niet volledig afwezig, maar slechts miniem.
- Bij een kwantitatieve en een categorische variabele beschrijf je het verband door de gemiddelden te vergelijken. Bij twee categorische variabelen maak je kruistabellen om het verband te onderzoeken.
- Een lurking variabele is niet gemeten, maar wel van invloed op het causale verband. Soms zijn onderzoekers niet op de hoogte van de variabele of het feit dat deze meespeelt bij de resultaten van het onderzoek.
Welke soorten multivariate verbanden bestaan er?
Er bestaan verschillende vormen van multivariate verbanden. De responsvariabele y heeft dan meerdere verklarende variabelen en controlevariabelen, die worden genoteerd als x1, x2, enzovoorts.
Er is sprake van onechte verbanden (spurious associations) wanneer zowel de verklarende variabele x1 als de responsvariabele y afhankelijk zijn van een derde variabele (x2), en wanneer het verband tussen de verklarende variabele (x1) en de responsvariabele (y) verdwijnt wanneer x2 wordt gecontroleerd. Er bestaat hierbij geen causale relatie tussen x1 en y.
Bij kettingverbanden (chain relationships) veroorzaakt de verklarende variabele (x1) een derde variabele (x2), die op zijn beurt weer de responsvariabele (y) veroorzaakt. De derde variabele (x2) wordt ook wel de interveniërende variabele of de mediator genoemd. Ook bij kettingverbanden verdwijnt het verband zodra x2 gecontroleerd wordt. In schema:
\[x_1\rightarrow x_2\rightarrow y\]
Het verschil tussen een onecht verband en een kettingverband ligt in de causale volgorde. Bij een onecht verband gaat x2 vooraf aan zowel x1 als y. Bij een kettingverband bemiddelt x2 tussen x1 en y.
In de werkelijkheid hebben responsvariabelen bijna altijd meer dan één oorzaak. In dat geval heeft y meerdere oorzaken. Soms zijn deze oorzaken onafhankelijk, maar meestal houden deze oorzaken ook weer verband met elkaar. Dit betekent dat bijvoorbeeld x1 behalve een direct effect op y ook een indirect effect op y kan hebben via x2.
Bij een onderdrukkende variabele (suppressor variable) lijkt er geen verband te zijn tussen x1 en y, totdat x2 verdwijnt bij een controle. De x2 is hier een onderdrukkende variabele. Dit kan bijvoorbeeld gebeuren wanneer x2 positief gecorreleerd is met y, maar ook negatief gecorreleerd met x1. Daarom is het zelfs wanneer er in eerste instantie geen verband lijkt te zijn tussen twee variabelen verstandig om alsnog voor andere variabelen te controleren.
Er is sprake van statistische interactie tussen x1 en x2 en hun effect op y wanneer het daadwerkelijke effect van x1 op y verandert bij andere waarden van x2. De verklarende variabelen, x1 en x2, worden ook wel predictoren genoemd.
Een voorbeeld van statistische interactie is te zien tussen het inkomen van mensen met kinderen en mensen zonder kinderen, en de opleiding die zij hebben gehad. Kinderloze mensen verdienen gemiddeld meer verdienen dan mensen met kinderen. Ook is bekend dat hoogopgeleiden meer verdienen dan laagopgeleiden. Er is sprake van statistische interactie wanneer opleiding leidt tot meer inkomen, meer voor kinderlozen dan voor mensen met kinderen. Bijvoorbeeld wanneer kinderlozen per opleidingsjaar 5% in uurloon stijgen en mensen met kinderen per opleidingsjaar maar 3% in uurloon stijgen. Er is dan interactie tussen opleiding en kinderloosheid in het effect op uurloon.
Er zijn nog veel meer structuren mogelijk in multivariate verbanden. Het kan zelfs zo zijn dat een verband de tegenovergestelde richting (positief versus negatief) aanneemt zodra een variabele gecontroleerd wordt, dit heet Simpson's paradox. Het kan bijvoorbeeld zo zijn dat ingeschat wordt dat een student hogere cijfers haalt dan een tweede student, maar dat de eerste student in de praktijk toch lagere cijfers haalt, omdat deze moeilijkere vakken kiest.
Het is mogelijk dat twee verklarende variabelen beide een effect hebben op een responsvariabele, terwijl de twee verklarende variabelen ook met elkaar in verband staan. Dit heet een verstoring (confounding). Als een verstorende variabele over het hoofd wordt gezien, treedt er omitted variable bias op. Een grote uitdaging binnen de sociale wetenschappen is het opmerken van verstorende variabelen.
Welke gevolgen heeft statistische controle voor inferentie?
Als x2 wordt gecontroleerd voor het x1y verband, kan dit gevolgen hebben voor de inferentie. Er kan bijvoorbeeld een kleinere steekproefgrootte zijn bij een bepaalde waarde van x2. Het betrouwbaarheidsinterval kan wijder zijn en de toetsingsgrootheden vallen kleiner uit. Uit een chi-kwadraattoets kan een kleinere waarde komen, die mogelijk wordt veroorzaakt door de kleinere steekproefgrootte.
Als een categorische variabele wordt gecontroleerd, moeten er aparte kruistabellen worden gemaakt voor de verschillende categorieën. Bij een ordinale variabele worden er meestal minstens drie of vier kruistabellen gemaakt.
Vaak worden de parameterwaarden gemeten bij verschillende waarden van de controlevariabele. Als x2 een constante waarde van 10 heeft, kan het x1y verband namelijk anders zijn dan als x2 een constante waarde van 20 heeft. In plaats van het gebruikelijke betrouwbaarheidsinterval om het verschil tussen proporties of gemiddelden te analyseren, kan er dan een betrouwbaarheidsinterval worden gemaakt voor het verschil tussen de parameters bij verschillende waarden van de controlevariabelen. De formule voor het betrouwbaarheidsinterval om het effect van statistische controle te meten is:
\[(Estimate_2-Estimate_1)\pm z\sqrt{(se_1)^2+(se_2)^2}\]
Als 0 niet binnen het interval valt, dan verschillen de parameterwaarden. Als het x1y verband gelijk is in de partiële analyses, dan kan er een meting worden gevormd om de sterkte van het verband te meten waarbij rekening wordt gehouden met de controlevariabele. Dit heet een partial association.
Hoe analyseer je multipele regressie? – Chapter 11
Hoe ziet een model voor multipele regressie eruit?
Een bivariaat model heeft als basis E(y) = α + βx ; een model met slechts een predictor (x) en twee variabelen (x en y). Een multipele regressiemodel is een model dat meerdere verklarende variabelen en eventueel ook controlevariabelen aankan. Een multipele regressieformule heeft de vorm: E(y) = α + β1x1 + β2x2.
De verschillende verklarende variabelen krijgen nummers: x1, x2, etc. Als er een verklarende variabele bij komt, dan wordt β2x2 aan de formule toegevoegd. De parameters in deze formule zijn α en β1 en β2.
Als y de verticale as is en x1 de horizontale as, dan is x2 een horizontale as die loodrecht op de eerste x-as staat. Daarmee wordt het een driedimensionaal assenstelsel. De multipele regressieformule duidt een plat oppervlak aan.
Een voorbeeld is het verband tussen vandalisme (y) en veganisme (x1), hierbij hoort een bivariate formule: E(y) = -51,3 + 1,5 x1 . Dit is een positieve relatie: wanneer het veganismepercentage omhoog gaat, gaat ook het vandalismepercentage omhoog. Nu wordt urbanisatie (x2) toegevoegd aan de formule, omdat bekend is dat dit sterk gerelateerd is aan vandalisme. Er ontstaat een multipele formule: E(y) = 58,9 – 0,6 x1 + 0,7 x2 . Als de formule gecontroleerd wordt voor urbanisatie, dan blijft de waarde van urbanisatie constant, bijvoorbeeld het gemiddelde (50). De formule wordt dan E(y) = 58,9 – 0,6 x1 + 0,7(50) = 58,9 – 0,6 x1 + 35. Deze formule heet een partiële regressieformule, omdat deze formule maar naar een deel van de mogelijke observaties kijkt (namelijk alleen naar die gevallen die een urbanisatieniveau van 50 hebben). Het effect van veganisme is -0,6, wanneer gecontroleerd voor urbanisatie. Nu is het verband tussen veganisme en vandalisme negatief. Er is sprake van Simpson’s paradox: als het effect van een controlevariabele teniet wordt gedaan, verandert de richting van het verband. In dit geval heeft de bivariate formule een andere richting dan de multipele formule.
In multipele regressie geeft een coëfficiënt het effect aan van een verklarende variabele op een responsvariabele, terwijl gecontroleerd wordt voor andere variabelen in het model. Bij bivariate regressie geeft een coëfficiënt het effect aan van een verklarende variabele op een responsvariabele, terwijl alle andere mogelijke verklarende variabelen genegeerd worden. Bij multipele regressie worden de andere variabelen dus tijdelijk even weggepoetst, terwijl ze bij bivariate regressie compleet genegeerd worden. Dit is het basisverschil tussen multipele en bivariate regressie. De coëfficiënt (bijvoorbeeld β1) van een predictor (bijvoorbeeld x1) geeft aan wat de verandering is in het gemiddelde van y wanneer de predictor met een punt omhoog gaat, en gecontroleerd voor alle andere variabelen (bijvoorbeeld x2) in het model. Deze coëfficiënten heten partiële regressiecoëfficiënten. De parameter α geeft aan wat het gemiddelde is van y, wanneer alle verklarende variabelen 0 zijn.
Het multipele regressiemodel heeft beperkingen. Een verband betekent niet per se dat er een causaal verband is, er kunnen allerlei andere factoren meespelen. Sommige onderzoekers verwoorden 'statistisch controleren' voorzichtiger, bijvoorbeeld als 'aanpassen'. In het reguliere multipele regressiemodel wordt aangenomen dat er geen statistische interactie is en dat de hellingscoëfficiënt β niet afhankelijk is welke combinatie van verklarende variabelen er wordt gevormd.
Een multipele regressiemodel dat bestaat in de werkelijke populatie kan worden geschat met een voorspellingsvergelijking: ŷ = a + b1 x1 + b2 x2 + … + b p x p. Hierin is p het aantal verklarende variabelen.
Net zoals het bivariate model, gebruikt het multipele regressiemodel residuen om de voorspellingsfouten te meten. Voor iemand met een voorspelde respons ŷ en een gemeten respons y, is het residu het verschil tussen deze twee: y – ŷ. De SSE (Sum of Squared Errors/Residual Sum of Squares) werkt hetzelfde als bij bivariate formules; deze wordt berekend als SSE = Σ (y – ŷ)2. Het enige verschil is dat bij een multivariaat model de schatting ŷ wordt gevormd door meerdere verklarende variabelen. Ook bij een multivariaat model wordt de kleinste kwadratenlijn gekozen, met de kleinst mogelijke SSE. De SSE geeft aan hoe goed of slecht ŷ is in het inschatten van y en beoordeelt hoe goed de regressielijn past bij de data.
Voor een multipele regressiemodel wordt bekeken of er sprake is van lineaire verbanden via een puntgrafiekmatrix (scatterplot matrix). Dit is een mozaïek met puntgrafieken van de datapunten van verschillende paren variabelen. Een andere optie is om in een puntgrafiek de verschillende paren op verschillende manieren te markeren. Software kan een partiële regressiegrafiek maken (partial regression plot ofwel added-variable plot). Deze grafiek toont het verband tussen de responsvariabele en een verklarende variabele na het verwijderen van de effecten van de andere predictoren. Software doet dit door de residuen van verschillende combinaties te vergelijken.
Hoe interpreteer je de determinatiecoëfficiënt bij multipele regressie?
Bij een bivariaat model beschrijft de correlatie r de sterkte van het verband en de determinatiecoëfficiënt r2 beschrijft hoe goed x de y voorspelt. In een multivariaat model worden deze aangegeven als R en R2. De multipele correlatie van de steekproef, namelijk R, is de correlatie tussen de geobserveerde y-waarden en de voorspelde y-waarden. Hoe hoger de correlatie, hoe sterker het verband tussen y en de verklarende variabelen. R valt altijd tussen 0 en 1.
De multipele determinatiecoëfficiënt R² meet de proportie van de variantie in y die wordt uitgelegd door het voorspellend vermogen van alle verklarende variabelen. De multipele determinatiecoëfficiënt heeft soortgelijke elementen als de bivariate determinatiecoëfficiënt.
De multipele determinatiecoëfficiënt volgt uit:
- Regel 1: y wordt voorspeld ongeacht xp. De beste voorspelling is dan ȳ, het steekproefgemiddelde.
- Regel 2: y wordt voorspeld met xp. De voorspellingsvergelijking ŷ = a + b1x1 + b2x2 + … + bpxp voorspelt y.
- De proportionele beperking van het aantal fouten, ofwel de multipele determinatiecoëfficiënt, is R2 = (TSS – SSE) / TSS. Hierbij is TSS = Σ (y – ȳ)2 en SSE = Σ (y – ŷ)2.
Software zoals SPSS toont de output in een ANOVA-tabel. De TSS is wat er achter Total staat, onder Sum of Squares. De SSE is wat er achter Residual staat, onder Sum of Squares.
Kenmerken van R-kwadraat zijn:
- R2 ligt tussen 0 en 1.
- Als SSE = 0, dan R2 = 1 en dan zijn de voorspellingen perfect.
- Als b1, b2, …, bp = 0 dan R2 = 0.
- Hoe groter R2 is, hoe beter de verklarende variabelen y voorspellen.
- R2 kan niet afnemen als er verklarende variabelen worden toegevoegd, enkel toenemen.
- R2 is minstens zo groot als de r2-waarden voor de afzonderlijke bivariate modellen.
- R2 overschat meestal de waarde van de populatie, daarom biedt veel software ook een adjusted R2 aan.
Wanneer er veel verklarende variabelen zijn die een sterke correlatie met elkaar hebben, dan neemt R² relatief weinig toe als het aantal verklarende variabelen toeneemt. Dit betekent niet dat die variabelen y niet goed kunnen voorspellen, maar dat ze niet veel meer toevoegen aan de predictoren. Dit heet multicollineariteit.
Problemen met multicollineariteit zijn minder groot bij grotere steekproeven.
Ideaal zou zijn als de steekproef minstens tien keer zo groot is als het aantal verklarende variabelen (bijvoorbeeld minstens 60 mensen voor zes verklarende variabelen).
Hoe voorspel je de waarden van multipele regressiecoëfficiënten?
Multipele regressie heeft twee soorten significantietoetsen. De eerste analyseert het hele model en kijkt of het collectief aan verklarende variabelen statistisch gerelateerd is aan y. De tweede analyseert de afzonderlijke verklarende variabelen en bekijkt welke daarvan een significant effect hebben op y.
Bij een collectieve significantietoets is H0 : β1 = β2 = … = βp = 0 en Ha : minstens één van βi ≠ 0. De i betekent 'één van de', bijvoorbeeld βi is één van de hellingscoëfficiënten. Deze toets meet of het collectief van verklarende variabelen een associatie heeft met de responsvariabele. Er wordt dus gemeten of de multipele correlatie van de populatie 0 is of iets anders dan 0. De significantietoets bij multipele regressie wordt uitgevoerd met behulp van de F-distributie en de toetsingsgrootheid F. De formule van F is:
\[F=\frac{\frac{R^2}{p}}{\frac{(1-R^2)}{[n-(p+1)]}}\]
Hierin is p het aantal predictoren (verklarende variabelen).
Kenmerken van de F-distributie zijn:
- De distributie heeft alleen positieve waarden.
- De distributie is rechtsscheef.
- Het gemiddelde is ongeveer 1.
- Hoe groter de R², hoe groter de F-statistiek.
- Hoe groter de F-waarde, hoe groter het bewijs tegen H0.
De F-distributie is afhankelijk van twee soorten vrijheidsgraden: df1 = p (het aantal predictoren) en df2 = n – (p + 1). De F-waarde wordt in SPSS apart aangegeven in een ANOVA-tabel. De P-waarde wordt in SPSS aangegeven onder Sig., in R onder p-value, in Stata onder Prob > F en in SAS onder Pr > F.
Bij een significantietoets of een afzonderlijke verklarende variabele (xi) een partieel effect heeft op y, is H0 : β i = 0 en Ha : βi ≠ 0. Het betrouwbaarheidsinterval van βi is bi ± t(se) waarbij t = bi / se. De standaardfout wordt berekend met software en de t-score is te vinden in tabellen. Als multicollineariteit optreedt, kunnen de uitkomsten van de afzonderlijke P-waarden mogelijks niks aangeven, terwijl er bij een collectieve significantietoets wel een correlatie uit zou komen.
Er kan een conditionele standaarddeviatie worden berekend voor gecontroleerde verklarende variabelen. De schatting van deze standaarddeviatie is:
\[s=\sqrt{\frac{\sum{(y-\hat{y})^2}}{n-(p+1)}}=\sqrt{\frac{SSE}{df}}\]
Ook de conditionele variantie kan worden berekend met software. Dit wordt de error mean square (MSE) of residual mean square genoemd.
F kan behalve met R² ook nog op een alternatieve manier worden berekend, namelijk met de mean squares uit de ANOVA-tabel van SPSS. In dat geval is F = regression mean square / MSE waarbij regression mean square = regression sum of squares (in SPSS) / df1.
De t-distributie en de F-distributie zijn gerelateerd. Het nadeel van F is het gebrek aan informatie over de richting van een verband. F is niet geschikt voor eenzijdige alternatieve hypothesen.
Hoe verwerk je interactie-effecten in een statistisch model?
Meestal staan de verklarende variabelen van multipele regressie niet los van elkaar, er is vaak interactie. Er is sprake van statistische interactie tussen x1 en x2 en hun effect op y wanneer het daadwerkelijke effect van x1 op y verandert bij andere waarden van x2. Dit kan worden verwerkt in een model met het gebruik van kruisproducten (cross-product terms). Het model hiervan is: E(y) = α + β1x1 + β2x2 + β3x1x2. Hierin is β1 alleen het effect van x1 als x2 = 0, dus β1 is meestal niet interessant om afzonderlijk te onderzoeken.
Een significantietoets van een model met kruisproducten heeft als nulhypothese H0 : β3 = 0. De test wijst uit of er interactie is. Als er weinig interactie is, kan het kruisproduct beter worden weggelaten bij verdere testen. Als er veel interactie is, dan heeft het weinig zin meer om significantietoetsen te doen voor de andere verklarende variabelen, want die hangen toch sterk van elkaar af.
De coëfficiënten van verklarende variabelen zijn vaak niet zo heel erg nuttig, omdat ze alleen aangeven wat het effect is van die variabelen, gegeven dat de andere variabelen constant worden gehouden. Ze worden nuttiger door ze te centreren; hierbij wordt elke verklarende variabele gecentreerd rond 0 door er het gemiddelde af te trekken.
Centreren wordt aangegeven met een C in het symbool:
\[E(y)=\alpha + \beta_1 x_1^C + \beta_2 x_2^C + \beta_3 x_1^C x_2^C = \alpha + \beta_1(x_1-\mu_{x_1})+\beta_2(x_2-\mu_{x_2})+\beta_3(x_1-\mu_{x_1})(x_2-\mu_{x_2})\]
Nu geeft de coëfficiënt van x1 (dus β1) aan wat het effect is van x1, wanneer x2 gemiddeld is. Deze effecten zijn nu soortgelijk als in een model zonder interactie. De voordelen van centreren zijn dat de schattingen van x1 en x2 meer zeggen en dat de schattingen en standaardfouten lijken op die van een model zonder interactie.
Als er veel verklarende variabelen zijn, dan heeft het model een kruisproduct voor elk mogelijk paar. De data wordt dan weergegeven met lijnen in een grafiek of onderverdeeld in waarden van een controlevariabele (laag op x2, middelhoog op x2, hoog op x2).
Hoe vergelijk je mogelijke regressiemodellen?
Het hoeft helemaal niet zo te zijn dat hele uitgebreide modellen beter zijn dan korte modellen. Een gereduceerd model (met slechts enkele variabelen) kan beter zijn dan een compleet model (met alle variabelen). Een compleet model is bijvoorbeeld: E(y) = α + β1x1 + β2x2 + β3x3 + β4x1x2 + β5x1x3 + β6x2x3 . Een gereduceerd model hiervan is: E(y) = α + β1x1 + β2x2 + β3x3. De nulhypothese stelt dat de modellen identiek zijn: H0 : β4 = β5 = β6 = 0.
Een vergelijkingsmethode is om de SSE van het complete model (SSEc) af te trekken van de SSE van het gereduceerde model (SSEr). Omdat het gereduceerde model beknopter is, zal deze altijd een grotere SSE hebben en de werkelijkheid iets minder goed inschatten. Een andere vergelijkingsmethode trekt de R2 waarden van elkaar af.
De formules zijn:
\[F=\frac{\frac{(SSE_r-SSE_c)}{df_1}}{\frac{SSE_c}{df_2}}=\frac{\frac{(R_c^2-R^2_r)}{df_1}}{\frac{(1-R_c^2)}{df_2}}\]
Hierin is df1 het aantal extra predictoren in het complete model en df2 zijn de resterende vrijheidsgraden van het complete model. Een groot verschil in de SSE of een grote R2 zorgt voor een grotere F-waarde en een kleinere P-waarde, en dus meer bewijs tegen H0.
Hoe bereken je de partiële correlatie?
De partiële correlatie is de sterkte van het verband tussen een verklarende variabele (x1) en een responsvariabele (y), waarbij een controlevariabele (x2) buiten beschouwing wordt gelaten.
De formule van een partiële correlatie is:
\[r_{yx_1*x_2}=\frac{r_{yx_1}-r_{yx_2}r_{x_1x_2}}{\sqrt{(1-r_{yx_2}^2)(1-r_{x_1x_2}^2)}}\]
Hierin is ryx1.x2 de partiële correlatie, de variabele rechts van de punt is de controlevariabele. Een eerste orde partiële correlatie heeft één controlevariabele, een tweede orde partiële correlatie heeft er twee. De kenmerken van een partiële correlatie lijken op die van een reguliere correlatie; de waarde ligt tussen -1 en 1 en hoe groter deze waarde is, hoe sterker het verband.
Net als een reguliere correlatie, heeft een partiële correlatie ook een gekwadrateerde versie. De formule hiervan is:
\[r_{yx_2*x_1}^2=\frac{R^2-r_{yx_1}^2}{1-r_{yx_1}^2}=\frac{\text{Partial proportion explained by}x_2}{\text{Proportion explained by}x_1}\]
De gekwadrateerde partiële correlatie is de proportie van de variantie in y die wordt uitgelegd door x1. De variantie in y bestaat uit een deel dat wordt verklaard door x1, een deel dat wordt verklaard door x2, en een deel dat niet wordt verklaard door deze variabelen. De combinatie van het deel dat wordt uitgelegd door x1 en x2 is hetzelfde als R2. Dit werkt ook zo als er meer variabelen worden toegevoegd; R2 is het deel van de variantie in y die wordt verklaard.
Hoe vergelijk je de coëfficiënten van variabelen met verschillende meeteenheden door middel van gestandaardiseerde regressiecoëfficiënten?
Als variabelen in verschillende meeteenheden worden uitgedrukt, worden niet de coëfficiënten vergeleken maar een gestandaardiseerde versie ervan. De gestandaardiseerde regressiecoëfficiënt (β*1, β*2, etc) is de verandering in het gemiddelde van y, gemeten in y standaarddeviaties, bij een toename van 1 standaarddeviatie. Hierbij worden de andere verklarende variabelen gecontroleerd. Hiermee wordt vergeleken of een toename in x1 een groter effect heeft op y dan een toename in x2.
De gestandaardiseerde regressiecoëfficiënt wordt berekend door de gewone coëfficiënten te standardiseren. De schatting hiervan is:
\[b_1 *=b_1(\frac{s_{x_1}}{s_y}), b_2 *=b_2(\frac{s_{x_2}}{s_y}), ...\]
Hierin is sy de steekproefdeviatie van y en sx1 de steekproefdeviatie van een verklarende variabele. De gestandaardiseerde regressiecoëfficiënten worden in SPSS en andere software soms BETA (beta weights) genoemd.
De gestandaardiseerde regressiecoëfficiënt geeft net als de correlatie de sterkte van een verband aan, alleen dan op een vergelijkende manier. Als de waarde hoger dan 1 is, dan is er een erg hoge correlatie tussen de verklarende variabelen.
Van de variabele y is zy de gestandaardiseerde versie: de versie die wordt uitgedrukt in het aantal standaarddeviaties. Als zy = (y – ȳ) / sy, dan is de schatting daarvan: ẑy = (ŷ – ȳ) / sy. De voorspellingsvergelijking voorspelt hoe ver een observatie van het gemiddelde valt, gemeten in standaarddeviaties. Gestandaardiseerde regressiecoëfficiënten vergelijken is een handige manier om te bekijken welke verklarende variabele de grootste impact op de resonsvariabele heeft. Wees hier echter voorzichtig mee, want de kwaliteit van de informatie hangt af van het bereik van de waargenomen waarden van de verklarende variabele.
Hoe werkt ANOVA? – Chapter 12
Hoe vervangen dummyvariabelen categorieën?
Een nominale categorische variabele kan behandeld worden als kwantitatieve variabele (door scores toe te kennen), maar dit is meer geschikt voor gemiddelden berekenen dan voor proporties. Om te voorkomen dat een model een bepaalde orde in de categorieën veronderstelt, kan beter gebruik worden gemaakt van dummyvariabelen. Dit betekent dat observaties worden geclassificeerd in nepvariabelen.
Een voorbeeld van dummyvariabelen is:
- z1 = 1 en z2 = 0 : observaties van categorie 1 (mannen)
- z1 = 0 en z2 = 1 : observaties van categorie 2 (vrouwen)
- z1 = 0 en z2 = 0 : observaties van categorie 3 (overige geslachten)
Het model hierbij is: E(y) = α + β1z1 + β2z2. De gemiddelden volgen logischerwijze uit het model: μ1 = α + β1 en μ2 = α + β2 en μ3 = α. Voor drie categorieën zijn slechts twee dummyvariabelen nodig, want categorie 3 is hetgeen wat resteert.
Een significantietoets met de F-distributie test of de gemiddelden hetzelfde zijn. De nulhypothese H0 : μ1 = μ2 = μ3 = 0 betekent hetzelfde als H0 : β1 = β2 = 0. Als F erg klein is, dan is de P-waarde erg groot en dan is het bewijs tegen de nulhypothese ook erg groot.
De F-toets is robuust als de populatiedistributie niet helemaal verdeeld is en als de standaarddeviaties niet helemaal hetzelfde zijn. Maar bij erg scheef verdeelde data werkt de F-toets niet. Daarom is de willekeurigheid van de steekproeven belangrijk.
Hoe maak je meerdere vergelijkingen van gemiddelden?
Een kleine P-waarde geeft nog niet aan welke gemiddelden er verschillen of in welke mate ze verschillen. Daar kunnen betrouwbaarheidsintervallen voor gebruikt worden. Er kan voor elk afzonderlijk gemiddelde een betrouwbaarheidsinterval gemaakt worden, maar ook voor het verschil tussen twee gemiddelden. Een betrouwbaarheidsinterval voor het schatten van het verschil tussen twee populatiegemiddelden is:
\[(\bar{y_i}-\bar{y_j})\pm ts\sqrt{\frac{1}{n_i}+\frac{1}{n_j}}\]
De vrijheidsgraden van de t-score zijn df = N – g, waarbij g het aantal categorieën is en N de gecombineerde steekproefgrootte (n1 + n2 + … + ng). Er is een bewezen verschil tussen de twee gemiddelden wanneer het betrouwbaarheidsinterval geen 0 bevat.
Als er heel veel groepen zijn en alle populatiegemiddelden hetzelfde zijn, dan kan het toch voorkomen dat er via het betrouwbaarheidsinterval een verschil tussen twee gemiddelden wordt gevonden. Dit komt doordat de kans op fouten toeneemt met het aantal vergelijkingen dat gemaakt moet worden.
Multiple comparison methods controleren de kans dat alle intervallen van een hoop vergelijkingen de daadwerkelijke verschillen bevatten. Hiermee bewaken ze de betrouwbaarheidsintervallen tegen fouten. Bij 95% betrouwbaarheidsintervallen is de kans dat een van de vele vergelijkingen een fout bevat 5%. Dit heet de multiple comparison error rate. Een voorbeeld van een methode voor meerdere vergelijkingen is de Bonferroni methode. Deze methode deelt het gewenste foutenpercentage door het aantal vergelijkingen, bijvoorbeeld 5% / 4 vergelijkingen = 1,25% per vergelijking. Een andere optie is Tukey's methode. Deze methode gebruikt een kansverdeling genaamd de Studentized range en kan met software worden berekend. Het voordeel van Tukey's methode boven Bonferroni's methode is dat Tukey nauwere betrouwbaarheidsintervallen geeft.
Wat is eenweg-ANOVA?
Variantieanalyse (analysis of variance), afgekort ANOVA, is een inferentiële methode om de gemiddelden van meerdere groepen met elkaar te vergelijken. Dit is een onafhankelijkheidstest tussen een kwantitatieve responsvariabele (bijvoorbeeld lengte) en een categorische verklarende variabele (bijvoorbeeld geslacht). In ANOVA heten de categorische verklarende variabelen factoren. De test komt neer op een F-test. De assumpties zijn hetzelfde als bij een F-test: normaal verdeelde data, een gelijke standaarddeviatie σ voor alle groepen en onafhankelijke willekeurige steekproeven. Voor ANOVA is H0 : μ1 = μ2 = … = μg (de gemiddelden van alle groepen zijn hetzelfde) en Ha : minstens twee gemiddelden verschillen.
De F-test vergelijkt de gemiddelden aan de hand van twee maten van variantie voor elke groep. De eerste, genaamd between-groups estimate, gebruikt de variabiliteit tussen elk steekproefgemiddelde ȳi en het algemene gemiddelde ȳ. De tweede, genaamd within-groups estimate, gebruikt de variabiliteit binnen elke groep; de variabiliteit van ȳ1, ȳ2, etc. Dit is een schatting van de variantie σ2. Over het algemeen geldt dat hoe groter de variabiliteit tussen de steekproefgemiddelden en hoe kleiner de variabiliteit binnen de afzonderlijke groepen, des te meer bewijs dat de populatiegemiddelden niet gelijk zijn en dat H0 niet klopt. Hiermee wordt de ANOVA F-statistiek berekend: between-groups estimate / within-groups estimate. Hoe groter de F-waarde, hoe kleiner de P-waarde.
In een ANOVA-tabel zijn de mean squares (MS) het between-groups estimate en het within-groups estimate, dit zijn schattingen van de populatievariantie σ2. Het between-groups estimate is de sum of squares tussen de groepen (de regressie SS) gedeeld door df1. Het within-groups estimate is de sum of squares binnen de groepen (de resterende SS, ofwel SSE) gedeeld door df2. Samen vormen de SS tussen groepen en de SSE de TSS; total sum of squares.
De vrijheidsgraden van het within-groups estimate zijn: df2 = N (totale steekproefgrootte) – g (aantal groepen). De schatting van de variantie aan de hand van de within-groups sum of squares is:
\[s^2=\frac{\text{Within-groups sum of squares}}{df}=\frac{\text{Within-groups}SS}{N-g}=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2+...+(n_g-1)s_g^2}{N-g}\]
De vrijheidsgraden van het between-groups estimate zijn: df1 = g – 1. De variantie aan de hand van de between-groups sum of squares is:
\[\sigma^2=\frac{\sum_i{n_i(\bar{y_i}-\bar{y})^2}}{g-1}=\frac{n_1(\bar{y_1}-\bar{y})^2+...+n_g(\bar{y_g}-\bar{y})^2}{g-1}\]
Hoe groter de waarde hiervan, hoe verder het populatiegemiddelde van de nulhypothese af ligt en hoe meer verschil er is tussen de gemiddelden.
Als er maar twee groepen zijn, is een t-test in plaats van een F-test ook mogelijk. Als de verdeling erg anders is dan een normale verdeling, dan is de nonparametrische Kruskal-Wallis test een optie, deze test brengt een ranglijst aan in de data en werkt ook bij niet-normale verdelingen.
Wat is tweeweg-ANOVA?
Eenweg-ANOVA is geschikt voor een kwantitatieve afhankelijke variabele en de categorieën van een enkele verklarende variabele. Tweeweg-ANOVA is geschikt voor meerdere categorische verklarende variabelen (zoals geslacht en religie). Elke factor heeft zijn eigen nulhypothese, waarbij gecontroleerd wordt voor de andere variabele, zodat de hoofdeffecten (main effects) van een individuele factor op de responsvariabele kunnen worden gemeten. Bijvoorbeeld wanneer je wilt weten of protestanten meer verdienen dan katholieken, terwijl gecontroleerd voor hun geslacht.
Het hoofdeffect van een factor is: MS / residu MS. De MS wordt berekend door een som van kwadraten te delen door de vrijheidsgraden. Omdat het handmatig uitvoeren van tweeweg-ANOVA complex is, wordt er gebruik gemaakt van software. Software geeft de MS en vrijheidsgraden weer in een ANOVA-tabel.
ANOVA kan worden uitgevoerd door dummyvariabelen aan te wijzen. Bijvoorbeeld bij een onderzoek naar hoeveel vegetariërs, veganisten en vleeseters per week aan boodschappen uitgeven, waarbij ook van invloed is hoe iemand zich identificeert:
- v1 = 1 als iemand vegetarisch is, 0 als iemand dat niet is
- v2 = 1 als iemand veganist is, 0 als iemand dat niet is
- Als iemand noch vegetarisch noch veganistisch is, dan valt die persoon in de overige categorie (vleeseters).
- k = 1 als iemand zichzelf als krent beschouwt, 0 als iemand zichzelf niet als krent beschouwt.
Het model wordt dan: E(y) = α + β1v1 + β2v2 + β3k. Vervolgens kan de voorspellingsvergelijking worden afgeleid. Tot slot geeft een betrouwbaarheidsinterval aan wat het verschil is tussen de effecten. Bijvoorbeeld het verschil tussen wat vegetariërs, veganisten en vleeseters aan boodschappen uitgeven, zowel in de categorie krenten als in de categorie van mensen die zichzelf niet als krent beschouwen.
In de praktijk moet er voor tweeweg-ANOVA eerst worden onderzocht of er een interactie-effect is, bijvoorbeeld tussen vegetarisme en krenterigheid. Dan wordt een uitgebreid model op interactie-effecten getoetst: E(y) = α + β1v1 + β2v2 + β3k.+ β4(v1 x k) + β5(v2 x k).
Een som van kwadraten van een van de (dummy)variabelen heet partiële som van kwadraten (partial sum of squares, ofwel Type III sum of squares). Dit is de variabiliteit in y die wordt uitgelegd door de desbetreffende variabele als de andere aspecten al in het model zitten.
ANOVA met meerdere factoren heet factoriële ANOVA. Het voordeel van tweeweg-ANOVA en factoriële ANOVA tegenover eenweg-ANOVA is dat de interactie kan worden onderzocht; hoe effecten elkaar versterken of verzwakken.
Hoe werkt ANOVA met herhaalde metingen?
Soms zijn de steekproeven binnen een onderzoek afhankelijk van elkaar, bijvoorbeeld bij herhaalde metingen op verschillende momenten van dezelfde subjecten. In dat geval kun je elk subject ook als een factor beschouwen, bijvoorbeeld als tien mensen een cijfer moeten geven aan hoe ze zich voor, tijdens en na een behandeling voelen. Dit is makkelijk toe te passen bij weinig factoren, maar ook in complexere situaties is deze methode mogelijk met software. Omdat dit resulteert in drie paren van gemiddelden, kan een methode voor meerdere vergelijkingen worden toegepast, bijvoorbeeld Bonferroni. Het gewenste foutenpercentage wordt dan verdeeld over de verschillende betrouwbaarheidsintervallen. Hiermee kan bijvoorbeeld worden berekend hoe het gemiddelde cijfer voor een behandeling verschilt van het gemiddelde cijfer tijdens de behandeling, het gemiddelde cijfer ervoor versus erna, en tijdens versus erna.
Een aanname van ANOVA met herhaalde metingen is sfericiteit (sphericity). Dit houdt in dat de varianties van de verschillen tussen alle mogelijke paren van verklarende variabelen gelijk zijn. Als ze zelfs dezelfde standaarddeviatie en correlatie hebben, is er sprake van compound symmetry. Software kan testen of er sfericiteit is, bijvoorbeeld met Mauchly's test. Als er geen sfericiteit is, kan software met de Greenhouse-Geisser adjustment de vrijheidsgraden aanpassen zodat er toch een F-test mogelijk is.
Het voordeel van herhaalde metingen met dezelfde subjecten is dat bepaalde factoren telkens aanwezig zijn en daardoor gecontroleerd worden, dit heet blokkeren (blocking).
Factoren met een beperkt aantal uitkomsten, zoals vegetariërs, veganisten en vleeseters, heten fixed effects. Daartegenover staan random effects: factoren waarvan de uitkomsten willekeurig zijn, zoals de karakteristieken van willekeurige mensen die als onderzoekssubjecten in een onderzoek terechtkomen.
Hoe werkt tweeweg-ANOVA met herhaalde metingen van een factor?
Het kan voorkomen dat er bij een onderzoek met herhaalde metingen nog veel meer fixed effects betrokken zijn. De tijd (voor/tijdens/na een behandeling) is een voorbeeld van een within-subjects factor, omdat dezelfde subjecten ervoor nodig zijn. Hierbij worden subjecten gekruist (crossed) met de factor. Het soort behandeling is een voorbeeld van een between-subjects factor, omdat dit een vergelijking van de ervaringen van verschillende subjecten is. Hierbij worden subjecten genesteld (nested) binnen de factor.
Door de twee verschillende soorten factoren, bestaat de SSE uit twee soorten fouten. Om elk verschil tussen twee categorieën te analyseren, is een betrouwbaarheidsinterval nodig. Doordat er twee soorten fouten zijn, kunnen de residuen niet worden gebruikt voor de betrouwbaarheidsintervallen. In plaats daarvan worden meerdere eenweg-ANOVA F-toetsen gebruikt, met behulp van de Bonferroni methode.
Een methode die multivariate responsen aankan en minder assumpties maakt, is multivariate variantieanalyse (MANOVA). Het nadeel van de verzwakte assumpties is dat de power van de test kleiner is. Een algemeen nadeel van methoden met herhaalde metingen is dat er van alle subjecten op alle momenten data nodig is. Een model met zowel fixed effects als random effects heet een mixed model.
Hoe werkt multipele regressie met zowel kwantitatieve als categorische predictoren? – Chapter 13
Hoe zien modellen met zowel kwantitatieve als categorische predictoren eruit?
Multipele regressie is ook mogelijk met een kwantitatieve als een categorische predictor tegelijk. Hierbij wordt gewone regressieanalyse (voor de kwantitatieve variabele) gecombineerd met variantieanalyse (voor de categorische variabele). In veel studies is het zinvol om te controleren voor een kwantitatieve variabele. Bijvoorbeeld wanneer je de scores van olympische schaatsers (mannen en vrouwen) wilt vergelijken, is het aantal reeds behaalde medailles een zinvolle controlevariabele. Zo’n kwantitatieve controlevariabele heet een covariaat en bijbehorende regressie heet covariantieanalyse (analysis of covariance, ANCOVA).
Een kwantitatieve predictor kan worden aangegeven met x, een categorische predictor met z. Hierbij is z een dummyvariabele met twee categorieën. Als er meer categorieën zijn, dan zijn er meer dummyvariabelen nodig. Een grafiek is nuttig om het effect van x op y, gecontroleerd voor z, te onderzoeken. Bijvoorbeeld het effect van de materiaalkosten van schoenen (x) op de prijs van schoenen (y), gecontroleerd voor of de schoenen nieuw of tweedehands zijn (z, waarbij 1 = nieuw, 0 = tweedehands). Als er geen interactie is, lopen de best passende lijnen door de datapunten parallel aan elkaar. De prijs van schoenen is dan in dezelfde mate afhankelijk van het materiaal voor nieuwe en voor oude schoenen. De hellingscoëfficiënt is dan hetzelfde. Het kan zelfs voorkomen dat de regressielijnen exact hetzelfde zijn. Maar als de regressielijnen niet parallel lopen, dan is er interactie. Een toename in materiaalkosten leidt dan tot een andere prijs voor nieuwe schoenen dan voor oude schoenen.
Er kan sprake zijn van een kwantitatieve predictor (materiaalkosten) en een categorische controlevariabele (nieuwe/tweedehands schoenen), maar dit kan ook andersom. Software vergelijkt de gemiddelden. Een regressiemodel met drie categorieën is: E(y) = α + βx + β1z1 + β2z2, waarbij β het effect van x op y is voor alle groepen z. Voor elke toegevoegde kwantitatieve variabele wordt een βx toegevoegd. Voor elke toegevoegde categorische variabele wordt een (aantal) dummyvariabele(n) toegevoegd. Bij interactie worden kruisproducten toegevoegd.
Welke inferentiële methoden zijn er voor regressie met kwantitatieve en categorische predictoren?
Om uiteindelijk voorspellingen te kunnen maken met een model, moet eerst getest worden of er interactie is, want dan zijn kruisproducten nodig. Een F-test vergelijkt een model met kruisproducten tegenover een model zonder kruisproducten. De F-test doet dit aan de hand van de partiële som van kwadraten; de variabiliteit in y die wordt uitgelegd door de desbetreffende variabele als de andere aspecten al in het model zitten. De nulhypothese is dat er geen interactie is (en dus dat de hellingscoëfficiënten van de kruisproducten 0 zijn), de alternatieve hypothese is dat er wel interactie is. Bij interactie lopen de regressielijnen parallel, bij geen interactie niet.
Ook kan een F-test bekijken of een compleet of gereduceerd model beter is. Om een compleet model (E(y) = α + βx + β1z1 + β2z2) te vergelijken met een gereduceerd model (E(y) = α + βx), is de nulhypothese dat de hellingscoëfficiënten β1 en β2 beide 0 zijn. Het complete model bestaat uit drie parallelle lijnen, het gereduceerde model heeft slechts een lijn. Als de P-waarde klein is, dan is het bewijs tegen de nulhypothese groot, en dan past het complete model (met de drie regressielijnen) significant beter bij de data dan het gereduceerde model. De multipele determinatiecoëfficiënt R2 geeft aan hoe goed de verschillende mogelijke regressielijnen de y voorspellen en helpt bij een vergelijking tussen het complete en gereduceerde model.
Op wat voor case studies wordt multipele regressieanalyse toegepast?
Case studies beginnen vaak met de wens om het effect van een verklarende variabele op een responsvariabele te bestuderen. Gaandeweg worden er predictoren toegevoegd, soms verstorende (confounding) predictoren, soms mediërende predictoren.
Er zijn veel voorbeelden van case studies waarbij multipele regressie wordt toegepast. Bijvoorbeeld een onderzoek naar hoe de mening van leeftijdgenootjes over de populariteit van individuen het drugsgebruik van adolescenten beïnvloedt. Of een onderzoek naar de verschillen tussen alleenstaande moeders en getrouwde moeders. Als alleenstaande moeders met verloop van tijd steeds minder tijd besteden aan hun kinderen, en getrouwde moeders een gelijke hoeveelheid tijd, wat veroorzaakt dit verschil? Of een onderzoek naar de effecten van opname in een blijf-van-mijn-lijf huis op zelfvertrouwen en het cijfer dat mensen zichzelf geven.
Wat zijn adjusted means?
Een aangepast gemiddelde (adjusted mean of least squares mean) is het gemiddelde van y voor een groep, waarbij gecontroleerd wordt voor de andere variabelen in het model. De overige variabelen worden dus op een gemiddelde gehouden, zodat de waarde van de adjusted mean kan worden onderzocht. Als een uitschieter een te grote invloed heeft op het gemiddelde, kan deze uitschieter worden weggelaten en kan de adjusted mean worden berekend. De adjusted mean wordt aangegeven met een accent, dus het aangepaste steekproefgemiddelde van groep i is:
\[\bar{y_i'}\]
In een model met adjusted means, zijn de coëfficiënten gelijk aan de verschillen tussen de adjusted means. De adjusted mean betekent dat de regressielijn van het steekproefgemiddelde omhoog of omlaag verschuift. Met de Bonferroni methode kunnen meerdere vergelijkingen worden gemaakt van adjusted means met betrouwbaarheidsintervallen waarbij het foutenpercentage verdeeld wordt.
Het is de vraag of adjusted means kunnen worden gebruikt als de gemiddelden voor x erg verschillend zijn. Het gebruik van adjusted means kan eigenlijk alleen als het logischerwijze in te denken valt dat bepaalde groepen op een bepaalde manier verdeeld zijn en als dezelfde lineaire vorm behouden blijft.
Hoe ziet een lineair gemengd model eruit?
Factoren met een beperkt aantal uitkomsten, zoals vegetariërs, veganisten en vleeseters, heten fixed effects. Daartegenover staan random effects: factoren waarvan de uitkomsten willekeurig zijn, zoals de karakteristieken van willekeurige mensen die als onderzoekssubjecten in een onderzoek terechtkomen. Lineaire gemengde modellen (linear mixed models) bevatten verklarende variabelen met zowel fixed effects als random effects.
Een regulier regressiemodel (dus geen lineair gemengd model) kan de functie per subject uitdrukken, bijvoorbeeld met de waarde xi1 van variabele x van subject i: yi = α + β1xi1 + β2xi2 + … + βpxip + ϵi. Hierin is de foutwaarde (error term) ϵ de variabiliteit in de responses van subjecten voor bepaalde waarden van de verklarende variabelen, de steekproefwaarde hiervan is het residu voor subject i. Omdat er wordt verwacht dat de foutwaarde 0 is, wordt deze verwijderd in de formule van E(yi).
Een lineair gemengd model kan meerdere, gecorreleerde observaties per subject aan. Het model wordt dan: yij = α + β1xij1 + β2xij2 + … + βpxijk + si + ϵ ij. Hierin is yij observatie j (bijvoorbeeld op een bepaald tijdstip) van subject i. Bij variabele x1 wordt observatie j van subject i dan als xij1 geschreven. Een random effect van subject i is si. Een subject met een hoge positieve si heeft relatief hoge responsen voor elke j. De fixed effects zijn de parameters (β1 enzovoorts).
De structuur duidt het karakter van de correlatie in het model. Als de correlaties tussen alle mogelijke paren observaties van verklarende variabelen gelijk zijn, is er sprake van compound symmetry. Als bij longitudinale onderzoeken de observaties bij het startpunt meer gecorreleerd zijn dan de observaties later in het onderzoek, is een autoregressieve structuur geschikt. Als assumpties over het patroon van correlatie beter vermeden kunnen worden, is het een ongestructureerd model. Een intraclass correlatie betekent dat binnen een groep, subjecten in een bepaalde mate op elkaar lijken. De random effects kunnen niet alleen subjecten zijn maar ook clusters van soortgelijke subjecten, bijvoorbeeld families.
Lineaire gemengde modellen hebben als voordelen tegenover ANOVA bij herhaalde metingen dat er minder assumpties worden gemaakt en dat ontbrekende data minder nare gevolgen heeft. Als data op een willekeurige manier ontbreekt, zonder structuur in de ontbrekende data, hoeft er geen vertekening (bias) op te treden. Lineaire gemengde modellen kunnen op allerlei manieren worden uitgebreid en aangepast, zelfs voor bijzondere vormen van correlatie.
Hoe construeer je een model voor multipele regressie van extreme of sterk gecorreleerde data? – Chapter 14
Welke strategieen zijn er voor het selecteren van een model?
Er kunnen allerlei strategieen zijn om verklarende variabelen wel of niet toe te voegen aan een model. Er zijn drie basisregels voor het maken van een selectie:
- Selecteer variabelen die tegemoet komen aan het theoretische doel van het onderzoek (de nulhypothese accepteren/verwerpen), met zinvolle controlevariabelen en medierende variabelen.
- Voeg voldoende variabelen toe voor een goeie voorspellende power.
- Zorg dat het model simpel blijft.
Het model blijft overzichtelijk als de verklarende variabelen een hoge correlatie hebben met de responsvariabele maar niet met elkaar. Software kan verklarende variabelen uittesten en selecteren. Mogelijke strategieen zijn backward elimination, forward selection en stepwise regression. Bij backward elimination worden eerst alle mogelijke variabelen toegevoegd aan het model, vervolgens worden ze uitgetest op hun P-waarde en blijven alleen de significante variabelen over. Bij forward selection wordt begonnen met niets en dan wordt telkens de variabele met de laagste P-waarde (of hoogste toetsingsgrootheid, of grootste toename in R2) toegevoegd. Stepwise regression is een versie van forward selection waarbij overbodig geworden variabelen worden verwijderd als nieuwe variabelen worden toegevoegd.
Software helpt hierbij maar kan onhandige keuzes maken, er moet goed worden nagedacht over een model. Ook van invloed is de aard van het onderzoek. Verklarend (explanatory) onderzoek gaat uit van een theoretisch model dat getest moet worden, meestal zijn de variabelen dan al bekend. Verkennend (exploratory) onderzoek gaat open op zoek naar verklaringen van een fenomeen.
Verschillende criteria zijn aanwijzingen van een goed model. Om een model te kiezen met een hoge voorspellende power maar met een behapbaar aantal variabelen, wordt een aangepaste versie van de multipele determinatiecoëfficiënt gebruikt;
\[R_{adj}^2=\frac{s_y^2-s^2}{s_y^2}=1-\frac{s^2}{s_y^2}\]
De adjusted R2 neemt af als een overbodige variabele wordt toegevoegd.
Een criterium voor een model is dat de voorspelde waarden zo dicht mogelijk bij de geobserveerde waarden liggen. Dit kan worden getest met cross-validation, waarbij continu wordt nagekeken hoe passend de voorspellingen waren. Vanuit de residuen van de voorspelde waarden ontstaat dan een predicted residual sum of squares (PRESS):
\[PRESS=\sum{(y_i-\hat{y_{(i)}})^2}\]
Hoe kleiner de PRESS, hoe beter de voorspellingen zijn. Een som van kwadraten veronderstelt echter een normale verdeling.
Een methode dat ook niet-normale verdelingen aankan, is het Akaike information criterion (AIC). Deze methode selecteert het model waarbij ŷi zo dicht mogelijk bij E(yi) ligt. Hoe kleiner de AIC, hoe beter de voorspellingen.
Waaraan zie je dat een statistisch model niet werkt?
Inferentie van parameters van een regressiemodel heeft de volgende assumpties:
- Het model past bij de vorm van de data (bijvoorbeeld lineair)
- De conditionele distributie van y is normaal
- De standaarddeviatie is constant in het bereik van waarden van de verklarende variabelen (dit heet homoscedasticiteit)
- Het gaat om een willekeurige steekproef
Als er niet perfect aan deze aannames wordt voldaan, heeft dat meestal geen grote gevolgen. Maar grove schendingen van deze aannames kunnen wel gevolgen hebben.
Als y normaal verdeeld is, dan moeten de residuen ook normaal verdeeld zijn. Een studentized residual is een gestandaardiseerde versie van een residu; het residu gedeeld door de standaardfout. Dit geeft aan hoeveel variabiliteit in de residuen wordt verklaard door de variabiliteit van de steekproeftrekking. Een studentized residual groter dan 3 kan een uitschieter zijn.
Als het model past bij de vorm van de data, dan wordt dit ook gereflecteerd in een puntgrafiek van de residuen, vergeleken met elk van de verklarende variabelen.
De willekeurigheid van een longitudinaal onderzoek wordt in het nauw gebracht als de observaties binnen een bepaald tijdsbestek sterk correleren. Dit kan worden nagekeken met een puntgrafiek van de residuen gedurende het gehele tijdsverloop. Deze vorm van correlatie kan nare gevolgen hebben op veel statistieken. Longitudinaal onderzoek wordt meestal binnen de sociale wetenschappen uitgevoerd en betreft een relatief beperkt tijdsbestek. Hier kan een lineair gemengd model voor worden gebruikt. Als het echter gaat om tijdreeksanalyse (time series) en daarmee een langer tijdsbestek, dan zijn methoden uit de econometrie geschikter.
Er zijn veel statistieken die het effect van een uitschieter meten. De residuen meten hoe ver y valt van de trend. Hoe ver de verklarende variabelen van hun gemiddelden af liggen, wordt gemeten door het leverage, aangeduid met het symbool h. Als observaties zowel een hoog residu hebben als een hoog leverage, dan hebben ze veel invloed.
DFBETA beschrijft het effect van een observatie op de schattingen van de parameters. DFFIT en Cook's distance beschrijven het effect op de mate waarin de grafiek past bij de data als een bepaalde observatie wordt verwijderd.
Hoe detecteer je multicollineariteit en wat zijn de gevolgen ervan?
Wanneer er veel verklarende variabelen zijn die een sterke correlatie met elkaar hebben, dan neemt R² relatief weinig toe als het aantal verklarende variabelen toeneemt. Dit betekent niet dat die variabelen y niet goed kunnen voorspellen, maar dat ze niet veel meer toevoegen aan de predictoren. Dit heet multicollineariteit.
Door multicollineariteit worden de standaardfouten groter. Door een groter betrouwbaarheidsinterval wordt ook de variantie groter. Dit wordt gemeten door de variantie-inflatiefactor (variance inflation factor, VIF). Dit is de vermenigvuldigde toename in de variantie die wordt veroorzaakt door de correlatie tussen de verklarende variabelen.
De formule hiervoor is:
\[VIF=\frac{1}{(1-R_j^2)}\]
Ook zonder de VIF zijn er vaak indicaties van multicollineariteit te vinden in de functie. Een voorbeeld is een aanzienlijke toename in de coefficient van een variabele bij het toevoegen van een andere variabele.
Wat helpt tegen multicollineariteit, is slechts een deel van de variabelen uitkiezen, variabelen samenvoegen of variabelen centreren. Met factoranalyse worden kunstmatige nieuwe variabelen geschapen uit de bestaande variabelen, waarbij correlatie kan worden vermeden, maar meestal is factoranalyse niet nodig.
Wat zijn de kenmerken van gegeneraliseerde lineaire modellen?
Gegeneraliseerde lineaire modellen (GLM) is een brede term waaronder zowel regressiemodellen met een normale verdeling vallen, als alternatieve modellen voor continue variabelen met een niet-normale verdeling, als modellen met discrete (categorische) variabelen.
De uitkomsten van een GLM zijn vaak binair (succes/geen succes). Soms zijn het de uitkomsten van een telling (zoals het aantal katten dat iemand bezit). Als de data erg discreet is, zoals bij binaire uitkomsten en tellingen, gebruikt een GLM de gammadistributie.
Een GLM heeft een linkfunctie; een vergelijking die het gemiddelde van de responsvariabele verbindt met de verklarende variabelen. De formule is: g(μ) = α + β1x1 + β2x2 + … + βpxp. Als de data niet negatief kan zijn, dan kan de log link worden gebruikt voor loglineaire modellen: log(μ) = α + β1x1 + β2x2 + … + βpxp. Een logistisch regressiemodel gebruikt de logit link: g(μ) = log[μ /(1-μ)]. Dit is nuttig als μ tussen 0 en 1 valt. De simpelste linkfunctie is de identity link: g(μ) = μ.
Een voordeel van een GLM is dat de data niet normaal verdeeld hoeft te zijn, omdat een GLM de meest aannemelijke schatter gebruikt. De meest aannemelijke schatter gebruikt een versie van de kleinste-kwadratenmethode die de gewogen kleinste-kwadratenmethode (weighted least squares) heet. Deze methode geeft meer gewicht aan observaties met minder variabiliteit.
Een gammadistributie geeft ruimte voor verschillende groottes van de standaarddeviatie. Dit heet heteroscedasticiteit; de standaarddeviatie neemt toe als het gemiddelde toeneemt. De variantie is dan ø μ2 en de standaarddeviatie is:
\[\text{standard deviation}=\sqrt{\phi\mu}\]
Hierin is ø de schaalparameter, deze geeft de schaal aan waarmee de distributie een vorm krijgt, de mate waarin de distributie als een bel gevormd is.
Wat is polynomiale regressie?
Als een grafiek in hoge mate niet lineair is, maar bijvoorbeeld curvilineair, dan wordt een polynomiale regressiefunctie gebruikt : E(y) = α + β1x + β2x2 waarin de hoogste macht de graad (degree) van de functie wordt genoemd. Met een polynomiale regressiefunctie kan een kwadratisch regressiemodel worden vormgegeven, een parabool.
Een cubic function is een polynomiale functie met drie graden, maar meestal is een functie met twee graden voldoende. Bij een rechte lijn blijft de hellingscoëfficiënt hetzelfde, maar bij een polynomiale functie verandert deze. Wanneer de coëfficiënt van x² positief is, zal de data lopen in de vorm van een bergparabool. Als de coëfficiënt negatief is, zal de data lopen in de vorm van een dalparabool. Het hoogste of laagste punt van de parabool, waarop deze van richting verandert, is; x = – β1 / 2(β2).
Bij dit soort modellen is R² de proportionele vermindering van schattingsfouten door het gebruiken van een kwadratisch verband in plaats van een lineair verband. Door R² voor het kwadratische verband te vergelijken met r² voor het lineaire verband geeft aan hoeveel beter de kwadratische functie past. De nulhypothese stelt dat er geen sprake van zal zijn dat het kwadratische verband iets toevoegt aan het model. De coëfficiënt van de gekwadrateerde waarde is dan 0: H0: β2 = 0.
Het is belangrijk om voorzichtig te zijn in het concluderen dat een kwadratisch regressiemodel het beste past bij de data. Soms zijn andere vormen ook mogelijk. Ook moet parsimony het doel zijn; modellen moeten niet meer parameters hebben dan nodig is om het verband goed weer te geven.
Hoe zien exponentiële regressie en logtransformaties eruit?
Een exponentiële regressiefunctie is E(y) = α βx. Deze functie heeft alleen positieve waarde en neemt eindeloos toe of eindeloos af. Het logaritme van het gemiddelde is: log(μ) = log α + (log β)x. Bij het passend maken van de functie in software werkt een optie voor gegeneraliseerd lineair modelleren beter dan de reguliere optie voor regressie.
In dit model is β de vermenigvuldigde verandering in het gemiddelde van y bij een toename van x met 1 punt. Waar in een lineair model E(y) verandert met dezelfde kwantiteit voor een toename van x met 1 punt, verandert in het exponentiële model hetzelfde percentage. Als een grafiek moet worden omgezet naar een lineair verband, dan kunnen logtransformaties worden gebruikt; de logaritmen van de x-waarden maken het verband lineair.
Wat zijn robuuste variantie en nonparametrische regressie?
Een manier om regressiemodellen aan te passen zodat ze schendingen van assumpties aan kunnen, is een robuuste variantie gebruiken. Deze methode gebruikt de kleinste-kwadratenlijn maar neemt niet aan dat de variantie in het vinden van standaardfouten constant is. De standaardfouten worden in plaats daarvan aangepast aan de variabiliteit van de steekproefdata. Dit wordt het sandwich estimate ofwel het robust standard error estimate genoemd. Als software deze standaardfouten berekent, dan kunnen ze worden vergeleken met de reguliere standaardfout. Verschillen ze veel, dan zijn er grove schendingen van de assumpties. Deze robuuste variantie kan ook worden toegepast op sterk correlerende data zoals clusters. Dan worden generalized estimating equations (GEE) gebruikt; schattingen van vergelijkingen met de meest aannemelijke schatter maar zonder de parametrische kansverdeling die meestal gepaard gaat met correlaties.
Een recent ontwikkelde nonparametrische methode (een methode die geen aannames maakt en geen normale verdeling veronderstelt) is generalized additive modeling. Dit is een veralgemenisering van het gegeneraliseerde lineaire model. Een curve erdoorheen laten trekken met software kan trends blootleggen. Methoden om een grafiek uit te lijnen, smoothers, zijn LOESS en kernel.
Hoe werkt logistische regressie? – Chapter 15
Wat is logistische regressie?
Een logistisch regressiemodel is een model met een binaire responsvariabele. De uitkomst kan maar twee dingen zijn ('mee eens' en 'niet mee eens'). Logistische regressiemodellen met meerdere categorieën kunnen ook ordinale en nominale responsen aan.
De mogelijke uitkomsten zijn succes en geen succes, 1 en 0. Het gemiddelde is de proportie responsen die 1 is. Het lineaire kansmodel (lineair probability model) is P(y=1) = α + βx. Dit model is vaak te simpel.
Dit model maakt gebruik van een logaritme (uit te rekenen met een rekenmachine of software). Hierbij is de odds: P(y=1)/[1-P(y=1)]. De log van de odds, ofwel logistische transformatie (in het kort: logit) wordt het logistische regressiemodel genoemd: logit[P(y=1)] = α + βx.
Als de hellingscoëfficiënt β groter dan 0 is, dan loopt de curve geboogd omhoog en wordt daarna een horizontale lijn. Als β kleiner dan 0 is, begint de curve als horizontale lijn, buigt daarna omlaag en wordt vervolgens weer een horizontale lijn.
Om voor een bepaalde waarde van een predictor de uitkomst te geven, wordt de volgende formule gebruikt:
\[P(y=1)=\frac{e^{\alpha+\beta x}}{1+e^{\alpha+\beta x}}\]
Hierin is e tot een bepaalde macht de antilog van dat nummer (uit te rekenen met rekenmachines of software).
Om een logistische grafiek te analyseren, wordt een rechte lijn getekend naast de curve. De β is maximaal waar P(y=1) = ½. Bij logistische regressie wordt niet de kleinste-kwadratenmethode gebruikt maar de meest aannemelijke schatter.
Het model uitgedrukt in de odds is:
\[\frac{P(y=1)}{1-P(y=1)}=e^{\alpha+\beta x}=e^{\alpha}(e^{\beta})^x\]
Hiermee kan de odds ratio worden berekend.
Er zijn twee mogelijkheden om de data weer te geven. Bij ongegroepeerde data is er een reguliere kruistabel. Gegroepeerde data geeft een rij data weer voor elke telling in een cel, bijvoorbeeld slechts 1 rij met eerst het aantal subjecten dat het eens was en daarna het totale aantal subjecten.
Een alternatief voor de logit is de probit. Deze link veronderstelt een onderliggende, verborgen continue variabele y* die 1 is boven een bepaalde waarde T en 0 is onder die waarde. Omdat y* verborgen is, heet het een latente variabele. Er kan wel een probit model mee worden gemaakt: probit[P(y=1)] = α + βx.
Logistische regressie met herhaalde metingen en random effects kan worden geanalyseerd met een lineair gemengd model: logit[P(yij = 1)] = α + βxij + si.
Hoe ziet multipele logistische regressie eruit?
Het multipele logistische regressiemodel is: logit[P(y = 1)] = α + β1x1 + … + βpxp. Hoe verder een βi van 0 ligt, hoe sterker het effect van predictor xi en hoe verder de odds ratio van 1 ligt. Desgewenst kunnen kruisproducten en dummyvariabelen worden toegevoegd. Met logistische multipele regressie kan bijvoorbeeld worden onderzocht hoeveel keer waarschijnlijker de ene groep is om een bepaald gedrag uit te oefenen in vergelijking tot een andere groep.
De uitkomsten van onderzoek worden vaker uitgedrukt in termen van de odds dan in de log odds schaal, omdat dit makkelijker te begrijpen is. De odds is de vermenigvuldiging van de antilog. Om de resultaten nog concreter te presenteren, worden ze uitgedrukt in kansen. Bijvoorbeeld de kans dat een bepaalde waarde eruit komt, waarbij de andere variabelen constant worden gehouden. De geschatte kans is:
\[P(y=1)=\frac{e^{\alpha+\beta_1x_1+...+\beta_px_p}}{1+e^{\alpha+\beta_1x_1+...+\beta_px_p}}\]
Om de effecten van verklarende variabelen in verschillende meeteenheden te kunnen vergelijken, wordt de gestandaardiseerde schatting gebruikt:
\[\hat{\beta_j*} = \hat{\beta_j}s_{x_j}\]
Hierin is sxj de standaarddeviatie van de variabele xj.
Om selectiebias tegen te gaan in observatiestudies, wordt de propensity gebruikt. Dit is de kans dat een subject in een bepaalde groep terechtkomt. Door dit te managen, hebben onderzoekers meer controle over het soort mensen dat zich in een bepaalde situatie bevindt en hoe ze worden ingedeeld. Op deze manier kunnen echter alleen geobserveerde verstorende (confounding) variabelen worden tegengewerkt, niet de variabelen waarvan de onderzoekers zich niet bewust zijn.
Hoe maak je inferenties met logistische regressiemodellen?
Een logistisch regressiemodel gaat uit van de binomiale distributie en heeft de vorm: logit[P(y = 1)] = α + β1x1 + … + βpxp. De algemene nulhypothese is H0 : β1 = … = βp = 0 (geen van de verklarende variabelen heeft een effect).
De nulhypothese van een logistisch regressiemodel wordt uitgetest met de aannemelijkheidsquotiënttoets (likelihood-ratio test). Dit is een inferentiële test om een compleet model en een simpeler model te vergelijken. De aannemelijkheidsfunctie (ℓ) geeft de kans dat de geobserveerde data uit de parameterwaarden resulteren. Bijvoorbeeld ℓ0 is de maximale aannemelijkheidsfunctie als de nulhypothese klopt en ℓ1 is de maximale aannemelijkheidsfunctie als de nulhypothese niet klopt.
De toetsingsgrootheid van de aannemelijkheidsquotiënt is: -2 log (ℓ0 /ℓ1 ) = (-2 log ℓ0 ) – (-2 log ℓ1 ). De vrijheidsgraden zijn het aantal parameters in de nulhypothese.
Alternatieve toetsingsgrootheden zijn z en het kwadraat van z (genaamd Wald statistiek):
\[z=\frac{\hat{\beta}}{se}\]
Maar voor kleinere steekproefgroottes of extreme effecten is de aannemelijkheidsquotiënttoets beter.
Hoe werkt logistische regressie met ordinale variabelen?
Ordinale variabelen veronderstellen een bepaalde orde in de categorieën, bijvoorbeeld als subjecten vinden dat de overheid minder lantaarnpalen moet bouwen, dezelfde hoeveelheid, of meer lantaarnpalen. De cumulatieve kans is de kans dat in een bepaalde categorie j of daaronder valt: P(y ≤ j). Elke cumulatieve kans kan worden omgezet in odds, bijvoorbeeld de odds dat een respons in categorie j of daaronder valt is: P(y ≤ j) / P(y > j).
Het is populair om cumulatieve logits te gebruiken, deze delen de responsen op een binaire manier in (hoog versus laag op een schaal). Het model hiervoor is: logit[P(y ≤ 1)] = αj – βx. Hierbij is j = 1, 2, …, c – 1 en c is het aantal categorieën. Let op, sommige software gebruikt een plusteken in plaats van een minteken voor de hellingscoëfficiënt.
Een proportional odds model is een cumulatief logit model waarin de hellingscoëfficiënt hetzelfde is voor elke cumulatieve kans, β varieert dus niet. De hellingscoëfficiënt geeft aan hoe steil de helling van de grafiek is. Bij een proportional odds model zijn de lijnen voor de verschillende categorieën dus precies even steil.
Cumulatieve logit modellen kunnen ook meerdere verklarende variabelen hebben. Een toets of de variabelen onafhankelijk zijn, is H0 : β. Een onafhankelijkheidstoets voor logistische regressie met ordinale variabelen resulteert in een duidelijkere P-waarde dan toetsen die de orde in de data negeren zoals de chi-kwadraattoets. Er kan ook een betrouwbaarheidsinterval worden berekend.
Een voordeel van het cumulatieve logit model is invariantie tegenover de schaal met responsen. Als een onderzoeker responsen onderverdeelt in een kleiner aantal categorieën dan een andere onderzoeker, zullen ze toch dezelfde conclusies trekken. Alleen een ordinale schaal inkrimpen tot een binaire schaal werkt niet.
Hoe zien logistische modellen met nominale responsen eruit?
Voor nominale variabelen (zonder orde) is er een model dat de kansen specificeert dat een bepaalde uitkomst eruit komt en niet een andere uitkomst. Dit model berekent deze kansen tegelijkertijd en veronderstelt onafhankelijke observaties. Dit is het baseline-category logit model:
\[log[\frac{P(y=1)}{P(y=3)}]\]
en
\[log[\frac{P(y=2)}{P(y=3)}]\]
Welke categorie onderin de breuk komt te staan, maakt niet uit, er is geen orde in de categorieën. Inferentie werkt net als bij reguliere logistische regressie, alleen worden om het effect van een verklarende variabele te testen alle parameters van de vergelijkingen erbij betrokken. Met de aannemelijkheidsquotiënttoets kan het model met en zonder een bepaalde variabele worden getest om te kijken welk model beter bij de data past.
Hoe gebruik je loglineaire modellen om de verbanden tussen categorische variabelen weer te geven?
De meeste modellen bestuderen het effect van een verklarende variabele op een responsvariabele. Loglineaire modellen zijn anders, deze modellen bestuderen de verbanden tussen (categorische) variabelen, bijvoorbeeld in een kruistabel. Deze modellen lijken meer op analyses van correlaties.
Een loglineair model veronderstelt een Poisson distributie; niet-negatieve discrete variabelen (zoals tellingen), gebaseerd op de multinomiale distributie.
Een kruistabel kan meerdere categorische responsvariabelen weergeven. Er kan een conditioneel verband tussen twee variabelen zijn als een derde variabele gecontroleerd wordt. Een andere mogelijkheid is dat twee variabelen conditioneel onafhankelijk zijn; onhankelijk voor elke categorie van de derde variabele.
Een hiërarchie van de mate van afhankelijkheid is als volgt (met bijbehorende symbolen voor de drie responsvariabelen x, y en z):
- Alle drie zijn conditioneel onafhankelijk (x, y, z).
- Twee paren zijn conditioneel onafhankelijk (xy, z).
- Een paar is conditioneel onafhankelijk (xy, yz).
- Er is geen conditionele onafhankelijkheid, maar wel een homogeen verband (het verband tussen elk mogelijk paar variabelen is hetzelfde bij elke categorie van de derde variabele) (xy, yz, xz).
- Alle paren staan in verband en er is interactie, dit is een verzadigd model (xyz).
Ook loglineaire modellen kunnen geïnterpreteerd worden met de odds ratio. In een 2x2 kruistabel is de odds ratio van onafhankelijkheid 1. In een drieweg kruistabel betekent conditionele onafhankelijkheid tussen x en y dat de odds ratio's in de xy partiële tabellen allemaal 1 zijn. Bij homogene verbanden zijn de odds ratios in de xy partiële tabellen identiek bij elke categorie van z.
Hoe voer je goodness-of-fit tests uit voor kruistabellen?
Een goodness-of-fit test onderzoekt de nulhypothese dat een model echt past bij een bepaalde populatie. Er wordt gemeten of de geschatte frequenties fe dicht bij de geobserveerde frequenties fo liggen. Grotere toetsingsgrootheden vormen groter bewijs dat het model niet klopt en grotere verschillen tussen de geschatte en geobserveerde frequenties. Dit kan gemeten worden met de Pearson chi-kwadraattoets:
\[X^2=\sum{\frac{(f_0-f_e)^2}{f_e}}\]
Een andere vorm van een chi-kwadraattoets is de aannemelijkheidsquotiënt chi-kwadraattoets:
\[G^2=2\sum{f_0log(\frac{f_0}{f_e})}\]
Als het model perfect aansluit bij de werkelijkheid, zijn zowel X2 als G2 0. De test met de aannemelijkheidsquotiënt is beter geschikt voor grote steekproeven. De Pearson test is beter geschikt voor frequenties tussen 1 en 10 gemiddeld. Beide toetsen werken alleen goed voor kruistabellen van categorische predictoren met relatief grote tellingen.
Om uit te zoeken wat er dwarsligt in het model, kunnen de gestandaardiseerde residuen per cel worden berekend: (fo – fe) / (standaardfout van (fo – fe)). Als het gestandaardiseerde residu van een cel groter dan 3 is, past in die cel het model niet bij de data.
Goodness-of-fit tests en gestandaardiseerde residuen zijn ook bruikbaar om de kwaliteit van loglineaire modellen te onderzoeken.
Om te kijken of een compleet of een gereduceerd model beter bij de werkelijkheid past, kan de aannemelijkheidsquotiënttoets worden gedaan met de G2 als toetsingsgrootheid. De G2 van het complete model wordt dan vergeleken met de G2 van het gereduceerde model.
Logistische regressiemodellen worden vaker gebruikt dan loglineaire modellen omdat veel toepassingen niet meerdere responsvariabelen hebben.
Welke geavanceerde methodologieën zijn er? - Chapter 16
In dit hoofdstuk wordt een korte introductie gegeven tot een aantal geavanceerde statistische methoden. Hierbij wordt de nadruk gelegd op hun doel, het type resultaten dat kan worden verkregen en hun interpretatie.
- Meervoudige imputatie (Multiple imputation) heeft betrekking op ontbrekende gegevens
- Multilevel models verwerken hiërarchisch gestructureerde observaties
- Gebeurtenisgeschiedenismodellen (Event history models) houden rekening met hoe lang het duurt voordat een gebeurtenis plaatsvindt
- Factoranalyse is een methode om een groot aantal mogelijk sterk gecorreleerde variabelen te reduceren tot een kleiner aantal statistisch niet-gecorreleerde variabelen.
- Structurele vergelijkingenmodellen (Structural equation models) combineren elementen van zowel padanalyse als factoranalyse
- Markov-ketenmodellen bieden een eenvoudige afhankelijkheidsstructuur voor reeksen observaties
- De Bayesiaanse benadering past waarschijnlijkheidsverdelingen toe op parameters en variabelen
Hoe werkt meervoudige imputatie?
Een probleem bij veel data-analyses is dat sommige data onvolledig zijn, er ontbreken data. Voor statistische analyses verwijdert sommige software alle proefpersonen waarvan data ontbreekt op ten minste één variabele. Dit wordt listwise deletion genoemd. Sommige software verwijdert alleen de proefpersonen voor analyses waarvoor die observatie nodig is. Dit wordt pairwise deletion genoemd. Bij beide benaderingen kunnen problemen ontstaan.
Ontbreken er willekeurige data?
Ontbrekende data ontbreken volledig willekeurig (missing completely at random MCAR) als de waarschijnlijkheid dat een observatie ontbreekt onafhankelijk is van de waarde van de observatie en de waarden van andere variabelen in de set. Gegevens worden willekeurig ontbrekend genoemd (missing at random MAR) als de verdeling van welke observaties ontbreken niet afhankelijk is van de waarden van de ontbrekende data. In de praktijk is het niet mogelijk om te weten en te testen of MAR of MCAR is voldaan, omdat de waarden van ontbrekende data onbekend zijn. Vaak zijn ontbrekende data niet MAR of MCAR, dan zijn complexere analyses nodig die een gezamenlijke kansverdeling voor de data en de ontbrekende data vereisen.
Een betere aanpak voor het omgaan met ontbrekende gegevens is het gebruik van meervoudige imputatie (multiple imputation). Het uitvoeren van een imputatie is het vinden van een plausibele set waarden voor de ontbrekende gegevens. Meervoudig impliceert dat dit proces meerdere keren wordt herhaald. Vervolgens worden de resultaten gecombineerd om te schatten wat we zouden hebben gevonden zonder ontbrekende gegevens. Meervoudige imputatie levert efficiëntere resultaten op dan analyses met behulp van listwise deletion. Bovendien zijn de resultaten op basis van meervoudige imputatie niet bevooroordeeld wanneer gegevens willekeurig ontbreken.
Wanneer er veel gegevens ontbreken, moeten analyses met de nodige voorzichtigheid worden uitgevoerd. In de praktijk kunnen we namelijk niet weten of de ontbrekende gegevens willekeurig ontbreken.
Wat zijn multilevel (hiërarchische) modellen?
Volgens hiërarchische modellen hebben observaties een geneste aard: eenheden op één niveau zijn opgenomen in eenheden van een ander niveau. Modellen met een hiërarchische structuur worden multilevelmodellen genoemd. Bijvoorbeeld, prestaties op examens zijn onderdeel van een student, studenten op hun beurt zijn weer onderdeel van een school. Observaties van studenten binnen een school lijken misschien meer op elkaar dan observaties van studenten op verschillende scholen. Multilevelmodellen hebben termen voor de verschillende niveaus van eenheden. Er is vaak een groot aantal termen, dus het model behandelt termen voor de bemonsterde eenheden waarop er meerdere observaties zijn als willekeurige effecten, in plaats van vaste effecten.
Wat zijn gebeurtenisgeschiedenismodellen?
Sommige studies hebben als doel om te observeren hoe lang het duurt voordat een bepaalde gebeurtenis plaatsvindt. Net als bij gewone regressie, omvatten modellen voor de tijd tot een gebeurtenis effecten van verklarende variabelen. Bijvoorbeeld, een model voor de tijdsduur vóór herarrestatie kan voorspellers gebruiken zoals het aantal eerdere arrestaties, werkgelegenheid, burgerlijke staat, etc. Dit wordt event history analysis genoemd.
Bij analyse van de gebeurtenisgeschiedenis doen zich twee complicerende factoren voor die geen probleem vormen bij gewone regressiemodellering. Ten eerste vindt de gebeurtenis bij sommige proefpersonen niet plaats vóór het einde van de observatieperiode van de studie. Een studie naar de pensioengerechtigde leeftijd kan bijvoorbeeld een steekproef van volwassenen van ten minste 65 jaar gebruiken. Als een 68-jarige nog niet met pensioen is, weten we alleen dat de responsvariabele (pensioengerechtigde leeftijd) ten minste 68 is. Een dergelijke observatie wordt gecensureerd genoemd. Het negeren van gecensureerde gegevens kan leiden tot een ernstige vertekening in parameterschatting.
Ten tweede kunnen sommige verklarende waarden voor het voorspellen van de tijd tot de gebeurtenis in de loop van de tijd van waarde veranderen. Bijvoorbeeld, bij het observeren of een subject opnieuw is gearresteerd, kan de waarde van verklarende variabelen zoals of het subject werkt of samenwoont met een partner in de loop van de tijd verschillen. Dit type variabele wordt een tijdsafhankelijke covariaat genoemd.
Wat is padanalyse?
Padanalyse (path analysis) gebruikt regressiemodellen om theorieën van causale relaties tussen een set variabelen weer te geven. Het belangrijkste voordeel van padanalyse is dat de onderzoeker de veronderstelde causale relaties tussen de variabelen expliciet moet specificeren. Dit kan bijdragen aan verstandige theorieën van relaties. Theoretische verklaringen van oorzaak-gevolgrelaties modelleren vaak een systeem van relaties waarin sommige variabelen, veroorzaakt door andere variabelen, op hun beurt weer andere beïnvloeden. Padanalyse gebruikt alle benodigde regressiemodellen om alle voorgestelde relaties in de theoretische verklaring op te nemen. Padcoëfficiënten tonen de richting en relatieve grootte van effecten van verklarende variabelen, waarbij rekening wordt gehouden met andere variabelen in de reeks.
De meeste padmodellen hebben tussenliggende variabelen. Deze variabelen zijn afhankelijk van andere variabelen, maar zijn ook weer oorzaken voor andere variabelen. Variabelen kunnen een indirect effect hebben, via een tussenliggende variabele, of een direct effect. Bijvoorbeeld, de intelligentie van een kind kan een direct effect hebben op de onderwijsprestaties van het kind. Maar het kan ook een indirect effect hebben door de prestatiemotivatie van het kind te beïnvloeden, wat dan weer van invloed is op de onderwijsprestaties van het kind. Op deze manier kunnen de regressieanalyses als onderdeel van de padanalyse onthullen of er significant bewijs bestaat van de verschillende effecten. Wanneer we de regressieanalyses uitvoeren, kunnen we, wanneer we een niet-significant pad vinden, dit pad wissen en de coëfficiënten van de resterende paden opnieuw schatten.
De basisstappen bij padanalyse zijn:
- Stel een theorie op die getest moet worden en teken het paddiagram zonder de padcoëfficiënten.
- Voer de benodigde regressiemodellering uit om de padcoëfficiënten en de restcoëfficiënten te schatten.
- Evalueer het model, controleer met de voorbeeldresultaten. Herformuleer het vervolgens en verwijder niet-significante paden.
Wat is factoranalyse?
Factoranalyse wordt gebruikt voor een breed scala aan doeleinden. Zoals:
- Het onthullen van patronen van onderlinge relaties tussen variabelen
- Het detecteren van clusters van variabelen die allemaal met elkaar gecorreleerd zijn en daarom enigszins overbodig zijn
- Door een groot aantal variabelen te reduceren tot een kleiner aantal statistisch niet-gecorreleerde variabelen: de factoren
Het model van factoranalyse drukt de verwachte waarden van waarneembare variabelen uit als lineaire functies van niet-waarneembare variabelen, factoren genoemd. In de statistiek worden deze latente variabelen genoemd. Factoren in factoranalyse zijn samenvattingen van de waargenomen variabelen. De correlatie van een variabele met een factor is de belasting van de variabele op die factor. De som van de gekwadrateerde belastingen voor een variabele wordt de gemeenschappelijkheid genoemd . Een verkennende vorm van factoranalyse zoekt naar de juiste hoeveelheid factoren, geleid door eigenwaarden. Bevestigende analyse selecteert vooraf een bepaalde waarde voor het aantal factoren. Resultaten zijn geloofwaardiger wanneer ze in een bevestigende modus worden gebruikt, omdat dit onderzoekers dwingt om zorgvuldiger na te denken over een redelijke factorstructuur voordat ze de analyse uitvoeren.
Wat zijn structurele vergelijkingsmodellen?
Het covariantiestructuurmodel (covariance structure model) combineert padanalyse en factoranalyse om te proberen de varianties en correlaties tussen de waargenomen variabelen te verklaren. Covariantiestructuurmodellen hebben twee componenten. Eerst het meetmodel, dat lijkt op een factoranalyse, en vervolgens het structurele vergelijkingenmodel (structural equation model) dat lijkt op een padanalyse.
Het meetmodel specificeert hoe waargenomen variabelen zich verhouden tot een set latente variabelen. Dit lijkt op factoranalyse, maar heeft een meer gespecificeerde structuur. Het structurele vergelijkingsmodel gebruikt regressiemodellen om causale relaties tussen de latente variabelen te specificeren. Een of meer latente variabelen worden geïdentificeerd als responsvariabelen, de rest als verklarende variabelen. Deze benadering maakt het mogelijk om modellen met tweerichtingscausaliteit te fitten, waarbij latente variabelen op elkaar kunnen worden geregresseerd.
Covariantiestructuurmodellen hebben de kenmerken van flexibiliteit en algemeenheid. Een regressieparameter kan worden vastgelegd (fixed) door hem te dwingen een vaste waarde aan te nemen, zoals 0. Hij kan worden gedwongen gelijk te zijn aan een andere parameter in het systeem, dan wordt hij een beperkte (constrained) parameter genoemd. Of hij kan volledig onbekend zijn, een vrije (free) parameter. Goede aspecten van de covariantiestructuurmodellen zijn dat de modellen onderzoekers dwingen om theoretische onderbouwingen te geven aan hun analyses en inferentiële methoden controleren de fit van het theoretische model met de data. Het model is echter complex en kan een grote steekproefomvang vereisen om goede schattingen van effecten te verkrijgen.
Wat zijn Markov-ketens?
Soms zijn onderzoekers geïnteresseerd in reeksen van responsobservaties (meestal in de loop van de tijd). Een reeks observaties die willekeurig varieert, wordt een stochastisch proces genoemd. De mogelijke waarden bij elke stap zijn de toestanden van het proces. Een van de eenvoudigste stochastische processen is de Markov-keten. Dit is passend als, gegeven het gedrag van het proces op tijdstippen t, t -1 , t -2 , ..., 1, de waarschijnlijkheidsverdeling van de uitkomst op tijdstip t +1 alleen afhangt van de uitkomst op tijdstip t.
Een veelvoorkomende waarschijnlijkheid is de overgangswaarschijnlijkheid (transition probability). Hiervoor bestudeert de Markov-keten vragen zoals:
- Wat is de waarschijnlijkheid dat je binnen een bepaalde tijd van de ene toestand naar de andere gaat?
- Hoe lang duurt het gemiddeld om van de ene staat naar de andere te verhuizen?
- Zijn de overgangswaarschijnlijkheden tussen elk paar toestanden constant in de tijd? Zo ja, dan heeft het proces stationaire overgangswaarschijnlijkheden (stationary transition probabilitie).
- Is het proces een Markov-keten, of is de afhankelijkheidsstructuur complexer?
Meestal is het Markov-ketenmodel op zichzelf te simplistisch om in de praktijk bruikbaar te zijn, maar het maakt vaak deel uit van een complexer en realistischer model.
Wat is de Bayesiaanse benadering?
De Bayesiaanse benadering past waarschijnlijkheidsverdeling toe op parameters en data. De prior-verdeling (prior distribution) beschrijft kennis over de parameters in een bepaalde analyse voordat we alle data zien. De Bayesiaanse methode genereert een posterieure verdeling (posterior distribution), die die prior-informatie combineert met de kennis van alle data na het observeren van de data.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Contributions: posts
Spotlight: topics
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the summaries home pages for your study or field of study
- Use the check and search pages for summaries and study aids by field of study, subject or faculty
- Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
- Check or follow authors or other WorldSupporters
- Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Main summaries home pages:
- Business organization and economics - Communication and marketing -International relations and international organizations - IT, logistics and technology - Law and administration - Leisure, sports and tourism - Medicine and healthcare - Pedagogy and educational science - Psychology and behavioral sciences - Society, culture and arts - Statistics and research
- Summaries: the best textbooks summarized per field of study
- Summaries: the best scientific articles summarized per field of study
- Summaries: the best definitions, descriptions and lists of terms per field of study
- Exams: home page for exams, exam tips and study tips
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
- Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
- Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
1452 | 1 |
Add new contribution