Stamplijst Statistics the Art and Science of Learning from Data

Deze samenvatting is gebaseerd op collegejaar 2012-2013. Bekijk hier ons huidige aanbod.

Hoofdstuk 1: Data
Hoofdstuk 2: Het onderzoeken van datagegevens
Hoofdstuk 3: Associaties tussen twee variabelen
Hoofdstuk 4: Data verzamelen
Hoofdstuk 5: Kansen
Hoofdstuk 6: Opsomming van kansen
Hoofdstuk 7: Betrouwbaarheidsinterval
Hoofdstuk 8: Hypothesetoetsen
Hoofdstuk 9: Groepen vergelijken
Hoofdstuk 10: Associatie tussen categorische variabelen
Hoofdstuk 11: Associatie tussen kwantitatieve variabelen: de regressieanalyse
Hoofdstuk 12: Multipele regressie
Hoofdstuk 13: ANOVA: groepen vergelijken
Hoofdstuk 14: Niet-parametrische statistiek

Hoofdstuk 1: Data

* Data
Informatie die verkregen wordt uit studies en onderzoeken
* Design
Het plannen en onderzoeken van een studie. Hieronder valt onder andere het bedenken van een manier om relevante data te verkrijgen en het selecteren van een steekproef (sample) uit de populatie.
*Descriptieve statistiek
Het opsommen van de steekproefdata met behulp van grafieken en tabellen of gemiddelden en percentages.
*Inferentiële statistiek
Besluiten en voorspellingen maken over de hele populatie aan de hand van de informatie van de steekproefdata.
*Parameter
Een numerieke samenvatting van de populatie. Dit moet niet verward worden met een statistiek; dit is namelijk een numerieke samenvatting van alleen de steekproef (genomen uit de populatie).
* Willekeurige steekproeftrekking (random sampling)
Hierbij wordt een steekproef getrokken uit de populatie, waarbij elk lid van de populatie evenveel kans heeft om in de steekproef terecht te komen.

Hoofdstuk 2: Het onderzoeken van datagegevens

*Variabelen

De karakteristieken waar we in geïnteresseerd zijn en die we willen meten.
*Categorische variabelen
Bij dit type variabelen vallen de observaties in één of een set van categorieën (bijvoorbeeld sekse of woonplaats).
*Kwantitatieve variabelen
Dit type variabelen neemt numerieke waarden aan die verschillende groottes van de variabele representeren.
*Discrete kwantitatieve variabelen
Een variabele is discreet als het vaste, losstaande waarden (0,1,2) kan aannemen.
*Continue kwantitatieve variabelen
Een variabele is continu als het alle mogelijke waarden op een interval kan aannemen.
*Modus
De modus wordt gebruikt bij categorische variabelen. Het is de categorie met de hoogste frequentie van observaties.
*Proportie
Dit is het aantal observaties in een bepaalde categorie gedeeld door het totaal aantal observaties. Om het percentage te krijgen wordt de proportie met 100 vermenigvuldigd.
*Gemiddelde
Dit is een van de metingen van het centrum van de data. Voor het gemiddelde deel je de som van de observaties door het aantal observaties.
*Mediaan
Dit is de middelste observatie als alle observaties op grootte geordend worden. Bij een even aantal observaties wordt het gemiddelde van de middelste twee getallen genomen.
*Pie chart (taartmodel)
Deze grafiekvorm wordt gebruikt voor categorische variabelen. De grafiek is cirkelvormig, en is verdeeld in stukjes die de percentages van de verschillende categorieën representeren.
*Staafdiagram (bar graph)
Deze grafiekvorm wordt gebruikt voor categorische variabelen. De grafiek bestaat uit verticale staven waarbij de hoogte van elke staaf het percentage van de observaties in een bepaalde categorie aangeeft.
*Dot plot
Eén stip (dot) in deze grafiek staat voor één observatie. De waarde van de observatie staat op een horizontale lijn onder de stip vermeld. Deze grafiek wordt voornamelijk voor kleine metingen gebruikt met kwantitatieve variabelen.
*Stem and leaf plot
Bij deze grafiek splits je de data in een stam (alle cijfers behalve de laatste) en in leaves (het laatste cijfer in de observatie). Deze zet je vervolgens in een grafiek. Deze methode wordt gebruikt voor kleine metingen met kwantitatieve variabelen.
*Time plot
Soms worden observaties gedurende een langere periode uitgevoerd. Als deze gegevens in een grafiek worden gezet wordt dit een timeplot genoemd. De tijd staat hierbij op de x-as en de observaties op de y-as. Vaak wordt bij deze grafieken gezocht naar een trend; oftewel een indicatie van een bepaald verloop van de data over een periode van tijd.
*Histogram
Deze grafiekvorm wordt gebruikt voor grote metingen met kwantitatieve variabelen. De grafiek lijkt op een staafdiagram en laat de frequenties van de kwantitatieve variabelen zien.
* Unimodale distributie
Een distribtie is unimodaal als de data van de kwantitatieve variabele eentoppig zijn; er is dan maar één hoogste punt (de modus).
*Bimodale distributie
Een distributie is bimodaal als de data van de kwantitatieve variabele tweetoppig zijn; er zijn dan twee hoogste punten.
*Symmetrische distributie
Een distributie heeft een symmetrische vorm als er ongeveer evenveel observaties links als rechts van het midden liggen.
*Scheve (skewed) distributie
Een distributie heeft een scheve vorm als de grafiek naar links of rechts uitgerekt is. Dit komt voor als er meer observaties aan één kant van het midden liggen dan aan de andere kant.
*Uitschieter
Dit is een observatie die ver boven of ver onder de meeste metingen valt. Een uitschieter verandert de uitkomst van het gemiddelde flink.
*Spreiding
Maten voor spreiding beschrijven de variabiliteit van de data.
* Bereik (Range)
Dit is het verschil tussen de grootste observatie en de kleinste observatie. Het bereik wordt sterk beïnvloed door uitschieters. Het bereik is een maat voor spreiding.
*Deviatie
Dit is het verschil tussen een bepaalde observatie (x) en het gemiddelde (, dus ( x - . De deviatie is een maat voor spreiding.
*Standaarddeviatie
Dit is de wortel van de deviantie. De deviantie is het gemiddelde van alle deviaties in het kwadraat. Hoe groter de standaarddeviatie, des te groter is de spreiding van de data.
* Normaalverdeling
Dit is een distributie die ongeveer symmetrisch en eentoppig is en de vorm van een bel heeft (bellshape).

±68% van de observaties valt binnen 1 standaarddeviatie van het gemiddelde
±95% van de observaties valt binnen 2 standaarddeviaties van het gemiddelde
±99% van de observaties valt binnen 3 standaarddeviaties van het gemiddelde
*Kwartielen
Het laagste kwart van de observaties valt onder het eerste kwartiel (Q1). Het bovenste kwart van de observaties valt onder het derde kwartiel (Q3). Het tweede kwartiel (Q2) is de mediaan. Over een normaalverdeling kunnen we de volgende uitspraken doen:

*Het interkwartiele bereik (interquartile range)
Dit is de afstand tussen het eerste kwartiel (Q1) en het tweede kwartiel.
*Boxplot
Bij deze grafiekvorm wordt er een ‘box’ getekend die van het eerste kwartiel tot het derde kwartiel loopt. Door deze box wordt een verticale lijn getrokken die de mediaan aangeeft. Vervolgens wordt er een horizontale lijn van de laagste tot de hoogste observatie getrokken. Uitschieters worden aangegeven met een sterretje naast de lijn.

Hoofdstuk 3: Associaties tussen twee variabelen

*Onafhankelijke variabele
Dit is de variabele die gemanipuleerd wordt. Een eventueel effect van de onafhankelijke variabele op de afhankelijke variabele wordt gemeten.
*Afhankelijke variabele
Dit is de variabele die gemeten wordt, en die bij een eventueel effect verandert naar aanleiding van manipulatie van de onafhankelijke variabele.
*Associatie
Er is sprake van een associatie tussen deze twee variabelen wanneer een bepaalde waarde van de afhankelijke variabele eerder voorkomt als de onafhankelijke variabele een bepaalde waarde aanneemt
*Contingency tabel
Deze tabel bestaat uit een kolom met gegevens van een categorische variabele en een rij met gegevens van een andere categorische variabele. Een combinatie van een rij met een kolom wordt een cel genoemd. Hierin staat de frequentie waarin de twee variabelen samen voorkomen. Er is een associatie tussen de twee variabelen wanneer de frequenties van verschillende cellen genoeg van elkaar verschillen.
*Scatterplot
Deze grafiekvorm laat voor twee kwantitatieve variabelen zien of er sprake is van een negatieve of positieve associatie. De onafhankelijke variabele staat hierbij op de x-as en de afhankelijke variabele op de y-as.
*Correlatie
De correlatie (r) geeft de sterkte en richting van een associatie weer. r neemt een getal aan van -1 (meest negatieve associatie) tot 1 (meest positieve associatie). Bij een r van 0 is er geen associatie.
*Regressielijn
Als een relatie tussen twee kwantitatieve variabelen een ongeveer rechte lijn volgt kan deze worden beschreven met behulp van een regressielijn. Deze neemt de vorm aan van ŷ = a+bx. b staat hierbij voor de helling (richting van de associatie). a staat voor de y-intercept; oftewel de plaats waar de regressielijn de y-as kruist (dus waar x=0).
*Residu
Dit is het verschil tussen de waarde die voorspeld wordt met behulp van de regressielijn en de echte waarde.
* Least squares methode
Met deze methode kan de optimale regressielijn geconstrueerd worden door de y-intercept en helling zodanig te kiezen dat de residuen zo klein mogelijk zijn. Deze methode wordt meestal met de computer uitgevoerd.
*Extrapoleren
Dit is het voorspellen van toekomstige waarden van een variabele op basis van een eerdere time trend (tijdserie). Hierbij wordt echter de assumptie aangenomen dat de trend in de toekomst hetzelfde blijft. Dit is lang niet altijd zo.
* Regressie-uitschieters
Dit is een probleem dat zich voor kan doen bij regressielijnen en correlaties. Het gaat om uitschieters die voor X en Y samen uitschieters zijn, maar voor X en Y afzonderlijk niet.
*Lurking variable
Dit is een niet-geobserveerde variabele die apart van de onafhankelijke variabele invloed uitoefent op de afhankelijke variabele
*Confound
Dit is een geobserveerde derde onafhankelijke variabele. De twee onafhankelijke variabelen zijn zowel met elkaar als met de afhankelijke variabele geassocieerd.

Hoofdstuk 4: Data verzamelen

*Observatieonderzoek
Bij dit type onderzoek observeert de onderzoeker de afhankelijke en onafhankelijke variabele van de sample zonder iets gemanipuleerd te hebben.
* Experimenteel onderzoek
Bij dit type onderzoek worden de proefpersonen random aan condities toegewezen. De onderzoeker manipuleert de onafhankelijke variabele, zodat er verschillen tussen condities ontstaan wat betreft de onafhankelijke variabele.
* Steekproef survey (sample survey)
Bij dit type observationeel onderzoek wordt een steekproef geselecteerd en geïnterviewd om data te verzamelen.
*Census
Dit type observationeel onderzoek bestaat uit een survey waarbij men probeert het aantal mensen in de populatie te tellen en daarbij bepaalde eigenschappen te meten.
*Steekproefraamwerk (sampling frame)
Dit is een lijst van alle subjecten in de populatie waar later een steekproef uit wordt genomen.
* Willekeurig steekproeftrekkingdesign (random sampling design)
Dit is een methode waarbij een steekproef geselecteerd wordt uit de sampling frame, waarbij elk subject een gelijke kans heeft om in de steekproef terecht te komen.
*Foutmarge (margin of error)
Dit is een statistiek die de hoeveelheid fouten in de willekeurige steekproeftrekking weergeeft. Dit kan bijvoorbeeld worden gegeven in percentages (bijvoorbeeld: de foutmarge is 3 % als het populatiepercentage niet meer dan 3% hoger of lager is dan het steekproefpercentage).
*Bias
Er is sprake van bias wanneer de resultaten van de steekproef niet representatief zijn voor de populatie.
*Steekproefbias (sampling bias)
Er is sprake van steekproefbias als de steekproeftrekking niet willekeurig is of als een
bepaald deel van de populatie niet meegenomen is in de steekproeftrekking.
*Non-respons-bias
Er is sprake van non-respons-bias als een bepaalde groep mensen vaker niet mee wil
doen aan het onderzoek.
* Responsbias
Er is sprake van responsbias als mensen oneerlijke antwoorden geven (omdat ze
bijvoorbeeld goed willen overkomen) of als de onderzoeker een misleidende/verkeerde
vraagstelling hanteert.
*Placebo
Dit is een nepbehandeling die aan de controlegroep wordt gegeven zodat ze wel denken dat ze de behandeling ondergaan, maar de echte werking van de behandeling niet aanwezig is.
*Geblindeerd onderzoek
Hierbij weten de proefpersonen niet of ze aan de experimentele conditie of controlegroep zijn toegewezen. Bij dubbel geblindeerd onderzoek weten zowel de proefleider als de proefpersonen niet wie in welke conditie zit.
* Matched-pair design
Dit is een design waarbij je als deelnemer zowel in behandelgroep A als in behandelgroep B zit.
* Cross-over design
Bij dit design worden deelnemers gedurende het onderzoek meerdere keren tussen de verschillende condities wisselen (bijvoorbeeld: ABAB of ABAC).
*Cluster sampling
Bij deze manier van steekproeftrekking worden er eerst clusters gemaakt van de populatie. Vervolgens word er willekeurig één of meerdere clusters gekozen voor in de streekproef.
*Stratified sampling
Bij deze vorm van steekproeftrekking wordt de populatie onderverdeeld in bepaalde groepen verdeeld (bijvoorbeeld op basis van inkomen), waarna uit elke strata een steekproef wordt genomen.
*Prospectief onderzoek
Hierbij worden proefpersonen gevolgd in de toekomst. Dit is bij veel experimenten het geval.
* Retrospectief onderzoek
Hierbij wordt gekeken naar het gedrag van de proefpersoon in het verleden. Dit is vaak het geval bij medische onderzoeken.
* Patiënt-controle-onderzoek (Case-control study)
Bij deze vorm van retrospectief onderzoek worden proefpersonen met een relevante responsuitkomst (zoals het hebben van een bepaalde ziekte) vergeleken met mensen die deze uitkomst niet hebben. De ‘patiënten’ en ‘controles’ worden vergeleken op een onafhankelijke variabele (zoals wel of niet roken).

Hoofdstuk 5: Kansen

*Onafhankelijke trial
Hierbij heeft de uitkomst van een trial geen invloed op de daaropvolgende trials.
*Sample space
Alle mogelijke uitkomsten van een random sample worden samen de sample space genoemd. Bij een dobbelsteen is dit bijvoorbeeld: {U=1,2,3,4,5,6}
*Event
Dit is een mogelijke uitkomst van de sample space. Bij drie keer gooien met de dobbelsteen is een mogelijk event {1,6,5}. De kans op een bepaald event kan worden uitgerekend.
*Complement van een event
Dit is de kans dat een bepaald event niet gebeurt. Het complement van event A is dus het tegenovergestelde van A.
*Disjoint
Twee events zijn disjoint als ze geen uitkomst gemeen hebben.
*Intersection
Dit is de kans op het samen voorkomen van events, dus bijvoorbeeld de kans op zowel A als B.
*Union
Dit is de kans op het ofwel samen voorkomen of het voorkomen van een van beide events. Een voorbeeld hiervan is de kans op het voorkomen van A of B of beide.

Hoofdstuk 6: Opsomming van kansen

*Kansendistributie (probability distribution)
Bij een onderzoek met een random sample geeft een kansendistributie weer hoe de kansen verdeeld zijn over de verschillende mogelijke waarden van een variabele.
*Z-score
Deze score geeft bij een normaalverdeling aan hoeveel standdaarddeviaties een observatie van het gemiddelde vandaan ligt. Om de z-score te berekenen trek je het gemiddelde af van de geobserveerde waarde en deel je dat getal door de standdaarddeviatie. Is deze score negatief dan valt de observatie onder het gemiddelde, is de Z-score positief dan valt de observatie boven het gemiddelde.
*Binomiale verdeling
Dit is de verdeling die voortkomt uit discrete random variabelen. Hierbij zijn er twee mogelijke uitkomsten; succes (de uitkomst waarin men geïnteresseerd is) of geen succes. Bij elk trial is de kans op succes even groot. Bovendien zijn de trials onafhankelijk van elkaar.
*Sampling distributie
Deze distributie wordt gebruikt om te bepalen hoe dicht de berekende kansen bij de populatieparameters (de echte waarde) liggen. Dit wordt gedaan door een normaalverdeling te maken van de gemiddelden (het steekproefgemiddelde ) van meerdere steekproeven.
*Standaarderror
Deze naam wordt gebruikt om de standdaarddeviatie van een sampling distributie aan te duiden. De standaarderror wordt berekend door de standdaarddeviatie te delen door de wortel van n.

*Centrale limietstelling
De centrale limietstelling wil zeggen dat ook als een sample niet normaal verdeeld is, de sampling distributie van het steekproefgemiddelde wel normaal verdeeld is.

Hoofdstuk 7: Betrouwbaarheidsinterval

*Puntschatting (point estimate)
Dit is onze beste gok voor de onbekende waarde van een parameter. Een schatting van het populatie gemiddelde µ is het steekproefgemiddelde . Een schatting van de populatieproportie p is de steekproefproportie p̂.

*Betrouwbaarheidsinterval
Dit is de range waarbinnen de meeste echte waarden vallen. Er kan een interval van de sampling distributie gemaakt worden met behulp waarvan we bijvoorbeeld kunnen zeggen dat 95% van de echte waarden binnen deze range valt. Een betrouwbaarheidsinterval heeft de vorm: schatting (gemiddelde of proportie) ± de margin of error.
*Margin of error
Dit geeft aan hoe accuraat de puntschatting waarschijnlijk is voor het schatten van een parameter. Het wordt berekend door de standaarderror van de steekproefdistributie te vermenigvuldigen met bijvoorbeeld 1.96 bij een betrouwbaarheidsniveau van 95% (het gemiddelde plus of min 1.96 standdaarddeviaties bevat precies 95% van een normaalverdeling).

Hoofdstuk 8: Hypothesetoetsen

*Hypothese

Dit is een verklaring of voorspelling over de populatie in de vorm van een numerieke waarde. Elke test heeft twee hypotheses over een populatieparameter
*Nulhypothese (H₀)
Deze hypothese heeft een vaste waarde en geeft meestal aan dat er geen verschil of
effect is. We nemen aan dat H₀waar is totdat de data het tegendeel bewijzen. Dan
nemen we de alternatieve hypothese aan.
*Alternatieve hypothese (H_a)
Deze hypothese geeft een alternatieve waarde voor H₀aan. Het kan een bepaalde
richting aangeven (>H₀ of 0 ) of kan algemeen zijn (≠H₀).

*Significantietest
Dit is een methode om te bepalen of een bepaalde waarde voor een parameter geloofwaardig is.
Een significantietest bestaat uit vijf stappen:
1. Assumpties (aannames waaraan voldaan moet worden)
2. Hypotheses (nulhypothese en alternatieve hypothese)
3. Statistische test (hiermee wordt berekend hoeveel standaarderror er zit tussen de geschatte waarde en de H₀)
4. P-waarde (de kans op de gevonden uitkomst bij de statistische test als wordt aangenomen dat H₀ waar is)
5.Conclusie (bepalen of H₀ waar is op basis van de p-waarde).
*Type 1 fout
Dit is wanneer de nulhypothese in werkelijkheid waar is, maar je deze toch hebt verworpen. De kans hierop is even groot als het significantieniveau van de test (α).
*Type 2 fout
Dit is wanneer de nulhypothese in werkelijkheid niet waar is, maar niet verworpen wordt. Een type 2 fout wordt groter wanneer α kleiner wordt. De type 2 fout wordt kleiner als de steekproefgrootte omhoog gaat.
*Power
Dit de kans op het verwerpen van de nulhypothese. De power reken je als volgt uit: 1 - P (type 2 fout).

Hoofdstuk 9: Groepen vergelijken

*Onafhankelijke steekproeven (independent samples)

Hierbij heeft de ene steekproef geen invloed op de andere steekproef.
*Afhankelijke steekproeven (dependent samples)
Dit is wanneer subjecten uit de ene steekproef gekoppeld worden aan subjecten uit de andere steekproef.
* Ratio van proporties
Dit is een manier om te onderzoeken of twee groepsproporties aan elkaar gelijk zijn. Dit bereken je als volgt: ₁/ _.Wanneer de proporties aan elkaar gelijk zijn ligt deze ratio rond de 1. Wanneer de waarde ruim onder of boven de 1 ligt, verschillen de proporties van elkaar. Deze methode wordt niet vaak gebruikt.

Hoofdstuk 10: Associatie tussen categorische variabelen

*Chi-kwadraattest (X²)
Met behulp van deze significantietest kan je berekenen of twee categorische variabelen onafhankelijk van elkaar zijn. Hierbij gebruik je de geobserveerde waarde en de verwachte waarde.
*Geobserveerde waarde
Dit is de waarde die verkregen wordt uit het onderzoek. Als bijvoorbeeld nemen we de
categorische variabelen inkomen en opleidingsniveau. Hiervan wordt een tabel
samengesteld, met in de kolom de verschillende opleidingsniveaus (mavo/havo/vwo) en
in de rij de verschillende inkomensniveaus (laag/gemiddeld/hoog). Één cel bevat dan
bijvoorbeeld het aantal mensen dat een laag inkomen heeft en havo als
opleidingsniveau. Dat is voor die combinatie de geobserveerde waarde.
*Verwachte waarde
Deze waarde reken je als volgt uit: (rij totaal x kolom totaal) gedeeld door de totale
steekproefgrootte. Bij het eerder genoemde voorbeeld zou dit dus worden: (totaal
proefpersonen met een laag inkomen x totaal proefpersonen met havo als
opleidingsniveau) gedeeld door het totaal aantal proefpersonen.
*Residu
Het verschil tussen de geobserveerde data en de verwachte data in een cel noemen we het residu. Wanneer het residu positief is, zijn er meer subjecten geobserveerd in een bepaalde cel dan er in eerste instantie verwacht werd. Wanneer het residu negatief is, zijn er minder subjecten geobserveerd in een bepaalde cel dan verwacht werd.
*Gestandaardiseerd residu
Met behulp van het gestandaardiseerde residu kunnen we kijken of een residu groot genoeg is om sterk bewijs te leveren tegen de nulhypothese van onafhankelijkheid. Hierbij geldt dat als de geobserveerde waarde minstens drie standaarddeviaties boven of onder de verwachte waarde valt, we kunnen concluderen dat er een effect is in die cel.

Hoofdstuk 11: Associatie tussen kwantitatieve variabelen: de regressieanalyse

*Regressieanalyse
Hiermee kan de waarde van de afhankelijke variabele voorspeld worden. Belangrijk bij een regressieanalyse is dat er eerst bepaald wordt welke variabele de afhankelijke variabele is en welke de onafhankelijke variabele. De afhankelijke variabele wordt altijd op de y-as gezet en de onafhankelijke variabele op de x-as. Hier wordt vervolgens een scatterplot van gemaakt om te bepalen of er een lineair verband is tussen deze twee kwantitatieve variabelen.
*Proportionele reductiefout (r²)
De waarde van r²geeft aan hoeveel beter we y kunnen voorspellen als we een extra variabele x toevoegen. Dit is bijvoorbeeld het verschil tussen y (IQ) voorspellen met behulp van het gemiddelde van y (IQ=100) en het gebruiken van een extra variabele x (opleidingsniveau) om y te voorspellen. r²kan tussen 0 en 1 vallen. Hoe dichter de waarde bij 1 ligt, hoe sterker de associatie is tussen x en y. y is dan beter te voorspellen met variabele x dan zonder x. Als de waarde dicht bij 0 ligt is er een zwakke of geen associatie tussen x en y. Het gebruik van x zorgt er dan niet voor dat we y beter kunnen voorspellen. HAls r² 0.67 is, betekent dat dat de voorspellingsfout (het residu) 67% kleiner is geworden door het gebruik van x.

Hoofdstuk 12: Multipele regressie

*Multipele regressie

Wanneer meerdere variabelen (bijvoorbeeld x₁ en x₂) y voorspellen, heet dit een multipele regressie. Er zijn hierbij dus meer dan twee variabelen die invloed hebben op een afhankelijke variabele. De waarde van r valt hierbij tussen 0 en 1.
* F-distributie
Met behulp van deze statistische test kunnen we uitrekenen of meerdere onafhankelijke variabelen samen een invloed hebben op een afhankelijke variabele. Je bekijkt hiermee dus of minstens één van de variabelen invloed heeft op y.
* Indicator
Dit is een hulpmiddel dat wordt gebruikt bij het opstellen van een multipele regressie voor categorische variabelen. Elke categorie wordt hierbij aangeduid met een indicator. Een indicator voor de categorische variabele sekse zou bijvoorbeeld kunnen zijn: X=1 als het een man is, X=2 wanneer het een vrouw is.

Hoofdstuk 13: ANOVA: groepen vergelijken

* ANOVA
Dit is een test van onafhankelijkheid tussen kwantitatieve afhankelijke variabelen en een groepsfactor. De ANOVA vergelijkt de gemiddelden van de verschillende groepen (g) met elkaar om te kijken of deze onafhankelijk zijn van de afhankelijke variabele.
*One-way ANOVA
Een one-way ANOVA wordt gebruikt voor het vergelijken van gemiddelden van een
enkele groepsfactor (bijvoorbeeld opleiding) op een kwantitatieve afhankelijke variabele
(bijvoorbeeld inkomen)
*Two-way ANOVA
Een two-way ANOVA wordt gebruikt voor het vergelijken van groepen met twee of meer
factoren (bijvoorbeeld sekse en opleiding) op een kwantitatieve afhankelijke variabele
(bijvoorbeeld inkomen). Hierbij is het mogelijk dat er geen hoofdeffect is (zowel sekse
als opleiding hebben geen invloed op inkomen). Er kan ook sprake zijn van één
hoofdeffect (sekse heeft invloed op inkomen of opleiding heeft invloed op inkomen) of
van twee hoofdeffecten (zowel inkomen als sekse hebben invloed op inkomen).
*Interactie
Naast een hoofdeffect kan er ook sprake zijn van interactie tussen twee factoren. In het bovenstaande voorbeeld zou er sprake zijn van interactie als er een verband bestaat tussen bijvoorbeeld opleiding (mavo/havo/vwo) en sekse. Stel dat we sekse op de x-as zetten en aantal mensen met een bepaald opleidingsniveau op de y-as en een lijn trekken tussen het aantal vrouwen dat een bepaald opleidingsniveau heeft en het aantal mannen. Bij De opleidingsniveaus mavo/havo/ vwo krijg je dan drie lijnen. Als de lijnen van twee opleidingsniveaus parallel aan elkaar lopen, is er geen interactie. Als twee lijnen elkaar kruisen is er wel sprake van interactie. Om hierover uitsluitsel te geven kan een statistische test uitgevoerd worden.
* Multipele vergelijkingen
Dit is een verzamelnaam voor methodes waarmee je alle mogelijke vergelijkingen tussen gemiddelden kan maken.
*Tukey methode
Dit is een voorbeeld van een multipele vergelijking. Deze methode is zo geconstrueerd dat de gehele betrouwbaarheid dicht bij 0.95 ligt. Het gaat namelijk uit van de slechtste uitkomst.

Hoofdstuk 14: Niet-parametrische statistiek

*Niet-parametrische statistische test
Dit is een test waarbij er geen assmupties over de verdeling nodig zijn. De verdeling hoeft bijvoorbeeld niet normaal verdeeld te zijn.
* Wilcoxon-test
Dit is een voorbeeld van een niet-parametrische test. Deze test gaat niet uit van een normaalverdeling en wordt gebruikt bij kwantitatieve data. De test is niet gevoelig voor uitschieters en kan gebruikt worden wanneer er weinig data aanwezig zijn. De test vergelijkt twee groepen met elkaar door de scores van de twee groepen rangordes toe te wijzen (hoogste score krijgt het getal 1, de op één na hoogste het getal 2, etc. ) De gemiddelden van de rangordes van de twee groepen worden vervolgens met elkaar vergeleken.

Access:

Public

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Going abroad?

Insure your way around the world

International expat insurances

Travel & Worldsupporter insurances (NL)

Study with summaries

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Spotlight: topics

Check how to use summaries on WorldSupporter.org

Submenu: Summaries & Activities

Follow the author: Vintage Supporter

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics

Search a summary, study help or student organization

Select any filter and click on Search to see results