BulletPointsamenvatting van Statistical Methods for the Social Sciences van Agresti en Finlay - 4e druk

Hoofdstuk 1
Hoofdstuk 2
Hoofdstuk 3
Hoofdstuk 4
Hoofdstuk 5
Hoofdstuk 6
Hoofdstuk 7
Hoofdstuk 8
Hoofdstuk 9
Hoofdstuk 10
Hoofdstuk 11
Hoofdstuk 12
Hoofdstuk 13
Hoofdstuk 14
Hoofdstuk 15
Hoofdstuk 16

Hoofdstuk 1

De term statistiek verwijst naar methoden voor het verkrijgen en analyseren van data
Er zijn twee vormen van statistiek: beschrijvende statistiek (samenvatten) en inferentiële statistiek (voorspellen)
De populatie (N) is de totale set van subjecten die je wilt onderzoeken. De steekproef (n) is een subset die je hieruit hebt getrokken waarover je daadwerkelijk data gaat verzamelen
Een statistiek is feitelijk een numerieke samenvatting van de steekproefdata. Een parameter is de numerieke samenvatting van de populatie

Hoofdstuk 2

Elk kenmerk dat je kunt meten van een subject noemt men een variabele
Variabelen kunnen gemeten worden op vier verschillende niveaus: nominaal, ordinaal, interval en ratio
Nominale er ordinale variabelen vallen onder de bredere term categorische variabelen. Interval- en ratiovariabelen vallen onder numerieke variabelen
Ook is er onderscheid tussen continue variabelen en discrete variabelen. Categorische variabelen kunnen alleen discreet zijn, terwijl numerieke variabelen discreet of continu kunnen zijn.
Randomisatie is de methode voor het verkrijgen van een representatieve steekproef. In een aselecte steekproef heeft ieder subject uit de populatie gelijke kans om in de steekproef terecht te komen. Deze willekeur is belangrijk, om bias te voorkomen
De steekproeffout is de afwijking tussen de steekproef en de populatie op een bepaalde variabele. Wanneer randomisatie wordt gebruikt, is de steekproeffout bij steekproeven van meer dan 1000 subjecten meestal beperkt tot ±3%. Dit noemen we de foutmarge.
De steekproefbias treedt op wanneer het niet mogelijk is om vast te stellen dat alle leden uit de populatie een even grote kans hebben om in de steekproef te komen
De response bias treedt op als gevolg van bepaalde responsstijlen die afwijken van de waarheid
De non-response bias heeft betrekking op uitval en missing data
Wanneer random selectie niet mogelijk is, kunnen diverse andere methoden voor steekproeftrekking worden gebruikt: systematische steekproeftrekking, gestratificeerde steekproef, clustersteekproef en getrapte steekproef

Hoofdstuk 3

Beschrijvende statistiek heeft als doel om een overzicht te maken van de data
Beschrijvende statistieken kunnen in een tabel gezet worden, waarbij frequenties, relatieve frequenties, proporties en percentages gebruikt worden
Er kan ook gebruik gemaakt worden van visuele weergaven, zoals grafieken en diagrammen
Een normale distributie heeft een veronderstelde bel-vorm. Deze is symmetrisch. De twee uitersten worden staarten genoemd (tails). Wanneer de ene staart langer is dan de andere, en de verdeling dus niet symmetrisch, is de verdeling linksscheef of rechtsscheef (skewed)
Centrummaten geven een idee over waar het midden van de data ligt. Hieronder vallen de volgende maten: het gemiddelde, de mediaan en de modus
De spreiding is de variabiliteit van de waarden van een variabele uit de data. Hieronder vallen het bereik en de standaarddeviatie
Data kunnen verdeeld worden in kwartielen. Er zijn drie kwartielen (25, 50 en 75) die de data in vieren verdelen. De interkwartielafstand is het verschil tussen het eerste en derde kwartiel
In een boxplot worden de mediaan, kwartielen en het bereik (minimum en maximum) weergegeven

Hoofdstuk 4

De kans (probability) is de proportie van het aantal keren dat een bepaalde observatie voorkomt in een lange sequentie van observaties. Hoe groter de steekproef, hoe nauwkeuriger de kans
Bij een discrete variabele geeft de kansverdeling de kansen weer bij elke mogelijke waarde van de variabele. Omdat een continue variabele een ontelbaar aantal mogelijke waarden heeft, kan de kansverdeling niet bij elke waarde een kans geven. Daarom geeft deze de kans weer van intervallen van mogelijke warden
Een normaalverdeling is een type kansverdeling. De normaal verdeling is symmetrisch, heeft een belvorm en heeft een gemiddelde (µ) en een standaarddeviatie ()
Een steekproefverdeling geeft de kansverdeling van steekproefgrootheden. Het is een kansverdeling die de kansen weergeeft van de mogelijke uitkomsten van een statistiek
Volgens de centrale limietstelling heeft de steekproefverdeling altijd een belvorm, ongeacht de vorm van de populatieverdeling.

Hoofdstuk 5

Een parameterschatting kan met twee methoden gedaan worden: puntschatting en intervalschatting
Een puntschatting is een enkel getal en een intervalschatting is een interval rond het getal.
Een goede schatting heeft een steekproefdistributie die 1) gecentreerd is rond de parameter, en 2) een zo klein mogelijke standaardfout heeft
Fisher ontwikkelde een methode waarbij de aannemelijkheidsfunctie maximaal is
Een intervalschatting met een betrouwbaarheidsinterval van 95% is een puntschatting met een interval ter grootte van twee standaardfouten.
Voor categorische data kan geen gemiddelde berekend worden, dus wordt er een schatting gemaakt op basis van proporties of percentages
Hoe groter de steekproef, hoe betrouwbaarder de schatting

Hoofdstuk 6

Significantietoetsen bestaat uit vijf stappen: assumpties testen, hypothesen opstellen, de toetsgrootheid berekenen, de p-waarde bepalen en de conclusie trekken.
Voor het vergelijken van gemiddelden is de toetsgrootheid meestal de t-toets. Voor het vergelijken van proporties wordt de z-waarde gebruikt.
Bij tweezijdige hypothese toetsen bevindt de kritische regio zich aan beide kanten (beide staarten) van de normale verdeling
Wanneer er vooraf een vermoeden over de richting van het resultaat is, kan eenzijdig getoetst worden
Na het toetsen van significantie kan de effectgrootte berekend worden, bijvoorbeeld met Cohen’s d
De power van een test is de kans dat de test de nulhypothese zal afwijzen als deze ook echt fout is
De power wordt beïnvloed door drie factoren: de steekproefgrootte, het alfaniveau en de keuze voor één- of tweezijdig testen
Een type I-fout betekent dat de nulhypothese afgewezen wordt terwijl deze waar is.
Een type II-fout houdt in dat de nulhypothese aangenomen wordt terwijl deze niet waar is.

Hoofdstuk 7

Wanneer twee groepen met elkaar vergeleken worden ontstaat een binaire – ook wel dichotome – variabele
Wanneer twee groepen met dezelfde steekproef worden vergeleken, is er sprake van afhankelijke steekproeven. Wanneer twee verschillende groepen worden vergeleken, is er sprake van onafhankelijke steekproeven
Omdat twee gemiddelden van de steekproeven die met elkaar vergeleken worden beide afwijken van het populatiegemiddelde, heeft ook het groepsverschil een standaardfout. Deze kan geschat worden op basis van de standaarddeviaties en steekproefgroottes.
Het betrouwbaarheidsinterval voor het verschil tussen proporties ligt er 1 geschatte standaardfout onder en boven
Bij de interpretatie van een betrouwbaarheidsinterval geldt dat groep 1 groter is dan groep 1 wanneer het interval positieve waarden heeft. Wanneer het betrouwbaarheidsinterval negatieve waarden heeft, betekent het dan ook dat groep 1 kleiner is dan groep 2.
Als significantietest voor het bepalen van het verschil wordt de t-toets gebruikt

Hoofdstuk 8

Om te onderzoeken of er een verband is tussen groepen met categorische data, worden allereerst kruistabellen gemaakt
Een marginale abel geeft de frequenties weer; een conditionele distributie geeft de percentages voor iedere categorie weer. Een alternatief voor de contidionele distributie is de simultane distributie, waarbij percentages ten opzichte van de gehele steekproef worden gebruikt.
De chi-kwadraattest wordt gebruikt als toetsgrootheid om geobserveerde frequenties met verwachte frequenties te vergelijken.
De chi-kwadraat waarschijnlijkheidsdistributie is rechtsscheef en heeft een grotere spreiding naarmate de vrijheidsgraden toenemen.
Om uitspraken te doen over de richting en grootte van een verschil bij de chi-kwadraattoets, wordt gekeken naar residuen en concordantie
Meestal wordt de geschatte gamma gebruikt als standaardisering van het verschil. Hoe groter de gamma, hoe sterker het verband

Hoofdstuk 9

Het eerste doel van regressieanalyse is onderzoeken of er een verband bestaat tussen de variabelen
Het tweede doel van regressieanalyse is de sterkte van het verband bepalen
Het derde doel van regressieanalyse is het maken van een regressieformule om zo de waarde van de response variabele te kunnen voorspellen aan de hand van de verklarende variabele
Bij regressie-analyse is de eerste stap om naar het scatterplot te kijken, om te bepalen of een lineaire regressie passend is
De regressieformule is een schatting van de waarden, en wijkt dus af van de geobserveerde waarden. De afwijkingen worden de residuen genoemd
De beste regressielijn is die met de kleinste som van gekwadrateerde residuen (sum of squared errors)
De standaardafwijking uit de steekproef is het gemiddelde van de sum of squared errors
Bij correlatie-analyse wordt gekeken naar een verband tussen twee variabelen. Hoe groter de correlatie-coëfficiënt, hoe sterker het verband
De coefficient of determination is een maat voor effectgrootte, en wordt berekend door het kwadraat van de correlatie-coëfficiënt te nemen
Om de significantie te toetsen, wordt de t-score berekend. Dit kan op twee manieren: aan de hand van de b-coëfficiënt, of aan de hand van de correlatiecoëfficiënt
Een andere manier om de significantie van een regressie te testen is aan de hand van een betrouwbaarheidsinterval
De assumpties voor regressie zijn het gemiddelde benaderd wordt door het lineaire model, dat er niet geëxtrapoleerd kan worden, dat er geen outliers van invloed zijn en dat de steekproef groot genoeg is om een realistische schatting te maken

Hoofdstuk 10

Multivariate analyses zijn bedoeld om te controleren voor meerdere variabelen die invloed kunnen hebben op een verband
Om een causaal verband aan te tonen, moet aan drie voorwaarden worden voldaan: er moet een verband zijn tussen de twee variabelen, de verklarende variabele moet vooraf gaan aan de respons variabele, en andere verklaringen moeten zijn uitgesloten
Om andere verklaringen uit te sluiten, moeten controlevariabelen worden toegevoegd aan de analyse
Als er een derde variabele van invloed is die niet is opgenomen in de analyse, wordt gesproken van een lurking variable
Een ‘spurious association’ houdt in dat een derde variabele Z invloed heeft op beide variabelen X en Y in de analyse
Een ‘chain relationship’ houdt in dat een derde variabele Z een rol speelt in de relatie tussen X en Y. Het verband verloopt dus via Z
Er kan sprake zijn van meerdere oorzaken. In dat geval heeft X wel een werkelijk effect op Y, maar zijn er diverse andere factoren die ook effect hebben op Y
Een onderdrukkende variabele kan ertoe leiden dat het lijkt alsof er geen verband is tussen X en Y
Er is sprake van statistische interactie wanneer de invloed van de ene variabele X afhankelijk is van de invloed van de andere variabele Z

Hoofdstuk 11

Multipele regressie is een methode om het verband tussen een responsvariabele en meerdere verklarende variabelen te onderzoeken
Simpsons paradox houdt in dat de richting van het verband veranderd wanneer aanvullende variabelen worden toegevoegd
Het berekenen voor de multipele regressielijn verloopt in de basis hetzelfde als voor de simpele regressielijn: er wordt gebruik gemaakt van residuen
De multipele correlatie (R) voor een regressiemodel is de correlatie tussen de geobserveerde waarden en de voorspelde warden
R² meet de proportie van de totale variatie in y, die verklaard wordt door de variabelen in de multipele regressielijn
Met R² kun je meten wat de relatieve ‘verbetering’ is van de predictoren aan het gemiddelde
Multicollineariteit houdt in dat de verschillende verklarende variabelen onderling sterk correleren, waardoor ze minder verklaarde variantie toevoegen
Bij multipele regressie worden twee significantietoetsen uitgevoerd: de significantie van het gehele model, en de significantie van de afzonderlijke verklarende variabelen
Wanneer er sprake is van interactie tussen de verschillende verklarende variabelen, is de oplossing om cross-product terms te gebruiken
Door variabelen te centreren kun je bekijken welk effect de ene verklarende variabele heeft als de andere variabelen gemiddeld zijn
Om te onderzoeken of het toevoegen van meerdere verklarende variabelen daadwerkelijk tot een betere voorspelling leidt, vergelijk je de complete regressie met een gereduceerde regressie

Hoofdstuk 12

Om gemiddelden van meerdere groepen met elkaar te vergelijken, wordt analysis of variance (ANOVA) gebruikt
Bij ANOVA is er een numerieke afhankelijke variabele en een categorische afhankelijke variabele
Voor ANOVA moet aan drie voorwaarden worden voldaan: de gemiddelden van alle groepen zijn normaalverdeeld, de standaarddeviaties moeten gelijk zijn en de steekproeven moeten willekeurig en onafhankelijk van elkaar zijn
Voor het berekenen van de toetsgrootheid F wordt de variantie tussen groepen en binnen groepen gebruikt
Het is informatiever om betrouwbaarheidsintervallen te berekenen om een schatting van de populatiegemiddelden en –verschillen te maken. Dit is echter niet raadzaam wanneer het aantal groepen erg groot is, want dan wordt de kans dat er sowieso een verschil wordt gevonden erg groot
Een ANOVA kan ook als een regressie worden geformuleerd. De uitkomstvariabelen worden geformuleerd als de mogelijke groepen van de categorische variabelen
Een uitbreiding op de in dit hoofdstuk beschreven (one-way) ANOVA is de two-way ANOVA, waarbij meerdere categorische variabelen worden meegenomen
Bij een two-way ANOVA kan gekeken worden naar de hoofdeffecten van de afzonderlijke categorische variabelen, maar ook of er een interactie-effect is

Hoofdstuk 13

Om zowel een categorische als numerieke variabele in één analyse te onderzoeken, worden een regressieanalyse en een variatieanalyse met elkaar gecombineerd
Een covariantieanalyse is een regressie waarin gecontroleerd wordt voor een numerieke variabele (de covariaat)
Voor de categorische variabele wordt een dummyvariabele gebruikt in de regressieanalyse
Wanneer gecontroleerd wordt voor een numerieke variabele, ontstaan er twee lijnen: voor iedere categorie 1. Als er een interactie-effect is, zullen de lijnen kruisen. Zo niet, dan lopen de lijnen parallel
Wanneer de lijnen parallel lopen, is de hellingscoëfficiënt voor beide regressielijnen gelijk.
De bètacoëfficiënt geeft bij parallelle lijnen het verschil tussen de gemiddelden van de categorieën weer
Wanneer er sprake is van een interactie-effect, zijn de hellingscoëfficiënten verschillend
Om de significantie van een interactiemodel te toetsen, wordt het interactiemodel vergeleken met een gereduceerd model zonder interactietermen
Om de significantie van het verschil tussen categorieën te vergelijken, worden de coëfficiënten van de dummyvariabelen getoetst op significantie
Het interpreteren van grafieken is van belang om de betekenis van het regressiemodel te kunnen begrijpen

Hoofdstuk 14

Een belangrijke assumptie bij regressie is dat er een lineair verband is. Wanneer er sprake is van een andere vorm, kan een vertekend beeld ontstaan
Met een kwadratische lijn kan een polynomiale regressie gebruikt worden
Wanneer de coëfficiënt van x² positief is, zal de data lopen in de vorm van een bergparabool. Als de coëfficiënt negatief is, zal de data lopen in de vorm van een dalparabool.
Bij polynomiale modellen verwijst R² niet naar de sterkte van het verband, maar naar de vermindering van schattingsfouten door het gebruiken van een kwadratisch verband in plaats van een lineair verband.

Hoofdstuk 15

Een logistische regressie is een regressieanalyse voor uitsluitend categorische variabelen
Het linear probability model is simpel, maar geeft meestal een onrealistisch beeld omdat het impliceert dat de kans onder de 0 of boven de 1 ligt, terwijl de x-waarden tussen de 0 en 1 moeten vallen
Het logistic regression model geeft een meer realistische S-curve (curvilineaire relatie) waarbij de kans tussen de 0 en 1 valt
De odds geeft aan wat de kans op succes is
De logistische transformatie of logit bepaalt of de curve naar boven of naar beneden gaat wanneer x groter wordt
Een alternatieve formule drukt de kans op succes direct uit, waarbij natuurlijke logaritmes worden gebruikt
De makkelijkste manier om de logistische transformatie te interpreteren is een schatting van een rechte raaklijn. Een andere manier is om de functie op twee verschillende waarden van x te vergelijken
Bij multipele logistische regressie wordt gebruik gemaakt van exponenten. Met deze exponenten wordt gecontroleerd voor extra variabelen
Er kan bij multipele logistische regressie gekeken worden naar de effecten op odds of op probabilities
Bij de interpretatie moet rekening gehouden worden met de assumpties van randomisatie en binomialiteit
Om onafhankelijkheid te testen, wordt de Wald statistiek gebruikt
Om een complex en een simpeler model te vergelijken, wordt de likelihood-ratiotest gebruikt

Hoofdstuk 16

Bij padanalyse gebruik je regressiemodellen om theorieën weer te geven over causale verbanden tussen variabelen
Een paddiagram is een grafische weergave van de causale verbanden tussen verschillende variabele. Allereerst worden diverse verklarende variabelen in een regressie gebruikt voor de eerste afhankelijke variabelen. Vervolgens worden de verklarende variabelen als afhankelijke variabelen in een andere regressie gebruikt met andere verklarende variabelen
In een padanalyse kunnen indirecte effecten naar voren komen. Een indirect effect is wanneer een variabele effect heeft op de afhankelijke variabele, via een tussenliggende variabele
Voor het berekenen van het indirecte effect, moeten de coëfficiënten van de verschillende tussenliggende variabelen met elkaar vermenigvuldigd worden
Er is sprake van een schijnverband wanneer je een verband vaststelt tussen x en y, maar dat verband verdwijnt wanneer je controleert voor z
Er is sprake van een onderdrukt verband, wanneer er eerst geen verband lijkt te zijn, maar na het invoeren van controlevariabelen wel een verband
Simpsons Paradox is een specifiek geval van een onderdrukt verband, waarbij de richting van het verband omkeert na het invoeren van een controlevariabele

Access:

Public

Click & Go to more related summaries or chapters

Studiegids voor samenvattingen bij Statistical Methods for the Social Sciences van Agresti en Finlay

Samenvatting van Statistical Methods for the Social Sciences van Agresti - 6e druk- Exclusive

Supersamenvatting van Statistical Methods for the Social Sciences van Agresti en Finlay - 6e druk

TentamenTests bij Statistical Methods for the Social Sciences van Agresti - 6e druk

BulletPointsamenvatting van Statistical Methods for the Social Sciences van Agresti - 6e druk

TentamenTickets bij Statistical Methods for the Social Sciences van Agresti en Finlay - 6e druk

Samenvatting van Statistical Methods for the Social Sciences van Agresti - 5e druk- Exclusive

BulletPointsamenvatting van Statistical Methods for the Social Sciences van Agresti en Finlay - 4e druk

Oefenmateriaal bij Statistical Methods for the Social Sciences van Agresti en Finlay - 4e druk

Study Guide for summaries with Statistical Methods for the Social Sciences by Agresti

Statistics: summaries and study assistance - Theme

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

This content is related to:

Statistical Methods for the Social Sciences - Agresti & Finlay - Samenvatting 4e druk in PDF

Oefenmateriaal bij Statistical Methods for the Social Sciences van Agresti en Finlay - 4e druk

This content is used in:

Samenvattingen Statistical Methods for the Social Science - Agresti & Finlay

Going abroad?

Insure your way around the world

International expat insurances

Travel & Worldsupporter insurances (NL)

Study with summaries

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Spotlight: topics

This content is also used in .....

Samenvattingen Statistical Methods for the Social Science - Agresti & Finlay

Deze bundel bevat relevant samenvattingen voor het boek Statistical Methods for the Social Science van Agresti en Finlay

Oefenmateriaal bij Statistical Methods for the Social Sciences van Agresti en Finlay - 4e druk

BulletPointsamenvatting van Statistical Methods for the Social Sciences van Agresti en Finlay - 4e druk

Statistical Methods: Explanations, Practice Questions and Study Assistance

Statistical Methods for the Social Sciences - Agresti & Finlay - Samenvatting 4e druk in PDF

Check how to use summaries on WorldSupporter.org

Submenu: Summaries & Activities

Follow the author: Psychology Supporter

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics

Search a summary, study help or student organization

Select any filter and click on Search to see results

BulletPointsamenvatting van Statistical Methods for the Social Sciences van Agresti en Finlay - 4e druk

Hoofdstuk 1

Hoofdstuk 2

Hoofdstuk 3

Hoofdstuk 4

Hoofdstuk 5

Hoofdstuk 6

Hoofdstuk 7

Hoofdstuk 8

Hoofdstuk 9

Hoofdstuk 10

Hoofdstuk 11

Hoofdstuk 12

Hoofdstuk 13

Hoofdstuk 14

Hoofdstuk 15

Hoofdstuk 16

Studiegids voor samenvattingen bij Statistical Methods for the Social Sciences van Agresti en Finlay

Statistical Methods for the Social Sciences - Agresti & Finlay - Samenvatting 4e druk in PDF

Oefenmateriaal bij Statistical Methods for the Social Sciences van Agresti en Finlay - 4e druk

Samenvattingen Statistical Methods for the Social Science - Agresti & Finlay

Contributions: posts

Add new contribution

Spotlight: topics

Samenvattingen Statistical Methods for the Social Science - Agresti & Finlay

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

Quicklinks to fields of study for summaries and study assistance