Discovering statistics using IBM SPSS Statistics van Field - 4e druk - BulletPoints
- 1. Waarom dwingt mijn duivelse docent me tot statistiek?
- 2. Alles wat je absoluut niet wilde weten over statistiek
- 3. De SPSS omgeving
- 4. De gegevens verkennen met grafieken
- 5. Het bias beest
- 6. Niet-parametrische testen
- 7. De correlatie
- 8. Regressie
- 9. Vergelijken van twee gemiddelden
- 10. Moderatie, mediatie en nog meer regressie
- 11. Meerdere gemiddelden vergelijken, ANOVA
- 12. ANCOVA
- 13. Factor ANOVA
- 14. Herhaalde metingen
- 15. Gemixt design ANOVA
- 16. MANOVA
- 17. Factor analyse
- 18. Categorische gegevens
- 19. Logistische regressie
- 20. Multilevel lineaire modellen
1. Waarom dwingt mijn duivelse docent me tot statistiek?
Kwantitatieve methoden van onderzoek zijn gebaseerd op cijfers, kwalitatieve methoden van onderzoek zijn gebaseerd op taal.
Er is sprake van falsificatie als de verzamelde gegevens de theorie of hypothese tegenspreken.
De onafhankelijke variabele is de variabele die gezien wordt als de oorzaak, de afhankelijke variabele wordt gezien als de uitkomst.
Een categorische variabele bestaat uit verschillende categorieën, een continue variabele is een score die elke waarde kan aannemen die op de meetschaal wordt gebruikt.
Validiteit is de mate waarin het instrument daadwerkelijk meet wat je wil meten. Er zijn verschillende soorten, zoals criteriumvaliditeit en inhoudsvaliditeit.
Betrouwbaarheid is de mate waarin het instrument dezelfde uitkomst geeft bij dezelfde condities. Dit kan bijvoorbeeld gemeten worden door de test te herhalen.
Er zijn verschillende soorten onderzoek. Correlationeel onderzoek is observeren wat er in de wereld gebeurt zonder het te manipuleren. Experimenteel onderzoek is variabelen manipuleren om te kijken of het de andere variabelen beïnvloedt.
Er is volgens Hume sprake van een oorzakelijk verband als oorzaak en gevolg elkaar nauw in de tijd opvolgen, de oorzaak voorafgaat aan het gevolg en het gevolg nooit voorkomt zonder dat de oorzaak heeft plaatsgevonden.
Niet-systematische variatie is het verschil in prestatie tussen condities wat niet door bekende factoren verklaard kan worden. Systematische variatie kan juist wel verklaard worden.
Bij het analyseren van de gegevens komt een normale verdeling vaak voor. Dit is een belvormige curve met symmetrische helften. De meeste scores zitten rond het midden van de verdeling.
Om te berekenen waar het centrum van de frequentieverdeling ligt (central tendency) kunnen er verschillende methodes gebruikt worden: de modus, mediaan en het gemiddelde.
De verspreiding van de scores kan berekend worden met de hoogste en laagste score. Kwartielen zijn waardes die de verdeling in vier gelijke stukken verdelen.
De deviatie is het verschil tussen de score en het gemiddelde. De kwadratensom (SS) is de optelling van alle gekwadrateerde deviatiescores. De variantie is de kwadratensom gedeeld door de steekproefgrootte – 1. De standaardafwijking is de wortel van de variantie.
Bij normaalverdeling wordt er gebruik gemaakt van z-scores. De z-score geeft aan hoeveel standaardafwijkingen de score van het gemiddelde ligt. In de tabel kan je aan de hand van de z-score zien hoeveel kans er is op deze waarde. Als dit onder een bepaalde maatstaaf ligt, is de kans significant.
2. Alles wat je absoluut niet wilde weten over statistiek
Alle statistische modellen komen neer op de formule: Uitkomsti = (model) + errori. De i staat hier voor de score van een bepaald persoon.
Het verschil tussen variabelen en parameters is dat parameters niet gemeten worden, maar geschat aan de hand van de data. Zij zijn meestal constant, denk aan het gemiddelde.
Het gemiddelde heeft een hypothetische waarde, maar hoeft niet daadwerkelijk in de data voor te komen. Het model is in dat geval: Uitkomst = gemiddelde + error.
Alle deviaties worden gekwadrateerd en bij elkaar opgeteld, de totale error. De som van de gekwadrateerde meetfouten (SS) wordt gedeeld door het aantal vrijheidsgraden (aantal observaties – 1) om de variantie te bepalen.
De method of least squares houdt in dat de gekozen parameter altijd degene is die de minste error oplevert.
Om te kijken hoe representatief een steekproef is voor de populatie, kun je de steekproefverdeling gebruiken. De standaarddeviatie geeft aan hoe representatief de steekproefgemiddelden zijn voor het populatiegemiddelde.
Het betrouwbaarheidsinterval zijn de grenzen waartussen je denkt dat het werkelijke populatiegemiddelde valt. Bij een betrouwbaarheidsinterval van 95% valt het populatiegemiddelde dus bij 95% van de steekproeven binnen de berekende grenzen.
Om de grenzen van het betrouwbaarheidsinterval te bepalen vermenigvuldig je de bijbehorende z-score (bij 95% is dat 1.96) met de standaard error.
Bij het toetsen van hypothesen wordt de regel van Fisher gebruikt: je weet pas of er een werkelijk effect is, als er slechts een kleine kans is dat het resultaat per toeval werd bereikt.
De nulhypothese zegt dat er geen effect is. De alternatieve hypothese zegt dat er wel een effect is. Onderzoek richt zich vaak op het verzamelen van bewijs dat de nulhypothese verwerpt.
Bij nulhypothese significantie toetsen (NHST) neem je eerst aan dat H0 waar is. Vervolgens pas je een statistisch model toe op de data die H1 volgt, en kijk je hoeveel variantie de data in het model verklaart. Je berekent de p-waarde, kijkt hoe klein die kans is, en bepaalt of de nulhypothese wordt verworpen.
Om te kijken of de hypothese een goede verklaring is voor de gegevens, deel je de variantie verklaard door het model door de variantie niet verklaard door het model, oftewel effect door de error.
Bij een eenzijdige toets geeft de hypothese een richting voor het effect aan. Bij een tweezijdige toets heeft de hypothese geen richting.
Type 1 fout wordt gemaakt als er in werkelijkheid geen effect in de populatie is, terwijl dat wel wordt gedacht. Type 2 fout wordt gemaakt als er in werkelijkheid wel een effect in de populatie is, terwijl dat niet wordt gedacht.
De power van een test is de mate waarin hij in staat is een effect te vinden. De power wordt beïnvloed door de sterkte van het effect, het significantieniveau en de steekproefgrootte.
Om de effectgrootte te berekenen gebruik je ofwel Cohen’s d (0.2 = klein effect, 0.5 = gemiddeld effect, 0.8 = groot effect), ofwel Pearsons r (0.10 = klein effect, 0.30 = gemiddeld effect, 0.50 = groot effect).
3. De SPSS omgeving
De belangrijkste schermen in SPSS zijn de data editor, waar je je data invoert en je statistische berekeningen mee uitvoert, en de viewer, waar de resultaten van de analyses in verschijnen.
De data editor heeft twee opties. De data view is om cijfers in te voeren en de variable view is om te kijken wat voor variabelen gebruikt worden.
Bij coding variable geef je een nummer aan bepaalde groepen. Voor geslacht krijgen mannen bijvoorbeeld een 0 en vrouwen een 1.
Bij het opgeven van missing data zijn er drie opties. De eerste optie is dat er geen ontbrekende gegevens zijn, de tweede optie is dat alleen een paar waardes missen en de derde optie is dat de waardes in een bepaald gebied ontbrekende waardes zijn.
Op het output scherm van SPSS zijn alle grafieken en tabellen te zien. Er staat ook altijd een boomdiagram van alle analyses die je hebt uitgevoerd.
Met smartreader kan je alle bestanden met oude of juist nieuwe versies van SPSS openen.
De SPSS-syntax is de taal van opdrachten om statistische analyses en datamanipulaties uit te voeren.
4. De gegevens verkennen met grafieken
Bij een grafiek is het belangrijk dat er geen verkeerde indrukken worden gewekt en dat er zo min mogelijk afleiding is. Overbodige dingen aan een grafiek wordt chartjunk genoemd.
In SPSS kun je grafieken maken met de chart builder.
Een simple histogram gebruik je als je de frequenties van een simpele variabele wil zien. Wanneer je deze informatie in een lijn ziet, noem je het een frequency histogram. Een stacked histogram gebruik je als je verschillende groepen wil zien.
Bij een population pyramid zijn de grafieken met de bodems tegen elkaar gezet. De frequentie is in de horizontale as te zien.
Er zijn drie verschillende boxplots. Een simple boxplot gebruik je als je de categorieën in aparte boxplotten naast elkaar wil zien. Bij een clustered boxplot kun je de gegevens in tweeën splitsen. Een 1-D boxplot is voor het gebruik van één variabele zonder dat er een categorische variabele geselecteerd moet worden voor de x-as.
De meest gebruikelijke manier om gemiddelden weer te geven is door gebruik van een staafdiagram. Er zijn verschillende opties om zo’n diagram in SPSS te maken.
Lijngrafieken zijn hetzelfde als staafdiagrammen, alleen wordt hier een lijn weergegeven. Ook dit stel je op in de chart builder.
Een simple line laat de gemiddelden van de scores van verschillende groepen zien, een multiple line laat ook het gemiddelde zien van een bepaalde variabele en kan bestaan uit meerdere lijnen voor meerdere variabelen.
Een scatterplot is handig om te kijken naar de relatie tussen twee variabelen. Het laat de score op de ene variabele en de score op de andere variabele zien.
Bij een scatterplot is de regressielijn belangrijk. De regressielijn vat de relatie tussen twee variabelen samen.
Om een grafiek op te maken dubbelklik je op de grafiek om de chart editor te openen.
5. Het bias beest
Dingen zorgen voor bias in de schattingen van de parameters, de standard error en het betrouwbaarheidsinterval, en de test statistieken en p-waarden.
De vier grote assumpties voor parametrische toetsen zijn dat de gegevens normaal verdeeld moeten zijn, dat de varianties van de verschillende groepen ongeveer even groot moeten zijn, dat de variabelen lineair met elkaar samenhangen en dat er sprake is van onafhankelijkheid.
Uitschieters zijn een belangrijke bron van bias, omdat die het gemiddelde enorm omhoog of omlaag kunnen brengen.
De aanname van lineariteit is zeer belangrijk. Als de variabelen geen lineair verband vertonen, klopt het hele model niet meer.
De assumptie van normaliteit is belangrijk omdat dit invloed heeft op de schattingen van parameters, het betrouwbaarheidsinterval, de nulhypothese significantie toetsen en de error.
De centrale limiet stelling zegt dat de verdeling bij grote steekproeven (n>30) de verdeling sowieso normaal is, ook al is de populatie niet normaal verdeeld.
Homoscedasticiteit betekent homogeniteit van variantie. Het houdt in dat alle groepen een ongeveer gelijke variantie moeten hebben.
De assumptie van onafhankelijkheid betekent dat de errors in je model niet aan elkaar gerelateerd zijn. Een voorbeeld van een geschonden onafhankelijkheid is als participanten overleggen tijdens het invullen van een vragenlijst.
Een P-P plot laat de cumulatieve kans van een variabele tegen de cumulatieve kans van een bepaalde verdeling zien. Dit plot maakt gebruik van z-scores.
Bij kleinere steekproeven kun je kijken naar de scheefheid en kurtosis van de verdeling, die moet bij een normale verdeling 0 zijn.
De Kolmogorov-Smirvov test en de Shapi-Wilk test vergelijken de verdeling van de steekproef met een normaalverdeling met hetzelfde gemiddelde en eenzelfde standaarddeviatie. Als de test significant is, is de verdeling van de steekproef niet normaal.
Een Q-Q plot is hetzelfde als een P-P plot, maar kijkt in plaats van scores naar kwartielen.
De assumpties van homoscedasticiteit en lineariteit kunnen tegelijkertijd beken worden door middel van een scatterplot. Je zet de residuals uit tegen de uitkomst volgens het model.
Levene’s test wordt gebruikt om te kijken naar de homogeniteit van varianties. Als Levene’s test significant is, verschillen de varianties significant van elkaar.
Om bias te verminderen kun je bepaalde extreme scores verwijderen, uitschieters vervangen door de hoogste score die geen uitschieter is, je data analyseren met robuuste methodes en de data transformeren.
Trimmen kun je doen door een participant te verwijderen, door te trimmen op basis van een percentage en door te trimmen op basis van de standaardafwijking.
Robuuste methodes zijn testen die weinig beïnvloed worden door schendingen van assumpties.
Data transformeren houdt in dat je alle data op dezelfde manier omzet in andere scores, waardoor je corrigeert voor problemen met assumpties. Je kunt gebruikmaken van een log, wortel of wederkerige transformatie.
6. Niet-parametrische testen
Als er niet aan de assumpties voldaan kan worden, wordt er een niet-parametrische test gebruikt.
De niet-parametrische versie van de onafhankelijke t-toetsen zijn de Wilcoxon rank-sum test en de Mann-Whitney test. De scores worden hierbij in een rangorde gezet.
In SPSS voer je deze test uit door te gaan naar analyze – non parametric tests – independent samples. Je kunt hier ook kiezen welke toets je gaat doen.
Het eerste deel van de output laat een samenvatting zien van de ranking die aan de scores is gegeven. Het tweede deel van de output laat de test statistieken zien samen met de z-scores.
Het is handig om ook de effectgrootte te berekenen, omdat dit een standaardmaat is die vergeleken kan worden met andere studies.
Als twee condities met dezelfde proefpersonen vergeleken moeten worden, maak je gebruik van de Wilcoxon signed-rank test. Dit is de niet-parametrische variant van de afhankelijke t-toets.
De parametrische test die vergelijkbaar is met de eenweg onafhankelijke ANOVA is e Kruskal-Wallis test (H). Ook hier worden rangnummers gebruikt.
Bij de K-W test wordt eerst een gecodeerde variabele gemaakt van de onafhankelijke variabele. Die kunnen getest worden op normaliteit en homogeniteit. Om naar het verschil tussen groepen te kijken moeten deze assumpties per groep getest worden.
Er zijn twee manieren voor een follow-up analyse, namelijk door te kijken naar pairwise comparisons of homogeneous subsets.
De Jonckhere-Terpstra test kijkt naar het patroon van de medianen van de groepen die je met elkaar wilt vergelijken. Deze test geeft ook nog informatie over o de volgorde van de groepen van belang is.
Friedman’s ANOVA kan gebruikt worden wanneer dezelfde proefpersonen in meer dan twee verschillende condities gebruikt zijn. De test wordt gebruikt wanneer niet aan de assumpties voor eenweg herhaalde metingen ANOVA voldaan kan worden.
Bij het rapporteren van de resultaten van niet-parametrische tests is het belangrijk om de chi-square statistiek, het aantal vrijheidsgraden en de significantie te vermelden. Rapporteer ook een effectgrootte van de follow-up tests en de medianen en reikwijdte daarvan.
7. De correlatie
Twee variabelen kunnen op drie manieren gerelateerd zijn aan elkaar: niet, positief of negatief. Positief houdt in dat een toename in de ene variabele samenhangt met een toename in de andere variabele. Een negatief verband betekent dat een toename in de ene variabele samenhangt met een afname in de andere variabele. Niet gerelateerd betekent dat er geen samenhang is tussen de variabelen.
Om te kijken of er een relatie is tussen twee variabelen, kijk je naar de covariantie. De covariantie geeft aan of variabelen samenhangen en of deze samenhang positief of negatief is.
De gestandaardiseerde covariantie is de correlatie coëfficiënt (r), ofwel Pearson correlatie coëfficiënt. Deze wordt ook gebruikt voor het meten van effectgrootte. Een bivariate correlatie is een correlatie tussen twee variabelen.
Om de significantie van r te onderzoeken maak je gebruik van een t-toets met N-2 vrijheidsgraden.
Bij correlaties worden meestal geen betrouwbaarheidsintervallen berekend, maar bootstrap betrouwbaarheidsintervallen. En bootstrap betrouwbaarheidsinterval is ook accuraat als de verdeling niet normaal is.
Een correlatie betekent niet dat er sprake is van causaliteit, want andere variabelen hebben ook nog invloed op de correlatie, en de correlatie zegt niets over welke variabele de verandering bij de andere variabele teweegbrengt.
Het kwadraat van de correlatie is de coëfficiënt van determinatie. Dit is een maat voor hoeveel variantie de gecodeerde variabelen delen.
De niet-parametrische variant van de Pearson correlatie is de Spearman correlatie coëfficiënt, gebaseerd op rangscores.
Kendall’s tau is handig wanneer je een kleine steekproef hebt met veel gelijke scores. Ook dit is een niet-parametrische statistiek.
De punt-biseriële correlatie coëfficiënt wordt gebruikt als de variabele discreet dichotoom is (dood of levend). De biseriële correlatie coëfficiënt wordt gebruikt als de variabele continu dichotoom is (tentamen gehaald of niet, heeft nog steeds een continuüm).
De partiële correlatie is de relatie tussen twee variabelen waarin de effecten van een andere (derde) variabele constant worden gehouden. De semi-partiële correlatie controleert voor het effect dat een derde variabele heeft op één van de variabelen in de correlatie, en niet op beide variabelen zoals bij de partiële correlatie.
Om correlaties te vergelijken kun je gebruik maken van z-scores en t-toetsen. Correlaties zijn effectgroottes, dus om de effectgrootte te berekenen heb je geen verdere stappen nodig.
8. Regressie
De algemene formule voor een lineaire functie is Uitkomst = ax + b Hierbij is a de intercept en b de coëfficiënt.
Je kunt kijken hoe goed de fit is van een model met de volgende formule:Totale error = Σ (geobserveerd – model)2. Dit is de residual sum of squares of residuensom (SSR), Het model met de kleinste SSR past het beste bij je data.
Als je het gemiddelde als model neemt, kun je de verschillen uitrekenen tussen de data en het gemiddelde, en daarmee een sum of squares uitrekenen. Dit heet de totale kwadratensom (SST).
Het verschil tussen de SST en de SSR is de verbetering in voorspelling die het model biedt boven het gemiddelde, de SSM.
De proportie van verbetering kun je uitrekenen R2 =SSM / SST
De F-toets is gebaseerd op de ratio van de verbetering door het model (SSM) en het verschil tussen het model en de geobserveerde gegevens (SSR). F =MSM / MSR
Een goed model heeft een grote F-waarde, want dat betekent dat er een grote verbetering is in de voorspelling (een grote MSM) en dat het verschil tussen de voorspelling en de data klein is (een kleine MSR).
Als een variabele significant een uitkomst wil voorspellen, dan moet het dus een b-waarde hebben die significant verschilt van 0. Dit kan getoetst worden met de t-toets. t = bgeobserveerd / SEb
In de sociale wetenschappen wil men graag de bevindingen kunnen generaliseren naar een hele populatie. Hiervoor moet aan alle assumpties voor regressieanalyse zijn voldaan: meetfouten moeten onafhankelijk zijn, er moet sprake zijn van lineariteit en optelbaarheid, er moet sprake zijn van Homoscedasticiteit, meetfouten moeten normaal verdeeld zijn, voorspellers moeten ongecorreleerd zijn, alle voorspellervariabelen moeten kwantitatief of zijn, de uitkomstvariabele moet kwantitatief, continu en onbegrensd zijn, er mag geen sprake zijn van perfecte multicollineariteit en er mag geen sprake zijn van een variantie van 0.
Multiple regressie gebruikt meerdere voorspellers, het selecteren van voorspellers kan met verschillende methoden: hiërarchische methode (blockwise entry), gedwongen methode (forced entry of enter) of de stapsgewijze methodes (stepwise).
Er is sprake van multicollineariteit als twee of meer voorspellers in een regressiemodel sterk met elkaar correleren.
9. Vergelijken van twee gemiddelden
Onderzoek waarbij twee groepen met twee gemiddelden worden vergeleken kun je doen door twee groepen participanten bloot te stellen aan verschillende manipulaties of door een groep participanten meerdere malen bloot te stellen aan de verschillende manipulaties.
Je kan een t-toets gebruiken om te kijken of het verschil tussen de groepsgemiddelden significant afwijkt van 0. Dan is er een significant verschil tussen de twee groepsgemiddelden.
Een onafhankelijke t-toets wordt gebruikt bij twee verschillende experimentele condities waarbij verschillende proefpersonen bij een conditie worden geplaatst. De afhankelijke t-toets wordt gebruikt bij twee experimentele condities waarbij dezelfde proefpersonen deelnemen in beide condities.
De wet van de variantiesom zegt dat de variantie van het verschil tussen twee onafhankelijke variabelen gelijk is aan de som van de varianties.
De standaard meetfout van verschillen is de standaardafwijking van de steekproefverdeling. Gelijke gemiddelden betekent dus een kleine standaard meetfout.
De schatting van de systematische variantie laat het experimentele effect zien. Als het gemiddelde verschil tussen de steekproeven en populatie groot is en de standaard meetfout klein, kunnen we zeggen dat het niet door toeval komt.
Als de experimentele conditie een effect heeft, verwachten we dus dat de systematische variantie groter is dan de niet-systematische variantie.
T-toetsen zijn gebaseerd op de assumpties en een normaalverdeling. Bij afhankelijke t-toets moeten de verschillen tussen scores normaal verdeeld zijn, niet de scores zelf.
Levene’s test wordt gebruikt om te kijken of de varianties verschillend zijn en er geen homoscedasticiteit is.
Cohen’s d wordt heeft soms de voorkeur als maat voor effectgrootte, omdat die een effectgrootte heeft die onafhankelijk is van het design.
Bij een herhaalde metingen design vind je eerder een significant effect omdat de niet-systematische variantie een stuk kleiner is dan bij een tussengroepdesign.
10. Moderatie, mediatie en nog meer regressie
Een moderator beïnvloedt de relatie tussen een predictor en de uitkomst.
Uitkomst = (b0+b1predictor+b2moderator+b3interactie)+errorModeratie is een significante interactie tussen de twee variabelen. Je weet alleen daarmee nog niet precies wat het effect van de moderator is. daarvoor voer je een eenvoudige richtingscoëfficiënten analyse (simple slopes analysis) uit.
Je spreekt van mediatie als de relatie tussen een predictorvariabele en de uitkomst (c) verklaard wordt door de relatie met een derde variabele, de mediator. De predictor voorspelt dan de mediator, en de mediator voorspelt de uitkomst.
Bij mediatie heb je een direct effect, de relatie tussen de predictor en de uitkomst, terwijl je controleert voor de mediator, en je hebt een indirect effect, het effect van de predictor op de uitkomst via de mediator.
Mediatie is gebaseerd op drie regressiemodellen:
Een regressie die de uitkomst voorspelt vanuit de predictor. De regressiecoëfficiënt geeft ons de waarde van c.
Een regressie die de mediator voorspelt vanuit de predictor. Dit geeft a in het schema op pagina 408.
Een regressie die de uitkomst voorspelt vanuit zowel de predictor als de mediator. De regressiecoëfficiënt voor de predictor is c’, de regressiecoëfficiënt voor de mediator is b.
Deze modellen testen de vier condities van mediatie, namelijk:
De predictorvariabele moet de uitkomst significant voorspellen.
De predictor moet de mediator significant voorspellen.
De mediator moet de uitkomst significant voorspellen.
De predictor moet de uitkomstvariabele minder sterk voorspellen in het derde model dan in het eerste model.
Dummy variabelen zijn meerdere variabelen die met alleen nullen en enen gecodeerd zijn.
Tel het aantal groepen dat je wil coderen, en doe dat aantal min 1.
Maak net zoveel nieuwe variabelen als wat je geteld hebt in stap 1.
Kies een groep als basisgroep, waarmee je de andere groepen vergelijkt. Dit is meestal de controlegroep of de groep die de meerderheid vertegenwoordigt.
Zodra je de basisgroep hebt, ken je die groep de waarde 0 toe bij elke dummy variabele.
Bij de eerste dummy variabele codeer je de eerste groep die je met de basisgroep wil vergelijken met een 1, en alle andere groepen een 0.
Bij de tweede dummy variabele codeer je een 1 bij de tweede groep die je met de basisgroep wil vergelijken, en bij alle andere groepen een 0.
Herhaal dit tot je het bij alle dummyvariabelen hebt gecodeerd.
Stop alle dummy variabelen in de regressieanalyse, in hetzelfde block. Hiervoor moet je de Enter methode gebruiken.
Uiteindelijk heeft elke groep bij één dummyvariabele een 1 en bij alle andere variabelen een 0, behalve de basisvariabele, die heeft bij alle dummyvariabelen een 0.
11. Meerdere gemiddelden vergelijken, ANOVA
Analyse van variantie (ANOVA) wordt gebruikt wanneer er situaties zijn waarbij er meer dan twee condities vergeleken worden. De onafhankelijke ANOVA gebruik je als er verschillende proefpersonen in de verschillende condities zijn.
De ANOVA gaat uit van de F-ratio. F = MSM / MSR Wanneer deze ratio lager dan 1 is laat het een niet-significant effect zien.
Om erachter te komen tussen welke gemiddelden het verschil zit, moet je een follow-up test doen bij een significante ANOVA. Er zijn twee methodes die niet zorgen voor een inflatie van de kans op een type I fout: je kunt de variantie in componenten opdelen met geplande vergelijkingen (geplande contrasten) of je kunt ook elke groep met een t-toets vergelijken en dan een strenger significantiecriterium hanteren – dit zijn post hoc vergelijkingen.
Voor ANOVA kunnen we R2 berekenen door SSM te gebruiken. Bij ANOVA wordt het eta squared genoemd. R2 = η2= SSM / SST
Om de effectgrootte voor de populatie in de schatten gebruiken we omega squared.
ω2 = SSM – (dfm)MSR / SST + MSRω2is meestal accurater dan R2. Het is echter vaak interessanter om de kijken naar de effectgrootte van de contrasten. rcontrast =√(t2 / t2 + df)
12. ANCOVA
De regressievergelijking van een ANOVA kan worden uitgebreid met continue variabelen (covariaten) die de uitkomstvariabele ook voorspellen, we noemen het dan ANCOVA in plaats van ANOVA.
Er zijn twee redenen om covariaten in de ANOVA mee te nemen: Het verminderen errorvariantie binnen de groepen en het elimineren van vertekeningen.
Er is een aantal regels voor ANCOVA: Ten eerste moet de covariaat onafhankelijk zijn van het experimentele effect en ten de homogeniteit van de regressiehellingen.
Bij ANCOVA kunnen we voor elk effect een η2 uitrekenen. De partiële η2 kan ook uitgerekend worden, die kijkt naar de proportie variantie die een variabele verklaart, dat niet verklaard wordt door de andere variabelen in de analyse. Η2 = SSEffect / SSTotaal Gedeelde η2 = SSEffect / SSEffect + SSResidu
ω2 kan ook gebruikt worden, maar alleen bij gelijke groepsgroottes.
Met een t-toets kan de effectgrootte van de contrasten berekend worden: rcontrast = √(t2 / t2 + df)
13. Factor ANOVA
Er zijn drie soorten factor ANOVA designs mogelijk: onafhankelijke factoren, herhaalde metingen factoren, gemixt design.
Een tweeweg ANOVA betekent dat de analyse twee onafhankelijke variabelen bevat.
Uitkomst = (b0 + b1 onafhankelijke variabele1 + b2 onafhankelijke variabele2 + b3 interactie) + errorBij een tweeweg ANOVA wordt de modelsom in tweeën gesplitst, omdat de effecten van twee onafhankelijke variabelen komen. We noemen dit SSAen SSB. Ook komt er een interactie bij kijken, die we SSAxB noemen.
De totale kwadratensom wordt als volgt berekend: SST = s2groot (N-1)
Voor de modelsom berekenen we eerst de totale modelsom: SSM = Σnk(xk – xgrand)2
Voor de modelsom van de eerste onafhankelijke variabele (variabele A), sorteer je de deelnemers op basis van die variabele. SSA = Σnk(xk – xgrand)2. Voor variabele B werkt dit op dezelfde manier.
De interactie bereken je met SSAxB = SSM – SSA – SSB
De residuensom bereken je dan als volgt SSR = s2groep1(n1-1) + s2groep2(n2-1) + s2groep3(n3-1) + … + s2groepn(nn-1)
Elk effect heeft zijn eigen F-ratio. Om de F-ratio te berekenen hebben we eerst de mean squares (MS) van elk effect nodig. Dit krijg je door de modelsom te delen door het aantal vrijheidsgraden wat erbij hoort.
FA = MSA / MSRFB = MSB / MSR
FAxB =MSAxB / MSR
Voor de effectgrootte kunnen we het beste ω2 gebruiken. Dit kunnen we berekenen door eerst de variantie van elk effect en de meetfout uit te rekenen. Dit kan met de volgende formules:
σα = (a – 1)(MSA – MSR) / nab
σαxβ = (a – 1)(b – 1)(MSAxB – MSR) / nab
a is het aantal niveaus in de eerste onafhankelijke variabele, b is het aantal niveaus in de tweede onafhankelijke variabele en n is het aantal proefpersonen per conditie. Voor de effectgroottes hebben we ook de totale variantie nodig. σ2totaal = σα2 + σβ2 + σαxβ2 + MSR
Met deze gegevens kan de effectgrootte berekend worden: ω2effect = σ2effect / σ2totaal
De effectgrootte kan ook met de simpele effecten analyse uitgerekend worden. Dit Deze effecten hebben 1 vrijheidsgraad voor het model, wat betekent dat ze twee dingen vergelijken. Hierbij kan F naar r worden omgezet: r = √F(1,dfR) / F(1,dfR) + dfR
14. Herhaalde metingen
Bij herhaalde metingen worden er bij verschillende condities in een experiment dezelfde proefpersonen gebruikt of waarbij dezelfde proefpersonen op verschillende momenten data leveren. Een nadeel van een herhaalde metingen design is dat er niet voldaan kan worden aan de assumptie dat de verschillende condities onafhankelijk zijn.
In plaats van onafhankelijkheid is er de assumptie van sfericiteit (sphericity). Dit houdt in dat de relatie tussen paren van experimentele condities gelijk is, de afhankelijkheid tussen experimentele condities is ongeveer gelijk.
Wanneer niet aan de assumptie van sfericiteit is voldaan kan je met SPSS een aantal correcties maken: Greenhouse-Geisser correctie, Huynh-Feldt correctie of MANOVA.
De totale variantie bij herhaalde metingen ANOVA is opgedeeld in variantie tussen participanten (SSB) en de variantie binnen participanten (SSW). De variantie binnen participanten is weer opgedeeld in het effect van het experiment (SSM) en de residuvariantie (SSR).
SSW = s2persoon1 (n1-1) + s2persoon2 (n2-1) + s2persoon3 (n3-1) + …+ s2persoon n (nn-1)
SSM = Σnk(x̅k - x̅grand)2
SSR = SSW – SSM
Het gemiddelde van de kwadratensommen (Mean Squares) berekenen we om de bias van de steekproefgrootte te verwijderen. MSM = SSM / dfMMSR = SSR / dfR F = MSM / MSR
Bij het rapporten van herhaalde metingen worden dezelfde gegevens vermeld als bij een onafhankelijke ANOVA. Bij herhaalde metingen moeten het aantal gecorrigeerde vrijheidsgraden ook vermeld worden als niet aan de assumptie van sfericiteit voldaan is. De multivariate testen kunnen ook vermeld worden.
15. Gemixt design ANOVA
Bij een gemixt ontwerp zijn er zowel herhaalde metingen variabelen als variabelen met onafhankelijke groepen.
Omdat je bij dit design zowel onafhankelijk groepen als herhaalde metingen hebt, gelden de assumpties van deze beide designs.
Als er niet voldaan wordt aan de voorwaarde van sfericiteit, kunnen gewoon de correcties worden gebruikt.
Er is voor een gemixt ontwerp geen niet-parametrische test uit te voeren. Ook is er geen bootstrap mogelijk. Met het programma R kunnen wel robuuste methodes gebruikt worden.
Voor gemixte ontwerpen is het lastig om één effectgrootte te berekenen. Het is simpeler om alleen de effectgroottes voor contrasten en voor hoofdeffecten die twee groepen vergelijken de effectgrootte uit te rekenen. Dit kan met: r = √F(1,dfR) / F(1,dfR) + dfR
Rapporteren van resultaten: bij een gemixt ontwerp heb je veel informatie die vermeld kan worden, zoals hoofdeffecten, interacties en contrasten.
16. MANOVA
Multivariate variantieanalyse (MANOVA) kan gebruikt worden in een situatie waarin je meerdere afhankelijke variabelen hebt.
Bij MANOVA wordt de systematische variantie vergeleken met de niet-systematische variantie van meerdere afhankelijke variabelen. De systematische en niet-systematische variantie is bij MANOVA niet een enkel getal, maar wordt in een matrix met veel varianties en covarianties weergegeven.
De matrix dat de systematische variantie laat zien heet de hypothese kwadratensom en kruisproducten matrix (hypothese SSCP). Deze matrix wordt aangeduid met de letter H.
De matrix dat de niet-systematische variantie laat zien wordt de meetfout kwadratensom en kruisproducten matrix (Meetfout SCCP) genoemd. Deze matrix wordt aangeduid met de letter E.
Er is ook nog een matrix die de totale variantie voor elke afhankelijke variabele weergeeft. Deze matrix heet de totale kwadratensom en kruisproducten matrix (totaal SCCP) en wordt aangeduid met de letter T.
T = H + E
Bij een ANOVA delen we de systematische variantie door de niet-systematische variantie. Het probleem bij MANOVA is dat matrices niet deelbaar zijn door andere matrices. Op een omgekeerde manier kan het wel gedeeld worden. Als we H door E willen delen, dan moet H vermenigvuldigt worden met het omgekeerde van E (E-1). Er ontstaat dan een nieuwe matrix dat HE-1 wordt genoemd.
Assumpties bij MANOVA: onafhankelijkheid, random steekproef, multivariate normaliteit en homogeniteit van de covariantie matrices.
Er is geen niet-parametrische vervanger voor MANOVA.
Het rapporteren van MANOVA is hetzelfde als bij ANOVA. Vermeld de teststatistiek, de F-waarde, het aantal vrijheidsgraden en de significantie.
17. Factor analyse
Bij factoranalyse en principal component analyse (PCA) identificeer je clusters van variabelen. De data worden tot een aantal dimensies gereduceerd.
Bij factoranalyse wordt de maximale gedeelde variantie in een correlatiematrix verklaard door het kleinst mogelijke aantal factoren, bij PCA wordt gekeken naar de maximale totale variantie die verklaard wordt in een correlatiematrix door lineaire componenten.
Als je factoren in een grafiek zet kijk je ook naar de correlaties. De coördinaat van een variabele op een as wordt de factorlading genoemd. Factorlading is de correlatie tussen de factor en de variabele.
Bij factoranalyse is wel een errorterm, aangezien er gekeken wordt naar de gemiddelden van variabelen, plus de score van iemand op de gemeenschappelijke factoren, plus de scores op de unieke factoren.
De regressiemethode is een ingewikkelde techniek om de factorscores te berekenen door middel van de coëfficiënten van de factorscores. De factorladingen worden aangepast en er wordt rekening gehouden met de correlaties tussen de variabelen.
Twee andere methoden zijn de Bartlett methode en de Anderson-Rubin methode. De eerste methode geeft scores die geen bias hebben en correleren met de eigen factor, de tweede methode produceert factorscores die niet gecorreleerd en gestandaardiseerd zijn.
Bij het kiezen van een methode voor het vinden van factoren houd je rekening met of je je bevindingen wilt generaliseren naar een populatie en of je de gegevens wil verkennen of een specifieke hypothese wil toetsen.
Communaliteit, ofwel de proportie gemeenschappelijke variantie is van belang bij factoranalyse.
Bij PCA vindt eerst extractie plaats (bepalen hoeveel factoren je behoudt). Na het bepalen van de factoren bereken je de lading van de variabelen op een factor. Hier moet je soms voor roteren.
Orthogonale rotatie laat de factoren ongecorreleerd, oblique rotatie laat de factoren laat de factoren wel correleren.
De Kaiser-Meyer-Olkin measure of sampling adequacy is de ratio van de gekwadrateerde correlatie tussen variabelen en de gekwadrateerde partiële correlatie tussen variabelen. Als de waarde dicht bij 1 ligt, is de factoranalyse geschikt en betrouwbaar.
De eerste stap in extractie van de factoren is het berekenen van de eigenwaardes van de R-matrix.
Om te kijken of de factoranalyse betrouwbaar is, kun je de split-half betrouwbaarheidstest gebruiken, die de schaal random splitst in twee sets van items. Als de correlatie tussen de twee helften hoog is, is de schaal betrouwbaar.
Cronbach’s alpha is een methode waarbij de betrouwbaarheid wordt gemeten door alle mogelijke split-half sets van items te berekenen en de correlatiecoëfficiënt van elke splitsing te berekenen. Het gemiddelde van deze mogelijke split-halfs is Cronbach’s alpha. Als je omgekeerde vragen hebt, kan Cronbach’s alpha anders uitkomen. Je moet dan de vragen ompolen en andersom coderen.
Intraclass correlatie coëfficiënt (ICC) meet de relatie tussen twee variabelen die hetzelfde meten.
18. Categorische gegevens
Bij categorische data bestaat de uitkomstvariabele uit verschillende categorieën, zoals zwanger of niet zwanger.
Met Pearson’s chi-square test kan gekeken worden of er een verband is tussen twee categorische variabelen. De test vergelijkt de geobserveerde frequenties in de categorieën met de frequenties die je in die categorieën zou verwachten op basis van toeval.
Bij kleine steekproeven kun je Fisher’s exact test gebruiken om de exacte p-waarde van de chi-square statistiek te berekenen. Dit is niet nodig bij grote steekproeven.
De likelihood ratio betekent dat je een model creëert waarbij de kans om de geobserveerde data te verkrijgen maximaal is, en je dit model vergelijkt met de kans om de geobserveerde data te verkrijgen als de nulhypothese waar is.
Yates’s continuïteitscorrectie is een correctie op de formule van Pearson en zorgt voor minder kans op een type I fout.
Een analyse voor wanneer je meer dan twee categorische variabelen hebt heet een loglineaire analyse.
Als de standaardafwijkingen allemaal 0 zijn, verklaren de gecodeerde variabelen de geobserveerde variabelen volledig en is er sprake van een verzadigd model.
Loglineaire analyse begint bij het verzadigde model. Als het eenvoudigere model niet erg verschilt van de complexe, behoud je het eenvoudige nieuwe model.
De eerste assumptie van chi-square is onafhankelijkheid. Dit houdt in dat elke persoon slechts in één cel van de contingency tabel kan voorkomen. Je kan niet in meerdere categorieën vallen.
De tweede assumptie is dat bij een 2x2 contingency tabel de verwachte frequenties in elke cel groter dan 5 moeten zijn.
Bij loglineaire analyse heb je vier opties bij het schenden van de assumpties: het laten vervallen van een variabele, het laten vervallen van één van de categorieën, meer data verzamelen of het accepteren van powerverlies.
Bij de chi-square wordt de statistiek, de significantie en het aantal vrijheidsgraden vermeld. Ook wordt de contingency tabel vaak weergegeven.
Bij loglineaire analyse vermeld je de likelihood ratio statistiek, verandering van de chi-square en eventueel z-scores met bijbehorende betrouwbaarheidsintervallen.
19. Logistische regressie
Logistische regressie is multipele regressie waarbij de uitkomstvariabele categorisch is, en de predictorvariabelen continu of categorisch zijn. Het voorspelt in welke categorie personen vallen op basis van andere informatie.
Bij twee categorieën heet het binaire logistische regressie en bij meerdere categorieën heet het multinomiale logistische regressie.
Er kan geen normale regressieanalyse gebruikt worden omdat er geen lineaire relatie is. Door een logaritmische transformatie wordt de relatie alsnog lineair.
De R-statistiek is de partiële correlatie tussen de uitkomstvariabele en elk van de voorspellervariabelen. De statistiek kan variëren tussen de -1 en 1.
Om de contributie van de voorspellers aan het model te bepalen, wordt in logistische regressie de z-statistiek gebruikt, die een normale verdeling heeft. De z-statistiek heet de Wald statistiek.
De odds ratio geeft de verandering in kans weer die komt door de verandering in de predictor.
Onderdrukkende effecten komen voor wanneer een voorspeller een significant effect heeft maar alleen wanneer een andere variabele constant wordt gehouden.
Streven naar parsimonie betekent dat een eenvoudige verklaring van een fenomeen te verkiezen is boven een ingewikkelde verklaring.
Assumpties voor logistische regressie zijn dat er sprake moet zijn van een lineaire relatie tussen de continue voorspellers en de logit van de uitkomstvariabele en dat er sprake moet zijn van onafhankelijkheid van de meetfouten.
Complete scheiding ontstaat als de uitkomstvariabele perfect wordt voorspeld door een voorspeller of een combinatie van voorspellers.
Er is sprake van overspreiding wanneer de geobserveerde variabele groter is dan de verwachte variabele uit een logistisch regressiemodel.
Logistische regressie rapporteer je door de b-waardes, de standaard meetfouten en de significantie te noemen.
Voor het testen van de assumpties van lineairiteit voer je de logistische regressieanalyse opnieuw uit, maar dan voeg je predictors toe die de interactie zijn van elke predictor en de log van zichzelf.
Om multicollineariteit te testen moet je alsnog de lineaire regressieanalyse gebruiken. Er is geen echte oplossing voor het schenden van deze assumptie.
Bij multinomiale logistische regressie gebruik je logistische regressie om groepslidmaatschap van meer dan twee categorieën te voorspellen.
20. Multilevel lineaire modellen
De voordelen van multilevel lineaire modellen zijn dat het gebruikt kan worden om variatie tussen richtingscoëfficiënten te meten, dat de gegevens niet te hoeven voldoen aan de assumptie van onafhankelijkheid, en dat het model goed te gebruiken is als er missende waarden zijn.
Een vast effect is een effect waarbij alle mogelijke condities waarin een onderzoeker geïnteresseerd is aanwezig zijn in het experiment. Een random effect is wanneer het experiment alleen een random steekproef van mogelijke condities bevat.
Bij multilevel modellen wordt dan ook onderscheid gemaakt tussen vaste coëfficiënten en random coëfficiënten.
Als je random slopes, ofwel richtingscoëfficiënten hebt, is er vaak ook sprake van random intercept. Die twee gaan dus meestal samen.
Het model voor een multilevel lineair model ziet er hetzelfde uit als een model voor regressie, behalve dat bij regressie een vaste intercept en regressiecoëfficiënt is.
Het is aan te raden om te beginnen met een model met alleen vaste parameters en random coëfficiënten toe te voegen als dat nodig is. Zo vergelijk je de fit van het nieuwe model met het basismodel.
De vier covariantiestructuren zijn de variantiecomponenten structuur, de diagonale structuur, de AR(1) en de ongestructureerde structuur.
Naast de gebruikelijke assumpties geldt voor een multilevel model ook dat de random intercepts en slopes normaal verdeeld moeten zijn over het model.
Het centreren van een variabele is de variabele transformeren naar deviaties vanaf een vast punt, meestal het gemiddelde of groepsgemiddelde.
Bij een groeimodel is het doel om te kijken naar de verandering van een variabele over tijd. Polynomials zijn groeicurven, ofwel lijnen met een trend.
Belangrijk bij groeicurven is dat je polynominals kunt toepassen tot één minder dan het aantal tijdspunten dat je hebt, en dat een polynominal een simpele machtsfunctie is.
Voor het rapporteren van een multilevel model zijn geen vaste richtlijnen, omdat ze veel verschillende vormen kunnen aannemen.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Samenvattingen bij Discovering statistics using IBM SPSS Statistics van Field
Discovering Statistics using IBM SPSS Statistics - Samenvattingen - Field
- Summary of Discovering statistics using IBM SPSS statistics by Andy Field - 5th edition
- Samenvatting Discovering statistics using IBM SPSS Statistics van Field - 4e druk
- Discovering statistics using SPSS - Field - 5e druk - Oefenmateriaal
- Discovering statistics using IBM SPSS Statistics van Field - 4e druk - Oefenvragen - ARMS - Custom
- Discovering statistics using IBM SPSS Statistics van Field - 4e druk - BulletPoints
Contributions: posts
Spotlight: topics
Samenvattingen bij Discovering statistics using IBM SPSS Statistics van Field
Boeksamenvatting (in pdf per hoofdstuk), BulletPoints en oefenvragen bij de 4e druk van het boek Discovering Statistics using IBM SPSS Statistics van Field.
Discovering Statistics using IBM SPSS Statistics - Samenvattingen - Field
Deze bundel bevat samenvattingen en ander relevant studiemateriaal dat te gebruiken is bij het boek Discovering Statistics using IBM SPSS Statistics van Field
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the summaries home pages for your study or field of study
- Use the check and search pages for summaries and study aids by field of study, subject or faculty
- Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
- Check or follow authors or other WorldSupporters
- Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Main summaries home pages:
- Business organization and economics - Communication and marketing -International relations and international organizations - IT, logistics and technology - Law and administration - Leisure, sports and tourism - Medicine and healthcare - Pedagogy and educational science - Psychology and behavioral sciences - Society, culture and arts - Statistics and research
- Summaries: the best textbooks summarized per field of study
- Summaries: the best scientific articles summarized per field of study
- Summaries: the best definitions, descriptions and lists of terms per field of study
- Exams: home page for exams, exam tips and study tips
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
- Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
- Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
3866 | 1 |
Add new contribution