Discovering statistics using IBM SPSS Statistics van Field - 4e druk - Oefenvragen

1. Waarom dwingt mijn duivelse docent me tot statistiek?

Waar zijn kwalitatieve methoden van onderzoek op gebaseerd?
Wanneer is er sprake van falsificatie?
Wat is de afhankelijke variabele?
Wat is een continue variabele?
Wat betekent validiteit?
Wanneer is een onderzoek betrouwbaar?
Wat is het verschil tussen correlationeel en experimenteel onderzoek?
Aan welke drie voorwaarden moet een oorzakelijk verband volgens Hume voldoen?
Wat is het verschil tussen niet-systematische en systematische variatie?
Hoe ziet een normale verdeling eruit?
Welke methodes kunnen gebruikt worden om het centrum van de frequentieverdeling te vinden?
Welke scores heb je nodig om de verspreiding van scores te berekenen?
Hoe bereken je de standaardafwijking?
Wat geeft een z-score aan?

2. Alles wat je absoluut niet wilde weten over statistiek

Op welke formule zijn alle statistische modellen gebaseerd?
Wat is het verschil tussen variabelen en parameters?
Wat wordt bedoeld met dat het gemiddelde een hypothetische waarde heeft?
Hoe bepaal je de variantie?
Wat is de method of least squares?
Waarvoor wordt de steekproefverdeling gebruikt?
Wat is het betrouwbaarheidsinterval?
Hoe bepaal je de grenzen van het betrouwbaarheidsinterval?
Wat is de regel van Fisher?
Wat is het verschil tussen de nulhypothese en de alternatieve hypothese?
Wat is het stappenplan bij een nulhypothese significantie toets?
Wat moet je doen om te kijken of de hypothese een goede verklaring is voor de gegevens?
Wat is het verschil tussen een eenzijdige en een tweezijdige toets?
Wat is het verschil tussen een type 1 en een type 2 fout?
Wat is de power van een test?
Op welke twee manieren kun je de effectgrootte berekenen?

3. De SPSS omgeving

Wat kun je doen in de data editor?
Wat is het verschil tussen de data view en de variable view?
Wat doe je als je een variabele codeert?
Wat zijn de drie opties bij het opgeven van missing data?
Wat zie je op het output scherm van SPSS?
Waarom is het handig om ook smartreader te installeren?
Wat is de SPSS-syntax?

4. De gegevens verkennen met grafieken

Wat is chartjunk?
Hoe kun je in SPSS grafieken maken?
Wat is het verschil tussen een simple en stacked histogram?
Wat is een population pyramid?
Wat zijn de drie verschillende soorten boxplots?
Wat is de meest gebruikelijke manier om gemiddelden weer te geven?
Wat is het verschil tussen lijngrafieken en staafdiagrammen?
Wat is het verschil tussen een simple line en een multiple line?
Waar is een scatterplot goed voor?
Waarom is de regressielijn belangrijk bij het scatterplot?
Hoe maak je een grafiek op in SPSS?

5. Het bias beest

Waar kan bias voorkomen?
Wat zijn de vier grote assumpties voor parametrische toetsen?
Waarom zijn uitschieters een belangrijke bron van bias?
Waarom is de aanname van lineariteit zeer belangrijk?
Waar heeft normaliteit allemaal invloed op?
Wat zegt de centrale limiet stelling?
Wat betekent homoscedasticiteit?
Wat is een voorbeeld van niet voldoen aan de assumptie van onafhankelijkheid?
Wat laat een P-P plot zien?
Waar kun je bij een kleine steekproef naar kijken om bias te onderzoeken?
Wat vergelijkt de K-S test?
Wat is het verschil tussen een Q-Q plot en een P-P plot?
Hoe kun je de assumpties van homoscedasticiteit en lineariteit tegelijk bekijken?
Waarvoor wordt Levene’s test gebruikt?
Wat kun je doen om bias te verminderen?
Op welke manieren kun je trimmen?
Wat zijn robuuste methodes?
Wat houdt data transformeren in?

6. Niet-parametrische testen

Wanneer wordt een niet-parametrische test gebruikt?
Welke testen worden gebruikt als alternatief voor de onafhankelijke t-toetsen?
Hoe vind je deze testen in SPSS?
Wat laat het tweede deel van de output van de niet-parametrische onafhankelijke t-toets zien?
Waarom is het handig om ook de effectgrootte te berekenen?
Wat is de niet-parametrische variant van de afhankelijke t-toets?
Wat is de niet-parametrische variant van de eenweg onafhankelijke ANOVA?
Wat gebeurt er bij de K-W test?
Wat zijn de twee manieren voor een follow-up analyse?
Waar kijkt de Jonckhere-Terpstra test naar?
Waarvoor kan Friedman’s ANOVA worden gebruikt?
Wat moet er gerapporteerd worden bij niet-parametrische tests?

7. De correlatie

Wat houdt een positieve relatie tussen twee variabelen in?
Wat geeft de covariantie aan?
Wat is Pearson correlatie coëfficiënt?
Wat is een bivariate correlatie?
Hoe onderzoek je de significantie van r?
Wat is een bootstrap betrouwbaarheidsinterval?
Waarom is er bij correlatie niet automatisch sprake van causaliteit?
Wat is het coëfficiënt van determinatie?
Wat is Spearman correlatie coëfficiënt?
Wanneer gebruik je Kendall’s tau?
Wanneer gebruik je de biseriële correlatie coëfficiënt?
Wat is de partiële correlatie?
Wat is het verschil tussen semi-partiële correlatie en partiële correlatie?
Wat gebruik je om correlaties te vergelijken?
Wat moet je doen om de effectgrootte te berekenen?

8. Regressie

Wat wil je analyseren als je een regressieanalyse uitvoert?
Is bij regressie het model lineair of juist niet?
Wat zijn residuen?
Wat is R²?
Heeft een goed model een hoge F-ratio of juist een lage?
Wat betekent een regressiecoëfficiënt van 0?
Als je een voorspelling hebt over de belangrijkheid van de predictoren, welke invoermethode gebruik je dan in SPSS?
Wat is een probleem bij de forwardmethode van invoer?
Wat is een probleem bij de stapsgewijze invoer?
Wat is een uitschieter?
Hoe bekijk je of er een uitschieter is in de x-ruimte? In de y-ruimte? In de xy-ruimte?
Waaraan moeten de meetniveaus van een regressieanalyse voldoen?
Wat is multicollineariteit? En welke drie problemen ontstaan er bij vergrote multicollineariteit?
Wat is homoscedasticiteit?
Wat test je met de Durbin-Watson test?
Wat is crossvalidatie? En door middel van welke twee methodes kan dit?
Wat geeft het betrouwbaarheidsinterval aan?
Wat is verklaarde variantie?
Wat zijn dummy variabelen?
Wat doet een mediërende variabele?
Wat is een modererend effect?

9. Vergelijken van twee gemiddelden

Wat zijn de manieren om twee groepen met twee gemiddelden te vergelijken?
Waarvoor gebruik je een t-toets?
Wanneer gebruik je de afhankelijke t-toets?
Wat zegt de wet van de variantiesom?
Wat is de standaard meetfout?
Wanneer komt een effect niet door toeval?
Is de systematische variantie groter of kleiner dan de niet-systematische variantie als een experimentele conditie een effect heeft?
Welke scores moeten bij een afhankelijke t-toets normaal verdeeld zijn?
Waarvoor wordt Levene’s test gebruikt?
Waarom heeft Cohen’s d soms de voorkeur als maat voor effectgrootte?
Waarom vind je bij herhaalde metingen design eerder een significant effect?

10. Moderatie, mediatie en nog meer regressie

Wat beïnvloedt de moderator?
Wat betekent centreren?
Wat moet je doen om het effect van de moderator te vinden?
Wanneer spreek je van mediatie?
Waarom heb je bij mediatie een direct en een indirect effect?
Op welke drie regressiemodellen is mediatie gebaseerd?
Hoe kun je de effectgrootte berekenen bij mediatie?
Wat zijn dummy variabelen?

11. Meerdere gemiddelden vergelijken, ANOVA

Wanneer voer je een ANOVA uit?
Waarom worden hiervoor geen t-testen gebruikt?
Wat zijn contrasts?
Wat betekend het als de F-ratio significant is?
Wat is een type I fout?
Wat is een type II fout?
Wat is de power van een test?
Welke procedures gebruik je om te kijken welke groepen daadwerkelijk van elkaar verschillen?
Welke test voer je uit als assumpties worden geschonden en ANOVA niet kan worden uitgevoerd?
Wat is een Type 1 fout?
Hoeveel is de Type 1 fout als drie testen door een t-test met elkaar vergeleken worden?

12. ANCOVA

Wanneer voer je een ANCOVA uit?
Wat zijn covariaten?
Wat zijn de twee redenen om een covariaat mee te nemen in de analyse?
ANCOVA heeft dezelfde assumpties als ANOVA maar wat zijn de twee bijvoegingen?
Bij ANCOVA hebben we de partial eta squared, wat is dit?
Wat is de assumptie van homogeniteit van regressiecoëfficiënten?
Wanneer kan de omega squared gebruikt worden bij ANCOVA?
Waarmee kan bij ANCOVA de de effectgrootte van de contrasten berekend worden?

13. Factor ANOVA

Wanneer voer je een factoriële ANOVA uit?
Wat is een andere naam voor een factoriële ANOVA?
Welke drie soorten factoriële designs zijn er?
Wat is het verschil tussen deze designs?
Wat laat de residuensom zien?
Gelden voor de factor ANOVA dezelfde assumpties als de andere lineaire modellen?
Op welke manier berekend SPSS de effectgrootte en op welke twee andere manieren kan de effectgrootte berekend worden?
Hoe moeten de effecten gerapporteerd worden?

14. Herhaalde metingen

Wat houdt een repeated measures design in?
Welke assumptie wordt hier alleen mee geschonden?
Wat is sfericiteit? Welke test in SPSS gebruik je om deze assumptie te checken?
Uit het effect van dit design zich in de binnengroep of tussengroepsvariantie
Wat is een nadeel van herhaalde metingen?
1. Er kan niet voldaan worden aan de aanname dat de verschillende groepen onafhankelijk zijn.
2. Er kan niet voldaan worden aan de aanname dat de verschillende condities onafhankelijk zijn.
3. Er kan niet voldaan worden aan de aanname dat de verschillende groepen afhankelijk zijn.
4. Er kan niet voldaan worden aan de aanname dat de verschillende groepen afhankelijk zijn.
Welke aanname bij herhaalde metingen wordt gemaakt door het verval van de aanname die gesteld wordt in vraag 1?
1. De aanname van samengestelde symmetrie.
2. De aanname van sphericity.
3. De aanname van normaliteit.
4. De aanname van homogeniteit.
Welke test in SPSS toetst of de varianties tussen de paren van condities (aanname van sphericity) gelijk is?
1. De Greenhouse-Geisser test.
2. De Pillai-Bartlett test.
3. De Mauchly’s test.
4. De Huynh-Feldt test.
Welke opties zijn er wanneer er niet wordt voldaan aan de aanname van sphericity?
1. Het uitvoeren van een MANOVA.
2. Het uitvoeren van een Greenhouse-Geisser correctie.
3. Het uitvoeren van een Huynh-Feldt correctie.
4. Het uitvoeren van een ANCOVA.
Welke stelling is juist?
Voor herhaalde metingen kan de effectgrootte ω² gebruikt worden, deze kan op dezelfde manier berekend worden als bij de onafhankelijke ANOVA.
Het berekenen van de totale variantie (SSt) gaat bij herhaalde metingen op dezelfde manier als bij een één-weg onafhankelijke ANOVA.
1. Stelling 1 en 2 zijn juist.
2. Stelling 1 is juist, stelling 2 is onjuist.
3. Stelling 1 is onjuist, stelling 2 is juist.
4. Beide stellingen zijn onjuist.

15. Gemixt design ANOVA

Wat houdt een mixed design in?
Wat is een nadeel van een herhaalde meting?
Wat is de assumptie van sfericiteit (sphericity)?
Wat is het verschil tussen sfericiteit en samengestelde symmetrie?
Welke correcties kun je maken als niet aan de assumptie van sfericiteit is voldaan?
Wat is een goede vervanging voor de post hoc toets?
Welke soort effectgrootte meten we bij herhaalde metingen?
Hoe rapporteer je de resultaten van een herhaalde meting?

16. MANOVA

Wat is een MANOVA?
Waarom voeren we een MANOVA uit en geen losse ANOVA’s?
Wat is het voordeel van het uitvoeren van een MANOVA?
Welke aanvullende assumpties gelden er voor de MANOVA?
Wanneer kan er gebruik gemaakt worden van een MANOVA?
1. Als er meerdere onafhankelijke variabelen zijn.
2. Als er meerdere afhankelijke variabelen zijn.
3. Als er grote groepen gebruikt worden.
4. Als er gebruik gemaakt wordt van afhankelijke groepen.
Welke stelling is juist?

1. Het nadeel bij gebruik van meerdere ANOVA’s is een grotere meetfout en een grotere kans op type I fouten.

2. Het nadeel bij gebruik van meerdere ANOVA’s is dat er niet gekeken wordt naar de relatie van de afhankelijke variabelen onderling.

Stelling 1 en 2 zijn juist.
Stelling 1 is juist, stelling 2 is onjuist.
Stelling 1 is onjuist, stelling 2 is juist.
Beide stellingen zijn onjuist.
Wanneer wordt een matrix een identiteitsmatrix genoemd?
1. Als de diagonale componenten samen 0 zijn en de niet-diagonale componenten samen 1 zijn.
2. Als de verticale componenten samen 1 zijn en de niet-verticale componenten samen 0 zijn.
3. Als de verticale componenten samen 0 zijn en de niet-verticale componenten samen 1 zijn.
4. Als de diagonale componenten samen 1 zijn en de niet-diagonale componenten samen 0 zijn.
Wat wordt er bij het berekenen van een MANOVA vergeleken?
1. De systematische meetfout wordt vergeleken met de niet-systematische meetfout van meerdere afhankelijke variabelen.
2. De systematische meetfout wordt vergeleken met de niet-systematische meetfout van de onafhankelijke variabele(n).
3. De systematische variantie wordt vergeleken met de niet-systematische variantie van meerdere afhankelijke variabelen.
4. De systematische variantie wordt vergeleken met de niet-systematische variantie van de onafhankelijke variabele(n).
Welke term hoort bij de volgende definitie: ‘de totale waarde van de meetfouten tussen twee variabelen’?
1. Kwadratensom.
2. Discriminante functie.
3. Kruisproduct.
4. Pillai-Bartlett trace.
Wat is geen kenmerk van een variaat?
1. Het aantal variaten is altijd minder dan het aantal afhankelijke variabelen.
2. De variaten zijn orthogonaal.
3. De variaten zijn gecorreleerd.
4. De variaten zijn ongecorreleerd.
Op welke manier kan geen effectgrootte berekend worden?
1. Pillai-Bartlett trace.
2. Wilks’ lambda.
3. Roy’s largest root.
4. Box’s test.

17. Factor analyse

Een Cronbach’s alfa van .7/.8 of hoger laat altijd betrouwbaarheid zien.
1. Ja
2. Nee
Wat vertelt de kwadraat van een factor lading ons?
Welke onderstaande factor analyses zijn beschrijvende methodes en kunnen niet gegeneraliseerd worden naar de populatie?
1. principal component analysis
2. Image covariance analysis
3. Kaiser’s alfa factoring
4. maximum-likelihood method

18. Categorische gegevens

Wat zijn categorische data?
Wat kun je berekenen met Pearson’s chi-square test?
Wat kun je gebruiken bij kleine steekproeven?
Wat doe je als je kijkt naar de likelihood ratio?
De kans op welke fout vermindert Yates’s continuïteitscorrectie?
Wat is een loglineaire analyse?
Wanneer is er sprake van een verzadigd model?
Wanneer behoud je bij loglineaire analyse het eenvoudige nieuwe model?
Wat houdt de assumptie van onafhankelijkheid in bij chi-square?
Wat is de tweede assumptie van chi-square?
Wat zijn de vier opties als bij loglineaire analyse de assumpties worden geschonden?
Wat rapporteer je bij chi-square?
Wat rapporteer je bij loglineaire analyse?

19. Logistische regressie

Wat is logistische regressie?
Wanneer is er sprake van multinomiale logistische regressie?
Hoe kun je de niet-lineaire relatie toch lineair maken?
Wat is de R-statistiek?
Wat is de Wald statistiek?
Wat geeft de odds ratio weer?
Wanneer komen onderdrukkende effecten voor?
Wat betekent streven naar parsimonie?
Wat is de assumptie van lineairiteit waar aan voldaan moet worden?
Wanneer ontstaat complete scheiding?
Wanneer is er sprake van overspreiding?
Wat rapporteer je bij logistische regressie?
Wat moet je doen om de assumptie van lineairiteit te testen bij logistische regressie?
Hoe kun je multicollineariteit testen?
Wat gebruik je bij multinomiale regressie om groepslidmaatschap van meer dan twee categorieën te voorspellen?

20. Multilevel lineaire modellen

Wat zijn de voordelen van een multilevel lineair model?
Wat is het verschil tussen een vast effect en een random effect?
Waar wordt onderscheid tussen gemaakt bij multilevel modellen?
Wanneer is er meestal ook sprake van een random intercept?
Wat is het verschil tussen een multilevel lineair model en regressie?
Waarom is het aan te raden om te beginnen met een model met alleen vaste parameters en random coëfficiënten toe te voegen als het nodig is?
Wat zijn de vier covariantiestructuren?
Wat is een speciale assumptie voor een multilevel model?
Wat houdt centreren van een variabele in?
Wat zijn polynomials?
Wat is belangrijk bij groeicurven?
Waarom zijn er geen vaste richtlijnen voor het rapporteren van een multilevel model?

Antwoorden

1. Waarom dwingt mijn duivelse docent me tot statistiek?

Kwalitatieve onderzoeksmethoden zijn gebaseerd op taal.
Er is sprake van falsificatie als de verzamelde gegevens de theorie of hypothese tegenspreken.
De afhankelijke variabele is de variabele die gezien wordt als uitkomst.
Een continue variabele is een score die iedere waarde kan aannemen die op de meetschaal wordt gebruikt.
Validiteit is de mate waarin het instrument daadwerkelijk meet wat je wil meten.
Een onderzoek is betrouwbaar wanneer het instrument dezelfde uitkomst geeft bij dezelfde condities.
Het verschil tussen correlationeel en experimenteel onderzoek is dat bij experimenteel onderzoek de variabelen worden gemanipuleerd en bij correlationeel onderzoek niet.
De drie voorwaarden waar een oorzakelijk verband volgens Hume aan moet voldoen zijn dat oorzaak en gevolg elkaar nauw in de tijd opvolgen, dat oorzaak voorafgaat aan het gevolg en dat het gevolg nooit voorkomt zonder dat de oorzaak heeft plaatsgevonden.
Het verschil tussen niet-systematische en systematische variatie is dat systematische variatie verklaard kan worden, en niet-systematische variatie niet.
Een normale verdeling is een belvormige curve met symmetrische helften.
Methodes die gebruikt kunnen worden om het centrum van de frequentieverdeling te vinden zijn de modus, mediaan en het gemiddelde.
Om de verspreiding van scores te berekenen heb je de hoogste en laagste scores nodig.
De standaardafwijking bereken je door het verschil tussen de scores en het gemiddelde te kwadrateren en bij elkaar op te tellen, dit te delen door de steekproefgrootte – 1 en daar de wortel van te nemen.
Een z-score geeft aan hoeveel standaardafwijkingen de score van het gemiddelde ligt.

2. Alles wat je absoluut niet wilde weten over statistiek.

Alle statische modellen zijn gebaseerd op de formule: Uitkomst_i = (model) + error_i.
Het verschil tussen variabelen en parameters is dat parameters geschat worden, en variabelen gemeten.
Dat het gemiddelde een hypothetische waarde heeft, betekent dat het niet daadwerkelijk in de data hoeft voor te komen.
De variantie wordt bepaald door de som van de gekwadrateerde meetfouten te delen door het aantal vrijheidsgraden.
De method of least squares houdt in dat de gekozen parameter altijd degene is die de minste error oplevert.
De steekproefverdeling wordt gebruikt om te kijken hoe representatief een steekproef is voor de populatie.
Het betrouwbaarheidsinterval zijn de grenzen waartussen je denkt dat het werkelijke populatiegemiddelde valt.
De grenzen van het betrouwbaarheidsinterval bepaal je door de bijbehorende z-score te vermenigvuldigen met de standaard error.
De regel van Fisher is dat je pas weet of er een werkelijk effect is, als er slechts een kleine kans is dat het resultaat per toeval wordt bereikt.
Het verschil tussen de nulhypothese en de alternatieve hypothese is dat de nulhypothese uitgaat van geen effect, terwijl de alternatieve hypothese uitgaat van wel een effect.
Het stappenplan bij een nulhypothese significantie toets is dat je kijkt hoeveel variantie de data in het model verklaart. Vervolgens bereken je de p-waarde, kijk je hoe klein die kans is en bepaal je of de nulhypothese wordt verworpen.
Om te kijken of de hypothese een goede verklaring is voor de gegevens, deel je de variantie verklaard door het model door de variantie niet verklaard door het model, oftewel effect door de error.
Het verschil tussen een eenzijdige en tweezijdige toets is dat bij een eenzijdige toets de hypothese een richting voor het effect aangeeft, terwijl dat bij de tweezijdige toets niet het geval is.
Het verschil tussen type 1 en type 2 fout is dat type 1 fout betekent dat er wordt gedacht dat er een effect is in de populatie terwijl dit niet zo is, en type 2 fout betekent dat er wordt gedacht dat er geen effect is in de populatie terwijl dit wel zo is.
De power van een test is de mate waarin hij in staat is een effect te vinden.
Twee manieren om de effectgrootte te berekenen zijn Cohen’s d en Pearsons r.

3. De SPSS omgeving

In de data editor kun je data invoeren en daar statistische berekeningen mee uitvoeren.
Het verschil tussen de data view en de variable view is dat je bij de data view cijfers invoert en bij de variable view kijkt wat voor variabelen gebruikt worden.
Als je een variabele codeert geef je een nummer aan bepaalde groepen.
De drie opties bij het opgeven van missing data zijn dat er geen ontbrekende gegevens zijn, dat er een paar waardes missen en dat de waardes in een bepaald gebied de ontbrekende waardes zijn.
Op het output scherm van SPSS zie je alle grafieken en tabellen en een boomdiagram van alle analyses die je hebt uitgevoerd.
Het is handig om smartreader te installeren omdat je daarmee alle bestanden met oude of juist nieuwe versies van SPSS kan openen.
SPSS-syntax is de taal van opdrachten om statistische analyses en datamanipulaties uit te voeren.

4. De gegevens verkennen met grafieken

Chartjunk is de naam voor de overbodige dingen aan een grafiek.
In SPSS kun je grafieken maken met de chart builder.
Het verschil tussen een simple en stacked histogram is dat een simple histogram de frequenties van een simpele variabele laat zien, terwijl je een stacked histogram gebruikt als je verschillende groepen wil zien.
Een population pyramid zijn twee grafieken met de bodems tegen elkaar, zodat de frequentie in de horizontale as te zien is.
De drie verschillende soorten boxplots zijn simple boxplot, clustered boxplot en 1-D boxplot.
De meest gebruikelijke manier om gemiddelden weer te geven is door gebruik van een staafdiagram.
Het verschil tussen lijngrafieken en staafdiagrammen is dat de informatie bij een lijngrafiek wordt weergegeven door middel van een lijn.
Het verschil tussen een simple line en een multiple line is dat de simple line de gemiddelden van de scores van verschillende groepen laat zien, terwijl een multiple line ook het gemiddelde laat zien van een bepaalde variabele en kan bestaan uit meerdere lijnen voor meerdere variabelen.
Een scatterplot is goed om te kijken naar de relatie tussen twee variabelen.
De regressielijn is belangrijk bij het scatterplot omdat deze lijn de relatie tussen twee variabelen samenvat.
Een grafiek maak je op in SPSS door de chart editor te gebruiken.

5. Het bias beest

Bias kan voorkomen bij de schattingen van de parameters, de standard error en het betrouwbaarheidsinterval, en de test statistieken en p-waarden.
De vier grote assumpties voor parametrische toetsen zijn dat de gegevens normaal verdeeld moeten zijn, dat de varianties van de verschillende groepen ongeveer even groot moeten zijn, dat de variabelen lineair met elkaar samenhangen en dat er sprake is van onafhankelijkheid.
Uitschieters zijn een belangrijke bron van bias, omdat die het gemiddelde enorm omhoog of omlaag kunnen brengen.
De aanname van lineariteit is belangrijk omdat het model niet meer klopt als de variabelen geen lineair verband vertonen.
Normaliteit heeft invloed op de schattingen van parameters, het betrouwbaarheidsinterval, de nulhypothese significantie toetsen en de error.
De centrale limiet stelling zegt dat de verdeling bij grote steekproeven altijd normaal is.
Homoscedasticiteit betekent dat alle groepen een ongeveer gelijke variantie hebben.
Een voorbeeld van het niet voldoen aan de assumptie van onafhankelijkheid is als participanten overleggen tijdens het invullen van een vragenlijst.
Een P-P plot laat de cumulatieve kans van een variabele tegen de cumulatieve kans van een bepaalde verdeling zien.
Bij een kleine steekproef kun je om bias te onderzoeken kijken naar scheefheid en kurtosis.
De K-S test vergelijkt de verdeling van de steekproef met een normaalverdeling met hetzelfde gemiddelde en eenzelfde standaarddeviatie.
Het verschil tussen een Q-Q plot en een P-P plot is dat het Q-Q plot naar kwartielen kijkt en het P-P plot naar individuele scores.
De assumpties van homoscedasticiteit en lineariteit kun je tegelijk bekijken door een scatterplot te gebruiken.
Levene’s test wordt gebruikt om te kijken naar de homogeniteit van varianties.
Om bias te verminderen kun je bepaalde extreme scores verwijderen, uitschieters vervangen door de hoogste score die geen uitschieter is, je data analyseren met robuuste methodes en de data transformeren.
Je kunt trimmen door een participant te verwijderen, op basis van een percentage of op basis van de standaardafwijking.
Robuuste methodes zijn testen die weinig beïnvloed worden door schendingen van assumpties.
Data transformeren houdt in dat je alle data op dezelfde manier omzet in andere scores.

6. Niet-parametrische testen

Een niet-parametrische test wordt gebruikt als er niet aan de assumpties voldaan kan worden.
De testen die gebruikt worden als alternatief voor de onafhankelijke t-toetsen zijn de Wilcoxon rank-sum test en de Mann-Whitney test.
Bij SPSS klik je op analyze – non parametric tests – independent samples.
Het tweede deel van de output laat de test statistieken zien, samen met de z-scores.
Het is handig om ook de effectgrootte te berekenen omdat dit een standaardmaat is. Met de effectgrootte kun je de resultaten vergelijken met andere studies.
De niet-parametrische variant van de afhankelijke t-toets is de Wilcoxon signed-rank test.
De niet-parametrische variant van de eenweg onafhankelijke ANOVA is de Kruskal-Wallis test.
Bij de K-W test wordt eerst een gecodeerde variabele gemaakt van de onafhankelijke variabele. Die kunnen getest worden op normaliteit en homogeniteit. Om naar het verschil tussen groepen te kijken moeten deze assumpties per groep getest worden.
Twee manieren voor een follow-up analyse zijn pairwise comparison en homogeneous subsets.
De Jonckhere-Terpstra test kijkt naar het patroon van de medianen van groepen die je met elkaar wilt vergelijken.
Friedman’s ANOVA kan gebruikt worden wanneer dezelfde proefpersonen in meer dan twee verschillende condities gebruikt zijn.
Bij niet-parametrische tests moeten de chi-square statistiek, het aantal vrijheidsgraden, de significantie en de effectgrootte en medianen van de follow-up tests genoteerd worden.

7. De correlatie

Een positieve relatie houdt in dat een toename in de ene variabele samenhangt met een toename in de andere variabele.
De covariantie geeft aan of variabelen samenhangen en of deze samenhang positief of negatief is.
Pearson correlatie coëfficiënt is de gestandaardiseerde covariantie, die ook wordt gebruikt voor het meten van effectgrootte.
Een bivariate correlatie is een correlatie tussen twee variabelen.
De significantie van r onderzoek je door gebruik te maken van een t-toets met N-2 vrijheidsgraden.
Een bootstrap betrouwbaarheidsinterval is een betrouwbaarheidsinterval wat ook accuraat is als de verdeling niet normaal is.
Er is bij correlatie niet automatisch sprake van causaliteit omdat andere variabelen ook invloed hebben op de correlatie, en de correlatie niets zegt over welke variabele de verandering bij de andere variabele teweegbrengt.
Het coëfficiënt van determinatie is een maat voor hoeveel variantie de gecodeerde variabelen delen.
Spearman correlatie coëfficiënt is de niet-parametrische variant van de Pearson correlatie.
Kendall’s tau gebruik je wanneer je een kleine steekproef hebt met veel gelijke scores.
De biseriële correlatie coëfficiënt gebruik je als de variabele continu dichotoom is.
Partiële correlatie is de relatie tussen twee variabelen waarin de effecten van een andere variabele constant worden gehouden.
Het verschil tussen semi-partiële en partiële correlatie is dat bij semi-partiële correlatie wordt gecontroleerd voor het effect dat een derde variabele heeft op één van de variabelen in de correlatie, en niet op beide variabelen zoals bij de partiële correlatie.
Om correlaties te vergelijken gebruik je z-scores en t-toetsen.
Correlaties zijn effectgroottes, dus om de effectgrootte te berekenen heb je geen verdere stappen nodig.

8. Regressie

Je wilt een uitkomstvariabele Y voorspellen door middel van één voorspellende predictor (simpele regressie) of door meerdere predictoren (multiple regressie).
Lineair, want bij een goed model wordt een relatie gevonden tussen de variabelen.
Een residu is de verticale afstand tussen de werkelijke data en de regressielijn, deze verschillen kunnen zowel positief als negatief zijn.
Dit is de hoeveelheid variantie die wordt verklaard door het model in verhouding tot de totale variantie. Het representeert het percentage variantie in de uitkomst dat kan worden verklaard door het model.
Een hoge F-ratio want dit betekend dat de verbetering in voorspelling groot is (MSm) en het verschil tussen het model en de geobserveerde data klein (MSr).
Dit betekent dat een verandering in de predictor variabele resulteert in geen verandering in de uitkomst variabele.
Hiërarchische regressie
Er kan sprake zijn van supressor effecten dit houdt in dat een predictor significant is maar alleen als een andere predictor constant wordt gehouden. Hierdoor heb je bij de forward methode een grotere kans op een type II fout (een predictor elimineren terwijl deze wel significant was).
Er kan kans zijn op overfitting (teveel variabelen met maar kleine variantie) of underfitting (het niet toevoegen van belangrijke variabelen).
Een uitschieter is een meting die substantieel verschilt van de gemiddelde trend van de data.
Respectievelijk met mahalanobis distance, gestandaardiseerde residuen en met de cook’s distance.
De afhankelijke variabele moet van tenminste ratio of interval meetniveau zijn en de onafhankelijke variabele van ratio of interval of omgecodeerd tot een dummy.
Dit ontstaat wanneer er een sterke correlatie is tussen twee of meer predictoren. De problemen die ontstaan zijn: onbetrouwbare b’s, limiteert de grootte van r en moeilijker om onderscheidt te maken in belangrijkheid tussen predictoren.
Hierbij moet op elk niveau van de predictor variabele de variantie van de residuen constant zijn, als deze variantie ongelijk is, is er sprake van heteroscedasticiteit.
Hiermee test je of er sprake is van onafhankelijke errors, vuistregel is dat de waarde tussen de 1 en 3 moet liggen.
Als je niet zeker weet hoe accuraat de steekproef de populatie beschrijft kan worden gekeken hoe goed het model de uitkomst in andere steekproeven voorspelt. Dit kan door middel van de adjusted R2 en data-splitting.
Het betrouwbaarheidsinterval geeft het interval aan waarbinnen de werkelijke waarde van b zich bevind in de populatie.
Dat deel van de variantie wat wordt bepaald en veroorzaakt door de onafhankelijke variabelen en niet door externe factoren.
Dit is een variabele die van nominaal meetniveau is met meer dan 2 categorieën die is omgezet naar een dichotoom item met alleen 0 of 1 als score.
Het effect van de predictor op de afhankelijke variabele verloopt via een derde variabele dit kan gedeeltelijk of geheel zijn.
Het effect van de predictor op de afhankelijke variabele hangt dan af van nog een derde variabele.

9. Vergelijken van twee gemiddelden

Manieren om twee groepen met twee gemiddelden te vergelijken zijn door twee groepen participanten bloot te stellen aan verschillende manipulaties of door een groep participanten meerdere malen bloot te stellen aan verschillende manipulaties.
Een t-toets gebruik je om te kijken of het verschil tussen de groepsgemiddelden significant afwijkt van 0.
De afhankelijke t-toets gebruik je bij twee experimentele condities waarbij dezelfde proefpersonen deelnemen in beide condities.
De wet van de variantiesom zegt dat de variantie van het verschil tussen twee onafhankelijke variabelen gelijk is aan de som van de varianties.
De standaard meetfout is de standaardafwijking van de steekproefverdeling.
Een effect komt niet door toeval wanneer het gemiddelde verschil tussen de steekproeven en populatie groot is en de standaard meetfout klein.
De systematische variantie is groter dan de niet-systematische variantie als een experimentele conditie een effect heeft.
Bij een afhankelijke t-toets moeten de verschillen tussen scores normaal verdeeld zijn.
Levene’s test wordt gebruikt om te kijken of de varianties verschillend zijn en er geen homoscedasticiteit is.
Cohen’s d wordt heeft soms de voorkeur als maat voor effectgrootte, omdat die een effectgrootte heeft die onafhankelijk is van het design.
Bij een herhaalde metingen design vind je eerder een significant effect omdat de niet-systematische variantie een stuk kleiner is dan bij een tussengroepdesign.

10. Moderatie, mediatie en nog meer regressie

De moderator beïnvloedt de relatie tussen een predictor en de uitkomst.
Centreren betekent dat je een variabele transformeert naar deviaties rond een bepaald punt.
Om het effect van de moderator te vinden moet je een eenvoudige richtingscoëfficiënten analyse (simple slopes analysis) uitvoeren.
Je spreekt van mediatie als de relatie tussen een predictorvariabele en de uitkomst verklaard wordt door de relatie met een derde variabele, de mediator.
Het directe effect is de relatie tussen de predictor en de uitkomst, het indirecte effect is het effect van de predictor op de uitkomst via de mediator.
Mediatie is gebaseerd op regressie die de uitkomst voorspelt vanuit de predictor, regressie die de mediator voorspelt vanuit de predictor en regressie die de uitkomst voorspelt vanuit zowel de predictor als de mediator.
Bij mediatie kun je de effectgrootte berekenen door te kijken naar het gecombineerde effect van a en b, door te kijken naar de grootte van het indirecte effect vergeleken met het totale effect van de predictor, of door R² te berekenen.
Dummy variabelen zijn meerdere variabelen die met alleen nullen en enen gecodeerd zijn.

11. Meerdere gemiddelden vergelijken, ANOVA

Wanneer we meer dan twee condities willen vergelijken gebruiken we de ANOVA.
Omdat losse t-testen de kans op een type I error vergroten, dit wordt kanskapitalisatie genoemd.
Dit zijn alternatieve coderingsschema’s.
Dit wil zeggen dat de gemiddelden van de groepen verschillen.
Wanneer een effect wordt gedetecteerd terwijl deze niet aanwezig is, H0 wordt ten onrechte verworpen.
Een effect wordt niet gedetecteerd terwijl deze wel aanwezig is, H1 wordt ten onrechte verworpen.
De mogelijkheid van een test om een effect te detecteren van een bepaalde grootte (.80 is goed).
Post-hoc procedures.
De Kruskall-Wallis test.
Een Type 1 fout is de nulhypothese verwerpen, terwijl deze hypothese de juiste is.
Per test is de Type 1 fout .95 (5% kans op het verkeerd verwerpen van de nul hypothese) Dus het antwoord is: .95 x .95 x .95= .857, waardoor 1-.857=14.3% het goede percentage is.

12. ANCOVA

Als een ANOVA een continue variabele bevat die ook effect heeft op de afhankelijke variabele kan deze in de analyse worden meegenomen als covariaat.
Continue variabelen die de uitkomstvariabele ook voorspellen.
Hiermee kan je als eerste de binnengroep variantie verminderen, door het meenemen van de covariabele kunnen we meer van de variantie verklaren en blijft er minder onverklaarde variantie over. Daarnaast kunnen confounds worden geëlimineerd (derde variabele).
Onafhankelijke relatie tussen het covariaat en de afhankelijke variabele en homogeniteit van regressiecoëfficiënten.
Dit is de hoeveelheid variantie in de afhankelijke variabele die door de onafhankelijke variabele wordt gedeeld maar niet door het covariaat wordt verklaard.
Dit houdt in dat de relatie tussen de afhankelijke variabele en het covariaat binnen alle groepen gelijk moet zijn anders is het model inaccuraat.
ω2 kan gebruikt worden bij gelijke groepsgroottes.
Met een t-toets kan de effectgrootte van de contrasten berekend worden.

13. Factor ANOVA

Met de factoriële ANOVA kijken we naar twee of meer onafhankelijke variabele.
Een tweeweg ANOVA.
Onafhankelijke factoriële design, repeated measures factoriël design en mixed design.
Onafhankelijke factoren gaat om een tussengroep design, repeated measures om een binnengroep design en mixed design maakt hier een combinatie van.
Het laat de onverklaarde variantie zien.
Ja.
SPSS geeft partial eta squared als effectgrootte, maar het is verstandiger om ω2 te gebruiken of de simpele effecten analyse r.
Bij het rapporteren van de resultaten moet hetzelfde weergegeven worden als bij een gewone ANOVA. De F-ratio en het aantal vrijheidsgraden moeten in elk geval vermeld worden, voor de twee hoofdeffecten en voor het interactie-effect.

14. Herhaalde metingen

Bij repeated measures nemen de participanten deel aan alle condities van het onderzoek. Hierdoor kan je controleren voor individuele verschillen.
De assumptie van onafhankelijke groepen wordt hiermee geschonden omdat er een relatie is tussen de scores van de verschillende condities.
Dit is de aanname dat de relatie tussen de paren van de experimentele condities gelijk zijn. Dit is alleen belangrijk bij tenminste drie condities. Mauchly’s test.
In de binnengroep variantie.
c) De effectgrootte voor herhaalde metingen kan juist niet op dezelfde manier berekend worden als bij een onafhankelijke ANOVA. De juiste formule voor de effectgrootte staat op bladzijde bb van de samenvatting.
d) Het uitvoeren van een ANCOVA. De Greenhouse-Geisser geeft de correctie van de varianties in vrijheidsgraden. Wanneer deze correctie een hoge waarde geeft, kan er gebruik gemaakt worden van een Huynh-Feldt correctie.
c) De Mauchly’s test. Wanneer deze test een significant resultaat laat zien, wordt niet voldaan aan de aanname van sphericity.
b) De aanname van sphericity. Het betekent dat de relatie tussen paren van experimentele condities gelijk is. Dit wordt berekend door de varianties van paren van behandelingsniveaus.
b) Er kan niet voldaan worden aan de aanname dat de verschillende condities onafhankelijk zijn. Een proefpersoon ondergaat alle condities en dus zijn de condities gerelateerd aan elkaar.

15. Gemixt design ANOVA

Bij een mixed design kijk je naar zowel between als within groep variabelen en zijn er dus altijd meer dan twee IV’s. Er wordt gekeken naar participanten in verschillende groepen (binnengroep variantie) en naar de verschillen tussen twee groepen (tussengroepvariantie).
Een nadeel van een herhaalde metingen design is dat er niet voldaan kan worden aan de assumptie dat de verschillende condities onafhankelijk zijn.
Dat de relatie tussen paren van experimentele condities gelijk is en de afhankelijkheid tussen experimentele condities is ongeveer gelijk.
Sfericiteit is iets algemener dan samengestelde symmetrie. Dit houdt in dat de beide varianties tussen de condities gelijk zijn en dat de covarianties tussen de paren ook gelijk zijn. Sfericiteit is minder strikt dan samengestelde symmetrie, het gaat hierbij om het verschil tussen de condities, die varianties moeten ongeveer gelijk zijn.Greenhouse-Geisser correctie, Huynh-Feldt correctie of de MANOVA.
De Bonferroni test.
ω2 .
Bij het rapporten van herhaalde metingen worden dezelfde gegevens vermeld als bij een onafhankelijke ANOVA. Bij herhaalde metingen moeten het aantal gecorrigeerde vrijheidsgraden ook vermeld worden als niet aan de assumptie van sfericiteit voldaan is. De multivariate testen kunnen ook vermeld worden.

16. MANOVA

Een MANOVA is een test waarbij we kijken naar het effect van meerdere afhankelijke variabelen.
Als we losse ANOVA’s zouden uitvoeren is er sprake van kanskapitalisatie (vergroting van de type I error).
Het voordeel is dat mogelijke relaties tussen afhankelijke variabelen kunnen worden aangetoond en hierdoor heeft de MANOVA meer power om een effect te detecteren. Wel kan de MANOVA alleen worden gebruikt als een theoretische onderbouwing voor is.
De toegevoegde assumpties zijn dat de DV’s normaal verdeeld zijn binnen de groepen en dat de correlatie tussen de DV’s gelijk is in alle groepen.
d) Box’s test. Bij de andere drie manieren wordt er steeds gebruik gemaakt van de eigenwaarden om de effectgroottes te bepalen.
c) De variaten zijn gecorreleerd. Variaten zijn orthogonaal, dit betekent dat ze niet gecorreleerd zijn.
c) Kruisproduct. Er zijn verschillende soorten kruisproducten: totale kruisproduct (CPt), model kruisproduct (CPm) en residu kruisproduct (CPr). Het model kruisproduct kijkt naar hoe de relatie tussen twee afhankelijke variabelen is beïnvloed door de experimentele manipulatie. Het residu kruisproduct kijkt naar hoe de relatie van de twee afhankelijke variabelen beïnvloed is door individuele verschillen.
c) De systematische variantie wordt vergeleken met de niet-systematische variantie van meerdere afhankelijke variabelen. Bij een MANOVA kan alleen gebruikt worden in een situatie met meerdere afhankelijke variabelen. De uitkomst van dit vergelijken is een matrix van veel varianties en covarianties.
d) Als de diagonale componenten samen 1 zijn en de niet-diagonale componenten samen 0 zijn.
a) Stelling 1 en 2 zijn juist.
b) Als er meerdere afhankelijke variabelen zijn. Het maakt hierbij niet uit of er één of meer onafhankelijke variabelen zijn.

17. Factor analyse

1. Nee, want een groot altijd items vergroot ook de Cronbach’s alfa, dit hoeft dan niks over de betrouwbaarheid te zeggen

2. De factor lading zegt iets over de coördinaat van een variabele t.o.v. twee (of meer) factoren.

3. A en B zijn beschrijvende methodes (alleen toepasbaar op de steekproef. C en D zijn juist technieken om te generaliseren naar de populatie.

18. Categorische gegevens

Categorische data zijn data waarbij de uitkomstvariabele bestaat uit verschillende categorieën.
Met Pearson’s chi-square test kun je kijken of er een verband is tussen twee categorische variabelen.
Bij kleine steekproeven kun je Fisher’s exact test gebruiken.
De likelihood ratio betekent dat je een model creëert waarbij de kans om de geobserveerde data te verkrijgen maximaal is, en je dit model vergelijkt met de kans om de geobserveerde data te verkrijgen als de nulhypothese waar is.
Yates’s continuïteitscorrectie vermindert de kans op type I fout.
Loglineaire analyse is een analyse voor wanneer je meer dan 2 categorische variabelen hebt.
Er is sprake van een verzadigd model als de standaardafwijkingen allemaal 0 zijn.
Bij loglineaire analyse behoud je het eenvoudige nieuwe model als het eenvoudigere model niet erg verschilt van het complexe.
De assumptie van onafhankelijkheid bij chi-square houdt in dat een persoon niet in meerdere categorieën kan vallen.
De tweede assumptie is dat bij een 2x2 contingency tabel de verwachte frequenties in elke cel groter dan 5 moeten zijn.
De vier opties zijn: het laten vervallen van een variabele, het laten vervallen van één van de categorieën, meer data verzamelen of het accepteren van powerverlies.
Bij chi-square rapporteer je de statistiek, de significantie en het aantal vrijheidsgraden. Ook geef je de contingency tabel weer.
Bij loglineaire analyse vermeld je de likelihood ratio statistiek, verandering van de chi-square en eventueel z-scores met bijbehorende betrouwbaarheidsintervallen.

19. Logistische regressie

Logistische regressie is multipele regressie waarbij de uitkomstvariabele categorisch is, en de predictorvariabelen continu of categorisch zijn.
Er is sprake van multinomiale logistische regressie als er meer dan twee categorieën zijn.
Je maakt de relatie lineair door het gebruik van een logaritmische transformatie.
De R-statistiek is de partiële correlatie tussen de uitkomstvariabele en elk van de voorspellervariabelen.
De Wald statistiek is de z-statistiek die gebruikt wordt om de contributie van de voorspellers aan het model te bepalen.
De odds ratio geeft de verandering in kans weer die komt door de verandering in de predictor.
Onderdrukkende effecten komen voor wanneer een voorspeller een significant effect heeft maar alleen wanneer een andere variabele constant wordt gehouden.
Streven naar parsimonie betekent dat een eenvoudige verklaring van een fenomeen te verkiezen is boven een ingewikkelde verklaring.
De assumptie houdt in dat er sprake moet zijn van een lineaire relatie tussen de continue voorspellers en de logit van de uitkomstvariabele.
Complete scheiding ontstaat als de uitkomstvariabele perfect wordt voorspeld door een voorspeller of een combinatie van voorspellers.
Er is sprake van overspreiding wanneer de geobserveerde variabele groter is dan de verwachte variabele uit een logistisch regressiemodel.
Bij logistische regressie rapporteer je de b-waardes, de standaard meetfouten en de significantie.
Je voert de logistische regressieanalyse opnieuw uit, maar voegt predictors toe die de interactie zijn van elke predictor en de log van zichzelf.
Om multicollineariteit te testen gebruik je de lineaire regressieanalyse.
Bij multinomiale logistische regressie gebruik je ook logistische regressie om groepslidmaatschap van meer dan twee categorieën te voorspellen.

20. Multilevel lineaire modellen

De voordelen van een multilevel lineair model zijn dat het gebruikt kan worden om variatie tussen richtingscoëfficiënten te meten, dat de gegevens niet te hoeven voldoen aan de assumptie van onafhankelijkheid, en dat het model goed te gebruiken is als er missende waarden zijn.
Een vast effect is een effect waarbij alle mogelijke condities waarin een onderzoeker geïnteresseerd is aanwezig zijn in het experiment. Een random effect is wanneer het experiment alleen een random steekproef van mogelijke condities bevat.
Bij multilevel modellen wordt onderscheid gemaakt tussen vaste coëfficiënten en random coëfficiënten.
Er is meestal ook sprake van een random intercept als er sprake is van een random slope.
Bij regressie is er een vaste intercept en regressiecoëfficiënt.
Dit is handig omdat je op deze manier de fit van het nieuwe model kan vergelijken met het basismodel.
De vier covariantiestructuren zijn de variantiecomponentenstructuur, de diagonale structuur, de AR(1) en de ongestructureerde structuur.
Voor een multilevel model geldt ook dat de random intercepts en slopes normaal verdeeld moeten zijn over het model.
Centreren van een variabele houdt in dat de variabele getransformeerd wordt naar deviaties vanaf een vast punt, meestal het gemiddelde of groepsgemiddelde.
Polynomials zijn groeicurven, ofwel lijnen met een trend.
Belangrijk bij groeicurven is dat je polynominals kunt toepassen tot één minder dan het aantal tijdspunten dat je hebt, en dat een polynominal een simpele machtsfunctie is.
Er zijn geen vaste richtlijnen omdat multilevel modellen veel verschillende vormen kunnen aannemen.

Access:

Public

Verzekeren bij een faire en solidaire zorgverzekeraar?

Join: WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check: concept of JoHo WorldSupporter

Concept of JoHo WorldSupporter

JoHo WorldSupporter mission and vision:

JoHo wants to enable people and organizations to develop and work better together, and thereby contribute to a tolerant and sustainable world. Through physical and online platforms, it supports personal development and promote international cooperation is encouraged.

JoHo concept:

As a JoHo donor, member or insured, you provide support to the JoHo objectives. JoHo then supports you with tools, coaching and benefits in the areas of personal development and international activities.
JoHo's core services include: study support, competence development, coaching and insurance mediation when departure abroad.