Samenvatting van SPSS Survival Manual van Pallant - 6e druk

Hoe ontwerp je een onderzoek waarbij SPSS wordt gebruikt? - Chapter 1 (6e druk)

 

Introductie: Wat is SPSS?

SPSS is een statistisch computerprogramma dat door wetenschappers wordt gebruikt om gegevens te verzamelen, analyseren en te bewerken. Het wordt voornamelijk gebruikt om onderzoeksresultaten te onderzoeken. De afkorting SPSS staat voor Statistical Package for the Social Sciences. Het programma wordt dus met name in de sociale wetenschap gebruikt.

Drie belangrijke situaties waarin je SPSS kunt gebruiken:

  • Het controleren van de betrouwbaarheid van een steekproef. Wanneer je in Nederland een onderzoek wil doen is het natuurlijk niet haalbaar om elke inwoner te toetsen. Om deze reden wordt vrijwel altijd gebruik gemaakt van een steekproef (een selectie van mensen uit de populatie). Het is belangrijk dat deze steekproef zo representatief mogelijk is voor de hele populatie zodat de uitkomstresultaten goed gegeneraliseerd kunnen worden (je wil immers iets zeggen over de hele populatie en niet slechts over de steekproef).

  • Het controleren van de betrouwbaarheid van je resultaten. SPSS kan informatie geven of het verband dat je hebt gevonden (bijvoorbeeld mannen stemmen vaker op SGP dan vrouwen) op toeval berust of dat het verschil ergens anders mee te maken heeft.

  • Data visualiseren. Het kan handig zijn om je resultaten te visualiseren door middel van grafieken en tabellen. Deze kan je door SPSS laten maken.

Algemene informatie met betrekking tot onderzoek doen

SPSS kan onderzoeksvragen beantwoorden door het doen van analyses; toetsen. Een voorbeeld van een onderzoeksvraag is: kiezen mannen vaker een technisch beroep dan vrouwen? De eerste stap is het verzamelen van je gegevens (hoeveel procent van de mannen kiest een technisch beroep en hoeveel procent van de vrouwen). Deze gegevens worden in SPSS data genoemd. Wanneer je je gegevens hebt verzameld (bijvoorbeeld door middel van vragenlijsten) dan kun je deze data invoeren in SPSS. Vervolgens kun je SPSS een toets laten uitvoeren die onderzoekt of er daadwerkelijk een verschil is tussen de data van mannen en vrouwen.

Hoe plan je het opzetten van een onderzoek?

Een goed onderzoek is sterk afhankelijk van een uitvoerige planning. Het boek geeft de volgende tips bij het opstarten van een onderzoek:

  • Kies het design van je onderzoek (bijvoorbeeld experiment, vragenlijst, observationeel). Weeg alle voor- en nadelen van elke methode af.

  • Als je kiest voor een experiment: beslis of je kiest voor een between-groups design (verschillende proefpersonen in elke experimentele conditie) of een repeated measures design (alle proefpersonen in alle condities).

  • Als je kiest voor een experiment: zorg voor genoeg niveaus in je onafhankelijke variabele.

  • Selecteer altijd meer proefpersonen dan nodig (gezien de grote kans op uitval).

  • Indien mogelijk, wijs proefpersonen random toe aan elke experimentele conditie. Het is van belang dat deze groepen niet op andere zaken van elkaar verschillen (check dit met een covariantie-analyse).

  • Kies betrouwbare en valide afhankelijke variabelen.

  • Anticipeer op mogelijke confounding variabelen. Dit zijn variabelen anders dan de onafhankelijke variabele die een mogelijke verklaring kunnen geven voor je resultaat. Controleer indien mogelijk voor deze confounding variabelen.

  • Als je kiest voor een vragenlijststudie (survey), check dan van tevoren of de instructies, vragen en schalen duidelijk zijn. Dit doe je door middel van pilot testing.

Hoe kies je de juiste schalen en methoden?

Bij het kiezen van de juiste schaal en methode zijn twee begrippen van belang: betrouwbaarheid en validiteit. Beide begrippen kunnen de kwaliteit van je data beïnvloeden.

Betrouwbaarheid

De betrouwbaarheid (reliability) van een schaal indiceert in welke mate de schaal vrij is van random error. Er zijn twee soorten betrouwbaarheid:

  1. Test-hertest betrouwbaarheid (test-retest reliability): deze wordt gemeten door de desbetreffende schaal aan te bieden aan twee verschillende personen in twee verschillende situaties en vervolgens de correlatie tussen deze twee scores te berekenen. Des te hoger deze correlatie, des te groter de test-hertest betrouwbaarheid.

  2. Interne consistentie (internal consistency): de mate waarin de items van een schaal met elkaar samenhangen. Deze kan bijvoorbeeld worden berekend met de Cronbach’s cofficient alpha in SPSS. Hierbij geldt dat een Cronbach’s alpha van .7 of groter duidt op een betrouwbare schaal.

Validiteit

De validiteit (validity) van een schaal verwijst naar de mate waarin de methoden meten wat ze beogen te meten. Er bestaan verschillende vormen van validiteit:

  1. Inhoudsvaliditeit (content validity): de mate van accuraatheid waarmee de methode of schaal het beoogde domein of de beoogde inhoud behelst.

  2. Criteriumvaliditeit (criterion validity): de relatie tussen verschillende schaalscores en een gespecificeerd meetcriterium.

  3. Constructvaliditeit (construct validity): de relatie met andere constructen, zowel gerelateerde constructen (convergente validiteit) als ongerelateerde constructen (discriminante validiteit).

Hoe bereid je een vragenlijst voor?

Het is belangrijk om bij het opstellen van een vragenlijst in gedachte te houden welke statistische methoden je nodig hebt om de gegevens te analyseren. Afhankelijk van de statistische techniek dien je een bepaalde vraag namelijk op een specifieke manier te stellen.

Typen vragen

Veel vragen kunnen worden geclassificeerd in twee groepen: open vragen en gesloten vragen. Een gesloten vraag geeft respondenten meerdere antwoordopties. Gesloten vragen kunnen snel worden omgezet in een numeriek format in SPSS. Zo kan antwoord ‘ja’ worden gecodeerd met nummer 1 en antwoord ‘nee’ met nummer 2. De antwoorden op open vragen kunnen worden verdeeld over verschillende categorieën, bijvoorbeeld werk of relaties. Vaak werkt een combinatie van open en gesloten vragen het best in een onderzoek.

Format van antwoorden

Het is belangrijk om de juiste schaal te kiezen bij het opstellen van antwoordformats. Wanneer je bijvoorbeeld een correlatie wilt berekenen dien je exacte leeftijden te weten. Daarnaast is het vaak handig om een Likert-type schaal toe te passen. Mensen geven dan niet simpelweg antwoord of ze het wel of niet eens zijn met de vraag, maar in welke mate (bijvoorbeeld op een schaal van 1 tot 6).

 

Introductie: Wat is SPSS?

 

SPSS is een statistisch computerprogramma dat door wetenschappers wordt gebruikt om gegevens te verzamelen, analyseren en te bewerken. Het wordt voornamelijk gebruikt om onderzoeksresultaten te onderzoeken. De afkorting SPSS staat voor Statistical Package for the Social Sciences. Het programma wordt dus met name in de sociale wetenschap gebruikt.

Drie belangrijke situaties waarin je SPSS kunt gebruiken:

  • Het controleren van de betrouwbaarheid van een steekproef. Wanneer je in Nederland een onderzoek wil doen is het natuurlijk niet haalbaar om elke inwoner te toetsen. Om deze reden wordt vrijwel altijd gebruik gemaakt van een steekproef (een selectie van mensen uit de populatie). Het is belangrijk dat deze steekproef zo representatief mogelijk is voor de hele populatie zodat de uitkomstresultaten goed gegeneraliseerd kunnen worden (je wil immers iets zeggen over de hele populatie en niet slechts over de steekproef).

  • Het controleren van de betrouwbaarheid van je resultaten. SPSS kan informatie geven of het verband dat je hebt gevonden (bijvoorbeeld mannen stemmen vaker op SGP dan vrouwen) op toeval berust of dat het verschil ergens anders mee te maken heeft.

  • Data visualiseren. Het kan handig zijn om je resultaten te visualiseren door middel van grafieken en tabellen. Deze kan je door SPSS laten maken.

 

Hoe maak je een codeboek voor SPSS? - Chapter 2 (6e druk)

 

 

Hoe bereid je SPSS data voor?

Voordat je alle informatie van vragenlijsten en experimenten in IBM SPSS kan invoeren is het noodzakelijk om een ‘codeboek’ te maken. Dit is een samenvatting van de instructies die je gaat gebruiken om de informatie van elke proefpersoon om te zetten in een format dat IBM SPSS kan begrijpen. Het voorbereiden van een codeboek bestaat uit (1) het definiëren en labelen van elke variabele, en (2) het toekennen van nummers aan alle mogelijke antwoorden.

Een codeboek bestaat in principe uit vier kolommen:

  1. de afgekorte naam van de variabele (bijvoorbeeld ‘ID’ voor ‘identification number’)

  2. de uitgeschreven naam van de variabele (bijvoorbeeld ‘identification number’)

  3. uitleg over hoe de mogelijke antwoorden worden gedoceerd (bijvoorbeeld 1 = mannen, 2 = vrouwen)

  4. de meetschaal (bijvoorbeeld nominaal)

Wat is een variabele?

Een variabele is een element dat een bepaalde waarde kan aannemen. Het is een element dat je graag wilt meten en analyseren. Voorbeelden van een variabele zijn ‘geslacht’, ‘leeftijd’, ‘opleidingsniveau’ en ‘IQ’. Middels SPSS kun je onderzoeken of je variabelen met elkaar samenhangen (bijvoorbeeld opleidingsniveau en IQ) of dat een bepaalde variabele een andere variabele voorspelt (bijvoorbeeld: behalen mannen hogere IQ-scoores dan vrouwen?).

De afhankelijke variabele

De afhankelijke variabele is de variabele waarover je een voorspelling doet of de uitkomst van je meting. In het Engels wordt dit de dependent variable genoemd. Een voorbeeld is intelligentie. Je kunt dan onderzoeken welke factoren (onafhankelijke variabelen) invloed hebben op intelligentie (de afhankelijke variabele). In weze hangt de uitkomst van de afhankelijke variabele dus af van andere variabelen (vandaar de naam).

De onafhankelijke variabele

De onafhankelijke variabele is een factor waarvan je gaat meten of deze een verandering veroorzaakt bij de afhankelijke variabele. In het Engels wordt de onafhankelijke variabele de independent variable genoemd. (ID). Als men bijvoorbeeld een onderzoek wilt doen over de invloed van het drinken van alcohol op tentamenresultaten, is de onafhankelijke variabele de hoeveelheid alcohol en de afhankelijke variabele het tentamenresultaat.

Wat zijn meetschalen?

Het is van belang om te weten van welk meetniveau je variabele is om vervolgens een goede keuze te maken voor je statistische test (de methode waarmee je je onderzoeksvraag wilt onderzoeken). Een dergelijk meetniveau wordt ook wel een meetschaal genoemd. Er bestaan grofweg vier meetschalen: nominaal, ordinaal, interval en ratio. Deze schalen worden hieronder besproken.

Wat is een discrete variabele?

Een discrete variabele kan slechts een paar vaste waarden aannemen. Hieronder vallen de nominale schaal en de ordinale schaal. De nominale schaal is een kwalitatieve meetschaal met losstaande categorieën, bijvoorbeeld geslacht (man/vrouw). Metingen op ordinaal niveau kennen een natuurlijke ordening. De volgorde is duidelijk, maar de verschillen zijn niet te interpreteren. Een voorbeeld is het opleidingsniveau (VMBO-HAVO-VWO). De verschillen tussen deze opleidingsniveaus zijn niet allemaal even groot.

Wat is een continue variabele?

Een continue variabele is een variabele die gemeten kan worden in getallen, waarbij de tussenliggende waarden betekenis hebben. Hieronder vallen de interval schaal en de ratio schaal. Bij een interval schaal zijn de verschillen tussen scores in tegenstelling tot een ordinale schaal wél gelijk. Het verschil tussen 10 en 11 op een test is net zo groot als het verschil tussen 50 en 51. Een intervalschaal heeft echter geen absoluut nulpunt. Daarom kun je niet zeggen hoeveel hoger een waarde is. Een goed voorbeeld hiervan is de Fahrenheit-schaal: 30 graden is niet twee keer zo warm als 15 graden.

Een ratioschaal heeft dezelfde eigenschappen als een intervalschaal, maar een ratioschaal heeft wel een absoluut nulpunt. 50 centimeter is immers twee keer zo lang als 25 centimeter.

Wat is een categorische variabele?

Een categorische variabele is een variabele die geen getallen aanneemt, maar onderverdeeld wordt in categorieën. Het meest gebruikte voorbeeld is man/vrouw.

Wat is een dichotome variabele?

Een dichotome variabele is een variabele die slechts twee opties kent, zoals goed/fout.

Aan welke regels dient een variabelenaam te voldoen?

Elke vraag of item in je vragenlijst dient een unieke variabelenaam te krijgen. Er bestaat een aantal regels waar een variabelenaam aan moet voldoen:

  • elke variabele moet een andere naam krijgen en dient dus uniek te zijn

  • elke variabele moet beginnen met een letter (niet met een cijfer)

  • een variabele kan geen symbool (bijvoorbeeld !, ?) of spatie bevatten

  • een variabele kan geen woord bevatten die door IBM SPSS wordt gebruikt als commando (bijvoorbeeld all, ne, eq)

  • een variabele kan niet meer dan 64 karakters bevatten

Hoe codeer je de respons?

Elke uitkomst krijgt een numerieke code, bijvoorbeeld 1 voor vrouwen en 2 voor mannen.

Hoe codeer je antwoorden op open vragen?

Bij open vragen inventariseer je wat voor antwoorden het meest voorkomen. Bijvoorbeeld bij de vraag 'Waardoor ervaar je stress?' kun je de antwoorden indelen in werk = 1, relatie = 2, etc. Het is ook handig om een restcategorie te maken voor overige antwoorden (overig = 99).

Hoe begin je met IBM SPSS? - Chapter 3 (6e druk)

 

Hoe open je IBM SPSS?

Er zijn verschillende manieren om IBM SPSS op te starten.

  • De meest eenvoudige manier is om op het SPSS icoon op je desktop te klikken. Plaats je cursor op het icoon en klik tweemaal.

  • Je kunt ook IBM SPSS openen door te klikken op Start, je cursor te plaatsen op Alle programma’s, en vervolgens naar de lijst van alle beschikbare programma’s. Kijk of je hier een map kunt vinden genaamd IBM SPSS Statistics, in dit geval IBM SPSS Statistics 24.

  • IBM SPSS zal ook opstarten als je tweemaal klikt op een IBM SPSS databestand in Window Explorer.

Hoe open je een bestaand SPSS bestand?

Als je een bestaand SPSS databestand wil openen, klik dan op File in het menu van IBM SPSS en kies vervolgens voor Open en Data. De Open file sectie stelt je in staat om te zoeken naar het gewenste bestand. Je kunt ook altijd een databestand openen vanuit de hard drive van je computer. Als je een databestand hebt staan op een usb-stick, kopieer deze dan eerst naar je computer. Vervolgens kun je het bestand openen door tweemaal op het icoon te klikken. Het bestand zal vervolgens openen in de Data Editor.

Hoe werk je met SPSS-bestanden?

Een databestand opslaan

Het is belangrijk om altijd je data op te slaan als je ermee aan de slag bent. Het opslaan gebeurt namelijk niet automatisch in IBM SPSS. Om een bestand op te slaan ga je naar het File menu. Kies vervolgens voor Save. Je kunt ook op het icoon klikken dat lijkt op een floppydisk. Deze zie je linksboven in je scherm. Zorg er altijd voor dat je bestand wordt opgeslagen op je computer en niet op een externe schijf. Wanneer je het bestand voor het eerst opslaat dien je een naam aan te maken voor het bestand en een map te kiezen waar je het bestand wil opslaan. IBM SPSS zorgt er automatisch voor dat je bestand wordt opgeslagen met .sav op het eind.

Een ander databestand openen

Als je met een databestand bezig bent en je wil een nieuw bestand openen, klik dan op File en vervolgens voor Open en Data. Zoek de map waarin je bestand is opgeslagen. Klik op het gewenste bestand en klik dan op de Open knop. Vervolgens zal het tweede bestand worden geopend in een nieuw scherm.

Een nieuw databestand maken

Om een nieuw databestand te maken klik je op File en vervolgens op New en Data. Vervolgens kun je je variabelen gaan definiëren en nieuwe data invoeren.

Hoe ga je om met verschillende schermen?

IBM SPSS is een programma dat bestaat uit verschillende schermen of ‘windows’. Om deze schermen te openen dien je eerst een bestaand databestand te openen of een eigen databestand creëren. Om een bestaande dataset te openen klik je op ‘File’ in het menu en vervolgens op ‘open’. Vervolgens kies je bij ‘data’ voor je dataset. De belangrijkste schermen in SPSS zijn de ‘Data Editor’, de ‘Viewer’, de ‘Pivot Tabe Editor’, de ‘Chart Editor’ en de ‘Syntax Editor’.

De Data Editor

De Data Editor bestaat uit de inhoud van je databestand. In dit scherm kun je datasets maken en/of opslaan, veranderingen aanbrengen in bestaande data en statistische analyses uitvoeren.

De Viewer Editor

Wanneer je analyses uitvoert start de Viewer Editor (je output) automatisch. Dit scherm bestaat uit twee delen. Aan de linkerkant is een navigatie te zien waarop alle analyses staan die je hebt uitgevoerd. Aan de rechterkant zijn de resultaten van je analyses te zien, bijvoorbeeld tabellen en grafieken.

Wanneer je de output van IBM SPSS opslaat gebeurt dit in een apart bestand eindigend op .spv. Databestanden eindigen altijd op .sav. Om de resultaten van je analyses op te slaan is het van belang het Viewer scherm geopend te hebben. Klik op File en vervolgens op Save. Kies de map waarin je de output wil opslaan en maak een nieuwe naam aan. Klik dan op Save.

Het is belangrijk om te weten dat een output bestand alleen kan worden geopend in IBM SPSS. Wanneer je je bestand naar iemand anders stuurt die geen beschikking heeft over het programma IBM SPSS dan kan hij of zij jouw bestand niet openen. Om dit te verhelpen kun je je output exporteren. Selecteer hiervoor File en vervolgens Export. Je kunt nu het type kiezen, bijvoorbeeld pdf of Word. Kies dan de Browse knop om een map te maken waarin je het bestand in wil opslaan en kies een geschikte naam in de Save File regel. Klik dan op Save en OK.

Je kunt de navigatiebalk (links in het scherm) gebruiken om bepaalde secties van je output uit te printen. Highlight de secties die je wil printen. Klik op de eerste sectie, houd vervolgens de Ctrl toets ingedrukt en klik op het File menu en op Print.

De Pivot Table Editor

De tabellen die je kunt zien in het Viewer scherm (de output) kun je aanpassen. Dit kan door middel van de Pivot Table Editor. Om een tabel aan te passen selecteer je de gewenste tabel en klik je tweemaal op de tabel. Vervolgens kun je de Pivot Table Editor gebruiken om bijvoorbeeld de grootte, het lettertype of de dimensies van de kolommen te wijzigen.

Het Chart Editor scherm

Wanneer je SPSS vraagt een grafiek te maken verschijnt deze eerst in het Viewer scherm. Als je de grafiek wil aanpassen dien je het Chart Editor scherm te activeren. Dit doe je door de desbetreffende grafiek te selecteren (dubbelklik).

Het Syntax Editor scherm

In het Syntax Editor scherm kun je de commando’s zien die SPSS gebruikt om bepaalde analyses uit te voeren. Wanneer je een analyse opnieuw wil uitvoeren kun je dit aangeven in je Syntax scherm. Je selecteert dan de gewenste commando en klikt vervolgens op ‘Run’. Wil je graag dat de commando van je analyse in het Syntax scherm verschijnt, dan klik je op ‘Paste’ in plaats van ‘OK’.

Wat zijn dialoogvensters?

Wanneer je een menuoptie selecteert wordt vaak verdere informatie gevraagd. Dit wordt gedaan in een dialoogvenster. Er bestaat bijvoorbeeld een dialoogvenster wanneer je de analyse ‘Frequencies’ gebruikt.

Om de variabele te selecteren waarop je de analyse wil uitvoeren selecteer je de variabele en druk je vervolgens op de pijltjestoets (pijltje wijzend naar rechts). Als je meerdere variabelen wilt selecteren selecteer je deze door tegelijkertijd met de Ctrl toets ingedrukt te houden. Om eenvoudig de juiste variabelen te vinden selecteer je één van de variabelen en klik je met de rechtermuisknop. Kies vervolgens voor Sort Alphabetically. Nu worden de variabelen alfabetisch gesorteerd en kun je gemakkelijk de gewenste variabelen vinden. Om een variabele die je hebt geselecteerd weer uit de selectie te halen selecteer je de variabele in het dialoogvenster en klik je op de pijltjestoets (pijltje wijzend naar links).

In het dialoogvenster vind je vaak steeds dezelfde knoppen terug.

  • OK: Klik op deze knop wanneer je je variabelen hebt geselecteerd en je klaar bent om de analyse uit te voeren.

  • Paste: Deze knop zorgt ervoor dat je analyse wordt getransporteerd naar de Syntax Editor. Dit kan handig zijn wanneer je een bepaald commando meerdere keren wilt uitvoeren.

  • Reset: Deze knop wordt gebruikt om het dialoogvenster leeg te maken.

  • Cancel: Als je op deze knop klikt worden alle commando’s die je hebt gegeven voor de techniek of procedure verwijderd.

  • Help: Als je op deze knop klikt verschijnt er extra informatie over de techniek of procedure die je wilt uitvoeren.

Hoe sluit je IBM SPSS?

Wanneer je IBM SPSS wilt afsluiten klik je op File en vervolgens op Exit. IBM SPSS zal je dan een herinnering laten zien om je bestand op te slaan voordat het programma wordt afgesloten. Het is van belang om dan zowel je databestand als je output op te slaan.

Hoe maak je een bestand aan en voer je gegevens in SPSS in? - Chapter 4 (6e druk)

 

Hoe verander je de opties?

De opties kun je gebruiken voor allerlei mogelijkheden om variabelen weer te geven, het soort tabellen dat je als output wilt krijgen en meer. Options vind je onder Edit. Zorg dat je eerst in alle tabs selecteert wat je wilt, en vervolgens op OK klikt.

General tabblad

Hier kun je kiezen om variabelen alfabetisch weer te geven of in de volgorde waarop ze in het bestand verschijnen, het laatste is in de meeste gevallen meer in lijn met het onderzoek. Klik hiervoor op File bij Variable Lists. Voor een overzichtelijke weergave van getallen, klik bij Output op No scientific notation for small numbers in tables.

Data tabblad

Hierbij kies je hoe data wordt weergegeven.

Output tabblad

Hiermee kun je de naam van variabelen en labels customizen.

Pivot tables tabblad

Hier kun je de vormgeving van tabellen kiezen.

Hoe definieer je de variabelen?

De Data Editor (het hoofdscherm van SPSS) is onderverdeeld in twee verschillende tabbladen; Data View en Variabele View (deze tabbladen vind je linksonder in het scherm). Voordat je data kan invoeren moeten er eerst variabelen worden gecreëerd. In het tabblad 'Variabelen View' kun je je variabelen definiëren. In het tabblad ‘Data view’ voer je vervolgens al je data in. Wanneer je een analyse hebt uitgevoerd verschijnt het output scherm.

Variabele View

In dit tabblad kun je de variabelen aanmaken. Iedere rij staat voor een variabele. Je kan in elke kolom informatie over de variabele invoeren.

  • Name: De naam van de variabele

  • Type: Type data, vaak zijn dit gewoon nummers oftewel ‘numeric variables’. Ook kan het voorkomen dat er bijvoorbeeld data of letters worden gebruikt. Wil je het type invoeren, selecteer dan de cel en druk op het blauwe vierkantje met puntjes. Vervolgens kun je in een nieuw scherm het type variabele kiezen (bijvoorbeeld numeric, dollar, of date).

  • Width: Hoeveel posities er beschikbaar zijn

  • Decimals: Aantal decimalen

  • Labels: Tekst waarmee je de naam van de variabele kan toelichten

  • Values: Hier vul je de waarden van de labels in. Een voorbeeld kan zijn dat je variabele geslacht is en de code dan 0 voor man en 1 voor vrouw is. Om de waarden in te vullen selecteer je de cel en klik je op het blauwe vierkantje met de puntjes. Vervolgens schrijf je bij value bijvoorbeeld ‘0’ in en bij label ‘man’.

  • Missing: Hier kun je een waarde opgeven die je gebruikt hebt om 'geen antwoord' aan te geven. Ook hierbij selecteer je het blauwe vierkantje om de waarden in te voeren.

  • Columns: Breedte van de kolom in data-view.

  • Align: Uitlijning

  • Measure: Op welk level de data is gemeten: nominaal, ordinaal of schaal.

  • Role: De rol die de variabele speelt in je dataset. Je kunt hierbij selecteren of het om een afhankelijke variabele (‘target’) of onafhankelijke variabele (‘input’) gaat.

Bij het bepalen van variabelen zijn er vier stappen:

  1. Variabelen aanmaken

  2. Labels toekennen aan de antwoord categorieën en de missing values

  3. Invoeren data

  4. Data opschonen

Hoe voer je variabelen en data in?

Er zijn twee manieren om een nieuwe variabele aan te maken. Bij de eerste manier wordt een nieuwe variabele gecreeërd door het invoeren van nieuwe data. Bij de tweede manier wordt een variabele gemaakt die is gebaseerd op bestaande data in de dataset. Er worden dan bijvoorbeeld twee variabelen gecombineerd om een nieuwe, derde, variabele te maken.

Manier 1: Nieuwe variabele, data handmatig invoeren.

  1. Klik links onderin het scherm op ´Variable View´.

  2. Typ vervolgens bij de eerste rij de naam van je variabele. Je kunt bij ´Label´ aangeven wat de variabele precies meet. Bij ´Values´ kun je aangeven wat elke antwoordmogelijkheid betekent. Je hoeft dit dus niet bij open vragen in te voeren!

  3. Let op dat je bij ‘Measures’ goed aanvinkt welk meetniveau de variabele heeft.

Manier 2: Nieuwe variabele, gebaseerd op bestaande variabelen

Samengestelde samenvatting, gebaseerd op hoofdstuk 4 van SPSS Survival Manual van Pallant, 6e druk uit 2016.Voorbeeld in SPSS: gemiddelde maken van verschillende variabelen.

  1. Klik op ‘Transform’ → ‘Compute Variable’

  2. Voer bij ‘Target Variable’ de naam in voor de nieuwe variabele.

  3. Vervolgens kun je bij ‘Function group’ klikken op ‘Statistical’. Er verschijnen dan bij ‘Functions and Special Variables’ allerlei opties die je kunt doen. Als je bijvoorbeeld op ‘Mean’ klikt, kun je het gemiddelde van een paar variabelen samenvoegen in een nieuwe variabele. Er verschijnt in het blokje ‘Numeric Expression’ MEAN(?,?).

  4. Nu kun je uit de linker lijst de variabelen naar het blokje ‘Numeric Expression’ slepen, zodat de vraagtekens vervangen worden door de namen van de variabelen.

Als je daarna op ‘OK’ klikt, kun je in de dataset de nieuw gemaakte variabele met de daarbij behorende waarden terugvinden.

Hoe bewerk je bestaande data?

Een proefpersoon verwijderen uit de data

De ingevoerde data kun je aanpassen in de data editor. Om een proefpersoon te verwijderen selecteer je de rij van de desbetreffende proefpersoon en klik je op ‘delete’ (op het toetsenbord). Je kunt ook gebruik maken van SPSS door middel van de volgende stappen: Edit –→ Clear.

Een proefpersoon toevoegen tussen de andere proefpersonen

Beweeg je cursor naar een cel in de rij direct onder de rij waar je een nieuwe proefpersoon wil toevoegen. Klik op Edit en kies vervolgens voor Insert Cases. Vervolgens zal er een lege rij verschijnen waar je nieuwe data kan invoeren.

Een variabele verwijderen

Positioneer je cursor naar de sectie boven de kolom die je wil verwijderen. Klik eenmaal om de hele kolom te selecteren. Klik vervolgens op ‘delete’ op je toetsenbord. Je kunt ook klikken op Edit in het menu en vervolgens op Clear.

Een variabele toevoegen tussen andere variabelenaam

Positioneer je cursor in een cel in de kolom rechts naast de variabele waarnaast je een nieuwe variabele wil plaatsen. Klik op het Edit menu en kies Insert variable. Een lege kolom zal verschijnen waarin je data van de nieuwe variabele kunt invoeren.

Een variabele verplaatsen

Klik met je linkermuisknop op de variabele die je wilt verplaatsen, hou vast en sleep de variabele naar de nieuwe plek.

Hoe voeg je data van Excel in?

Het is ook mogelijk om data te exporteren uit een bestaand bestand uit Excel. Je kunt bijvoorbeeld je data voorbereiden in Excel en deze vervolgens in IBM SPSS zetten. Voer hiervoor de volgende stappen uit. Open IBSM SPSS. Klik vervolgens op File, Open, Data. In de sectie Files of type kies je voor Excel. Excelbestanden eindigen altijd op .xls of .xlsx. Vind het bestand naar jouw keuze. Klik op het bestand zodat deze in de File name verschijnt. Klik daarna op de Open knop. Er zal nu een scherm openen dat Opening Excel Data Source heet. Zorg ervoor dat Read variabel names from the first row of data aangevinkt is. Klik dan op Ok. Vervolgens kun je het nieuwe bestand opslaan als een IBM SPSS bestand. Kies File, daarna Save as. Type een nieuwe naam in. Let op dat de Save as Type is gezet op SPSS Statistics (*.sav). Klik dan op Save. In de Data Editor, Variable View, zul je nu extra informatie moeten toevoegen met betrekking tot Labels, Values en Measure. Ook zul je waarschijnlijk de breedte van de kolommen moeten wijzigen.

Wat kun je nog meer met de data doen?

Data splitten

Soms is het handig om verschillende groepen te maken binnen je data om zo deze groepen te vergelijken. Op deze manier kun je bijvoorbeeld de data van mannen en vrouwen met elkaar vergelijken. Om dit te kunnen doen dien je je databestand in SPSS te splitsen. Je zorgt er dan voor dat bijvoorbeeld alle mannen in één groep komen te zitten (groep 1) en alle vrouwen (groep 2).

Procedure

Nu volgt de procedure voor het splitsen van je databestand.

  1. Ga naar Data en kies Split File.

  2. Klik op Compare groups en specificeer je groepsvariabele (in dit geval geslacht). Klik op OK.

Je ziet nu vervolgens in je databestand (Data View) dat alle proefpersonen zijn gesorteerd op geslacht. Eerst zie je alle mannen, daarna alle vrouwen.

Data selecteren

Voor sommige analyses heb je slechts een deel van je steekproef nodig. Bijvoorbeeld: alleen maar de mannen. Je dient dan deze groep te selecteren in SPSS. Dit doe je door middel van de optie Select Cases. Wanneer je de groep mannen hebt geselecteerd worden alle vrouwen weggestreept in SPSS. Alle analyses die je vervolgens zal doen zullen alleen worden gedaan voor mannen.

Procedure

Nu volgt de procedure voor het selecteren van een deel van je steekproef (in dit geval mannen).

  1. Kies bij Data voor Select Cases.

  2. Klik op If condition is staisfied.

  3. Klik op de knop IF.

  4. Kies de variabele waarop je je groep wil selecteren (in dit geval geslacht).

  5. Klik op de pijltjestoets en sleep de variabele naar de sectie. Klik op de = toets van het toetsenbord op het scherm.

  6. Type de waarde in die correspondeert met de waarde voor mannen in je codeboek. Kijk hiervoor in je Variable View.

  7. Klik op Continue en op OK.

  8. Klik daarna op ‘If’ bij ‘If condition is satisfied’ -> selecteer dan de variabele

In de Data View zie je nu dat alle vrouwen (geslacht = 1) zijn weggestreept. Alleen de mannen (geslacht = 0) zijn geselecteerd.

Hoe voeg je bestanden samen?

Soms is het nodig om databestanden samen te voegen. Als de bestanden dezelfde variabelen hebben en dezelfde variabelenamen gebruiken, kun je de bestanden samenvoegen door de gegevens toe te voegen. Het kan echter nodig zijn om eerst nieuwe variabelen toe te voegen.

Bestanden samenvoegen door gegevens toe te voegen

Nu volgt de procedure voor het samenvoegen van bestanden door gegevens toe te voegen.

  1. Open het bestand dat je toe wilt voegen.

  2. Ga naar Data en kies Merge Files en dan Add Cases.

  3. Klik in het dialoogvenster op An external SPSS data file.

  4. Klik op Continue, op OK en op File, save as om het bestand een eigen naam te geven.

Bestanden samenvoegen door variabelen toe te voegen

Nu volgt de procedure voor het samenvoegen van bestanden door gegevens toe te voegen.

  1. Sorteer de bestanden in oplopende volgorde via Data, klik Samengestelde samenvatting, gebaseerd op hoofdstuk 4 van SPSS Survival Manual van Pallant, 6e druk uit 2016.bij Sort Cases op ID en dan op OK.

  2. Ga naar Data, klik op Merge Files en dan Add Variables.

  3. Klik in het dialoogvenster op An external SPSS data file.

  4. Kijk in de Excluded variables box na of je de toegevoegde variabelen ziet. Zorg dat elke variabele een unieke naam heeft, zodat twee verschillende variabelen niet dezelfde naam hebben.
  5. Klik op de variabele die je toe wilt voegen, en dan op de box Match cases on key variables. Verplaats de variabele naar de Key variables box, en klik op OK.
  6. Sla het samengevoegde bestand op onder een nieuwe naam met File, save as.

Hoe kun je data in SPSS screenen en opschonen? - Chapter 5 (6e druk)

 

Typefouten

Het is altijd heel belangrijk om je data even door te lopen op bijvoorbeeld typefouten. Je kan dan natuurlijk alle ingevoerde data nog een keer controleren aan de hand van de oorspronkelijke data, maar dit kost erg veel tijd. Een makkelijkere manier is het opvragen van Frequencies. Dit doet je door de volgende stappen te volgen: Analyze –→ Descriptive Statistics –→ Frequencies.

Het screenen en opschonen van de data

Voordat je je data kunt analyseren is het van belang om je databestand te controleren voor errors, mogelijke fouten. Als eerst is het belangrijk om te kijken of je typefouten hebt gemaakt (zie boven). Daarnaast is het essentieel om te onderzoeken of er andere fouten zijn met je data. Je volgt hiervoor de volgende stappen:

  • Stap 1: Het controleren op errors. Eerst is het noodzakelijk om alle scores na te gaan van alle variabelen. Je onderzoekt dan of er bepaalde scores zijn die buiten de normale range vallen.

  • Stap 2: Het vinden en controleren van error in het databestand. Vervolgens is het noodzakelijk om uit te zoeken waar de error zich bevindt in het databestand. Deze error dient dan of gecorrigeerd te worden of te worden verwijderd.

Hoe controleer je op errors?

Wanneer je je bestand controleert op errors ga je met name na of er waarden zijn die buiten de normale range van mogelijke scores vallen. Bijvoorbeeld: wanneer variabele ‘geslacht’ gecodeerd is met 0 of 1 (waarbij geldt 0 = man en 1 = vrouw), is het niet mogelijk om scores te vinden anders dan 0 of 1. Scores die een ander getal dan 0 of 1 hebben (bijvoorbeeld 2 of 3) dienen daarom te worden verwijderd of te worden aangepast. Er zijn verschillende manieren om errors te vinden met IBM SPSS. Deze kunnen grofweg worden verdeeld in twee methoden: één voor error bij categorische variabelen en één voor error bij continue variabelen.

Het checken van categorische variabelen

Volg de volgende procedure om error te controleren bij categorische variabelen.

  1. Klik op Analyze en vervolgens op Descsriptive Statistics en dan op Frequencies.

  2. Kies de variabelen die je wil checken (bijvoorbeeld geslacht). Om een variabele gemakkelijk te vinden kun je je variabelenlijst sorteren op alfabet.

  3. Klik op de pijltjestoets (wijzend naar rechts) om de gewenste variabelen te verschuiven naar het variabelenvenster.

  4. Klik vervolgens op Statistics. Vink Minimum en Maximum aan in de Disperson sectie.

  5. Klik vervolgens op Continue en dan op OK (of op Paste om alles op te slaan in de Syntax Editor).

De syntax wordt als volgt gegenereerd:

FREQUENCIES VARIABLES=geslacht

/STATISTICS=MINIMUM MAXIMUM

/ORDER=ANALYSIS.

In dit voorbeeld zie je dat er één error is in het databestand. Er is namelijk één proefpersoon waarbij het geslacht is gecodeerd met cijfer 2 (in plaats van 0 of 1). Kijk daarom bij deze proefpersoon na of er sprake is van een mannelijk geslacht of vrouwelijk geslacht. Verander daarna de data van deze proefpersoon.

Het kan ook voorkomen dat er bij een proefpersoon vergeten is om data in te voeren voor de desbetreffende variabele. In de tabel kun je deze vinden bij ‘Missing’.

In dit voorbeeld is bijvoorbeeld te zien dat bij één proefpersoon de data voor variabele geslacht ontbreekt. Zoek deze proefpersoon op en kijk of je de data kunt corrigeren (zie hieronder).

Hoe vind en corrigeer je errors in het databestand?

Wat te doen wanneer je responsen hebt gevonden die buiten de normale range vallen? Dan is het belangrijk om deze proefpersonen op te sporen. Dit kun je doen door de volgende stappen te ondernemen:

  • Klik op Data en vervolgens kies je voor Sort Cases.

  • In het dialoogvenster kies je vervolgens de variabele waarvoor je wist dat er sprake was van error (in dit geval dus ‘geslacht’). Klik op de pijltjestoets (wijzend naar rechts) en verplaats de variabele naar het Sort By venster. Kies dan uit ascending (van laag naar hoog) of descending (van hoog naar laag). In ons voorbeeld willen we graag de proefpersoon vinden die bij geslacht antwoordoptie ‘2’ had. We kiezen in dit geval dus voor aflopend (descending).

  • Klik dan op OK.

Het checken van continue variabelen

Volg de volgende procedure om error te controleren bij continue variabelen.

  1. Klik op Analyze en vervolgens op Descriptive Statistics en dan op Descriptives.
  2. Kies de variabelen die je wil checken (bijvoorbeeld geslacht). Klik op de pijltjestoets (wijzend naar rechts) om de gewenste variabelen te verschuiven naar het variabelenvenster.
  3. Klik op Options. Je kunt zelf kiezen wat je wilt tonen: gemiddelde, standaarddeviatie, of minimum en maximum.
  4. Klik vervolgens op Continue en dan op OK (of op Paste om alles op te slaan in de Syntax Editor).

De syntax wordt als volgt gegenereerd:

DESCRIPTIVES

VARIABLES=age

/STATISTICS=MEAN STDDEV MIN MAX

Bekijk of de minimum en maximum logisch zijn, bijvoorbeeld een leeftijd van 2 tot 82. Bekijk ook of het gemiddelde logisch is, of dat er bepaalde gegevens zijn die het gemiddelde sterk doen afwijken.

Wat zijn case summaries?

Summarize Cases geeft je een tabel met daarin specifieke informatie voor elke proefpersoon. Je volgt de volgende stappen om deze samenvatting te verkrijgen:

  1. Klik op Analyze, ga naar Reports en kies dan voor Case Summaries.

  2. Kies de variabelen waarin je geïnteresseerd bent (in dit geval geslacht, provincie en leeftijd).

  3. Klik op Statistics en verwijder Number of Case van het Cell Statistics venster. Klik dan op Continue.

  4. Klik op Options en verwijder Subheadings for totals.

  5. Klik op Continue en vervolgens op OK (of op Paste als je de analyse wil opslaan in de Syntax Editor).

De syntax wordt als volgt gegenereerd:

SUMMARIZE

/TABLES=geslacht provincie leeftijd

/FORMAT=VALIDLIST NOCASENUM NOTOTAL LIMIT=5

/TITLE='Case Summaries'

/MISSING=VARIABLE

/CELLS=NONE.

In het voorbeeld is alleen een samenvatting gegeven van de eerste vijf proefpersonen. Dit kun je aangeven door onder Display Cases bij Limit cases to first het aantal te noteren (in dit geval 5).

Hoe gebruik je SPSS voor beschrijvende statistiek? - Chapter 6 (6e druk)

 

Wanneer je er zeker van bent dat er geen sprake is van error in je databestand dan kun je beginnen met de beschrijvende fase van je data-analyse. Dit noemde we beschrijvende statistiek ofwel descriptive statistics. Deze hebben als doel:

  • Het beschrijven van de kenmerken van je steekproef in de methodesectie van je artikel

  • Het checken van je variabelen om te onderzoeken of je aan bepaalde assumpties voldoet behorende bij de statistiektechnieken die je wilt uitvoeren om je onderzoeksvragen te beantwoorden

  • Het stellen van specifieke onderzoeksvragen

Wanneer het om onderzoek met menselijke proefpersonen gaat is het vrijwel noodzakelijk om algemene kenmerken te verzamelen. Denk hierbij aan het aantal mensen in de steekproef, het aantal of percentage mannen en vrouwen, de leeftijden, en opleidingsniveau.

Voorbeelden van beschrijvende statistieken zijn het gemiddelde, de standaarddeviatie en de spreiding van de scores.

Procedure voor het maken van een codeboek

Als je alleen een snelle samenvatting wilt van de kenmerken van je variabelen in je databestand heb je waarschijnlijk genoeg aan een codeboek. Hier volgt de procedure om een codeboek te verkrijgen.

  1. Klik op Analyze en ga naar Reports en kies Codebook.

  2. Selecteer de variabelen die je wilt (bijvoorbeeld geslacht, leeftijd) en sleep deze variabelen naar het Codebook Variables venster.

  3. Klik op het Output blad en vink alle Opties uit, behalve Label, Value Labels and Missing Values, uit.

  4. Klik op Statistics en zorg ervoor dat alle opties in beide secties zijn aangevinkt.

  5. Klik op OK (of op Paste om alles op te slaan in de Syntax Editor).

De syntax is dan als volgt:

DATASET ACTIVATE DataSet1.

CODEBOOK geslacht [n] leeftijd [s]

/VARINFO LABEL VALUELABELS MISSING

/OPTIONS VARORDER=VARLIST SORT=ASCENDING MAXCATS=200

/STATISTICS COUNT PERCENT MEAN STDDEV QUARTILES.

Deze output geeft je een snelle samenvatting van de proefpersonen in je databestand. Als je meer gedetailleerde informatie wilt hebben kun je deze verkrijgen door middel van Frequencies, Descriptive of Explore. Om informatie te verkrijgen van categorische variabelen kun je gebruikmaken van Frequencies.

Wat is de procedure voor het verkrijgen van beschrijvende statistiek voor categorische variabelen?

Om beschrijvende statistieken te krijgen van categorische variabelen maak je gebruik van de functie Frequencies. Deze vind je door de volgende stappen:

  1. Ga naar Analyze en vervolgens naar Descriptive Statistics en dan naar Frequencies.

  2. Kies vervolgens de categorische variabelen waarin je geïnteresseerd bent. Verschuif deze naar de variabelenbox.

  3. Klik dan op OK (of op Paste als je het wil opslaan op de Syntax Editor).

De syntax die bij deze procedure hoort is:

FREQUENCIES

VARIABES = geslacht

/ORDER = ANALYSIS

Wat is de procedure voor het verkrijgen van beschrijvende statistiek voor continue variabelen?

Voor continue variabelen (bijvoorbeeld leeftijd) is het makkelijker om Descriptives te gebruiken. Deze analyse verschaft de basis ‘samenvattende’ statistieken zoals het gemiddelde, de mediaan en de standaarddeviatie. Het betrouwbaarheidsinterval vind je door middel van Explore.

De procedure behorende bij het verkrijgen van beschrijvende statistiek voor continue variabelen is:

  1. Klik op Analyze selecteer daarna Descriptive Statistics en vervolgens Descriptives.

  2. Klik alle continue variabelen aan waarvan je graag beschrijvende statistieken voor wilt verkrijgen. Klik vervolgens op de pijltjestoets (wijzend naar rechts) om deze variabelen te verschuiven naar de Variables sectie.

  3. Klik op Options. Zorg ervoor dat de volgende statistieken zijn aangevinkt: mean, standard deviation, minimum, maximum en klik vervolgens ook skewness en kurtosis aan.

  4. Klik op Continue en vervolgens op OK (of op Paste om de analyse op te slaan in de Syntax Editor).

De syntax die bij deze procedure wordt gegenereerd is:

DESCRIPTIVES

VARIABLES = leeftijd

/STATISTICS=MEAN STDDEV MIN MAX KURTOSIS SKEWNESS

De Skewness functie geeft informatie over de symmetrie van de verdeling van de scores. Kurtosis geeft informatie over de piek van de verdeling. Als de verdeling van de scores perfect normaal verdeeld zouden zijn zouden zowel de Skewness als de Kurtosis negnoeg nul zijn. Een positieve waarde van skewness indiceert dat de scores zich met name aan de linkerkant bevinden. Negatieve waardes suggereren dat de scores zich met name aan de rechterkant begeven van het gemiddelde. Een Kurtosis van nagenoeg nul indiceert een verdeling die relaties vlak is (te veel proefpersonen in de extreme scores).

Hoe ontdek je ontbrekende data?

Bij het doen van onderzoek, in het bijzonder naar mensen, verkrijg je zelden van iedere casus alle gegevens. Daarom is het belangrijk dat bij het onderzoek ook gekeken wordt naar de ontbrekende data. Dit kan in SPSS met behulp van de Missing Value Analysis procedure (onderste optie in het Analyze menu). Tevens moet je beslissen hoe je tijdens het uitvoeren van statistische analyses met ontbrekende data omgaat. De Options-knop in veel van de statistische procedures in SPSS biedt diverse keuzemogelijkheden betreffende het omgaan met ontbrekende data. Het is belangrijk dat je hier zorgvuldig uit kiest, aangezien het grote gevolgen kan hebben op je resultaten. De verschillende opties voor het omgaan met ontbrekende data zijn:

  • De Exclude cases listwise-optie neemt alle casussen in de analyses mee, mits er geen sprake is van ontbrekende data. Een casus waarbij sprake is van ontbrekende data wordt volledig buiten de analyse gehouden.
  • De Exclude cases pairwise-optie (soms ook aangeduid als Exclude cases analysis by analysis) sluit alleen casussen uit indien de benodigde data voor een specifieke analyse ontbreekt. Ze worden wel meegenomen in een analyse waarvoor ze de benodigde informatie bevatten.
  • De Replace with mean-optie berekent de gemiddelde waarde voor de variabele en geeft elke missende casus deze waarde. Deze optie dient nooit te worden gebruikt, omdat het de resultaten van je analyse ernstig kan verstoren.

Het wordt sterk aangeraden om de optie exclude cases pairwise te gebruiken, tenzij er een zeer dringende reden is anders te doen.

Hoe meet je normaliteit?

Hier volgt de procedure om normaliteit te meten door middel van Explore.

  1. Kies Analyze en selecteer Descriptive statistics en vervolgens Explore.

  2. Klik de variabelen aan waarin je geïnteresseerd bent. Klik op de pijltjestoets (wijzend naar rechts) en sleep deze variabelen naar de Dependent list.

  3. Plaats in de Labels Cases by je onafhankelijke variabele.

  4. In de Display sectie: zorg ervoor dat Both is geselecteerd.

  5. Klik op Statistics en klik Descriptives en Outliers aan. Klik daarna op Continue.

  6. Klik daarna op Plots en klik onder Descriptives aan: Histogram. Vervolgens vink je Stem-and-leaf uit. Klik Normality plots with tests aan en klik daarna op Continue.

  7. Klik op Options. In de Missing Values sectie klik je op Exclude cases pairwise. Klik daarna op Continue en op OK (of op Paste om de analyse op te slaan in de Syntax Editor).

De syntax wordt als volgt gegenereerd:

EXAMINE VARIABLES=leeftijd

/ID=geslacht

/PLOT BOXPLOT HISTOGRAM NPPLOT

/COMPARE GROUPS

/STATISTICS DESCRIPTIVES

/CINTERVAL 95

/MISSING PAIRWISE

/NOTOTAL.

Interpretatie van de output van normaliteit

Bij het meten normaliteit komt er veel output uit. De output kun je als volgt interpreteren.

Trimmed mean

Deze functie haalt 5% van het bovenste en 5% van het onderste van de gegevens af, en berekent hiermee een nieuw gemiddelde, waarop de sterk afwijkende gegevens minder invloed hebben gehad. Als je dit nieuwe gemiddelde vergelijkt met het oorspronkelijke gemiddelde, kun je zien hoeveel invloed de meest afwijkende gegevens hebben. Je kunt de meest afwijkende gegevens zien bij Extreme Values.

Skewness en kurtosis

De Skewness functie geeft informatie over de symmetrie van de verdeling van de scores. Kurtosis geeft informatie over de piek van de verdeling. Tezamen geven de skewness en kurtosis informatie over de distributie van scores over de verschillende groepen.

Kolmogorov-Smirnov

De Kolmogorov-Smirnov test kan worden gebruikt om te onderzoeken of de resultaten normaal verdeeld zijn. Je voert deze toets uit met ‘Explore’. Je volgt dan de volgende stappen: Analyze –→ Descriptive statistics –→ Explore. Verevolgens kies je je afhankelijke variabele. Vervolgens ga je naar ‘Plots’. Bij ‘Boxplots’ vink je ‘None’ aan. Vervolgens vink je aan ‘Normality plots with tests’. Bij ‘Descriptive’ klik je ‘Stem-and-leaf’ uit en klink je ‘Histogram’ aan. Klik op ‘Continue’.

Vervolgens kijk je in je output naar de ‘Tests of Normality’ tabel. Een niet-significant resultaat (p > .05) indiceert een normale verdeling. In de tabel is sprake van een significante p-waarde, waardoor niet kan worden voldaan aan de assumptie van normaliteit. Dit komt vaak voor bij grote steekproeven.

Histograms

De vorm van de verdeling per groep is te zien met Histograms. Hiermee kun je bekijken of er sprake is van een normale verdeling.

Boxplot

De Boxplot geeft met een rechthoek 50% van de gevallen weer. De lijntjes erbuiten geven de kleinste en grootste waarde weer.

Soms worden in een Boxplot cirkels weergegeven, dit zijn de outliers.

Hoe controleer je of er outliers zijn?

‘Outliers’, of uitbijters, bestaan uit proefpersonen die extreem hoge of extreem lage waarden hebben in vergelijking met de meerderheid van de dataset. Er zijn verschillende technieken mogelijk om outliers te controleren, namelijk door middel van een histogram, boxplot of informatie in de descriptives tabel. Wanneer je outliers hebt gevonden, kun je nieuwe variabelen aanmaken die geen outliers bevatten.

  1. Je kunt eerst de variabele los van elkaar bekijken door middel van Analyze –→ Descriptives –→ Frequencies.

  2. Je kan nu de functie recode gebruiken wanneer de data bijvoorbeeld alleen de waardes 1 t/m 10 kan hebben maar er ook 100 in voorkomen. Als dit het geval is kan je door middel van ‘Recode into different variabele’ een nieuwe variabele aan maken. Voor dit laatste: klik op ‘Analyze’ -> ‘Descriptive Statistics’ -> ‘Explore’

  3. Klik op de variabele waarin je geïnteresseerd bent.

  4. Klik dan op ‘Statistics’ en klik op ‘Outliers’ → ‘Continue’ → ‘OK’

Welke grafieken gebruik je om data weer te geven? - Chapter 7 (6e druk)

 

In SPSS zijn er verschillende soorten grafieken en diagrammen die je kunt gebruiken om data weer te geven. De weergaven die hier worden behandeld, zijn histogrammen, staafdiagrammen, lijngrafieken, spreidingsdiagrammen en boxplots.

In het Graph menu in SPSS zijn er verschillende mogelijkheden om grafieken te maken, de makkelijkste methode is om de Chart Builder te gebruiken.

Hoe maak je een histogram?

Een histogram gebruik je in geval van een enkele continue variabele. Je maakt een histogram als volgt:

  1. Samengestelde samenvatting, gebaseerd op hoofdstuk 7 van SPSS Survival Manual van Pallant, 6e druk uit 2016.Selecteer in het Graph menu de Chart Builder en klik op OK.
  2. Selecteer onder Gallery de optie Histogram.
  3. Sleep de optie Simple Histogram naar de Chart Preview plek.
  4. Kies je variabelen in de lijst Variables en sleep het naar Chart Preview, naar de X-Axis zodat de variabele op de x-as wordt geprojecteerd.
  5. Je kunt per groep een histogram maken. Selecteer onder Groups/Point ID de optie Column Panels variable (voor grafieken naast elkaar) of Rows Panel variable (voor grafieken onder elkaar).
  6. Sleep de categorische variable voor de hele groep (bijvoorbeeld leeftijd) naar Panel (op de Chart Preview plek).
  7. Klik op OK, of op Paste om alles op te slaan in de Syntax Editor.

Een histogram geeft in omhoog gerichte balken de output weer.

Hoe maak je een staafdiagram?

Een staafdiagram gebruik je in geval van continue variabelen voor verschillende categorieën, of als je het aantal gevallen van een bepaalde categorie wilt tonen. Voor een staafdiagram heb je een categorische variabele nodig en een continue variabele. Een staafdiagram maak je als volgt:

  1. Selecteer in het Graph menu de Chart Builder en klik op OK.
  2. Selecteer onder Gallery de optie Clustered Bar en sleep deze naar de Chart Preview.
  3. Klik onder Element Properties op Display error bars en klik op Apply.
  4. Sleep de categorische variable voor een groep (bijvoorbeeld leeftijd) naar Cluster on X: set colour (op de Chart Preview plek).
  5. Sleep de andere categorische variable (bijvoorbeeld haarkleur) naar de X-Axis zodat de variabele op de x-as wordt geprojecteerd.
  6. Sleep de continue variabele (bijvoorbeeld gewichtsverlies) naar de Y-Axis zodat de variabele op de y-as wordt geprojecteerd.
  7. Klik op OK, of op Paste om alles op te slaan in de Syntax Editor.

Een staafdiagram geeft een vooraf bepaalde categorische variabele weer op de x-as en een continue variabele op de y-as. Voor een andere categorische variabele wordt de output weergegeven in balken (staven).

Hoe maak je een lijngrafiek?

Een lijngrafiek gebruik je voor het gemiddelde van een continue variabele bij verschillende waarden van een categorische variabele (bijvoorbeeld trimester 1, trimester 2, trimester 3). Ook eenweg of tweeweg ANOVA kun je weergeven met een lijngrafiek. Een lijngrafiek maak je als volgt:

  1. Selecteer in het Graph menu de Chart Builder en klik op OK.
  2. Selecteer onder Gallery de optie Multiple Line en sleep deze naar de Chart Preview.
  3. Sleep de continue variabele (bijvoorbeeld gewichtsverlies) naar de Y-Axis zodat de variabele op de y-as wordt geprojecteerd.
  4. Sleep een van de categorische variabelen (bijvoorbeeld leeftijd) naar Set Color en de andere categorische variabele (bijvoorbeeld haarkleur) naar X-Axis.
  5. Klik op OK, of op Paste om alles op te slaan in de Syntax Editor.

Met een lijngrafiek toon je het verloop van de categorische variabelen op de x-as in de vorm van lijnen. De continue variabele wordt weergegeven op de y-as.

Hoe maak je een spreidingsdiagram?

Een spreidingsdiagram (scatterplot) gebruik je in geval van een verband tussen twee continue variabelen. Een spreidingsdiagram geeft de volgende informatie:

  • of de variabelen een lineair of gebogen (vloeiend) verband hebben
  • of de variabelen een positief verband hebben
  • hoe sterk het verband is

Een spreidingsdiagram maak je als volgt:

  1. Selecteer in het Graph menu de Chart Builder en klik op OK.
  2. Selecteer onder Gallery de optie Scatter/Dot. Selecteer Grouped Scatter en sleep deze naar de Chart Preview.
  3. Sleep de continue onafhankelijke variabele (bijvoorbeeld gewichtsverlies) naar de X-Axis zodat de variabele op de x-as wordt geprojecteerd.
  4. Sleep de afhankelijke variabele (bijvoorbeeld cholesterolniveau) naar de Y-Axis zodat de variabele op de y-as wordt geprojecteerd.
  5. Groepen kun je tonen door elke categorische groepsvariabele (bijvoorbeeld leeftijd) naar Set Colour te slepen.
  6. Klik op OK, of op Paste om alles op te slaan in de Syntax Editor.

Een spreidingsdiagram toont vele puntjes in een grafiek.

Een spreidingsdiagram kun je maken voor twee variabelen, of een matrix van spreidingsdiagrammen voor een hele groep variabelen. Een matrix van meerdere spreidingsdiagrammen binnen een grafiek maak je met de optie Scatterplot Matrix in Gallery.

Hoe maak je een boxplot?

Een boxplot gebruik je om de distributies van resultaten te vergelijken. Een mogelijkheid is om de distributie van een continue variabele met de hele steekgroep te vergelijken, een andere mogelijkheid is om de resultaten op te breken in verschillende groepen. Een boxplot maak je als volgt:

  1. Selecteer in het Graph menu de Chart Builder en klik op OK.
  2. Selecteer onder Gallery de optie Simple Boxplot en sleep deze naar de Chart Preview.
  3. Kies je categorische variabelen (bijvoorbeeld leeftijd) in de lijst Variables en sleep deze naar Chart Preview, naar de X-Axis zodat de variabele op de x-as wordt geprojecteerd.
  4. Selecteer onder Groups/Point ID de optie Point ID label.
  5. Klik op OK, of op Paste om alles op te slaan in de Syntax Editor.

Een boxplot toont de categorische variabele op de x-as, met per groep een lijn (genaamd whisker) met een blok (box) erin.

Een boxplot geeft de volgende informatie:

  • de boxplot toont de distributie van de continue variabele en de invloed die de categorische variabele heeft
  • de box toont 50% van de gevallen
  • de horizontale lijn binnen de box toont de mediaan
  • de whiskers tonen de grootste en kleinste waarden
  • de outliers worden getoond in cirkels buiten de whiskers
  • extreme outliers, meer dan drie keer de lengte van de box buiten de box, worden getoond met een sterretje (*)
  • de boxplot toont variëteit binnen een groep en de verschillen tussen groepen

Hoe pas je een grafiek of diagram aan?

Met de Chart Editor kun je grafieken en diagrammen aanpassen. Hiermee kun je onder andere het volgende aanpassen:

  • de verwoording van labels
  • de positie en het beginpunt van de assen
  • de vormgeving van tekst, lijnen, kleuren, patronen etc.

Hoe importeer je grafieken en diagrammen naar Word of andere tekstverwerkers?

De gemaakte grafieken en diagrammen kun je in Microsoft Word importeren. In andere tekstverwerkers bestaat er soms ook een optie om uit SPSS te importeren, de procedure werkt dan ongeveer hetzelfde. Je plaatst grafieken en diagrammen in Word via de volgende procedure:

  1. Open in Word het bestand waarin je de grafiek wilt tonen. Klik op het IBM SPSS icoontje, deze bevindt zich afhankelijk van je versie van Word onderaan of bovenaan in het menu in Word.
  2. Open in SPSS het Viewer scherm.
  3. Klik op de grafiek, er verschijnt een rand omheen.
  4. Klik op Edit en dan op Copy, zodat de grafiek wordt gekopieerd om elders te kunnen plakken.
  5. Ga naar het Word document en klik op de plek waar je de grafiek wilt hebben, klik op Paste.
  6. Sla het bestand op.

Hoe manipuleer je data in SPSS? - Chapter 8 (6e druk)

 

Als de ruwe data accuraat in SPSS zijn ingevoerd, is de volgende stap het bewerken en klaarmaken van de data, zodat er later analyses kunnen worden uitgevoerd en hypothesen kunnen worden getest.

Zorg dat je bij alles wat je aanpast ook gelijk het codeboek aanpast. Een alternatief is om de Syntax option te gebruiken, dit houdt in dat je alle uit te voeren acties bijhoudt in de Syntax Editor, zodat er een lijst vormt van wat er is aangepast.

Hoe bereken je de grootte van de schaal?

Er zijn twee stappen om de totale grootte van de schalen te berekenen:

  • Stap 1: Negatief verwoorde items positief omdraaien
  • Stap 2: Alle uitkomsten optellen

Stap 1: Negatief verwoorde items positief omdraaien

Vragen die negatief verwoord zijn (bijvoorbeeld 'Ik ben meestal slecht in statistiek' moeten worden omgezet naar een positieve verwoording (bijvoorbeeld 'Ik ben bijna nooit goed in statistiek') zodat alle uitkomsten dezelfde soort interpretatie krijgen. Dit is eenvouding om te zetten als er bijvoorbeeld een Likert-schaal is gebruikt, waarbij 1 absoluut oneens betekent en 5 heel erg eens. Je kunt dit in SPSS automatisch toepassen met de volgende procedure:

  1. Klik op Transform en selecteer Recode into different variables.
  2. Selecteer daarna de data die je wilt recoderen en verplaats ze naar Input Variable - Output Variable.
  3. Klik per variabele op de variabele en typ een nieuwe naam in Output Variable met Change.
  4. Recodeer nu de waarden of de variabelen. Typ 1 in Old Value en 5 in New Value. Herhaal dit voor alle variabelen.
  5. Hierna kan je op Continue klikken en daarna op OK of op Paste om alles op te slaan in de Syntax Editor).

Kijk in Variable View na of de variabelen nu allemaal dezelfde soort interpretatie kunnen krijgen.

Stap 2: Alle uitkomsten optellen

Met de volgende procedure tel je de uitkomsten op om de schaalgrootte te berekenen:

  1. Klik op Transform en dan op Compute Variable.
  2. Typ een naam voor de totale schaalresultaten in Target Variable. Zorg dat je geen naam gebruikt die al eerder voor een andere variabele is gebruikt, want dan wis je de eerdere resultaten.
  3. Ga via Type and Label naar Label, voer een beschrijving van de schaal in (bijvoorbeeld gewichtstoename) en klik op Continue.
  4. Klik op het eerste item op de variabelenlijst links. Verplaats dit naar de Numeric Expression box.
  5. Klik op + in de rekenmachine.
  6. Herhaal dit tot alle mogelijke schaaluitkomsten in de box staan. Begin met de niet omgedraaide uitkomsten (bijvoorbeeld op4, op6) en ga daarna verder met de omgedraaide uitkomsten (Rop3, Rop5, Rop7).
  7. De numerieke expressie wordt dan: op1+op4+op6+Rop3+Rop5+Rop7.
  8. Klik op OK (of op Paste om het eerst in de Syntax Editor te plakken en daarna op Run).

Kijk het geheel na om te controleren of het logischerwijze klopt met de resultaten van je onderzoek. Gebruik Descriptives om na te gaan of er geen extreme waarden in de output zitten. Vergelijk ook het gemiddelde met de resultaten uit andere onderzoeken en met je verwachtingen. Kijk de distributie na met skewness en kurtosis. Door een histogram te maken, kun je direct zien of de resultaten normaal verdeeld zijn.

Hoe verdeel je een continue variable in groepen?

Met de volgende procedure kun je een continue variabele (zoals gewicht) verdelen in gelijke groepen (bijvoorbeeld 0 tot 50 kilo, 51 tot 100 kilo, en 101 tot 150 kilo).

  1. Klik op Transform en dan op Visual Binning.
  2. Verplaats de continue variabele naar Variables to Bin en klik op Continue.
  3. Een histogram verschijnt in Visual Binning.
  4. Typ de naam voor de nieuwe categorische variabele die je aan het maken bent in Binned Variabele. Bij een groep met een gewicht van 0 tot 50 kilo, kun je bijvoorbeeld Weightgp1 gebruiken.
  5. Klik op Make Cutpoints en dan op Equal Percentiles Based on Scanned Cases. Voer in Number of Cutpoints een nummer in dat 1 minder is dan het aantal groepen dat je wilt maken. Kijk of de percentages die in Width verschijnen kloppen. Bij drie groepen is dit bijvoorbeeld 33.33% per groep. Klik op Apply.
  6. Klik op Make Labels.
  7. Klik op OK (of op Paste om het eerst in de Syntax Editor te plakken en daarna op Run).

Hoe verdeel je een categorische variabele in categorieën?

Bij sommige onderzoeken is het netter om de resultaten in categorieën op te delen, bijvoorbeeld als slechts een paar leden van de populatie met een bepaald afwijkend kenmerk sterk afwijkende resultaten veroorzaken. Ook bij logistische regressie kan dit nodig zijn. Hiervoor kun je de volgende procedure gebruiken:

  1. Klik op Transform en selecteer Recode into different variables.
  2. Selecteer de variabele die je wilt hercoderen en typ er een nieuwe naam voor in Name. In Label kun je eventueel een uitgebreide naam invoeren. Klik daarna op Change.
  3. Klik op Old and New Values.
  4. Hernoem elke Old Value naar een New Value. Je kunt waarden in dezelfde categorie stoppen door ze dezelfde waarde te geven, bijvoorbeeld als volgt: 1 blijft 1, 2 wordt 1, 3 wordt 2, 4 wordt 3, 5 wordt 4, 6 wordt 5 enzovoorts.
  5. Hierna kan je op Continue klikken en daarna op OK of op Paste om alles op te slaan in de Syntax Editor).
  6. Ga naar Data Editor en kies Variable View. Schrijf toepasselijke labels voor de nieuwe waarden.

Kijk met Frequencies na of het geheel nog klopt.

Hoe zet je tekst om in numerieke waarden?

Het omzetten van tekst naar numerieke waarden is vooral van belang bij gebruik van databases, zoals Microsoft Access. De procedure is:

  1. Klik op Transform en selecteer Automatic Recode.
  2. Verplaats de variabele die is uitgedrukt in tekst, en verplaats deze naar Variable-New Name.
  3. Typ de nieuwe naam die je wilt gebruiken in New name en klik op Add New Name.
  4. Klik op OK.

Hoe ga je om met perioden en tijdsaanduidingen?

Met de Date and Time Wizard kun je perioden tussen metingen duidelijk maken, bijvoorbeeld hoeveel uren er zijn tussen twee data. Dit kan met de volgende procedure:

  1. Klik op Transform en selecteer Date and Time Wizard.
  2. Klik op Calculate with dates and times en op Next.
  3. Selecteer Calculate the number of time units between two dates en klik op Next.
  4. Verplaats de eerste datum naar Date1.
  5. Verplaats de tweede datum naar minus Date2.
  6. Selecteer de tijdseenheid in Unit en klik op Next.
  7. Typ in Result Variable een naam voor de variabele (bijvoorbeeld AantalDagenNietGestudeerd).
  8. Plaats de bewerking desgewenst eerst naar het syntax scherm of ga gelijk naar Execution en klik op Finish.

Hoe transformeer je variabelen?

Variabelen transformeren is een mogelijkheid die relatief vaak handig is, onder andere als de resultaten geen mooie normaalverdeling vormen. Een alternatief is om non-parametrische technieken te gebruiken, maar het is makkelijker om de variabelen te transformeren. Er is controverse rond het transformeren, dus denk goed na over in hoeverre je de resultaten wilt aanpassen. De procedure voor het transformeren is als volgt:

  1. Klik op Transform en selecteer Compute Variable.
  2. Typ in Target Variable een nieuwe naam voor de variabele.
  3. Kies in Functions de juiste bewerking. Mogelijke bewerkingen:
    • Een Square root is een boog aan het begin van de x-as en daarna alleen nog maar geleidelijke afname. Formule: new variable = SQRT (old variable).
    • Een Logarithm is een steile boog aan het begin van de x-as en daarna een steile daling. Formule: new variable = LG10 (old variable).
    • Een Inverse begint hoog op de y-as, gevolgd door eerst een steile en daarna een geleidelijke daling. Formule: new variable = 1 / (old variable).
    • Een Reflect and square root is een omgekeerde square root, die pas na een stuk van geen actie op de x-as aanvangt. Formule: new variable = SQRT (K - old variable) waarbij K = de hoogst mogelijke waarde + 1.
    • Een Reflect and logarithm is een omgekeerde Logarithm, die pas na een stuk van geen actie op de x-as aanvangt. Formule: new variable = LG10 (K - old variable) waarbij K = de hoogst mogelijke waarde + 1.
    • Een Reflect and inverse is een omgekeerde Inverse, die pas na een stuk van geen actie op de x-as aanvangt met een geleidelijke en vervolgens steile stijging. Formule: new variable = 1 / (K - old variable) waarbij K = de hoogst mogelijke waarde + 1.
  4. Bekijk de uiteindelijke formule in Numeric Expression en schrijf deze op in je codeboek naast de nieuwe variabelenaam.
  5. Klik op Type and Label en schrijf bij Label een korte omschrijving van de nieuwe variabele. Zorg dat de nieuwe variabele een unieke, niet eerder gebruikte naam heeft.
  6. Klik op OK (of op Paste om het eerst in de Syntax Editor te plakken en daarna op Run).
  7. Controleer in Analyze, Frequencies of de stijlheid (skewness) en kromheid (kurtosis) zijn verbeterd.
  8. Klik bij Frequencies op Charts en selecteer Histogram om te controleren of de distributie is verbeterd.

Hoe controleer je de betrouwbaarheid van een schaal? - Chapter 9 (6e druk)

 

De waarde van een onderzoek is in grote mate afhankelijk van de betrouwbaarheid van de gebruikte schaal. Een onderdeel van betrouwbaarheid is Interne consistentie (internal consistency): de mate waarin de items van een schaal met elkaar samenhangen. Deze kan bijvoorbeeld worden berekend met de Cronbach’s cofficient alpha in SPSS. Hierbij geldt dat een Cronbach’s alpha van .7 of groter duidt op een betrouwbare schaal. Bij korte schalen met weinig eenheden zijn er echter lage Cronbach waarden en zeggen deze niet zoveel.

Hoe controleer je de betrouwbaarheid van een schaal?

De procedure om de betrouwbaarheid van een schaal te controleren is als volgt:

  1. Controleer of alle negatief geformuleerde waarden al zijn omgezet naar positief geformuleerde waarden.
  2. Klik op Analyze, selecteer Scale en dan Reliability Analysis.
  3. Verplaats alle onderdelen van de schaal naar Items.
  4. Selecteer onder Model de optie Alpha.
  5. Typ de naam van de schaal in Scale label.
  6. Klik op Statistics. In Descriptives for, selecteer Item, Scale en Scale if item deleted. Selecteer in Inter-Item de optie Correlations. Selecteer ook in Summaries de optie Correlations.
  7. Hierna kan je op Continue klikken en daarna op OK of op Paste om alles op te slaan in de Syntax Editor).

Welke conclusies trek je over de betrouwbaarheid aan de hand van de output?

In de output moet je de volgende dingen nakijken om de betrouwbaarheid te verhogen:

  • Controleer het aantal gevallen en het aantal waarden.
  • Controleer nogmaals of er geen negatieve waarden zijn in de Inter-Item Correlation Matrix.
  • Controleer of de Cronbach waarden boven 0.7 liggen.
  • Controleer in Corrected Item-Total Correlation het verband tussen de uitkomsten en de totale uitkomst. Een mogelijkheid is om uitzonderlijk lage uitkomsten (lager dan 0.3) te verwijderen.
  • Controleer in Alpha if Item Deleted de impact van elke waarde. Als de impact van een enkele waarde zo hoog is dat het zelfs hoger is dan de final alpha value, kun je overwegen de waarde te verwijderen.
  • Controleer in Summaty Item Statistics de gemiddelde correlatie tussen waarde. Een sterke onderlinge samenhang geeft een hoge betrouwbaarheid aan. Bij veel onderzoeken, zeker in geval van weinig waarden, is deze samenhang echter niet erg sterk.

Hoe geef je informatie over de betrouwbaarheid weer?

Een open en transparant onderzoek geeft meestal informatie over de betrouwbaarheid van de schalen, in de meeste gevallen in het hoofdstuk of tekstdeel over methoden. Noem in ieder geval de interne consistentie, beschrijf de schaal en geef een samenvatting van informatie over de betrouwbaarheid van de schalen. Deze informatie biedt houvast om de resultaten van de steekproef meer te kunnen waarderen en beter te kunnen interpreteren.

Hoe weet je welke methode je moet gebruiken in SPSS? - Chapter 10 (6e druk)

 

Welke statistische methoden zijn er?

In sommige onderzoeken wordt een enkele methode gebruikt, maar bij veel onderzoeken worden meerdere methoden gebruikt. In elk geval is het cruciaal om de juiste onderzoeksmethode te kiezen.

Hieronder wordt nog niet behandeld hoe je de onderzoeksmethoden precies toepast. Het overzicht hieronder is namelijk bedoeld om een korte introductie te geven van onderzoeksmethoden, zodat je op basis daarvan een keuze kunt maken voor welke methode je nodig hebt.

Welke methoden zijn er om verbanden tussen variabelen te onderzoeken?

Als je de verbanden tussen verschillende variabelen wilt onderzoeken, bijvoorbeeld tussen leeftijd en drugsgebruik, zijn er verschillende methoden mogelijk. Deze methoden zijn ook handig voor het verwerken van de resultaten van de meeste soorten enquêtes.

Introductie correlatie

Een correlatieanalyse wordt gebruikt om de sterkte en de richting van een lineaire relatie tussen twee variabelen te beschrijven. Er zijn verschillende statistieken beschikbaar in IBM SPSS om een correlatie te meten, waaronder de Pearson productmoment correlation cofficient (r) en de Spearman Rank Order Correlation (rho). Pearson r wordt gebruikt bij variabelen op intervalniveau terwijl de Spearman rho wordt gebruikt bij variabelen op ordinaal niveau. Een correlatie geeft aan in hoeverre twee variabelen samenhangen, bijvoorbeeld het zijn van een man en het dragen van roze kleding.

Positieve en negatieve correlaties

Correlaties worden ook vaak gebruikt om data te beschrijven en de data te checken op assumpties. De correlatiecoëfficiënt kan zowel negatief als positief zijn en ligt altijd tussen -1 en 1. Een correlatie van -1 is een perfect negatieve correlatie. Hierbij is sprake van een verband tussen twee tegenovergestelde dingen. Denk hierbij aan het dragen van een bikini en het niet dragen van handschoenen. Een correlatie van 1 is een perfecte positieve correlatie. Hierbij is sprake van een verband tussen twee positieve of twee negatieve variabelen. Bijvoorbeeld: het dragen van een bikini en het eten van een ijsje. Een correlatie van 0 indiceert dat er geen sprake is van een relatie tussen twee variabelen.

Voorbeeld van een onderzoeksvraag met correlaties

Nu volgt een voorbeeld van een onderzoeksvraag naar een correlationeel verband.

Onderzoeksvraag: Is er een verband tussen de hoeveelheid tentamenstress en de hoeveelheid alcoholconsumptie van studenten? Drinken mensen met meer tentamenstress meer alcohol of minder alcohol?

  • Wat heb je nodig: twee variabelen, allebei continue, of één continue en de ander dichotoom (twee waarden)
  • Wat doet het: correlatie beschrijft de relatie tussen twee continue variabelen van zowel de sterkte van de relatie als de richting van het verband.
  • Niet-parametrisch alternatief: Spearman Rank Order Correlation (rho).

Introductie partiële correlatie

Deze vorm van correlatie bouwt verder op Pearson correlatie. Partiële correlatie stelt je in staat om de effecten van een misleidende variable te beïnvloeden. Als een variabele zoals sociaal wenselijk antwoorden bijvoorbeeld je onderzoeksresultaten beïnvloedt, kun je deze effecten verwijderen.

Introductie multipele regressie

De multiple regressieanalyse kijkt of er een (voorspellend) verband is op basis van de correlatie van meerdere onafhankelijke variabelen met de afhankelijke variabelen. De multiple regressieanalyse maakt gebruik van continue of ordinale data maar kan daarnaast ook één of meerdere categorische variabelen meenemen als onafhankelijke variabelen.

In principe kunnen factorial ANOVA en multipele regressie hetzelfde berekenen. Factorial ANOVA wordt in de praktijk vaker gebruikt voor experimenteel onderzoek en de multipele regressie meestal voor niet experimenteel onderzoek.

Er bestaan drie soorten multipele regressie: standaard, hiërarchisch of stapsgewijs.

Introductie factoranalyse

Met factoranalyse kun je een grote hoeveelheid variabelen of schaaleenheden terugbrengen tot een behapbaar aantal factoren. Factoranalyse stelt je namelijk in staat om patronen in correlatie te zoeken en soortgelijke groepen te vinden. Deze methode wordt gebruikt om een onderliggende structuur bloot te leggen, schalen te ontwikkelen en meeteenheden te bepalen.

Welke methoden zijn er om verschillen tussen groepen te onderzoeken?

Als je wilt onderzoeken of er een significant verschil is tussen meerdere groepen, zijn er meerdere methoden die je kunt gebruiken. De parametrische versies van deze methoden zijn alleen geschikt als de data een normaalverdeling met interval geschaalde gegevens betreffen. In de overige gevallen zijn er non-parametrische alternatieven.

Introductie t-tests

T-toetsen ofwel t-tests gebruik je bij twee verschillende groepen of twee verschillende datasets en je de gemiddelde score van een continue variabele wilt vergelijken. Er bestaan verschillende soorten t-toetsen. De twee meest voorkomende zijn de onafhankelijke t-toets (independent-samples t-test) en de gepaarde t-toets (paired-samples t-test). De onafhankelijke t-toets wordt gebruikt wanneer de je de gemiddelde scores van twee verschillende groepen wilt vergelijken. De gepaarde t-toets gebruik je wanneer je de gemiddelde scores van dezelfde groep mensen wil vergelijken op verschillende momenten of wanneer je gematchte paren hebt.

De non-parametrische alternatieven voor t-tests zijn de Mann-Whitney U Test en de Wilcoxon Signed Rank Test.

Introductie eenweg ANOVA

ANOVA is de afkorting voor Analysis of Variance. Een eenweg variantieanalyse (one-way analysis of variance) heeft één onafhankelijke variabele (deze wordt de factor genoemd) die verschillende niveaus heeft. Deze niveaus corresponderen met verschillende groepen of condities. Een voorbeeld is de invloed van de vorm van therapie op de mate van depressie. De vorm van therapie (psychotherapie, farmacotherapie, geen therapie) is hierbij de onafhankelijke variabele, bestaande uit drie niveaus. De afhankelijke variabele hierbij is de mate van depressie.

De eenweg variantieanalyse heet zo, aangezien het de variantie (variabiliteit in scores) tussen verschillende goepen vergelijkt met de variantie binnen elke groep (mate van toeval). De eenweg variantieanalyse berekent vervolgens een F-ratio. Deze F-ratio staat voor de variantie tussen de groepen gedeeld door de variantie binnen de groepen. Een grote F-ratio indiceert meer variabiliteit tussen de groepen (veroorzaakt door de onafhankelijke variabele) dan binnen de groepen (de error). Een significante F-toets suggereert dat er sprake is van een verschil tussen de verschillende groepen. Het vertelt ons echter niet wat dit verschil precies is. Om dit te onderzoeken is een post-hoc toets vereist, met een post-hoc toets onderzoek je welke groepen precies significant verschillen van elkaar.

Binnen eenweg variantieanalyse zijn er twee soorten: herhaalde metingen ANOVA ofwel repeated measures ANOVA (in geval van dezelfde mensen maar op meerdere momentopnames) en ANOVA tussen groepen ofwel between-groups ANOVA (resultaten bij twee of meer verschillende groepen mensen). De laastgenoemde soort kan ook worden toegepast bij onafhankelijke steekproeven.

Het non-parametrische alternatief voor eenweg ANOVA zijn de Kruskal-Wallis Test en de Friedman Test.

Introductie tweeweg ANOVA

Met tweeweg variantieanalyse kun je de effecten van twee onafhankelijke variabelen op een afhankelijke variabele zichtbaar maken.

Binnen tweeweg variantieanalyse zijn er twee soorten: herhaalde metingen ANOVA ofwel repeated measures ANOVA (in geval van dezelfde mensen maar op meerdere momentopnames) en ANOVA tussen groepen ofwel between-groups ANOVA (resultaten bij twee of meer verschillende groepen mensen). Bij sommige onderzoeken worden deze methoden gecombineerd, dit wordt 'Mixed Designs' of 'Split Plot' genoemd.

Introductie MANOVA

MANOVA is de afkorting voor Multivariate Analysis of Variance. Bij een MANOVA is in tegenstelling tot andere analyses een toets waarbij niet één afhankelijke variabele wordt voorspeld, maar meerdere afhankelijke variabelen. Een MANOVA vergelijkt groepen en vertelt of er sprake is van verschillen tussen de groepen met betrekking tot de combinatie van verschillende afhankelijke variabelen.

Introductie ANCOVA

ANCOVA is de afkorting voor Analysis of covariance. Met een ANCOVA kan men een variabele in twee of meer groepen met elkaar vergelijken en kijken of andere variabelen invloed hebben op deze relatie. Deze andere variabelen worden ook wel covariaten genoemd. Eigenlijk combineert de ANCOVA de ANOVA analyse en de regressieanalyse. Met de ANCOVA kan men kijken of een populatiegemiddelde van de afhankelijke variabele gelijk is over alle levels van de categorische onafhankelijke variabele en controleert tegelijkertijd de effecten van andere continue variabelen. Je kunt ANCOVA gebruiken als je de effecten van een bepaalde variabele wilt verwijderen.

Hoe maak je een besluit?

Het volgende stappenplan helpt bepalen welke methode je in SPSS gebruikt:

  1. Bepaal welke vragen je wilt beantwoorden. Formuleer de vragen zo specifiek mogelijk.
  2. Bepaal welke enquête-onderdelen en schalen je nodig hebt.
  3. Bepaal welke soort variabelen nodig zijn (afhankelijk/onafhankelijk, categorisch/ordinaal/continu).
  4. Maak per onderzoeksvraag een diagram, om voor jezelf te visualiseren welke resultaten je beoogt.
  5. Beslis of je een parametrische methode kunt gebruiken, of een non-parametrisch alternatief nodig hebt. Vraag jezelf af of er sprake is van een normaalverdeling, en of aan de andere assumpties voor specifieke parametrische methoden is voldaan.
  6. Maak het uiteindelijke besluit welke methode je gaat gebruiken. Gebruik het overzicht van benodigdheden hieronder.

Wat is er nodig voor de meest gebruikte methoden in SPSS?

Hier volgt per methode in SPSS wat ervoor nodig is qua variabelen etc., bij welke soort onderzoeksvragen de methode meestal wordt gebruikt, wat voor resultaten er uit het onderzoek komen, en hoe de output meestal wordt weergegeven.

Chi-kwadraat bij onafhankelijke variabelen

  • Onderzoekssoort: verbanden tussen variabelen onderzoeken
  • Voorbeeldvraag: Wat is het verband tussen het aantal statistiekvakken en uitvalpercentages binnen de studie psychologie?
  • Benodigdheden: een categorische onafhankelijke variabele en een categorische afhankelijke variabele

Correlatie

  • Onderzoekssoort: verbanden tussen variabelen onderzoeken
  • Voorbeeldvraag: Is er een verband tussen leeftijd en empathie? Worden mensen empathischer naarmate ze ouder worden?
  • Benodigdheden: twee continue variabelen

Partiële correlatie

  • Onderzoekssoort: verbanden tussen variabelen onderzoeken
  • Voorbeeldvraag: Als de effecten gecorrigeerd zijn voor sociaal wenselijk antwoorden, is er dan nog steeds een verband tussen empathie en het hebben van een grote vriendenkring?
  • Benodigdheden: drie continue variabelen (waarvan een sociaal wenselijk antwoorden is)

Multipele regressie

  • Onderzoekssoort: verbanden tussen variabelen onderzoeken
  • Voorbeeldvraag: Hoeveel variantie in sociaal zijn kan worden verklaard door: empathie, zelfvertrouwen en dominantie? Welke van deze variabelen heeft de grootste invloed op hoe sociaal iemand is?
  • Benodigdheden: een continue afhankelijke variabele en minstens twee continue onafhankelijke variabelen

Onafhankelijke t-toets

  • Onderzoekssoort: verschillen tussen groepen onderzoeken
  • Voorbeeldvraag: Zijn mannen vaker verkouden dan vrouwen?
  • Benodigdheden: een categorische onafhankelijke variabele met slechts twee groepen, en een continue afhankelijke variabele

Gepaarde t-toets

  • Onderzoekssoort: verschillen tussen groepen onderzoeken
  • Voorbeeldvraag: Helpt tien weken karatetraining bij het verminderen van depressie? Is er een verschil tussen tijdsopname 1 (voor de training) en tijdsopname 2 (na de training)?
  • Benodigdheden: een categorische onafhankelijke variabele (tijdsopname 1 en tijdsopname 2) en een continue afhankelijke variabele

Eenweg ANOVA tussen groepen

  • Onderzoekssoort: verschillen tussen groepen onderzoeken
  • Voorbeeldvraag: Is er een verschil in empathie bij mensen onder 20, tussen 21 en 40, en 41 jaar en ouder?
  • Benodigdheden: een categorische onafhankelijke variabele en een continue afhankelijke variabele

Tweeweg ANOVA tussen groepen

  • Onderzoekssoort:verschillen tussen groepen onderzoeken
  • Voorbeeldvraag: Wat is het effect van leeftijd op empathie bij mannen en bij vrouwen?
  • Benodigdheden: twee categorische onafhankelijke variabelen en een continue afhankelijke variabele

Mixed ANOVA

  • Onderzoekssoort: verschillen tussen groepen onderzoeken
  • Voorbeeldvraag: Wat is effectiever in het stimuleren van een passie voor statistiek (een universitaire studie versus makkelijker bruikbare software in de toekomst), gemeten op drie momenten (voor de studie, na de studie, en tien jaar later wanneer software verder ontwikkeld is)?
  • Benodigdheden: een tussen-groepen onafhankelijke variabele, een binnen-groepen onafhankelijke variabele (de tijdsopnames) en een continue afhankelijke variabele (de passie voor statistiek)

MANOVA

  • Onderzoekssoort: verschillen tussen groepen onderzoeken
  • Voorbeeldvraag: Hebben vrouwen eigenschappen waardoor ze meer effecten ervaren van verliefdheid dan mannen? (gemeten met betrekking tot optimisme, meegaandheid en hoeveelheid serotonine)?
  • Benodigdheden: een categorische onafhankelijke variabele en minstens twee continue afhankelijke variabelen

ANCOVA

  • Onderzoekssoort: verschillen tussen groepen onderzoeken
  • Voorbeeldvraag: Is er een groter significant verschil in de uitkomsten van een tentamen statistiek, als mensen een universitaire studie hebben gevolgd of als software in de toekomst verder is ontwikkeld (gecorrigeerd voor de uitkomsten vooraf)?
  • Benodigdheden: een categorische onafhankelijke variabele, een continue afhankelijke variabele (de uitkomsten op tijdsopname 2) en minstens een continue covariabele (tijdsopname 1).

Wanneer en hoe wordt een correlatieanalyse toegepast? - Chapter 11 (6e druk)

 

Correlatieanalyse wordt toegepast om de sterkte en richting van een lineaire relatie tussen twee variabelen aan te duiden. In dit hoofdstuk worden twee correlatiecoëfficiënten genoemd: (1) Pearson r voor continue variabelen (op interval niveau) en in gevallen waarbij er sprake is van één continue en één dichotome variabele, en (2) Spearman rho voor variabelen op ordinaal niveau en in gevallen dat je data niet voldoet aan de criteria voor de Pearson correlatie. Deze tekst laat zien hoe je een bivariate Pearson r en een niet-parametrische Spearman rho uitrekent.

Welke voorbereidende analyses moeten gedaan worden?

Voordat je een correlatieanalyse uitvoert, is het handig om eerst een scatterplot te genereren; aan de hand hiervan kan je kijken of aan de assumptie van lineariteit en homoscedasticiteit is voldaan. Daarnaast geeft een scatterplot je een helderder beeld van de aard van de relatie tussen je variabelen.

Procedure voor het genereren van een scatterplot:

  1. Klik in het menu bovenaan het scherm op Graphs en klik vervolgens op Legacy Dialogs.

  2. Klik op Scatter/Plot en kies Simple Scatter. Klik nu op Define.

  3. Klik op de eerste variabele (meestal de afhankelijke variabele) en verplaats deze naar de box van de y-as.

  4. Klik op de tweede variabele (meestal de onafhankelijke variabele) en verplaats deze naar de box van de x-as.

  5. In de Label Cases by box kun je je ID variabele zetten, zodat outliers kunnen worden geïdentificeerd.

  6. Klik op OK (of op Paste om de syntax editor te bewaren).

Interpretatie van de scatterplot-output

De scatterplot kan worden gebruikt om te controleren voor een aantal aspecten van de verdeling van twee variabelen:

  1. Controleren voor outliers, ofwel extreme data-waarden die afwijken van het cluster van data-waarden. Probeer te achterhalen waarom dit outliers zijn (is de data wel goed ingevoerd?). Wanneer je een outlier hebt geïdentificeerd en het ID-getal wil achterhalen, kan je gebruik maken van het Data Label Mode-icoon in de Chart Editor. Dubbelklik op de grafiek op de Chart Editor te activeren. Klik vervolgens op het icoon dat lijkt op de roos van een dartbord (of klik op Data Label Mode in het Elements-menu) en klik op punt in de grafiek dat je wilt identificeren, er verschijnt dan een getal; dit is het ID-getal.

  2. Inspectie van de verdeling van data-scores.

  3. Vaststellen van de richting van het verband (positief of negatief) tussen de variabelen.

Wanneer je de verdeling van scores in het scatterplot hebt onderzocht en hebt vastgesteld dat er sprake is van een ruwweg lineaire relatie, kan je de Pearson r of Spearman rho correlatiecoëfficiënt gaan berekenen. Volg, voordat je met de volgende procedure begint, eerst deze stappen: (1) klik in het menu op Edit, selecteer Options en vervolgens op General. Zorg dat in het Output-gedeelte de box No scientific notation for small numbers in tables is aangevinkt.

Procedure voor het berekenen van Pearson r of Spearman rho:

  1. Klik in het menu bovenaan het scherm op Analyze en selecteer vervolgens Correlate. Klik dan op Bivariate.

  2. Selecteer je twee variabelen en verplaats deze naar de Variabelen box.

  3. In het Correlation Coefficient-gedeelte is de Pearson-box de standaardoptie. Als je Spearman rho wilt uitrekenen, vink dan de Spearman-box aan.

  4. Klik op Opties. Klik voor missende waarden de Exclude Cases Pairwise aan. Onder Opties kan je ook gemiddelden en standaardafwijkingen aanvinken.

  5. Klik op Continue en vervolgens op OK (of op Paste om de syntax editor te bewaren).

Hoe interpret correlatie-output?

De resultaten van Pearson r vind je in de bovenste tabel (correlations) en die van Spearman rho in de onderste tabel (nonparametric correlations). De output van beide tests interpreteer je op dezelfde manier.

  • Stap 1: Controleer de steekproefinformatie (N); klopt dit getal? Als er veel data ontbreekt, zoek dan uit hoe dit komt. Ben je bijvoorbeeld vergeten de Exclude cases pairwise box aan te vinken?

  • Stap 2: Stel de richting van het verband vast; is er sprake van een positieve of negatieve correlatie?

  • Stap 3: Stel de sterkte van het verband vast; dit kan je aflezen aan de waarde van de correlatiecoëfficiënt. Een correlatie van 0 betekent dat er geen correlatie is. Een waarde van -1 betekent een perfecte negatieve correlatie en een waarde van +1 wijst op een perfecte positieve correlatie. Om de waarden te interpreteren kun je het best gebruik maken van de richtlijnen van Cohen:

    • Klein: r = .10 tot .29 (of -.10 tot -.29)

    • Gemiddeld: r = .30 tot .49 (of -.30 tot -.49)

    • Groot: r = .50 tot 1.0 (of -.50 tot -1.0)

  • Stap 4: Bereken de determinatiecoëfficiënt. Dit geeft je een idee van de gedeelde variantie van je twee variabelen. De determinatiecoëfficiënt bereken je door de r-waarde te kwadrateren. Wil je deze omzetten naar het percentage gedeelde variantie, hoef je de determinatiecoëfficiënt alleen maar te vermenigvuldigen met 100.

  • Stap 5: Achterhaal het significantieniveau (Sig. 2 tailed). Het statistisch significantieniveau geeft een indicatie van de mate waarin we kunnen vertrouwen op de verkregen resultaten.

Hoe worden de correlatieresultaten weergegeven?

Wanneer je de correlatie tussen twee variabelen vermeld, kan dit in een lopende tekst (zie p. 140 voor een voorbeeld). Echter, correlatie wordt vaak gebruikt om de relatie tussen groepen variabelen te onderzoeken (in plaats van slechts twee variabelen). In dit geval is het onhandig om dit in een lopende tekst te rapporteren; je kunt in dit geval de resultaten het beste in een tabel zetten.

Hoe bereken je de correlatiecoëfficiënten tussen groepen variabelen?

Als je de relaties tussen meerdere variabelen wilt achterhalen, kan je alle variabelen in de Variables box plaatsen. Dit kan echter resulteren in een enorme correlatiematrix die lastig te lezen en interpreteren is. Als je slechts naar een aantal correlaties op zoek bent, kan je gebruik maken van de Syntax Editor.

Procedure voor verkrijgen van correlatiecoëfficiënten tussen twee groepen variabelen

  1. Klik in het menu bovenaan het scherm op Analyze en selecteer vervolgens Correlate. Klik dan op Bivariate.

  2. Verplaats de variabelen waarin je geïnteresseerd bent naar de Variables box. Selecteer de eerste groep variabelen, gevolgd door de tweede groep variabelen. In de output zal de eerste groep variabelen als rijen in de tabel gepresenteerd worden, en de tweede groep variabelen als kolommen. Plaats dus eerst de variabelen met langere namen, zodat de tabel niet te breed wordt.

  3. Klik op Paste; hiermee open je de Syntax Editor.

  4. Plaats je cursor tussen de eerste en tweede groep variabelen. Type hier het woord with.

  5. Om deze nieuwe syntax te activeren, moet je de tekst vanaf CORRELATIONS tot en met het eind selecteren.

  6. Klik vervolgens op de groene pijl/driehoek (>) of ga naar het menu en klik op Run en vervolgens op Selection.

Op welke manier kunnen de correlatiecoëfficiënten van twee groepen vergeleken worden?

Je kan ook de sterkte van de correlatie tussen twee afzonderlijke groepen achterhalen.

Procedure voor het vergelijken van correlatiecoëfficiënten van twee groepen

Stap 1: splits de steekproef.
  1. Klik in het menu bovenaan het scherm op Data en vervolgens op Split File.

  2. Klik op Compare Groups.

  3. Plaats de groepeer variabele naar de box Groups based on. Klik op OK (of Paste om de Syntax Editor op te slaan).

Stap 2: Correlatie.
  1. Volg de stappen in het eerdere gedeelte van dit hoofdstuk voor het verkrijgen van de correlatie tussen de variabelen waarin je geïnteresseerd bent. De resultaten worden afzonderlijk van elkaar weergeven per groep.

Belangrijk: vergeet niet de Split File optie uit te zetten als je klaar bent. Dit doe je door in het Data Editor venster te klikken op Data, Split File en vervolgens op Analyze all cases, do not create groups.

Hoe werkt het testen van de statistische significantie van het verschil tussen correlatiecoëfficiënten?

In dit gedeelte wordt de procedure beschreven die je kan volgen om te achterhalen of de correlaties tussen twee groepen significant verschillen. Eerst zullen r-waarden worden omgezet naar z-scores. Vervolgens wordt een vergelijking gebruikt om de geobserveerde waarde van z (zobs waarde) te berekenen. De verkregen waarde zal worden berekend met behulp van een vaste besluitregel om vast te stellen wat de kans is dat het verschil in de correlatie tussen de twee groepen te wijten is aan toeval.

Eerst dient gecontroleerd te worden voor een aantal assumpties. Er wordt vanuit gegaan dat de r-waarden van de twee groepen zijn verkregen uit willekeurige steekproeven en dat de twee groepen onafhankelijk zijn (dus dat dezelfde participanten niet twee keer zijn getest). De scoreverdeling voor de twee groepen moet normaal zijn. Ook moet iedere groep bestaan uit minsten 20 casussen.

  • Stap 1: Zet iedere r-waarde om naar een z-score.

  • Stap 2: Zet deze waarden om naar de vergelijking om zobs te berekenen. Dit doe je aan de hand van de volgende formule: zobs = z1 – z2 / √ 1/N1-2 + 1/N2-3

  • Stap 3: Stel vast of de zobs-waarde statistisch significant is. Als besluitregel geldt: als -1,96 < zobs < 1.96, dan zijn de correlatiecoëfficiënten niet significant verschillend. Als zobs kleiner is dan of gelijk is aan -1.96 of groter of gelijk aan 1.96, dan zijn de coëfficiënten significant verschillend.

Wat is het verschil tussen correlatie en partiële correlatie? - Chapter 12 (6e druk)

 

De partiële correlatie lijkt op Pearson r, met als verschil dat je bij de partiële correlatie kan controleren voor een aanvullende (confound) variabele.

Wat is de procedure voor de partiële correlatie?

  1. Klik in het menu bovenaan het scherm op Analyze, selecteer vervolgens Correlate en daarna Partial.

  2. Klik op de twee continue variabelen die je wilt correleren. Klik op de pijl om deze variabelen naar de Variables box te verplaatsen.

  3. Klik op de variabele waarvoor je wilt controleren en verplaats deze naar de Controlling for box.

  4. Klik op Options.

    • Klik in het Missing Values gedeelte op Exclude cases pairwise.

    • Klik in het Statistics gedeelte op Zero order correlations.

  5. Klik op Continue en daarna op OK (of op Paste om de Syntax Editor op te slaan).

Hoe interpreteer je output van partiële correlatie?

In de output staat een tabel die bestaat uit twee gedeelten. In de bovenste helft vind je de normale Pearson product-moment correlatiematrix waarbij niet wordt gecontroleerd voor de mogelijke confound variabele. In de tweede helft van de tabel worden dezelfde correlatieanalyses herhaald, maar nu wordt wel gecontroleerd voor de mogelijke confound variabele. Door de twee correlatiecoëfficiënten met elkaar te vergelijken kun je achterhalen of het rekening houden met de aanvullende variabele invloed heeft gehad op de relatie tussen je twee variabelen.

Hoe voer je meervoudige regressie uit in SPSS? - Chapter 13 (6e druk)

 

Hieronder wordt uitgelegd hoe je SPSS kunt gebruiken bij meervoudige regressieanalyses. Meervoudige regressie is niet slechts één techniek, maar een verzameling technieken die gebruikt kan worden om de relatie tussen een continue afhankelijke variabele en meerdere onafhankelijke variabelen of voorspellers (meestal continu) te onderzoeken. Het is gebaseerd op correlatie, maar biedt een meer verfijnde analyse van de relatie tussen een reeks variabelen. Meervoudige regressie kan bij verschillende onderzoeksvragen worden toegepast, waaronder:

  • Hoe goed een reeks variabelen in staat is een bepaalde uitkomst te voorspellen.

  • Welke variabele binnen een reeks variabelen de beste voorspeller van een bepaalde uitkomst is.

  • Of een bepaalde voorspellende variabele nog steeds de uitkomst kan voorspellen wanneer gecontroleerd wordt voor de invloed van een andere variabele.

Wat zijn de belangrijkste soorten meervoudige regressie?

Er zijn verschillende soorten meervoudige regressieanalyses die je, afhankelijk van je onderzoeksvraag, kan toepassen. De drie belangrijkste meervoudige regressieanalyses zijn:

  1. Standaard of simultaan

  2. Hiërarchisch of sequentieel

  3. Stapsgewijs

Standaard meervoudige regressie

Samengestelde samenvatting, gebaseerd op hoofdstuk 13 van SPSS Survival Manual van Pallant, 6e druk uit 2016.In de standaard meervoudige regressie worden alle onafhankelijke (of voorspellende) variabelen tegelijkertijd vergeleken. Iedere variabele wordt geëvalueerd in termen van zijn voorspellende waarde vergeleken met die van de andere onafhankelijke variabelen. Deze analyse gebruik je als je een reeks variabelen hebt en wil weten in welke mate ze als groep de variantie in een afhankelijke variabele kunnen verklaren.

Hiërarchische meervoudige regressie

In de hiërarchische meervoudige regressie (ook wel sequentiële regressie genoemd) worden de onafhankelijke variabelen aan de vergelijking toegevoegd in de volgorde die door de onderzoeker is vastgesteld op basis van een theoretisch kader. Variabelen of reeksen variabelen worden in stappen toegevoegd. Iedere variabele wordt gemeten in termen van wat het toevoegt aan de voorspelling van de afhankelijke variabele nadat is gecontroleerd voor de overige variabelen.

Stapsgewijze meervoudige regressie

In de stapsgewijze regressie levert de onderzoeker een lijst van onafhankelijke variabelen en laat vervolgens het programma, op basis van een reeks statistische criteria, selecteren welke variabelen worden toegevoegd en in welke volgorde deze worden toegevoegd aan de vergelijking. Er zijn drie verschillende versies van deze benadering: (1) voorwaartse selectie, (2) achterwaartse schrapping (backward deletion), en (3) stapsgewijze regressie.

Welke assumpties horen bij meervoudige regressie?

Steekproefgrootte

Het is belangrijk dat je steekproef niet te klein is, omdat de resultaten anders niet (voldoende) generaliseerbaar zijn. Tabachnick en Fidell kwamen met een formule om de benodigde steekproefgrootte uit te rekenen: N > 50 + 8m (m = aantal onafhankelijke variabelen). Je hebt meer casussen nodig als de variabele scheef (skewed) is. Voor stapsgewijze regressie heb je een ratio van 40 casussen per onafhankelijke variabele nodig.

Multicollineariteit en singulariteit

Dit verwijst naar de relatie tussen de onafhankelijke variabelen. Van multicollineariteit is sprake wanneer de onafhankelijke variabelen sterk met elkaar correleren (r = .9 en hoger). Van singulariteit is sprake wanneer een onafhankelijke variabele eigenlijk een combinatie is van andere onafhankelijke variabelen. Geen van beide draagt bij aan een goed regressiemodel.

Outliers

Meervoudige regressie is erg gevoelig voor outliers (extreem hoge of lage scores). Controleer dus alle variabelen (zowel de afhankelijke, als de onafhankelijke) op outliers. Outliers kunnen worden verwijderd uit de dataset, of ze kunnen een score krijgen die hoog/laag is, maar niet teveel afwijkt van de overige scores. Tabachnick en Fidell definiëren outliers als scores met gestandaardiseerde residuele waarden > 3.3 of < -3.3. Je kunt outliers vinden in de gestandaardiseerde residuele plot.

Normaliteit, lineariteit, homoscedasticiteit en onafhankelijkheid van residuen

Al deze termen verwijzen naar verschillende aspecten van de verdeling van scores en de aard van de onderliggende relatie tussen de variabelen. Deze assumpties kunnen worden afgelezen in de residuen scatterplots. Residuen zijn de verschillen tussen de verkregen en voorspelde afhankelijke variabele (AV) scores. Aan de hand van de residuen scatterplots kan je de volgende assumpties controleren:

  • normaliteit: de residuen moeten normaal verdeeld zijn over de voorspelde AV-scores.

  • lineariteit: de residuen moeten een lineaire relatie hebben met de voorspelde AV-scores.

  • homoscedasticiteit: de variantie van de residuen over de voorspelde AV-scores zou voor alle voorspelde scores hetzelfde moeten zijn.

Hoe ziet de standaard meervoudige regressie er uit?

In het geval van de standaard meervoudige regressie worden alle onafhankelijke variabelen tegelijkertijd in het model ingevoerd. De resultaten geven een indicatie hoe goed deze reeks variabelen in staat is om de afhankelijke variabele te voorspellen. Ook laat het zien hoeveel unieke variantie elk van de onafhankelijke variabelen kan verklaren ten opzichte van de overige onafhankelijke variabelen.

Procedure voor standaard meervoudige regressie

Klik voordat je met de volgende procedure begint op Edit in het menu. Selecteer vervolgens Options en zorg dat de box No scientific notification for small numbers in tables is aangevinkt.

  1. Klik in het menu bovenaan het scherm op Analyze, selecteer vervolgens Regression en daarna Linear.

  2. Klik op je continue afhankelijke variabele en verplaats deze naar de Dependent box.

  3. Klik op je onafhankelijke variabelen en klik op de pijl om ze te verplaatsen naar de Independent box.

  4. Zorg dat voor de Methode Enter is geselecteerd.

  5. Klik op de Statistics knop. Selecteer het volgende: Estimates, Confidence Intervals, Model fit, Descriptives, Part and partial correlations en Collinearity diagnostics. Selecteer in het Residuals gedeelte Casewise diagnostics en Outliers outside 3 standard deviations. Klik vervolgens op Continue.

  6. Klik op Options en selecteer in het Missing Values gedeelte Exclude cases pairwise. Klik op Continue.

  7. Klik op de Plots knop. Klik op *ZRESID en de pijl om deze te verplaatsen naar de Y-box. Klik op *ZPRED en de pijl om deze te verplaatsen naar de X-box. Vink in het Standardized Residual Plots de optie Normal probability plot aan en klik op Continue.

  8. Klik op Save. Vink in het Distances gedeelte Mahalanobis box en Cook’s aan. Klik op Continue en vervolgens op OK (of op Paste om de Syntax Editor op te slaan).

Hoe interpreteer je de standaard meervoudige regressie output?

Stap 1: Controleer de assumpties

Multicollineariteit

De correlaties tussen de variabelen in je model staan in de tabel Correlations. Controleer of je onafhankelijke variabelen ten minste enige relatie met je afhankelijke variabele vertonen (het liefst > .3). Controleer ook of de correlatie tussen je onafhankelijke variabelen niet te groot is (het liefst een bivariate correlatie < .7).

SPSS voert als onderdeel van de meervoudige regressieprocedure ook ‘collineariteitsdiagnostiek’ uit op je variabelen. Dit kan problemen met betrekking tot multicollineariteit ondervangen die niet in de correlatiematrix zichtbaar zijn. Deze resultaten staan in de tabel Coefficients. Hier worden twee waarden gegeven: Tolerance en VIF. Tolerance is een indicator van hoeveel van de variabiliteit van de gespecificeerde onafhankelijke variabele niet verklaard wordt door de overige onafhankelijke variabelen in het model. Als deze waarde erg laag is (< .10), geeft dit aan dat de meervoudige correlatie met andere variabelen hoog is, wat mogelijk wijst op multicollineariteit. VIF (variance inflation factor) waarden boven 10 zijn reden tot zorg, aangezien dit mogelijk wijst op multicollineariteit. Gebruik Tolerance en VIF alleen als waarschuwingsteken en check ook altijd je correlatiematrix.

Outliers, normaliteit, lineariteit, homoscedasticiteit en onafhankelijkheid van residuen

Een manier waarop deze assumpties kunnen worden gecheckt is door de Normal Probability Plot (P-P) of the Regression Standardised Residual en de Scatterplot te inspecteren. Deze staan aan het eind van de output. In de Normal P-P Plot hoop je dat de punten van links onder naar rechts boven een redelijk rechte diagonale lijn vormen. Dit suggereert dat er geen grote afwijkingen van normaliteit zijn. In de Scatterplot van de gestandaardiseerde residuen (het tweede plot) hoop je dat de residuen ruwweg rechthoekig verdeeld zijn, waarbij de meeste scores in het midden liggen (rond het 0-punt). Aan de hand van de Scatterplot kun je tevens outliers identificeren. Outliers kunnen ook worden geïdentificeerd door de Mahalanobis afstanden te inspecteren. Deze zijn niet zichtbaar in de output, maar zijn aan het eind van de data file als extra variabele toegevoegd. Om te achterhalen welke scores outliers zijn, heb je een kritieke chi-square waarde nodig. Tabachnik en Fidell suggereren het gebruik van een alfa-waarde van .001.

Stap 2: Evalueren van het model

Kijk in de Model Summary box en controleer de waarde onder het kopje R Square; dit vertelt je hoeveel van de variantie in de afhankelijke variabele verklaard wordt door het model. Het valt je misschien op dat er ook een Adjusted R Square-waarde in de output staat. Wanneer je een kleine steekproef hebt, is de R square-waarde vaak een optimistische overschatting van de echte populatiewaarde. De Adjusted R Square-statistiek ‘corrigeert’ deze waarde en voorziet van een betere schatting van de echte populatiewaarde. Dus als je een kleine steekproef hebt, kan je beter deze waarde rapporteren. Om de statistische significantie van de resultaten te achterhalen, moet je in de ANOVA-tabel kijken; deze test de nulhypothese dat meervoudige R in de populatie gelijk is aan 0.

Stap 3: Evalueren van alle onafhankelijke variabelen

Het volgende dat je wil weten is welke van de variabelen in het model bijdraagt aan de voorspelling van de afhankelijke variabele. We vinden deze informatie in de output-box, genaamd Coefficients. Kijk in Beta-kolom onder Standardized Coefficients. Om de verschillende variabelen met elkaar te kunnen vergelijken is het belangrijk dat je kijkt naar de gestandaardiseerde coëfficiënten en niet de ongestandaardiseerde (B); deze laatste gebruik je alleen als je een regressievergelijking wilt opstellen.

Controleer voor alle onafhankelijke variabelen de waarde in de Sig.-kolom; dit vertelt je of deze variabele een significante unieke bijdrage levert aan de vergelijking. Dit is erg afhankelijk van welke variabelen opgenomen zijn in de vergelijking en hoeveel overlap er is tussen de onafhankelijke variabelen. Als de Sig.-waarde kleiner is dan .05 (.01, .001, etc.), levert de variabele een significante unieke bijdrage aan de voorspelling van de afhankelijke variabele.

Een ander potentieel nuttig informatieonderdeel in de coëfficiëntentabel is de Part correlatiecoëfficiënten (soms ook wel semipartial correlation coefficients genoemd). Als je deze waarde kwadrateert, krijg je een indicatie van de bijdrage van die variabele aan de totale R-square. Met andere woorden, het vertelt je hoeveel van de totale variantie in de afhankelijke variabele uniek verklaard wordt door die variabele en hoeveel R-square zou zakken als deze variabele niet in je model opgenomen zou zijn.

Wat is hiërarchische meervoudige regressie?

Bij deze vorm van meervoudige regressie worden de variabelen in stappen in een vooraf bepaalde volgorde toegevoegd.

Procedure voor hiërarchische meervoudige regressie

  1. Klik in het menu bovenaan het scherm op Analyze, selecteer vervolgens Regression en daarna Linear.

  2. Kies je continue afhankelijke variabele en verplaats deze naar de Dependent box.

  3. Verplaats de variabelen waarvoor je wilt controleren naar de Independant box; deze vormen het eerste blok die ingevoerd zullen worden in de analyse.

  4. Klik op Next, dit levert een tweede onafhankelijke variabelen box op waarin je het tweede blok variabelen aan toe kunt voegen.

  5. Kies je volgende blok onafhankelijke variabelen.

  6. Zorg dat dit op default staat in de Method box (Enter).

  7. Klik op Statistics en vink de volgende opties aan: Estimates, Model fit, R squared change, Descriptives, Part and partial correlations en Collinearity diagnostics. Klik op Continue.

  8. Klik op Options. Klik in het Missing Values gedeelte op Exclude cases pairwise en klik op Continue.

  9. Klik op de Plots knop.

  10. Klik op *ZRESID en de pijl om deze te verplaatsen naar de Y-box.

  11. Klik op *ZPRED en de pijl om deze te verplaatsen naar de X-box.

  12. Vink in het Standardized Residual Plots de optie Normal probability plot aan en klik op Continue.

  13. Klik op Save. Vink in het Distances gedeelte Mahalanobis box en Cook’s aan. Klik op Continue en vervolgens op OK (of op Paste om de Syntax Editor op te slaan).

Hoe interpreteer je de hiërarchische meervoudige regressie output?

De output van deze regressieanalyse lijkt op die van de standaard meervoudige regressie, met hier en daar wat extra informatie. In de Model Summary box vind je twee modellen. Model 1 verwijst naar het eerste blok variabelen die is toegevoegd en Model 2 omvat alle variabelen die in beide blokken zijn toegevoegd.

Stap 1: Evalueren van het model

Controleer de R Square-waarden in de eerste Model Summary box. Let op! De tweede R square-waarde omvat alle variabelen van beide blokken en dus niet alleen de variabelen die tijdens de tweede stap zijn toegevoegd. Om te achterhalen hoeveel van de totale variantie wordt verklaard door de variabelen waarin je geïnteresseerd bent, kijk je in de kolom R Square change en de bijbehorende Sig. F change.

Stap 2: Evalueren van alle onafhankelijke variabelen

Om te achterhalen hoe goed alle variabelen bijdragen aan de uiteindelijke vergelijking, moet je kijken in de Coefficients tabel in de Model 2 rij. Dit vat de resultaten samen waarbij alle variabelen in de vergelijking zijn opgenomen. In de Sig. kolom zie je of de variabelen een unieke statistisch significante bijdrage leveren.

Op welke manier kan je resultaten uit meervoudige regressie presenteren?

Afhankelijk van het type analyse dat je hebt uitgevoerd en de aard van de onderzoeksvraag, zijn er een aantal verschillende manieren waarop de resultaten van meervoudige regressie kunnen worden gepresenteerd. Je moet minstens de volgende informatie noemen: (1) wat voor soort analyse je hebt uitgevoerd (standaard of hiërarchisch), (2) gestandaardiseerde (beta) waarden in het geval van een theoretisch onderzoek of ongestandaardiseerde (B) coëfficiënten in het geval van een toegepast onderzoek. Indien je een hiërarchische meervoudige regressie hebt uitgevoerd, dien je tevens de R square waarde veranderingen (value changes) voor iedere stap te noemen, samen met de waarschijnlijkheidswaarden (probability values).

Hoe voer je logistische regressie uit in SPSS? - Chapter 14 (6e druk)

 

Aan de hand van logistische regressie kun je modellen testen waarmee je categorische uitkomsten – bestaande uit twee of meerdere categorieën – kunt voorspellen. Aan de hand van logistische regressie kan je meten hoe goed jouw verzameling voorspellende variabelen in staat is om jouw categorische afhankelijke variabele te voorspellen of verklaren. Het biedt je een indicatie van de toereikendheid van je model door de ‘goodness of fit’ in kaart te brengen. Je onafhankelijke variabele kan zowel categorisch als continu zijn, of een combinatie van beide. Hier wordt getoond hoe je een binomiale (ook wel binaire) logistische regressie uitvoert met een dichotome afhankelijke variabele (dus met slechts twee categorieën of waarden). Indien je afhankelijke variabele bestaat uit meerdere categorieën, zal je een multinomiale logistische regressie moeten uitvoeren. Deze wordt hier niet behandeld, maar is uiteraard wel beschikbaar in SPSS (zie het Help-menu).

Welke assumpties horen bij logistische regressie?

Steekproefgrootte

Net als bij alle andere analyses is het belangrijk dat je steekproefgrootte voldoende is. Voer altijd Descriptive Statistics uit over elk van je onafhankelijke variabelen en overweeg om categorieën met te weinig casussen te verwijderen.

Multicollineariteit

Controleer altijd of er hoge intercorrelaties tussen je onafhankelijke variabelen zijn. Maar hiervoor gebruik van door collinearity diagnostics op te vragen onder de Statistics-knop. Negeer de rest van de output en richt je enkel op de Coefficients tabel en de kolommen genaamd Collinearity Statistics. Zeer lage tolerance waarden (< .1) geven aan dat de variabele hoog correleert met andere variabelen. Heroverweeg in dat geval welke variabelen je in je model wil opnemen en verwijder een van de hoog intercorrelerende variabelen.

Outliers

Het is belangrijk voor outliers te controleren. Dit kan door de residuen te inspecteren.

Wat is de procedure bij logistische regressie?

Om de resultaten van logistische regressie te kunnen interpreteren, is het belangrijk dat je de codering van responsen van elk van je variabelen nauwkeurig opstelt. Voor de dichotome afhankelijke variabele moet je de responsen coderen als 0 en 1. De 0-waarde wijs je toe aan responsen waaruit een gebrek of afwezigheid blijkt van het kenmerk waarin je geïnteresseerd bent. De 1-waarde wijs je toe aan responsen waaruit aanwezigheid blijkt van het kenmerk waarin je geïnteresseerd bent. Voor je categorische onafhankelijke variabelen voer je een soortgelijke procedure uit. Voor continue onafhankelijke variabelen koppel je hoge waarden aan de waarden van het kenmerk waarin je geïnteresseerd bent (bijv. 0 uur slaap krijgt waarde 0 en 10 uur slaap, waarde 10).

Procedure voor logistische regressie

Voor je met de onderstaande procedure begint, ga eerst naar Edit in het hoofdmenu. Selecteer daar Options en zorg dat de box No scientific notation for small numbers in tables is aangevinkt.

  1. Klik in het menu bovenaan het scherm op Analyze, selecteer vervolgens Regression en daarna Binary Logistic.

  2. Verplaats je categorische afhankelijke variabele naar de Dependent box. Verplaats je onafhankelijke variabelen naar de Covariates box. Zorg dat bij Method de Enter-optie vertoond wordt.

  3. Als je categorische (nominaal of ordinaal) onafhankelijke variabelen hebt, klik dan op de Categorical-knop. Markeer alle categorische variabelen en verplaats ze naar de Categorical covariates box. Markeer weer al je categorische variabelen en klik op de First-knop in het Change contrast gedeelte. Klik op Change en je ziet het woord (first) verschijnen achter de naam van de variabele. Herhaal dit voor alle categorische variabelen. Klik op Continue.

  4. Klik op Options. Selecteer de volgende opties: Classification plots, Hosmer-Lemeshow goodness of fit, Casewise listing of residuals en CI for Exp(B).

  5. Klik op Continue en vervolgens op OK (of op Paste om de Syntax Editor op te slaan).

Hoe interpreteer je de logistische regressie output?

Het eerste waar je in je output naar moet kijken zijn de details met betrekking tot je steekproefgrootte. Deze vindt je in de Case Processing Summary tabel. Zorg ervoor dat hier het aantal proefpersonen in staan dat je hebt ingevoerd. De volgende tabel, Dependent Variable Encoding, laat zien hoe SPSS je afhankelijke variabele heeft gecodeerd. Controleer in de tabel die daarna volgt (Categorical Variables Coding) de codering van je onafhankelijke variabelen. Controleer ook in de Frequency kolom het aantal casussen per categorie; je wilt geen groepen met zeer kleine aantallen.

Het volgende output gedeelte (Block 0) betreft de resultaten van de analyse zonder dat een van de onafhankelijke variabelen in het model is opgenomen; dit dient als baseline om te vergelijken met het model waarin de variabelen wel zijn opgenomen. Ga nu eerst naar het volgende gedeelte; Block 1. Hier wordt je model (met daarin de onafhankelijke variabelen) getoetst. De Omnibus Tests of Model Coefficients biedt een algemene indicatie van hoe goed het model presteert, vergeleken met de resultaten uit Block 0, waar geen van de onafhankelijke variabelen in het model zijn opgenomen. Dit wordt ook wel de ‘goodness of fit’ toets genoemd. Hier wil je een hoge significante waarde (Sig. waarde < .05), omdat dat betekent dat je model met voorspellers beter is dan het baseline model. De resultaten in de tabel Hosmer and Lemeshow Test bieden ondersteuning voor de goodness of fit van je model. Let wel op dat deze test heel anders geïnterpreteerd wordt dan de omnibus test. Voor de Hosmer and Lemeshow Goodness of Fit Test wordt een slechte fit aangeduid met een significantiewaarde kleiner dan .05, wat betekent dat je hier dus juist een hoge significantiewaarde wil zien.

Ook de tabel Model Summary geeft informatie over de bruikbaarheid van het model. De Cox & Snell R Square en de Nagelkerke R Square waarden bieden een indicatie van de hoeveelheid variatie in de afhankelijke variabele die door het model wordt verklaard (variërend van 0 tot 1).

De Classification Table voorziet van een indicatie van hoe goed het model in staat is om voor iedere casus de juiste categorie te voorspellen. Deze tabel kan je vergelijken met de Classification Table uit Block 0 om te achterhalen hoeveel verbetering er optreedt in het model wanneer de onafhankelijke variabelen zijn opgenomen.

De sensitiviteit van het model is het percentage van de groep die het kenmerk bevat waarin je geïnteresseerd bent en die correct door het model zijn vastgesteld (‘true positives’). De specificiteit van het model is het percentage van de groep die niet het kenmerk bevat waarin je geïnteresseerd bent en correct zijn vastgesteld (‘true negatives’). De positief voorspellende waarde is het percentage casussen waarvan het model stelt dat ze over het kenmerk beschikken en die ook daadwerkelijk over dit kenmerk beschikken. De negatief voorspellende waarde is het percentage casussen waarvan het model stelt dat ze niet over het kenmerk beschikken en die ook daadwerkelijk niet over dit kenmerk beschikken.

De Variables in the Equation tabel geeft aan de hand van de Wald test informatie over de bijdrage of het belang van elk van je onafhankelijke variabelen; deze kun je aflezen in de Wald-kolom. Ga nu in de Sig.-kolom op zoek naar waarden kleiner dan .05; dit zijn de variabelen die significant bijdragen aan de voorspellende waarde van het model. Kijk of de B-waarden positief of negatief zijn; dit zegt iets over de richting van het verband. Als je alle variabelen correct gecodeerd hebt, betekenen negatieve B-waarden dat een toename in de onafhankelijke variabele-score zal resulteren in een verminderde kans dat de casus een score van 1 op de afhankelijke variabele zal hebben. Voor positieve B-waarden geldt het tegenovergestelde. Nog een ander nuttig informatieonderdeel in de Variables in the Equation tabel vindt je in de Exp(B)-kolom; deze waarden zijn de odds ratios (OR) voor elk van je onafhankelijke variabelen. Volgens Tabachnick en Fidell representeren de OR “the change in odds of being in one of the categories of outcome when the value of a predictor increases by one unit”. OR kleiner dan 1 zetten we het liefst om (1 gedeeld door de waarde) wanneer we deze rapporteren ten behoeve van de interpretatie.

Voor elk van de OR wordt een 95% betrouwbaarheidsinterval gegeven (95% CI for EXP(B)); deze dien je te noemen in je resultaten.

De laatste tabel in de output (Casewise List) biedt informatie over casussen in je steekproef voor wie het model niet goed past. Casussen met ZResid-waarden boven 2.5 of onder -2.5 zijn outliers en moeten daarom nauwkeuriger worden onderzocht.

Hoe voer je factoranalyse uit in SPSS? - Chapter 15 (6e druk)

 

Factoranalyse verschilt van veel van de andere technieken in SPSS. Het is niet ontworpen om hypothesen te toetsen of om aan te geven of de ene groep significant verschilt van de andere groep. In plaats daarvan neemt het een grote reeks variabelen en zoekt naar een manier om de data te ‘reduceren’ of samen te vatten door het gebruik van een kleinere verzameling factoren of componenten. Dit wordt gedaan door te zoeken naar clusters of groepen tussen de intercorrelaties van een verzameling variabelen. Er zijn twee kernbenaderingen van de factoranalyse: (1) exploratieve factoranalyse – vaak gebruikt tijdens de vroege onderzoekstadia om informatie over de relaties tussen een verzameling variabelen te verzamelen – en (2) confirmatieve factoranalyse – later in het onderzoeksproces toegepast om specifieke hypothesen of theorieën betreffende de onderliggende structuur van een verzameling variabelen te toetsen.

De term ‘factoranalyse’ omvat een verscheidenheid aan verschillende gerelateerde technieken. Een van de belangrijkste onderscheidingen is die tussen de principale componentenanalyse (PCA) en factoranalyse (FA). Deze twee technieken lijken in veel opzichten op elkaar; beide trachten een kleiner aantal lineaire combinaties van de oorspronkelijke variabelen te produceren op een wijze die het grootste deel van de variabiliteit in het correlatiepatroon omvat (of deze kan verklaren). Uiteraard zijn er ook verschillen; bij PCA worden de oorspronkelijke variabelen getransformeerd naar een kleinere verzameling lineaire combinaties waarbij gebruik wordt gemaakt van alle variantie in de variabelen, terwijl bij FA de factoren worden geschat met behulp van een wiskundig model waarbij enkel de gedeelde variantie wordt geanalyseerd.

Hier wordt de PCA gedemonstreerd.

In welke stappen wordt een factoranalyse gedaan?

Stap 1: Assessment van de geschiktheid van de data (assumpties)

Er zijn twee belangrijke kwesties waar je rekening mee dient te houden tijdens het bepalen van de geschiktheid van je dataset voor factoranalyse: steekproefgrootte en de sterkte van de relatie tussen je variabelen (of items). Voor de steekproefgrootte zijn niet echt duidelijke richtlijnen. Over het algemeen geldt; hoe groter, hoe beter. Mocht je een kleine steekproef (<150) of heel veel variabelen hebben, zoek dan meer informatie op over factoranalyse.

De tweede kwestie betreft de sterkte van de intercorrelaties tussen de items. Tabachnick en Fidell raden aan dat correlatiecoëfficiënten een waarden van groter dan .3 hebben. SPSS biedt twee statistische metingen die kunnen helpen met het bepalen van de ‘factorability’ van de data: (1) Bartlett’s test voor sphericiteit, en (2) Kaiser-Meyer-Olkin (KMO) meting voor steekproef adequatie. Bartlett’s test moet significant zijn (p < .05) voor geschikte factoranalyse. De KMO-index moet een minimale waarde van .6 hebben voor een goede factoranalyse.

Stap 2: Factorextractie

Factorextractie omvat het vaststellen van het kleinste aantal factoren die het best kunnen worden gebruikt om de interrelaties tussen de verzameling variabelen te representeren. Er zijn verschillende benaderingen die kunnen worden toegepast om het aantal onderliggende factoren of dimensies te identificeren, waarvan PCA de meest gebruikte is. Het is aan de onderzoeker om het aantal factoren vast te stellen dat volgens hem/haar de beste weergave is van de onderliggende relatie tussen de variabelen. Technieken die kunnen worden toegepast om te helpen bij het vaststellen van het aantal factoren zijn:

  1. Kaiser’s criterium: ook wel bekend als de eigenwaarde-regel. Aan de hand van deze regel worden alleen factoren met een eigenwaarde van 1.0 of meer gebruikt voor verder onderzoek.

  2. Catell’s scree test: bij deze test worden alle eigenwaarden van de factoren geplot en wordt in dit plot vervolgens gezocht naar het punt waarop de vorm van de curve van richting verandert en horizontaal wordt. Catell adviseert om alle factoren boven dit punt te behouden.

  3. Horn’s parallelle analyse: dit omvat het vergelijken van de grootte van de eigenwaarden met de eigenwaarden die zijn verkregen uit een willekeurig gegenereerde dataset van dezelfde grootte. Alleen de eigenwaarde die de corresponderende waarden van de willekeurige dataset overschrijven, worden behouden. Deze benadering blijkt het meest accuraat (Kaiser’s criterium en Catell’s scree test zijn geneigd het aantal componenten te overschatten).

Stap 3: Factorrotatie en interpretatie

Nadat het aantal factoren is bepaald, moeten deze geïnterpreteerd worden. Om dit proces te vergemakkelijken, worden de factoren ‘geroteerd’. SPSS laat zien welke variabelen samenklonteren; het is aan jou om hier mogelijke interpretaties aan te geven.

Er zijn twee algemene rotatiebenaderingen die resulteren in orthogonale (niet gecorreleerde) of oblieke (gecorreleerde) factoroplossingen. In de praktijk resulteren deze twee benaderingen vaak in soortgelijke resultaten, vooral wanneer het correlatiepatroon tussen de items helder is. Pallant adviseert om te beginnen met oblieke rotatie om de mate van correlatie tussen je factoren te onderzoeken.

Binnen de twee brede categorieën van rotatiebenaderingen zijn er in SPSS een aantal verschillende technieken beschikbaar. De meest gebruikte orthogonale techniek is de Varimax methode; deze tracht het aantal variabelen met hoge ladingen op iedere factor te minimaliseren. De meest gebruikte oblieke techniek is Direct Oblimin.

Wat is de procedure voor Factoranalyse?

Voor je met de onderstaande procedure begint, ga eerst naar Edit in het hoofdmenu. Selecteer daar Options en zorg dat de box No scientific notation for small numbers in tables is aangevinkt.

  1. Klik in het menu bovenaan het scherm op Analyze, selecteer vervolgens Dimension Reduction en daarna Factor.

  2. Selecteer alle benodigde variabelen (of items) en verplaats ze naar de Variables box.

  3. Klik op de Descriptives-knop. Zorg dat in het Statistics gedeelte Initial Solution aangevinkt is. Selecteer in het Correlation Matrix gedeelte de opties Coefficients en KMO and Bartlett’s test of sphericity. Klik op Continue.

  4. Klik op de Extraction-knop.
    Zorg dat in het Method gedeelte Principal components wordt getoond, of kies een van de andere factorextractietechnieken (bijv. Maximum likelihood). Selecteer in het Analyze gedeelte de Correlation matrix. In het Display gedeelte moeten Screeplot en de Unrotated factor solution worden geselecteerd. Selecteer in het Extraction gedeelte de optie Based on Eigenvalue of klik op Fixed number of factors indien je een specifiek aantal factoren wil specificeren en type het aantal gewenste factoren in. Klik op Continue.

  5. Klik op de Rotation-knop. Kies Direct Oblimin en klik op Continue.

  6. Klik op de Options-knop en selecteer in het Missing Values gedeelte de optie Exclude cases pairwise. Selecteert in het Coefficient Display Format gedeelte de opties Sorted by size en Surpress small coefficients. Type in de box naar Absolute value below de waarde van .3 in. Dit betekent dat alleen factorladingen met een waarde groter dan .3 vertoond zullen worden, wat de output makkelijker te interpreteren maakt.

  7. Klik op Continue en vervolgens op OK (of op Paste om de Syntax Editor op te slaan).

Hoe interpreteer je de van factoranalyse output? Deel 1

Stap 1: geschiktheid van je dataset beoordelen

Kijk of de Kaiser-Meyer-Olkin Measure of Sampling Adequacy (KMO) waarde .6 of hoger is en dat de waarde van Bartlett’s test of sphericity significant (.05 of kleiner) is om te verifiëren of je dataset geschikt is voor factoranalyse. Zoek in de Correlation Matrix tabel naar correlatiecoëfficiënten van .3 of hoger.

Stap 2: Factorextractie met behulp van Kaiser’s criterium

Om vast te stellen hoeveel componenten aan het criterium van een eigenwaarde van 1 of hoger voldoen, moet je kijken in de Total Variance Explained tabel. Kijk naar de waarden in de eerste reeks kolommen (Initial Eigenvalues). In de Cumulative % kolom zie je hoeveel procent van de variantie de componenten verklaren.

Stap 3: Factorextractie met behulp van Catell’s scree test

Kaiser’s criterium geeft vaak teveel componenten. Daarom is het belangrijk ook naar de Screeplot te kijken. Zoek naar het punt waarop de vorm van de curve van richting verandert en horizontaal wordt. Alle factoren boven dit punt moet je behouden.

Stap 4: Factorextractie met behulp van parallelle analyse

Voor parallelle analyse, de derde manier om het aantal factoren vast te stellen, moet je gebruik maken van de lijst met eigenwaarden in de Total Variance Explained tabel en extra informatie die je aan de hand van een ander statistisch programma (verkrijgbaar via de website van dit boek) kunt verkrijgen. Volg de link naar de Additional Material site en download de zip-file (parallel analysis.zip) op je computer. Unzip dit bestand op je harde schijf en klik op de file MonteCarloPA.exe. Het programma Monte Carlo PCA for Parallel Analysis wordt nu gestart, waarin je vervolgens de volgende informatie moet invoeren: (1) het aantal variabelen dat je wilt analyseren, (2) het aantal participanten in je steekproef, en (3) het aantal replicaties). Klik op Calculate. Vervolgens moet je de eerste eigenwaarde die je in SPSS hebt verkregen systematisch vergelijken met de eerste waarde uit de resultaten van de parallelle analyse. Indien je waarde groter is dan de criteriumwaarde uit de parallelle analyse, behoud je deze factor; als je waarde kleiner is, verwerp je deze.

Stap 5: Factorladingen inspecteren

In de tabel Component Matrix vind je de ongeroteerde ladingen van elk van de items op de verschillende componenten. SPSS gebruikt Kaiser’s criterium als standaard techniek.

Stap 6: Inspecteer de geroteerde factoroplossing

Voor je een definitief besluit maakt betreffende het aantal factoren, dien je te kijken naar de geroteerde factoroplossing in de Pattern Matrix tabel: deze toont de itemladingen op de verschillende factoren. Idealiter wil je minstens drie itemladingen per component. Indien dit niet het geval is, zal je een oplossing met minder factoren moeten vinden. Volg in dit geval de onderstaande procedure:

  1. Herhaal alle stappen die eerder in dit hoofdstuk worden genoemd. Let op: wanneer je nu op de Extraction-knop klikt, selecteer dan Fixed number of factors. In de box naast Factors to extract type je het aantal factoren in dat je wilt extraheren.

  2. Klik op Continue en vervolgens op OK.

Hoe interpreteer je de van factoranalyse output? Deel 2

Het eerste dat je moet checken, is het percentage variantie dat door de nieuwe factoroplossing wordt verklaard; dit staat in de Total Variance Explained tabel. Na rotatie van de nieuwe factoroplossing, vind je aan het eind van je output drie nieuwe tabellen waar je naar moet kijken. Allereerst de Component Correlation Matrix (aan het eind van je output); deze laat de sterkte van de relatie tussen de factoren zien. Dit geeft je informatie voor je besluit of het redelijk was om ervan uit te gaan dat de componenten niet gerelateerd zijn aan elkaar (en dus de Varimax rotatie toegepast kan worden), of dat de Oblimin rotatie oplossing toegepast en gerapporteerd moet worden.

Oblimin rotatie levert twee tabellen van factorladingen op. De Pattern Matrix geeft de factorladingen van elk van de variabelen weer. Zoek naar de hoogst geladen items op elk component om zo het component te identificeren en een naam te geven. De Structure Matrix tabel levert informatie op over de correlatie tussen variabelen en factoren. Indien je de Oblimin rotatie oplossing in je output moet presenteren, moet je beide tabellen weergeven.

Eerder in de output vind je de tabel genaamd Communalities; deze tabel geeft informatie over hoeveel variantie in elk item verklaard wordt. Lage waarden (< .3) betekenen mogelijk dat het item niet goed past bij de andere items in dat component. Als je de schaal wil verbeteren of verfijnen, kan je deze informatie gebruiken om items van de schaal te verwijderen. Het verwijderen van items met lage gemeenschappelijke (communality) waarden vergroot over het algemeen de totale verklaarde variantie. Gemeenschappelijke waarden kunnen drastisch veranderen, afhankelijk van het aantal factoren dat wordt behouden. Het is daarom ook vaak beter om de gemeenschappelijke waarden te interpreteren nadat je hebt gekozen hoeveel factoren je zou moeten behouden volgens de screeplot en parallelle analyse.

Op welke manier worden de resultaten gerapporteerd?

De informatie die je in je resultaten weergeeft is afhankelijk van je vakgebied, het soort verslag dat je schrijft en waar je verslag gepresenteerd zal worden. Indien je je onderzoek wil publiceren binnen het vakgebied van de psychologie en het onderwijs zijn er redelijk strikte eisen wat je in je artikel plaatst wanneer je gebruik heb gemaakt van factoranalyse. Allereerst moet je de details weergeven van de factorextractiemethode die je hebt gebruikt; dus de gebruikte criteria om het aantal factoren te bepalen, het type rotatietechniek, de totale verklaarde variantie, de oorspronkelijke eigenwaarden en de eigenwaarden na rotatie. In je verslag dien je een tabel met factorladingen op te nemen met daarin alle waarden (dus niet alleen waarden > .3). In het geval van de Varimax geroteerde oplossing moet de tabel ‘pattern/structure coefficients’ worden genoemd. In het geval van de Oblimin rotatie moeten zowel de Pattern Matrix, als de Structure Matrix coëfficiënten volledig worden gepresenteerd, samen met de informatie over de correlaties tussen de factoren.

Hoe gebruik je SPSS voor niet-parametrische statistiek? - Chapter 16 (6e druk)

 

Niet-parametrische statistieken zijn ideaal wanneer je data is gemeten op een nominale of ordinale schaal. Ze zijn ook handig wanneer je beschikt over zeer kleine steekproeven en wanneer je data niet voldoet aan de assumpties van de parametrische technieken.

IBS SPSS geeft diverse niet-parametrische technieken voor verschillende situaties. Hieronder worden de meest gebruikte niet-parametrische technieken uitgelegd.

Welke niet-parametrische technieken zijn er?

Niet-parametrische techniek

Parametrisch alternatief

Chi-square test voor goodness of fit

Geen

Chi-square test voor onafhankelijkheid

Geen

McNemar’s Test

Geen

Cochran’s Q Test

Geen

Kappa Measure of Agreement

Geen

Mann-Whitney U Test

T-toets voor onafhankelijke steekproeven

Wilcoxon Signed Rank Test

T-toets voor gepaarde steekproeven

Kruskal-Wallis Test

One-way between-groups ANOVA

Friedman Test

One-way repeated measures ANOVA

Assumpties voor niet-parametrische technieken

Algemene assumpties van niet-parametrische technieken waarvoor gecontroleerd moet worden, zijn:

  • Willekeurige steekproeven

  • Onafhankelijke observaties (met uitzondering van de technieken waarbij herhaalde metingen worden uitgevoerd).

Verder hebben sommige technieken nog aanvullende assumpties; deze zullen per techniek besproken worden.

Hoe voer je de chi-square test voor goodness of fit uit?

Deze test, ook wel de one-sample chi-square genoemd, wordt vaak gebruikt om de proportie casussen uit een steekproef te vergelijken met hypothetische waarden of eerder verkregen waarden uit vergelijkbare populaties. Het enige dat je in de data-file nodig hebt, is één categorische variabele en een specifieke proportie waartegen je de geobserveerde frequenties wilt toetsen.

Procedure voor chi-square test voor goodness of fit

  1. Klik in het menu bovenaan het scherm op Analyze, selecteer vervolgens Non-parametric Tests, daarna Legacy Dialogs en vervolgens Chi-square.

  2. Verplaats de categorische variabele naar de Test Variable List box. Klik in het Expected Values gedeelte op de Values-optie. In de Values box moet je de waarden van je variabelen invullen: De eerste waarde correspondeert met de verwachte proportie voor de eerste gecodeerde waarde van de variabele (bijv. 1 = ja). Klik op Add. De tweede waarde is de verwachte proportie voor de tweede gecodeerde waarde (bijv. 2 = nee). Klik op Add. Etc.

  3. Klik op OK (of op Paste om de Syntax Editor op te slaan).

Interpretatie van de output

In de eerste tabel vind je de geobserveerde frequenties van de huidige data-file. In de Test Statistics tabel staan de resultaten van de Chi-Square Test – welke de verwachte en geobserveerde waarden met elkaar vergelijkt – gerapporteerd.

Rapporteren van de resultaten

In de resultaten moet je de chi-square waarde, de vrijheidsgraden (df) en de p-waarde (Asymp. Sig.) opnemen.

Hoe voer je de chi-square test voor onafhankelijkheid uit?

Deze test wordt gebruikt wanneer je de relatie tussen twee categorische variabelen wilt onderzoeken. Elk van deze variabelen kunnen twee of meerdere categorieën hebben. De chi-square test voor onafhankelijkheid vergelijkt de geobserveerde frequenties of proporties casussen die in elk van de categorieën voorkomen met de waarden die verwacht worden indien er geen associatie is tussen de gemeten variabelen. Wanneer SPSS een 2x2 tabel tegenkomt (2 categorieën in elke variabele), omvat de output een aanvullende correctiewaarde (Yates’ Correction for Continuity); deze waarde is ontworpen om te compenseren voor wat sommige onderzoekers beschouwen als een overschatting van de chi-square waarde wanneer deze wordt gebruikt in een 2x2 tabel.

Aanvullende assumpties

De laagst verwachte frequentie moet voor iedere cel minstens 5 zijn. Als je een 2x2 tabel hebt, wordt aangeraden een minimale verwachte frequentie van 10 te hebben. Als je een 2x2 tabel hebt die deze assumptie schendt, zou je moeten overwegen om in plaats daarvan Fisher’s Exact Probability Test te rapporteren.

Procedure

  1. Klik in het menu bovenaan het scherm op Analyze, selecteer vervolgens Descriptive Statistics en daarna Crosstabs.

  2. Klik op de variabele(n) die je je rij-variabele(n) wil maken en verplaats deze naar de Row(s) box.

  3. Klik op de andere variabele(n) die je je kolom-variabele(n) wil maken en verplaats deze naar de Column(s) box.

  4. Klik op de Statistics-knop. Vink Chi-square en Phi and Cramer’s V aan en klik op Continue.

  5. Klik op de Cells-knop. Zorg dat in de Counts box de optie Observed is aangevinkt. Ga dan naar het Percentage gedeelte en klik de Row box aan. Klik bij Residuals op Adjusted standardized.

  6. Klik op Continue en vervolgens op OK (of op Paste om de Syntax Editor op te slaan).

Interpretatie van de output


Om te beginnen is het van belang om te kijken of er assumpties zijn geschonden als het gaat om de chi-square ‘minimaal verwachte celfrequentie’. Deze moet 5 of groter zijn.

De belangrijkste waarde waarin je geïnteresseerd bent is de Pearson Chi-Square waarde; deze vind je in de Chi-Square Tests. Als je een 2x2 tabel hebt, gebruik je de waarde uit de tweede rij (Continuity Correction). Dit is de continuïteitscorrectie van Yates.

Voor meer gedetailleerde informatie uit een onderzoek kan ook gebruik worden gemaakt van kruisverwijzingen in een Crosstabulation.

Er zijn in de Crosstabs procedure verschillende soorten statistieken beschikbaar om de effectgrootte te berekenen. De twee meest voorkomende zijn:

  • phi coëfficiënt: dit is een correlatiecoëfficiënt die kan variëren tussen 0 en 1. Hoe hoger de waarde, des te sterker is de associatie tussen de twee variabelen. De phi coëfficiënt wordt veelal gebruikt bij 2 bij 2 tabellen.

  • Cramer’s V: deze statistiek geeft de waarde weer van tabellen die groter zijn dan 2 bij 2. Hierbij wordt ook rekening gehouden met het aantal vrijheidsgraden (df).

Hoe voer je McNemar’s test uit?

Bij gelijke of herhaalde metingen kunnen geen chi-square tests worden gebruikt. In een dergelijk geval wordt gebruikt gemaakt van de test van McNemar. Ook je data is anders. Bij gelijke of herhaalde metingen heb je twee variabelen; de eerste is gemeten op tijdstip 1 (voorafgaand aan een interventie) en de tweede op tijdstip 2 (na een interventie). Beide variabelen zijn categorisch en brengen dezelfde informatie in kaart.

Procedure voor McNemar’s test

  1. Klik in het menu bovenaan het scherm op Analyze, selecteer vervolgens Nonparametric tests en dan Related samples.

  2. Klik bij “What is your objective?” op Customize analysis.

  3. Ga naar Fields. Selecteer de twee variabelen en verplaats ze naar de Test Fields box.

  4. Klik bij Settings op Customize tests.

  5. Klik op de box om McNemar's test (2 samples) te selecteren. Klik op Define Success en vervolgens op OK.

  6. Klik op Run (of op Paste om de Syntax Editor op te slaan).

Interpretatie van de output

Als de p-waarde (Sig.) kleiner is dan .05, betekent dit dat er een significant verschil is tussen je twee variabelen.


De McNemar test is alleen toepasbaar wanneer je twee responscategorieën hebt (bijv. ja/nee of aanwezig/afwezig). Echter, wanneer je drie of meer categorieën hebt, kan de McNemar’s test nog steeds gebruikt worden. SPSS genereert dan automatische de resultaten van de McNemar-Bowker symmetrietest.

Hoe voer je Cochran’s Q test uit?

  1. Klik in het menu bovenaan het scherm op Analyze, vervolgens op Nonparametric Tests, daarna op Related Samples.

  2. Klik bij “What is your objective?” op Customize analysis.

  3. Klik op de variabelen die de verschillende tijdsmomenten representeren en verplaats ze naar de Test Fields box.

  4. Klik bij Settings op Customize tests.

  5. Klik op Cochran’s Q (k samples). Zorg dat bij Multiple comparisons de optie All pairwise is geselecteerd.

  6. Klik op OK (of op Paste om de Syntax Editor op te slaan).

Interpretatie van de output

Om vast te stellen of er een significant verschil is tussen de variabelen/tijdsmomenten, kijk je naar de p-waarde (Asymp. Sig.); deze moet kleiner zijn dan .05.

Hoe meet je de overeenstemming tussen twee tests met Kappa?

Kappa’s maat van overeenstemming (measure of agreement) wordt veelal toegepast wanneer de interbeoordelaarsbetrouwbaarheid moet worden vastgesteld. Kappa is een schatting van de mate van overeenstemming tussen twee beoordelaars/tests. Hierbij wordt rekening gehouden met de mate van overeenstemming die zich toevallig zou kunnen hebben voorgedaan.

De waarde die wordt verkregen uit Kappa’s maat van overeenstemming wordt beïnvloed door de prevalentie van de positieve waarde. Dit betekent dat bij studies waar het interessedomein zeldzaam is, de kappa-statistiek zeer laag kan zijn, ondanks hoge niveaus van algemene overeenstemming.

Een aanvullende assumptie van deze benadering, is dat ervan uit wordt gegaan dat beoordelaar/test 1 en beoordelaar/test 2 hetzelfde aantal categorieën heeft.

Procedure voor Kappa: maat van overeenstemming

  1. Klik in het menu bovenaan het scherm op Analyze, vervolgens op Descriptive Statistics en daarna op Crosstabs.

  2. Klik op de variabele die je in de output-tabel in de rij wil hebben staan en verplaats deze naar de Row(s) box.

  3. Klik op de andere variabele die je in de output-tabel in de kolom wil hebben staan en verplaats deze naar de Column(s) box.

  4. Klik op de Statistics-knop, selecteer Kappa en klik op Continue.

  5. Klik op de Cells-knop.

  6. Zorg dat in de Counts box de optie Observed is aangevinkt.

  7. Klik in het Percentage gedeelte op Column. Klik op Continue en vervolgens op OK (of op Paste om de Syntax Editor op te slaan).

Interpretatie van de output

De belangrijkste informatie is terug te vinden in de tabel Symmetric Measures. Een waarde van .5 betekent een gemiddelde overeenkomst. Een Kappa-waarde van .7 en hoger betekent een goede overeenkomst en een waarde van .8 geeft een zeer goede overeenkomst weer.

Sensitiviteit en specificiteit

De frequenties en percentages zoals die worden weergegeven in de Crosstabulation tabel kunnen ook gebruikt worden om de sensitiviteit en specificiteit van een meting of een test te berekenen.

Sensitiviteit geeft het aandeel weer van de casussen met een ziekte of stoornis die correct zijn gediagnosticeerd. Specificiteit geeft het aandeel weer van de casussen zonder de ziekte of stoornis die correct zijn geclassificeerd.

Hoe voer je de Mann-Whitney U test uit?

De Mann-Whitney U Test wordt gebruikt om de verschillen te toetsen tussen twee onafhankelijke groepen op een continue schaal. Deze test is het niet-parametrische alternatief voor de t-test voor onafhankelijke steekproeven. De Mann-Whitney U Test vergelijkt medianen van de twee groepen. Het converteert de scores van de continue variabele om de twee groepen te rangschikken. Vervolgens kijkt de test of de rangen van de twee groepen significant verschillen.

Procedure voor Mann-Whitney U Test

  1. Klik in het menu bovenaan het scherm op Analyze, vervolgens op Nonparametric Tests, dan op Independent Samples.

  2. Klik bij “What is your objective?” op Customize analysis.

  3. Ga naar Fields.

  4. Verplaats de categorische (onafhankelijke) variabele naar Groups.

  5. Verplaats de continue (afhankelijke) variabele naar de Test Fields box.

  6. Klik bij Settings op Customize tests. Klik op Mann-Whitney U (2 samples).

  7. Klik op Continue en vervolgens op OK (of op Paste om de Syntax Editor op te slaan).

Interpretatie van de output

De belangrijkste waarden in je output zijn de Z-waarde en het significantieniveau welke wordt weergegeven als Asymp. Sig. (2-tailed). Als je steekproef groter is dan 30, zal SPSS de waarde geven voor een Z-benaderingstest.

Wanneer er statistisch significante verschillen tussen de groepen zijn, moet de richting van het verschil worden vastgesteld. Ofwel: welke groep is hoger? Dit kan je aflezen uit de Ranks tabel onder de kolom Mean Rank. Bij de rapportage van de resultaten is het van belang de mediaanwaarden van elke groep afzonderlijk weer te geven. Hiervoor moet je de volgende stappen volgen:

  1. Klik in het menu bovenaan het scherm op Analyze, vervolgens op Compare Means en kies dan Means.

  2. Verplaats je continue variabele naar de Dependent List box.

  3. Verplaats je categorische variabele naar de Independent List box.

  4. Klik op Options. Klik in het Statistics gedeelte op Median en verplaats deze naar de Cell Statistics box, Klik op Mean en Standard Deviation en verwijder deze uit de Cell Statistics box.

  5. Klik op Continue en vervolgens op OK (of op Paste om de Syntax Editor op te slaan).

Effectgrootte

SPSS voorziet niet in een statistische weergave van de effectgrootte. Met behulp van de z-waarde (zoals blijkt uit de output) kan de geschatte waarde van r worden berekend:

r = z / √N, waarbij N het aantal casussen is.

Hoe voer je de Wilcoxon Signed Rank test uit?

De ‘rangschikkingstest’ van Wilcoxon is ontworpen om herhaaldelijk metingen te verrichten. Bijvoorbeeld wanneer deelnemers worden gemeten op twee verschillende momenten of onder twee verschillende condities. Het is het niet-parametrische alternatief voor de t-toets voor herhaalde metingen (ofwel t-toets voor gepaarde steekproeven). De Wilcoxon rangschikkingstest converteert de scores tot niveaus en vergelijkt deze met elkaar op tijdstip 1 en tijdstip 2.

Procedure voor de Wilcoxon Signed Rank Test

  1. Klik in het menu bovenaan het scherm op Analyze, vervolgens op Nonparametric Tests, daarna op Legacy Dialogs en kies vervolgens 2 Related Samples.

  2. Klik op de variabelen die de scores op tijdstip 1 en 2 representeren en verplaats deze naar de Test Pairs box.

  3. Zorg dat in het Test Type gedeelte de Wilcoxon optie is aangevinkt.

  4. Klik op Options en selecteer daar Quartiles (dit levert de mediaan op voor ieder tijdstip).

  5. Klik op Continue en vervolgens op OK (of op Paste om de Syntax Editor op te slaan).

Interpretatie van de output

De twee uitkomsten waarin je geïnteresseerd bent zijn de Z-waarde en de bijbehorende significante niveaus (weergegeven als Asymp. Sig. (2-delig)). Wanneer het significantieniveau gelijk is aan of lager is dan 0.5, dan is er sprake van een statistisch significant verschil tussen de twee scores.

Effectgrootte

Voor de rangschikkingstest van Wilcoxon kan de effectgrootte op een soortgelijke manier worden berekend als voor de Mann-Whitney U-test; namelijk door de z-waarde te delen door de vierkantswortel van N, waarbij N in dit geval staat voor het aantal observaties over de twee tijdstippen genomen en dus niet het aantal casussen.

Hoe voer je de Kruskal-Wallis test uit?

Het niet-parametrische alternatief voor een one-way between-groups variantieanalyse is de Kruskal-Wallis test (of Kruskal-Walles H test). Deze test maakt het mogelijk om de scores te vergelijken van een variabele bestaande uit drie of meer groepen. Omdat het een analyse betreft tussen verschillende groepen, moeten er in elke verschillende groep, verschillende mensen zitten.

Procedure voor Kruskal-Wallis Test

  1. Klik in het menu bovenaan het scherm op Analyze, vervolgens op Nonparametric Tests, daarna op Independent Samples.

  2. Klik bij “What is your objective?” op Customize analysis.

  3. Ga naar Fields.

  4. Verplaats de continue afhankelijke variabele naar de Test Fields box.

  5. Verplaats de categorische onafhankelijke variabele naar Groups.

  6. Klik bij Settings op Customize tests. Klik op Kruskal Wallis 1-way ANOVA. Zorg dat bij Multiple comparisons de optie All pairwise is geselecteerd.

  7. Klik op Run (of op Paste om de Syntax Editor op te slaan).

Interpretatie van de output

De belangrijkste informatie die je nodig hebt uit de output van de Kruskal-Wallis Test zijn de waarde van de Chi-square, de vrijheidsgraden (df) en het significantieniveau (weergegeven als Asymp. Sig.).

Als het significantieniveau lager is dan .05, wijst dat op een statistisch significant verschil in je continue variabele tussen de drie groepen. Voor de drie groepen kan dan gekeken worden naar de Mean Rank, welke staat weergegeven in de eerste outputtabel. Hieruit valt af te lezen welke groep gemiddeld het hoogste scoort.

Post-hoc tests en effectgrootte

Na het uitvoeren van de Kruskal-Wallis Test weet je nog niet zeker welke groepen statistisch significant van elkaar verschilen. Daarvoor zijn er follow-up Mann-Whitney U tests tussen paren van groepen nodig. Om Type 1 fouten voor te zijn, is een Bonferroni-aanpassing aan de alfawaarden nodig wanneer je de groepen met elkaar wilt vergelijken.

De Bonferroni-aanpassing houdt in dat het alfa-niveau van .05 wordt gedeeld door het aantal tests dat je wilt gaan toepassen en dat je het herziene alfa-niveau gaat gebruiken als criterium om de significantie te bepalen.

Hoe voer je de Friedman test uit?

Het niet-parametrische alternatief voor een one-way repeated measures variantieanalyse is de Friedman Test. Deze test kan gebruikt worden wanneer dezelfde steekproeven neemt en deze op drie of meer tijdstippen meet onder drie of meer verschillende condities.

Procedure voor Friedman Test

  1. Klik in het menu bovenaan het scherm op Analyze, vervolgens op Nonparametric Tests, daarna op Legacy Dialogs en vervolgens op K Related Samples.

  2. Verplaats de variabelen die de metingen representeren naar de Test Variables box.

  3. Zorg dat in het Test Type gedeelte de Friedman-optie is geselecteerd.

  4. Klik op Statistics en vink de optie Quartiles aan.

  5. Klik op Continue en vervolgens op OK (of op Paste om de Syntax Editor op te slaan).

Post-hoc tests en effectgrootte

Wanneer is vastgesteld dat er een statistisch significant verschil is ergens op de drie tijdspunten, dan zou de volgende stap zijn om een post-hoc test uit te voeren om de tijdspunten waarin je geïnteresseerd bent te vergelijken.

Welke t-toetsen kunnen in SPSS gebruikt worden? - Chapter 17 (6e druk)

Er zijn verschillende t-toetsen beschikbaar in SPSS, hier zullen de volgende twee besproken worden:

  • T-toets voor onafhankelijke steekproeven (independent-samples t-test): deze toets wordt gebruikt om de gemiddelden van twee verschillende groepen mensen of condities te vergelijken.

  • T-toets voor gepaarde steekproeven (paired-samples t-test): deze toets wordt gebruikt om de gemiddelden van dezelfde groep mensen te vergelijken op twee verschillende momenten of wanneer er sprake is van gelijke (matched) paren.

Als er sprake is van meer dan twee groepen of condities kunnen deze toetsen niet gebruikt worden; in dat geval moet er een variantieanalyse gedaan worden.

Hoe ziet T-toets voor onafhankelijke steekproeven er uit?

Een independent-samples t-test wordt gebruikt wanneer je de gemiddelde score op een continue variabele van twee groepen deelnemers wilt vergelijken. Aan de hand van deze toets kan je bepalen of er sprake van een statistisch significant verschil tussen de gemiddelden van twee groepen. In statistische bewoording: er wordt getoetst wat de waarschijnlijkheid is dat twee reeksen scores afkomstig zijn van dezelfde populatie.

Het niet-parametrische alternatief voor deze toets is de Mann-Whitney U Test.

Procedure voor de t-toets voor onafhankelijke steekproeven

  1. Klik in het menu bovenaan het scherm op Analyze, vervolgens op Compare Means en dan op Independent Samples T Test.

  2. Verplaats de afhankelijke (continue) variabele naar de Test variable box.

  3. Verplaats de onafhankelijke (categorische) variabele naar het Grouping variable gedeelte.

  4. Klik op Define Groups en vul het aantal getallen in dat in de dataset wordt gebruikt om iedere groep te coderen. Mocht je niet kunnen onthouden welke waarden voor welke groep worden gebruikt, klik dan met de rechtermuisknop op de naam van de variabele en klik op de optie Variable Information. Er komt dan een pop-up box tevoorschijn waarin de waarden en labels voor deze variabele vermeld staan. Nadat je de waarden hebt ingevoerd, sluit je de pop-up box en klik je op Continue.

  5. Klik op OK (of op Paste om de Syntax Editor op te slaan).

Interpretatie van de output

Stap 1: Controleer de informatie over de groepen: Controleer het gemiddelde, de standaarddeviatie en de groepsgrootte (N) van beide groepen, te vinden in de tabel van de Group Statistics.

Stap 2: Check of aan de assumpties is voldaan: Controleer het resultaat van de Levene’s test (in het eerste gedeelte van de Independent Samples Test output box). Deze toets bepaalt of de variantie van de scores voor de twee groepen gelijk is. De uitslag bepaalt welke door SPSS gegenereerde t-waarde gebruikt moet worden. Als de significantie waarde (p) namelijk groter is dan .05, dan moet de eerste regel van de tabel worden afgelezen (Equal variances assumed). Als het significantie nivea gelijk aan of lager dan .05 is, dan schendt de data de assumptie van gelijke variantie en moet de tweede regel van de tabel worden afgelezen (Equal variances not assumed).

Stap 3: Breng de verschillen tussen de groepen in kaart: Lees de significantie waarde af onder Sig.(2-tailed) die te vinden is onder t-test for Equality of Means. Of je deze waarde af moet lezen voor equal variances assumed of not assumed blijkt dus uit stap 2. Bij een waarde gelijk aan of lager dan .05 is er sprake van een significant verschil tussen de gemiddelde scores op je afhankelijke variabele voor alle twee de groepen. Bij een waarde hoger dan .05 is er dus geen significant verschil tussen beide groepen.

Berekenen van de effectgrootte

SPSS produceert geen effectgroottes. Eta kwadraat kan met de hand berekend worden aan de hand van de informatie uit de output, met behulp van de volgende formule:

η2 = t2 / t2 + (N1 + N2 – 2)

Met de richtlijnen van Cohen kan de effectgrootte bepaald worden:

0,01 is een klein effect

0,06 is een gemiddeld/gematigd effect

0,14 is een groot effect.

Hoe ziet de T-toets voor gepaarde steekproeven er uit?

Een paired-samples t-test (ook wel repeated measures genoemd) wordt gebruikt als je data wilt verzamelen van slechts één groep mensen op twee verschillende momenten of onder twee verschillende condities. Hier is bijvoorbeeld sprake van bij een pre-test/post-test experimenteel design. Ook wordt de test gebruikt wanneer er sprake is van matched pairs participanten (iedere deelnemer wordt gematched met een andere deelnemer op basis van een specifiek criterium); De één wordt blootgesteld aan Interventie 1 en de ander aan Interventie 2. Voor ieder paar worden vervolgens de scores op een continue meting vergeleken.

Met deze toets kun je bepalen of er statistisch significant verschil is tussen de gemiddelde scores op tijdstip 1 en tijdstip 2. De basis assumpties voor t-testen zijn hierbij van toepassing. Een aanvulling hierop is de assumptie dat het verschil tussen de twee scores van iedere deelnemer normaal is verdeeld. Bij een steekproefgrootte van groter dan 30 is het onwaarschijnlijk dat een schending van deze assumptie serieuze problemen zal veroorzaken.

Het niet-parametrische alternatief voor deze toets is de Wilcoxon Signed Rank Test.

Procedure voor de t-toets voor gepaarde steekproeven

  1. Klik in het menu bovenaan het scherm op Analyze, vervolgens op Compare Means en dan op Paired Samples T Test.

  2. Verplaats de twee variabelen die je voor iedere deelnemer met elkaar wilt vergelijken naar de Paired Variables box.

  3. Klik op OK (of op Paste om de Syntax Editor op te slaan).

Interpretatie van de output

Stap 1: Bepaal de algemene betekenis: in de Paired Samples Test tabel moet in de laatste kolom (Sig (2-tailed)) gekeken worden naar de p (probability) waarde. Als deze waarde lager is dan .05, dan is er sprake van een significant verschil tussen beide scores.

Stap 2: Vergelijk de gemiddelden: nadat er vastgesteld is of er sprake is van een significant verschil, moet er uitgezocht worden welke reeks scores hoger is. Hiervoor moet gekeken worden naar de Mean scores in de Paired Samples Statistics tabel.

Berekenen van de effectgrootte

SPSS produceert geen effectgroottes. Eta kwadraat kan met de hand berekend worden aan de hand van de volgende formule:

η2 = t2 / t2 + (N – 1)

Met de richtlijnen van Cohen kan de effectgrootte bepaald worden. Dit zijn dezelfde richtlijnen als bij de t-toets voor onafhankelijke steekproeven.

Hoe gebruik je eenweg ANOVA in SPSS? - Chapter 18 (6e druk)

 

T-toetsen worden gebruikt om de scores van twee verschillende groepen of condities te vergelijken. In veel onderzoekssituaties zijn we echter geïnteresseerd in het vergelijken van gemiddelde scores van meer dan twee groepen. In dat geval wordt gebruik gemaakt van variantieanalyse (ANOVA). Variantieanalyse wordt zo genoemd omdat de variantie (variabiliteit in scores) tussen de verschillende groepen (waarvan verwacht wordt dat deze verklaard kan worden door de onafhankelijke variabele) wordt vergeleken met de variabiliteit binnen elk van de groepen (waarvan verwacht wordt dat deze wordt veroorzaakt door toeval). De F-ratio – ofwel de variantie tussen de groepen gedeeld door de variantie binnen de groepen – wordt berekend. Een significante F-waarde betekent dat de nulhypothese, namelijk dat de populatiegemiddelden gelijk zijn, verworpen kan worden. Omdat het niks zegt over welke groepen van elkaar verschillen, dienen nog post-hoc toetsen te worden uitgevoerd. Een alternatief voor post-hoc toetsen is het uitvoeren van specifieke vergelijkingen (ofwel planned comparisons).

Hieronder worden twee soorten one-way ANOVA’s besproken, namelijk: (1) between-groups ANOVA, welke wordt gebruikt wanneer je te maken hebt met verschillende deelnemers/casussen in elk van je groepen (ook wel het independent groups design genoemd); en (2) repeated measures ANOVA, welke wordt gebruikt wanneer je dezelfde deelnemers onder verschillende condities/tijdstippen vergelijkt (ook wel het within-subjects design genoemd).

Wanneer gebruik je post-hoc toetsen bij ANOVA?

De one-way between-groups ANOVA wordt toegepast wanneer je één categorische onafhankelijke (grouping) variabele hebt met minimaal drie niveaus (groepen) en één continue afhankelijke variabele.

Het niet-parametrische alternatief van de one-way between-groups ANOVA is de Kruskal-Wallis Test.

Procedure voor one-way between-groups ANOVA met post-hoc toetsen

  1. Klik in het menu bovenaan het scherm op Analyze, vervolgens op Compare Means en daarna op One-way ANOVA.

  2. Verplaats je afhankelijke variabele naar de Dependent List box.

  3. Verplaats je onafhankelijke variabele naar de Factor box.

  4. Klik Options aan en selecteer Descriptive, Homogenity of variance test, Brown-Forsythe, Welch en Means Plot.

  5. Zorg dat bij Missing values de optie Exclude cases analysis by analysis is aangevinkt en klik op Continue.

  6. Klik op Post Hoc en selecteer Tukey.

  7. Klik op Continue en vervolgens op OK (of op Paste om de Syntax Editor op te slaan).

Interpretatie van de output

Check altijd eerst de Descriptives tabel; hierin vind je informatie over iedere groep. Kijk vervolgens in de Test of Homogeneity of Variances tabel, waar je Levene’s test voor gelijke varianties vindt. Als de significantiewaarde (Sig.) groter is dan .05 is de assumptie van gelijke varianties niet geschonden. Mocht dit wel het geval zijn, raadpleeg dan de tabel Robust Tests of Equality Means. De twee tests die hier staan (Welch en Brown-Forsythe) zijn in dat geval beter om te gebruiken.

In de ANOVA tabel ben je voornamelijk geïnteresseerd in de Sig.-kolom; hier vind je de p-waarde. Wanneer deze kleiner is dan .05, is er sprake van een significant verschil tussen de gemiddelde scores van je afhankelijke variabele voor de verschillende groepen. Het vertelt je niet welke groepen van elkaar verschillen. De statistische significantie van de verschillen tussen iedere paar groepen staan in de Multiple Comparisons tabel, waarin je de resultaten van de post-hoc toetsen vindt. De gemiddelden van iedere groep staan in de Descriptives tabel. Kijk alleen naar de Multiple Comparisons tabel wanneer je een significante waarde hebt gevonden in je algemene ANOVA (zie de ANOVA tabel). Kijk naar de kolom Mean Difference en zoek naar asterisken (*) naast de waarden. Wanneer je een asterisk ziet, betekent dit dat de twee groepen die met elkaar worden vergeleken significant van elkaar verschillen met een p-waarde < .05. De exacte significante waarde staat vermeld in de Sig.-kolom.

De Means plot is een eenvoudige manier om de gemiddelde scores van de verschillende groepen met elkaar te vergelijken. Deze plots kunnen misleidend zijn, dus kijk altijd goed naar de waarden op de y-as.

Berekenen van de effectgrootte

Hoewel SPSS geen effectgrootte genereert, kan deze wel worden berekend met behulp van de informatie uit de ANOVA tabel. Gebruik daarbij de volgende formule:

η2 = som van de kwadraten tussen groepen / totale kwadratensom

Wanneer gebruik je geplande vergelijkingen bij ANOVA?

Geplande vergelijkingen gebruik je wanneer je geïnteresseerd bent in vergelijkingen tussen specifieke groepen. Deze techniek is meer sensitief in het detecteren van verschillen. Post-hoc toetsen, daarentegen, stellen strengere significantieniveaus om het risico op Type 1 fouten te reduceren. Je moet besluiten of je gebruik maakt van post-hoc toetsen of geplande vergelijkingen voor je aan je analyse begint.

Specificeren van coëfficiëntwaarden

Eerst moet je je groepen indelen op basis van de verschillende waarden van de onafhankelijke variabele (bijv. leeftijdscategorieën). Vervolgens moet je beslissen welke groepen je wilt vergelijken en welke je wilt negeren. De som van de coëfficiëntwaarden moet altijd 0 zijn. Coëfficiënten met verschillende waarden worden met elkaar vergeleken. Wanneer je een van de groepen wilt negeren, geef je deze de waarde 0.

Procedure voor one-way between-groups ANOVA met geplande vergelijkingen

  1. Klik in het menu bovenaan het scherm op Analyze, vervolgens op Compare Means en daarna op One-way ANOVA.

  2. Verplaats je afhankelijke (continue) variabele naar de Dependent List box.

  3. Verplaats je onafhankelijke variabele naar de Factor box.

  4. Klik Options aan en selecteer Descriptive, Homogenity of variance test, Brown-Forsythe, Welch en Means Plot.

  5. Zorg dat bij Missing values de optie Exclude cases analysis by analysis is aangevinkt en klik op Continue.

  6. Klik op Contrasts. Vul in de Coefficients box de coëfficiënt voor de eerste groep in en klik op Add. Vul de coëfficienten voor de tweede groep in en klik op Add. Doe dit voor al je groepen. Het Coefficient Total onder aan de tabel moet 0 zijn wanneer je alle coëfficiënten juist hebt ingevuld.

  7. Klik op Continue en vervolgens op OK (of op Paste om de Syntax Editor op te slaan).

Interpretatie van de output

De Descriptives en Test of homogeneity of variances tabellen zien er hetzelfde uit als die van de one-way ANOVA met post-hoc toetsen. Hier wordt alleen de output besproken die relevant is voor de geplande vergelijkingen.

Stap 1: In de Contrast Coefficients tabel staan de coëfficiënten die je voor iedere groep hebt ingevuld. Controleer of dit klopt.

Stap 2: De belangrijkste resultaten waarin je geïnteresseerd bent staan in de Contrast Tests tabel. Als Levene’s test niet significant is, is er sprake van gelijke varianties en dus moet je kijken naar de eerste rij in deze tabel. Wanneer het significantieniveau van het contrast dat je hebt gespecificeerd significant (gelijk aan of kleiner dan .05) is, betekent dit dat er een statistisch significant verschil is tussen de betreffende groep en de andere groepen. Zoals je zal zien, levert de geplande vergelijkingsanalyse een t-waarde op in plaats van een F-waarde. Om de F-waarde te verkrijgen hoef je alleen maar de t-waarde te kwadrateren. Om de resultaten te rapporteren heb je ook de vrijheidsgraden nodig. De eerste waarde (voor alle geplande vergelijkingen) is 1; de tweede staat in de tabel naast de t-waarde (onder df).

Hoe ziet de One-way repeated measures ANOVA er uit?

In een one-way repeated measures ANOVA design wordt iedere deelnemer aan twee of meerdere condities blootgesteld of op drie of meer tijdstippen op dezelfde continue schaal gemeten. De techniek kan tevens worden toegepast om de responsen van deelnemers op twee of meer verschillende vragen of items te vergelijken. Belangrijk hierbij is dat de vragen op dezelfde schaal moeten worden gemeten (bijv. 1 = helemaal mee oneens, tot 5 = helemaal mee eens).

Het niet-parametrische alternatief voor deze toets is de Friedman Test.

Procedure voor one-way repeated measures ANOVA

  1. Klik in het menu bovenaan het scherm op Analyze, vervolgens op General Linear Model en daarna op Repeated Measures.

  2. Vul in de Within Subject Factor Name box een naam in die je onafhankelijke variabele representeert. Dit is niet de daadwerkelijke variabele naam, maar slechts een label dat je koppelt aan je onafhankelijke variabele.

  3. Vul in de Number of Levels box het aantal niveaus of groepen in.

  4. Klik op Add.

  5. Klik op de Define-knop.

  6. Selecteer de variabelen die je herhaalde metingen variabele representeren en verplaats ze naar de Withing Subjects Variable box.

  7. Klik Options aan.

  8. Vink in het Display gedeelte de opties Descriptive Statistics en Estimates of effect sizes aan. Als je post-hoc toetsen wilt opvragen, selecteer dan de naam van je onafhankelijke variabele in het Factor and Factor Interactions gedeelte en verplaats deze naar de Display Means for box. Vink Compare Main effects aan. Klik in het Confidence interval adjustment gedeelte op pijl die naar beneden wijst en kies voor de optie Bonferroni.

  9. Klik op Continue en vervolgens op OK (of op Paste om de Syntax Editor op te slaan).

Interpretatie van de output

In de eerste output box zie je de beschrijvende statistieken van je verzameling scores (Mean, Standard deviation, N). Controleer of dit klopt.

In de volgende tabel (Multivariate tests) ben je geïnteresseerd in de waarde van Wilk’s Lambda en de bijbehorende significantiewaarde (onder de Sig.-kolom). Wanneer de p-waarde gelijk is aan of kleiner dan .05 kan je concluderen dat er sprake is van een significant verschil. Om de effectgrootte te achterhalen, moet je kijken naar de Partial Eta Squared-kolom in de Multivariate Tests tabel. Zie de tabel in Deel 5 voor de effectgrootte-richtlijnen.

Wanneer je een significant verschil hebt gevonden, betekent dit dat er ergens tussen je groepen een verschil is. Het vertelt je echter niet welke groepen of scores van elkaar verschillen; dit kun je aflezen uit de Pairwise Comparison tabel, waarin ieder paar groepen wordt vergeleken en wordt aangegeven of het verschil tussen de groepen significant is (zie de Sig.-kolom).

Hoe gebruik je tweeweg ANOVA in SPSS? - Chapter 19 (6e druk)

 

Two-way wil zeggen dat er twee onafhankelijke variabelen zijn. Between-groups geeft aan dat er in elk van de groepen verschillende deelnemers zitten. Aan de hand van de two-way between-groups ANOVA kan gekeken worden naar de individuele en gezamenlijke invloed van twee onafhankelijke variabelen op één afhankelijke variabele. Je kan dus niet alleen het hoofdeffect voor iedere onafhankelijke variabele toetsen, maar ook kijken of er mogelijk sprake is van een interactie-effect. Dit laatste effect vindt plaats wanneer de invloed van een onafhankelijke variabele op de afhankelijke variabele afhankelijk is van een tweede onafhankelijke variabele.

Hoe voer je tweeweg ANOVA uit?

  1. Klik in het menu bovenaan het scherm op Analyze, vervolgens op General Linear Model en daarna op Univariate.

  2. Verplaats je afhankelijke (continue) variabele naar de Dependent variable box.

  3. Verplaats je onafhankelijke (categorische) variabelen naar de Fixed Factors box.

  4. Klik op Options en vervolgens op Descriptive Statistics, Estimates of effect size en Homogeneity of tests. Klik daarna op Continue.

  5. Klik op Post Hoc. Selecteer uit de Factors die aan de linkerkant staan de onafhankelijke variabelen waarin je geïnteresseerd bent en verplaats deze naar het Post Hoc Tests for gedeelte. Kies welke toets je wilt gebruiken (bijv. Tukey) en klik op Continue.

  6. Klik op de Plots-knop. Verplaats de onafhankelijke variabele met de meeste groepen naar de Horizontal box. Verplaats de overige onafhankelijke variabelen naar de Separate Lines box. Klik op Add. Als het goed is zie je nu in het Plots gedeelte je twee variabelen.

  7. Klik op Continue en vervolgens op OK (of op Paste om de Syntax Editor op te slaan).

Hoe interpreteer je de resultaten van tweeweg ANOVA?

Controleer in de Descriptive Statistics tabel of je beschrijvende statistieken (gemiddelde scores, standaarddeviaties en aantal deelnemers (N)) juist zijn.

Check in de Levene’s Test of Equality of Error Variances of aan de assumpties is voldaan. Je wilt dat de significantiewaarde groter is dan .05. Een significant resultaat suggereert namelijk dat de variantie van je afhankelijk niet hetzelfde is over de verschillende groepen. Mocht dit het geval zijn, dan wordt aangeraden om een strenger significantieniveau (bijv. .01) te stellen om je resultaten van je two-way ANOVA te evalueren.

De belangrijkste output van de two-way ANOVA vindt je in de tabel genaamd Tests of Between-Subjects. Het eerste dat je doet is kijken of er sprake is van een interactie-effect. Wanneer hier namelijk sprake van is, wordt het lastiger om de hoofdeffecten te interpreteren. Kijk in de output naar de variabele1 * variabele 2 significantiewaarde (onder de Sig.-kolom); wanneer deze kleiner is dan of gelijk aan .05 (of een andere vastgestelde alfawaarde), is er sprake van een significant interactie-effect. Wanneer je geen interactie-effect vindt, kan je de hoofdeffecten zonder zorgen interpreteren. In de linker kolom vind je de variabelen waarin je geïnteresseerd bent. Kijk naar de Sig.-kolom naast iedere variabele om vast te stellen of er sprake is van een hoofdeffect voor elke onafhankelijke variabele. Wanneer de significantiewaarde kleiner is dan of gelijk aan .05 (of een andere vastgestelde alfawaarde), is er sprake van een significant hoofdeffect voor die onafhankelijke variabele.

De effectgrootte vind je terug in de Partial Eta Squared-kolom. Maak bij de interpretatie hiervan gebruik van de richtlijnen van Cohen.

Als je significante verschillen hebt gevonden, moet je vervolgens kijken waar deze verschillen zich bevinden; dit doe je aan de hand van post-hoc toetsen. Deze toetsen zijn alleen relevant wanneer je onafhankelijke variabele uit meer dan twee niveaus/groepen bestaat. De resultaten van de post-hoc toetsen staan in de Multiple Comparisons tabel. De Tukey Honestly Significant Difference (HSD) test is een van de meest gebruikte tests. Zoek in de Sig.-kolom naar waarden kleiner dan .05. Significante resultaten staan ook aangeduid met een kleine asterisk in de Mean Difference kolom.

Aan het eind van je output vind je een plot van de scores van de verschillende groepen. Aan de hand hiervan krijg je een overzichtelijk visueel beeld van de relatie tussen je variabelen. Kijk altijd wel goed naar de schaal wanneer je de plots interpreteert.

Welke aanvullende analyses zijn nodig in geval van een significant interactie-effect?

Wanneer je een significant interactie-effect vindt, is het raadzaam om follow-up toetsen uit te voeren om deze relatie nauwkeuriger te onderzoeken (alleen als een van je variabelen bestaat uit minimaal drie niveaus). Dit kan bijvoorbeeld aan de hand van een simpele effectenanalyse. Dit betekent dat je de resultaten van elk van de subgroepen afzonderlijk gaat bekijken. Hiervoor moet je de steekproef opsplitsen in groepen volgens een van je onafhankelijke variabelen en afzonderlijke one-way ANOVA’s uitvoeren om het effect van de andere variabele te kunnen onderzoeken. Volg hiervoor de volgende procedure:

  1. Klik in het menu bovenaan het scherm op Data en vervolgens op Split File.

  2. Klik op Organize output by groups.

  3. Plaats de groepeer variabele naar de Groups based on box. Dit splitst de steekproef op basis van deze variabele en herhaalt alle analyses die voor deze twee groepen volgen afzonderlijk.

  4. Klik op OK.

Voer, nadat je je file hebt gesplitst, een one-way ANOVA uit. Let op: Als je klaar bent met de analyse, vergeet dan niet de Split File-optie uit te zetten. Ga hiervoor weer naar Data en selecteer Split File. Vink de eerste optie (Analyse all cases, do not create groups) aan en klik op OK.

 

Image

Access: 
Public

Image

Join WorldSupporter!
Search a summary

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Follow the author: Vintage Supporter
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
3243 1