Samenvatting van SPSS Survival Manual van Pallant - 6e druk
- 3303 keer gelezen
Samengestelde samenvatting, gebaseerd op hoofdstuk 13 van SPSS Survival Manual van Pallant, 6e druk uit 2016.
Hieronder wordt uitgelegd hoe je SPSS kunt gebruiken bij meervoudige regressieanalyses. Meervoudige regressie is niet slechts één techniek, maar een verzameling technieken die gebruikt kan worden om de relatie tussen een continue afhankelijke variabele en meerdere onafhankelijke variabelen of voorspellers (meestal continu) te onderzoeken. Het is gebaseerd op correlatie, maar biedt een meer verfijnde analyse van de relatie tussen een reeks variabelen. Meervoudige regressie kan bij verschillende onderzoeksvragen worden toegepast, waaronder:
Hoe goed een reeks variabelen in staat is een bepaalde uitkomst te voorspellen.
Welke variabele binnen een reeks variabelen de beste voorspeller van een bepaalde uitkomst is.
Of een bepaalde voorspellende variabele nog steeds de uitkomst kan voorspellen wanneer gecontroleerd wordt voor de invloed van een andere variabele.
Er zijn verschillende soorten meervoudige regressieanalyses die je, afhankelijk van je onderzoeksvraag, kan toepassen. De drie belangrijkste meervoudige regressieanalyses zijn:
Standaard of simultaan
Hiërarchisch of sequentieel
Stapsgewijs
In de standaard meervoudige regressie worden alle onafhankelijke (of voorspellende) variabelen tegelijkertijd vergeleken. Iedere variabele wordt geëvalueerd in termen van zijn voorspellende waarde vergeleken met die van de andere onafhankelijke variabelen. Deze analyse gebruik je als je een reeks variabelen hebt en wil weten in welke mate ze als groep de variantie in een afhankelijke variabele kunnen verklaren.
In de hiërarchische meervoudige regressie (ook wel sequentiële regressie genoemd) worden de onafhankelijke variabelen aan de vergelijking toegevoegd in de volgorde die door de onderzoeker is vastgesteld op basis van een theoretisch kader. Variabelen of reeksen variabelen worden in stappen toegevoegd. Iedere variabele wordt gemeten in termen van wat het toevoegt aan de voorspelling van de afhankelijke variabele nadat is gecontroleerd voor de overige variabelen.
In de stapsgewijze regressie levert de onderzoeker een lijst van onafhankelijke variabelen en laat vervolgens het programma, op basis van een reeks statistische criteria, selecteren welke variabelen worden toegevoegd en in welke volgorde deze worden toegevoegd aan de vergelijking. Er zijn drie verschillende versies van deze benadering: (1) voorwaartse selectie, (2) achterwaartse schrapping (backward deletion), en (3) stapsgewijze regressie.
Het is belangrijk dat je steekproef niet te klein is, omdat de resultaten anders niet (voldoende) generaliseerbaar zijn. Tabachnick en Fidell kwamen met een formule om de benodigde steekproefgrootte uit te rekenen: N > 50 + 8m (m = aantal onafhankelijke variabelen). Je hebt meer casussen nodig als de variabele scheef (skewed) is. Voor stapsgewijze regressie heb je een ratio van 40 casussen per onafhankelijke variabele nodig.
Dit verwijst naar de relatie tussen de onafhankelijke variabelen. Van multicollineariteit is sprake wanneer de onafhankelijke variabelen sterk met elkaar correleren (r = .9 en hoger). Van singulariteit is sprake wanneer een onafhankelijke variabele eigenlijk een combinatie is van andere onafhankelijke variabelen. Geen van beide draagt bij aan een goed regressiemodel.
Meervoudige regressie is erg gevoelig voor outliers (extreem hoge of lage scores). Controleer dus alle variabelen (zowel de afhankelijke, als de onafhankelijke) op outliers. Outliers kunnen worden verwijderd uit de dataset, of ze kunnen een score krijgen die hoog/laag is, maar niet teveel afwijkt van de overige scores. Tabachnick en Fidell definiëren outliers als scores met gestandaardiseerde residuele waarden > 3.3 of < -3.3. Je kunt outliers vinden in de gestandaardiseerde residuele plot.
Al deze termen verwijzen naar verschillende aspecten van de verdeling van scores en de aard van de onderliggende relatie tussen de variabelen. Deze assumpties kunnen worden afgelezen in de residuen scatterplots. Residuen zijn de verschillen tussen de verkregen en voorspelde afhankelijke variabele (AV) scores. Aan de hand van de residuen scatterplots kan je de volgende assumpties controleren:
normaliteit: de residuen moeten normaal verdeeld zijn over de voorspelde AV-scores.
lineariteit: de residuen moeten een lineaire relatie hebben met de voorspelde AV-scores.
homoscedasticiteit: de variantie van de residuen over de voorspelde AV-scores zou voor alle voorspelde scores hetzelfde moeten zijn.
In het geval van de standaard meervoudige regressie worden alle onafhankelijke variabelen tegelijkertijd in het model ingevoerd. De resultaten geven een indicatie hoe goed deze reeks variabelen in staat is om de afhankelijke variabele te voorspellen. Ook laat het zien hoeveel unieke variantie elk van de onafhankelijke variabelen kan verklaren ten opzichte van de overige onafhankelijke variabelen.
Klik voordat je met de volgende procedure begint op Edit in het menu. Selecteer vervolgens Options en zorg dat de box No scientific notification for small numbers in tables is aangevinkt.
Klik in het menu bovenaan het scherm op Analyze, selecteer vervolgens Regression en daarna Linear.
Klik op je continue afhankelijke variabele en verplaats deze naar de Dependent box.
Klik op je onafhankelijke variabelen en klik op de pijl om ze te verplaatsen naar de Independent box.
Zorg dat voor de Methode Enter is geselecteerd.
Klik op de Statistics knop. Selecteer het volgende: Estimates, Confidence Intervals, Model fit, Descriptives, Part and partial correlations en Collinearity diagnostics. Selecteer in het Residuals gedeelte Casewise diagnostics en Outliers outside 3 standard deviations. Klik vervolgens op Continue.
Klik op Options en selecteer in het Missing Values gedeelte Exclude cases pairwise. Klik op Continue.
Klik op de Plots knop. Klik op *ZRESID en de pijl om deze te verplaatsen naar de Y-box. Klik op *ZPRED en de pijl om deze te verplaatsen naar de X-box. Vink in het Standardized Residual Plots de optie Normal probability plot aan en klik op Continue.
Klik op Save. Vink in het Distances gedeelte Mahalanobis box en Cook’s aan. Klik op Continue en vervolgens op OK (of op Paste om de Syntax Editor op te slaan).
De correlaties tussen de variabelen in je model staan in de tabel Correlations. Controleer of je onafhankelijke variabelen ten minste enige relatie met je afhankelijke variabele vertonen (het liefst > .3). Controleer ook of de correlatie tussen je onafhankelijke variabelen niet te groot is (het liefst een bivariate correlatie < .7).
SPSS voert als onderdeel van de meervoudige regressieprocedure ook ‘collineariteitsdiagnostiek’ uit op je variabelen. Dit kan problemen met betrekking tot multicollineariteit ondervangen die niet in de correlatiematrix zichtbaar zijn. Deze resultaten staan in de tabel Coefficients. Hier worden twee waarden gegeven: Tolerance en VIF. Tolerance is een indicator van hoeveel van de variabiliteit van de gespecificeerde onafhankelijke variabele niet verklaard wordt door de overige onafhankelijke variabelen in het model. Als deze waarde erg laag is (< .10), geeft dit aan dat de meervoudige correlatie met andere variabelen hoog is, wat mogelijk wijst op multicollineariteit. VIF (variance inflation factor) waarden boven 10 zijn reden tot zorg, aangezien dit mogelijk wijst op multicollineariteit. Gebruik Tolerance en VIF alleen als waarschuwingsteken en check ook altijd je correlatiematrix.
Een manier waarop deze assumpties kunnen worden gecheckt is door de Normal Probability Plot (P-P) of the Regression Standardised Residual en de Scatterplot te inspecteren. Deze staan aan het eind van de output. In de Normal P-P Plot hoop je dat de punten van links onder naar rechts boven een redelijk rechte diagonale lijn vormen. Dit suggereert dat er geen grote afwijkingen van normaliteit zijn. In de Scatterplot van de gestandaardiseerde residuen (het tweede plot) hoop je dat de residuen ruwweg rechthoekig verdeeld zijn, waarbij de meeste scores in het midden liggen (rond het 0-punt). Aan de hand van de Scatterplot kun je tevens outliers identificeren. Outliers kunnen ook worden geïdentificeerd door de Mahalanobis afstanden te inspecteren. Deze zijn niet zichtbaar in de output, maar zijn aan het eind van de data file als extra variabele toegevoegd. Om te achterhalen welke scores outliers zijn, heb je een kritieke chi-square waarde nodig. Tabachnik en Fidell suggereren het gebruik van een alfa-waarde van .001.
Kijk in de Model Summary box en controleer de waarde onder het kopje R Square; dit vertelt je hoeveel van de variantie in de afhankelijke variabele verklaard wordt door het model. Het valt je misschien op dat er ook een Adjusted R Square-waarde in de output staat. Wanneer je een kleine steekproef hebt, is de R square-waarde vaak een optimistische overschatting van de echte populatiewaarde. De Adjusted R Square-statistiek ‘corrigeert’ deze waarde en voorziet van een betere schatting van de echte populatiewaarde. Dus als je een kleine steekproef hebt, kan je beter deze waarde rapporteren. Om de statistische significantie van de resultaten te achterhalen, moet je in de ANOVA-tabel kijken; deze test de nulhypothese dat meervoudige R in de populatie gelijk is aan 0.
Het volgende dat je wil weten is welke van de variabelen in het model bijdraagt aan de voorspelling van de afhankelijke variabele. We vinden deze informatie in de output-box, genaamd Coefficients. Kijk in Beta-kolom onder Standardized Coefficients. Om de verschillende variabelen met elkaar te kunnen vergelijken is het belangrijk dat je kijkt naar de gestandaardiseerde coëfficiënten en niet de ongestandaardiseerde (B); deze laatste gebruik je alleen als je een regressievergelijking wilt opstellen.
Controleer voor alle onafhankelijke variabelen de waarde in de Sig.-kolom; dit vertelt je of deze variabele een significante unieke bijdrage levert aan de vergelijking. Dit is erg afhankelijk van welke variabelen opgenomen zijn in de vergelijking en hoeveel overlap er is tussen de onafhankelijke variabelen. Als de Sig.-waarde kleiner is dan .05 (.01, .001, etc.), levert de variabele een significante unieke bijdrage aan de voorspelling van de afhankelijke variabele.
Een ander potentieel nuttig informatieonderdeel in de coëfficiëntentabel is de Part correlatiecoëfficiënten (soms ook wel semipartial correlation coefficients genoemd). Als je deze waarde kwadrateert, krijg je een indicatie van de bijdrage van die variabele aan de totale R-square. Met andere woorden, het vertelt je hoeveel van de totale variantie in de afhankelijke variabele uniek verklaard wordt door die variabele en hoeveel R-square zou zakken als deze variabele niet in je model opgenomen zou zijn.
Bij deze vorm van meervoudige regressie worden de variabelen in stappen in een vooraf bepaalde volgorde toegevoegd.
Klik in het menu bovenaan het scherm op Analyze, selecteer vervolgens Regression en daarna Linear.
Kies je continue afhankelijke variabele en verplaats deze naar de Dependent box.
Verplaats de variabelen waarvoor je wilt controleren naar de Independant box; deze vormen het eerste blok die ingevoerd zullen worden in de analyse.
Klik op Next, dit levert een tweede onafhankelijke variabelen box op waarin je het tweede blok variabelen aan toe kunt voegen.
Kies je volgende blok onafhankelijke variabelen.
Zorg dat dit op default staat in de Method box (Enter).
Klik op Statistics en vink de volgende opties aan: Estimates, Model fit, R squared change, Descriptives, Part and partial correlations en Collinearity diagnostics. Klik op Continue.
Klik op Options. Klik in het Missing Values gedeelte op Exclude cases pairwise en klik op Continue.
Klik op de Plots knop.
Klik op *ZRESID en de pijl om deze te verplaatsen naar de Y-box.
Klik op *ZPRED en de pijl om deze te verplaatsen naar de X-box.
Vink in het Standardized Residual Plots de optie Normal probability plot aan en klik op Continue.
Klik op Save. Vink in het Distances gedeelte Mahalanobis box en Cook’s aan. Klik op Continue en vervolgens op OK (of op Paste om de Syntax Editor op te slaan).
De output van deze regressieanalyse lijkt op die van de standaard meervoudige regressie, met hier en daar wat extra informatie. In de Model Summary box vind je twee modellen. Model 1 verwijst naar het eerste blok variabelen die is toegevoegd en Model 2 omvat alle variabelen die in beide blokken zijn toegevoegd.
Controleer de R Square-waarden in de eerste Model Summary box. Let op! De tweede R square-waarde omvat alle variabelen van beide blokken en dus niet alleen de variabelen die tijdens de tweede stap zijn toegevoegd. Om te achterhalen hoeveel van de totale variantie wordt verklaard door de variabelen waarin je geïnteresseerd bent, kijk je in de kolom R Square change en de bijbehorende Sig. F change.
Om te achterhalen hoe goed alle variabelen bijdragen aan de uiteindelijke vergelijking, moet je kijken in de Coefficients tabel in de Model 2 rij. Dit vat de resultaten samen waarbij alle variabelen in de vergelijking zijn opgenomen. In de Sig. kolom zie je of de variabelen een unieke statistisch significante bijdrage leveren.
Afhankelijk van het type analyse dat je hebt uitgevoerd en de aard van de onderzoeksvraag, zijn er een aantal verschillende manieren waarop de resultaten van meervoudige regressie kunnen worden gepresenteerd. Je moet minstens de volgende informatie noemen: (1) wat voor soort analyse je hebt uitgevoerd (standaard of hiërarchisch), (2) gestandaardiseerde (beta) waarden in het geval van een theoretisch onderzoek of ongestandaardiseerde (B) coëfficiënten in het geval van een toegepast onderzoek. Indien je een hiërarchische meervoudige regressie hebt uitgevoerd, dien je tevens de R square waarde veranderingen (value changes) voor iedere stap te noemen, samen met de waarschijnlijkheidswaarden (probability values).
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Samengestelde samenvatting, gebaseerd op de SPSS Survival Manual van Pallant, 6e druk uit 2016.
Deze samenvatting is zowel te gebruiken bij versie 24 van IBM SPSS als bij andere versies. Bij gebruik van andere versies kan het voorkomen dat de opties een soortgelijke naam hebben gekregen...
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
Main summaries home pages:
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
10417 | 1 |
Add new contribution