Bijlage hoorcolleges Methoden en Technieken van Criminologisch Onderzoek II
- 1461 reads
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Kwantitatief onderzoek houdt zich bezig met de mate van het optreden van sociale verschijnselen. Het probeert verschijnselen te verklaren. Kwalitatief onderzoek daarentegen houdt zich bezig met de aard van sociale verschijnselen. Het probeert verschijnselen te begrijpen.
Nominaal niveau: zegt niks over rangorde (bv. Man/vrouw). Ordinaal niveau: er zit een rangorde in, maar tussen de stappen zit geen gelijk niveau, dus vwo is niet 2x zo goed als havo (bv. Opleiding). Interval niveau: heeft geen nulpunt, maar de verschillen tussen de stappen zijn gelijk/even groot (bv. Temperatuur). Ratio/absoluut niveau: heeft wel een nulpunt en de stappen zijn ook gelijk (bv. Gewicht/prijs)
De onafhankelijke variabelen zijn de invloedvariabelen. De afhankelijke variabelen zijn de variabelen die je wilt begrijpen/verklaren, de variabelen waar je in geïnteresseerd bent, waar iets invloed op heeft.
Maten van centrale tendentie: waar bevindt zich het gemiddelde? De maten van centrale tendentie zijn het gemiddelde, de mediaan en de modus. De maten van spreiding geven aan hoeveel verschil er is in scores. Dit zijn de variantie: de gemiddelde gekwadrateerde afwijking van individu van het gemiddelde en de standaarddeviatie: de gemiddelde afwijking van individu van gemiddelde.
95% van de scores in een normaalverdeling ligt 1,96 standaarddeviaties onder of boven het gemiddelde. Individuele scores zijn om te rekenen tot z-scores. Dit is de afstand tot het gemiddelde, uitgedrukt in aantallen.
Univariaat: analyse met één variabele.
Bivariaat: analyse met twee variabelen.
Multivariaat: analyse met meer dan twee variabelen. Hierbij zijn meerdere factoren van belang. Tegelijkertijd worden meerdere variabelen bekeken en gecontroleerd.
Correlatie is een vorm van bivariate analyse. Het geeft informatie over de sterkte en de richting van een verband tussen twee variabelen. Significantie speelt hierbij een rol. Het geeft een indicatie hoe groot de kans is dat het gevonden verband tussen groepen per toeval in de steekproef worden gevonden, terwijl die in de populatie niet aanwezig zijn (p<0,05).
Met interval/ratio-variabelen kun je meestal volstaan met Pearson’s R, tenzij er duidelijke sprake is van een niet-normale verdeling van één van de variabelen of van één of enkele outliers. Is dit het geval, dan gebruik je de Spearman’s Rho. De Spearman's Rho wordt ook ingezet om ordinale variabelen aan elkaar te relateren.
Een kruistabel gebruik je om ordinale en nominale variabelen weer te geven, mits ze niet te veel categorieën hebben. Dit is zo, omdat je bij een toetsing op significantie (x2) minstens 5 verwachte waarnemingen per cel moet hebben.
Chi-kwadraat: hoe groot is de kans dat deze samenhang tussen variabelen wel in de steekproef wordt gevonden, terwijl die samenhang er in de totale populatie niet is? Oftewel, je toetst de nulhypothese. De E bereken je zo: kolomtotaal * rijtotaal / tabeltotaal. Nadat je de formule hebt ingevuld, moet je X2 relateren aan aantal vrijheidsgraden (df). De formule voor Df = (r-1) * (c-1). Hierna kijk je in Field, tabel A1, op pagina 898 naar de tabel: kritische x2- waardes. De notatie voor het gevonden verband: x2(2) = 40,39, p<0.01 (bijvoorbeeld).
Of je de samenhang moet toetsen of groepen moet vergelijken hangt af van de onderzoeksvraag. Bijvoorbeeld: de relatie tussen opleiding en IQ:
Samenhang
Correlatie opleiding & IQ . Hierbij gebruik je de Pearson toets of de significantie van de samenhang te bepalen.
Vergelijken tussen groepen
Verschiltoets groepen met verschillend opleidingsniveau vergelijken (bv. VMBO’ers en Vwo'ers verschillen in gemiddelde IQ). Hierbij gebruik je bijvoorbeeld de T-toets.
Parametrische assumpties houden in of de gegevens normaal verdeeld zijn.
Bij een kruistabel laat de Chi-square een maat zien of verschillen significant zijn. De odds ratio geeft de sterkte van een verband aan in een kruistabel . Er moet gebruikt worden gemaakt van categorische data, maar wel weinig categorieën (vaak 2 bij 2).
De odds ratio is de verhouding van risico’s. Een voorbeeld: als je de recidivepercentages tussen 2 groepen wilt vergelijken; wat is dan de kans tussen de 2 groepen om opnieuw te recidiveren? De uitkomst = opnieuw delict plegen, conditie 1: gevangenisstraf en conditie 2: taakstraf.
De formule hierbij is: N(plegen)conditie 1 * N(nietplegen)conditie 2 / N(nietplegen)conditie 1 * N(plegen)conditie 2
Je begint met rekenen bij de groep die je wilt weten, dus je begint met gevangenisstraf (conditie 1) als je de kansverhouding van die groep wilt weten. De odds ratio voor taakgestraften is in dit voorbeeld 1.71. Dit houdt in dat de kans om wel/niet te recidiveren (oftewel de kansverhouding) voor de groep die een taakstraf heeft gekregen 1.71 keer groter is dan voor de groep die gevangenisstraf heeft gekregen. De odds ratio voor gevangenisgestraften = 0.58 (=1/1.71). Dit houdt in dat de kans om wel/niet te recidiveren voor de groep die een gevangenisstraf heeft gekregen 0.58 groter is (dus kleiner, want kleiner dan 1) dan voor de groep die een taakstraf heeft gekregen.
Onafhankelijke metingen: twee of meerdere groepen die maar op 1 manier/moment gemeten zijn. Afhankelijke metingen: dezelfde groep mensen vergelijken in score op twee/meerdere verschillende momenten/manieren.
Verschillende toetsen om de verschillen tussen groepen te vergelijken:
T-toets
Twee onafhankelijke groepen vergelijken op een interval/ratio-variabele die bij benadering (= geen perfecte histogram) normaal verdeeld is, zoals bijvoorbeeld de relatie met docenten. De T-waarde en vrijheidsgraden bepalen de significantie.
De formule voor vrijheidsgraden (Df) = (na-1) + (na-1) = na + nb -2.
Moet je eenzijdig of tweezijdig toetsen? Dit is belangrijk om te weten in welke kolom je moet kijken in de Field tabel. Kijk hierbij naar de nulhypothese en de onderzoekshypothese. Heeft de onderzoekshypothese een richting?
Grenswaarden overschrijden (Field tabel)
Tweezijdig: t = 1.96. Dit betekent dat de uitkomst 1.96 moet overschrijden als je tweezijdig toetst.
Eenzijdig: t = 1.64. Dit betekent dat de uitkomst 1.64 moet overschrijden als je eenzijdig toetst.
Voorbeeld: t-waarde = 4.74. 4.74 overschrijdt 1.99 (0.05) en 4.74 > 2.63 (0.01). De groepen verschillen dus significant op p<0.01 niveau. Deze gegevens haal je uit de Field tabel.
In SPSS heb je bij deze toets ook nog te maken met de Levene’s test. Deze toets kijkt naar de verschillen in standaarddeviaties binnen een groep.
Is de uitkomst significant op .05 niveau? Dan kijk je verder in de tabel in de onderste rij in de tabel (equal variances not assumed).
Is de uitkomst niet significant op .05 niveau? Dan kijk je verder in de tabel in de bovenste rij (equal variances assumed).
In welke rij je moet kijken kan je vaak al zien in de bovenste SPSS tabel in de output. Hierbij kijk je naar de kolom "std. Deviation", de standaarddeviaties. Zijn die allebei gelijk van de 2 groepen? Dan is er geen significant verband en kijk je naar de bovenste rij. Zijn de standaarddeviaties van de 2 groepen niet gelijk? Dan is er wel sprake van een significant verband en kijk je naar de onderste rij.
ANOVA
Meer dan twee onafhankelijke groepen vergelijken op een interval/ratiovariabele die normaal verdeeld is.
Voorbeeld: in hoeverre wordt er verschillend gedacht over de nieuwe wetgeving omtrent fouilleren tussen mensen uit stad en platteland? Attitude omtrent fouilleren = een schaalvariabele op intervalniveau. Verstedelijking: vijf groepen (van niet-stedelijk tot en met zeer sterk verstedelijkt) = ordinaal niveau.
SSt = total sum of sqaures = verschil van iedere individuele waarneming met het overall gemiddelde, ook wel grand mean genoemd. Dit zijn alle verschillen tussen de mensen van gemiddelde.
Hoeveel van de verschillen in attitude tav fouilleren wordt verklaard door het model (dat wil zeggen de variabele verstedelijking)? Model sum of squares (SSm), zijn er verschillen tussen de groepen?
Hoeveel wordt niet verklaard door het model? Residual sum of squares (SSr), zijn er verschillen binnen de groepen?
Formule: SSm + SSr = SSt
Formule F-ratio = gemiddelde variatie in scores die kan worden verklaard door het model / gemiddelde variatie in scores die niet kan worden verklaar door het model
Formule: F = MSm = MSr
Waarbij: MSm = SSm / dfm en waarbij: MSr = SSr / dfr
Significantie bepalen bij ANOVA: informatie over variantie binnen en tussen groepen combineren met informatie van de vrijheidsgraden.
Dfbetweengroups = df (numerator)
Dfwhitingroups = (denominator)
Grenswaarden van F bij deze combinatie (zie Field p.894 voor de tabel), indien deze grenswaarden overschreden is er sprake van een significant verband.
Niet parametrische toetsen: vergelijken groepen op afhankelijke variabele die niet normaal verdeeld is. Deze toetsen richten zich vooral op de uitkomst, vaak crimineel gedrag. Deze is niet normaal verdeeld.
Mann-Whitneytoets
Deze toets is de non-parametrische variant van de T-toets. Er worden twee onafhankelijke groepen vergeleken. De afhankelijke variabele is niet normaal verdeeld en is een ordinale variabele. De toets vergelijkt rangscores tussen de twee groepen in plaats van de werkelijke scores. De scores van de toets worden omgezet naar rangscores. Het kijkt naar de plaats van de groepen in de totale rangorde, niet zo zeer naar de werkelijke score.
Kruskall-Wallistoets
Deze toets in de non-parametrische variant van de ANOVA-toets. Het vergelijkt meer dan twee onafhankelijke groepen. De afhankelijke variabele is niet normaal verdeeld en is een ordinale variabele. Het kan ook een ratio of interval variabele zijn, mits die duidelijke niet normaal verdeeld is. De toets vergelijkt rangscores tussen de groepen in plaats van de werkelijke scores, net als de Mann-Whitneytoets.
Deze week gaat over afhankelijke metingen (meerdere metingen bij dezelfde groep mensen). Deze categorie valt onder het longitudinaal onderzoek. Door middel van deze vorm van onderzoek kan een ontwikkeling door de tijd heen bekeken worden en de causaliteit van een relatie.
Hieronder volgt een tabel voor toetsen van afhankelijke metingen en hun voorwaarden:
| Parametrisch (afhankelijke variabele normaal verdeeld) | Non-parametrisch (afhankelijke variabele niet normaal verdeeld) |
2 metingen | Dependent t-toets | Wilcoxon signed-rank test |
>2 metingen | Repeated measures ANOVA | Friedman’s ANOVA |
Deze toetsen zullen hieronder per stuk kort besproken worden.
Dependent T-toets
Bij deze toets worden groepen vergeleken op 2 tijdstippen. Deze groepen zijn de onafhankelijke variabelen. De toets is parametrisch, dit houdt in dat de afhankelijke variabele interval of ratio meetniveau moet zijn en dat de verschilscores bij benadering normaal verdeeld moeten zijn.
Voorbeeld: gepercipieerde veiligheid in Rotterdamse buurten vergelijken tussen 2001 en 2002.
Zie figuur 1 (bijlage) voor de formule, waarbij D = het verschil in gemiddelden:
Repeated measures ANOVA
Bij deze toets worden groepen vergeleken op meer dan twee tijdstippen. Ook deze toets is parametrisch, wat inhoudt dat de afhankelijke variabele interval of ratio niveau moet zijn en normaal verdeeld. Elk meetmoment moet normaal verdeeld zijn.
Voorbeeld: dezelfde groep vergelijken op schaalvariabele omtrent veiligheidsgevoelens, maar dan vergelijken op drie tijdstippen, bijv. 2000, 2004 en 2008
Wilcoxon signed-rank
Bij deze toets worden groepen vergeleken op twee tijdstippen. Maar in tegenstelling tot de dependent t-toets is deze toets niet-parametrisch. Dit houdt in dat de afhankelijke variabele ordinaal (of interval/ratio) niveau heeft, maar het is niet normaal verdeeld. Deze toets is de niet-parametrische toets van de Mann-Whitneytoets zoals vorige week besproken. In deze toets worden verschilscores geordend op rangorde, de verschilscores krijgen een ranking.
Voorbeeld: herhaalde meting, in 2003 en 2006, hoe dezelfde groep respondenten antwoorden op een vraag over het functioneren van de lokale politie, met de volgende antwoordcategorieën (ordinaal meetniveau): 1=slecht, 2=matig, 3=niet goed, niet slecht, 4= redelijk goed, 5=(zeer) goed.
Friedman’s ANOVA
Bij deze toets worden groepen vergeleken op meer dan twee tijdstippen. Het is een niet-parametrische toets, wat inhoudt dat de afhankelijke variabele van ordinaal meetniveau is (of interval/ratio), maar het is niet normaal verdeeld.
Voorbeeld: dezelfde groep vergelijken op 4 tijdstippen, 2000, 2004, 2008 en 2012.
Naast deze toetsen is er een ander type longitudinaal onderzoek: Survival analyse. Een voorbeeld is een onderzoek naar recidivisten. Er werd niet gekeken óf iemand recidiveert, maar wanneer iemand zou recidiveren. De afhankelijke variabele (Y, ook wel event genoemd) = de duur tot een bepaalde gebeurtenis; in dit geval tot het moment dat iemand recidiveert. Survival betekent letterlijk 'overleving'. Tijdens dit onderzoek houdt die overleving in, de duur waarin iemand binnen de steekproef 'overleeft' zonder te recidiveren.
Regressieanalyse houdt dat er meer dan 2 variabelen aan elkaar gelinkt worden. De waarden op een variabele voorspellen aan de hand van één, maar meestal meer andere variabelen. De te verklaren variabele is de afhankelijke variabele (Y). Deze kan dichotoom zijn, dan zijn er maar 2 waarden mogelijk, bijvoorbeeld wel/niet delict gepleegd. Als dit het geval is wordt gebruik gemaakt van een logistische regressie. Is er sprake van interval of ratio (soms ook ordinaal) variabelen, dan gebruik je de lineaire regressie. De verklarende variabele(n) is/zijn de onafhankelijke variabele(n) (X). Bijvoorbeeld: op basis van geslacht, leeftijd en de veiligheid van de leefomgeving iemands onveiligheidsgevoelens voorspellen
Lineaire regressie analyse: hierbij wordt uitgegaan van een lineair verband tussen X en Y. Een regressievergelijking met een onafhankelijke variabele neemt formule de vorm aan van: Y = a + bX1, waarbij:
Y = afhankelijke variabele
a = constante, basisgetal
b = regressiegewicht: verandering in Y bij toename van één eenheid van X
X = onafhankelijke variabele
Voor een individuele score geldt: Y = a + b1 + e, waarbij:
a = constante, basisgetal; waar de regressielijn de Y-as kruist (als X=0)
b = regressiegewicht; hellingshoek van de regressielijn: hoeveel neemt Y toe als X een eenheid toeneemt?
e = verschil tussen voorspelde waarde van Y en de daadwerkelijke waarde van Y; verschil tussen voorspelde waarde (op de regressielijn) en geobserveerde waarde
De schatting van de regressielijn gaat volgens het ‘kleinste kwadratenprincipe’: de som van de gekwadrateerde residuen moet zo klein mogelijk zijn.
Bij een multipele regressieanalyse bepaalt het model of ze allen een zelfstandige bijdrage leveren aan de voorspelling van de afhankelijke variabele (Y) bij meer dan één onafhankelijke variabele (X1, X2, …). Bijvoorbeeld: staan de grootte van de spin (X1), de leeftijd van de respondent (X2) en de angst van de ouders voor een spin(X3) (onafhankelijke variabelen) in relatie tot de angst die de respondent heeft met betrekking tot een spin (Y) Y = a + bX1 + bX2 + bX3 + e
Bij de SPSS output van een lineaire regressie krijg je 2 tabellen te zien. Als eerste een tabel waarin de R square (R2). Deze geeft aan wat het percentage verklaarde variantie is van het regressiemodel. Hoeveel procent van de verschillen tussen mensen in onveiligheidsgevoelens tav digitale criminaliteit wordt verklaard door deze vijf kenmerken?
De tweede tabel is de ANOVA-tabel. Deze geeft algemene informatie over de ‘model-fit’: hoeveel van de variantie wordt door het model verklaard, hoeveel niet, en is dat een significante verbetering ten opzichte van een model zonder voorspellende variabelen? De F-toets wordt op dezelfde manier berekend en geïnterpreteerd als bij ‘gewone’ ANOVA: F = mean squaresmodel / mean squaresresidu = …
Het eerste stuk van het hoorcollege ging over de uitleg van regressieanalyse en lineaire regressieanalyse. Dit is in hoorcollege 3 ook al uitgebreid aan bod gekomen en besproken dus dat laat ik hier buiten beschouwing. Zie hiervoor de aantekeningen van hoorcollege 3.
In SPSS kan je nominale variabelen omzetten naar onafhankelijke variabelen. In het SPSS practicum tijdens de werkgroep is dit ook al naar voren gekomen, maar hier worden voornamelijk de dummy-variabelen nog een keer besproken. In nominale variabelen zit geen rangorde, het zijn vaak allemaal losse groepen mensen. Er is hiervoor geen lineair effect te schatten als afhankelijke variabele. Daarom moet je voor iedere categorie een aparte variabele toevoegen. Deze aparte variabelen worden dummy-variabelen genoemd. Je hebt dan de keuze uit ja (0) en nee (1). Er zijn dus maar 2 keuzes, je bent het wel of je bent het niet. Een voorbeeld is etniciteit: de dummy variabelen zijn dan bijvoorbeeld Marokkaan, Surinamer, Nederlander etc. Voor ieder individu maak je deel uit van de groep ja of nee.
Een voorbeeld: de invloed van de belangrijkste bezigheid op het aantal inbraakpreventiemaatregelen. Als je gebruik maakt van dummy-variabelen wordt er 1 dummy-variabele niet toegevoegd, dit wordt de referentiecategorie genoemd. Als je namelijk alle dummy-variabelen erin stopt, geef je teveel informatie aan SPSS. Je laat dus 1 variabele weg, dan heeft SPSS al alle informatie die het nodig heeft voor die categorie variabelen. Anders gezegd: indien er N-groepen zijn, hoeven er maar N-1 dummies aan het regressiemodel te worden toegevoegd. Immers, indien iemand op de overige 6 categorieën een 0 scoort, moet hij wel in de zevende categorie vallen. De categorie die niet wordt opgenomen heet dus de referentiecategorie. Ten opzichte van deze categorie worden de effecten van de opgenomen dummy-variabelen geschat.
Zie de tabel op de hoorcollegesheets voor een voorbeeld hoe je dummy-variabelen moet interpreteren.
Bij een lage celvulling (weinig mensen die in deze categorie vallen) bij het combineren van categorieën in SPSS bij het maken van dummy variabelen worden categorieën samengevoegd in de categorie 'anders'. De dummies blijf je wel interpreteren op dezelfde wijze. Je moet nog steeds 1 dummy eruit laten als referentiecategorie.
Diagnostiek is het nakijken/checken of de analyse die je hebt uitgevoerd of je die wel mag uitvoeren.
Voor een lineaire regressieanalyse bestaan verschillende assumpties. Zo is de X ‘fixed’ en de Y-variabele is random. Dit houdt in dat we de X al weten en dat we gaan proberen om met die X(en) de Y variabele te schatten. Daarnaast zijn de voorspelfouten (residuen) onderling onafhankelijk en zijn zowel de X als de Y van interval meetniveau (of X nominaal met max. 2 categorieën; oftewel dummy variabelen). Ten slotte hebben de X variabelen een lineair verband met de Y variabele: wanneer X groter wordt is er ook een verandering in de Y. Er moet iets van een verband zijn tussen X en Y.
Er zijn verschillende 'typen' diagnostiek bij een lineaire regressieanalyse: onafhankelijkheid residuen. normaalverdeling residuen, homoscedasticiteit residuen, multicollineariteit (de samenhang tussen X-en in je model. Is deze te hoog, dan krijg je problemen in je schatting) en outliers (extreme waarden in je model die veel invloed hebben op je uitkomst). Deze typen worden hieronder één voor één besproken.
Onafhankelijkheid residuen
De afhankelijkheid (of autocorrelatie) van de residuen is mogelijk een probleem bij een tijd-variabele. Bijvoorbeeld een kwartaal: de winst in een kwartaal wordt mede beïnvloed door winst in het voorgaande kwartaal. Niet alleen het jaartal zelf heeft een onafhankelijke effect, maar dit kan onderling ook een effect hebben. Autocorrelatie kan leiden tot onderschatting van standaardfout en dus overschatting significantie. Als dit gebeurt moet je kijken naar Durbin-Watson test: waarden <1 of >3 kunnen duiden op autocorrelatie.
Normaalverdeling residuen
Hierbij gaat het om de vraag of de residuen van het model (bij benadering) normaal verdeeld zijn. Het residu is het verschil tussen voorspelde waarde en geobserveerde waarde voor iedere waarneming. De normaalverdeling krijg je door in SPSS bij regressieanalyse bij de suboptie ‘plots’ het vakje Histogram aan te vinken (onder Standardized Residual Plots).
Homoscedasticiteit
Is de verdeling van de residuen random, of juist geconcentreerd in een bepaald deel van het bereik van de afhankelijke variabele? Als de verdeling random is, dan is het goed; dan is er sprake van homoscedasticiteit. Is de verdeling niet random, dan is het niet goed; er is dan namelijk sprake van heteroscedasticiteit. Hierbij geldt dan dat voor sommige waarden van Y het model beter voorspelt dan voor andere waarden, en dit willen we niet hebben. Als er dan hogere scores zijn, dan zijn er veel residuen over en als er lagere scores zijn, zijn er te weinig residuen. Het model voorspelt de waarden dan niet goed. Zijn er voor alle waarden van Y evenveel residuen, dan is er sprake van een random verdeling en voorspelt het model wel goed.
Multicollineariteit
Lijken de predictoren niet te sterk op elkaar? Is dat wel zo, dan meten ze dus min of meer hetzelfde. De effectschattingen zijn instabiel, de uniek verklaarde variantie is minimaal en er is weinig zicht op het belang van de predictoren. In SPSS moet je dit eerst checken via correlaties tussen de predictoren, via Spearman of Pearson. Is de correlatie hoger dan .05, dan lijken de predictoren te veel op elkaar, je moet dan kiezen voor 1 van de twee variabelen. Een grove richtlijn: potentieel probleem vanaf r=0.50 of hoger. Je kan dit ook checken in het regressiemodel via de Variance Inflation Factor (VIF-score). Deze geeft aan of variabelen te sterk samenhangen met elkaar. De richtlijn van Field is dat VIF niet hoger mag zijn dan 10 en de richtlijn van Bijleveld & Commandeur is dat de VIF niet hoger mag zijn dan 4. Deze laatste richtlijn is minder streng.
Outliers
Zijn er waarnemingen die van grote invloed zijn op het gevonden resultaat? Na een analyse moet je nagaan of er geen extreme scores in je analyse zitten. Deze kunnen ervoor zorgen dat wanneer je een regressieanalyse gaat doen de regressie een verkeerde uitkomst geeft en dus verkeerd voorspelt. Je kan dan beter een kleinere dataset kiezen. Het checken van outliers kan via de Cook’s distance. Dit middel kijkt hoeveel de schatting van de regressieanalyse verandert wanneer de outlier eruit wordt gelaten. Hij geeft de schatting weer met en zonder de outlier. Een waarneming moet verwijderd worden bij Cook’s D>1, omdat hierbij de ene individu ervoor zorgt dat de regressie vergelijking anders wordt geschat. De regressie vergelijking moet een goede weergave zijn van de scores in jouw groep.
Er zijn verschillende typen effecten bij een regressieanalyse die hieronder ook weer één voor één besproken worden. De types zijn: direct, indirect, spurieus (of schijn), suppressor en interactie.
Het interpreteren van effecten is zeker van belang bij een regressieanalyse, omdat de onafhankelijke variabelen (X-en) invloed hebben op de afhankelijke variabele (Y). Regressie coëfficiënten kunnen namelijk veranderen wanneer een extra X wordt toegevoegd, omdat de X-en onderling samen kunnen hangen. Als X-en onderling samenhangen wanneer een model groter wordt kunnen je voorspellingen veranderen. Door andere X-en in de verschillende modellen kan de significantie verdwijnen of verschijnen. Effecten veranderen na toevoeging X-en.
Direct effect
Het toevoegen van X-en kunnen een direct effect hebben op Y. De X-en hebben onafhankelijk van elkaar een direct effect op bijvoorbeeld de hoeveelheid criminaliteit. Bijvoorbeeld: zowel de mate van politietoezicht (X1), armoede (X2) als sociale cohesie (X3) hebben invloed op de hoeveelheid criminaliteit (Y).
Indirect effect
X1 hangt niet alleen samen met Y, maar ook met X2. Bij een indirect effect is X1 de oorzaak van X2 en is X2 op zijn beurt de oorzaak van Y. X1 is dus een indirecte oorzaak van Y. Het effect van X1 loopt via X2. Is het aannemelijk dat X1 een effect heeft op X2? En is X2 de oorzaak van Y? Is dit niet zo, dan is er sprake van een spurieus effect (zie hieronder). Bijvoorbeeld: X1 = verhuismobiliteit, X2 = sociale cohesie en Y= criminaliteit. De mate van verhuismobiliteit in een buurt (X1) beïnvloedt de criminaliteit. Verhuismobiliteit beïnvloedt ook de mate van sociale cohesie (X2), en de sociale cohesie beïnvloedt op zijn beurt de hoeveelheid criminaliteit in een buurt (Y).
Spurieus effect
Wederom hangt X1 niet alleen samen met Y maar ook met X2. Het verschil met een indirect effect is dat bij een spurieus effect X1 niet de oorzaak is van X2. Is X1 de oorzaak van X2? Nee: dan sprake van spurieus effect en niet van een indirect effect. Bijvoorbeeld: Mensen met tatoeages (X1) blijken meer criminaliteit (Y) te plegen. Als we rekening houden met IQ (X2), blijkt dat tatoeages geen significant effect meer hebben op delinquentie. Tatoeages hebben geen effect op IQ dus geen indirect maar spurieus effect.
Suppressoreffect
Bij een suppressoreffect lijkt X1 niet met Y samen te hangen, maar dit blijkt wel zo te zijn als rekening wordt gehouden met de samenhang tussen X1 en X2. X1 wordt onderdrukt door X2. Bijvoorbeeld: eerst heeft een hoger inkomen geen effect op oplichting, als alleen hoger inkomen in het model staat als variabele. Deze was eerst dus onderdrukt. Na controle van X2 blijkt dat een hoger inkomen een hogere kans op oplichting heeft, na toevoeging X2 risico-bewustzijn. Hoger risico-bewustzijn gaat samen met een lagere kans op oplichting. Wat is de samenhang tussen X1 en X2? Iets beschermde eerst de hogere inkomens (X1). Wat zorgt ervoor dat het eerst werd onderdrukt? X2. Moet wel zo zijn dat hogere inkomens meer risicobewust zijn. Het effect komt omhoog nadat het risicobewustzijn naar voren komt.
Interactie- effect
De invloed van X1 op Y verschilt, al naar gelang de score op X2. Bijvoorbeeld: X1 = drankgebruik, X2 = sekse en Y = agressief gedrag. Drankgebruik heeft een effect op hoe agressief iemand is. Pijl X2 (zie sheets) staat op het verband tussen X1 en Y. X2 heeft effect op het verband tussen X1 en Y. De invloed van drankgebruik (X1) op agressief gedrag (Y) verschilt naar sekse (X2). Voor jongens verhoogt het agressief gedrag, maar voor meisjes niet. Het effect op het verband tussen X1 en Y hangt af of je een jongen of meisje bent. Het effect van X1 op Y is verschillend voor categorieën van X2. Ander voorbeeld: het effect van de preventiemaatregelen (X1) hangt af van de mate van burenbeveiliging (X2). Het effect van preventiemaatregelen (X1) op slachtofferschap van inbraak (Y) wordt kleiner naarmate anderen in de woonbuurt zich beter beveiligd hebben (X2).
Zie de hoorcollegesheets voor visuele voorbeelden van bovenstaande effecten.
Dit hoorcollege gaat over de vraag hoe je zicht krijgt op (illegaal/verborgen) gedrag? Dit geldt voor elke vorm van gedrag, niet alleen voor illegaal gedrag. Hoe kan je er zeker van zijn dat mensen eerlijk antwoord gaan geven bij onderzoek? 2 onderwerpen staan dit college centraal daarin: creatief zijn (databronnen, trucjes) en latente concepten meten aan de hand van meerdere items (schaaltechnieken en PCA/FA).
Het voorbeeld van sumoworstelen dat in een eerder hoorcollege al aan bod is gekomen wordt nu weer gebruikt. Nog even kort: er deden 66 worstelaars mee aan de competitie, allen met een ranking. Had iemand 8 wedstrijden of meer gewonnen, dan steeg hij in de ranking en had iemand 7 wedstrijden of minder gewonnen, dan daalde hij in de ranking. Een worstelaar die op 7 overwinningen staat heeft dus een speciaal belang op winst van zijn partij, want dan zou hij stijgen in de ranking. Wat stijgt of daalt een worstelaar in ranking bij een X aantal winstpartijen?
Er is een veel grotere kans om de partij te winnen die voor een worstelaar als 8e winstpartij dient, dan wordt verwacht op basis van toeval. Komt dit doordat de worstelaar bij die 8e partij meer gemotiveerd is? Of omdat er fraude in het spel is? Dit is lastig te onderzoeken aangezien wanneer de worstelaars ondervraagd zouden worden er mogelijk niet naar waarheid wordt beantwoord. Als je aan iemand vraagt of hij fraude heeft gepleegd, zal hij dit vaak niet toegeven. Hoe ga je dit dan bevragen op een slimmere manier om er toch achter te komen?
Om fraude vast te stellen in het geval van de sumoworstelaars is gekeken naar de ontwikkeling in de loopbaan. Hoe was de volgende ontmoeting tussen dezelfde worstelaars en hoe verliep het laatste carrièrejaar. Daarnaast, was er samenwerking tussen bepaalde teams en hoe was de media-aandacht voor fraude bij sumoworstelen? Aan de hand van deze vragen werden interviews gehouden met experts en oud-worstelaars. Het geeft dus aan dat je creatief moet zijn om goed de juiste antwoorden te krijgen door de juiste dingen te meten om vervolgens antwoord te kunnen geven op onderzoeksvragen.
Een ander voorbeeld dat laat zien dat je creatief moet zijn om de juiste antwoorden te krijgen is een voorbeeld uit het Prison project. Het doel was het in kaart brengen van arbeidsmarktparticipatie na detentie. Daarbij werd onderzocht of ex-gedetineerden logen over hun aandeel in de arbeidsmarkt. Om dit te onderzoeken werd gebruik gemaakt van verschillende bronnen: gerapporteerde arbeidsmarktparticipatie (Prison project) en geregistreerde arbeidsmarktparticipatie (via het Centraal Bureau voor de Statistiek). Maar deze gegevens staat niet altijd geregistreerd, de ex-gedetineerden konden bijvoorbeeld ook zwart werken. De uitkomsten van de twee databronnen was als volgt: de geregistreerde werkkans lag veel lager dan gerapporteerde werkkans, dit verschil was meer dan 15%. Wat is de oorzaak hiervan? Liegen de ex-gedetineerden nu, werken ze zwart of zijn er andere verklaringen? Daarvoor moet je kijken naar de overlap van beide bronnen. Is er sprake van overlap, dan is het betrouwbaar. Dat was in dit onderzoek ongeveer 75% (= consistent).
Wel geregistreerd werk & wel gerapporteerd = 11,7%
Geen geregistreerd werk & niet gerapporteerd = 64,7%
Er was ook sprake van geen overlap (inconsistentie):
Geen geregistreerd werk & wel gerapporteerd = 19,7%. Een mogelijke verklaring is zoals eerder benoemd het zwart werken. Ex-gedetineerden kunnen aangeven dat ze wel werken (is ook zo), maar het staat niet geregistreerd bij het CBS.
Wel geregistreerd werk & niet gerapporteerd = 3,9%. Hier is geen duidelijke verklaring voor, het is een rare uitkomst.
Om het verborgene aan de oppervlakte te krijgen moet je dus creatief zijn. Dit kan aan de hand van (1) databronnen:
Respondent zelf vragen: open interviews, vragenlijsten
Observatie van natuurlijk gedrag
Combineren van databronnen
En aan de hand van (2) trucjes. Hierbij kan je in een onderzoek zelf voorkomen dat een persoon gaat liegen en dat je verkeerde gegevens gaat gebruiken:
Anonimiteitsgaranties
Corrigeren voor sociale wenselijkheid > mate waarvan je van iemand weet dat ie geneigd is sociaal wenselijk te antwoorden
Breng respondent in situatie die werkelijkheid meer benadert dan een standaard interviewsetting
De trucjes worden hieronder 1 voor 1 besproken.
Dit houdt in in hoeverre jij als onderzoeker te zien krijgt welk antwoord die persoon gaat geven. Hoe anoniem is de vorm van onderzoeken.
In een interviewsetting heb je verschillende vormen van interviewen. Zo heb je een face-to-face interview, waarbij geen anonimiteit is. Een schriftelijk interview is daarentegen al meer anoniem aangezien je deze anoniem in kan vullen. Daarnaast heb je nog andere vormen van interviewen welke verschillen in de mate van anonimiteit (online, inspreken tegen de computer, CASI etc.). Heeft de wijze van interviewen invloed op antwoorden over criminaliteit/deviantie? Dit wordt aan de hand van 2 voorbeelden hieronder geïllustreerd.
In dit onderzoek werden 534 uitkeringsfraudeurs geïnterviewd over uitkeringsfraude. De onderzoekers wisten al dat de respondenten fraude had gepleegd, maar de respondenten wisten niet dat de onderzoekers dit al wisten. Gaven de respondenten toe dat ze gefraudeerd hadden? En hing dat af van de manier waarop werd geïnterviewd? Het interview bestond uit vragen over allerlei onderwerpen, waarbij er maar 1 vraag ging over de fraude.
Uitkomsten: het percentage voor elke interviewgroep is laag, terwijl je zou verwachten dat dit 100% is aangezien alle 534 respondenten gefraudeerd hadden. In een face-to-face interview (geen anonimiteit) gaf maar 25% toe dat ze hadden gefraudeerd, terwijl bij een interviewmiddel waarbij een hogere anonimiteit was bijna 50% van de fraudeurs dit toegaf.
In dit onderzoek is er een controlegroep en een experimentele groep. De controlegroep krijgt 40 vragen voorgelegd over allerlei onderwerpen zoals 'ik ben onlangs verhuisd' en 'ik heb een huisdier'. Het gemiddelde in deze is groep is dat men 31 keer 'ja' heeft geantwoord. De experimentele groep daarentegen krijgt dezelfde 40 vragen als de controlegroep en 1 extra vraag over het ‘point of interest’, bijvoorbeeld 'ik heb afgekeken bij tentamen'. Het gemiddelde in deze groep is dat men 34 keer 'ja' heeft geantwoord.
Je kijkt in deze onderzoekssetting naar het verschil in het gemiddelde tussen controlegroep en de experimentele groep. Dit verschil geeft aan hoeveel mensen ja zeggen op de gevoelige vraag. De stijging van de experimentele groep komt door de extra vraag, anders hadden zij ook 31 x ja moeten antwoorden.
Sociale wenselijkheid is een reden om niet eerlijk te zijn over (crimineel) gedrag. Maar hoe kan je dit meten? Daarvoor heeft men een schaal ontworpen om dit fenomeen te meten. Men moet een aantal vragen beantwoorden en die score geeft een schatting van hoe snel men geneigd is om sociaal wenselijk te antwoorden op vragen. De score op die schaal is een indicatie voor de ‘bias’ van andere uitkomsten. De score kan schatten hoe iemand op andere vragen gaat antwoorden, dus hoe sociaal wenselijk iemand gaat antwoorden op vragen over bijvoorbeeld criminaliteit. Vaak worden mensen die heel sociale wenselijk antwoorden verwijderd uit het onderzoek.
Een voorbeeld is een onderzoek van Shu et al. (2012) om naar eerlijk te rapporteren over het aantal opgeloste puzzels dat iemand heeft gemaakt. De onderzoekers hebben mensen puzzels laten oplossen in een bepaalde tijd waarbij ze vervolgens aan onderzoekers moesten rapporteren hoeveel puzzels ze hebben opgelost. Hoe meer opgeloste puzzels, hoe meer geld ze kregen. Voor de rapportage aan de onderzoekers werden de respondenten opgedeeld in 3 groepen:
Men kreeg een formulier waarop ze vragen moesten beantwoorden + een vraag over het aantal puzzels dat ze hadden opgelost.
Men kreeg hetzelfde formulier met vragen, maar deze groep moest van te voren een handtekening zetten waarbij ze zwoeren dat ze de vragenlijst eerlijk zouden invullen.
Men kreeg hetzelfde formulier met vragen, maar deze groep moest achteraf een handtekening zetten waarbij ze zwoeren dat ze de vragenlijst eerlijk zouden invullen.
Uitkomst: het bleek dat in alle 3 de groepen werd gelogen: ze rapporteerden dat ze meer puzzels hadden opgelost dan ze daadwerkelijk hadden gedaan. Maar het verschil tussen gerapporteerde en werkelijke aantal opgeloste puzzels was het kleinst in de 2e groep die voorafgaand een handtekening moest zetten. Conclusie: je krijgt meer waarheidsgetrouwe informatie als je mensen vooraf een handtekening laat zetten dat ze het eerlijk zullen invullen.
Latente kenmerken zijn theoretische concepten/abstracte kenmerken die moeilijk te meten zijn, zoals zelfcontrole, zelfbeeld, tevredenheid, angst, cohesie, binding, houdingen of metingen etc. Deze concepten zijn niet met één vraag te meten, je hebt een hele hoop vragen nodig om de verschillende facetten van het concept te meten.
Wanneer heb je een schaal nodig om bepaalde concepten te meten? Een voorbeeld: we willen de houding van mensen tegenover hun woonbuurt weten. Dit kunnen we meten met 1 vraag: wat vindt u van de buurt waarin u woont? Dit kan, maar die antwoorden moeten we bijna wel wantrouwen want ten eerste is het verschijnsel heterogeen: je meet verschillende dingen (persoon A denkt aan burenruzie, persoon B denkt aan nieuwe supermarkt bij deze vraag). Daarnaast valt de betrouwbaarheid te betwijfelen (toevalsinvloeden; men kan afgeleid zijn of de vraag niet snappen). Ten derde is er geen fijner onderscheid tussen personen (door maar 1 vraag te stellen kom je niet verder dan leuk of niet leuk).
Met een schaal meet je heel veel verschillende dingen of stel je veel verschillende vragen om tot 1 concept te komen of om 1 concept te meten. Dit zijn vaak betere meting dan slechts 1 vraag stellen.
Een voorbeeld van een schaal is de Likertschaal. Deze schaal heeft 5 antwoordcategorieën van 'helemaal mee eens' tot 'helemaal niet mee eens'. De antwoorden van deze kan je samenvoegen tot een somscore (bij elkaar optellen) of een gemiddelde score.
Scoort iemand gemiddeld hoog op deze vragen, of juist niet? En wat betekent dat dan? Let op: hoge waarden (= 5: niet eens met de stelling) betekent per stelling/vraag iets anders. De ene keer komt dat uit op een positief antwoord, de andere keer op een negatief antwoord. Die verschillende vragen moet je dan op de juiste manier hercoderen (in SPSS via het Recode commando) waarna je weer een somscore kan maken of het gemiddelde kan uitrekenen. Vragen worden een andere kant op gevraagd in een vragenlijst zodat mensen op blijven letten tijdens het beantwoorden van de vragen. Als ze de lijst snel invullen, krijg je dus tegenstrijdige antwoorden en weet je dat het niet serieus/goed is ingevuld.
De verschillende indicatoren, de antwoord categorieën en de bewerking om tot concept te komen (bv. gemiddelde nemen) noemen we operationaliseren.
Wanneer weet je of je met een goede schaal te maken hebt? Dan moet je de interne consistentie bekijken; meten de items wat er gemeten moet worden? In hoeverre is er overlap tussen de items? Dit doe je door middel van een betrouwbaarheidsanalyse: hangen de indicatoren/items onderling samen? Een vorm van betrouwbaarheidsanalyse is de Cronbach’s alpha (α). Deze kijkt naar correlatie tussen al die verschillende vragen. Het drukt uit hoe hoog de interne consistentie is; hoe meer overlap tussen de items, hoe hoger de Cronbach’s α. Vuistregel: α>0.80.70 = een goede schaal, er is sprake van interne consistentie (maar in de praktijk wordt α>0.60 ook geacht). α is hoger wanneer een schaal uit meer items bestaat.
Voordat een schaalvariabele kan worden aangemaakt moet je betrouwbaarheid checken door Cronbach’s alpha te berekenen in SPSS. Je moet de validiteit nagaan: klopt de schaal theoretisch gezien? Een voorbeeld: het meten van ‘sociale angst’. Zijn er aspecten van het construct waar geen vragen over worden gesteld? (Gaat het bijvoorbeeld alleen over angst voor presenteren, en niet over angst op verjaardagsfeestjes?) Zijn er items die niet passen bij het construct? (bijvoorbeeld items over angst voor dieren). Zijn er veel missings? (Dit zijn mensen die op ten minste een van de items een missing value hebben). In plaats van iedereen met 1 missing verwijderen kan je ook het gemiddelde nemen op een minimum aantal items. Je voegt dan bijvoorbeeld .6 toe voor het gemiddelde van alle variabelen in SPSS (zie hoorcollegesheet). Dit betekent dat iemand op tenminste 6 items een geldige waarde moet hebben.
Vuistregel: op meer dan de helft van de items moet een antwoord zijn gegeven. Door niet te eisen dat de respondent heeft geantwoord op alles items, maar op ten minste zes van de tien, is het aantal geldige waarden op een schaalvariabele geoptimaliseerd.
Wat moet je doen als de antwoordcategorieën niet hetzelfde zijn? Dus als de variabelen niet allemaal zijn gemeten aan de hand van bijvoorbeeld de Likertschaal. Hoe moet je dan de verschillende variabelen met elkaar vergelijken? Je moet de variabelen dan standaardiseren: z-scores aanmaken. Je bekijkt dan hoeveel de variabele afwijkt van het gemiddelde, dan maakt het niet meer uit of de variabelen verschillend zijn. Dus je deelt van iedere waarneming het verschil tot het gemiddelde door de standaarddeviatie. Daarna mag je pas een betrouwbaarheidsanalyse uitvoeren. En zoals altijd: schaalvariabele pas aanmaken indien die betrouwbaar is (hoge Cronbach's α).
PCA (principale componentenanalyse) en FA (factoranalyse) worden vaak in 1 zin genoemd (ze zijn bijna hetzelfde). Een schaal met een hoge Cronbach’s α kan bestaan uit meerdere factoren. Via principale componentenanalyse (PCA) of factoranalyse (FA) kan je nagaan of de schaal homogeen of heterogeen is. Oftewel: zijn er binnen een schaal één (homogeen) of meerdere (heterogeen) latente concepten aanwezig? Vaak gebruik je ook de PCA/FA wanneer een nieuwe schaal ontwikkeld is om na te gaan wat de schaal precies meet.
De houding van mensen ten aanzien van SPSS meten met 23 items aan de hand van een Likertschaal met 5 antwoord categorieën. Maar is er sprake van 1 factor of van meerdere clusters/factoren?
Hoe correleren de items? Bepaalde groepjes items lijken hoog met elkaar te correleren, en niet zo hoog met de anderen.
Resultaat FA: meerdere factoren komen eruit. Angst voor SPSS valt uiteen in meerdere factoren (angst voor computers, angst voor wiskunde, angst voor statistieken etc). Dus ook: 4 schalen maken en testen op betrouwbaarheid (Cronbach’s alpha). Per schaal bekijken hoe hoog de Cronbach’s alpha is.
PCA/FA? Welke moet je wanneer nu gebruiken? Het zijn twee verschillende methoden met vaak vergelijkbare uitkomsten. De PCA gebruik je bij datareductie: zoveel mogelijk variantie verklaren, informatie optimaal samenvatten. De FA gebruik je om waargenomen samenhang tussen items (covariantie) proberen te verklaren. Dit doe je vanuit een bepaalde theorie.
Conclusie
Gedrag en houdingen zijn moeilijk te meten, zeker over criminologische onderwerpen. De aanpak hiervan bestaat uit 2 onderdelen: creatief zijn en concepten operationaliseren aan de hand van meerdere items/vragen door middel van PCA/FA: 1 of meerdere factoren meten? Per factor moet je de items checken op betrouwbaarheid en een schaal maken (gemiddelde/somscore).
Dit college bestaat uit 2 delen: het eerste deel is een herhaling plus enkele nieuwe stof van de logistische regressieanalyse welke we vorige weken ook al hebben besproken. Het tweede deel gaat over diagnostiek bij logistische regressieanalyse.
Het eerste deel van dit hoorcollege is voornamelijk herhaling van vorige weken over de logistische regressieanalyse. Dit kan je terugvinden in de vorige weken. Hieronder volgt mogelijk nog wat kleine herhaling maar vooral nieuwe stof met betrekking tot dit onderwerp.
Bij een lineaire regressie moeten de onafhankelijke variabelen van minimaal interval meetniveau zijn. Als de variabelen van nominaal meetniveau zijn, moeten er dummy variabelen gemaakt worden (zie hoorcollege 4). De afhankelijke variabele moet van interval of ratio meetniveau zijn. Mocht dit niet zo zijn, is de variabele van nominaal niveau, dan moet deze dichotoom gemaakt worden. Dat houdt in dat er nog maar 2 antwoordmogelijkheden zijn om de vraag te beantwoorden (bijvoorbeeld: 0 = geen recidive, 1 = wel recidive).
Hoe gaat een lineaire regressie met dichotome afhankelijke variabele in zijn werk? Bij deze van lineaire regressie is er geen lineair verband met de afhankelijke variabele, dit houdt in dat er geen rechte lijn te trekken is tussen de waarden zoals bij een normale lineaire regressie. Tevens hebben alleen de waarden 0 en 1 betekenis, terwijl je ook schattingen maakt die tussen 0 en 1 liggen. Die schattingen tussen 0 en 1 betekenen eigenlijk niks. Bij een lineaire regressie is de schatting van Y (= Ŷ) ongerestricteerd. Dit betekent dat de schattingen van Y (afhankelijke variabele) van min oneindig tot plus oneindig variëren, aangezien de schattingen ook onder 0 en boven 1 kunnen zitten. Het probleem bij deze vorm van lineaire regressie is dat je niet kan werken met een Y die alleen 0 en 1 als waarden heeft. De oplossing hiervoor is het basisidee om de uitkomstvariabele zodanig te transformeren dat een lineaire schatting mogelijk is. Dit doe je door de kans te voorspellen op Y=1. Je neemt de lineaire formule (? = a + b1X1 + b2X2); maar de Y kan je dus niet gebruiken, dus moeten we de Y transformeren zodat je de formule wel kan invullen en die schatting dus wel mogelijk wordt.
Voorspelde kans op Y=1
Op basis van het model kunnen kansen worden berekend dat iemand de betreffende gebeurtenis meemaakt (zoals bijvoorbeeld slachtofferschap geweld). Het histogram is de verdeling van de voorspelde kansen. De kans (p) loopt van 0 tot 1. Om deze kansen te berekenen wordt gebruikt gemaakt van odds. Odds geven aan hoeveel groter de kans is dat iets wel gebeurt dan de kans dat iets niet gebeurt. Het is een kansverhouding; je houdt ook rekening met de kans dat iets niet gebeurt voor dezelfde groep. De formule voor odds is: p / 1-p.
Voorbeeld berekening odds:
| Zonder werk | Met werk |
Wel recidive | 0,8 | 0,1 |
Geen recidive | 0,2 | 0,9 |
De odds op recidive voor degenen zonder werk: 0,8/0,2 = 4. Het is 4 keer waarschijnlijker dat mensen zonder werk meer recidiveren dan mensen met werk.
De odds op recidive voor degenen met werk: 0,1/0,9 = 0,11. Het is 0,11 keer waarschijnlijker (daarmee dus kleiner) dat mensen met werk meer recidiveren dan mensen zonder werk.
Deze uitkomsten zijn de odds op de Y=1. Nu moeten we van de odds een logaritme maken waarmee we een schaal creëren die wel van min oneindig tot plus oneindig loopt (wat hiervoor niet het geval was). Dit wordt het natuurlijk logaritme van de odds genoemd. De formule is: Ln (p/1-p) = = a + b1X1 + b2X2. Bij een logistische regressie wordt een lineaire relatie verondersteld met het natuurlijke logaritme van de odds op Y=1. We vervolgen het voorbeeld van hierboven waar we de odds hadden uitgerekend:
De log odds op recidive voor degenen zonder werk: Ln(4) = 1,38.
De log odds op recidive voor degenen met werk: Ln(0,11) = -2,21.
Stel: we willen voorspellen of iemand slachtoffer van geweld wordt op basis van geslacht, leeftijd, of hij/zij een huis huurt of koopt en hoe goed het politie functioneren in de buurt is. In SPSS krijg je dan verschillende tabellen te zien. Deze worden hieronder één voor één besproken.
Tabel 1 (Omnibus Tests of Model Coefficients): deze tabel is een modeltoets: geeft dit model een significante verbetering ten opzichte van een model zonder voorspellers/predictors?
Tabel 2 (Model Summary): deze tabel gaat op zoek naar verklaarde variantie. Bij een logistische regressie krijg je de Nagelkerke R square te zien. Dit is een benadering van de normale R square, het verschilt er heel weinig van. De R square is bijvoorbeeld ,075 dus 7,5%. Dat betekent dat je 7,5% kan voorspellen met de predictoren die aanwezig zijn in dit onderzoek voor slachtofferschap op geweld. De Nagelkerke R square is niet de normale R square, het is een pseudo-R2, daarom moet je altijd erbij zeggen "bij benadering" als je een vorm van R square gebruikt.
Tabel 3 (Variables in the Equation):
B = ongestandaardiseerde regressiecoëfficiënten. Hiermee kan je goed aflezen of een verband negatief of positief is, maar je kan niet de hellingshoek aflezen omdat de Y-as getransformeerd is (wat we hierboven hebben gedaan).
Wald: formule: (B/SE)2. Dit lijkt op de T-verdeling, de uitkomst wordt groter naarmate het effect significanter is.
Sig = significantie, tweezijdig, a = 5%.
Exp(B) = de odds ratio. Deze is vergelijkbaar met de kolom 'Beta' in de normale lineaire regressie; je kan bij allebei iets zeggen over de sterkte van het verband.
Odds ratio = 1: gelijke kans/geen effect; geen verschillen in kans op slachtofferschap;
odds ratio > 1; meer kans op slachtofferschap,
odds ratio < 1; minder kans op slachtofferschap
In hoorcollege 2 wordt nog een duidelijk voorbeeld van de berekening van odds ratio uitgewerkt.
De laatste stap op de odds ratio uit te rekenen komt nu aan de orde. We gaan verder met het voorbeeld wat we hierboven hebben gebruikt (bekijk de tabel voor de getallen):
Odds ratio zonder werk:
0,8*0,9 = 36,4
0,2*0,1
De odds/kansverhouding op recidive van mensen zonder werk is 36,4 keer groter dan de odds/kansverhouding op recidive van mensen met werk. De odds ratio zegt iets over de groep zonder werk tov de groep met werk.
We gaan nu de odds ratio interpreteren uit een SPSS tabel (zie sheet college 6, nr 18 voor de tabel – “Variables in the Equation”).
Allereerst gaan de we B interpreteren op de variabele 'vrouw'. De log-odds is -.735 (zie 2e kolom). Dit houdt dat de kans op slachtoffer worden van geweld -.735 kleiner is voor vrouwen dan voor mannen. Het is ook goed om te interpreteren als: vrouwen hebben een kleinere kans om slachtoffer te worden van geweld.
Nu gaan we de Exp(B) interpreteren (laatste kolom), dit doen we aan de hand van de odds ratio van leeftijd. De odds ratio is .970; dit houdt in dat de kansverhouding om wel vs niet slachtoffer te worden van geweld voor 34-jarigen .970 groter is dan voor 33-jarigen. De odds ratio is kleiner dan 1, dus eigenlijk 1/-.970 = 1.03 kleiner.
Ten slotte: de odds ratio van een huur of koopwoning is 1.770. Dit houdt in dat de kansverhouding op slachtofferschap van geweld voor huurders 1,770 groter is dan voor mensen die hun woning kopen.
In het begin kwam al naar voren dat een logistische regressie geen rechte lijn is net als een normale lineaire regressie. De logistische regressie is een S-vormige curve. In een S-vormige curve is een omklappunt; dit is de mate van depressiviteit vanaf waar de kans op recidive (p) groter is dan de kans op geen recidive (1-p). Ook heeft de grafiek een maximum likelihood: SPSS trekt de lijn zo, zodat hij zoveel mogelijk waarnemingen goed voorspelt, zo trekt hij de S-vormige curve (zie sheet college 6, nr 21).
Allereerst volgt een overzicht met de assumpties van een lineaire regressie en een logistische regressie. Dit overzicht kan worden ingezien in de sheets van college 6, nr. 27.
Daarnaast een herhaling van de assumpties van diagnostiek bij een lineaire regressieanalyse:
Onafhankelijkheid residuen
Normaalverdeling residuen
Homoscedasticiteit residuen
Multicollineariteit
Outliers
Deze assumpties gaan we checken/toepassen voor een logistische regressie:
Onafhankelijkheid residuen
De afhankelijkheid (of autocorrelatie) van residuen is mogelijk een probleem bij tijd-variabelen (zie hoorcollege 4). Autocorrelatie kan leiden tot onderschatting van standaardfout en dus overschatting van significantie. We moeten dan kijken naar de Durbin-Watson test: waarden <1 of >3 kunnen duiden op autocorrelatie.
Deze assumptie is bij een logistische regressie minder zinvol, en daarom niet mogelijk met SPSS. De onafhankelijkheid van residuen hoef je dus niet te checken bij een logistische regressie.
Normaalverdeling residuen
Zijn de residuen van het model (bij benadering) normaal verdeeld? Een residu is het verschil tussen de voorspelde waarde en geobserveerde waarde voor iedere waarneming. Krijg je door SPSS bij regressieanalyse bij suboptie ‘Plots’ het vakje Histogram aan te vinken (onder Standardized Residual Plots).
Bij een logistische regressie zijn de residuen binominaal verdeeld (niet normaal), daarom is het niet mogelijk en wenselijk om dit niet te checken bij een logistische regressie.
Homoscedasticiteit
Is de verdeling van de residuen random, of juist geconcentreerd in een bepaald deel van het bereik van de afhankelijke variabele? Bij een random verdeling is sprake van homoscedasticiteit; bij een niet random verdeling is sprake van heteroscedasticiteit.
Bij een logistische regressie moet je dit ook checken; maar SPSS heeft geen goede toets hiervoor. Daarom is dit geen tentamenstof, je hoeft dit dus niet te weten.
De eerste 3 assumpties hoef je dus niet te checken voor logistische regressie, maar de volgende 2 wel:
Multicollineariteit
Lijken de predictoren niet te sterk op elkaar? Anders meten ze dus min of meer hetzelfde. Is dit het geval, dan zijn de effectschattingen instabiel, de uniek verklaarde variantie minimaal en is er weinig zicht op belang predictoren. In SPSS: eerst checken via correlaties tussen de predictoren. Grove richtlijn: potentieel probleem vanaf r=0.50 of hoger. Of checken in het regressiemodel via de VIF-score, via lineaire regressie!
Bij logistische regressie kan je dit niet opvragen, maar dit is wel een probleem. Is de uitkomst van de correlatie boven de .50, dan moet je de lineaire check opvragen en dit als lineair bekijken/berekenen (via de VIF-score). Hangen de variabelen meer dan 4 samen in de VIF-score, dan moet je schalen gaan maken en variabelen samen gaan voegen.
Outliers
Zijn er waarnemingen die van grote invloed zijn op het gevonden resultaat? Een foute waarneming beïnvloed al je uitkomsten, trekt heel de schattingslijn scheef. Bij een kleine dataset is er een groter risico dat een outlier heel veel invloed heeft op de totale uitkomsten. Outliers moet je checken via de Cook’s Distance. Opletten vanaf Cook’s D>0.1. Waarneming verwijderen bij Cook’s>1.
Onafhankelijkheid residuen (minder belangrijk, niet mogelijk in SPSS)
Normaalverdeling residuen (binominale verdeling)
Homoscedasticiteit residuen (geen tentamenstof)
Multicollineariteit (via lineaire regressie)
Outliers (Cook’s distance)
Vorige week was het laatste hoorcollege in het rijtje van kwantitatief onderzoek. Vanaf deze week gaan we ons bezig houden met kwalitatief onderzoek. Het verschil tussen kwantitatieve en kwalitatieve methoden is dat kwantitatief onderzoek zich bezig houdt met de mate van optreden van sociale verschijnselen (verschillen in cijfers) en kwalitatief onderzoek houdt zich bezig met de aard van sociale verschijnselen (in hoeverre, in welke mate, welke motieven spelen een rol?). Welke methode je kiest voor je onderzoek hangt af van je onderzoeksvraag.
Kwalitatieve methoden zijn extra belangrijk voor de criminologie. Ten eerste omdat men gedrag moet verklaren binnen de criminologie, we moeten andere mensen begrijpen. Daarnaast zijn experimenten vaak moeilijk uit voeren en onethisch. Ten derde, bij vragenlijsten kan je jezelf afvragen of men naar waarheid antwoordt. Bij survey data over gevoelige onderwerpen krijg je verschillen tussen attituden en sociale praktijken. Ten vierde zijn officiële statistieken beperkt (bv. Politiecijfers). Er is vaak sprake van een dark number (niet alle misdaden zijn bekend bij de politie. Daarnaast wil je een goede steekproef trekken en moet je dus een goed steekproefkader hebben. Dit kan door middel van kwalitatieve methoden. Ten slotte kunnen kwalitatieve methoden een unieke bijdrage leveren aan het beantwoorden van nog onbeantwoorde vragen, waar theorieën tekortschieten.
De definitie van kwalitatief onderzoek luidt als volgt: “In kwalitatief onderzoek richt de vraagstelling zich op onderwerpen die te maken hebben met de wijze waarop mensen betekenis geven aan hun sociale omgeving en hoe ze zich op basis daarvan gedragen. Er worden onderzoeksmethoden gebruikt die het mogelijk maken om het onderwerp vanuit het perspectief van de onderzochte te leren kennen met het doel om het te beschrijven en waar mogelijk te verklaren” (Boeije, 2012).
Vooral het perspectief van de onderzochte hierin is erg belangrijk. Je wilt de motieven van de onderzochten onderzoeken, een verklaring geven aan hun gedrag. Daarom is het belangrijk dat je je kan verplaatsen in de onderzochte en zaken vanuit hun perspectief kan bekijken.
Als we het hebben over kennistheoretische verschillen tussen kwalitatief en kwantitatief onderzoek, kijken we bijvoorbeeld naar wetenschapsfilosofische kwesties die de vooronderstellingen, methoden en resultaten van onderzoek beïnvloeden. Daarin kan onderscheid gemaakt worden tussen de volgende drie kwesties:
Ontologische kwesties (zijn)
Epistemologische kwesties (kennis)
Methodologische kwesties (meting)
Kwantitatief onderzoek kijkt vooral naar het positivisme: de objectieve waarheid die wij kunnen kennen (ontologische kwestie) en ook altijd moeten proberen te kunnen kennen. Kwantitatief onderzoek probeert iets te zeggen over de werkelijkheid en wil een model creëren en toetsen (methodologische kwestie).
Kwalitatief onderzoek daarentegen is kritisch en aanhanger van het constructivisme. De waarheid hangt af van een subjectief kader. We kunnen maar een deel van de waarheid waarnemen (ontologische en epistemologische kwesties). We kunnen alleen maar kijken naar interpretaties die mensen toekennen aan de waarheid, wat voor betekenissen hechten mensen aan hun gedrag. De methodologische kwestie bij dit type onderzoek is de hermeneutiek: de studie naar interpretatie van mensen.
Het constructivisme (Berger & Luckmann) stelt dat de echte werkelijkheid (voor zover die bestaat) niet objectief waarneembaar is (kan er wel zijn, maar weten we niet). Door middel van cultuur, symbolen en taal geven mensen actief betekenis aan de werkelijkheid. Die betekenissen zijn gebonden aan context (tijd, plaats), ze zijn niet voor iedereen geldig op hetzelfde moment en op dezelfde plaats. De betekenissen zijn collectief, niet individueel (gedeeld in bepaalde sociale groepen) en zijn empirisch te bestuderen.
Er zijn nog meer kennistheoretische verschillen tussen kwantitatief en kwalitatief onderzoek. Deze volgen hieronder op een rijtje:
Verklaren: opvattingen/gedrag verklaren aan de hand van achtergrondvariabelen. Face-to-face contact is niet noodzakelijk en het perspectief van de onderzochte is niet relevant.
Causaliteit: gemodelleerd naar natuurwetenschappen. Er wordt gewerkt met afhankelijke variabelen en onafhankelijke variabelen en er is sprake van monocausaliteit: A heeft effect op B.
Representatie van de werkelijkheid, a mirror of nature (Rorty).
Deductief: theorie-toetsend. Dit houdt in dat je een idee hebt hoe iets zit, daar maak je een hypothese van en deze ga je toetsen met je data waarna je uitspraken doet over de werkelijkheid.
Begrijpen: verstehen of rationeel begrijpen vanuit het perspectief van de onderzochte (Max Weber). Role-talking (Blumer): mensen spelen altijd meerdere rollen in hun leven.
Verwantschap: geen causaliteit, maar ‘Wahlverwantschaft’ (Max Weber): dingen beïnvloeden elkaar wederzijds en grijpen op elkaar in.
Ideaaltypen (Max Weber): constructies die we maken in dit type onderzoek waardoor we de wereld een beetje kunnen begrijpen, ze maken de werkelijkheid inzichtelijk.
Inductief: theorie-vormend. Je begint bij empirische waarnemingen en je bouwt op basis daarvan je theorie.
Kwantitatief | Kwalitatief |
Objectivisme | Constructivisme |
Objectief | Interpretatief |
Verklaren | Begrijpen |
Causaliteit | Verwantschap |
Representatie | Ideaaltypes |
Theorie-toetsend | Theorie-vormend |
De empirische cyclus van het kwantitatief onderzoeksproces ziet er als volgt uit:
Je hebt een conceptueel model
Dit model ga je operationaliseren: bekijken wat je gaat meten.
Empirie: data verzamelen
Analyse van de verzamelde data
Evaluatie van de onderzochte analyse
De empirische cyclus van het kwalitatief onderzoeksproces ziet er daarentegen als volgt uit:
Empirie: data verzamelen
Analyse van de verzamelde data
Evaluatie van de analyse
Bij kwalitatief onderzoek is er sprake van inductie. De dominante deductieve benadering uit de jaren ’60 (hypotheses toetsen) is de centrale reden voor ontwikkeling van de ‘grounded theory’ door Glaser & Strauss. Zij achtten kwalitatief onderzoek noodzakelijk voor de wetenschap en stellen dat theorievorming op. Dit is een soort tegenhanger van kwantitatieve methode (deductie). Het uitgangspunt van de grounded theory is dat een theorie op inductieve wijze oprijst uit data-analyse. Een kritische punt hierop is dat een theorie ook voor het onderzoek een rol speelt in het relevant maken van de vraagstelling/empirisch onderwerp. Je moet met een theorie beginnen, je kan niet zomaar data gaan verzamelen en dan een theorie verzinnen is de kritiek op de grounded theory.
Volgens de tegenhangers van de grounded theory is zuivere inductie niet mogelijk omdat de onderzoeker niet onafhankelijk is, er is sprake van waardebetrokkenheid. Daarnaast is zuivere inductie niet wenselijk, want al bij de formulering van probleemstelling is selectie en afbakening en het aantonen van theoretische relevantie noodzakelijk.
Je moet dus een theorie verwerken in je vraagstelling bij kwalitatief onderzoek. Dit is cruciaal want het onderbouwt de wetenschappelijke relevantie van het onderzoek en het bakent de open onderzoeksvraag (enigszins) af.
Voor het formuleren van de theoretische relevantie in de onderzoeksvraag zijn er vier posities t.o.v. literatuur:
Theoretische vernieuwing: veranderende samenleving waardoor er nieuwe sociale verschijnselen ontstaan (bv. Een nieuwe subcultuur en cybercrime).
Theoretische elaboratie/verdieping: bestaande theorie(ën) gebruiken als theoretische context voor empirische gevalsstudies. Een voorbeeld is het begrijpen van de opkomst van het jihadisme. Hierbij kan de straintheorie van Merton gebruikt worden (beoogde doelen kunnen niet bereikt worden). De theorie kan niet in zijn geheel worden toegepast, maar er zijn wel bepaalde elementen waarmee je het fenomeen kan begrijpen.
Problematisering & bekritisering theorie: aanval openen op (het liefst een invloedrijke) theorie. Er wordt gebruikt gemaakt van strategische case studies waarbij wordt gekeken in welke gevallen de theorie niet bruikbaar is. Bijvoorbeeld de rationele keuzetheorie: case studies gebruiken om irrationaliteit te laten zien. Welke elementen werken niet van de theorie?
Contextualisering = specifiek maken. Het is een vruchteloos academisch debat op een te algemeen niveau. 10 studies zeggen bijvoorbeeld wel dat een bepaalde theorie toe te passen is, 10 andere studies menen van niet. Voor een bepaalde groep gaat een theorie wel op in een bepaalde context en voor een andere groep niet. Contextualisering: welke theorie is wanneer, waar, onder welke omstandigheden op wie van toepassing?
Wat is nu precies de rol van een theorie in kwalitatief onderzoek? Ten eerste maakt een theorie de vraagstelling wetenschappelijk relevant. Daarnaast helpt een theorie bij selectie en afbakening van de onderzoeksvraag. Ten slotte geeft een theorie richting aan het onderzoek aan de hand van attenderende begrippen. Dit zijn begrippen die aan het begin van het onderzoek nog ‘abstracte’ zijn en gedurende het onderzoek worden gepreciseerd en verder uitgewerkt.
Kwalitatief onderzoeksvoorstel: “Het [kwalitatieve onderzoeksvoorstel] moet in gaan op de vragen wat er wordt onderzocht, waarom het wordt onderzocht, hoe het wordt onderzocht en waar het wordt onderzocht”. In dit college is wat er wordt onderzocht (onderwerp) en waarom (relevantie onderzoeksvraag) besproken. Volgende week wordt verder ingegaan op hoe (bronnen en methodiek) en waar (veld).
| Kwantitatief | Kwalitatief |
Paradigma | Positivistisme/post-positivisme | Constructivisme |
Waarheidsidee | Objectief | Subjectief, betekenisgeving |
Rol theorie-empirie | Deductief | Inductief |
Kennisideaal | Objectieve outsider | Subjectieve insider |
Rol theorie | Theorie toetsend | Theorie vormend |
Data | Cijfers | Tekst |
Selectie data | Random steekproef | Theoretische selectie |
Dit college bouwt voort op het vorige college (7) over kwalitatieve methoden van onderzoek waarin de onderwerpen “wat” (onderwerp) en “waarom” (relevante probleemstelling) besproken werden. Dit college gaat over “hoe” (bronnen en methodiek) en “waar” (veld) in een onderzoek. Kort gezegd gaat het over dataverzameling.
Er zijn verschillende criminologische kwalitatieve databronnen: ten eerste personen (wat ze zeggen). Hierbij gaat het om daders, slachtoffers, informanten (mensen die dichtbij daders en slachtoffers staan, of bv. hulpverleners) en het criminal justice apparaat. Dit is het uitvoeringsapparaat die criminaliteit probeert te bestrijden. Hoe gaat politie bijvoorbeeld te werk of hoe komen rechters tot hun beslissing? Ze onderzoeken hoe mensen in het criminal justice systeem te werk gaan. Ten tweede zijn er personen (wat ze doen). Hierbij gaat het om directe observatie, participerende observatie of simulatie: mensen blootstellen aan experiment. Er is geen cijfermatige verandering van het gedrag, maar er wordt gekeken naar welk gedrag vertonen mensen in zo’n simulatie situatie. De participerende observatie komt later aan de orde. Ten derde heb je geschriften. Dit zijn documenten (opsporingsberichten, dossiers, beleidsstukken) en opgeslagen gegevens. Tot slot zijn er ‘dingen’: beeld (bv. graffiti) en artefacten (voorwerpen).
Er zijn kort gezegd 4 grondvormen van kwalitatief onderzoek doen:
Kwalitatieve survey; welke onderscheiden kan worden in: diepte-interviews en focusgroepen
Etnografische studie (participerende observatie)
Inhoudsanalyse
Case study (combinatie van methoden)
De vier grondvormen hebben verschillende uitgangspunten: allen zijn geldig, de ene is niet beter dan de andere. Welke methode geschikt is, hangt af van probleemstelling/doelstelling van het onderzoek. Elke methode kent mogelijkheden en beperkingen. Waar mogelijk moet men streven naar triangulatie, dat is het gebruik maken van meerdere bronnen. De meest voorkomende vorm is een combinatie van interviews met participerende observatie. De 4 vormen worden hieronder uitgebreid besproken.
De definitie van een diepte-interview is: “Een interview kan beschouwd worden als een gespreksvorm waarin een persoon – de interviewer – zich bepaalt tot het stellen van vragen over gedragingen, opvattingen, houdingen en ervaringen aan een of meer anderen – de participanten of geïnterviewden – die zich voornamelijk beperken tot het geven van antwoorden op die vragen.” (Boeije, 2012: 57)
Wanneer maak je nu de keuze voor interviews in je onderzoek? Het doel is betekenissystemen van één groep of meerdere groepen analyseren en/of begrijpelijk maken. Een voorbeeld: een onderzoek naar criminaliteit onder immigrante jongeren (Antillianen in dit geval). Hoe kan het dat Curaçaose jongeren zo over gerepresenteerd zijn in criminaliteit los van hun sociaal economische situatie? Spelen culturele factoren dan een rol? De onderzoekers gingen praten met de jongeren en hun moeders. Wat bleek: er heersten culturele normen die criminaliteit goed keurden. Dit staat dus los van hun sociaal economische achterstand. Het ging hier om de cultuur van de jongeren en hun thuissituatie. Echter, door de selectie van de ‘probleemgroep’ was het onderzoek niet representatief voor de hele bevolking.
Deze persoonlijke diepte-interviews zijn het meest gangbaar en relevant bij de vraag naar individuele achtergronden, motieven en ervaringen.
Je kan ook een diepte-interview houden met informanten als je niet met de betrokkenen zelf kan praten. Bijvoorbeeld bij Syrië-gangers. Het is lastig om te praten met de IS mensen zelf, dus moet je kijken of je met mensen uit hun omgeving kan praten. Soms is het namelijk niet mogelijk om een onderzoeksgroep zelf te interviewen en moet je bijvoorbeeld familie interviewen.
Er zijn verschillende soorten interviews:
Ongestructureerd interview: je hebt wel een idee van de onderwerpen die je aan bod wil laten komen (aan de hand van een topic lijst). Je zorgt dat die onderwerpen aan bod komen, maar de manier waarop laat je nog open. Je laat de respondent veel aan het woord en laat hem het interview leiden.
Semi- of half gestructureerd interview: je gaat bepaalde vragen systematisch aan iedereen vragen waarop je daarna het interview laat leiden door de respondent.
Gestructureerd of gestandaardiseerd interview: dit type komt bijna niet voor in kwalitatief onderzoek. Het is namelijk vaak een enquête (met gesloten antwoord categorieën) welke veel voorkomt in kwantitatief onderzoek. Heb je wel een enquête in kwalitatief onderzoek, dan zijn de antwoord categorieën nog wel open (verschil met kwantitatief onderzoek).
Open interviews hebben verschillende voordelen. Ten eerste heeft de onderzoeker de flexibiliteit om ergens dieper op door te vragen of ergens anders over te praten tijdens het interview. Daarnaast krijg je een ‘natuurlijke’ weergave van de betekenisgeving van een respondent. Hij vertelt zijn over zijn leven en antwoord niet alleen maar op vragen van de interviewer.
Uiteraard hebben open interview ook nadelen: de informatie is moeilijk te ordenen/systematiseren doordat de antwoorden en onderwerpen verschillen per respondent. Daarnaast kan er sprake zijn van interview effects. Elke interview is anders waardoor je ze niet kan vergelijken.
Welke interview moet je nu kiezen? Welke mate van structuur wil je toepassen in je interview? De volgende criteria zijn gebaseerd op het perspectief van de ‘Grounded theory’:
Starten met een relatief open vragenlijst (topic lijst); ongestructureerd het interview ingaan.
Gebruikt attenderende begrippen: gespreksthema’s die ontleend zijn aan een theorie.
Na de ‘theoretische verzadiging’ krijg je een meer gesloten vragenlijst. Na een paar interviews weet je wat relevant is en wat niet. Je kunt dus nagaan welke onderwerpen veel aan bod komen en welke nauwelijks. Na aanleiding van die attenderende begrippen maak je de vragenlijst steeds meer gesloten.
Je hebt beschrijvende vragen en verklarende vragen in interviews. Beschrijvende vragen gaan in wat voor opvattingen, ervaringen, houdingen, activiteiten etc. heeft de respondent. Verklarende vragen gaan meer in op de achtergrond en context van het verhaal. Bijvoorbeeld hoe zijn respondenten tot dergelijke opvattingen/gedrag gekomen (kijk naar de levensgeschiedenis) en waarom doen ze wat ze doen.
Een beperking van interviews is dat het een meting van een moment in tijd is en geen historisch- of ontwikkelingsperspectief kan achterhalen. Het geheugen is hierbij het grootste probleem. Mensen herinneren zich geen dingen meer van paar jaar geleden.
Bij de focusgroepen staat de interactie tussen groepsleden centraal. Het is dus een groepsinterview waarbij er 6-12 deelnemers praten over bepaald onderwerp. Vaak zijn het kwetsbare groepen of is er sprake van machtsverhoudingen. Slachtoffers zijn het meest duidelijke voorbeeld; zij vinden het makkelijker om over hun verhaal te praten wanneer ze met lotsgenoten zijn. Wanneer er sprake is van machtsverhoudingen moet je denken aan dat mensen niks durven te zeggen als er hogere mensen bij zijn, maar wanneer ze met gelijke mensen zijn durven ze dat wel. De interacties tussen de respondenten hebben een meerwaarde t.o.v. diepte-interviews. Ook is er sprake van empowerment: moment dat je slachtoffers van mensenhandel bij elkaar zet en ze over ervaringen laat praten, geeft dat de onderzoeker waardevolle informatie, maar het geeft ook empowerment aan de mensen zelf.
Nadelen van dit type onderzoek is ten eerste de groepsdynamiek: sommige mensen durven nauwelijks iets te zeggen, of anderen zijn juist alleen maar aan het woord. Hier heb je als onderzoeker geen invloed op. Ten tweede is de kwaliteit van het resultaat afhankelijk van de ervaring van de onderzoek. Het vergt training om zulke groepen te begeleiden, de onderzoeker heeft ervaring nodig.
Dit is een vorm van beschrijvend onderzoek, iets wordt heel uitvoerend beschreven. De meest voorkomende vorm is de participerende observatie. Het dagelijks leven van iemand of van groepen wordt geobserveerd. Een uitgebreidere definitie is: “Participerende observatie is het proces waarin een onderzoeker een veelzijdige en relatief lange relatie met een gemeenschap tot stand brengt en onderhoudt in een natuurlijke setting met het doel wetenschappelijke kennis over die gemeenschap te ontwikkelen”. (Boeije, 2012: 55)
De voordelen van participerende observatie is dat respondenten niet uit een voor hen natuurlijke en betekenisvolle context worden gelicht – zoals vaak bij interviews en inhoudsanalyse. Daarnaast heeft de onderzoeker na lange tijd geen invloed meer op respondent, want ze vergeten na een tijdje dat hij erbij is dus leven hun gewoon hun eigen leven en doen hun eigen ding. Daarnaast is het onderzoek flexibel, omdat de onderzoeker de ruimte heeft hoe hij het gaat invullen. Ook is de validiteit hoog, omdat de onderzoeker het natuurlijke gedrag van de onderzochte volledig heeft kunnen observeren. Alles wat hij heeft opgeschreven of heeft gezien is zoals die mensen leven en dus waar.
De nadelen van participerende observatie is dat het zeer intensief is en beperkt generaliseerbaar. Je kan dit onderzoek maar onder een kleine groep doen, dus je weet niet hoe het onder andere groepen is.
Het doel is het belichten van de discrepantie tussen wat mensen zeggen en wat ze doen. Mensen zeggen vaak iets anders dan dat ze daadwerkelijk doen. Ze zijn zich hier niet altijd bewust van, maar die verschillen zijn er wel degelijk. Participerende observatie kan dit goed in beeld brengen. Interviews missen dit, omdat er niet wordt gekeken naar wat mensen doen maar alleen naar wat mensen zeggen.
Participerende observatie kent ook een aantal dilemma’s:
Wil de onderzoeker uitkomen als onderzoeker of gaat hij in het geheim infiltreren? Dit is een belangrijke keuze die de onderzoeker moet maken wanneer hij gaat observeren.
Gaat de onderzoeker opereren aan de marge of in de kern? Gaat hij op de achtergrond fungeren of met leiders proberen te praten en voorop meelopen?
Wil de onderzoeker meer observeren of meer participeren? Dit is een belangrijke vraag bij criminologische vraagstukken. Bijv. drugshandel: gaat de onderzoeker observeren in de drugswereld, en participeert hij actief mee, dan wordt er waarschijnlijk een keer gevraagd of je ook wat wil proberen. Wilt hij dat wel?
Distantie en betrokkenheid; is de onderzoeker een outsider of insider? Hij moet een zekere afstand bewaren, maar hij moet ook eerlijk zijn omdat je bij bepaalde mensen betrokken bent. Hij moet een beetje outsider blijven maar ook een beetje insider worden om genoeg te kunnen zien/onderzoeken.
Going native: als de onderzoekers ergens zo erg bij betrokken is, kan hij dan nog wel objectief blijven voor je onderzoek?
Deze dilemma’s gaan altijd gepaard met ethische kwesties en kan erg gevaarlijk zijn omdat je dicht bij de criminelen zit.
Deze vorm gaat over geschreven teksten/bronnen. De keuze voor inhoudsanalyse is gebaseerd op het volgende:
Exploratie onderzoeksveld: je weet nog niet zoveel van een onderwerp af en je wilt je gewoon even inlezen in dat onderwerp. Het is werk wat je kan doen om een beter idee te krijgen van een groep of onderwerp voorafgaand aan het veldwerk. Het is dus meestal vooruitlopend op het echte veldwerk (interviews, participerende observatie). Je maakt kennis met het verschijnsel en het introduceert opvattingen, praktijken en jargon.
Inzicht bredere context onderzoeksveld: is vaak tijdens het veldwerk. Tekst (bv. Verhalen respondenten) voor historische en/of culturele context en dossiers (opsporing, justitieel) opvragen.
Opsporingsdossiers: heeft een rijke criminologische data, het is een centrale methodiek op zichzelf. Denk hierbij aan telefoontaps/observaties, verhoren (motieven, betekenisgeving, ervaringen) en huiszoekingen. De data wordt voor een ander doel verzameld. Je wilt toegang tot daders, maar het is lastig om hier zelf toegang tot te krijgen. Daarnaast zijn opsporingsdossiers een systematische vertekening, want het zijn allemaal mensen die in het oog van justitie zijn gekomen. Je hebt geen gevallen die niet aan het licht zijn gekomen waardoor de externe validiteit is beperkt.
Historisch-criminologisch onderzoek; het in kaart brengen van historische veranderingen. Inhoudsanalyse is hier geen aanvulling (exploratie en context), maar een centrale methodiek in het onderzoek. Je krijgt inzicht in processen en veranderingen (bv. Beleidsstukken analyseren, verandering veiligheidsdenken in beleid). Maar ook hier is niet alleen aandacht voor tekst (primaire bronnen), maar ook voor de context (secundaire bronnen). Het is ideaal voor veranderingen over lange tijd heen daarom komt het vaak voor bij beleidsstukken.
De kritische analyse van machtsvertogen = discouranalyse (manier van praten ergens over). Methode om machtsvertogen (manier van praten over iets) in teksten te analyseren (bv. Beleidsdocumenten, debatten, kranten). Je gaat teksten representeren, construeren en reproduceren over machtsverhoudingen.
Een voordeel van inhoudsanalyse is dat je inzicht krijgt over historische ontwikkelingen. Het is een criminologische studie over een lange periode in tijd.
De nadelen zijn dat je, net als bij diepte-interviews, inzicht krijgt in ideeën en idealen van mensen, maar niet in wat ze doen, de alledaagse praktijk. Deze mogelijkheid biedt participerende observatie wel. Daarnaast beperkt het onderzoek zich tot tekst, er wordt geen veldwerk verricht.
Bij een case study worden meerdere waarnemingstechnieken en databronnen gecombineerd. Het maakt een combinatie van kwalitatief en kwantitatief onderzoek mogelijk. Daarnaast kan het toegepast worden op allerlei soorten onderzoeksvragen: verkennend, hypothese genererend, beschrijvend of theorie toetsend. Er kan sprake zijn van een enkelvoudige case study, dan wordt er alleen naar een bepaalde groep gekeken, bijvoorbeeld 1 groep hooligans. Maar je kan ook een meervoudige case study uitvoeren; daarbij wordt er naar meerdere groepen gekeken, bijvoorbeeld meerdere groepen hooligans.
Een nadeel van een case study is ten eerste de afbakening: wat is de onderzoekseenheid? Daarnaast is er sprake van theoretische selectie (bv. omgang cipiers en gevangen of hooliganisme). Ook is de externe validiteit een probleem, want doordat je bepaalde groepen onderzoekt kan het niet gegeneraliseerd worden naar de hele bevolking of andere soortgelijke groepen. Het is geen aparte methodiek, maar een selectie onderzoekseenheid die je met verschillende methoden kan benaderen. Ondanks dat wordt het wel een aparte grondvorm genoemd.
Tot slot ontstaan er door de nieuwe technologie andere bronnen en methoden, zoals een dagboek voor respondenten, een film van hun alledaagse leven en routines, foto’s, online interviews van bijvoorbeeld focusgroepen en virtuele etnografie: observatie van internetfora.
De afgelopen colleges gingen over de onderwerpen: wat onderzoek je, waarom onderzoek je dat en hoe onderzoek je dat? Dit college gaat over de vragen: hoe analyseer je kwalitatieve data en hoe rapporteer je kwalitatieve data?
Het kwalitatieve onderzoeksproces is een cyclisch proces: dataverzameling, analyse en theoretische reflectie. Het doel daarvan is om te gaan van empirische data naar een theorie. Hierbij kan je gebruik maken van een software, welke je helpt om kwalitatieve data te ordenen. Bij de kwantitatieve methode hebben we SPSS als software voor data-analyse al voorbij zien komen. Voor kwalitatieve data kan gebruik worden gemaakt van verschillende softwares, o.a. Atlas.ti en Nvivo. Zoals gezegd helpt de software of data te ordenen. Het handigste is om software te gebruiken op het moment dat je heel veel data hebt. Dan is het handig om de data te coderen in plaats van zelf handmatig te knippen en plakken tussen bestanden.
Analyse in kwantitatief onderzoek is volledig gestandaardiseerd, het gaat om de analytische vaardigheden van de onderzoeker. Kwalitatieve analyse kent 6 basisprincipes:
Cyclisch: het verzamelen en analyseren van data gebeurt tegelijkertijd.
Systematisch, maar niet verstarrend. De analyse hoeft niet altijd precies op dezelfde manier, maar heeft vaak wel een bepaalde structuur. De onderzoeker moet open staan voor andere invalshoeken en zich niet blind staren op de vooraf bepaalde structuur.
Reflexief: de onderzoeker moet actief nadenken over data die wordt verzameld. Hij bijvoorbeeld memo’s gebruiken bij het verzamelen van de data. De onderzoeker schrijft zijn eigen gedachte op in een memo. Memo’s maken ook deel uit van uiteindelijke data analyse. De analyse bestaat dus niet alleen uit de primaire bronnen zelf, maar ook uit de eigen gedachten.
Constante vergelijking (van codes, categorieën): bij elk nieuw interview/tekst vraagt de onderzoeker zich af wat de overeenkomsten en verschillen zijn met voorgaande gevallen. Op basis daarvan gaat hij de data categoriseren.
Eclectisch: het onderzoek ligt wel gedeeltelijk vast, maar het is geen standaard procedure. Je kan niet van te voren zeggen hoe het onderzoek precies gaat verlopen.
Intellectueel vakmanschap: het onderzoek vereist kennis, kunde en vaardigheden van de onderzoeker.
Er zijn twee strategieën voor het analyseren van data. De eerste is deductief (a priori), welke meer wordt gebruikt voor kwantitatief onderzoek in plaats van kwalitatief onderzoek, al wordt het bij de laatste ook soms gebruikt. Bij deductie wordt vanuit een theorie gewerkt, welke tijdens het onderzoek wordt getoetst. Men werkt vanuit een lijst met codes met een theoretisch kader. Het risico hierbij is dat de onderzoeker geen oog heeft voor nieuwe informatie, waardoor je uiteindelijk geen nieuwe theorie kan maken. De tweede strategie is inductief, welke meer past bij kwalitatief onderzoek. Er wordt vanuit data gewerkt om een theorie te vormen. Hierbij kan open en axiaal worden gecodeerd. Het risico is dat je teveel data krijgt waardoor er geen systematiek in te vinden is. Het meest aanbevolen is een onderzoek waarbij inductie en deductie worden gecombineerd.
Het analyseren in kwalitatief onderzoek gebeurt met de constant vergelijkende methode. Dit doe je eigenlijk altijd, ongeacht of het je onderzoek inductief of deductief aanpakt. Je vergelijkt steeds verschillen tussen individuen, waarbij je kijkt naar overeenkomsten en verschillen. Het doel is om een constructie te maken tussen typologie en theorie. Een typologie is in het algemeen een onderverdeling van een groep personen, beschrijvingen, objecten op basis van (een aantal) kenmerken.
De constant vergelijkende methoden komt vanuit de biologie. Onderzoeker Carolus Linnaeus was een bioloog en de grondlegger van taxonomie in de biologie (hoe je dieren en planten etc. kan indelen) (taxon = groep). Hij onderscheidde drie domeinen in de natuur: het stenen-, planten- en dierenrijk. Een voorbeeld van zijn onderzoek was de categorie reptielen. Hij keek binnen deze categorie naar de overeenkomsten (koud, koelbloedig, schubben etc.) en de verschillen (vogels).
Classificatie van data is een constructie: het is geen objectieve representatie van de werkelijkheid. Het selectief gezichtspunt van de onderzoeker bepaalt analyse en classificatie. In de biologie was dit de indeling van het planten- en dierenrijk, waarbij Linnaeus planten classificeerde op basis van seksuele organen. Een ander gezichtspunt (bv. Kleur, vorm) zorgt voor een andere classificatie; dit hangt dus erg af van het gezichtspunt van de onderzoeker. De sociale realiteit is een oceaan van overlappingen en grijstinten; niks is zwart of wit. Categorisatieproblemen zijn eerder regel dan uitzondering: een onderzoek kan niet goed verlopen zonder categorisatieproblemen.
Zoals gezegd wordt de constant vergelijkende methode gebruikt bij kwalitatieve analyse. Per interview/observatie/tekst moet je steeds de vragen stellen: wat zijn de overeenkomsten met voorgaande gevallen? Wat zijn de verschillende met voorgaande gevallen?
Analyse van kwalitatief onderzoek geschiedt in een aantal fasen:
Exploratie: ‘thuis’ in het materiaal
Specificatie: ontwikkeling (veldbetrokken) concepten
Reductie: terugbrengen tot enkele kernconcepten/variabelen
Integratie: relatie concepten, ontwikkeling theorie
In fasen 1 en 2 wordt open gecodeerd. Dit zijn de fasen waarin je je als onderzoeker nog breed oriënteert en waar het nog alle kanten op uit kan. In fase 3 en 4 wordt selectief/theoretisch gecodeerd. Hierbij ga je meer kijken of je data en theorie kloppen, je gaat meer toetsend te werk.
Exploratie: dit is de wijze van analyseren bij aanvang van de dataverzameling. De onderzoeker moet zichzelf vertrouwd maken met de data die hij heeft verzameld. Na elk interview moet hij zich consequent de volgende vragen stellen: Wat zijn op dit moment de centrale begrippen/categorieën? Vallen er begrippen/categorieën af? Komen er nieuwe begrippen/categorieën bij?
Specificatie: het doel van specificatie is zoveel mogelijk veldbetrokken begrippen naar boven brengen. De onderzoeker moet bepaalde begrippen benoemen die toch belangrijker zijn dan andere. Hij plaatst trefwoorden in de kantlijn van interviews, waar hij een bepaalde code aanplakt. Ook maakt hij samenvattingen van interviews, schrijft hij memo’s over opvallende zaken en markeert hij theoretisch relevante passages in interviews. Daarnaast moet hij begrippen ontwikkelen: hoofdtrefwoorden en neventrefwoorden, controle op relevante begrippen door aansluiting zoeken met literatuur en theoretische memo’s: inzichten literatuur terugkoppelen aan eigen gedachten.
Je maakt niet in 1 keer een theorie, dus je begint met reductie van de data je die hebt verzameld. Allereerst moet je de vele veldbetrokken begrippen reduceren/verminderen tot centrale abstracte categorieën; wat het belangrijkste blijkt te zijn. Van belang hierbij zijn theoretische memo’s: per interview moet je vaststellen wat theoretisch relevant is. Dit memo opent daarmee een nieuw aandachtspunt voor het volgende interview. Ook schrijf je een meta-memo: waar sta je nu conceptueel? Zijn het nu psychische factoren die een rol spelen of sociale factoren? Wat is er nu precies belangrijk? Daarnaast moet je centrale begrippen vaststellen en suggesties uit literatuuronderzoek bekijken. Tot slot ga je het kernbegrip bepalen. Als voorbeeld wordt een onderzoek over immigranten gebruikt. Het kernbegrip was in dit onderzoek ‘aspiraties’: wat is de reden dat immigranten in Nederland verblijven? Daarbij werken drie typen aspiraties vastgesteld:
financieel kapitaal verwerven voor investeringen in thuisland; tijdelijk verblijf in gastland (investeringsaspiraties); realiseren van legaal verblijf in gastland (legaliseringsaspiraties) en realiseren basis voor verblijf in gastland (verblijfaspiraties). Dit wordt bedoeld met vaststellen van kernbegrippen en data indelen in categorieën.
Integratie is het uitwerken van de theorie n.a.v. gevonden en gemaakte concepten. Hierbij is literatuurstudie van belang. Je moet literatuur koppelen aan de jouw gevonden concepten. Ook moet je de theoretische memo met een conceptueel raamwerk uitbreiden. Definitieve codering van het materiaal is ook belangrijk. Dit is de laatste fase waarbij je kan coderen. Fase 4 is een gerichte analyse waarbij theoretische verzadiging van belang is. Je gaat geen nieuwe dingen erbij halen, maar je gaat net zo lang door tot al je theoretische begrippen gevuld zijn, tot je theorie af is. Hou daarbij rekening met concrete indicatoren van verzadiging, zoals dat je bij het stellen van een vraag het antwoord van de respondent al weet of dat er verveling heerste tijdens het interview.
Voor het selectief/theoretisch coderen zijn een aantal hulpmiddelen die daarbij kunnen ondersteunen. Allereerst kan je schema’s maken die bepaalde begrippen aan elkaar relateren. Ook heb je fasemodellen om processen te beschrijven, bijvoorbeeld de levensloop van iemand. Ten derde zijn er diverse datamatrixen om typologieen weer te geven (bv. opvattingen, wereldbeelden, motivaties etc.). Met matrixen kan je patronen maken om iets visueel weer te geven, waardoor het makkelijker wordt om het te begrijpen of om verbanden te leggen. De matrixen zijn te onderscheiden in een datamatrix voor individuele gevallen en een datamatrix op thema. De datamatrix voor individuele gevallen geven aan of mensen iets wel of niet hebben per persoon. Met deze matrix begin je, en daarmee werk je door naar een datamatrix op thema. Bij individuele gevallen heb je op de ene as de analyse-eenheden (bv. respondenten) en op de andere as de centrale theoretische concepten (bv. beschrijvende typologie en verklaring). De functie van dit type matrix is het verminderen van data/totaal overzicht. Je maakt het hierdoor overzichtelijker voor jezelf. De datamatrix voor individuele gevallen is vervolgens weer te onderscheiden in twee varianten: frequentie (wel/niet) en inhoudelijk (citaten inplakken over hoe iemand over iets denkt). Bij de datamatrix op thema ga je per thema/variabele een bestand maken. Aan de hand van de datamatrix van individuele gevallen ga je de matrix vullen met alle relevante citaten. De functies van deze matrix is het loskoppelen van de individuele context en het is een tussenstap voor je eindrapportage.
Zie voor (tabel)uitwerking van deze datamatrixen de sheets van hoorcollege 9.
Een typologie die gebaseerd is op ideaaltypen, komt in de werkelijkheid nauwelijks voor. Het is een indeling van de werkelijkheid wat de complexiteit reduceert en simplificeert. Ideaaltypen zijn artificiële constructies maar komen weinig overeen met de werkelijkheid. Problemen met categoriseren van data is eerder regel dan uitzondering. Problemen zijn er en hou je altijd, daar kan je niet omheen.
Hoe rapporteer je nu uiteindelijk over een theorie die je hebt gemaakt? De datamatrix op thema vormt het basismateriaal voor de rapportage. Vervolgens ga je je bezighouden met datareductie. Dat houdt in dat je voor de definitieve tekst de meest illustratieve citaten moet selecteren. Dat doe je door citaten ‘aan elkaar te schrijven’ (in tekstvorm) aan de hand van argumentatie. De citaten leiden de tekst en moeten voor zichzelf spreken.
Vervolgens moet je de resultaten indelen aan de hand van categorieën, deelvragen en/of concepten. De interviewfragmenten zijn voor analytisch gebruik; ze moeten niet alleen illustreren, maar ook verhelderen. Als je de citaten leest moet je het kunnen begrijpen. De rapportage is geen 1 op 1 weergave van het onderzoeksproces. Je weet van te voren niet wat uit de resultaten komt, er is sprake van een proces. Je hebt te maken met bepaalde gereconstrueerde logica dat je in dat proces gebruikt. Daarnaast moet de theoretische relevantie duidelijk zijn, ook al in het begin van je rapportage. Dit vermeld je dan ook al in de inleiding. De opbouw is vaak anders dan bij kwantitatief onderzoek: je begint wel met een stuk over literatuur, theoretische relevantie etc. (zelfde als bij kwantitatief onderzoek), maar daarna neemt kwalitatief onderzoek een andere opbouw aan. Ook moet je niet zomaar de citaten ‘aaneenpraten’; dit moet een goed lopend verhaal zijn. In de methodeparagraaf komt het volgende naar voren: het doel van het onderzoek, de onderzoeksopzet, de eenhedenselectie (op basis van welke gedachte heb je mensen geselecteerd), de gegevensproductie (dataverzameling, validiteit) en het analyseproces; ben je cyclisch te werk gegaan? Heb je memo’s geschreven? Heb je een software gebruikt? Vervolgens moet je de procedure verweven met inhoud: verantwoording van je onderzoek.
Bij het rapporteren van de onderzoeksresultaten mag je de verschillen niet overdrijven. Ook moet je de methodologische basisregels van empirisch onderzoek toepassen (dit is hetzelfde als bij kwantitatief onderzoek). Precieze, systematische en navolgbare gegevensverzameling en analyses zijn essentieel. Daarom moet je als onderzoeker ook beredeneren waarom je voor een bepaald soort steekproef en omvang hebt gekozen en wat de gevolgen van die steekproef zijn.
Tot slot: mag je kwantificeren in een kwalitatief onderzoek? De regel is nee. Je mag aantallen noemen, maar je moet erbij vermelden dat deze niet significant zijn. Als je verschillen gaat vergelijken zijn deze nooit significant. Er is wel een uitzondering: je mag kwantificeren mits er veel data is en/of je iets inhoudelijks zegt. Ook moet je opletten met generaliseren: je mag theoretisch generaliseren, maar niet statistisch.
Het 10e, en tevens laatste, hoorcollege van M&T II gaat over evaluatieonderzoek. Dit is onderzoek naar de effectiviteit van beleid of interventies. Je maakt hierbij gebruik van zowel kwantitatieve als kwalitatieve onderzoeksmethoden. Beleidsonderzoek is dus onderzoek naar interventie of beleid (bv. het effect Community policing (zie het vak Rechtshandhaving & Politie). Dit type onderzoek doet onderzoek naar onder andere morele opvattingen. De politiek speelt hierbij een belangrijke rol: politici willen graag ergens in geloven. Het gaat om wat men belangrijk vindt voor beleidsvorming.
Dit type onderzoek wordt ook wel ‘grijze literatuur’ genoemd, omdat het politieke aspect ervan, er nog niet helemaal uitgehaald kan worden. Het onderzoek wordt vaak vanuit een politiek doel aangedragen, waardoor het nooit helemaal objectief kan zijn. Het is wel onderzoek dat ertoe doet. Dat wil zeggen dat het beleid wordt aangepast of herzien vanwege de resultaten van het onderzoek; het heeft directe gevolgen.
Er zijn verschillende typen van evaluatie onderzoek. Allereerst is er ex ante onderzoek: dit gaat vooraf aan de implementatie van beleid of een interventie. De onderzoeker vraagt zich af of het beleid of de interventie zou kunnen werken en of het effectief zou kunnen zijn. Op basis van literatuuronderzoek wordt er gekeken naar studies die al gedaan zijn, waarbij vervolgens op basis daarvan conclusies worden getrokken over de mogelijke effectiviteit. Ten tweede is er ex post onderzoek: na afloop van het beleid of de interventie wordt gekeken of het succesvol is geweest. Heeft het beleid of de interventie het effect teweeg gebracht wat het zou moeten doen? Hierbij is vaak sprake van kwantitatief onderzoek, omdat er numeriek, op basis van cijfers, wordt gekeken of er iets veranderd is (bv. is de criminaliteit gedaald?). Tot slot is er nog proces onderzoek, waarbij wordt gekeken of het beleid of de interventie wordt uitgevoerd zoals het is bedoeld. Men evalueert hoe het beleid of de interventie in de praktijk wordt uitgevoerd. Hierbij is vaak sprake van kwalitatief onderzoek, aangezien de onderzoek gaat praten met degenen die het beleid hebben uitgevoerd.
Waarom moet beleid of interventies nu geëvalueerd worden? Ten eerste omdat de overheid verantwoording moet afleggen aan haar burgers. Is het beleid dat de overheid uitvoert wel effectief? Ten tweede kan men verbeteringen aanbrengen als het beleid of de interventie niet het beoogde effect heeft gehad. Ten derde kan men door middel van evaluatieonderzoek nieuwe kennis verwerven. Dit is een wetenschappelijke reden; wetenschappers willen weten wat wel en wat niet werkt in bepaalde omstandigheden. Tot slot kijkt evaluatieonderzoek naar de potentiële effectiviteit van het beleid of de interventie.
De vier basisvragen van evaluatieonderzoek zijn de volgende:
Wat is het doel van de interventie?
Is het doel van de interventie bereikt?
Is de interventie de oorzaak van het effect?
Zijn er neveneffecten?
Voorgaande theorie over evaluatieonderzoek wordt toegelicht aan de hand van een voorbeeld over de inzet van windows policing-beleid. William Bratton was een politieagent die het broken windows-beleid toepaste in zijn gebied in New York. Het broken windows-beleid was gebaseerd op de broken windows theory, welke suggereert dat wanneer men de kleinere vormen van criminaliteit aanpakt, de grote vormen van criminaliteit ook zullen dalen. De vraag vervolgens is heeft broken windows policing zin of niet? Uit de cijfers bleek dat de (zware) criminaliteit inderdaad is gedaald na instelling van de broken windows policing. Maar is de broken windows policing dé verklaring voor de sterke daling van de moorden in New York in de jaren ‘90? Messner et al. deed in 2007 onderzoek naar deze vraag. Zij ondervonden dat er een sterkere daling in moorden was bij een sterkere stijging in arrestaties voor kleine overtredingen. Dit lijkt te verklaren dat de broken windows policing succesvol is gebleken. Echter wil dit niet zeggen dat het één de ander veroorzaakt, in dit geval, dat de arrestatie van kleinere criminaliteit heeft geleid tot daling van zwaardere criminaliteit (moord). Daarom heeft Messner et al. een regressie analyse uitgevoerd om deze uitkomst voor andere factoren te controleren. Zij keken bijvoorbeeld ook naar factoren als drugsgebruik en verkoop/bezit van wapens etc. Toch bleef het effect van meer arrestaties voor kleine overtredingen aanwezig, ook als rekening wordt gehouden met andere factoren die invloed hebben op moord. In dit geval kunnen we dus concluderen dat de inzet van broken windows policing heeft geleid tot een daling van moord. Echter waren er ook een aantal beperkingen aan dit onderzoek: is met alle relevante alternatieve verklaringen rekening gehouden? Nee, want men kan niet alles onderzoeken en met alles rekening houden. Met een experimenteel design wordt geprobeerd alternatieve verklaringen onder controle te houden.
Interne validiteit gaat over de vraag: in hoeverre is zeker dat er sprake is van een causale relatie tussen X en Y? Er kunnen namelijk alternatieve verklaringen zijn voor het verband tussen X en Y: andere inhoudelijke oorzaken (selection), verandering tijdens de interventie (history) en testeffecten (hawthorne effect/placebo effect).
Hoe optimaliseer je de kans op het vaststellen van een causale relatie? Dit kan door middel van random toewijzing. Je gaat dan in je onderzoek 2 groepen random toewijzen en vergelijken met elkaar. Je begint met een observatie, dit is je voormeting. Vervolgens stel je een interventie in bij één van de twee groepen, zo krijg je een experimentele groep en een controlegroep. Daarna doe je een nameting en ga je vaststellen of er verschillen zijn tussen de groepen.
Een voorbeeld om het duidelijker te maken: een steekproef van gevangenen wordt random ingedeeld in een experimentele groep en een controlegroep. Bij beiden wordt een voormeting gedaan naar tevredenheid. De experimentele groep ontvangt daarna extra scholing in de gevangenis, de controlegroep niet. Bij beide groepen wordt een nameting gedaan: is de tevredenheid onder de experimentele groep toegenomen? En is het bij de controlegroep constant gebleven?
Naast het (klassieke) experiment die zojuist beschreven is kennen we nog twee andere designs: de quasi-experimentele studies (geen random toewijzing van groepen; mensen kunnen zelf inschrijven, maar de rest van de opzet is vergelijkbaar) en de pre-experimentele studies (geen random toewijzing van groepen, en geen controlegroep; of wel een controlegroep maar dan geen nameting).
Men gaat het effect vaststellen van de interventie die niet door onderzoeker te manipuleren valt, zoals allerlei levensgebeurtenissen. Voorbeelden hiervan zijn het effect van werkloos raken op delinquentie of het effect van gaan studeren op slachtofferschap. Voordeel van dit soort onderzoek is dat je niet te maken hebt met testeffecten. Nadeel is dat het vaststellen van oorspronkelijke verschillen onmogelijk is doordat je geen voormeting doet. Je weet dus niet het verschil tussen de twee groepen voor de interventie. Random samenstellen van groepen is onmogelijk, dus de groepen mogelijk vaststellen op allerlei relevante aspecten. Dus moet de onderzoeker proberen alternatieve verklaringen uit te sluiten via een multivariate analyse (regressie).
De hamvraag van evaluatieonderzoek is: is de verandering in gedrag toe te schrijven aan de interventie? Deze vraag gaat over de interne validiteit van een experiment. Daalt delinquent gedrag door: cameratoezicht, halt, cognitieve therapie, werkloosheidsbestrijding?
In hoeverre heeft de onderzoeker controle op de onderzoeksopzet? Experimenteel onderzoek (met random toewijzing van interventies) versus observationeel onderzoek (selectieve samenstelling van groepen, geen controlegroep en geen voormeting). Uit onderzoek blijkt dat het klassieke experiment niet goed is voor hoger en groot beleid. Twee bewegingen die zich daarmee bezighouden zijn de Campbell Collaboration (Maryland Scientific Methods Scale) en de Realistic Evaluation (Pawson & Tilly).
De Campbell Collaboration houdt zich bezig met strengere methodologie. Ze vinden dat we klassieke experimenten moeten doen en resultaten van niet klassiek onderzoek mogen we niet serieus nemen. Voordelen van deze beweging zijn dat ze alleen genoegen nemen met hard evidence en dat ze een overzicht creeren over wat we nu concreet weten over effectiviteit. Nadelen zijn echter de externe validiteit: werkt een interventie uit New York ook in Rotterdam? Hier houden zij zich niet mee bezig. Ook zien ze interventies als een black box: ze kijken voor de interventie en na de interventie, en de verschillen in de nameting komen door de interventie, door wat er in de experimentele conditie gebeurt. Ze hebben dus geen oog voor alternatieve verklaringen. Tot slot geven ze geen informatie over waarom de interventie wel of niet werkt. .
De Realistic Evaluation gaat terug naar de beleidstheorie: het gaat er niet om óf een interventie of beleid werkt, maar onder welke condities werkt het? Deze benadering heeft meer aandacht voor mechanismen en maakt meer gebruik van kwalitatief onderzoek. Ze kijken naar sociale en gedragsmechanismen die aan de interventie ten grondslag liggen. Ook beschrijven ze hoe en waarom een interventie wel of niet werkt in een specifieke context. De interventie werkt context gebonden, het werkt niet altijd overal. Voordelen van deze benadering is dat het helpt begrijpen waarom effecten zich voordoen en het kan omgaan met veranderingen in de interventies. Nadelen zijn echter dat het een uitvoerige dataverzameling vereist en dat de resultaten minder gewaardeerd worden in termen van wetenschappelijkheid. Wat betreft de mechanismen, vaak is er onvoldoende inzicht in de precieze mechanismen die de interventie in werking zetten. Mechanismen zijn niet universeel, maar contextgebonden en ze kunnen elkaar tegenwerken.
Bij een theoriegestuurde evaluatie gaat men de ideeën achter het beleid toetsen. De onderzoeker bekijkt de ideeën allemaal afzonderlijk en gaat alle losse elementen proberen te toetsen. Ook gaat hij allerlei inzichten uit de literatuur samenvatten en bekijken en op basis daarvan kan hij iets zeggen over de effectiviteit van bepaald beleid of een bepaalde interventie. Ex ante evaluatie zou hierbij kunnen helpen, aangezien men vaak van tevoren onvoldoende rekening houdt met mogelijke onbedoelde gevolgen. Veel beleid wordt gemaakt zonder dit soort evaluatie te doen.
Verzameling studiematerialen die eerder gedeeld zijn op WorldSupporter voor het Leidse Criminologie curriculum
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
Field of study
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
2093 |
Add new contribution