College-aantekeningen bij Onderzoekspracticum 1 aan de Universiteit Leiden - 2015/2016

College 1: Introductie - onderzoekspracticum
College 2: Meetniveaus, frequentieverdelingen en grafieken
College 3: Centrale tendentie, variabiliteit, schaaltransformaties
College 4: Meten in de gedragswetenschap, ethiek
College 5: Standaardnormaalverdeling
College 6: Correlatie
College 7: Regressie
College 8: Sampling/ steekproeftrekken
College 9: Betrouwbaarheid, validiteit en causaliteit
College 10: Experimenteel onderzoek en kansrekening
College 11: Steekproevenverdeling en betrouwbaarheids-intervallen
College 12: Z-toets en caveats
College 13: T-toets voor het populatiegemiddelde: power en type I en type II fouten
College 14: Relaties in kruistabellen en de chi-kwadraattoets
Bron

College 1: Introductie - onderzoekspracticum

Na het vak onderzoekspracticum 1 kan je zelf onderzoek doen, onderzoek van anderen beoordelen, vakkennis op peil houden, differentiëren tussen wetenschap en pseudowetenschap en kritisch leren denken.

Wetenschappelijk onderzoek is de zoektocht naar kennis en ‘waarheid’. De vraag is wat goede kennis is, hoe je aan goede kennis komt en deze gebruikt. Het kernwoord is kwaliteit. De kwaliteit van de manier waarop je kennis vergaard is essentieel. Deze kwaliteit wordt gewaarborgd door wetenschappelijke methoden.

Gedrag bestuderen doen we ook in onze vrije tijd, we zijn allemaal ‘experts’. Wat vroeger aanvaard werd is nu ondenkbaar of discutabel. Denk bijvoorbeeld aan lijf straffen op school. Vroeger was dit heel normaal, nu denken we hier niet meer aan. We hebben allemaal een idee over hoe wetenschap er uit ziet. We hebben een vooroordeel over mannen in witte jassen en reageerbuisjes, maar dit is vrij achterhaald.

Er is altijd een vastomlijnde methode bij wetenschappelijk onderzoek. Dit betekent dat er een stappenplan is, hoe je het beste kunt onderzoeken. De reden hiervoor is dat het onderzoek repliceerbaar moet zijn. Je kan niet out of the blue iets bedenken.

Een wetenschappelijk onderzoek moet aan een aantal criteria voldoen:

Systematisch empirisme: Kennis vergaren op basis van het observeren van de realiteit. Je moet zien wat je wil onderzoeken. Dit moet op een systematische manier gebeuren, want wij nemen allemaal elke dag waar. Van uit waarnemingen kun je gaan toetsen.
Publieke verificatie: Andere mensen moeten kunnen zien en controleren hoe onderzoek ik gedaan en op welke manier de resultaten tot stand zijn gekomen. Het hele proces moet zo open en transparant mogelijk worden gehouden. Je stelt jezelf open voor feedback en kritiek van buiten.
Oplosbare problemen: Is wat je wilt onderzoeken ook meetbaar en op te lossen? Heb je de mogelijkheid om het met wetenschappelijke methodes te onderzoeken?

Twee soorten onderzoek in kwantitatief onderzoek:

Fundamenteel onderzoek: Is kennis vergaren en uitbreiden. Dit hoeft niet gelijk toepasbaar te zijn in de praktijk. Bijvoorbeeld: Hoe verloopt de ontwikkeling van een kind?
Toegepast onderzoek: Is probleemgericht werken, een probleem oplossen en de methode toepassen, meer praktijkgericht; rekening houdend met de ontwikkeling. Bijvoorbeeld: hoe kunnen we pesten op school aanpakken?

Deze tweedeling is in de praktijk niet perse zo zwart zit als hier beschreven.

Drie doelen van onderzoek:

Beschrijven: Bijvoorbeeld: Hoe vaak komt kindermishandeling voor en in welke vormen?
Voorspellen: Het ontdekken van een bepaalde samenhang. Met één variabele een andere variabele voorspellen. Bijvoorbeeld de citotoets, de citoscore voorspelt de leerprestaties van een kind op de middelbare school.
Verklaren: Een causale relatie ontdekken. Vaak ‘waarom’ vragen. Hoe zit iets in elkaar? Bijvoorbeeld heeft de sensitiviteit van de moeder een effect op de gehechtheid van het kind.

Het uiteindelijke doel is het ontwikkelen van theorieën en deze kunnen toetsen met betrekking tot patronen en fenomenen. De bovenstaande doelen zijn als ware een trap. Zo kan je niet verklaren zonder beschreven te hebben. Deze doelen zijn ook niet zo zwart wit. Het ene doel kan niet zonder het andere.

Het doel van het onderzoek hangt samen met het soort onderzoek.

Vier soorten onderzoek:

Beschrijvend: met als doel beschrijven. Bijvoorbeeld: hoeveel kinderen in Nederland worden mishandeld? Hoeveel procent van de ouders maak gebruik van kinderopvang?
(Cor)relationeel: Dit noemen we ook wel relationeel onderzoek. Het belangrijkste doel is voorspellen, je kijkt naar de relatie tussen variabelen je brengt dingen in verband; wat is de relatie tussen kenmerken van het kinderdagverblijf en de kwaliteit van de interactie tussen kinderen?
Experimenteel: het doel van een experimenteel onderzoek is verklaren. Geen associaties, verbanden of relaties maar, proberen te verklaren. We zijn op zoek naar een causale (oorzaak-gevolg) relatie. In de krant of in tijdschriften wordt iets al snel een experiment genoemd. Maar een zuiver experiment onderzoek moet voldoen aan een aantal voorwaarden: aselect toewijzen (ad random) van proefpersonen, herhaling moet plaatsvinden met meerdere proefpersonen en de onderzoeker moet de onafhankelijke variabele manipuleren. Bijv. Is muziek op de achtergrond van invloed op het concentratievermogen van kinderen tijdens een leesles? Je kan bijvoorbeeld een groep met klassieke muziek laten werken, een andere groep met pop muziek en een groep met geen muziek (manipuleren variabelen). Er zijn helaas een aantal zaken waar je tegen aan kan lopen bij het doen van een zuiver experimenteel onderzoek. In vele onderzoeken kunnen variabelen niet gemanipuleerd worden, omdat niet elk onderzoek ethisch verantwoord is. Bijvoorbeeld bij de onderzoeksvraag: Heeft suikerconsumptie een effect op externaliserend probleem gedrag? Hierbij kan niet één groep kinderen alleen maar suiker worden toegediend. Dat is wanneer je terecht komt bij nummer vier.
Quasi experimenteel: het doel is hier nog steeds verklaren. Een quasi experiment is een experiment waar je niet aan alle eisen van een zuiver experiment voldoet, bijvoorbeeld om ethische redenen. Wanneer we kijken naar het vorige onderzoek zou je bij een quasi experiment bijvoorbeeld een groep kinderen kunnen gebruiken die al veel suiker consumeert (de groep is dat dus niet aselect toegewezen). Dit type onderzoek is minder zuiver, er moeten veel maatregelen worden genomen om het een zo zuiver mogelijk onderzoek te maken.

Voorbeeld: Een artikel met als titel: Park maakt jeugd crimineel. Wij moeten hier gelijk kritische vragen bij gaan stellen. Deze titel insinueert dat het park jongeren crimineel maakt, maar hoe is dit onderzocht? Het is zeer onwaarschijnlijk dat ze een groep jongeren in het park hebben neergezet en een groep jongeren in de supermarkt en vervolgens metingen zijn gaan uitvoeren. Het doel van dit vak is om kritischer naar dit soort voorbeelden te gaan kijken.

Even terug naar de doelen van onderzoek. Het beschrijven, voorspellen en verklaren. Om theorieën te ontwikkelen en te toetsen. Een theorie is een stelsel van uitspraken dat de relatie tussen concepten beschrijft en verklaart. Een theorie is altijd onderbouwd door onderzoek. Een plan dat in je opkomt (uitspraak: ik heb hier wel een theorie over) kan dus geen theorie worden genoemd, dit is niet onderbouwd door wetenschap en is dus een idee en geen theorie. Ook de waarom vragen moet je kunnen toepassen met een theorie. Een voorbeeld is de gehechtheidstheorie.

Een hypothese is een als voorlopige waarheid aan genomen, maar nog te bewijzen uitspraak (veronderstelling) die getoetst wordt. Het voorspelt wat er gaat gebeuren. Vooraf (a priori), dus niet achteraf een verklaring bedenken (post hoc). Een hypothese ‘pluk’ je uit een bepaalde theorie.

De belangrijkste eis van een hypothese is dat hij falsificeerbaar moet zijn, oftewel hij moet kunnen worden weerlegd. Bijvoorbeeld wanneer iemand zegt: ik heb stemmen in mijn hoofd, maar niemand anders kan ze horen. Deze uitspraak kan niet worden weerlegd en het geeft dan ook geen zin dit te onderzoeken.

Je kan op de volgende manieren tot een hypothese komen:

Deductief: het formuleren van een specifieke propositie die logisch volgt uit de theorie, oftewel een hypothese trekken uit de theorie. Dit gaat van groot naar klein. In kwantitatief onderzoek wordt dit vaak gebruikt.
Inductief: het formuleren van een propositie die waarschijnlijk volgt uit geobserveerde feiten. Je herkent in iets steeds een bepaald patroon en gaat dit vervolgend toetsen. Van klein naar groot.

Bij met formuleren van een hypothese is het belangrijk te kijken met welke variabele je te maken hebt. Hierbij kan je uitgaan van twee soorten definities:

Conceptuele definitie: omschrijft het begrip, als het ware uit het woordenboek.
Operationele definitie: laat zien hoe bepaalde variabelen worden gemeten. Daardoor is het repliceerbaar. Je maakt een begrip operationaliseerbaar (meetbaar).

Wat kun je op basis van een onderzoek concluderen? Vanuit de logica gezien is het eigenlijk niet mogelijk een theorie te bewijzen. Je onderzoekt namelijk maar een klein deel van een theorie, niet de hele theorie. We hebben bevestiging van een klein deel. Op basis van één onderzoek kunnen we niets zeggen. We moeten conclusies trekken op basis van meerdere studies.

College 2: Meetniveaus, frequentieverdelingen en grafieken

Data is een meervoudsvorm van datum en komt uit het Latijn. Het Latijnse ‘dare’ staat voor gegeven. Datum staat voor: ‘iets dat gegeven is. Data zijn (numerieke) feiten in de kwantitatieve onderzoekssituatie. Vaak zijn het gegevens van mensen weergegeven in getallen. Maar het hoeft niet altijd om nummers te gaan. Data zijn de minst abstracte vormen van gegevens die je kan verzamelen, het wordt pas informatie door interpretatie. Nummers hebben een bepaalde context (bijvoorbeeld inkomen, leeftijd, onderzoeksvraag). Als we data zinvol willen interpreteren moeten we de context begrijpen.

In de structuur van de data staat informatie van verschillende individuen. Deze individuen zijn cases (groepen) of personen. De individuen zijn de objecten waar het onderzoek op uitgevoerd wordt. In onze setting gaat onderzoek vaak over personen (bijvoorbeeld; kinderen, gezinnen, moeders, studenten etc.), maar dit is geen vereiste, onderzoek kan ook over bijvoorbeeld scheikundige stoffen of zelfs hele postcodes gaan. We hebben dus verschillende soorten individuen/objecten waar we verschillende soorten informatie over gaan verzamelen. Een variabele is elk mogelijk kenmerk van een individu. Het gaat om dat wat varieert tussen personen, bijvoorbeeld geslacht.

In een dataset staan alle variabelen en individuen. Dit is een centrale tabel met ruwe gegevens van een onderzoek. Wanneer wij kijken naar variabelen kijken wij altijd naar kolommen, omdat SPSS zo is ingedeeld. In de rijen vinden we de individuen. Het persoonsnummer doet er niet toe, uiteindelijk willen we over een groep individuen conclusies trekken niet over één enkel individu. Individuen verdwijnen dus uiteindelijk uit de analyse. In de kolommen staan de variabelen van de individuen. Er kunnen alleen getallen worden ingevoerd. Vaak wordt er een label of getal gekoppeld aan de uitkomst van de variabele, bijvoorbeeld: bij geslacht kan de ene sekse worden aangeduid met 1 en de andere sekse met een 2. Wanneer er een cijfer ontbreekt is er sprake van een missing value, dit duiden we aan met een afwijkend nummer, bijvoorbeeld 99. Hiermee maken we onderscheid in de dataset, we willen niet dat een missende waarde gaat meetellen, om foutieve waarden in de analyses te voorkomen. Het getal dat je hiervoor gebruikt, spreek je van te voren af. Op deze manier is ook duidelijk zichtbaar dat de persoon die de gegevens van het onderzoek verwerkt het niet vergeten is. Dat het getal ontbreekt betekend niets.

Belangrijke vragen in onderzoek

Waarom zijn de data verzameld? Wat is het doel (beschrijven/voorspellen/advies geven)? Wat wil ik er mee? Wil je bijvoorbeeld een medicijn promoten of wil je onderzoeken vanaf welke score je daadwerkelijk depressief bent. Dit moet je allemaal weten om uiteindelijk conclusies te kunnen trekken.
Wie zijn de individuen? Wanneer je naar studenten onderzoek doet moet je geen gepensioneerde de enquête voorleggen. Hoeveel zijn het er? Soms heb je een minimaal aantal individuen nodig voor een onderzoek.

Wat zijn de variabelen? Hoeveel variabelen zijn er? Wat is de meeteenheid (bijvoorbeeld: ml, m, cm)? Wat is het meetniveau (bijvoorbeeld leeftijd meten in dagen, maanden en jaren of alleen jong versus oud)?

Er zijn twee verschillende indelingen in meetniveau. Moore Mc Cabe & Craig maken een onderscheid in categorische en numerieke variabelen, terwijl Leary een onderscheid maakt in nominale, ordinale, interval en ratio variabelen. Let op dat je bij dit onderwerp niet uit het boekje over SPSS van de Vocht leert. Hij vliegt hier en daar nog al de bocht uit.

Moore Mc Cabe & Craig indeling

Een categorische variabele plaatst een proefpersoon in één van de twee of meer groepen of categorieën Bijvoorbeeld de variabele geslacht, hierbij kan je in de categorie man of vrouw worden geplaatst.
Numerieke variabelen bevatten ook getallen, maar het gaat verder dan alleen een indeling in groepen/categorieën. Met deze getallen kan je daadwerkelijk iets doen. Je kan ze optellen, aftrekken en vermenigvuldigen (bijvoorbeeld: gewicht, lengte). Je kan categorische variabelen wel labelen met 1,2,3, maar 1 betekend in dat geval niet dat het minder is dan 3. Je kan er geen berekeningen mee doen.

Leary indeling

Nominaal: de labels zijn uitsluitende categorieën (je bent man of vrouw). Je zit in één categorie. Het is een label zonder waarde/volgorde. Het maakt niet uit of ‘man’ het label 1 of het label 2 krijgt. Je zit in de ene of in de andere groep en de één is niet beter dan de ander. Volgens Moore et al. valt dit onder de categorische variabelen.
Ordinaal: de volgorde staat vast en is zinvol. De ene waarde is meer of hoger dan de andere. De getallen hebben geen numerieke betekenis. Je kan variabelen niet omdraaien, de volgorde moet worden aangehouden, bijvoorbeeld: laag, middel en hoog. Er moet dus letterlijk ordening zijn. Volgens Moore et al. valt dit onder categorische variabelen. Bijvoorbeeld bij een tentamen, hoge presteerders label je met 3, 2 is dus daadwerkelijk minder goed dan 3.
Interval: Heeft dezelfde eigenschappen als ordinaal, maar er moeten ook gelijke afstanden zijn tussen de waarden. De intervallen zijn altijd gelijk. Je weet dat 4 precies 2 keer zoveel is als 2. Verder heeft het getal een betekenis. Je kunt ermee optellen en aftrekken. Het nulpunt is arbitrair, niet absoluut. Volgens Moore et al. is dit type variabelen numeriek.
Ratio: heeft de eigenschappen van interval maar heeft een variabele heeft met een absoluut nulpunt. Waarde 0 is ook werkelijk niks. Je kunt bijvoorbeeld niet minder dan €0 verdienen. Bij statistische analyses zien we liever dat er interval of ratiovariabelen worden gebruikt. Volgens Moore et al. is dit type variabele dus numeriek.

Soms hangt het type variabele af van de definitie die je gebruikt. Bij leeftijd is het bijvoorbeeld de vraag of je vanaf de geboorte of vanaf conceptie gaat tellen. Ook kan het af hangen van de indeling die je gebruikt. Leeftijd kan zowel categorisch als numeriek zijn. Een discrete variabele kan alleen een hele waarde aannemen. Bijvoorbeeld het aantal keren in je leven dat je ruzie hebt gehad, je kan niet 1,5 keer ruzie hebben gehad. Discreet is niet gelijk aan categorisch. Een discrete variabele is ten minste interval.

Opdracht: welk meetniveau hebben de volgende variabelen

Geslacht: Nominaal/categorisch.
Leeftijd: Hangt af van de gebruikte indeling, maar het principe is ten minste interval maar kan ook ratio zijn.
Aantal kinderen per gezin: ratio, ten minste interval.
Kleur haar: Nominaal/categorisch.
Opleidingsniveau: ordinaal/categorisch.
Temperatuur in graden Celsius: Interval/numeriek.
Temperatuur in heel koud/koud/ warm/ heel warm: Ordinaal/categorisch.

Als we data hebben verzameld gaan we deze bekijken. We willen een idee krijgen van wat er verzameld is, we willen databeschrijving doen. Je moet in een artikel laten zien wat voor data je verzameld hebt. We gaan elke type meting afzonderlijk bekijken, later gaan we relaties tussen twee of meer variabelen bekijken. We gaan dit visueel doen door plaatjes te maken. Belangrijk is dat je gevoel krijgt voor de data.

Een frequentieverdeling van een variabele geeft aan hoe vaak een categorie voorkomt.

De absolute frequentie (frequency) geeft aan hoe vaak de score voorkomt.
Het percentage (percent) wordt berekend door de absolute frequentie te delen door het aantal respondenten en deze uitkomst te vermenigvuldigen met 100.
Het valide percentage (valid percent) wordt berekend door de absolute frequentie te delen door de som van de frequenties van alle bekende waarden en deze uitkomst te vermenigvuldigen met 100. De missing values worden hier in dus niet meegenomen.
De cumulatieve frequentie is de som van de frequentie van de scorewaarde zelf en de frequenties van alle lagere klassen.
Het cumulatieve percentage (cumulative percent) is de som van het percentage van de scorewaarde zelf en alle percentages van de lagere klassen. Dit wordt berekend met het valide percentage.

Om de categorische variabele grafisch weer te geven kan er gebruik worden gemaakt van een staafdiagram. De hoogte van de staaf zegt alleen iets over de frequentie. Je vergelijkt alleen de hoogtes, de volgorde doet er niet toe, daarom zit er een opening tussen de staven. Op de x-as staan de categorieën en op de y-as de frequentie. Ook kan er gebruik worden gemaakt van een pie chart oftewel taartdiagram. In dit taartdiagram wordt er gewerkt met percentages. Het moet altijd optellen tot honderd. Dit is bij een staafdiagram niet het geval.

Taartdiagram	Staafdiagram
Categorische variabelen	Categorische variabelen
Enkele categorieën	Enkele categorieën
Oppervlakte is totaal	Hoeft niet uitputtend te zijn (er kunnen staven worden weggelaten)
Punt is percentage	Hoogte staven is (relatieve) aantal cases
Geeft zicht op verhoudingen	Geeft zicht op verhoudingen

Bij een numerieke variabele kan gebruik worden gemaakt van een stemplot, ook wel stem-leaf plot genoemd om de data te beschrijven. Iedere frequentie die voorkomt wordt gesplitst in een tak en een blad. Het eerste cijfer vormt de stam en de laatste cijfers zijn vormen het blad.

Voorbeeld

stem

leaf

4 8 2 2

2 1

Voor een grafische weergave kan ook gebruik worden gemaakt van een histogram. Dit toont de verdeling voor numerieke variabelen als staven. Deze staven liggen tegen elkaar aan. Er is geen ruimte tussen de verschillende staven, de stapgrootte is overal even groot. De grootte van de staven heeft een betekenis. De klassenbreedte is dus erg belangrijk in het maken van een histogram. De bovengrens van één klasse is de ondergrens van de volgende klasse. Bij het gebruiken van een histogram is de variabele tenminste ordinaal, maar het is alleen een ordinale variabele als je alleen hebt bijgehouden in welke categorie mensen zitten. Op de horizontale as staat de waarde van de variabele. Op de verticale as staat de frequentie van een klasse.

Het verschil tussen een staafdiagram en een histogram

Staafdiagram	Histogram
Categorische variabelen	Numerieke variabelen
Enkele categorieën	Alle waarden binnen een range
Hoeft niet uitputtend te zijn	Telt op tot 100% waarnemingen
Hoogte staven is (relatieve) aantal cases	Hoogte staven is (relatieve) aantal cases
Geeft zicht op verhoudingen	Geeft zicht op verdeling: klassen liggen op volgorde

Waar je op moet letten bij het kijken naar de verdeling

De vorm: Eén piek (modus) is unimodaal. De meeste variabelen zijn unimodaal oftewel normaal verdeeld. Een bimodale verdeling heeft twee pieken. Een multimodale, meerdere. De unimodale verdeling is ideaal. Is de piek symmetrisch of scheef? Een verdeling is scheef naar rechts als de staart aan de rechterkant ligt en de piek aan de linkerkant. Een verdeling is scheef naar links als de staart aan linkerkant ligt en de piek aan de rechterkant.
Het centrum (de locatie): het middelpunt: Waar liggen de meeste personen?
De spreiding/verdeling: veel of weinig? Geeft iets aan over de spreiding rondom het centrum van de verdeling.
Afwijkingen en uitbijters (outliers) liggen ver weg van de grote groep.

Let op!: Alleen naar het plaatje kijken heeft geen zin, je moet ook op de assen letten. Twee verdelingen kunnen precies hetzelfde uiterlijk hebben, maar een hele andere betekenis, omdat er andere waarden op de assen staan.

Bij tijdsgrafieken staat de tijd op de x-as. Op de x-as staat normaal gesproken de waarde van de variabele en op de y-as de frequentie van een klasse. Bij seizoensvariatie doet zich een regelmatig herhalend patroon in een tijdreeks voor. Er zijn pieken voor verschillende seizoenen.

Meestal wordt een tijdsgrafiek gebruikt voor dingen die op een bepaalde tijd veranderen. Een trend is een langdurige voortdurende stijging of daling. Door de jaren heen stijgt het waterpeil langzaam, tussen de pieken en dalen door. De blauwe lijn is hier de seizoensvariatie en de rode lijn is de trend.

College 3: Centrale tendentie, variabiliteit, schaaltransformaties

Dit college bespreken we centrale tendentie, variabiliteit en schaaltransformaties. Deze onderwerpen zijn nauw met elkaar verbonden. We beginnen met centrale tendentie aan de hand van een simpel voorbeeld.

Centrale tendentie

Stel, wij willen van 6 studenten uit het eerste jaar, die bijles hebben gevolgd voor statistiek, weten hoe zij scoren op het tentamen van onderzoekspracticum 1. Zij hebben de volgende cijfers gehaald:

Student	Cijfer
1	7
2	6
3	6.5
4	8
5	7
6	7.5

Bij centrale tendentie willen we dan alle resultaten samenvatten in één cijfer. De vraag hierbij is: hoe doen we dit? Hier zijn verschillende manieren voor oftewel er zijn verschillende maten voor centrale tendentie.

Het gemiddelde

Het gemiddelde wordt veel gebruikt en wordt ook wel de centrummaat genoemd. Het gemiddelde bereken je door alle waarden bij elkaar op te tellen en deze te delen door het totaal aantal waarden. De formule luidt:

x̅ = x₁ + x₂ + ….. + x_n / n

De steekproef grote is in dit geval 6 leerlingen en deze wordt in de formule aangegeven als ‘n’. De ‘x’ met het streepje er boven betekend: gemiddelde. De x’en staan voor de behaalde cijfers, x1 is dus bijvoorbeeld het cijfer van proefpersoon 1. Dit is een algemene manier om een gemiddelde uit te drukken. Maar x1,x2,x3, is nog al omslachtig om zo uit te schrijven, aangezien er vaak veel proefpersonen zijn. De volgende formule geeft het zelfde aan maar is compacter weergegeven:

x̅ = 1/n Σ x_i
De sigma (∑) kan ook worden gezien als een ‘s’ en betekend ‘sommatie’. En wat sommeer je dan? In dit geval ‘x’, je telt ‘x’ steeds bij elkaar op en bij elke keer dat je dit optelt verhoog je die index ‘i’ met 1 punt. Dat is wat in deze formule zichtbaar is. Laat je niet afleiden door hoe de formule er uit ziet, de formule betekend hetzelfde als de eerder gegeven formule.

De bovengenoemde studenten hebben volgens deze formule gemiddeld een 7 gehaald.

7+6+6.5+8+7+7.5 / 6 = 7

Stel dat er een student bij is gekomen die een 1.0 heeft gehaald en de rest van de cijfers zijn hetzelfde gebleven:

7+6+6.5+8+7+7.5+1 / 7 = 6.14

Het gemiddelde is van een 7 naar een 6.14 gezakt, omdat er een extra waarneming bij is gekomen. Met één extreme waarneming (uitbijter) is het gemiddelde bijna met een heel punt gezakt en alle studenten op twee na scoren boven het gemiddelde. Dit laat zien hoe gevoelig het gemiddelde is voor uitbijters. Het gemiddelde kan hierbij flink omlaag of omhoog gaan. Hierdoor kan het voorkomen dat er veel studenten boven of onder het gemiddelde scoren. Het gemiddelde is dus geen resistente centrummaat. Dus dat is een nadeel van het gemiddelde.

De mediaan

Wanneer we een alternatieve centrummaat zoeken die minder gevoelig is voor extreme waarden komen we uit op de mediaan. De mediaan ‘M’ is het middelpunt van de verdeling. Dat getal waarvoor geldt dat de ene helt van de waarneming eronder valt en de andere helft erboven. Hoe vinden we de mediaan:

Rangorden de getallen van laag naar hoog.
Heb je oneven aantal waarnemingen is het middelste getal de mediaan. De locatie van de mediaan vind je door de formule.
Bij een even aantal is de mediaan het gemiddelde, van de middelste twee waarnemingen, de mediaan.
De locatie van de mediaan vind je door de formule : (n+1)/2.

Voorbeeld 1: We nemen de cijfers van de studenten die we eerder in dit college gebruikten. Deze rangorden je van klein naar groot: 6, 6.5, 7, 7, 7.5, 8. We hebben hier 6 waarnemingen
(n), de locatie van de mediaan is dus (6+1)/2 = 3,5. De mediaan zit tussen het 3^e en 4^e getal in. In dit geval tussen twee zevens. De mediaan is dus 7.

Voorbeeld 2: We nemen de cijfers van de studenten die we eerder in dit college gebruikten, met de 7^e student met een 1 erbij. Rangorden van klein naar groot: 1, 6, 6.5, 7, 7, 7.5, 8. We hebben hier 7 waarnemingen, de mediaan is dus (7 + 1)/2 = 4. De locatie van de mediaan is dus het 4^e getal. In dit geval is dit de 7.

Voordelen van de mediaan ten opzichte van het gemiddelde:

Ondanks één extreme waarneming is de mediaan onveranderd gebleven.
Evenveel studenten scoren boven als onder de mediaan.
Ongevoelig voor extreme waarnemingen, de mediaan is dus een resistente centrummaat. Let op: de mediaan kan wel veranderen, maar nooit zo veel als het gemiddelde.

Bij een symmetrische verdeling zijn het gemiddelde en de mediaan gelijk. Naar mate de verdeling schever is, verschillen de mediaan en het gemiddelde meer van elkaar.

Variabiliteit

Met het gemiddelde en de mediaan kan je niet alle eigenschappen van een verdeling beschrijven. Ze beschrijven de centrummaat, maar geven bijvoorbeeld niet aan hoeveel waarnemingen gespreid liggen rondom het centrum (spreidingsmaten).

Voorbeeld:

Student	Cijfer	Student	Cijfer
1	7	1	7
2	6	2	10
3	6.5	3	3
4	8	4	9
5	7	5	4
6	7.5	6	9

De variantie

In beide gevallen is het gemiddelde 7, maar in de 2^e tabel variëren de waarden veel meer. Centrummaten alleen zijn dus niet genoeg om verdelingen te beschrijven, maar spreidingsmaten zijn dus ook belangrijk. Variantie is een maat voor spreiding.

Van ieder persoon kunnen we de afwijking tot het gemiddelde uitrekenen. Het gemiddelde in de eerste tabel uit het vorige voorbeeld was een 7. Als we het verschil tussen elk cijfer en het gemiddelde berekenen en vervolgens deze afwijkingen bij elkaar optellen en delen door het totaal aantal waarnemingen krijgen we altijd 0 (de gemiddelde afwijking is dus altijd 0), omdat de positieve en negatieve getallen elkaar opheffen (zie onderstaand voorbeeld, afwijking t.o.v. gemiddelde). We moeten dus zoeken naar een manier om ‘-‘ op te heffen. Een veel gebruikte manier om negatieve getallen positief te maken is kwadrateren. Kwadrateren is beter dan het weglaten van de ‘-‘tekens, omdat we met gekwadrateerde getallen meer berekeningen uit kunnen voeren dan met absolute getallen.

Student	Cijfer	Afwijking tov gemiddelde	Gekwadrateerde afwijking tov gemiddelde
1	7	7 – 7 = 0	(7 – 7) ² = 0²
2	6	6 – 7 = -1	(6 – 7) ² = (-1) ²
3	6.5	6.5 – 7 = -0.5	(6.5 – 7) ² = (-0.5) ²
4	8	8 – 7 = 1	(8 – 7) ² = 1²
5	7	7 – 7 = 0	(7 – 7) ² = 0²
6	7.5	7.5 – 7 = 0.5	(7.5 – 7) ² = 0.5²

Als we alle gekwadrateerde afwijkingen bij elkaar optellen krijgen we de totale kwadratensom (Total sum of squares). Om een gemiddelde gekwadrateerde afwijking te vinden delen we door n-1. Je hoeft niet te weten waarom we door n-1 delen, alleen dat het voor een eerlijkere weergave zorgt dan wanneer we alleen door ‘n’ delen. Dus:

(7-7)² + (6-7)² + (6.5-7)² + (8-7)² + (7-7)² + (7.5-7)² + (6.5-7)² / (6-1) = 0.5

Deze maat noemen we de variantie (s)² en is conceptueel de gemiddelde gekwadrateerde afwijking tot het gemiddelde. De formule luidt:

s² = (x₁ – x̅)² + (x₂ – x̅)² + ….. + (x_n – x̅)² / n – 1

Oftewel:

s² = 1 / n – 1 Σ (x_i – x)²

Als we kijken naar de twee tabellen die eerder zijn gebruikt waarbij bij beide tabellen het gemiddelde 7 was, zien we dat bij de eerste tabel de variantie 0.5 is en bij de tweede tabel heeft een variantie van 8.4.

Variabiliteit, de standaarddeviatie

Het probleem met de variantie is dat de gemiddelde gekwadrateerde afwijking moeilijk inhoudelijk te interpreteren is. Vandaar dat we gebruik maken van de standaarddeviatie. De standaarddeviatie (s) is de wortel uit de variantie. De standaarddeviatie geeft aan hoeveel de waarden gemiddeld afwijken tot het gemiddelde. De standaarddeviatie is wel makkelijk te interpreteren. In het voorbeeld van de twee tabellen is in de eerste tabel de standaarddeviatie 0.71 en in de tweede tabel 2.90. De officiële formule luidt:

s = √1 / n – 1 Σ (x_i – x)²

Eigenschappen standaarddeviatie:

‘s’ geeft de gemiddelde spreiding rondom het gemiddelde aan. Enkel te gebruiken wanneer gemiddelde als centrummaat wordt gekozen
Wanneer er geen spreiding is: s = 0

Bijvoorbeeld iedereen haalt een 7, gemiddelde is automatisch ook 7. S = 0

‘S’, de standaarddeviatie en ‘s²’, de variantie zijn niet resistent, uitbijters kunnen grote invloed hebben. Bij uitbijters of scheve verdelingen kun je beter gebruik maken van een andere spreidingsmaat, namelijk kwartielen, percentielen en de mediaan.

Kwartielen

Wat zijn kwartielen? Zonder dat jullie het wisten hebben jullie eigenlijk al te maken gehad met een kwartiel, namelijk de mediaan. Maar eerst moet je weten wat een percentiel is. Een percentiel bijvoorbeeld de p-de percentiel (‘p’ staat voor percentage), is de waarde waarvoor geldt dat p procent van alle waarden onder die waarde valt. Bijvoorbeeld 4% scoorde lager dan een 3, die 4% is dus de 4^e percentiel. De mediaan is dus het 50^ste percentiel. Want 50% van alle waarnemingen valt er onder en 50% valt er boven. Kwartielen kunnen ook worden weergegeven in percentielen. De mediaan is bijvoorbeeld het 50^e percentiel

Kwartielen delen de waarneming in 4 gelijke delen op:

Eerste kwartiel Q1: Is het 25^e percentiel. 25% van de waarnemingen valt onder Q1.
Tweede kwartiel: de mediaan, 50% van de waarnemingen valt onder de mediaan, 50% valt erboven.
Derde kwartiel Q3: Is het 75^e percentiel. Dus 75% van de waarnemingen valt onder Q3.

Berekeningen kwartielen:

Rangorden de observaties van laag naar hoog.
De mediaan berekenen.
Eerste kwartiel Q1 is de mediaan van de waarnemingen onder de algehele mediaan.
Derde kwartiel Q3 is de mediaan van de waarnemingen van de kwartielen boven de algehele mediaan.

Voorbeeld: Behaalde cijfers voor OP1: 4, 5, 3, 4, 4, 5, 6, 4, 6, 5, 4, 7, 8, 4.

Stap 1: 3, 4, 4, 4, 4, 4, 4, 5, 5, 5, 6, 6, 7, 8.

Stap 2: Mediaan: (14+1)/2= 7.5. De mediaan is het gemiddelde van 4 en 5 = 4.5

Mediaan: 3, 4, 4, 4, 4, 4, 4 | 5, 5, 5, 6, 6, 7, 8.

Stap 3: Eerste kwartiel: Voor Q1 kijken we alleen naar de getallen onder de mediaan: 3, 4, 4, 4, 4, 4, 4. (7+1)/2= 4. Q1 is dus het vierde getal, wat in dit geval 4 is. 3, 4, 4, 4, 4, 4, 4.

Stap 4: Derde kwartiel: Voor Q3 kijken we alleen naar de getallen boven de mediaan: 5, 5, 5, 6, 6, 7, 8. (7+1)/2=4. Q1 is dus het vierde getal, wat in dit geval 6 is. 5, 5, 5, 6, 6, 7, 8

Q1 = 4, M=4,5, Q3=6.

De vijf-nummersamenvatting (five-number summary)

De vijf-nummersamenvatting van een stel observaties bestaat uit de laagste waarneming, het eerste kwartiel, de mediaan, het derde kwartiel en de hoogste waarneming. Het idee hierachter is een zo volledig mogelijk beeld geven van de spreiding. Dus:

Minimum > Q1 > M > Q3 > Maximum.

Een boxplot geeft de vijfnummersamenvatting grafisch weer. De onderkant van de box geeft Q1 weer, de bovenkant van de box geeft Q3 weer. De lijn in de bos geeft de mediaan weer. De lijnen boven en onder de box strekken uit tot aan de minimum en maximum geobserveerde waarden.

De interkwartielafstand (Interquartile range, IQR)

Zoals eerder beschreven: de variantie en standaarddeviatie zijn geen resistente maten tegen uitbijters (extreme waarnemingen). Er is een alternatieve maat: de interkwartielafstand. Deze maat is minder gevoelig voor extreme waarden dan de standaarddeviatie.

IQR= Q3 - Q1

Voorbeeld:

Student	Cijfer	Student	Cijfer
1	7	1	7
2	6	2	6
3	6.5	3	6.5
4	8	4	8
5	7	5	7
6	7.5	6	7.5
		7	1
Mediaan: 6, 6.5, 7 \| 7, 7.5, 8 Q1 en Q3: 6, 6.5, 7 \| 7, 7.5, 8 IQR: Q3 – Q1 = 7,5 – 6.5 = 1		Mediaan: 1, 6, 6.5, 7, 7, 7.5, 8 Q1 en Q3: 1, 6, 6.5, 7, 7, 7.5, 8 IQR: Q3-Q1 = 7.5 – 6 = 1.5

De interkwartielafstand is ‘maar’ 1.5x zo groot, ondanks de uitbijter. De standaarddeviatie is in dit voorbeeld ruim 3x zo groot ( 0.71 in de eerste tabel en 2,36 in de 2^e tabel). IQR is alleen zinvol bij uitbijters, niet bij een scheve verdeling.

Voor uitbijters bestaat de ‘1.5 x IQR’ regel. Dit wilt zeggen dat een waarneming vermoedelijk een uitbijter is wanneer hij meer dan 1.5 x IQR onder het eerste of boven het derde kwartiel valt.

1, 6, 6,5, 7, 7, 7,5, 8
IQR: 7,5 – 6 = 1.5
1.5 x 1.5 = 2.25
Alles lager dan 6 – 2.25 = 3.75 en hoger dan 7.5 + 2.25 = 9.75 is een uitbijter. In dit voorbeeld is 1 dus een uitbijter.

Schaaltransformaties

Wanneer dezelfde variabele in verschillende meeteenheden gemeten kan worden wordt er gebruik gemaakt van schaaltransformaties. Bijvoorbeeld bij:

Snelheid in km/uur of m/s.
Temperatuur in graden Celsius, kelvin of Fahrenheit

Een meeteenheid is makkelijk te veranderen, omdat het lineaire transformaties van elkaar zijn. We gebruiken hierbij de formule: x_nieuw = a + bx (a = constante).

Voorbeeld: van km/uur naar m/s:

1 km = 1000 m > dit weten we

1 uur = 3600 sec > dit weten we

1km/uur = 1000/3600 = 0,2778 m/s

X_nieuw = 0,2778x

a= 0; b=0.2778

Nieuwe snelheid in meeteenheden: Aantal km x 0,2778

Dus: 120 km/uur in m/s = 0.2778 x 120 = 33.34 m/s.

Voorbeeld: Celsius naar Kelvin

Als de temperatuur met 1 graad Celsius stijgt, stijgt de temperatuur in Kelvin ook met 1 graad.

0 graden Celsius =

X_nieuw = 273,15 + x

a=273.15; b=1

Dus: van 27 graden Celsius naar Kelvin: 273.15 + 27 = 300.15 Kelvin

Effecten bij lineaire transformaties:

De vorm van de verdeling verandert niet, met andere woorden : stel dat je een scheve of een normaal verdeling hebt blijft dit zo.
De gemiddelden en de mediaan veranderen wel. Vermenigvuldigen van elke observatie met b, vermenigvuldigt gemiddelde, mediaan, IQR en standaarddeviatie ook met b.
Optellen van constante a bij elke observatie, verhoogt gemiddelde, mediaan en kwartielen ook met a. Let op: standaarddeviatie en IQR blijven gelijk.

College 4: Meten in de gedragswetenschap, ethiek

Variabelen kunnen op veel verschillende manieren gemeten worden. Bij operationalisatie maak je een begrip zoals deze in het onderzoek is bedoeld of bepaald. Ook kijk je naar wat je gaat meten en op welke manier ga je dit doen.

Er zijn globaal vier verschillende soorten manieren van meten:

Observeren, direct zicht op het gedrag.
Fysiologische maten, metingen in/aan het lichaam, zelfrapportage -bijvoorbeeld een vragenlijst/interview.
Zelfrapportage, dit kan ook betekenen dat een ouder iets voor een kind invult.
Het archief, dit zijn bestaande gegevens. De eerste drie bevatten primaire metingen (wat je zelf gaat doen), deze is secundair. De data heb je niet zelf verworven.

Deze onderwerpen zullen we gedurende dit college bespreken.

Observatie

Als er wordt gekozen voor observeren moeten er verschillende beslissingen worden genomen. Welke setting kies ik? Natuurlijke omgeving of vooropgezet (contrived)? Welke observatie methode gebruik ik? Het één is niet beter dan het ander, maar kijk wat bij je vraag past.

Welke setting kies ik?

Natuurlijke omgeving: In een naturalistische setting wordt er geobserveerd in de omgeving van het geen wat geobserveerd wordt. Zonder interventie van de onderzoeker. Participerende observatie is een belangrijke methode om in de natuurlijke omgeving van mensen te observeren. Het geeft een realistisch beeld, in eigen context, je bevindt je in de situatie waarin de onderzochte groep zich ook bevind. Bijvoorbeeld: op een schoolplein kijken hoe ouders en kinderen met elkaar omgaan. In deze situatie is de context zichtbaar en spontane gebeurtenissen kunnen ook worden gezien. Er komen gedragingen naar voren waar je als onderzoeker niet altijd over na hebt gedacht. Het nadeel is dat je weinig controle hebt over je onderzoek, weinig zicht op wat beïnvloed wat, je hebt onbewust altijd invloed op de groep waar je observeert, je wordt zelf deel van het onderzoek, het is redelijk subjectief. Conclusies trekken wordt dus moeilijker. Je moet je afvragen of dit invloed heeft op het coderen.
Vooropgezet: In een vooropgezette setting is de situatie ingericht voor observatie en registratie van het gedrag. Je weet van begin tot eind hoe je het aanpakt en wat er gaat gebeuren. Een voorbeeld is de vreemde situatie procedure, hierbij kan je je afvragen of de reacties thuis hetzelfde zullen zijn. Bij deze setting heb je veel controle en veel overzicht. Het nadeel is dat de setting niet realistisch is voor de proefpersonen. Dingen die kunnen voorvallen in een natuurlijke setting zullen in de vooropgezette setting minder vaak voorvallen. De vraag is dus of het wel realistisch is. Veel controle en hierdoor veel overzicht. Je hoeft je geen zorgen te maken over onverwachte situaties of factoren die afleiden.
Veldexperiment: In een veldexperiment wordt er gezocht naar een tussenvorm tussen de natuurlijke omgeving en een vooropgezette setting. Het is realistischer dan laboratoriumonderzoek, maar er is toch een zekere mate van controle. Bijvoorbeeld; keihard bellen in de stilte coupe in de trein en kijk hoe de mensen reageren. Hierbij kan je kijken hoe mensen reageren, maar je hebt wel invloed op de situatie. Let op: niet verwarren met een experimentele opzet!

Hoe stel ik mij als onderzoeker op?

Verborgen: De onderzoeker kan zich zelf verborgen opstellen, hierin weten de participanten niet dat er iemand naar ze kijkt. Nadeel hiervan is dat er vaak ethische problemen aan hangen. Ook is het moeilijk om in sommige situaties binnen te komen als verborgen onderzoek. Bijvoorbeeld: een kinderdagverblijf, hier kan je niet zomaar binnenlopen en gaan observeren.
Open: De onderzoeker kan ook openlijk worden opgesteld, hier weten de participanten wel dat ze worden geobserveerd. Nadeel hiervan is de reactiviteit, de reactie van mensen kan veranderen omdat zij weten dat ze worden geobserveerd (hierdoor kunnen zij sociaal wenselijk gedrag vertonen).
Tussenoplossingen: Er zijn ook tussenoplossingen mogelijk:
Niet alles vertellen: Tot op een zekere hoogte informatie geven. Zo kan je bijvoorbeeld niet alle details geven of alleen leidinggevenden inlichten.
Informanten gebruiken: Andere mensen die informatie verzamelen, bijvoorbeeld: vrienden van de proefpersoon laten observeren.
Indirect meten: Meten zonder directe observatie. Bijvoorbeeld: in het vuilnis kijken hoeveel flessen drank erin zitten om te kijken of iemand een alcoholist is.

Bij deze tussenoplossing voorkom je reactiviteit en wordt ook ethiek niet in gevaar gebracht.

William Ickes heeft nog een andere manier van observeren bedacht. Waarbij verborgen opnamen worden gemaakt en later wordt de gefilmde mensen gevraagd of deze opnamen gebruikt mogen worden. Een groot nadeel is dat waarschijnlijk de mensen die ongewenst gedrag vertonen aangeven dat ze willen dat de beelden vernietigd worden.

Welke observatiemethode gebruik ik?

Welke methode je ook gebruikt, betrouwbaarheid is altijd belangrijk. Dit wordt onder andere gecheckt door te kijken of persoon A en B hetzelfde observeren en coderen (inter-beoordelaars betrouwbaarheid). Interne betrouwbaarheid. Er zijn vier observatiemethoden:

Narratieve: de narratieve methode is ongestructureerd. Gedrag en/of verbale uitingen. Hierin wordt het gedrag exact geregistreerd. Dit is erg gedetailleerd en allesomvattend. Wel is deze methode erg intensief, tijdrovend en onoverzichtelijk. Deze methode wordt vooral bij kwalitatief onderzoek gebruikt. Na een dag krijg je een enorme lap tekst en wat moet je hier mee, hoe ga je dit analyseren. Ook moet je jezelf afvragen of je wel alles ziet. Meestal heb je al een idee in je hoofd als je begint met observeren, je kan hierdoor onmogelijk alles zien. Je kan zeggen dat je heel gedetailleerd bent. Het nadeel is dat je erg veel data hebt, het moeilijk te verwerken is en het erg tijdrovend is. Hoe codeer je, wat haal je er uit en wat neem je niet mee in de analyse. Onoverzichtelijk. Een belangrijke vraag is ook, kan je wel alles observeren? Het antwoord is nee. Je zal altijd iets missen.
Checklist: Wanneer er gebruik wordt gemaakt van een checklist wordt de aanwezigheid of afwezigheid van gedrag geregistreerd, dus hoe vaak iets gedaan wordt. Het voordeel hierbij ligt is het gebruiksgemak en het is overzichtelijk en gemakkelijk te analyseren. Wel heb je duidelijke operationele definities nodig, omdat het redelijk subjectief is. Het gedrag wat onderzocht zal worden moet duidelijk gedefinieerd zijn. Checklists worden bijvoorbeeld in het onderwijs vaak gebruikt om te beoordelen of kinderen zich goed ontwikkelen. Een andere vraag is: wat kan je uit de antwoorden interpreteren? Eén nadeel van deze methode is dat je in een grote groep dingen kan missen, zo kan een kind wel iets beheersen, maar niet laten zien op het moment dat je op het kind let. Ook wordt er alleen vanuit criterium gecheckt en wordt er vaak niet verder gekeken.
Tijdsmetingen: Hier heb je verschillende vormen van. Neem deze ook nog door. De eerste belangrijke is latency, dit betekent ook dat wanneer er gebruik wordt gemaakt van tijdmetingen er gekeken wordt hoelang er tussen twee gedragingen zit of een gebeurtenis en een gedraging (= de latency tijd). De tweede is Durency, hoelang iets duurt. Nadeel: Wat betekent de tijd tussen actie en reactie en wat betekenen de variabelen die je meet?
Ratingscales: Dit zijn beoordelingsschalen. Deze meten de kwaliteit en intensiteit van het gedrag. Op deze manier krijg je meer informatie en dit is makkelijk te

analyseren. Wel is er kans dat de observatoren anders beoordelen. Wat de één sensitief vindt, vindt de ander bijvoorbeeld niet sensitief. Hier ligt het probleem in de subjectiviteit van de beoordelaars en de afbakening van definities. Observatoren moeten met voor deze observatiemethode goed getraind worden.

Fysiologische maten

Bij fysiologische maten worden processen in het lichaam gekoppeld aan psychologische processen zoals gedrag (bijvoorbeeld cortisol). Dit wordt steeds vaker gebruikt in sociaalwetenschappelijk onderzoek. Positief is dat het harde maten zijn, maar het is vaak lastig te interpreteren. Wat zegt bijvoorbeeld het cortisol-niveau? Je moet je altijd afvragen wat het resultaat nou eigenlijk zegt. Vaak worden fysiologische maten en andere metingen (bijvoorbeeld vragenlijsten) gecombineerd.

Bij fysiologische maten die mensen zelf afnemen is het belangrijk om te controleren dat mensen dit goed doen. Je moet jezelf afvragen hoe je dit goed uit moet leggen en hoe je het gaat controleren.

Voorbeeld fysiologische maten

Speeksel afnemen bij kinderen om bijvoorbeeld cortisol te onderzoeken. Hierbij kan er voor controle van de metingen een potje worden gebruikt om de tijd van speekselafname te registreren om zo zuiver mogelijk te meten.

Zelfrapportage

Bij zelfrapportage zijn er verschillende dingen die moeten worden besloten. Er kan gebruik gemaakt worden van een vragenlijst of van een interview.

Voordelen interview: Er is mogelijk te checken of mensen het begrepen hebben. Minder ontbrekende waarden. Geschikt voor kinderen, mensen met een beperking etc. Met deze manier van zelfrapportage kan een gedetailleerd en volledig beeld worden gevormd.

Voordelen vragenlijst: het is anoniem, relatief goedkoop en snel en makkelijk te analyseren.

Wanneer een vragenlijst wordt gebruikt, moet er nagedacht worden over de soort vragen. Dit kunnen open vragen zijn, een vijf-puntenschaal, multiple choice vragen (hierbij moet je altijd aangeven hoeveel antwoorden per vraag aangevinkt mogen worden. Bij meerdere antwoorden per vraag wordt analyseren moeilijker), Semantisch differentiaal: meestal 5 categorieën tussen twee uitersten.

Vragen formuleren

Je moet altijd goed nadenken over hoe je vragen formuleert. Bijvoorbeeld bij de volgende vragen:

Wat geeft u uw kind zoal te eten? Hier zijn er te veel antwoorden mogelijk, er ligt geen nadruk op een moment van de dag.
Hoe gaat u om met de driftbuien van uw peuter? Negeren, toegeven of wisselend. Hier zijn er te weinig keuzemogelijkheden, de vraag is niet uitputtend. Ten eerste moet een driftbui goed gedefinieerd worden, ten tweede ga je er van uit dat het kind driftbuien heeft. Verder zit er een aanname in de vraag. Je gaat er van uit dat het kind driftbuien heeft.
Wat vindt u van uw opvoedingsstrategieën? Mensen weten niet precies wat hiermee bedoelt wordt. De vraag is te abstract en ruim.

Het nadeel van een vragenlijst is dat er bias kan optreden. Dit zijn vertekeningen in de antwoorden en als onderzoeker wil je zo min mogelijk vertekening hebben. Sociale wenselijkheid: Het kan zijn dat mensen de vragenlijst sociaal wenselijk invullen, mensen doen zich hierbij beter voor dan ze zijn. Dit valt wel te controleren. Ja/nee zeggers: Dit zijn mensen die uitsluitend aan één kant zitten. Dit valt op te lossen door vragen regelmatig andersom te stellen, men wordt hier alerter van. Centrale tendentie: Er kan ook centrale tendentie optreden, omdat mensen geneigd zijn om geen buitenste antwoorden in te vullen, maar deze mensen kiezen de middelste categorieën. Vooral op een driepuntsschaal kan dit problemen opleveren. Dit los je op door bijvoorbeeld 7 variaties te formuleren. Logische fout: En er kan een logische fout ontstaan. Dit kan komen doordat bepaalde vragen erg op elkaar lijken. Bijvoorbeeld: geef je vaak leiding? en neem je vaak initiatief? Men koppelt dit aan elkaar, de nuancering vervalt en men vult hetzelfde antwoord in.

Alle vormen van meten kunnen bij alle soorten onderzoek worden gebruikt. Beschrijvend, (co)relationeel en (quasi-)experiment.

Archiefdata

Dit is een secundaire manier van meten, je hebt de data niet zelf verworven. Bij archiefdata worden bestaande gegevens gebruikt voor onderzoek. Het voordeel hiervan is dat de data al beschikbaar is. Een nadeel is dat je volledig afhankelijk bent van die data. Om precies te weten wat er in de data staat worden codeboeken ontwikkelt, zo weten jij en andere mensen precies wat je ook al weer bedoelde.
Het overzicht in het boek is niet volledig.

Soms wordt er gebruik gemaakt van meerdere methoden van dataverzameling naast elkaar. Methodologisch pluralisme is op meerdere manieren hetzelfde meten. Op meerdere manieren kijken naar vergelijkbaar gedrag, kom ik op hetzelfde uit?. Bij methodologische convergentie wordt er steeds op hetzelfde resultaat uitgekomen.

Ethiek

De ethische regels kunnen op drie verschillende manieren worden toegepast.

De deontologische benadering: Er zijn ethische regels die voor iedereen gelden. Om ethisch te handelen moeten er universele regels zijn. Je mag bijvoorbeeld nooit liegen tegen een respondent dit geld voor iedereen overal en altijd.
Utilitaristische benadering: Gaat uit van een soort kosten-baten afweging. Wat kosten de ethische problemen en wat krijg ik ervoor terug? Gaat uit van de consequenties van wat je doet. Wat voor positiefs en negatiefs haal ik er uit en kan ik het in evenwicht brengen. Bijvoorbeeld: Ik moet liegen, maar verkrijg veel kennis. Baten zijn in deze situatie misschien hoger dan de kosten
Sceptische benadering: Het is aan de onderzoeker om een goede beslissing te nemen. Ieder onderzoek is altijd anders, de onderzoeker moet de beslissing nemen

Bij ethiek moet ook gedacht worden aan fraude. Voorbeelden hiervan zijn data verzinnen of verwijderen en plagiaat plegen. Ook wanneer je geen onderzoek gaat doen, maar als pedagoog gaat werken, is ethiek een belangrijk onderwerp.

College 5: Standaardnormaalverdeling

Verdeling

Iets wat aangeeft hoe personen over een waarde van een variabele verdeeld zijn. Kenmerken van een verdeling:

Vorm: een verdeling kan symmetrisch zijn of scheef. Als een verdeling scheef is zit de top niet in het midden, maar links of rechts van het midden.
Extreme waarnemingen: zitten er uitbijters in je verdeling? Ligt een waarde ver bij de andere waarden vandaan?
Centrum: geeft aan waar de meeste personen zitten of geeft aan waar het midden of zwaartepunt zit.
Spreiding: geeft de gemiddelde afwijking ten opzichte van het centrum weer.

Wanneer we een verdeling willen beschrijven is het handig om een grafiek te maken, bijvoorbeeld een histogram. Je kan de vorm van de verdeling en mogelijke uitbijters dan zien. Ook is het handig om passende centrum en spreidingsmaten te berekenen, dan heb je een beeld wat de kenmerken van een verdeling zijn.

Belang van verdeling

Een populatie is de gehele groep mensen waar je iets over te weten wilt komen. Met een steekproef wil je iets zeggen over die populatie. Het is belangrijk om onderscheid te maken tussen de verdeling die je hebt in een bepaalde steekproef en de verdeling in de populatie. De verdeling in de steekproef geeft informatie over de onderzochte personen. De verdeling in de populatie geeft informatie over de onderzochte groep als geheel. Uitspraken over de populatie zijn wetenschappelijk het meest interessant, omdat je uitspraken geen wil doen die alleen voor een bepaalde groep mensen geldt, maar over de hele populatie.

Vandaag

Vandaag gaan we het hebben over wat we voor kans uitspraken kunnen doen wanneer we 1 persoon uit de populatie trekken. Hoe verhoudt deze persoon zich tot de populatie?

Verdelingen steekproef en populatie

Je wilt dat je steekproef verdeling die lijkt op de populatieverdeling. Ten eerste is daarbij de steekproefgrootte van belang, hoe groter de steekproef, hoe meer mensen van de populatie heb je gevangen. En tweede is de representativiteit van de steekproef van belang. We hebben hier in de collegezaal een groep pedagogiek studenten. Wanneer we deze groep voor een steekproef van de Nederlandse bevolking gebruiken, geeft dit de Nederlandse bevolking als populatie niet goed weer. De steekproef is dan te homogeen qua leeftijd, geslacht, intelligentie en interesse. De groep is dus groot, maar niet representatief. Normaliter trek je via een random of aselect mechanisme personen uit de populatie, iedere persoon heeft een gelijke kans om in de steekproef te komen. Dan is je steekproef waarschijnlijk representatief. Echter, dit is vaak moeilijk te bereiken in de praktijk.

Verdelingen: discreet vs. Continu

In steekproeven moeten we discreet meten. Discreet betekent dat er een beperkt aantal waarden zijn. De onderliggende variabele is continu, alle waarden kunnen tot oneindig achter de komma toenemen. In de populatie is vaak een continue verdeling verondersteld. Bijvoorbeeld lichaamslengte of schoenmaat zijn variabelen die niet discreet, maar continu zijn. We moeten toch vaak op een discrete manier meten, omdat onze meetinstrumenten vaak discreet zijn, Bijvoorbeeld: een meetlat, deze meet discreet in meters en centimeters. Populatie verdelingen benaderen vaak een vloeiende curve en zijn vaak ‘vloeiender’ dan de steekproevenverdeling, omdat in de steekproef continue variabelen discreet gemeten zijn. Wanneer er een histogram van een continue variabele wordt gemaakt geldt: hoe groter het aantal observaties en klassen, hoe gelijkmatiger de verdeling.

Dichtheidscurven

Het ideaal van een curve zou bestaan uit oneindig veel observaties en klassen. Het is nooit de werkelijkheid, maar een benadering van wat er in een populatie gebeurt. Een dichtheidscurve is een wiskundige benadering van de werkelijkheid en worden gebruikt om populaties te beschrijven. De totale oppervlakte onder de curve is 1 ofwel 100%. De oppervlakte onder de curve is een percentage van de populatie. De oppervlakte is makkelijker in te schatten bij symmetrische verdelingen.

Hoe bepaal je of een observatie bijzonder is?

Bekijk de oppervlakte van de staaf waarin de observatie valt. Hoe langer het staafje, hoe groter de oppervlakte.
Bekijk ook de oppervlakte van de andere staven (hoeveel personen scoren hoger of lager).
Druk de oppervlakte uit in proporties/percentages. Dan heb je de kans dat je bijvoorbeeld iemand van 1.81m of groter vindt.

Van dichtheidscurven met een specifieke vorm zijn de percentages bekend. Deze staan in tabellen weergeven.

Dichtheidscurven: centrummaten, eigenschappen

Het gemiddelde in de verdeling is de balanspunt. Dit komt niet doordat er aan beide kanten evenveel oppervlakte is. De modus is de top/piek van de verdeling en de mediaan is het midden van de verdeling. 50% van de waarnemingen ligt links en 50% ligt rechts. Bij een symmetrische verdeling is de mediaan gelijk aan het gemiddelde. Bij een groot verschil tussen de mediaan en het gemiddelde is er sprake van een scheve verdeling. Het gemiddelde trekt naar de staart van de verdeling, omdat deze maat gevoelig is voor extreme waarnemingen(uitbijters).

Normaalverdeling

We hebben een specifieke dichtheidscurve die we vaak gebruiken, namelijk de

normaalverdeling. Het eerste kenmerk: deze is symmetrisch. Het tweede kenmerk: klokvormig en het derde kenmerk: unimodaal. Dit is een theoretische dichtheidscurve en wiskundig model waarin we populaties zo goed mogelijk proberen te beschrijven. De vorm van de verdeling wordt bepaald door het gemiddelde µ (mu) en spreiding σ (sigma). Waarom hier mu? Een normaal verdeling beschrijft een populatie. Het gemiddelde geeft dus aan dat het niet om een steek Romeinse letters vaak steekproefwaarden en Griekse populatie.

Let op:

Wanneer we spreken over een steekproef gebruiken we Romeins schrift. De standaarddeviatie druk je uit in ‘s’. Het gemiddelde druk je uit in de ‘x’ met het streepje er boven (x-bar). Wanneer we spreken over de populatie gebruiken we Griekse symbolen. Standaarddeviatie druk je uit in sigma ‘σ’. Het gemiddelde druk je uit in mu ‘µ’.

Voordelen normaal verdeling

Benadert veel natuurlijke processen.
Makkelijk reken, basis voor veel statistiek. Veel toetsen gaan er vanuit dat bepaalde variabelen normaal verdeeld zijn. Heel veel natuurlijke variabelen zoals lengte zijn dan ook redelijk goed benaderd door een normaalverdeling, maar ook veel variabelen zijn duidelijk niet normaal verdeeld, zoals inkomen.

Let op: De kans dat iemand precies een lichaamslengte van 1.70 heeft is 0, door de oneindigheid van lengte. Bij een continue verdeling kan je dus niet zeggen wat de kans is dat je iemand van 1.70m trekt. Wel kan je zeggen wat de kans is dat je een persoon van 1.70 of kleiner trekt.

Normaalverdeling vuistregel

Je hebt een vuistregel die de 68-95-99,7 regel wordt genoemd. Dit verwijst naar het aantal standaarddeviaties dat je kan afwijken van het gemiddelde bij een normaalverdeling.

68% van de scores ligt binnen 1 σ vanaf µ.
95% van de scores liggen binnen 2 σ vanaf µ (-1.96 tot 1.96).
99,7% van de scores liggen binnen 3 σ vanaf µ.

Standaardnormaalverdeling

Het gemiddelde van een standaardnormaalverdeling is altijd nul en een standaarddeviatie van 1. De precieze percentages onder de curve staan in tabel A (More and McCabe). Er is geen enkele variabele die zo verdeeld is. We gebruiken de standaardnormaalverdeling om te bepalen wat de relatieve positie is van een individuele waarneming en voor het vergelijken van waarnemingen uit verschillende groepen/variabelen.

Standaardnormaalverdeling: z-scores

Door een simpel trucje kan iedere normaalverdeling kan worden omgezet in standaardnormaalverdeling. Dit doe je door:

Van iedere score het gemiddelde af te trekken.
Vervolgens door de standaarddeviatie te delen.

De formule luidt: z = x_i – μ / σ.

Voorbeeld: De gemiddelde leesvaardigheidsscore in groep 4 is 35 met een standaarddeviatie van 5. Peter scoort 30 punten op de test. Hier komt de volgende berekening uit: z= (40-35)/5 = 1. Deze standaard score wordt ook wel een z-score genoemd en is het aantal standaarddeviaties dat een observatie afwijkt van het gemiddelde. In het voorbeeld wijkt Peter dus 1 standaarddeviatie af van het gemiddelde 35. De z-score van Peter is 1. De standaardnormaalverdeling is de verdeling van z-scores van een normaal verdeelde variabele. Scores uit een niet-normale verdeling kunnen omgezet worden in z-scores, maar deze zijn niet standaardnormaal verdeeld.

Let op: Een standaardnormaalverdeling is een normaalverdeling, maar een normaalverdeling is geen standaardnormaalverdeling. Één normaal verdeling zet je dus om naar een standaardnormaalverdeling door het berekenen van z-scores, maar het omzetten van een niet-normaalverdeling naar een standaardnormaalverdeling is onmogelijk. Je hebt dus niks aan een z-score als iets niet normaal verdeeld is, want je kan geen kans opzoeken in de tabel.

Rekenen met z-scores

Toepassingen: mensen uit verschillende populaties onderling met elkaar vergelijken. Scores van één persoon op verschillende variabelen met elkaar vergelijken.
Score geef je aan met x dat zet je om in z en daar hoort kans p bij. Hoeveel procent van de personen scoort beter/slechter dan de gegeven waarden of tussen twee gegeven waarden.
Andersom kan ook: op/onder welke waarde scoort een gegeven percentage van de personen.

Rekenen met z-scores: appels en peren

Je kan dus personen uit verschillende groepen met elkaar vergelijken. Je kan je afvragen wie op een bepaalde variabele relatief het best heeft gescoord. In dit geval reken je beide scores om naar z-scores en ga je vergelijken.

Bijvoorbeeld:

Een leesvaardigheidstest is bij benadering normaal verdeeld.

Gemiddelde groep 3 = 15, SD = 3.
Gemiddelde groep 4 = 20, SD = 2.

Jonas zit in groep 3 en scoort 17 punten. Marije zit in groep 4 en scoort 22 punten. In één oogopslag zou je kunnen zeggen dat Marije hoger heeft gescoord omdat zijn 22 punten heeft (absoluut). Maar Marije zit natuurlijke ook een groep hoger dan Jonas. Wanneer we willen bekijken hoe ten opzichte van het gemiddelde van zijn of haar eigen groep is gescoord gebruiken we dus de z-score (relatief).

Jonas: x_i = 17, μ = 15, σ = 3 .

z = x_i – μ / σ = 17-15/3 = 2/3 = 0.67.

Marije: x_i = 22, μ = 20, σ = 2.

z = x_i – μ / σ = (22-20)/2 = 2/2 = 1.

Jonas zijn score ligt 0.67 standaarddeviaties boven het gemiddelde in zijn groep. Marije haar score ligt 1 standaarddeviatie boven het gemiddelde in haar groep. Marije scoort dus absoluut en relatief gezien het hoogst. Op deze manier kan je dus goed mensen met verschillende niveaus met elkaar vergelijken, omdat je met de z-scores kan zien hoe ze het relatief gezien doen.

Stappenplan groter/kleiner/tussen

Formuleer het probleem precies.
Maak een tekening.
Arceer het gebied.
Bereken z-scores van de gegeven x-waarde.
Zoek de proporties op in tabel a

A. bij kleiner dan (links): je bent klaar
B. Bij groter dan (rechts): trek proportie van 1 af
C. Bij tussen: trek proportie bij ondergrens af van proportie bij bovengrens (altijd kleinste van grootste aftrekken.

Voorbeeld:

Cholesterolgehalte bij 14-jarige jongens is bij benadering normaal verdeeld, met een gemiddelde van 170 en een standaarddeviatie van 30. Hoeveel procent van de 14-jarige jongens heeft een cholesterolgehalte tussen de 170 en de 240?

Formuleer het probleem: zie hier boven.
Maak een tekening: zie dia 28.
Arceer het gebied: die dia 28.

Bereken: Z1 = 240 – 170/ 30 = 2.33 en Z2 = 170 – 170/ 30 = 0.
Zoek de bijbehorende p-waarde op in Tabel a. en trek de gevonden p-waarden van elkaar af.

Wat nu als gevraagd wordt om een proportie rechts van (boven) een bepaalde score te vinden. Dan neem je de proportie links van de z-score behorende bij de gegeven score en trek je die af van 1. Bijvoorbeeld: bij een z-waarde van 1.43 is p = 1 – 0.9236 = 0.0764. De kans op die score of hoger is dan 7.6%.

Rekenen vanaf P stappenplan

Formuleer het probleem precies.
Maak een tekening.
Schets de gegeven proportie in de tekening =p.
Zoek de bijbehorende z-score op in de tabel a.

Let op: Als p rechts in de verdeling ligt, moet je zoeken bij 1-p in de tabel (alleen

gebieden links van zet in tabel A.

Reken Z om naar een x-waarde (x = z* σ+ µ).

De stof over het normaal-kwantielplot moet je door een gebrek aan tijd in het college zelf behandelen! De volgende tekst komt direct uit de collegesheets en is niet besproken in het college.

Een voorwaarde voor rekenen met z-scores is een bij benadering normaalverdeling in de populatie. De enige manier om dit te controleren is door te kijken naar de verdeling in de steekproef. Een manier om in een steekproef de normaalverdeling te controleren is door middel van een normaal-kwantielplot.

Om een normaal-kwantielplot te tekenen volg je de volgende stappen:

Sorteer de observaties
Bereken de percentielscores voor iedere x-waarde
Zoek de bijbehorende z-scores die horen bij de berekende percentielen ( dus x > p > z).
Plot iedere x-waarde tegen de bijbehorende z-score.

Wanneer het plot een rechte lijn vertoont is het normaal verdeeld. Het is standaardnormaal verdeeld bij en rechte lijn op 45 graden.

College 6: Correlatie

Correlatie

Correlatie en regressie gaan over relaties tussen twee variabelen in een steekproef.

Het doel van correlationeel onderzoek is voorspellen. Op basis van één variabele wil je kijken of je ook iets over een andere variabele kunt zeggen. Bepaalde waarden van de ene variabele gaan vaker samen met bepaalde waarden van de andere variabele dan met andere waarden van die variabele (lengte & gewicht, sensitiviteit & gehechtheid, religie & mening over abortus). Een voorbeeld: wanneer je weet dat een persoon 1.80 meter is, weet je dat die persoon geen 20 kilo weegt omdat over het algemeen langere mensen zwaarder zijn. Wanneer twee variabelen samen voorkomen wil dat niet zeggen dat het één het ander altijd veroorzaakt. Vaak is de richting van een verband niet makkelijk te achterhalen. Soms hebben twee samenhangende variabelen inhoudelijk zelfs niets met elkaar te maken. Inhoudelijk vorm geven doe je met theorie.
Let op: deze opmerking gaat op in groepsniveau. Alles wat we bespreken in dit college gaat over groepen en niet over individuen.

Relaties zijn nooit perfect, maar vaak zwak en complex in de sociale wetenschap. Kijk bijvoorbeeld naar het schema van Bronfenbrenner. Hier is duidelijk te zien hoeveel factoren een kind beïnvloeden. Relaties moeten dus beoordeeld worden in hun context. Vandaag bespreken we de spreiding van punten rond de lijn. Die geven de sterkte van een relatie aan. Volgend college bespreken we de lijn.
Er zijn verschillende typen relaties.

Numeriek - numeriek: bijvoorbeeld lengte en gewicht.
Numeriek - categorisch: Bijvoorbeeld sensitiviteit en gehechtheid.
Categorisch – categorisch: Bijvoorbeeld religie en mening over abortus.

Relaties kunnen tussen twee numerieke (bv. lengte en gewicht) variabelen, tussen een numerieke en een categorische variabele(bv. sensitiviteit en gehechtheid) en tussen twee categorische variabelen (bv. religie en mening over abortus) zijn. Bij correlatie en regressie kijken we alleen naar de relatie tussen twee numerieke variabelen .

Relaties in sociale wetenschappen

De relaties die we vinden zijn vaak ook niet sterk. Vaak zijn er andere dingen die invloed hebben op je verband. Er zijn vaak meer dan twee variabelen bij betrokken. Als je naar twee variabelen kijkt heb je vaak een hoop onverklaarde variantie over. Belangrijk daarbij is dat je het in context moet zien. Zo zijn ze in de natuurkunde pas tevreden bij 100% verklaarde variantie. In de sociale wetenschappen zijn we al eerder tevreden.

Stel: In de onderbouw van de basisschool geldt dat de gemiddelde leeftijd 96 maanden is en de gemiddelde leeftijdsscore 50. Hoe hoog schat je dan de leesvaardigheidsscore van een willekeurig kind van 84 maanden zonder informatie over de relatie tussen leeftijd en leesvaardigheid. De schatting die je het best kan doen is 50. Je kan niet zomaar aannemen dat het kind onder het gemiddelde zit, omdat het jonger is. Normaliter maak je gebruik van kennis die je hebt over relaties tussen twee dingen, zoals de relatie van het verband. Als je dit niet kan doen kan je beter uit gaan van het gemiddelde.

Doel correlatie en regressie

Het doel van de correlatie en regressie is informatie geven over de relatie en een voorspelling doen van score y op basis van een score op x. De spreiding van punten op de regressielijn geeft aan hoe groot de spreiding is. Hoe dichter de

punten bij de lijn, hoe sterker de relatie. Correlatie gaat over de relatie, regressie gaat over de lijn.

Predictor en respons

Twee typen variabelen:

Een predictor is onafhankelijk, de bron, de oorzaak, verklaring en een voorspeller, hiervan verwacht je dat het de oorzaak is. Ook wel de onafhankelijke variabele.
Een respons is afhankelijk, gevolg, uitkomst. Ook wel de afhankelijke variabele.

Twee typen samenhang:

Bij een symmetrische samenhang is er geen onderscheid tussen de predictor en de respons (beiden hebben dezelfde rol). Je weet niks over de richting. Het gaat niet om hoe de één de ander beïnvloed. (opname) Een correatiecofficient is in principe altijd theoretisch.
Bij een asymmetrische samenhang is er wel onderscheid tussen de predictor en respons (de ene is de oorzaak, de andere is het gevolg, bv.: IQ en inkomen, het inkomen kan hoger worden wanneer je IQ hoger is maar andersom kan het niet). Je gaat uit van één oorzaak en één gevolg er is richting.

Correlatie: predictor/respons

In berekeningen: symmetrisch verband. Je hebt het over symmetrische benaderingen, omdat de correlatie berekening ook symmetrisch is, wat je x of y noemt maakt niet uit. Je hebt geen oorzaak, gevolg.

Conceptueel/ theoretisch: het is mogelijk dat je correlatie berekent voor asymmetrisch verbanden. De correlatie zegt echter alleen dat er een samenhang is, niet of het een het ander veroorzaakt.
Causaliteit: waar je erg op moet letten is dat je op basis van de analyse die je doet nooit kan zeggen dat je een causale conclusie mag trekken. Alleen echte causaliteit in een experimentele onderzoeksopzet (controle derde variabelen).

De opzet van je onderzoek is bepalend over de conclusie die je kan trekken.

Scatterplot

In een scatterplot zet je de waarde van de ene variabele, af tegen de andere variabele. Als je gaat rekenen met correlaties moet je eerst kijken naar je gegevens. Hoe zien de data er uit? De beste manier om dit te doen als je twee numerieke variabelen hebt is een scatterplot maken. Een scatterplot is een plot met punten. De waarden van de variabele x staan op de x-as. Dit is de oorzaak (de predictor). De waarden van variabele y staan op de y-as. Dit is het gevolg (de respons). Elk punt is een combinatie van een waarde op x en een waarde op y. Het scatterplot geeft inzicht in de oorzaak, richting en sterkte van het verband.

Vorm: Is het lineair of niet lineair. Als het niet lineair is heeft een correlatie bereken niet veel nut, dit zal niet veel zeggen. De punten in het scatterplot moeten kunnen worden benaderd door een rechte lijn, veel spreiding is niet erg, maar als je er een rechte lijn doorheen trekt moet het overal ongeveer evenveel breed zijn. Een uitbijter moet normaal meer dan 1,5 interkwartiel afwijken van Q1 naar beneden of Q3 naar boven. Hier is een uitbijter wat anders: een waarneming die in de combinatie van 2 scores een gek patroon laat zien.
Richting: Wanneer een lijn stijgend is, is de richting positief. Dit betekent dat als er bijvoorbeeld een hogere waarde op x is er ook een hogere waarde op y is. Een lijn kan ook negatief, dus dalend zijn (een hogere waarde op x is een lagere waarde op y)
Sterkte: De sterkte kan je niet zien aan het plaatje van het scatterplot, omdat door verschillende schalingmanieren de punten sterker of dichter bij elkaar kunnen liggen. De kwalificatie is afhankelijk van de context. De maat waarmee we de samenhang meten is de correlatiecoëfficiënt. ‘

Soms kun je de relatie tussen twee variabelen alleen begrijpen als je de derde variabele erbij neemt. (bv.: hoe meer brandweermannen bij een brand, hoe groter de schade. Wat is de verklaring hiervoor? Derde variabele is de grootte van de brand, klein, middel of groot.)

Correlatiecoëfficiënt

De correlatiecoëfficiënt wordt aangeduid met Pearson’s R. Dit is een indicatie voor de sterkte van de samenhang. De correlatiecoëfficiënt ligt altijd tussen de -1 en 1. Wanneer hij dicht bij de -1 of 1 zit is er een sterke relatie, de punten benaderen een rechte lijn. Wanneer hij dicht bij de 0 zit, is er een zwakke relatie, de punten benaderen een cirkel. Bij precies 0 is er geen enkel verband. -1, 0 en 1 komen vrijwel nooit voor.

R: eigenschappen

Alleen zinvol bij lineaire relaties.
Het gaat over symmetrische verbanden: het maakt niet uit wat je x en y noemt.
Het gaat over 2 numerieke variabelen.
De interpretatie van correlatiecoëfficiënt is belangrijk, je hebt het altijd over relatieve hoogtes van scores.
Het correlatiecoëfficiënt is ongevoelig voor schaling.
Gevoelig voor uitbijters: wanneer er waardes opduiken die afwijken van het patroon van de rest zal dit invloed hebben. Met uitbijters moet je oppassen, ze kunnen het beeld verteken. Kijk naar het scatterplot!

Correlatiecoëfficiënt berekenen

Berekening:

Reken z-scores uit per individu voor x en y.Vermenigvuldig de z-scores per individu.

Uitkomsten bij elkaar optellen.Deel het resultaat door n-1.

Haken en ogen aan correlatie

Bij een correlatie kun je alleen gebruik maken van numerieke variabelen, deze kun je ordenen en hebben een volgorde. Nominale variabelen kunnen dit niet (bijvoorbeeld de variabele 'sterrenbeeld'. Hier is geen duidelijke ordening). Een alternatief is kijken naar rug aan rug stemplots en zij aan zij boxplots. Ook kun je geen uitspraak doen over de hoogte van scores. Correlatie zegt iets over de relatieve hoogte van scores.

Geen uitspraken over gemiddelde scores: gemiddelden variëren altijd minder dan losse scores. R op gemiddelde is naar boven vertekend. In principe kan je geen causale uitspraken doen, omdat je geen controle over externe variabelen hebt.

Onbetrouwbare meetinstrumenten zijn meetfouten die zorgen voor meer variantie dan in ware score, de geobserveerde correlatie wordt lager dan de ware correlatie. Het generaliseren naar de populatie is gevaarlijk wanneer je maar weinig observaties, een niet-representatieve steekproef en/of ongeloofwaardige verbanden hebt. Je kunt dus alleen iets zeggen over relatieve hoogtes en niet over de absolute hoogtes.

College 7: Regressie

Regressie

We blijven bezig dit college bezig met relaties tussen twee numeriek variabele, maar we gaan de asymmetrische kant bekijken. We gaan de ene variabele proberen te voorspellen op basis van de ander. Je moet een afhankelijke en een onafhankelijke variabele aanwijzen. Het heeft te maken met het doel van voorspellen. Voorspellen is een stap op weg naar verklaren van dingen. De correlatie geeft aan hoe sterk het verband is. Vorige keer hebben we de verspreiding van de punten in een scatterplot besproken. Vandaag gaan we ons bezig houden met de lijn in een scatterplot. Deze lijn noemen we de regressielijn. Wanneer we willen voorspellen hebben we een onderscheid nodig tussen een uitkomst (respons) en voorspellen (predictor). Je gaat proberen om de relatie te vangen met een rechte lijn. Dit is alleen zinvol bij een lineaire relatie. Bij een perfecte
voorspelling staan alle punten op de lijn, maar in de sociale wetenschappen hebben we nooit een perfecte voorspelling.

Stappenplan

Wanneer we een regressielijn maken gebruiken we het volgende stappenplan:

Bij het beschrijven van een relatie ga je eerst het scatterplot bekijken (vorm, uitbijters, lineaire relatie?). Wanneer je dit niet doet kan je fouten maken en onzinnige uitspraken doen over je data.
Als je ziet dat je een lineaire relatie hebt bepaal je hoe sterk de relatie is met de correlatiecoëfficiënt (r) of de verklaarde variantie (r2).
Als je dat gedaan hebt ga je aan de slag met de regressielijn. De regressielijn is de beste passende lijn door een puntenwolk. Je kan de vergelijking uitrekenen, als je deze hebt kun je de lijn tekenen. Er is maar één regressielijn voor elk scatterplot.

De best passende lijn door een scatterplot, is de lijn met zo min mogelijk error over de hele range van x waarden. Error is het verschil tussen wat voor waarde je hebt gevonden voor iemand op y en de voorspelling die je zou doen voor die persoon op basis van een regressielijn. Je maakt dus zo min mogelijk fouten. Die fouten noem je error of residu. Dus het verschil tussen wat je gevonden hebt en wat je voorspelt. De error noem je ook wel het residu. Hoe groot een error is bereken je door de geobserveerde waarde - de voorspelling. Error is positief als de geobserveerde waarde hoger is dan de voorspelling. Een error is negatief als de geobserveerde waarde lager is dan de voorspelling. In het boek wordt het vaak de least squares regression line genoemd, dus het is de lijn met de kleinste gekwadrateerde error. We nemen de gekwadrateerde error omdat anders de positieve uitkomsten de negatieve opheffen en andersom.

Regressievergelijking

We willen een manier om de lijn te beschrijven, die doen we met een regressievergelijking. Een rechte lijn valt altijd te beschrijven met een formule: y = a + bx

‘a’ betekend hier intercept. Dit is de waarde op de lijn van y op het moment dat x gelijk is aan 0. ‘b’ staat voor de helling en hoe schuin de lijn is. Als ik 1 opschuif op x, hoeveel ga ik dan omhoog of naar beneden op y. In het voorbeeld op dia 12 is a = 4 en b = 2. De formule is dus 4 + 2x. Let op: ‘a’ valt niet altijd af te lezen. 0 staat namelijk niet altijd weergeven.

De vorm van een regressievergelijking is hetzelfde als die van een rechte lijn, de notatie is anders.

Formules van een regressievergelijking

rechte lijn: y = a + bx
voorspelde waarde voor y (regressielijn): ŷ = b₀+ b₁x

Voor de formules van een regressievergelijking met

ŷ = voorspelde waarde van y (dus niet de geobserveerde waarde)
b₀ = intercept
b₁x= regressiegewicht

In alle literatuur gebruiken we b’tjes voor de regressielijn

geobserveerde waarde: y₁ = b₀+ b₁x_i+ e_i
residu = error = e₁ = y_{1 -}ŷ
regressiecoëfficiënt/ helling: b₁= r * ( s_y/ s_x )
Correlatiecoëfficiënt x de standaarddeviatie van y / standaarddeviatie van x
intercept: b₀ = ȳ - b₁x̄
gemiddelde y – b₁x gemiddelde x

Regressievergelijking voorbeeld (dia 15)

Gegevens:

r = 0.74 (sterk verband)
x = 7.0 deeltoets a
y = 6.0 deeltoets b
s_x = 1.43
s_y= 1.58

De predictor in dit voorbeeld is deeltoets a, deze gaat vooraf aan deeltoets b in de tijd.

Berekening:

b₁ = 0.74 * (1.58 / 1.43) = 0.82

b₀ = 6.0 - 0.82 * 7 = 0.26

ŷ = 0.26 + 0.74x

Als het cijfer op deeltoets a met 1 punt toeneemt, neemt het voorspelde cijfer op deeltoets b met 0.82 toe. Als een student op deeltoets a een 8 heeft gehaald, haalt deze student op deeltoets b waarschijnlijk een (0.26 + 0.74 x 8) = 6.18.

Kenmerken regressie

De regressielijn loopt altijd door het punt (x̄, ȳ)
Het intercept is niet altijd af te lezen uit het plot (de x-as loopt niet altijd tot 0).
Teken r en b₁ met een - of + geven de richting van de relatie aan. Is de één positief, dan is de andere dit ook en andersom.
r² gebruiken voor de sterkte van de relatie
b₁ geeft de steilheid van de lijn aan, niet de sterkte van de relatie. b₁ is afhankelijk van de sd van x en y. Als deze ver uit elkaar liggen (y heel groot en x heel klein, wordt het een groot getal).
Wanneer r 0 is, dan is b₁ook 0. Als dit zo is, is er geen relatie.

De stijlheid van de regressielijn is afhankelijk van de schaal van x en y. Om de lijn te tekenen kun je gewoon voorspelde waarden voor twee x-waarden bereken. Het is handig om de gemiddelde x en y te nemen als eerste punt en x=0 (intercept) als tweede punt. De lijn kun je dan door die twee punten tekenen. De voorspelling is echter niet perfect. Op individueel niveau zit de (groeps)voorspelling er altijd naast.

Verklaarde variantie

Hoe meer fouten je maakt, hoe onnauwkeuriger je voorspeller. Dat kan je uitdrukken in verklaarde variantie. De verklaarde variantie (r²) is een maat voor succes voor de voorspelling en wordt afgeleid van het correlatiecoëfficiënt en wordt berekend door r te kwadrateren. Bij een perfect verband is r² = 1 = 100%. Dit kun je interpreteren als percentage. Met de verklaarde variantie kijk je hoe goed je met de voorspelde x de voorspelde y kan weten. Je wil verschillen/variaties in scores verklaren. De verklaarde variantie (r²) is de proportie variantie in y die verklaard kan worden door de voorspelling uit x. het gaat erom dat je kan verklaren waarom y niet voor iedereen hetzelfde is. Hieruit kun je het succes van de voorspelling afleiden. De waarde ligt altijd tussen de 0 en de 1 of 0% en 100%. Hoe hoger het percentage, hoe perfecter het verband. Wanneer er veel spreiding is, ligt de waarde dicht bij de 0.

Wanneer er weinig spreiding is, is de verklaarde variantie dichtbij 1. Hoe meer de geobserveerde punten bij de voorspelde punten liggen, hoe hoger de verklaarde variantie. Dus hoe dichterbij de regressielijn, hoe nauwkeuriger de voorspelling, ook al is de lijn niet steil kan er toch een hoge correlatie zijn.

Perfecte voorspelling:

Bij een perfecte voorspelling is r² = 1.
Variantie voorspelde waarden = s²_ŷ
Variantie geobserveerde waarden = s²_y

Bij een perfecte voorspelling liggen de punten exact op regressielijn dus: s²_ŷ= s²_y

Verklaarde variantie = s²_ŷ/ s²_y= 1

Niet perfecte voorspelling:

Bij een niet perfecte voorspelling liggen de punten verspreid rond de lijn dus: s²_ŷ< s²_y

Deze formules zijn voor begrip en niet voor berekening!

Haken en ogen

Een regressie heeft dezelfde haken en ogen als een correlatie.

We hebben het over lineaire verbanden, doormiddel van een residuenplot kan je kijken naar de lineairiteit. Een residuenplot geeft de error weer. Het is een plaatje van alle afwijkingen van de regressielijn. Het gemiddelde is 0. De x-as is de predictor en de y-as het residu.
Uitbijters en invloedrijke observaties: kijk naar het scatterplot en kijk of er observaties buiten het patroon vallen. Sommige uitbijters zijn invloedrijk, andere bevestigen de regressielijn en zijn minder invloedrijk. Dia 34: A beïnvloedt de regressielijn het meest, het trekt de lijn naar beneden, terwijl b juist op de lijn ligt en de lop van de regressielijn niet verandert. Het verhoogt wel de verklaarde variantie.
Extrapolatie: uitspraken over relaties buiten de range van geobserveerde gegevens
Restricted range probleem: Het restricted range probleem is de onvolledige dekking van het domein. Dit leidt tot een lagere correlatie. Dit kan komen door bijvoorbeeld te weinig informatie of een niet representatieve steekproef. Hier kan je relaties door missen.

Praktijk van correlatie en regressie

Correlatie en regressie worden vaak samen gebruikt. De correlatie geeft de sterkte van het verband, regressie doet de voorspelling. We gebruiken alleen lineaire verbanden en numerieke variabelen.

College 8: Sampling/ steekproeftrekken

M&M pp. 159-161, 3.2, IRM pp. 111-128

Deel 1: Introductie sampling

Steekproeftrekken is iets wat veel te weinig besproken wordt. Steekproeftrekken is een belangrijk onderwerp omdat het bereiken van representativiteit belangrijk is. Je kan geen conclusies trekken als je steekproef niet goed is. Sampling is het selecteren van subjecten uit de populatie waarvan je iets te weten wilt komen. De populatie zijn alle individuen (subjecten) waar je een uitspraak over wilt doen. Subjecten kunnen kinderen, ouders, organisaties, scholen enzovoort zijn. De populatie hangt af van je onderzoeksvraag. De steekproef is het deel van de populatie dat je werkelijk gaat onderzoeken. Het steekproefkader is een lijst van de populatie die je gebruikt om je steekproef te trekken, zoals een register of telefoonlijst. Sample design is de methode die je gebruikt om tot een steekproef te komen. De manier waarop je die steekproef trekt noem je de steekproefmethode.

Representativiteit

Er zijn een aantal redenen waarom je niet de hele populatie onderzoekt. Qua tijd, geld en bereikbaarheid is het niet (altijd) mogelijk. Daarnaast is het de vraag of het wel nauwkeurig is. Je krijgt nooit 100% van je populatie te pakken, want er zijn bijvoorbeeld altijd mensen die uitvallen. Wanneer die mensen juist verschillen van de grote groep, krijg je bias. Het is ook niet nodig omdat er technieken bestaan die de resultaten uit de steekproef kunnen generaliseren naar de populatie. Daarbij is het belangrijk dat de steekproef representatief is voor de populatie. De manier van steekproeftrekken is van belang. Je wilt dezelfde variatie van de populatie in je steekproef. Als je een uitspraak wilt doen over de populatie waarbij alle waarden van SES voorkomen, moet dit ook in de steekproef terug te vinden zijn. Als je bijvoorbeeld alleen mensen met een hoge SES in je steekproef hebt, ontstaat er een bias. Je kan dan alleen een uitspraak doen over mensen met een hoge SES. Er zijn manieren waarop je kan toetsen of je steekproef representatief is.

Oorzaken van bias: een verkeerde sampling methode, onderdekking (undercoverage) en non response. Bij onderdekking kan je een essentieel deel van je populatie missen. Als je bijvoorbeeld een mening van alle Leidse studenten wilt hebben, maar je gebruikt een lijst van alle studentenvereniging als kader, dan kunnen de studenten die niet lid zijn bij een studentenvereniging niet tot de steekproef behoren. Je verschuift zo je populatie. Bij non respons is er sprake van geselecteerde mensen die niet mee willen of kunnen doen. Als je bijvoorbeeld een uitspraak wilt doen over in welke mate ouders bezig zijn met de opvoeding zullen er ouders zijn die niet mee willen doen omdat ze weinig aan de opvoeding doen. Maar wat daar aan ten grondslag ligt is: hoe ga je je steekproef trekken? Er zijn verschillende samples.

Soorten samples

Volgens Leary zijn er non-probability en probability samples. Bij non-probability is de kans dat een subject uit de populatie in de steekproef komt niet bekend. Je selecteert op beschikbaarheid, geschiktheid en niet op basis van kans. Een probability sample is wel op basis van kans. er is wel bekend wie er mee doen. Er zijn vier soorten sampels:

Voluntary response sample is een steekproef die tot stand komt door de vrijwillige

keuze van individuen om mee te doen. De steekproef is bijvoorbeeld op basis van oproep. In de collegezaal werd opgeroepen dat studenten hun mening konden geven over het vorige tentamen. Mensen met een sterke (negatieve) mening laten zich eerder horen, dan mensen die neutraler denken. Daarnaast zijn er mensen die niet durven en is er geen anonimiteit. Ook reageer je op elkaar, omdat je ook niet hetzelfde wilt zeggen als iemand voor jou. Nadelig hieraan is dus dat vaak alleen extremen meedoen en niet de mensen die in het midden hangen, waardoor je een grote groep in je steekproef mist. Denk goed na over wat voor mensen er juist op zo’n oproep reageren.

Convenience sample is een gelegenheidsproef van respondenten die makkelijk te bereiken zijn. In praktijk zou je bijvoorbeeld alleen de mensen nemen die het dichtstbij je staan. Zo kan je bijvoorbeeld de eerste twintig mensen ondervragen die uit een trein stappen. Tijdens het college werd dezelfde vraag over het tentamen gesteld aan twaalf studenten die vooraan zaten. Het kan zo zijn dat studenten die het tentamen moeilijk vonden vooraan zitten en zo krijg je een vertekend beeld en een grote bias.
Quota sampling is een gelegenheidsproef waarbij a priori (van tevoren) vastgesteld wordt hoeveel respondenten met een bepaald attribuut nodig zijn. Het is een convenience sample maar dan met extra eisen. Zo kan je van tevoren zeggen dat je een sample wilt met respondenten uit verschillende leeftijdscategorieën. Als je dan alleen jonge mensen uit een trein ziet stappen zou je een deel missen. Je kunt vooraf stellen dat je tien mensen onder de 50 jaar wilt en tien mensen boven de 50 jaar. Als je dan al tien mensen onder de 50 jaar hebt gehad is nummer elf niet meer nodig. Een nadeel is omdat het zo weinig mensen zijn die je ondervraagt, dat één afwijkende mening een groot verschil maakt in je onderzoek.
Purposive sampling is een doelbewuste steekproef. Dit wordt vaak gebruikt in kwalitatief onderzoek. Een onderzoeker kiest dan respondenten uit op basis van zijn of haar eigen oordeel. De onderzoeker kijkt naar welke mensen hij of zij in geïnteresseerd is. Hierbij is het van belang dat je als onderzoeker professioneel bent en inzicht hebt om dit op een goede manier te doen. Met deze sampling kun je een goede steekproef pakken, maar niet goed generaliseren naar de populatie. Het is dus niet representatief, maar kan wel nuttig zijn als je alleen iets over je steekproef wil zeggen.

Dit waren de non-propability samples.

Bij probability is de kans dat een subject uit de populatie in de steekproef komt wel bekend. Er zijn drie soorten:

Simple random sample (SRS) is een enkelvoudige aselecte steekproef. Steekgroep van een bepaalde grote. Het gaat verder dan de individuele kans, ook de kans van groepssamenstelling is gelijk. Er worden random mensen uit de populatie getrokken, waarbij alle mogelijke combinaties een even grote kans hebben om voor te komen. Het wordt dus random getrokken en het wordt gezien als een ideale situatie bij kwantitatief onderzoek, die bijna nooit lukt. Bijna in elke statistische methode staat: ‘We nemen een SRS’, dus dit is belangrijk om te weten. Een steekproef is nooit exact wat een hele populatie zou antwoorden, maar er zijn manieren om dit zo betrouwbaar mogelijk te maken.
Stratified random sample (gestratificeerde steekproef). De populatie wordt in groepen inidividuen ingedeeld die binnen de groep vergelijkbaar zijn (strata). Je verdeelt de populatie dus in strata met een bepaalde variabele kenmerken. Je trekt dan uit ieder stratum een SRS. Je zorgt op deze manier voor variatie in de steekproef, omdat alle strata vertegenwoordig zullen zijn. Je kunt je sample nauwkeuriger samenstellen. Tijdens het college werd de woonsituatie van de aanwezige studenten als stratum genomen. Je kiest bijvoorbeeld de groepen thuiswonend, alleenwonend, samenwonend en uit alle drie de groepen pak je een aantal mensen die uiteindelijk in de steekproef komen. Zo weet je dat elke variabele even vertegenwoordigd is. Bij proporitionele sampeling neem je ook de proportie van de strata mee in hoeveel personen je uit elk stratum haalt.
Cluster sample (multistage-sampling). Hierbij selecteer je groepen (vaak geografisch), zodat je individuen efficiënter kan benaderen. Allereerst verdeel je de populatie in logische/ praktische groepen en vervolgens kies je willekeurig een aantal groepen. Een groep wordt een cluster genoemd. Je kan dan nog binnen iedere groep een SRS kiezen (oftewel aselecte steekproef). Je kan aan de hand van de variabelen geboorteplaats, school enzovoorts een cluster samenstellen. Hoe meer random, hoe beter.

Het verschil tussen een cluster en een gestratificeerde steekproef is dat je bij een cluster steekproef hoopt op een heterogene groep. Op de belangrijke kenmerken verschillen deze mensen nog steeds. Bij een gestratificeerde steekproef kies je uit elk stratum een aantal mensen. De groep wordt homogeen.

Voordelen van een probability sample is dat er minder sampling error is en je kan beter redeneren van sample naar populatie (oftewel statistische inferentie). Een steekproef zal zelden of nooit een exacte representatie van de populatie zijn. Deze afwijking is niet erg. Je kan inschatten hoever de schatting afwijkt van de werkelijke waarde in de populatie door statistische interferentie. Dit wordt gedaan met behulp van een foutenmarge (bandbreedte). Het gemiddelde kan bijvoorbeeld 40 zijn op een leesvaardigheidstoets. De bandbreedte kan twee zijn, waardoor de foutenmarge tussen de 38 tot 42 ligt. Dit geeft een indicatie van de mate waarin de gegevens van de steekproef naar verwachting afwijken van de gegevens van de hele populatie. De foutenmarge is afhankelijk van de steekproefgrootte. Als er een steeproef van 170 mensen uit een populatie van 180 mensen wordt getrokken ligt het gemiddelde dichtbij. Maar als de steekproef tien is, zal het gemiddelde meer variëren. Als er minder zekerheid is zal de bandbreedte groter worden en minder nauwkeurig zijn. De foutenmarge is ook afhankelijk van de variantie van de data. Als de steekproef heel dicht bij elkaar ligt kun je nauwkeuriger inschatten dan bij veel verschillende data. Foutenmarge is ook afhankelijk van steekproefgrote. Hoe groter de steekproef, hoe kleiner de foutenmarge. Non-probebility kan ook voor kwalitatief goed zijn.

Nadelen van een probability sample is dat het tijdrovend, lastig, meestal niet vrij van sampling error en soms niet nodig is. Het kan bijvoorbeeld niet nodig zijn, doordat je helemaal niets wil zeggen over de populatie, maar alleen over je steekproef. Doordat het nogal lastig kan zijn, wordt het trekken van een steekproef vaak nogal makkelijk gedaan. Non-probability samples zijn soms een aanvaardbare/ betere keuze.

Non respons

Dit houdt in dat geselecteerde mensen niet meedoen omdat ze niet willen, niet kunnen of niet bereikt konden worden. Dit kan bias opleveren. In de pedagogiek komt dit zeer vaak voor. Als je bijvoorbeeld onderzoek doet in gezinnen kun je altijd factoren hebben als verhuizing, scheiding etc. waardoor ze over een langere tijd niet meer mee willen doen. Het is van belang vooraf na te denken over hoe je mensen gaat benaderen. Zorg ervoor dat je beleefd bent en dingen duidelijk uitlegt. Je kan bijvoorbeeld mensen ruimte geven voor vragen of contact zoeken via het balkon in plaats van de deur als je aanbelt bij een flat. Non response zal je altijd hebben, maar het is essentieel om erachter te komen of er een afwijking is. Achteraf kun je kijken of de mensen die niet reageerden structureel afwijken van de mensen die wel reageerden.

College 9: Betrouwbaarheid, validiteit en causaliteit

M&M 2.6, IRM pp. 53-70

Dit college bespreken we betrouwbaarheid, validiteit en causaliteit. In de werkcolleges hebben SPSS jullie betrouwbaarheid bekeken, dit college bespreken we wat voor invloed bepaalde keuzes met zich mee brengen en hoe je een onderzoek verantwoord en daar aansluitend validiteit.

Definities

Het trekken van conclusies is alleen mogelijk bij een goede onderzoeksopzet en bij gebruik van goede instrumenten. Dit college gaat over hoe je ervoor zorgt dat je de juiste onderzoeksinstrumenten hebt om conclusies te kunnen trekken. Cruciaal hierbij zijn betrouwbaarheid en validiteit.

Betrouwbaarheid heeft te maken met vertrouwen, behulpzaamheid, altijd aanwezig zijn, stevigheid bieden, waarheid. Is het meetinstrument betrouwbaar? Het onderzoek in geheel betrouwbaar? En repliceerbaar? Zouden mensen met dezelfde syntax dezelfde conclusies trekken? Dit is een manier waarop je betrouwbaarheid kan meten. Validiteit heeft niet met repliceerbaarheid te maken, maar kijkt naar: wat meet ik nu eigenlijk? Dit heeft veel te maken met het operationaliseren van begrippen zodat je vervolgens kan kijken of je meet wat je daadwerkelijk wil meten. Samenvattend: doeltreffendheid.

Een valide meting is altijd betrouwbaar. Een betrouwbare meting kan valide zijn. Een onbetrouwbare meting is invalide. De oplossing hiervoor is herhaald meten, waarbij je het gemiddelde als uitgangspunt neemt. Je bepaalt of een instrument valide of betrouwbaar is door te kijken of dit is vastgesteld bij eerder onderzoek of dit zelf vast te stellen in een eigen onderzoek.

Meetfouten

De gemeten variabele bestaat uit het bedoelde construct (dit is de ware score, wat je daadwerkelijk wilde meten) en toevallige en systematische meetfouten. Een toevallige meetfout hangt samen met betrouwbaarheid en door herhaald te meten heffen deze meetfouten elkaar op. Het zijn fouten die komen door onvoorziene omstandigheden. De ene keer gaan ze de ene kant op en de andere keer de andere kant. Een systematische meetfout hangt samen met validiteit. Dit betekend dat je systematisch iets verkeerd doet, maar wel de fouten zullen altijd dezelfde kant op gaan. Herhaald meten helpt in dit geval niet omdat je niet meet wat je wilt meten en er dus altijd naast zit. Het is lastig om deze fouten op te lossen. Je meet dus niet wat je wil meten.

Waar kunnen deze meetfouten vandaan komen?

Oorzaken van meetfouten:

Eigenschappen van proefpersonen: states zijn tijdelijk en toevallig, zoals ziekte of humeur en traits zijn meer blijvende eigenschappen en zijn stabiele persoonlijke kenmerken zoals intelligentie en karakter.
Eigenschappen van meetinstrumenten, zoals een ongunstige lay-out. Dit is systematisch.
Omgevingsfactoren. Prestatie verschillen reflecteren geen verschillen in vaardigheden, maar in omstandigheden. Dit kan toevallig of systematisch zijn. Een voorbeeld is de hoeveelheid licht in een bepaalde kamer.
Codeer fouten, zoals intypen. Dan zitten we niet aan de proefpersonen kant, maar aan de onderzoekers kant. Dit is toevallig.

We weten inmiddels wat variantie is. De variantie van variabele bestaat uit de ware scores en meetfout variantie. Als je kijkt naar de meetfoutenvariantie is moeilijk om de ware score van een variantie en systematische meetfouten te onderscheiden, aangezien ze beide systematisch zijn. Hoe meer mensen er verzameld worden hoe meer toevallige fouten zich zullen opheffen. Vanwege de meetfouten is het dus nooit realistisch om conclusies te trekken op basis van één onderzoek.

Betrouwbaarheid van meetinstrumenten

Betrouwbaarheid wordt vaak uitgedrukt in correlatiecoëfficiënt ‘r’. De correlatiecoëfficiënt kan gescoord worden tussen de -1 en 1. Maar in termen van betrouwbaarheid ligt correlatiecoëfficiënt tussen 0 en 1. Er moet een positief verband zijn. Als dit niet het geval is, is dit raar. Het instrument is dan niet valide, omdat er dan verschillende scores met hetzelfde instrument onder dezelfde omstandigheden voorkomen. De vuistregel is: r > 0.80 betekent een betrouwbaar instrument. Pas op met deze vuistregel, want deze geldt alleen voor betrouwbaarheid. Generaliseer deze niet naar validiteit. Om betrouwbaarheid te krijgen moet je van tevoren zorgen dat het een instrument is dat heel duidelijk omschreven staat, ook is het handig om observatoren te trainen zodat iedereen hem hetzelfde gebruikt.

Er bestaan verschillende manieren om betrouwbaarheid te toetsen.

Test-hertest. Bij een test-hertest wordt de overeenstemming van de correlatie tussen scores om twee verschillende momenten gemeten met dezelfde instrumenten, omstandigheden en personen. Wanneer de correlatie laag is, is het instrument onbetrouwbaar of verandert het concept over de tijd. Als je dezelfde test binnen korte tijd weer afneemt, krijg je waarschijnlijk een hogere score. Dit kan komen door het leereffect. Om dit leereffect te voorkomen pas je de paralleltest toe. Hoe kan je dit oplossen? Neem niet dezelfde test maar een parallel test af. Dit wordt bijvoorbeeld bij een tentamen gedaan. De test meet dezelfde kennis maar in een andere vraagstelling.
Inter-item (interne consistentie) Komt al dicht bij SPSS. Je bekijkt de samenhang tussen de verschillende onderdelen van een test. Bij item-rest kijk je naar de correlatie tussen de score op een item en de som score over de rest. Bij item-totaal (gebruik altijd item-rest i.p.v. item-totaal/ in SPSS item-totaal = item-rest!) kijk je naar de correlatie tussen de score op een item en de totaalscore op de test. Je kijkt naar interne samenhang, je hebt een aantal aspecten nodig om dit te bepalen. In het kort: item totaal gaat over de vraag en hele test. Item rest gaat over vraag en de rest, dit is een essensieel verschil. Bij de item totaal correlatie bereken je ook de correlatie met zich zelf, dit gebeurt niet met de item rest correlatie.
De cornbachs alpha vergelijkt twee helften van de test, niet op 1 manier, maar op alle mogelijke manieren, dit maakt het heel betrouwbaar. Een cornbachs alpha van 0.8 of hoger geeft aan dat het instrument klinisch gevalideerd is. Alpha if item deleted is je eerste indicator. Daarna kijk je naar Corrected Item-Total correlation, wanneer de correatie bijna 0 is, weet je dat het instrument niet meet wat je wil meten. Let op: heb je hier een sterke negatieve correlatie? Kijk dan of er gehercodeerd moet worden.
Interbeoordelaar (interrater)

Hier gaat het om de overeenstemming tussen observatoren waarbij sprake is van dezelfde kenmerken, timing en instrumenten. Je moet hierbij geen correlatie gebruiken, maar bijvoorbeeld kijken naar in hoeveel procent van de gevallen ze het eens zijn.

Validiteit van meetinstrumenten

Hierbij wordt gekeken of het instrument meet wat het zegt te meten. Een instrument is valide wanneer systematische fouten afwezig zijn. Bij een IQ-test kan bijvoorbeeld de leesvaardigheid gemeten worden in plaats van de intelligentie door moeilijk taalgebruik. Er is sprake van een bias als er een groep benadeeld wordt door de inhoud van test-items. Zo scoorden jongens tijdens de CITO-toets beter op een vraag over een voetbalveld dan meisjes. Het bepalen van validiteit kan theoretisch door redenatie of praktisch door correlatie.

Er zijn verschillende soorten validiteit van instrumenten:

Inhoudsvaliditeit (content, alleen theoretisch vast te stellen)

Hierbij is het van belang te kijken of het instrument het volledige domein dekt van een construct. Een voorbeeld is of een IQ-test alle domeinen van intelligentie meet of alleen rekenvaardigheid. Deze is alleen theoretisch vast te stellen, bij voorkeur door experts voorafgaand aan de afname.

Indruksvaliditeit (face, alleen theoretisch vast te stellen)

Dit is een soort (oppervlakkige) inhoudsvaliditeit. Er wordt gekeken of de test er op het eerste gezicht valide uitziet, qua lay-out, formulering van de vragen enzovoort. De respondenten beoordelen het. Dit is erg belangrijk omdat er van af hangt of respondenten de test serieus zullen nemen. Deze is ook alleen theoretisch vast te stellen door middel van pilot test.

Constructvaliditeit (ook praktisch vast te stellen)

Dit is de meest pure vorm van validiteit. Hier wordt gekeken naar de overeenstemming tussen begrip-zoals-bedoeld en begrip-zoals-bepaald. Meet mijn onderzoek wat ik wil meten? Dit kan met correlatie worden onderzocht. Een intelligentie score moet bijvoorbeeld samenhangen met scores op andere intelligentie tests. Bij een score op het gehechtheid biografische interview is het van belang dat deze sterk samen hangt met andere maten van gehechtheid en zwak samen hangt met bijvoorbeeld intelligentie en geheugen of andere niet-gehechtheidsmaten. Bij een sterke samenhang is er sprake van dat verschillende testen dezelfde correlatie aangeven: convergente validiteit. Dit gaat er om dat de correlatie hoog is tussen de score op het instrument en de score op een ander instrument dat een gerelateerd (correlatie moet hoog zijn) of hetzelfde begrip (correlatie moet nog hoger zijn) meet. De parallel betrouwbaarheidstest meet twee keer met hetzelfde instrument, maar dan in een andere vorm. Dit is een verschil. Bij discriminante validiteit moet de correlatie laag zijn tussen de score op het instrument en de score op een ander instrument dat een niet-/ of weinig gerelateerd begrip meet. Het gaat hierbij om zaken die samenhangen met je onderwerp, maar niet perse wil meten. Het is van belang dat bij zowel discriminante als convergente validiteit het vergeleken instrument betrouwbaar en valide is.

Criteriumvaliditeit

Criterium bepaalt de inhoudelijke relevantie van het instrument. Het gaat erom of je instrument relevant is voor de praktijk. Je voorspelt aan de hand van instrumenten. Een voorbeeld van praktische bruikbaarheid is het voorspellen van een wiskunde cijfer van jongeren in de brugklas (criterium) aan de hand van de scores die zij kregen op rekenen uit de Cito-toets. De CITO-score is alleen relevant als deze de prestatie op de middelbare school kan voorspellen. Je kan je richten op het heden, dit wordt concurrente validiteit genoemd, zoals klinische diagnoses. Ook kan je je richten op de toekomst, dit wordt predictieve validiteit genoemd en de Cito-toets is daar een voorbeeld van. De nadelen van het voorspellen van de toekomst is dat het kosten en moeite meebrengt en dat het te meten begrip instabiel is.

Soms is een instrument valide op bepaalde aspecten, maar niet op andere aspecten. Dan ligt het er maar aan of die aspecten van belang zijn.

Bij de validiteit van een heel onderzoek kijk je naar de construct, waar gekeken wordt of het onderzoek geschikt is om de vraag te beantwoorden. Ook wordt er intern gekeken naar het effect en of deze alleen toe te schrijven is aan manipulatie. Extern kijk je naar de generaliseerbaarheid qua populatie, situaties en over tijd.

Causaliteit

Dit is het verband tussen twee zaken. Een voorbeeld is of de hoogte van de BMI van de moeder de hoogte van het BMI van haar dochter veroorzaakt. Het is van belang te weten dat een geobserveerde relatie niet hetzelfde is als een causale relatie. Als je onderzoek doet is het verleidelijk om een effect te verklaren door een causaal verband, maar het probleem is dat een geobserveerde relatie ook op andere manieren kan worden geïnterpreteerd. Een verband wil niet zeggen dat het één het ander veroorzaakt. Want ook spelen lurking (derde/ op de loer liggende) variabelen een rol. Hierbij wordt een verband verklaard door een variabele die je helemaal niet gemeten hebt. Daarnaast kan er sprake zijn van een omgekeerde causale relatie. Common response betekent dat een derde/ lurking variabele (z) zowel x als y kan

veroorzaken, terwijl x niet y veroorzaakt. Je moet er dus over na denken of je zo’n ‘z’ hebt in je onderzoek en wat zou die z dan zijn? Bij confounding veroorzaakt z > y en is onlosmakelijk verbonden met x. Het is dan onduidelijk of x en/ of z de oorzaak vormt van y. Er is een relatie tussen x en y, maar z beïnvloed ook y. Statistisch gezien is dit wel te interpreteren. Je kan er wel van uit gaan dat er op z’n minst een verband is tussen x en y. Bij de indirecte causale relatie is de variabele x geen direct oorzaak van y, maar x veroorzaakt z, en z veroorzaakt vervolgens y. De relatie tussen x en y wordt gemedieerd door z.

Oplossing: zorg dat je alleen x manipuleert. Een heel sterk verband is echter geen bewijs voor een causale relatie. Causaliteit is vast te stellen door een experiment. Als we kijken naar een experiment is interne validiteit van belang. Daarbij wordt nagegaan of een effect het gevolg is van manipulatie. Voorbeelden van bedreigingen van interne validiteit zijn geschiedenis, rijping, leereffect/ test-hertesteffect en overdracht van experimentele naar controlegroep. Dit vormt de invloed van de derde variabele. Als een experiment niet mogelijk is, zijn er een aantal indicaties voor de causaliteit. Je moet nagaan of het oorzakelijk plausibel en zinvol is. Ook kijk je of het gevonden verband sterk en consistent is. De oorzaak moet ook vooraf gaan aan het gevolg. Dosis-response betekent dat een verhoging op x samengaat met een verhoging van y.

Belangrijk om te onthouden is dat de validiteit en betrouwbaarheid van meetinstrumenten altijd onderzocht en vermeld moeten worden. Betrouwbaarheid/ validiteit op één gebied betekent niet dat dit voor alle gebieden zo is. Onderzoek moet uitwijzen wat relevante vormen zijn. Causaliteit moet onderzocht worden met een experiment en indien er een niet-experimenteel onderzoek plaatsvindt dat je oppast voor (onzichtbare) lurking variabelen.

College 10: Experimenteel onderzoek en kansrekening

M&M 3.1 (niet p. 177-179), 3.4, 4.1, IRM P1, C8.

Dit college gaan we wat dieper in op het experiment. Wat is nou onderscheidend aan een experiment? Je kan hier causale relaties uit halen. Voor we dit doen moeten er eerst een aantal begrippen worden uitgelegd.

Onafhankelijke variabele wordt ook wel een factor genoemd.

Bij experimenten worden variabelen gemanipuleerd. Op die manier kunnen oorzaak en gevolg vastgesteld worden. Bij een onafhankelijke variabele experiment wordt de invloed gemeten van een onafhankelijke variabele (ook wel factor genoemd) op een afhankelijke variabele. De onafhankelijke variabele kan verschillende niveaus hebben, die levels/ condities worden genoemd. Als je bijvoorbeeld geïnteresseerd bent in de invloed van muziek op de achtergrond tijdens het huiswerk maken, kan je de radio hard, zacht of uit zetten. De radio is de onafhankelijke variabele en de levels zijn hard, zacht of uit. Er zijn drie typen onafhankelijke variabelen:

Environmental manipulations: je manipuleert iets uit de omgeving (bijvoorbeeld geluid).
Instructional manipulations: verschillende levels ontstaan door verschillende instructies aan de proefpersonen, (bijvoorbeeld: je geeft de ene groep de instructie om een blije tekening te maken en de andere groep om een droevige tekening te maken).
Invasive manipulations: het manipuleren van de mentale/ fysieke staat van een mens, door bijvoorbeeld een pil of alcohol te geven.

De experimentele groep is de in een experiment die wordt blootgesteld aan manipulatie. Er moet ook een groep zijn die als een soort baseline dient. Dit wordt de controlegroep genoemd. Zo kun je de impact van de onafhankelijke variabele vaststellen. Zo kan je twee experimentele groepen hebben waarbij de ene groep wel een middel krijgt om te slapen en de andere groep niet. Bij een experiment heb je meestal één controlegroep en kunnen er meerdere experimentele groepen zijn. De impact van onafhankelijke variabelen kan vastgesteld worden op twee manieren:

Pilot test vindt vóór het experiment plaats. Er wordt bij een kleine groep mensen vooraf getest wat voor effect de manipulatie heeft. Als zij vinden dat het geluid niet storend genoeg is, wordt de radio harder gezet tijdens het experiment. Zo kun je een goed niveau kiezen voor het experiment, waarbij je weet dat er effect zal zijn.
Manipulation check gebeurt tijdens het experiment om te checken of de manipulatie gelukt is. Bijvoorbeeld: ‘Vond u het geluid storend ja of nee?’. Leary heeft het hierbij alleen over een vraag, maar dit is niet de enige manier. Je kan bijvoorbeeld ook bloed afnemen om adrenaline te meten. Zo kan dus de impact van een manipulatie vast worden gesteld.

Proefpersonen

Proefpersonenvariabelen zijn variabelen die samenhangen met de proefpersonen zelf en niet door de onderzoeker gemanipuleerd zijn, zoals geslacht of opleidingniveau. Ze zijn geen onafhankelijke variabelen omdat ze niet door de onderzoeker gemanipuleerd zijn. Als je bijvoorbeeld verschillen meet in je proef tussen mannen en vrouwen, weet je nooit zeker of dat invloed heeft gehad op het resultaat. Strikt genomen zijn dit dus geen onafhankelijke variabelen.

Afhankelijke variabele is de respons die gemeten wordt in het experiment, zoals maten van zelfrapportage, gedrag dat opgenomen is op video, fysiologische maten. De afhankelijke variabele wordt beïnvloed door de onafhankelijke variabele.

Er is bijvoorbeeld onderzoek gedaan naar de invloed van het drinken van alcohol op de reactietijd. Groep 1 krijgt geen bier, groep 2 krijgt twee glazen bier en groep 3 krijgt 4 glazen bier. De reactietijd werd gemeten in een verkeerd simulator. De onafhankelijke variabele is de hoeveelheid alcohol. De levels zijn 0, 2, 4. Er is sprake van invasieve manipulatie. De personen krijgen bier, wat hun stemming verandert. Er is een controlegroep, namelijk de groep die geen bier drinkt. De afhankelijke variabele is de reactietijd.

Condities

Bij het toewijzen van proefpersonen aan condities moet je de invloed van achtergrondvariabelen zoveel mogelijk uitsluiten. Dit betekent dat de groepen op alle achtergrondvariabelen zo veel mogelijk vergelijkbaar moeten zijn. Er zijn verschillende manieren om dit te bereiken:

Simple random toewijzing/ Aselecte toewijzing is het plaatsen van proefpersonen in condities waarbij er gelijke kans is voor iedere proefpersoon om geplaatst te worden in elke experimentele conditie, bijvoorbeeld kop of munt, puur toeval.
Matched aselecte toewijzing is de aselecte toewijzing die gedaan wordt op basis van de scores op een variabele die samenhangt met de afhankelijke variabele. Groepen kunnen ingedeeld worden op basis van een voormeting. Bijvoorbeeld bij het alcoholexperiment. Voordat het experiment begint laat je ze een reactietijden-taakje op de computer doen. Zo wordt duidelijk welke mensen sneller of langzamer zijn in het reageren. Je neemt dan de drie snelste die je over de drie groepen verdeeld. Vervolgens neem je de drie mensen die daarna het snelst zijn. Op basis van toeval verdeel je zo dus de proefpersonen. Het idee daarachter is dat je drie verschillende groepen hebt die zoveel mogelijk op elkaar lijken qua hoe snel ze zijn. Een nadeel is dat je alleen kijkt naar reactietijd en niet naar andere achtergrondvariabelen zoals geslacht, leeftijd.

Beide worden ook wel randomized groups design, between-subjects design of between-groups design genoemd.

Aselecte toewijzing en aselect trekken worden vaak door elkaar gehaald. Aselect trekken, trek je een groep uit de populatie. Aselect toewijzing betekent niet dat de steekproef random is. De eerste stap is een steekproef trekken uit je populatie. De tweede stap bestaat uit het aselect toewijzen van personen aan je condities. Als je als populatie de Nederlandse bevolking hebt is je steekproef niet representatief als je steekproef uit alleen psychologiestudenten bestaat. Zij zijn homogeen qua opleiding, leeftijd enzovoort. Ze zijn niet aselect getrokken, maar kunnen wel aselect toegewezen worden.

Repeated measures design

Een alternatief voor aselecte toewijzing is het repeated measures design. De proefpersonen worden aan alle experimentele condities blootgesteld op verschillende tijdstippen. Elke proefpersoon is zijn of haar eigen controle. De eerste dag moeten ze nuchter een taak doen, vijf dagen later doen ze dezelfde taak met twee glazen alcohol op en weer vijf dagen later met vier glazen alcohol op. Dit wordt ook wel within-subjects design genoemd.

De voordelen zijn dat het meer power bevat (effecten worden sneller gedetecteerd) en er zijn minder proefpersonen nodig.

De nadelen zijn volgorde effecten:

Door de taak herhaald uit te voeren treedt het practice (leer) effect op. De proefpersonen worden beter in de taak naarmate het vaker gedaan is.
Het fatigue (vermoeidheids) effect ontstaat als de proefpersonen genoeg krijgen van de taak en ze minder nauwkeurig worden.
Sensitization is dat de een proefpersoon door krijgt wat de onderzoeker wil. Waardoor de persoon zich gaat gedragen, conform wat er van hem verwacht wordt. at het doel van het onderzoek is en mogelijk anders gaan reageren. Effect hiervan is dat ze zich naar een hypothese kunnen gaan gedragen, bijv. expres slechter presteren.
Overdrachtseffecten (carryover) kunnen ook voorkomen. De manipulatie van de vorige dag kan de volgende dag nog invloed hebben en op die manier invloed hebben op bijvoorbeeld de reactietijd van proefpersonen als er alcohol gebruikt wordt.

De oplossing voor deze problemen is om de volgorde te laten variëren voor ieder persoon op grond van toeval.

Experimentele controle

Als er bij een onderzoek variantie voorkomt resteert de vraag in welke mate dit door manipulatie veroorzaakt wordt en in welke mate door individuele verschillen.

Systematische variantie (between-group variance) is de spreiding tussen gemiddelden bestaat uit twee onderdelen:

Treatment variantie beslaat het deel van de variantie dat verklaard wordt door de experimentele manipulatie. Een voorbeeld is de verschillen in eindcijfers van een bepaald vak wat veroorzaakt wordt door het wel of niet krijgen van bijles.
Confound variantie ontstaat door ongelijke behandeling. De variantie wordt dan niet veroorzaakt door de onafhankelijke variabele. Een voorbeeld is om groepen kinderen naar verschillende filmpjes te laten kijken die neutraal of vrolijk zijn. De kinderen die het enge filmpje gaan zien worden vanwege ethische redenen vooraf gewaarschuwd. De andere kinderen krijgen geen waarschuwing bij hun film en ontstaat er een ongelijke behandeling. Het is mogelijk dat de rapportage van angst verband houdt, met de andere behandeling.
Error variantie (with-in group variance) zijn de toevallige verschillen tussen individuen, zoals moeheid. Error variantie komt door alle factoren die ervoor zorgen dat mensen een verschillend resultaat hebben. Aan deze verschillen is weinig te doen. De fouten in de procedure worden zo klein mogelijk gehouden.

Totale variantie bestaat uit treatment variantie, confound variantie en error variantie. De eerste twee vormen samen de systematische variantie en de error variantie houdt toevallige foutenvariantie in.

Interne validiteit

Dit is de mate waarin een onderzoeker goede conclusies trekt over effecten van een onafhankelijke variabele. Bedreigingen van interne validiteit zijn:

Biased assignment, waarbij geen of mislukte random toewijzing plaatsvindt. Dan weet je niet meer of de verschillen tussen de groepen door manipulatie zijn, of dat dit door achtergrondvariabelen komt.
Differentiële uitval. Mensen kunnen bijvoorbeeld wegblijven van hun therapie. Mensen die uitvallen kunnen voor een vertekend beeld zorgen in het resultaat. De groepen zijn dan niet meer vergelijkbaar en aselect.
Pretest sensitisatie. Stel je doet een voor en na meting, en daar tussen doe je een manipulatie, je hebt dus geen controle groep. De voormeting op zich zelf kan al gedrag op de nameting beïnvloeden. Hierbij kunnen mensen na aanleiding van de voormeting een mening hebben gevormd dat de antwoorden op de vragen kan beïnvloeden. Er kan bijvoorbeeld tijdens een voormeting gevraagd worden naar hoe trots de proefpersoon is op zijn Nederlandse burgerschap. De proefpersoon wordt bewust van die vraag, terwijl hij daarvoor er misschien niet zo bij stil had gestaan. Oplossing is een controlegroep.
Historie komt voor als er bijvoorbeeld tegelijkertijd met een therapie een gebeurtenis van buitenaf plaatsvindt wat invloed uitoefent op de therapie. Oplossing is een controlegroep.
Rijping (maturation) houdt de natuurlijke ontwikkeling van proefpersonen in. Oplossing is een controlegroep.

Verwachtingen van de onderzoekers of van de proefpersonen. Zij kunnen bepaalde uitkomsten van het experiment verwachten. De oplossing is de double-blind procedure waarbij beide partijen niet weet welke interventie bij wie zal worden toegepast.

Placebo effecten zijn veranderingen door suggestie, zoals het innemen van een pil die niet werkt, maar men daar wel verschil van opmerkt. Oplossing is een nutteloos middel toedienen aan de controlegroep.

Bronnen van errorvariantie

Individuele verschillen zijn verschillen die vaststaan op cognitief, fysiologisch, emotioneel, gedragsmatig gebied. Het advies van Leary is om een groep te onderzoeken die qua achtergrond kenmerken homogeen is. De vraag is dan wel of de groep nog wel representatief is. Beter is om goede meetinstrumenten en standaardprocedures te gebruiken. Tijdelijke (emotionele) staten, zoals moeheid van proefpersonen, stemming, ziekte.
Omgevingsfactoren, zoals tijdstip, achtergrond lawaai, slecht weer.

Verschillende behandelingen, zoals de stemming van de proefleider, gevoel van de proefleider, kleine verschillen in instructies.

Meetfouten, zoals fouten van meetinstrumenten.

Kans begrip en kansrekening

Een fenomeen is random als de uitkomsten niet van te voren vast staan, maar bij veelvuldige herhaling wel aan een patroon voldoen. Een voorbeeld hiervan is het oneindig vaak een muntstuk opgooien. De uitkomsten stabiliseren zich tot 50%.

De probability/ kans op een gebeurtenis is de proportie van het aantal keren dat de gebeurtenis voorkomt in een lange serie van herhalingen. De kans dat je kop gooit bij een muntstuk is bijvoorbeeld 0.5.

College 11: Steekproevenverdeling en betrouwbaarheids-intervallen

M&M 3.3, 5.1, 6.1

Dit college zal gaan over wat geconcludeerd kan worden uit verantwoord onderzoek en hoe je conclusies trekt met steekproef gegevens over de populatie. De vraag die je in een onderzoek stelt gaat over de populatie, terwijl de gegevens over de steekproef gaan. De steekproef is slechts deel van de populatie. Je moet goed kijken wat de steekproef gegevens zeggen en of je het kan generaliseren naar de populatie. Statistiek is een middel om tot een antwoord op je onderzoeksvraag te komen. Het is geen doel. De complexiteit van statistiek moet wel nuttig en verdedigbaar blijven. Daarna maak je een goed overwogen opzet voor de vraag die je wil beantwoorden. Vervolgens voer je die nauwkeurig uit en interpreteer je de uitkomsten verstandig.

Van steekproef naar populatie

Uit je populatie trek je een steekproef. Bekijk hoe de steekproef zich verhoudt tegenover de steekproevenverdeling. In een ideaal geval trek je namelijk meerdere steekproeven. Het gemiddelden van al die steekproefgemiddelde zou als het goed is het gemiddelde van de populatie moeten zijn. En nogmaals, je wil een zo betrouwbaar en valide mogelijke schatting. Met Z-scores kun je één persoon vergelijken met de populatie. Dan wordt er dus een ruwe score vergeleken met de populatie verdeling. Wanneer je een steekproef als groep wil vergelijken met de populatie, neem je dus het gemiddelde als ‘samenvatting’. Over het algemeen is het beter met gemiddelden werken te dan met ruwe scores, omdat een losse score eerder een extreme waarde kan zijn.

Er is sprake van een onzuivere schatting wanneer het steekproefgemiddelde ver van de populatiewaarde ligt. Bij een onnauwkeurige schatting is er veel spreiding in de schatting. Hoe meer steekproeven, hoe zuiverder de schatting naar het populatiegemiddelde. Gemiddelde van steekproefgemiddelden is een zuivere schatter van een populatiegemiddelde (μ). Toch kun je ook met maar één steekproef informatie krijgen over hoe alle steekproefgemiddelden er uit zouden zien. Hier zijn theoretische verdelingen voor.

Steekproevenverdeling

De steekproevenverdeling is de tussenstap tussen steekproef en populatie: de verdeling van alle gemiddelden van veel verschillende steekproeven. Bij populatieverdelingen werk je juist altijd met losse scores. Een steekproevenverdeling is een theoretische verdeling. Dit is handig, aangezien je met de steekproevenverdeling eigenschappen van de populatie kunt schatten, maar je zal hem nooit met de hand vaststellen. Om dit te kunnen schatten moeten de eigenschappen van de steekproef wel bekend zijn.

Bij een populatieverdeling heb je alle waarden van de populatie. Het gemiddelde is gelijk aan het populatiegemiddelde (μ). Bij een steekproefverdeling wordt er uitgegaan van een verdeling van een variabele in één steekproef. Deze steekproefverdeling is niet gelijk aan een

populatieverdeling. Het gemiddelde is gelijk aan het steekproefgemiddelde. Bij een steekproevenverdeling heb je een populatie waaruit je een aantal even grote steekproeven trekt. Daar reken je de gemiddelden van uit. Het gemiddelde is dan een zuivere schatter voor μ. Stel je neemt twee steekproeven van elk vijf personen. Deze kunnen heel verschillend zijn op één variabele. De twee gemiddelden zijn samen een benadering van de steekproefverdeling. Voor de echte steekproefverdeling moet je alle mogelijke steekproeven nemen. Hoe groter de populatie, hoe groter het aantal mogelijke steekproeven.

Alle steekproeven moeten altijd van dezelfde grootte zijn. Elke steekproefgrootte heeft zijn eigen steekproevenverdeling. Een te kleine steekproef zorgt voor veel variatie in gemiddelden. Een grotere steekproef zorgt voor een betere schatting van het populatiegemiddelde, omdat je minder variatie hebt.

Het nut van een steekproevenverdeling is dat het mogelijk is om uitspraken te doen over de populatie op basis van een steekproef, aangezien een steekproef onderdeel is van de steekproevenverdeling. Dus geeft elke steekproef een stukje informatie over de steekproevenverdeling. De officiële definitie van een steekproevenverdeling is: de verdeling van alle gemiddelden van alle mogelijke steekproeven van grootte N.

De steekproefgrootte beïnvloedt de vorm van de steekproevenverdeling, aangezien grotere steekproeven meer op de populatie lijken, variëren de gemiddelden minder rond μ. Een steekproefverdeling is 1 steekproef en het steekproefgemiddelde wordt aangegeven door een x met een streepje er boven.

Vorm van de steekproevenverdeling

De vorm van de steekproevenverdeling is belangrijk omdat het de sleutel is naar de verdeling van de populatie. Een steekproevenverdeling kun je alleen trekken als je alle eigenschappen kent. De vorm, het gemiddelde en de spreiding is vaak al genoeg. De vorm is net als een normaalverdeling, die je kan omzetten naar een standaardnormaalverdeling. Dit is nodig om statistische conclusies te trekken. Wanneer spreek je van een normaalverdeling? De eigenschappen zijn bekend en staan in tabel A. Er wordt gesproken van een normaalverdeling wanneer de populatieverdeling normaal is en de gemiddelden van normaal verdeelde variabele ook normaal verdeeld zijn en als de steekproef voldoende groot is, ongeveer 50 (centrale limietstelling: ongeacht vorm populatieverdeling). Bij de centrale limietstelling is het zo dat wanneer de N groter wordt, de steekproevenverdeling meer op een normaalverdeling gaat lijken. Ongeacht de vorm van de populatieverdeling, hoe groter N, hoe meer de steekproevenverdeling lijkt op een normaalverdeling.

Statistische interferentie betekent dat er vanuit de steekproef iets over de populatie gezegd wordt. Dit is alleen zinvol als de steekproef een redelijke afspiegeling van de populatie is en als de eigenschappen van de steekproevenverdeling bekend zijn. De steekproef moet dus representatief zijn. Dit is het geval als hij normaal verdeeld is. Toepassingen zoals betrouwbaarheidsintervallen of hypothesetoetsen doe je als je weet dat de steekproevenverdeling een normaalverdeling is.

Sigma geeft de populatie spreiding aan. De spreiding van de steekproevenverdeling altijd kleiner dan in de populatie. Waarom? De steekproevenverdelingen bestaat alleen maar uit gemiddelden. Verschillen tussen gemiddelden zijn altijd kleiner dan verschillen tussen individuen.

Betrouwbaarheidsintervallen

Betrouwbaarheidsintervallen zijn een manier om te schatten waar μ ligt. Je bepaalt het op basis

van één steekproefgemiddelde en de steekproevenverdeling. Het is een interval waarbinnen je denkt dat het populatiegemiddelde ligt. Een betrouwbaarheidsinterval is een minimum en maximum waarvan je 95% zeker bent dat het populatiegemiddelde hiertussen ligt. Betrouwbaarheidsinterval is alleen te vertrouwen bij random steekproeftrekking, want het moet wel representatief zijn. Alleen dan kun je statistisch infereren.

Berekening betrouwbaarheidsinterval

Bij het berekenen van een betrouwbaarheidsinterval maak je gebruik van z-scores en neem je als uitgangspunt de standaarddeviatie in de populatie, maar dit is niet realistisch omdat die vaak niet bekend is. Wanneer de steekproevenverdeling een normaalverdeling is, geldt de 68-95-99.7% regel. In bijvoorbeeld 95% van de steekproeven ligt het steekproefgemiddelde binnen twee standaarddeviaties van μ. μ ligt dus ook binnen twee standaarddeviaties van het steekproefgemiddelde. Van Leiden naar Amsterdam is immers net zo ver als van Amsterdam naar Leiden.

In de praktijk pas je betrouwbaarheidsintervallen toe van steekproef naar de populatie en niet andersom. Zo schat je de μ. De vuistregel is dat het onnauwkeurig is. De exacte berekening doe je aan de hand van de z-tabel. Bij een 95% interval kijk je dus naar de z-score in tabel A bij P= 0,95. De z-score die hierbij past is 1,96.

Het betrouwbaarheidsinterval interpreteer je door bij bijvoorbeeld een interval van 95% bij 100 steekproeven te stellen dat in 95 gevallen μ in het interval ligt. Dus dat in 95% van de steekproeven het betrouwbaarheidsinterval een juiste schatting doet van het populatiegemiddelde. Je zou ook kunnen zeggen dat je met 95% zekerheid kan zeggen tussen welke twee waarden het populatiegemiddelde ligt.

Meer nauwkeurigheid met gelijkblijvend vertrouwen doe je door de steekproeven te vergroten of de standaarddeviatie te verkleinen. Dit laatste is niet realistisch. Let op bij betrouwbaarheidsinterval dat de kwaliteit van je onderzoeksopzet en steekproef belangrijk zijn. Interval is alleen geldig bij strikt random trekken wat zeldzaam is. Verwijder je uitbijters bij berekeningen en je moet de standaarddeviatie kennen in de populatie. Als laatste moet je opletten op de foutenmarge. Dit is de kans dat de steekproef afwijkt van het steekproefgemiddelde.

College 12: Z-toets en caveats

M&M 6.2, 6.3

Dit college zal gaan over Z-toetsen / hypothesetoetsen. Is het effect dat je in een steekproef lijkt te vinden, te generaliseren naar de populatie? De vraag die je in je onderzoek stelt gaat over de populatie, terwijl de gegevens over de steekproef gaan. Een steekproefgegeven kan toevallig verschillen van populatiegegeven. Statistisch toetsen is de kans berekenen dat iets toevallig gebeurd.

Significantietoetsen

Bij een significantietoets bereken je wat de kans is dat het gemiddelde dat jij in de steekproef tegenkwam, voorkomt in de populatie. Als het steekproefgegeven bijzonder is ten opzichte van de veronderstelde populatieverdeling heb je een specifieke groep te pakken (bijvoorbeeld VWO-leerlingen t.o.v. alle Nederlandse middelbare scholieren) of is de steekproef veranderd door manipulatie binnen het onderzoek.

Hypothesen

Nulhypothese (H₀) definieert de normale situatie, de steekproef komt uit populatie met gemiddelde µ(0). Een alternatieve hypothese definieert de afwijkende situatie (Ha). Steekproef uit een populatie met een ander gemiddelde dan µ(0).

Z-scores en z-toets

Bij z-scores kijk je naar hoe een individuele score zich verhoudt tot het populatiegemiddelde.

De formule is z = x_i - μ / σ

De betekenis van z, is het aantal standaarddeviaties dat een individuele score afwijkt van µ.

Z-toets voor populatiegemiddelde

Nu kijk je hoe het steekproefgemiddelde zich tot het populatiegemiddelde verhoudt. Het verschil zit in het feit, dat het over gemiddelden gaat in plaats van ruwe scores. Er is dan minder spreiding dan bij ruwe (losse) scores.

De formule is z = (x̄ - μ₀) / σ_x̄= z = (x̄ - μ₀) / (σ/√n)

μ₀ is het gemiddelde van de populatie dat je verondersteld in een nulhypothese. ‘sigma-x-bar’ is de gemiddelde verdeling van een steekproef. De ‘z’ betekend bij deze formulering: aantal standaarddeviaties dat het steekproefgemiddelde afwijkt van µ.

De Z-toets wordt gedaan om te bepalen hoe bijzonder het steekproefgemiddelde is ten opzichte van het populatiegemiddelde. Wanneer dit niet bijzonder is, is er niets aan de hand. Een steekproefgemiddelde is niet bijzonder wanneer deze bij de steekproevenverdeling dicht bij het populatiegemiddelde ligt. Wanneer dit wel bijzonder is, is er wel iets aan de hand. Een steekproefgemiddelde is bijzonder als deze bij de steekproevenverdeling ver van het populatiegemiddelde ligt. De steekproef is door toeval uit de populatie getrokken. Toeval is dan onwaarschijnlijk of komt de steekproef uit een andere populatie is veranderd t.o.v. de populatie.

P-waarde

Bij de Z-statistiek maak je gebruik van tabel A, door daar de p-waarde in op te zoeken. Het percentage steekproefgemiddelden in de steekproevenverdeling is lager dan of gelijk aan geobserveerde waarde en geeft aan hoe bijzonder het gemiddelde in zijn verdeling is. Als de p-waarde 0.3 is, is er 30% kans dat je een steekproefgemiddelde gelijk is aan het populatiegemiddelde. Dit is niet heel bijzonder, maar 3% is wel bijzonder. Het significantieniveau is de grens vanaf waar je waardes bijzonder vindt. De alpha (α) is de grenswaarde voor p. Wanneer p kleiner is dan α is het steekproefgemiddelde bijzonder. De onderzoeker bepaalt de α. Het is hierbij van belang dat de onderzoeker een grenswaarde kiest die anderen geloofwaardig vinden. Meer dan 10% wordt alpha nooit, dat is niet meer geloofwaardig. De vuistregel is α = 0.05 of soms 0.01. Als je 10 % gebruikt vind je eerder een significant verband. (Wij moeten uitgaan van een alpha van 5%, op tentamen aangeven waar je vanuit gaat!)

Toetsingsschema

Kort weergegeven bedenk je eerst een onderzoeksvraag over wat je wilt weten. Dan begin je met bewijs verzamelen, door bijvoorbeeld een steekproef te trekken en resultaten te berekenen. Je toetst door de kans te bepalen dat het steekproefresultaat bij toeval gevonden wordt en bepaalt of dit wel of niet bijzonder is. Vervolgens trek je een conclusie of de afwijking een normale situatie is .

Een concreet toetsingsschema dien je altijd te gebruiken bij het doen van een statistische toets. Dit zijn zeven stappen.

Z-toets voorbeeld in slides

1.Onderzoeksvraag

Het is belangrijk dat deze vraag concreet is, beantwoordt kan worden door een toets en af te leiden is uit de beschrijving. Bij een onderzoeksvraag kun je ook de concrete situatie schetsen, inclusief gegevens.

2. Hypothesen

Nulhypothese geeft de normale situatie weer. Het steekproefgemiddelde komt overeen met het populatiegemiddelde.

Alternatieve hypothese geeft een afwijkende situatie weer. De steekproef komt uit een populatie met een ander gemiddelde dan het populatiegemiddelde.

Een hypothese kan je tweezijdig toetsen als de alternatieve hypothese geen richting aan geeft (μ ≠ μ₀) of eenzijdig als deze een bepaalde richting aan geeft (μ > μ₀of μ < μ₀). Voor eenzijdig toetsen is theoretische grond nodig. Zonder theorie is tweezijdig echter beter.

Bij het formuleren van een hypothese verwijs je naar de populatie en nooit naar specifieke steekproefuitkomsten, aangezien deze uitkomsten al bekend zijn en vrijwel nooit gelijk zijn aan μ. Formuleer je hypothese a priori en zonder naar de data te kijken.

3. Toets keuze en significantieniveau α

De criteria lopen uiteen over het type onderzoeksvraag, soort variabele (numeriek of categorisch), soort verdeling, de gegevens die bekend zijn en de steekproefgrootte. De criteria van de z-toets voor het steekproefgemiddelde is dat het steekproefgemiddelde vergeleken kan worden met μ, het een numerieke variabele is.

4. Berekening toets statistiek

Formule: z = (x̄ - μ₀) / σ_x̄= z = (x̄ - μ₀) / (σ / √n)

5. Aflezen p-waarde (tabel)

Bij de precieze situatietekening kan je van een gebied het percentage (p-waarde) aflezen uit tabel A met de z-scores.

6. Beslissing (vergelijk p met α)

Hierbij vergelijk je p met significantieniveau α. Als p> α dan is het steekproefgemiddelde niet bijzonder is en verwerp je de nulhypothese niet. Als p < α dan is het steekproefgemiddelde wel bijzonder en verwerp je de nulhypothese wel. Redeneer altijd vanuit de nulhypothese wanneer deze bekend is.

7. Inhoudelijke conclusie

De twee criteria gaan over de inhoudelijke formulering en het bevestigen van de toets en de data.

Het is van belang dat je altijd het hele schema afwerkt. Een situatieschets geeft duidelijkheid waar je naar kijkt. Tweezijdig toetsen is conservatiever dan eenzijdig toetsen en wordt vaker gebruikt. De p is hoger doordat je twee kanten hebt en je zo minder snel een effect vindt. Als je niet weet wat je moet doen is het handig om tweezijdig te testen. Significantieniveau van 0.05 wordt het meest gebruikt, 0.01 is strenger en dus meer overtuigingskracht wanneer er sprake is van significantie. 0.10 is minder streng dan 0.05 (soms nuttig).

Z-toets en betrouwbaarheidsinterval

Een gelijke conclusie kan komen door twee invalshoeken met dezelfde conclusie (van Amsterdam naar Leiden is net zo ver als van Leiden naar Amsterdam). De Z-toets is redenatie vanuit de populatie en betrouwbaarheidsintervallen is redenatie vanuit steekproef.

Let bij toetsen op:

Datakwaliteit

Significantietoets alleen geldig als de steekproevenverdeling normaal is, waarbij gekeken wordt naar de vorm, eventuele uitbijters en de steekproefgrootte. Het onderzoeksopzet moet in orde zijn waarbij je kijkt naar of de steekproef random getrokken is en of er betrouwbare/ valide instrumenten zijn gebruikt.

Relevantie uitkomst

Statistische significantie is niet hetzelfde als praktische significantie. Als een effect significant is, wil dit niet gelijk zeggen dat je ook iets relevants hebt gevonden. Je kijkt ook naar de effectgrootte. De exacte p-waarde is informatiever dan alleen de vergelijking met α.

Steekproefgrootte

P is afhankelijk van de steekproefgrootte. Bij een ander aantal komt ook een andere conclusie. Bij een steekproef van 1000 of meer is vrijwel elk resultaat significant. De context bepaalt hoe streng de α moet zijn.

Betekenis uitvinding

Als de p-waarde niet significant is, hoeft de nulhypothese niet waar te zijn. Soms is de steekproef te klein, de meetinstrumenten niet precies genoeg of is het onderzoek moeilijk waardoor kleine steekproeven worden gedaan.

Power

Power is het vermogen van een toets om een bestaand effect echt terug te vinden. Kleine effecten kunnen soms van groot praktisch belang zijn, bijvoorbeeld bij medisch onderzoek. Daar wordt dan ook een hoger significantieniveau gehanteerd (bv. 0.10).

Realisme toets

Vaak is de z-toets niet realistisch, omdat de standaardafwijking van een populatie onbekend is. Een alternatief is de t-toets en doe je ook de betrouwbaarheidsintervallen met t.

Andere valkuilen

De significantietoets moet gedaan worden op basis van theorie en niet op basis van data. Het achteraf aanpassen van de toets criteria is onacceptabel. Zoek niet naar significante effecten, want dan kunnen selffulfilling prophecies een rol gaan spelen.

College 13: T-toets voor het populatiegemiddelde: power en type I en type II fouten

M&M: 6.4, p. 399-410

Vorig college hebben we het gehad over het toetsen van een hypothese. Je had een 0 hypothese en een alternatieve hypothese. Je wilde kijken of de steekproef die je hebt getrokken past bij een bepaalde populatie. Hierbij gebruikte we de z-toets en hierbij hadden we de steekproeven verdeling nodig (alle mogelijke gemiddelde).

De t-toets voor het populatiegemiddelde

Bij de z-toets berekende je het verschil tussen het steekproefgemiddelde (x-bar) en het populatie gemiddedelde. Zoals eerder verteld is de z-toets niet erg reeël, omdat je sigma, de standaardafwijking moet weten. De t-toets houdt rekening mee met het feit dat je sigma niet hebt (One-sample t-toets).

T-toets vs. z-toets

Bij de t-toets blijft de toets redenering kader (h0, ha) hetzelfde als bij de z-toets. Je gaat echter schatten, waardoor er meer onzekerheid ontstaat. De standaard afwijking van je steekproef (s), ga je gebruiken om je sigma te schatten. De formules veranderen en er is een andere kansverdeling.

De standaardafwijking van de steekproevenverdeling wordt nu: SE_x = s / √n

SE staat voor Standaard Error. De standaarderror wordt gebruikt omdat de uitkomst een schatting is en dus niet zeker is.

De toetsingsgrootheid van de t-toets ( zie dia 6, voor aangepaste formules).

De standaardafwijking wordt eigenlijk vervangen door de standaarddeviatie. De t-verdeling is niet meer normaal verdeeld en er is sprake van vrijheidsgraden (df = degrees of freedom): N – 1. Dit geeft aan dat bij iedere andere steekproefgrootte, de verdeling van t-waarde er iets anders uit ziet. Bij de t-verdeling is er meer spreiding, dikkere staarten en is platter in het midden. Meer spreiding is een uiting van onzekerheid. Hoe meer vrijheidsgraden, hoe meer de t-verdeling de z-verdeling benaderd. In tabel D kunnen de t-waarden worden gevonden van M&M. De toetsingsredering blijft hetzelfde. Bij de toets keuze bepaal je welke alpha je gebruikt, meestal is dit 5%.

Toetsingsschema is hetzelfde als bij de Z-toets. Stappen zijn gelijk tot het punt waar de SD nodig is. Wanneer de SD niet bekend is gebruik je de T-toets wanneer de N ligt tussen 40-100. Wanneer het boven de 100 ligt mag je de Z-toets gebruiken.

Bij het voorbeeld op de sheets is Mu = gemiddelde populatie (6.23. De onderzoeksvraag: is gemiddelde tevredenheidsscore van Leidse studenten anders? Je hebt het hier over gemiddelden niet over individuele scores. Kijk naar de onderzoeksvraag. Is die één-zijdig of twee-zijdig? Het voorbeeld is tweezijdig, kan twee kanten op.

Vervolg toetsingsschema 4

P is de kans dat je een dergelijk gemiddelde vind dat ze bij de populatie zouden horen. Let wel op dat de tabel in het boek de p-waarden voor de rechterkant van de verdeling aangeeft.

Eenzijdige P-waarde tussen de .01 en .02
Tweezijdige P-waarde tussen de .02 en .04

Wanneer je tweezijdig toets doe je de p-waarde maal 2.

Vervolg toetsingsschema 5

Beslissing : de P waarde is kleiner dan de alpha dus de 0-hypothese wordt verworpen.

Beantwoorden onderzoeksvraag : de gemiddelde tevredenheidsscore van de Leidse studenten wijkt af van het landelijk gemiddelde. De Leidse studenten zijn meer tevreden dan de populatie.

Het t-betrouwbaarheidsgebied

Wanneer de standaardafwijking in de populatie onbekend is verandert de formule ook. Het c% betrouwbaarheidsgebied van het gemiddelde: x̄ ± t* s / √n

De t* is de waarde waarbij het oppervlak onder de verdelingscurve van de t-verdeling met n – 1 vrijheidsgraden tussen -t* en t* gelijk is aan C%. Je schat dat het populatie gemiddelde ergens binnen het betrouwbaarheidsinterval ligt.

	σ bekend	σ onbekend
C% betrouwbaarheidsinterval	x̄ ± z* σ / √n	x̄ ± t* s / √n
Toesten voor het populatiegemiddelde μ	z = (x̄ - μ₀) / (σ / √n)	t = (x̄ - μ₀) / (s /√n)
Verdeling	Standaardnormaal	t-verdeling df = n - 1

Power, type I en type II fouten

Significantieniveau α geeft weer hoe betrouwbaar een methode is bij herhaald gebruik. Bij een zeer kleine alpha heb je meer zekerheid dat de beslissing om de nulhypothese te verwerpen bijna nooit zal gebeuren op basis van random steekproeffluctuatie.

Bij de hypothesetoetsing verwerp je de nulhypothese H0 of je doet dat niet. De alternatieve
hypothese Ha geeft de richting aan van het verwerpingsgebied. Hazegt eigenlijk dat Ho niet klopt. Je kiest bij een beslissing echt tussen twee alternatieven (H0ofHa). Het kan zo zijn dat beide waar zijn waardoor er twee soorten fouten gemaakt kunnen worden. In het volgende overzicht staat wat er kan gebeuren als je een beslissing maakt.

		‘Waarheid’
		H₀ waar
Beslissing op basis van de steekproef	H₀ verworpen	Foute beslissing: Type I fout
	H₀ niet verworpen	Goede beslissing

Bij de type I fout verwerp je de H

H₀ onterecht. H₀ is dus waar (je concludeert dat er iets aan de hand is maar in werkelijkheid is er niks aan de hand). De kans op deze fout is even groot als het significantieniveau . Bij de type II fout verwerp je H₀ onterecht niet, dit had dus eigenlijk wel gemoeten (er is iets aan de hand maar je concludeert dat ze hetzelfde zijn). Je verwerpt H_a . H_a is waar. De goede beslissing kan echter ook genomen worden.

Power I

Hoe groter je steekproef, hoe groter de power. Power is de kans dat een toets met significantieniveau terecht H₀ verwerpt voor een specifiek alternatief in H_a . Power geeft ook de gevoeligheid van de test voor een bepaald alternatief aan. Als je weinig Power hebt zal je slecht in staat zijn om fouten te detecteren. Als je een grote power hebt heb je het vermogen om fouten sneller op te sporen.

Power II

De power kan alleen bepaalt worden voor een specifiek alternatief H_a . Een andere H_a geeft een andere power/ kans. Bij power en type II fout vormen de kans op een type II fout voor een specifiek alternatief is gelijk aan 1 – power voor dat alternatief.

Als de alpha kleiner wordt ontdek je minder snel de H_a als deze waar is. Je kans op type I fout wordt dus kleiner, terwijl je kans op type II fout groter wordt. Als de gemiddelden van H_a en H₀ dichter bij elkaar liggen ontdek je minder snel de H_a als deze waar is. Bij meer personen in een steekproef zal de standaardafwijking van je steekproevenverdeling kleiner worden. Achteraf kijken is anders dan vooraf. Power betekent dat je verschil ontdekt. Power kan verhoogd worden door groter te maken, een alternatieve waarde te kiezen die ver van afligt, de steekproef te vergroten of de standaardafwijking te verkleinen. Bij power en fouten in de praktijk zijn er een aantal stappen om te volgen. Ten eerste stel je H₀ en H_a op. Het is van belang te denken aan de Type I en II fouten. Je probeert de Type II fout zo klein mogelijk te krijgen en de power dus zo groot mogelijk. Je kan dit bereiken door N in de steekproef te vergroten.

Power in de praktijk

Vooraf bedenken : heeft de onderzoeksopzet voldoende power?

Steekproef van 25 kijkertjes voldoende?

Achteraf te bedenken

Nadenken over de Power en de fouten die he hebt kunnen maken. Als je eenmaal een toets gedaan hebt, wat is de kans op een type 1 en type 2 error?

Verschil van 15 vonden zij belangrijk, ze vonden een verschil van tien en dit is significant, wat kunnen wij hierover zeggen?

Misschien had dit onderzoek niet genoeg power? Er was wel genoeg power.
Ze hebben in ieder geval geen type 1 fout gemaakt, want er is een verschil gevonden? Als je verwerpt, kan je altijd een type 1 error fout maken.
De kans bestaat dat ze een type 2 fout gemaakt hebben? Nee want er wordt verworpen en de type 2 fout is dat je onterecht niet verwerpt.

Wat kun je doen om de power te verhogen?

Maakt de alpha groter
Kies een alternatieve waarde die ver van Mu0 ligt
Vergroot de steekproef (n)
Verklein sigma

College 14: Relaties in kruistabellen en de chi-kwadraattoets

M&M 2.5 en 9.1

Kruistabellen worden gebruikt wanneer je de samenhang wilt bepalen tussen twee categorische variabelen. Er kan dus ook niet iets als een correlatie berekend worden, hiervoor zijn numerieke variabele nodig. Er moet dus op een andere manier naar deze informatie gekeken worden. Bij absolute aantallen moet gekeken worden naar percentages. Alle combinaties worden weergegeven en hierbij zijn er een rijvariabele en een kolomvariabele. Een resultaat wordt in een cel weergegeven en is één van de mogelijke combinaties.

Er zijn verschillende manieren om te kijken naar je gegevens:

Gezamenlijke verdeling (joint distribution)

De celwaarden worden gedeeld door het hele aantal. Je krijgt proporties hoe de categorieën verdeeld zijn over alle mensen. Je hebt een verdeling gemaakt over de hele groep.

Marginale verdeling (marginal distribution)

Je kijkt naar de verdeling van één variabele. Je deelt door de totale steekproefgrootte. Dit kan in proporties (bijvoorbeeld 0.52), maar ook in percentages (bijvoorbeeld 52%). De verdeling staat los van het resultaat van de andere variabele. In de collegesheets wordt een duidelijk voorbeeld behandeld van het aantal geslaagden en gezakte voor deeltoets A en deeltoets B voor OP1.

Relaties in kruistabellen

Wanneer je de relaties tussen twee verschillende resultaten wilt weten, heb je weinig aan de eerder benoemde percentages. Je zal dan moeten gaan kijken naar de conditionele verdeling (conditional distribution). Hier percenteer je door één variabele. Vaak deel je dan door een onafhankelijke variabele, maar in praktijk is die er niet altijd en spreek je meer van een predictor. Je maakt bijvoorbeeld de conditie meisjes ‘100%’ en de conditie jongens ‘100%’. Waarna je kan gaan kijken: hoeveel procent van de meisjes speelt met een pop en hoeveel procent van de jongens. In dit voorbeeld (sheet 8) kan je dus van boven naar beneden de verschillen zien en van links naar rechts heb je 100%. Bij een conditionele verdeling kun je in één oogopslag zien hoe de variabele in verhouding staan tot elkaar. Interpreteer de kruistabellen nooit aan de hand van absolute aantallen. Interpreteer een kruistabel nooit aan de hand van absolute aantallen. Altijd aan de hand van percentages.

Chi-kwadraat toetsen

Als je wilt kijken of een verband ook bestaat in een populatie, ga je dit statistisch toetsen. Als voorbeeld zeggen we dat de H₀ stelt dat er geen verband is tussen het slagen voor deeltoets A en het slagen voor deeltoets B. De H_a stelt dat er wel een verband is. Om te toetsen of er een verband is vergelijk je de geobserveerde frequenties met de verwachte frequenties (dit is de chi-kwadraat). Hoe groter het verschil tussen de verwachte en geobserveerde waarde, hoe groter het chi-kwadraat wordt en hoe kleiner de bijhorende P-waarde. De formule van het chi-kwadraat: x² = ‘sommatie’ van (geobserveerde waarde - verwachte waarde)in het kwadraat / verwachte waarde. Die tel je dan allemaal bij elkaar op, vandaar het sommatie teken. De verwachte frequentie bereken je als volgt = (rijtotaal x kolomtotaal) / N. De percentages zijn gelijk.

Kenmerken van de chi-kwadraat verdeling

De chi-kwadraat verdeling is afhankelijk van het aantal vrijheidsgraden. Vrijheidsgraden worden berekend door (r-1)x(c-1). C staat hierbij voor het aantal categorieën in de kolommen, r voor het aantal categorieën in de rijen.
Er worden alleen positieve waarden aangenomen (het is in het kwadraat, dus kan nooit negatief zijn).

Hoe meer rijen en/ of kolommen, hoe symmetrischer de vorm van de verdeling is.

De vorm wordt bepaald door het aantal vrijheidsgraden.
De nulhypothese is dat er geen relatie tussen de rij- en kolomvariabelen is. De alternatieve hypothese stelt dat er wel een relatie is. Bij de chi-kwadraattoets bestaat er dus geen formele notering voor de hypothesen. De chi-kwadraat kan niet negatief zijn. Tabel F is nodig om de chi-kwadraat waarde in op te zoeken. Een chi-kwadraat is altijd tweezijdig, dus vermenigvuldig p niet met 2!

De chi-kwadraat gaat dus niet meer over gemiddelden, omdat we werken met categorische variabelen, hier is geen gemiddelde voor. Er is geen formele notatie van de hypothese van een chi-kwadraat. P, waar je naar opzoek bent zal altijd aan de rechter kant liggen.

Toetsingsschema Chi-kwadraattoets voor onafhankelijkheid

Stap 1 : formuleer een onderzoeksvraag
Stap 2 : hypothesen opstellen
Stap 3 : toetskeuze + significantieniveau : Chi-kwadraat toets voor onafhankelijkheid want we hebben hier met een kruistabel te maken. Kies α zeg α = 0.05 aantal vrijheidsgraden : (r-1)(-1)
Als P > α verwerp H₀ niet.
Als p < α verwerp H₀ .
Stap 4 : berekening : X2 =…=4.59
Stap 5 : p-waarde : bij df 1 vrijheidsgraad is de p-waarde kleiner dan 0.05. Kleiner dan 0.05 is significant bij een chi-kwadraat.
Stap 6 : Beslis of je H₀ verwerpt of juist niet. Voorbeeld op de sheets: je verwerpt H0, er is een verband tussen geslacht en speelgoedkeuzes. Hoe ziet het verband er uit? Kijk terug naar je percentages om inhoudelijk te interpreteren.
Stap 7 : concludeer of er en verband is.

Simpson’s paradox

Dit heeft te maken met het derde variabele probleem die een verband kan verklaren. Stel je voor dat uit een steekproef blijkt dat medicijn B effectiever werkt dan medicijn A. Als je echter de resultaten van mannen en vrouwen splitst blijkt medicijn A effectiever te werken. De tegenstrijdigheid kan verklaard worden doordat het medicijn bij vrouwen minder aanslaat dan bij mannen en vrouwen dit voornamelijk toegediend krijgen. De vrouwen krijgen het meest effectieve medicijn en de mannen het minst effectieve medicijn, maar bij vrouwen slaan de medicijnen überhaupt minder goed aan. Deze tegenstrijdigheid heet simpson’s paradox. De resultaten draaien precies om. Dit geeft aan hoe erg opgepast moet worden voor lurcing variables. Driewegtabel voor een 3e variabele.

Bron

Deze aantekeningen zijn gebaseerd op colleges uit 2015/2016.

Access:

Public

Click & Go to more related summaries or chapters

Studiegids met college-aantekeningen voor Pedagogiek Bachelor 1 aan de Universiteit Leiden

College-aantekeningen bij Inleiding in de pedagogische en onderwijswetenschappen 1A (IPO1A) aan de Universiteit Leiden - 2015/2016

College-aantekeningen bij Inleiding in de pedagogische en onderwijswetenschappen 1B (IPO1B) aan de Universiteit Leiden - 2015/2016

College-aantekeningen bij Inleiding in de Psychologie voor Pedagogen (Deel A en B) aan de Universiteit Leiden - 2015/2016

College-aantekeningen bij Inleiding in de Psychologie voor Pedagogen (Deel A en B) aan de Universiteit Leiden - 2013/2014

Studiegids met college-aantekeningen voor Inleiding in de ontwikkelingspsychologie aan de Universiteit Leiden

College-aantekeningen bij Inleiding in de praktische filosofie aan de Universiteit Leiden - 2015/2016

College-aantekeningen bij Onderzoekspracticum 1 aan de Universiteit Leiden - 2015/2016

College-aantekeningen bij Inleiding in de pedagogische en onderwijswetenschappen 2A (IPO2A) aan de Universiteit Leiden - 2015/2016

College-aantekeningen bij Inleiding in de pedagogische en onderwijswetenschappen 2B (IPO2B) aan de Universiteit Leiden - 2015/2016

Pedagogiek Leiden: samenvattingen en studiehulp - Thema

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check more of topic:

International expat insurances

Travel & Worldsupporter insurances (NL)

Study with summaries

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Spotlight: topics

Check the related and most recent topics and summaries:

Activities abroad, study fields and working areas:

Hoorcollegeaantekeningen Onderzoekspracticum 1 (college 1, 2 en 3)

Check how to use summaries on WorldSupporter.org

Submenu: Summaries & Activities

Follow the author: Social Science Supporter

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics

External and related links:

Statistiek & Methoden: studie en kennis

Onderzoeker & Wetenschapper: stagelopen tot werken het buitenland

Studeren in het buitenland verzekeren

Competenties en kwaliteiten verbeteren en versterken

Search a summary, study help or student organization

Select any filter and click on Search to see results