Samenvatting van de colleges week 3 t/m 5 (OP1)

College 3: Centrale tendentie, variabiliteit, schaaltransformaties
College 4: Meten in de gedragswetenschap, ethiek
College 5: Standaardnormaalverdeling

College 3: Centrale tendentie, variabiliteit, schaaltransformaties

Centrale tendentie

Stel, wij willen van 6 studenten uit het eerste jaar die bijles hebben gevolgd voor statistiek weten hoe hoog zij scoren op het tentamen van onderzoekspracticum 1. Zij hebben de volgende cijfers gehaald:

Student	Cijfer
1	7
2	6
3	6.5
4	8
5	7
6	7.5

Dit willen wij samenvatten in één nummer. De vraag hierbij is: hoe doen we dit? Hier zijn verschillende manieren voor oftewel er zijn verschillende maten voor centrale tendentie.

Centrale tendentie, het gemiddelde

Het gemiddelde bereken je door alle waarden bij elkaar op te tellen en deze te delen door het aantal waarden. De formule luidt:

Oftewel

Stel, we hebben n observaties met waarden x1, x2… dan is het gemiddeld (x-bar) van deze observaties.

De bovengenoemde studenten hebben volgens deze formule gemiddeld een 7 gehaald.

Stel dat er een student bij is gekomen die een 1.0 heeft gehaald. De rest van de cijfers zijn hetzelfde gebleven:

Het gemiddelde is van een 7 naar een 6.14 gezakt, omdat er een extra waarneming bij is gekomen. Met één extra waarneming is het gemiddelde bijna met een heel punt gezakt en alle studenten op twee na scoren boven het gemiddelde. Dit laat zien hoe gevoelig het gemiddelde is voor uitbijters. Een uitbijter is een extreme waarde die sterk afwijkt van de rest van de waarden. Het gemiddelde kan hierbij flink omlaag of omhoog gaan. Hierdoor kan het voorkomen dat er veel studenten boven of onder het gemiddelde scoren. Het gemiddelde is dus geen resistente centrummaat.

Centrale tendentie, de mediaan

De mediaan M, ofwel middelpunt van de verdeling. Dat getal waarvoor geldt dat de ene helt van de waarneming eronder valt en de andere helft erboven. Hoe vinden we de mediaan:

Alle getallen rangordenen van klein naar groot.
Heb je oneven aantal waarnemingen is het middelste getal de mediaan. De locatie van de mediaan vind je door de formule : (n+1)/2.
Bij een even aantal is de mediaan het gemiddelde van de middelste twee waarnemingen de mediaan. De locatie van de mediaan vind je door de formule : (n+1)/2.

Voorbeeld 1: We nemen de cijfers van de studenten die we eerder in dit college gebruikten. Deze rangordenen we van klein naar groot: 6 – 6.5 – 7 – 7 – 7.5 – 8. We hebben hier 6 waarnemingen, de locatie van de mediaan is dus (6+1)/2=3,5. De mediaan zit tussen het 3^e en 4^e getal in. In dit geval tussen twee zevens. De mediaan is dus 7.

Voorbeeld 2: We nemen de cijfers van de studenten die we eerder in dit college gebruikten met de 7^e student met een 1 erbij. Deze rangordenen we van klein naar groot; 1 – 6 – 6.5 – 7 – 7 – 7.5 – 8. We hebben hier 7 waarnemingen, de mediaan is dus (7 + 1)/2 = 4. De locatie van de mediaan is dus het 4^e getal. In dit geval is dit de 7.

Voordelen van de mediaan ten opzichte van het gemiddelde:

Ondanks één extreme waarneming is de mediaan onveranderd gebleven
Evenveel studenten scoren boven als onder de mediaan
Ongevoelig voor extreme waarnemingen, de mediaan is dus een resistente centrummaat. Let op: de mediaan kan wel veranderen, maar nooit zo veel als het gemiddelde.

Bij een symmetrische verdeling zijn het gemiddelde en de mediaan gelijk. Naar mate de verdeling schever is, verschillen de mediaan en het gemiddelde meer van elkaar.

Variabiliteit

Met het gemiddelde en de mediaan kan je niet alle eigenschappen van een verdeling beschrijven. Dit zijn maten voor centrale tendentie, maar geven niet aan hoeveel waarnemingen gespreid liggen rondom het centrum

Voorbeeld:

Student	Cijfer	Student	Cijfer
1	7	1	7
2	6	2	10
3	6.5	3	3
4	8	4	9
5	7	5	4
6	7.5	6	9

Variabiliteit, de variantie

In beide gevallen is het gemiddelde 7, mar in de 2^e tabel variëren de waarden veel meer. Centrummaten alleen zijn dus niet genoeg om verdelingen te beschrijven, maar spreidingsmaten zijn dus ook belangrijk. Variantie is een maat voor spreiding.

Van iedere persoon kunnen we de afwijking tot het gemiddelde uitrekenen. Het gemiddelde in de eerste tabel uit het vorige voorbeeld was een 7. Als we van elke waarde 7 aftrekken hebben we de afwijking per persoon uitgerekend. Als we al deze afwijkingen bij elkaar optellen en delen door het totaal aantal waarnemingen krijgen we altijd 0 (de gemiddelde afwijking is dus altijd 0), omdat de positieve en negatieve getallen elkaar opheffen. We moeten dus zoeken naar een manier om ‘-‘ op te heffen. Een veel gebruikte manier om negatieve getallen positief te maken is kwadrateren. Kwadrateren is beter dan het weglaten van de ‘-‘tekens, omdat we met gekwadrateerde getallen meer berekeningen uit kunnen voeren dan met absolute getallen.

Student	Cijfer	Afwijking tov gemiddelde	Gekwadrateerde afwijking tov gemiddelde
1	7	7 – 7 = 0	(7 – 7) ² = 0²
2	6	6 – 7 = -1	(6 – 7) ² = (-1) ²
3	6.5	6.5 – 7 = -0.5	(6.5 – 7) ² = (-0.5) ²
4	8	8 – 7 = 1	(8 – 7) ² = 1²
5	7	7 – 7 = 0	(7 – 7) ² = 0²
6	7.5	7.5 – 7 = 0.5	(7.5 – 7) ² = 0.5²

Als we alle gekwadrateerde afwijkingen bij elkaar optellen krijgen we de totale kwadratensom (Total sum of squares). Om een gemiddelde gekwadrateerde afwijking te vinden delen we door n-1. Je hoeft niet te weten waarom we door n-1 delen, alleen dat het voor een eerlijkere weergave zorgt dan wanneer we alleen door n delen. Dus:

Deze maat noemen we de variantie (s)² en is conceptueel de gemiddelde gekwadrateerde afwijking tot het gemiddelde. De formule luidt:

Oftewel:

Als we kijken naar de twee tabellen die eerder zijn gebruikt waarbij bij beide tabellen het gemiddelde 7 was, zien we dat bij de eerste tabel de variantie 0.5 is en bij de tweede tabel is de variantie 8.4.

Variabiliteit, de standaarddeviatie

Het probleem met de variantie is dat de gemiddelde gekwadrateerde afwijking moeilijk inhoudelijk te interpreteren is. Vandaar dat we gebruik maken van de standaarddeviatie. De standaarddeviatie (s) is de wortel uit de variantie. De standaarddeviatie geeft aan hoeveel de waarden gemiddeld afwijken tot het gemiddelde. De standaarddeviatie is wel makkelijk te interpreteren In het voorbeeld van de twee tabellen is in de eerste tabel de standaarddeviate 0.71 en in de tweede tabel 2.90. De officiële formule luidt:

Eigenschappen standaarddeviatie:

s geeft de gemiddelde spreiding rondom het gemiddelde aan. Enkel te gebruiken wanneer gemiddelde als centrummaat wordt gekozen
Wanneer er geen spreiding is: s = 0

Bijvoorbeeld iedereen haalt een 7, gemiddelde is automatisch ook 7. S = 0

S en s² zijn niet resistent, uitbijters kunnen grote invloed hebben. Bij uitbijters of scheve verdelingen kun je beter gebruik maken van een andere spreidingsmaat, namelijk kwartielen, percentielen en de mediaan.

Variabiliteit, kwartielen

Percentielen: p-de percentiel is de waarde waarvoor geldt dat p procent van alle waarden onder die waarde valt. De mediaan is het 50^ste percentiel. 50% van alle waarnemingen valt er onder en 50% valt er boven. Kwartielen kunnen ook worden weergegeven in percentielen. De mediaan is bijvoorbeeld het 50^e percentiel

Kwartielen delen de waarneming in 4 gelijke delen op:

Eerste kwartiel Q1: Is het 25^e percentiel. 25% van de waarnemingen valt onder Q1
Tweede kwartiel: de mediaan, 50% van de waarnemingen valt onder de mediaan, 50% valt erboven
Derde kwartiel Q3: Is het 75^e percentiel. &5% van de waarnemingen valt onder Q3.

Berekeningen kwartielen

Rangordenen van de observaties van laag naar hoog
De mediaan berekenen
Eerste kwartiel Q1 is de mediaan van de waarnemingen onder de algehele mediaan
Derde kwartiel Q3 is de mediaan van de waarnemingen van de kwartielen boven de algehele mediaan

Voorbeeld: Behaalde cijfers voor OP1: 4, 5, 3, 4, 4, 5, 6, 4, 6, 5, 4, 7, 8, 4

Rangordenen: 3, 4, 4, 4, 4, 4, 4, 5, 5, 5, 6, 6, 7, 8
Mediaan: (14+1)/2= 7.5. De mediaan is het gemiddelde van 4 en 5 = 4.5
Mediaan: 3, 4, 4, 4, 4, 4, 4 | 5, 5, 5, 6, 6, 7, 8
Eerste kwartiel: Voor Q1 kijken we alleen naar de getallen onder de mediaan: 3, 4, 4, 4, 4, 4, 4. (7+1)/2= 4. Q1 is dus het vierde getal, wat in dit geval 4 is. 3, 4, 4, 4, 4, 4, 4.
Derde kwartiel: Voor Q3 kijken we alleen naar de getallen boven de mediaan: 5, 5, 5, 6, 6, 7, 8. (7+1)/2=4. Q1 is dus het vierde getal, wat in dit geval 6 is. 5, 5, 5, 6, 6, 7, 8

Q1 = 4, M=4,5, Q3=6

Variabiliteit, de vijfnummersamenvatting (five-number summary)

De vijf-nummersamenvatting van een stel observaties bestaat uit de laagste waarneming, het eerste kwartiel, de mediaan, het derde kwartiel en de hoogste waarneming. Het idee hierachter is een zo volledig mogelijk beeld geven van de spreiding. Dus:

Minimum > Q1 > M > Q3 > Maximum

Een boxplot geeft de vijfnummersamenvatting grafisch weer. De onderkant van de box geeft Q1 weer, de bovenkant van de box geeft Q3 weer. De lijn in de bos geeft de mediaan weer. De lijnen boven en onder de box strekken uit tot aan de minimum en maximum geobserveerde waarden.

Variabiliteit, de interkwartielafstand (Interquartile range, IQR)

Zoals eerder beschreven: de variantie en standaarddeviatie zijn geen resistente maten tegen uitbijters (extreme waarnemingen). Er is een alternatieve maat: de interkwartiel afstand. Deze maat is minder gevoelig voor extreme waarden dan de standaarddeviatie.

IQR= Q3 - Q1

Voorbeeld:

Student	Cijfer	Student	Cijfer
1	7	1	7
2	6	2	6
3	6.5	3	6.5
4	8	4	8
5	7	5	7
6	7.5	6	7.5
		7	1
Mediaan: 6, 6.5, 7 \| 7, 7.5, 8 Q1 en Q3: 6, 6.5, 7 \| 7, 7.5, 8 IQR: Q3 – Q1 = 7,5 – 6.5 = 1		Mediaan: 1, 6, 6.5, 7, 7, 7.5, 8 Q1 en Q3: 1, 6, 6.5, 7, 7, 7.5, 8 IQR: Q3-Q1 = 7.5 – 6 = 1.5

De interkwartielafstand is ‘maar’ 1.5x zo groot, ondanks de uitbijter. De standaarddeviatie is in dit voorbeeld ruim 3x zo groot ( 0.71 in de eerste tabel en 2,36 in de 2^e tabel). IQR is alleen zinvol bij uitbijters, niet bij een scheve verdeling.

Voor uitbijters bestaat de ‘1.5 x IQR’ regel. Dit wilt zeggen dat een waarneming vermoedelijk een uitbijter is wanneer hij meer dan 1.5 x IQR onder het eerste of boven het derde kwartiel valt.

1, 6, 6,5, 7, 7, 7,5, 8
IQR: 7,5 – 6 = 1.5
1.5 x 1.5 = 2.25
Alles lager dan 6 – 2.25 = 3.75 en hoger dan 7.5 + 2.25 = 9.75 is een uitbijter. In dit voorbeeld is 1 dus een uitbijter.

Schaaltransformaties

Wanneer dezelfde variabele in verschillende meeteenheden gemeten kan worden wordt er gebruik gemaakt van schaaltransformaties. Bijvoorbeeld:

Snelheid in km/uur of m/s.
Temperatuur in graden Celsius, kelvin of Fahrenheit

Een meeteenheid is makkelijk te veranderen, omdat het lineaire transformaties van elkaar zijn. We gebruiken de formule: xnieuw = a + bx (a = constante)

Voorbeeld: van km/uur naar m/s:

1 km = 1000 m > dit weten we
1 uur = 3600 sec > dit weten we
1km/uur = 1000/3600 = 0,2778 m/s
Xnieuw = 0,2778x
a= 0; b=0.2778
Nieuwe snelheid in meeteenheden: Aantal km x 0,2778

Dus: 120 km/uur in m/s = 0.2778 x 120 = 33.34 m/s

Voorbeeld: Celsius naar Kelvin

Als de temperatuur met 1 graad Celsius stijgt, stijgt de temperatuur in Kelvin ook met 1 graad.
0 graden Celsius =
Xnieuw = 273,15 + x
a=273.15; b=1

Dus: van 27 graden Celsius naar Kelvin: 273.15 + 27 = 300.15 Kelvin

Effecten bij lineaire transformaties:

De vorm van de verdeling verandert niet, met andere woorden : stel dat je een scheve of een normaal verdeling hebt blijft dit zo.
De gemiddelden en de mediaan veranderen wel. Vermenigvuldigen van elke observatie met b, vermenigvuldigt gemiddelde, mediaan, IQR en standaarddeviatie ook met b.
Optellen van constante a bij elke observatie, verhoogt gemiddelde, mediaan en kwartielen ook met a. Let op: standaarddeviatie en IQR blijven gelijk.

College 4: Meten in de gedragswetenschap, ethiek

Er zijn verschillende soorten metingen:

Observeren, direct zicht op het gedrag.
Fysiologische maten, metingen in/aan het lichaam, zelfrapportage -bijvoorbeeld een vragenlijst/interview.
Zelfrapportage
Het archief, dit zijn bestaande gegevens, secundair

Operationalisatie: Begrip zoals bedoeld > operationalisatie > begrip zoals bepaald. Wat ga je meten en op welke manier ga je dit doen?

Soorten onderzoek:

Beschrijvend
Correlationeel
Experimenteel
Quasi-experimenteel

Alle soorten metingen kan je doen in alle soorten onderzoek. Zo hoef je in observationeel onderzoek niet altijd alleen te observeren en bij relationeel onderzoek niet altijd alleen vragenlijsten in te vullen. De onderzoek bepaalt welke metingen bij de onderzoeksvraag passen.

Observatie

Als er wordt gekozen voor observeren moeten er drie beslissingen worden gemaakt.

Welke setting kies ik? Natuurlijke omgeving of vooropgezet (contrived)?
Hoe stel ik mijn onderzoeker op? Verborgen of openlijk
Welke observatie methode gebruik ik?

Welke setting kies ik?

Natuurlijke omgeving: In een naturalistische setting wordt er geobserveerd in een natuurlijke omgeving. Zonder interventie van de onderzoeker. Participerende observatie is een belangrijke methode om in de natuurlijke omgeving van mensen te observeren. Het is een realistische context, je bevindt je in de situatie waarin de onderzochte groep zich ook bevind. Bijvoorbeeld: op een schoolplein kijken hoe ouders en kinderen met elkaar omgaan. In deze situatie is de context zichtbaar en spontane gebeurtenissen kunnen worden gezien. Er komen gedragingen naar voren waar je als onderzoeker niet altijd over na hebt gedacht. Het nadeel is dat je weinig controle hebt over je onderzoek, je hebt onbewust altijd invloed op de groep waar je observeert, je wordt zelf deel van het onderzoek, het is redelijk subjectief. Conclusies trekken wordt dus moeilijker. Je moet je afvragen of dit invloed heeft op het coderen.
Vooropgezet: In een vooropgezette setting is de situatie ingericht voor observatie en registratie van het gedrag. Je weet van begin tot eind hoe je het aanpakt en wat er gaat gebeuren. Een voorbeeld is de vreemde situatie procedure, hierbij kan je je afvragen of de reacties thuis hetzelfde zullen zijn. Bij deze setting heb je veel controle en veel overzicht. Het nadeel is dat de setting niet realistisch is voor de proefpersonen. Dingen die kunnen voorvallen in een natuurlijke setting zullen in de vooropgezette setting minder vaak voorvallen. De vraag is dus of het wel realistisch is.
Veldexperiment: In een veldexperiment wordt er gezocht naar een tussenvorm tussen de natuurlijke omgeving en manipulatie van de omgeving. Het is realistischer dan laboratoriumonderzoek, maar er is toch een zekere mate van controle. Bijvoorbeeld; keihard bellen in de stilte coupe in de trein of een ongeluk in scene zetten. Hierbij kan je kijken hoe mensen reageren, maar je hebt wel invloed op de situatie. Let op: niet verwarren met een experimentele opzet!

Hoe stel ik mijn onderzoeker op?

Verborgen: De onderzoeker kan zich zelf verborgen opstellen, hierin weten de participanten niet dat er iemand naar ze kijkt. Nadeel hiervan is dat er vaak ethische problemen aan hangen. Ook is het moeilijk om in sommige situaties binnen te komen als verborgen onderzoek. Bijvoorbeeld: een kinderdagverblijf, hier kan je niet zomaar binnenlopen en gaan observeren.
Open: De onderzoeker kan ook openlijk worden opgesteld, hier weten de participanten wel dat ze worden geobserveerd. Nadeel hiervan is de reactiviteit, de reactie van mensen kan veranderen omdat zij weten dat ze worden geobserveerd (hierdoor gaan zij sociaal wenselijk gedrag vertonen).
Tussenoplossingen: Er zijn ook tussenoplossingen mogelijk:

Niet alles vertellen: Tot op een zekere hoogte informatie geven. Zo kan je bijvoorbeeld niet alle details geven of alleen leidinggevenden inlichten.
Informanten gebruiken: Andere mensen die informatie verzamelen, bijvoorbeeld: vrienden van de proefpersoon laten observeren
Indirect meten: Meten zonder directe observatie. Bijvoorbeeld: in het vuilnis kijken hoeveel flessen drank erin zitten om te kijken of iemand een alcoholist is.

Welke observatiemethode gebruik ik?

Welke methode je ook gebruikt, betrouwbaarheid is altijd belangrijk. Dit wordt onder andere gecheckt door te kijken of persoon A en B hetzelfde observeren en coderen (inter-beoordelaars betrouwbaarheid). Er zijn vier observatiemethoden:

Narratieven: de narratieve methode is ongestructureerd. Hierin wordt het gedrag exact geregistreerd. Dit is erg gedetailleerd en allesomvattend. Wel is deze methode erg intensief, tijdrovend en onoverzichtelijk. Deze methode wordt vooral bij kwalitatief onderzoek gebruikt. Na een dag krijg je een enorme lap tekst en wat moet je hier mee, hoe ga je dit analyseren. Ook moet je jezelf afvragen of je wel alles ziet. Meestal heb je al een idee in je hoofd als je begint met observeren, je kan hierdoor onmogelijk alles zien. Je kan zeggen dat je heel gedetailleerd bent, maar hoe weet je zeker dat je niks over het hoofd hebt gezien.
Checklist: Wanneer er gebruik wordt gemaakt van een checklist wordt de aanwezigheid of afwezigheid van gedrag geregistreerd, dus hoe vaak iets gedaan wordt. Het voordeel hierbij ligt is het gebruiksgemak en het is overzichtelijk en gemakkelijk te analyseren. Wel heb je duidelijke operationele definities nodig, omdat het redelijk subjectief is. Het gedrag wat onderzocht zal worden moet duidelijk gedefinieerd zijn. Checklists worden bijvoorbeeld in het onderwijs vaak gebruikt om te beoordelen of kinderen zich goed ontwikkelen. Één nadeel van deze methode is dat je in een grote groep dingen kan missen, zo kan een kind wel iets beheersen, maar niet laten zien op het moment dat je op het kind let. Ook wordt er alleen vanuit criterium gecheckt en wordt er vaak niet verder gekeken.
Tijdsmetingen: Wanneer er gebruik wordt gemaakt van tijdmetingen wordt er gekeken hoelang er zit tussen twee gedragingen of een gebeurtenis en een gedraging (= de latency tijd). Ook kan er worden gekeken hoe lang bepaalde gedragingen duren. Bijvoorbeeld: troosten door de moeder of een driftbui van een kind. Dit is gemakkelijk te meten en te analyseren. Wel is het moeilijk om het te interpreteren. Je moet je afvragen wat de tijden inhouden en betekenen.
Ratingscales: Dit zijn beoordelingsschalen. Deze meten de kwaliteit en intensiteit van het gedrag. Op deze manier krijg je meer informatie en dit is makkelijk te analyseren. Wel is er kans dat de observatoren anders beoordelen. Wat de één sensitief vindt, vindt de ander bijvoorbeeld niet sensitief. Hier ligt het probleem in de subjectiviteit van de beoordelaars en de afbakening van definities. Observatoren moeten met voor deze observatiemethoden heel goed getraind worden.

Fysiologische maten

Bij fysiologische maten worden processen in het lichaam gekoppeld aan psychologische processen zoals gedrag (cortisol en stress ). Dit wordt steeds vaker gebruikt in sociaalwetenschappelijk onderzoek. Voorbeelden hiervan zijn hartslagmetingen en bloedafname. Positief is dat het harde maten zijn, maar het is vaak lastig te interpreteren. Je moet je altijd afvragen wat het resultaat nou eigenlijk zegt. Vaak worden fysiologische maten en andere metingen (bijvoorbeeld vragenlijsten) gecombineerd.

Bij fysiologische maten die mensen zelf afnemen ishet belangrijk om te controleren dat mensen dit goed doen. Je moet jezelf afvragen hoe je het goed uit moet leggen en hoe je het gaat controleren.

Voorbeeld fysiologische maten:

Speeksel afnemen bij kinderen om bijvoorbeeld cortisol te onderzoeken. Hierbij kan er voor controle van de metingen een potje worden gebruikt om de tijd van speekselafname te registreren om zo zuiver mogelijk te meten.

Zelfrapportage

Bij zelfrapportage zijn er verschillende dingen die moeten worden besloten. Er kan gebruik gemaakt worden van een vragenlijst of van een interview.

Voordelen interview:

Mogelijk om te checken of mensen het begrepen hebben
Minder ontbrekende waarden
Geschikt voor kinderen, mensen met een beperking etc.
Gedetailleerd en volledig beeld mogelijk

Voordelen vragenlijst:

Anoniem
Relatief goedkoop en snel
Makkelijk te analyseren

Wanneer een vragenlijst wordt gebruikt, moet er nagedacht worden over de soort vragen. Dit kunnen open vragen zijn, een vijf-puntenschaal, multiple choice vragen (hierbij moet je altijd aangeven hoeveel antwoorden per vraag aangevinkt mogen worden. Bij meerdere antwoorden per vraag wordt analyseren moeilijker), Semantisch differentiaal

Vragen formuleren:

Je moet altijd goed nadenken over hoe je vragen formuleert. Bijvoorbeeld bij de volgende vragen:

Wat geeft u uw kind zoal te eten? Hier zijn er te veel antwoorden mogelijk, er ligt geen nadruk op een moment van de dag.
Hoe gaat u om met de driftbuien van uw peuter?: negeren, toegeven, wisselen. Hier zijn er te weinig keuzemogelijkheden, de vraag is niet uitputtend. Ten eerste moet een driftbui goed gedefinieerd worden, ten tweede ga je er van uit dat het kind driftbuien heeft.
Wat vindt u van uw opvoedingsstrategieën? Mensen weten niet precies wat hiermee bedoelt wordt. De vraag is te abstract en ruim.

Het nadeel van een vragenlijst is dat er bias kan optreden. Dit zijn vertekeningen in de antwoorden en als onderzoeker wil je zo min mogelijk vertekening hebben.

Sociale wenselijkheid: Het kan zijn dat mensen de vragenlijst sociaal wenselijk invullen, mensen doen zich hierbij beter voor dan ze zijn. Dit valt wel te controleren.,
Ja/nee zeggers: Dit zijn mensen die uitsluitend aan één kant zitten. Dit valt op te lossen door vragen regelmatig andersom te stellen, men wordt hier alerter van.
Centrale tendentie: Er kan ook centrale tendentie optreden, omdat mensen geneigd zijn om geen buitenste antwoorden in te vullen, maar deze mensen kiezen de middelste categorieën. Vooral op een driepuntsschaal kan dit problemen opleveren.
Logische fout: En er kan een logische fout ontstaan. Dit kan komen doordat bepaalde vragen erg op elkaar lijken. Bijvoorbeeld: geef je vaak leiding? en neem je vaak initiatief? Men koppelt dit aan elkaar, de nuancering vervalt en men vult hetzelfde antwoord in.. De logische fout kan worden tegengegaan door vragen die op elkaar lijken uit elkaar te trekken.

Archiefdata

Bij archiefdata worden bestaande gegevens gebruikt voor onderzoek. Het voordeel hiervan is dat de data al beschikbaar is. Een nadeel is dat je volledig afhankelijk bent van die data. Om precies te weten wat er in de data staat worden codeboeken ontwikkelt, zo weten jij en andere mensen precies wat je ook al weer bedoelde.

Soms wordt er gebruik gemaakt van meerdere methoden van dataverzameling naast elkaar. Methodologisch pluralisme is op meerdere manieren hetzelfde meten Op meerdere manieren kijken naar vergelijkbaar gedrag, kom ik op hetzelfde uit?. Bij methodologische convergentie wordt er steeds op hetzelfde resultaat uitgekomen.

Ethiek

De ethische regels kunnen op drie verschillende manieren worden toegepast.

Deontologische benadering: Er zijn ethische regels die voor iedereen gelden. Om ethisch te handelen moeten er universele regels zijn. Je mag bijvoorbeeld nooit liegen tegen een respondent dit geld voor iedereen overal en altijd.
Utilitaristische benadering: Gaat uit van kosten-baten. Wat kosten de ethische problemen en wat krijg ik ervoor terug? Gaat uit van de consequenties van wat je doet. Wat voor positiefs en negatiefs haal ik er uit en kan ik het in evenwicht brengen. Bijvoorbeeld: Ik moet liegen, maar verkrijg veel kennis. Baten zijn in deze situatie misschien hoger dan de kosten
Sceptische benadering: Het is aan de onderzoeker om een goede beslissing te nemen. Ieder onderzoek is altijd anders, de onderzoeker moet de beslissing nemen

Bij ethiek moet ook gedacht worden aan fraude. Voorbeelden hiervan zijn data verzinnen of verwijderen en plagiaat plegen.

College 5: Standaardnormaalverdeling

Verdeling

Iets wat aangeeft hoe personen over een waarde van een variabele verdeeld zijn. Kenmerken van een verdeling:

Vorm: een verdeling kan symmetrisch zijn of scheef. Als een verdeling scheef is zit de top niet in het midden, maar links of rechts van het midden.
Extreme waarnemingen: zitten er uitbijters in je verdeling? Ligt een waarde ver bij de andere waarden vandaan?
Centrum: geeft aan waar de meeste personen zitten of geeft aan waar het midden of zwaartepunt zit.
Spreiding: geeft de gemiddelde afwijking ten opzichte van het centrum weer.

Beschrijven verdeling: Vaak is het handig om een grafiek te maken, bijvoorbeeld een histogram. Je kan de vorm van de verdeling en mogelijke uitbijters zien. Ook is het handig om passende centrum en spreidingsmaten te berekenen, dan heb je een beeld wat de kenmerken van een verdeling zijn.

Belang van verdeling

Een populatie is de gehele groep mensen waar je iets over te weten wilt komen. Met de steekproef wil je iets zeggen over die populatie. Het is belangrijk om onderscheid te maken tussen de verdeling die je hebt in een bepaalde steekproef die uit een populatie getrokken is en de verdeling in de populatie. De verdeling in de steekproef geeft informatie over de onderzochte personen. De verdeling in de populatie geeft informatie over de onderzochte groep als geheel. Uitspraken over de populatie zijn wetenschappelijk het meest interessant, omdat je uitspraken niet wilt doen die niet alleen voor een bepaalde groep mensen geldt, maar voor de hele populatie. Wat je meestal doet is dat je een steekproef verzameld van mensen uit de populatie, deze onderzoek en probeert op basis van die steekproef een uitspraak te doen over de populatie.

Vandaag

We gaan het hebben over wat we voor kans uitspraken kunnen doen als we 1 persoon uit de populatie trekken. Hoe verhoudt deze persoon zich tot de populatie

Verdelingen: symmetrisch of scheef

Als we naar deze verdelingen kijken op dia 4 zijn de donker blauwe en de paarse verdelingen scheef verdeeld. De eerste is ook geen symmetrische verdeling, maar gaat er meer naar toe omdat er een top richting het midden zit.

Verdelingen steekpref en populatie

Je wilt dat je steekproef verdeling lijkt op de populatieverdeling. Ten eerste is aarbij de steekproefgrootte van belang, hoe groter de steekproef, hoe meer mensen van de populatie heb je gevangen. En tweede is de representativiteit van de steekproef van belang. We hebben hier in de collegezaal een groep pedagogiek studenten. Als we deze groep nemen als steeproef van de Nederlandse bevolking, dan geeft dit de Nederlandse bevolking als populatie niet goed weer. De steekproef is dan te homogeen qua leeftijd, geslacht, intelligentie en interesse. De groep is groot, maar niet representatief. Normaliter trekje via een random mechanisme personen uit de populatie, iedere persoon heeft een gelijke kans om in de steekproef te komen. Dan is je steekproef waarschijnlijk representatief.

Verdelingen: plaats individuele observatie

Stel een student is 1.81m lang

Hoe bijzonder is dat in de twee verdelingen op dia 6?: in de eerste histogram is het niet bijzonder, alle lengtes komen in frequentie overeen. In de tweede wel, hier is de frequentie van het aantal mensen die 1.80 lang zijn lager dan bij de andere lengtes.

Verdelingen: discreet vs. Continu

In steekproeven moeten we discreet meten. Discreet betekent dat er een beperkt aantal waarden zijn. In de populatie is vaak een continue verdeling verondersteld. Continu betekent dat alle waarden, tot oneindig achter de komma mogelijk zijn. Lichaamslengte of schoenmaat zijn variabelen die niet discreet, maar continu zijn. We moeten toch op een discrete manier meten, omdat onze meetinstrumenten vaak discreet zijn, Bijvoorbeeld: een meetlat, deze meet discreet in meters en centimeters. Populatie verdelingen zijn vaak ‘vloeiender’ dan de steekproevenverdeling, omdat in de steekproef continue variabelen discreet gemeten zijn. Wanneer er een histogram van een continue variabele wordt gemaakt geldt: hoe groter het aantal observaties en klassen, hoe gelijkmatiger de verdeling. Een curve is een ideaal plaatje. Het is nooit de werkelijkheid, maar een benadering van wat er in populatie gebeurt.

Dichtheidscurven

Een curve is een ideaal plaatje. Het is nooit de werkelijkheid, maar een benadering van wat er in populatie gebeurt. Een curve zou vloeiend zijn met oneindig veel observaties en klassen. Een dichtheidscurve is een wiskundige benadering van de werkelijkheid en worden gebruikt om populaties te beschrijven. De totale oppervlakte onder de curve is 1 ofwel 100%. De oppervlakte onder de curve is een percentage van de populatie. De oppervlakte is makkelijker in te schatten bij symmetrische verdelingen.

Bepalen of een observatie bijzonder is:

Oppervlakte van de staaf waarin de observatie valt bekijken: hoe langer het staafje, hoe groter de oppervlakte.
Oppervlakte van andere staven bekijken (hoeveel personen scoren hoger of lager)
Oppervlakte uitdrukken in proporties/percentages van het totaaloppervlakte. Dan krijg je een kans dat je bijvoorbeeld iemand van 1.81m of groter vindt.

Van dichtheidscurven met een specifieke vorm zijn de percentages bekend. Deze staan in tabellen weergeven.

Dichtheidscurven: centrummaten

Het gemiddelde in de verdeling is de balanspunt. Dit komt niet, omdat er aan beide kanten evenveel oppervlakte is. De modus is de top/piek van de verdeling en de mediaan is het midden van de verdeling. 50% van de waarnemingen ligt links en 50% ligt rechts. Bij een symmetrische verdeling is de mediaan gelijk aan het gemiddelde. Bij een groot verschil tussen de mediaan en het gemiddelde is er sprake van een scheve verdeling. Het gemiddelde trekt naar de staart van de verdeling, omdat deze maat gevoelig is voor extreme waarnemingen(uitbijters).

Normaalverdeling

We hebben een specifieke dichtheidscurve die we vaak gebruiken, namelijk de normaalverdeling. Dit is een theoretische dichtheidscurve en wiskundig model waarin we populaties zo goed mogelijk proberen te beschrijven. Bijvoorbeeld: lichaamslengte, we veronderstellen dat die bij benadering normaal verdeeld is. De normaal verdeling is symmetrisch, klokvormig en unimodaal (heeft één top). Niet alle normaalverdelingen zien er hetzelfde uit. De vorm van de verdeling wordt bepaald door het gemiddelde µ (mu) en standaarddeviatie σ (sigma).

Let op:

Als we spreken over een steekproef gebruiken we Romeins schrift. De standaarddeviatie druk je uit in ‘s’. Het gemiddelde druk je uit in .
Als we spreken over de populatie gebruiken we Griekse symbolen. Standaarddeviatie druk je uit in sigma ‘σ’. Het gemiddelde druk je uit in mu ‘µ’.

Voordelen normaal verdeling

Benadert veel natuurlijke processen
Makkelijk reken, basis voor veel statistiek. Veel toetsen gaan er vanuit dat bepaalde variabelen normaal verdeeld zijn. Heel veel variabelen zijn dan ook redelijk goed benaderd door een normaalverdeling, maar veel variabelen zijn duidelijk niet normaal verdeeld, zoals inkomen. Natuurlijke variabelen zoals lengte, gewicht en IQ zijn bij benadering wel normaal verdeeld.

Ieder deel van de verdeling representeert een percentage van de populatie. De relatieve positie van een observatie is makkelijk te bepalen

Let op: De kans dat iemand precies een lichaamslengte van 1.70 heeft is 0, door de oneindigheid van lengte. Bij een continue verdeling kan je dus niet zeggen wat de kans is dat je iemand van 1.70m trekt. Wel kan je zeggen wat de kans is dat je een persoon van 1.70 of kleiner trekt.

Normaalverdeling vuistregel

Je hebt een vuistregel die de 68-95-99,7 regel wordt genoemd. Dit verwijst naar het aantal standaarddeviaties dat je kan afwijken van het gemiddelde.

68% van de scores ligt binnen 1 σ ) vanaf µ
95% van de scores liggen binnen 2 σ vanaf µ (-1.96 tot 1.96)
99,7% van de scores liggen binnen 3 σ vanaf µ

Standaardnormaalverdeling

Het gemiddelde van een standaardnormaalverdeling is altijd nul en een standaarddeviatie van 1. De precieze percentages onder de curve staan in tabel A (More and McCabe). Er is geen enkele variabele die zo verdeeld is. We gebruiken de standaardnormaalverdeling om te bepalen wat de relatieve positie is van een individuele waarneming en voor het vergelijken van waarnemingen uit verschillende groepen/variabelen.

Standaardnormaalverdeling: z-scores

Iedere normaalverdeling kan worden omgezet in standaardnormaalverdeling. Dit doe je door:

Van iedere score het gemiddelde af te trekken
Vervolgens door de standaarddeviatie te delen

Dit is de betekening van de z-score. De formule luidt:

Voorbeeld: De gemiddelde leesvaardigheidsscore in groep 4 is 35 met een standaarddeviatie van 5. Joris scoort 40 punten op de test. Hier komt de volgende berekening uit:

De Z-score is het aantal standaarddeviaties dat een observatie afwijkt van het gemiddelde. In het voorbeeld wijkt Joris dus 1 standaarddeviatie af van het gemiddelde 35. De standaardnormaalverdeling is de verdeling van Z-scores van een normaal verdeelde variabele. Scores uit een niet-normale verdeling kunnen we omgezet worden in z-scores, maar deze zijn niet standaardnormaal verdeeld.

Let op: Een standaarnormaalverdeling is een normaalverdeling, maar een normaalverdeling is geen standaardnormaalverdeling. Één normaal verdeling zet je dus om naar een standaardnormaalvereling door het berekenen van z-scores, maar het omzetten van een niet-normaalverdeling naar een standaardnormaalverdeling is onmogelijk. Je hebt dus niks aan een z-score als iets niet normaal verdeeld is, want je kan geen kans opzoeken in de tabel.

Rekenen met z-scores

Toepassingen: mensen uit verschillende populaties onderling met elkaar vergelijken. Scores van één persoon op verschillende variabelen met elkaar vergelijken.
Score geef je aan met x. dat zet je om in z en daar hoort kans p bij. Hoeveel procent van de personen scoort beter/slechter dan de gegeven waarden of tussen twee gegeven waarden
Andersom kan ook: op/onder welke waarde scoort een gegeven percentage van de personen.

Rekenen met z-scores: appels en peren

Je kan dus personen uit verschillende groepen met elkaar vergelijken. Je kan je afvragen wie op een bepaalde variabele relatief het best heeft gescoord. In dit geval reken je beide scores om naar z-scores en ga je vergelijken.

Bijvoorbeeld:

Een leesvaardigheidstest is bij benadering normaal verdeeld

Gemiddelde groep 3 = 15, SD = 3
Gemiddelde groep 4 = 20, SD = 2

Jonas zit in groep 3 en scoort 17 punten. Marije zit in groep 4 en scoort 22 punten. Wie heeft relatief het hoogst gescoord?

Jonas zijn score ligt 0.67 SD boven het gemiddelde in zijn groep. Marije haar score ligt 1 SD boven het gemiddelde in haar groep. Marije scoort dus absoluut en relatief gezien het hoogst.

Stappenplan groter/kleiner/tussen

Formuleer het probleem precies
Maak een tekening
Arceer het gebied
Bereken z-scores van de gegeven x-waarde
Zoek de proporties op in tabel a

- A. bij kleiner dan (links): je bent klaar

- B. Bij groter dan (rechts): trek proportie van 1 af

- C. Bij tussen: trek proportie bij ondergrens af van proportie bij bovengrens (altijd kleinste van grootste aftrekken.

Voorbeeld:

Cholesterolgehalte bij 14-jarige jongens is bij benadering normaal verdeeld, met een gemiddelde van 170 en een standaarddeviatie van 30. Hoeveel procent van de 14-jarige jongens heeft een cholesterolgehalte tussen de 170 en de 240?

Formuleer het probleem: zie hier boven
Maak een tekening: zie dia 28
Arceer het gebied: die dia 28
Bereken: Z1 = 240 – 170/ 30 = 2.33 en Z2 = 170 – 170/ 30 = 0
Zoek de bijbehorende p-waarde op in Tabel a. en trek de gevonden p-waarden van elkaar af.

Wat nu als gevraagd wordt om een proportie rechts van (boven) een bepaalde score te vinden. Dan neem je de proportie links van de z-score behorende bij de gegeven score en trek je die af van 1. Bijvoorbeeld: bij een z-waarde van 1.43 is p = 1 – 0.9236 = 0.0764. De kans op die score of hoger is dan 7.6%.

Rekenen vanaf P stappenplan

Formuleer het probleem precies
Maak een tekening
Schets de gegeven proportie in de tekening =p
Zoek de bijbehorende z-score op in de tabel a

- Let op: Als p rechts in de verdeling ligt, moet je zoeken bij 1-p in de tabel (alleen

gebieden links van zet in tabel A.

Reken Z om naar een x-waarde (x = z* σ+ µ)

De stof over het normaal-kwantielplot moet je door een gebrek aan tijd in het college zelf behandelen! De volgende tekst komt direct uit de collegesheets en is niet besproken in het college.

Een voorwaarde voor rekenen met z-scores is een bij benadering normaalverdeling in de populatie. De enige manier om dit te controleren is door te kijken naar de verdeling in de steekproef. Een manier om in een steekproef de normaalverdeling te controleren is doro middel van een normaal-kwantielplot

Om een normaal-kwantielplot te tekenen volg je de volgende stappen:

Sorteer de observaties
Bereken de percentielscores voor iedere x-waarde
Zoek de bijbehorende z-scores die horen bij de berekende percentielen ( dus x  p  z).
Plot iedere x-waarde tegen de bijbehorende z-score.

Wanneer het plot een rechte lijn vertoont is het normaal verdeeld. Het is standaardnormaalverdeeld bij en rechte lijn op 45 graden.

Access:

Public

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Going abroad?

Insure your way around the world

International expat insurances

Travel & Worldsupporter insurances (NL)

Study with summaries

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Spotlight: topics

Check how to use summaries on WorldSupporter.org

Submenu: Summaries & Activities

Follow the author: Vintage Supporter

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics

Search a summary, study help or student organization

Select any filter and click on Search to see results

Samenvatting van de colleges week 3 t/m 5 (OP1)

College 3: Centrale tendentie, variabiliteit, schaaltransformaties

College 4: Meten in de gedragswetenschap, ethiek

College 5: Standaardnormaalverdeling

Contributions: posts

Add new contribution

Spotlight: topics

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

Quicklinks to fields of study for summaries and study assistance