Hoorcollegeaantekeningen 1-7

Deze samenvatting is gebaseerd op het studiejaar 2013-2014.


College 1: Introductie van onderzoek

 

Wetenschappelijk onderzoek is de zoektocht naar kennis en naar de ‘waarheid’. Dit moet kwalitatief zo goed mogelijk zijn. Deze kwaliteit wordt gewaarborgd door wetenschappelijk onderzoek.

 

Gedrag bestuderen doen we al heel lang, vroeger vooral vanuit geloof en dagelijkse interacties met anderen. Sinds eind 19e eeuw kwam er meer kennis op basis van wetenschappelijk onderzoek. Pioniers in de gedragswetenschappen waren James, Wundt en Watson. Alle drie vinden zij dat men serieus moet gaan kijken, observeren en toetsen.

 

Er is altijd een bepaalde methode bij wetenschappelijk onderzoek. Dit betekent dat er een stappenplan is, hoe je het beste kunt onderzoeken. De reden hiervoor is dat het onderzoek repliceerbaar moet zijn.

 

Een wetenschappelijk onderzoek moet aan een aantal criteria voldoen:

  • Systematisch empirisme: niet alleen denken, maar ook waarnemen, ervaren en zien wat je wil onderzoeken. Vanuit waarneming kun je gaan toetsen.

  • Publieke verificatie: Andere mensen moeten kunnen checken en controleren wat jij gedaan hebt.

  • Oplosbare problemen: heb je de mogelijkheid om het met wetenschappelijke methodes te onderzoeken?

 

Bij de pseudowetenschap voldoet het onderzoek niet aan de eisen, maar het onderzoek claimt wel wetenschappelijk te zijn. Het onderzoek is niet empirisch, niet verifieerbaar en bevat onweerlegbare hypothesen.

 

Twee soorten onderzoek:

  • fundamenteel onderzoek is kennis vergaren en uitbreiden. Bijv.: Hoe verloopt de ontwikkeling van een kind?

  • toegepast onderzoek is probleemgericht werken, een probleem oplossen en de methode toepassen, meer praktijkgericht; rekening houdend met de ontwikkeling, hoe kunnen we pesten op school aanpakken?

 

Drie doelen van onderzoek:

  • Beschrijven, bijv. Welke vormen van autisme zijn er?

  • Voorspellen, bijv. de citotoets, de citoscore voorspelt de leerprestaties van een kind op de middelbare school.

  • Verklaren, vaak ‘waarom’ vragen. Hoe zit iets in elkaar?

 

Vier soorten onderzoek:

  • Beschrijvend: Hoeveel kinderen in NL worden mishandeld? Hoeveel procent van…?

  • Correlationeel: voorspellen, je brengt dingen in verband; wat is de relatie tussen kenmerken van het kinderdagverblijf en de kwaliteit van de interactie tussen kinderen?

  • Experimenteel: proberen te verklaren. Causaal; oorzaak  gevolg. Het manipuleren van een variabele. Belangrijk is: aselect toewijzen (at random) en herhaling met meerdere proefpersonen. Is muziek op de achtergrond van invloed op het concentratievermogen van kinderen tijdens een leesles?

  • Quasi-experimenteel: een experiment dat je wilt doen, maar niet kunt doen door bijvoorbeeld ethische factoren. Je moet kijken naar wat er al is, gebruiken mensen al bepaalde middelen? Op deze manier worden de groepen ingedeeld, er is dan geen sprake van aselecte toewijzing); is het gebruik van kalmerende middelen van invloed op tentamencijfers?

 

Een theorie is een stelsel van uitspraken dat de relatie tussen concepten beschrijft en verklaart. Ook de waarom vragen moet je kunnen toepassen met een theorie. Een voorbeeld is de gehechtheidstheorie.

 

Een hypothese is een als voorlopige waarheid aangenomen, maar nog te bewijzen uitspraak (veronderstelling) die getoetst wordt. Het voorspelt wat er gaat gebeuren. Vooraf (a priori), dus niet achteraf een verklaring bedenken (post hoc). Een hypothese ‘pluk’ je uit een bepaalde theorie.

 

De belangrijkste eis van een hypothese is dat hij falsificeerbaar moet zijn, oftewel te verwerpen.

 

Voordat je tot een hypothese komt, moet het volgende gebeuren:

  • Deductief : het formuleren van een specifieke propositie die logisch volgt uit de theorie

  • Inductief : het formuleren van een propositie die waarschijnlijk volgt uit geobserveerde feiten.

  • Deductief: als theorie klopt, moet hypothese uit theorie ook kloppen.

  • Inductief: Een waarschijnlijkheidsrelatie. Door te observeren een hypothese kunnen formuleren.

 

Twee soorten definities van een begrip:

  • Het conceptuele begrip omschrijft het begrip, als het ware uit het woordenboek.

  • Het operationele begrip laat zien hoe iets wordt gemeten. Daardoor is het repliceerbaar.

Begrip zoals bedoeld  operationalisatie (meetbaar maken)  begrip zoals bepaald.

 

Als je hypothese niet blijkt te kloppen, klopt je hele theorie niet. Als je hypothese wel blijkt te kloppen, wil dat niet zeggen dat de hele theorie ook klopt. Dit is de reden waarom er over één theorie meerdere studies moeten worden gedaan. Als hier dezelfde conclusies uitkomen kan worden aangenomen dat de theorie klopt.  

 

College 2: meetniveaus, frequentieverdelingen en grafieken

 

Data zijn gegevens die je hebt verzameld, numerieke feiten (cijfers). Vaak zijn het gegevens van mensen weergegeven in cijfers. Nummers hebben een bepaalde context (bijvoorbeeld inkomen, leeftijd, onderzoeksvraag). Als we data zinvol willen interpreteren moeten we de context begrijpen (wat wil je voor vraagstelling beantwoorden?).

 

In de structuur van de data staat informatie van verschillende individuen. Deze individuen zijn cases (groepen) of personen. De individuen zijn de objecten waar het onderzoek op uitgevoerd wordt. Een variabele is elk mogelijk kenmerk van een individu (bijv. geslacht, leeftijd, opleidingsniveau), de kenmerken verschillen per persoon.

 

In een dataset staan alle variabelen van de individuen. Dit is een centrale tabel met ruwe gegevens van een onderzoek. In de kolommen staan de variabelen en er kunnen alleen getallen worden ingevoerd. Vaak wordt er een label of getal gekoppeld aan de uitkomst van de variabele. Wanneer er een cijfer ontbreekt en men ziet dat kun je dat met een ander getal (99) invullen. Het getal dat je hiervoor gebruikt, spreek je van te voren af.

 

Belangrijke vragen voordat het onderzoek wordt gedaan:

  • waarom zijn de data verzameld? (om de vraagstelling te beantwoorden), wat is het doel? (beschrijven/ voorspellen/ advies geven)

  • wie zijn de individuen (postcodes, fietsen etc.) en hoeveel zijn het er?

  • wat stellen de variabelen voor? Hoeveel variabelen zijn er ? Meeteenheid (jaren, maanden, punten), meetniveau (geslacht, leeftijd > label, getal). Hoe hoger het meetniveau hoe concreter het getal is.

 

Twee verschillende meetniveaus:

 

  • een categorische variabele plaatst een proefpersoon in één van de twee of meer groepen of categorieën (bijvoorbeeld etniciteit, man/vrouw). Deze variabele heeft wel een label, maar het getal heeft geen betekenis.

    • Nominaal: de labels zijn van elkaar uitsluitende categorieën (haar kleur, geslacht). Het is een label zonder waarde/volgorde. Het maakt niet uit of ‘man’ het label 1 of het label 2 krijgt. Je zit in de ene of in de andere groep en de één is niet beter dan de ander.

    • Ordinaal: de volgorde staat vast en is zinvol. De ene waarde is meer of hoger dan de andere (mening euthanasie, opleidingsniveau) De getallen hebben geen numerieke betekenis.

  • Met een numerieke variabele kun je optellen, aftrekken en vermenigvuldigen (leeftijd, gewicht, lengte). Dit getal heeft een betekenis.

    • interval: gelijke afstanden tussen de waarden representeren gelijke afstanden in werkelijkheid. Het getal heeft een betekenis. Je kunt ermee optellen en aftrekken. Met dit getal kun je niet vermenigvuldigen. Het nulpunt is arbitrair, niet absoluut. Wanneer je 3 kg boven het landelijk gemiddelde zit, betekent dit niet dat je drie keer zo zwaar bent. Schoenmaat 31-32/ 40-41, de afstand tussen de maten blijft gelijk en betekent iets (bijvoorbeeld landelijk gemiddelde, temperatuur).

    • ratio: de variabele heeft een absoluut nulpunt. Waarde 0 is ook werkelijk niks. (lengte, inkomen, leeftijd, aantal kinderen per gezin)

Een discrete variabele kan alleen een hele waarde aannemen. Een voorbeeld hiervan is een onderzoek naar de hoeveelheid liefdesrelaties van mensen. Discreet is niet gelijk aan categorisch. Categorische variabelen worden wel altijd met discrete waarden aangeduid.

 

Bij een categorische variabele gebruik je een frequentieverdeling om data te beschrijven. Deze geeft aan hoe vaak een categorie voorkomt. De absolute frequentie geeft aan hoe vaak de score voorkomt. Eerst moet er afzonderlijk naar de variabelen worden gekeken en dan pas naar de relaties ertussen. Ook moet het eerst visueel bestudeerd worden en moet er daarna pas naar de numerieke aspecten worden gekeken (met bijvoorbeeld een frequentieverdeling).

 

Het percentage wordt berekend door de absolute frequentie te delen door het aantal respondenten en deze uitkomst te vermenigvuldigen met 100.

 

Het valide percentage wordt berekend door de absolute frequentie te delen door de som van de frequenties van alle bekende waarden en deze uitkomst te vermenigvuldigen met 100.

 

De cumulatieve frequentie is de som van de frequentie van de scorewaarde zelf en de frequenties van alle lagere klassen.

 

Het cumulatieve percentage is de som van het percentage van de scorewaarde zelf en alle percentages van de lagere klassen. Dit wordt berekend met het valide percentage.

 

Om de categorische variabele grafisch weer te geven wordt er gebruik gemaakt van een staafdiagram. Op de x-as staan de categorieën en op de y-as de frequentie. Tussen de staven zit ruimte. Ook wordt er gebruik gemaakt van een pie chart. In dit taartdiagram wordt er gewerkt met percentages.

 

Bij een numerieke variabele wordt er gebruik gemaakt van een stemplot, ook wel stam-blad diagram genoemd om de data te beschrijven. Iedere frequentie die voorkomt wordt gesplitst in een tak en een blad. Het eerste cijfer vormt de stam en de laatste cijfers zijn vormen het blad.

Voor een grafische weergave wordt er gebruik gemaakt van een histogram. Deze staven liggen tegen elkaar aan. De grootte van de staven heeft een betekenis. Deze klassenbreedte is dus erg belangrijk in het maken van een histogram. Er is geen ruimte tussen de verschillende staven, de stapgrootte is overal even groot.

 

Hoe maak je een histogram?

1.Klassenbreedte bepalen

  • Te weinig klassen: wolkenkrabber vorm

  • Te veel klassen: platte vorm

2.Observaties per klasse tellen

3.Bepaal wat je wilt weergeven:

  • Frequenties of percentages?

4.Tekenen

 

Bij tijdsgrafieken staat de tijd op de x-as. Op de x-as staat de waarde van de variabele en op de y-as de frequentie van een klasse. Meestal wordt een tijdsgrafiek gebruikt voor dingen die op een bepaalde tijd veranderen. Een trend is een langdurige voortdurende stijging of daling.

 

Als er wordt gekeken naar een verdeling moet je kijken naar:

  • De vorm: Eén piek (modus) betekent : unimodaal, meerdere pieken betekent bimodaal. Is de piek symmetrisch of scheef?

  • Het middelpunt

  • De spreiding/verdeling, veel of weinig?

  • Afwijkingen en uitbijters (outliers) liggen ver weg van de grote groep.

 

College 3: Meten in de gedragswetenschap, ethiek

 

Er zijn verschillende soorten metingen:

 

  • Observeren, direct zicht op het gedrag.

  • Fysiologische maten, metingen in/aan het lichaam, zelfrapportage -bijvoorbeeld een vragenlijst/interview.

  • Het archief, dit zijn bestaande gegevens gebruiken, secundair.

 

Als er wordt gekozen voor observeren moeten er drie beslissingen worden gemaakt.

  • Welke setting kies ik?

  • Hoe stel ik mijn onderzoeker op?

  • Welke observatie methode gebruik ik?

 

Er zijn drie soorten settings:

  • In een naturalistische setting wordt er geobserveerd in een natuurlijke omgeving. Hier wordt geen interventie toegepast. Dit heeft als voordeel dat het erg realistisch is, mensen zijn op hun gemak, de context is zichtbaar, spontane gebeurtenissen kunnen worden gezien. Het nadeel is dat je weinig controle hebt over je onderzoek, je hebt onbewust altijd invloed op de groep waar je observeert, je wordt zelf deel van het onderzoek, het is redelijk subjectief.

  • In een vooropgezette setting is de situatie ingericht voor observatie en registratie van het gedrag. Bij deze setting heb je veel controle en veel overzicht. Het nadeel is dat de setting niet realistisch is voor de proefpersonen. Ook kan worden afgevraagd of het wel valide is. Komt het ook zo voor in het dagelijks leven?

  • In een veldexperiment wordt er gezocht naar een tussenvorm. Hier wordt gebruik gemaakt van een natuurlijke omgeving waarin bepaalde aspecten gemanipuleerd worden. Het is een stuk realistischer maar er is toch een zekere mate van controle.

 

De onderzoeker kan zich zelf verborgen opstellen, hierin weten de participanten niet dat er iemand naar ze kijkt. Nadeel hiervan is dat er vaak ethische problemen aan hangen.

 

De onderzoeker kan ook openlijk worden opgesteld, hier weten de participanten wel dat ze worden geobserveerd. Nadeel hiervan is de reactiviteit, de reactie van mensen kan veranderen omdat zij weten dat ze worden geobserveerd (hierdoor gaan zij sociaal wenselijk gedrag vertonen). Er is ook een tussenoplossing mogelijk. Een onderzoeker kan bijvoorbeeld niet alles vertellen, indirect meten (bijvoorbeeld in het vuilnis kijken hoeveel flessen drank erin zitten) of informanten sturen. Dit zijn bijvoorbeeld vrienden van de proefpersoon die het gedrag observeren. Ook kun je iets op video opnemen en later vragen of je het mag gebruiken. Nadeel hiervan is dat alleen mensen die er positief opstaan toestemming zullen geven.

 

Er zijn vier observatiemethoden:

Betrouwbaarheid, wanneer je het een maand later nog een keer meet, is het dan nog steeds hetzelfde?

  • de narratieve methode is ongestructureerd. Hierin wordt het gedrag exact geregistreerd. Dit is erg gedetailleerd en allesomvattend. Wel is deze methode erg intensief, tijdrovend en onoverzichtelijk. Deze methode wordt vooral bij kwalitatief onderzoek gebruikt.

  • Wanneer er gebruik wordt gemaakt van een checklist wordt de aanwezigheid of afwezigheid van gedrag geregistreerd, dus hoe vaak iets gedaan wordt. Dit is erg makkelijk in het gebruik, het is overzichtelijk en gemakkelijk te analyseren. Wel heb je duidelijke operationele definities nodig, omdat het redelijk subjectief is. Het gedrag wat onderzocht zal worden moet duidelijk gedefinieerd zijn.

  • Wanneer er gebruik wordt gemaakt van tijdmetingen wordt er gekeken hoelang er zit tussen twee gedragingen of een gebeurtenis en een gedraging (= de latency tijd). Dit is gemakkelijk te meten en te analyseren. Wel is het moeilijk om het te interpreteren. Het kind huilt lang, dus…?

  • Er kan ook gebruik worden gemaakt van ratingscales. Dit zijn beoordelingsschalen. Deze meten de kwaliteit en intensiteit van het gedrag. Op deze manier krijg je meer informatie en dit is makkelijk te analyseren. Wel is er kans dat de observatoren anders beoordelen. Wat de één sensitief vindt, vindt de ander bijvoorbeeld niet sensitief.

 

Bij fysiologische maten worden processen in het lichaam gekoppeld aan psychologische processen zoals gedrag (cortisol en stress ). Dit wordt steeds vaker gebruikt in sociaalwetenschappelijk onderzoek. Voorbeelden hiervan zijn hartslagmetingen en bloedafname. Positief is dat het harde maten zijn, maar het is vaak lastig te interpreteren.

 

Bij zelfrapportage zijn er verschillende dingen die moeten worden besloten. Er kan gebruik gemaakt worden van een vragenlijst. Deze is anoniem, makkelijk te analyseren, relatief goedkoop en snel. Er kan ook gebruik gemaakt worden van een interview. Hierbij is een gedetailleerder beeld mogelijk, je weet zeker dat de participanten de vraag hebben begrepen, het is geschikt voor kinderen en mensen met een beperking en er is minder kans op ontbrekende waarden.

 

Wanneer een vragenlijst wordt gebruikt, moet er nagedacht worden over de soort vragen. Dit kunnen open vragen zijn, een vijf-puntenschaal, multiple choice vragen enzovoorts.

Het nadeel van een vragenlijst is dat er bias kan optreden. Dit zijn vertekeningen in de antwoorden en als onderzoeker wil je zo min mogelijk vertekening hebben. Het kan zijn dat mensen de vragenlijst sociaal wenselijk invullen, dat de mensen bijna alleen ja of juist nee antwoorden (ja/nee zeggers). Er kan ook centrale tendentie optreden, de participanten geven niet de buitenste antwoorden, maar kiezen de middelste categorieën. En er kan een logische fout ontstaan. Dit kan komen doordat bepaalde vragen erg op elkaar lijken. De logische fout kan worden tegengegaan door vragen die op elkaar lijken niet dicht bij elkaar te zetten in de lijst.

 

Bij archiefdata worden bestaande gegevens gebruikt voor onderzoek. Het voordeel hiervan is dat de date al beschikbaar is. Een nadeel is dat je volledig afhankelijk bent van die data.

 

Soms wordt er gebruik gemaakt van meerdere methoden van dataverzameling naast elkaar. Methodologisch pluralisme is op meerdere manieren hetzelfde meten. Bij methodologische convergentie wordt er steeds op hetzelfde resultaat gekomen.

 

De ethische regels kunnen op drie verschillende manieren worden toegepast.
1. Deontologisch: Er zijn ethische regels die voor iedereen gelden.

2. Utilitaristisch: Gaat uit van kosten-baten. Wat kosten de ethische problemen en wat krijg ik ervoor terug?

3. Sceptisch: Het is aan de onderzoeker om een goede beslissing te nemen.
Bij ethiek moet ook gedacht worden aan fraude. Voorbeelden hiervan zijn data verzinnen of verwijderen en plagiaat plegen.  

 

College 4: Centrale tendentie, variabiliteit, schaaltransformaties

 

Er zijn verschillende maten voor centrale tendentie:

  • Het gemiddelde bereken je door alle scores op te tellen en deze te delen door het aantal observaties. De formule luidt:

 

Nadelen van het gemiddelde zijn uitbijters. Een uitbijter is een extreme waarde die sterk afwijkt van de rest van de waarden. Het gemiddelde kan hierbij flink omlaag of omhoog gaan. Hierdoor kan het voorkomen dat er veel studenten boven of onder het gemiddelde scoren.

 

  • De mediaan is het middelpunt van verdeling. De mediaan is minder gevoelig voor extreme waarden (uitbijters) dan het gemiddelde, het is een resistente centrummaat. Er zitten evenveel scores boven als onder de mediaan. Dit is het getal waarvoor geldt dat de ene helft van de waarnemingen eronder valt, en de andere helft erboven. De mediaan bereken je door alle scores op de juiste volgorde zetten van klein naar groot. Bij een oneven aantal is het exact het middelste getal. De locatie van de mediaan vind je door de formule : (n+1)/2
    Bij een even aantal is de mediaan het gemiddelde van de middelste twee.
     

Bij een symmetrische verdeling zijn de mediaan en het gemiddelde gelijk. Naar mate de verdeling schever is, verschillen de mediaan en het gemiddelde meer van elkaar.

 

Er zijn verschillende spreidingsmaten:

  • variantie (s2) is de gemiddelde gekwadrateerde afwijking tot het gemiddelde. Alle afwijkingen moeten worden opgeteld en gedeeld door het totaal. Om negatieve getallen weg te nemen, wordt het kwadraat genomen.
    De formule luidt:

 

Het probleem hierbij is dat de gemiddelde gekwadrateerde afwijking moeilijk inhoudelijk te interpreteren is. Vandaar dat we gebruik maken van de standaarddeviatie.

  • De standaarddeviatie (s) is de wortel uit de variantie. De standaarddeviatie geeft aan hoeveel de waarden gemiddeld afwijken tot het gemiddelde. Het geeft de gemiddelde spreiding rondom het gemiddelde aan. De standaarddeviatie kan alleen gebruikt worden als het gemiddelde als centrummaat gekozen is! De standaarddeviatie is niet resistent, uitbijters kunnen dus een grote invloed hebben.

 

De variantie en de standaarddeviatie zijn niet resistent. Bij uitbijters of scheve verdelingen kun je beter gebruik maken van een andere spreidingsmaat, namelijk kwartielen.

 

Kwartielen delen de waarneming in 4 gelijke delen op. Namelijk in Q1, de mediaan en Q3. Eerst moeten de observaties worden geordend van laag naar hoog. Vervolgens moet de mediaan berekend worden (50%).

 

Q1 is de mediaan van de waarnemingen onder de algehele mediaan (25%). Q3 is de mediaan van de waarnemingen van de kwartielen boven de algehele mediaan (75%).

Kwartielen kunnen ook worden weergegeven in percentielen. De mediaan is bijvoorbeeld het 50e percentiel, Q1 is het 25e percentiel en Q3 is het 75e percentiel. De mediaan laat je buiten beschouwing bij het berekenen van Q1 en Q3, het gaat om de getallen boven of onder het mediaan.

 

In een vijf-nummersamenvatting wordt er gebruik gemaakt van kwartielen met een minimum (Q1) en een maximum (Q3). Met deze waarnemingen kan een boxplot worden gemaakt. Dit geeft een zo volledig mogelijk beeld van de spreiding. De vijf-nummersamenvatting kan worden weergegeven in een box plot.

 

De interquartiel afstand wordt als volgt berekend: IQR = Q3 – Q1. Deze spreidingsmaat is minder gevoelig voor extreme waarden dan de standaarddeviatie. Hij is alleen zinvol bij uitbijters, niet bij een scheve verdeling.

 

De 1,5*IQR regel gebruik je wanneer je een uitbijter wilt vinden. Een waarneming is vermoedelijk een uitbijter wanneer hij meer dan 1,5*IQR onder het eerste of boven het derde kwartiel valt.

 

Wanneer dezelfde variabele in verschillende meeteenheden gemeten kan worden wordt er gebruik gemaakt van schaaltransformaties (km/uur of m/s).

Een meeteenheid is makkelijk te veranderen, omdat het lineaire transformaties van elkaar zijn: xnieuw = a + bx

 

Voorbeeld: van km/uur naar m/s:

1 km = 1000 m

1 uur = 3600 sec

1km/uur = 1000/3600 = 0,2778 m/s

Xnieuw = 0,2778x

 

Voorbeeld: Celsius naar Kelvin

Als de temperatuur met 1 graad Celsius stijgt, stijgt de temperatuur in Kelvin ook met 1 graad.

0 graden Celsius = 273,15 Kelvin (constante, absoluut nulpunt)

Xnieuw = 273,15 + x

 

Effecten bij lineaire transformaties:

  • De vorm van de verdeling verandert niet, met andere woorden : stel dat je een scheve of een normaal verdeling hebt blijft dit zo.

  • De gemiddelden en de mediaan veranderen wel. Vermenigvuldigen van elke observatie met b, vermenigvuldigt gemiddelde, mediaan, IQR en standaarddeviatie ook met b.

  • Optellen van constante a bij elke observatie, verhoogt gemiddelde, mediaan en kwartielen ook met a. Let op: standaarddeviatie en IQR blijven gelijk (je blijft nog steeds x van gemiddelde).

 

College 5: Standaardnormaalverdeling

 

Een populatie is de gehele groep mensen waar je iets over te weten wilt komen, dit is wetenschappelijk interessant. Met de steekproef wil je iets zeggen over die populatie. In de verdeling van een steekproef staat alleen informatie over de onderzochte personen. In een verdeling van de populatie staat informatie over de groep waarin de onderzoeker geïnteresseerd is. Een verdeling van de populatie is nuttig want je kunt de positie van één persoon in de populatie bepalen of posities binnen een populatie vergelijken.

 

Om een steekproef representatief te laten zijn moet hij groot genoeg zijn. Hij kan random (aselect) getrokken worden of select, dan moeten de mensen aan bepaalde criteria voldoen. Deze punten zorgen ervoor dat de steekproef zoveel mogelijk op de gehele populatie lijkt.

 

Een verdeling zegt iets over hoe de waardes van de personen in de steekproef er uit zien (vorm, uitbijters, etc.). Bij een steekproefverdeling krijg je informatie over de onderzochte personen en bij een populatieverdeling krijg je informatie over de groep waar de onderzoeker geïnteresseerd in is. Bij het kijken naar het verdeling zie je de vorm. Deze kan symmetrisch zijn of juist scheef.

 

Er zijn twee manieren om te bepalen hoe bijzonder één persoon in een verdeling is:
1. Kijken hoeveel mensen er dezelfde waarde hebben

2. Kijken hoeveel mensen er een extremere waarde hebben

 

Discreet betekent dat er een beperkt aantal waarden zijn. Bijvoorbeeld leeftijd in jaren, dit zijn vaste cijfers, hier zit niks tussen. Hierbij wordt er gebruik gemaakt van een staafdiagram.

Continu betekent dat alle waarden mogelijk zijn. Hierbij wordt er gebruik gemaakt van een curve. Een uitzondering hierbij is lengte. Dit wordt vaak per klasse in een staafdiagram gezet, terwijl het wel een continue variabele is.

 

Wanneer er een histogram van een continue variabele wordt gemaakt geldt: hoe groter het aantal observaties en klassen, hoe gelijkmatiger de verdeling.

 

In steekproeven moet discreet gemeten worden. De populatieverdeling (curve = vloeiende verdeling van het histogram) is vaak continu en dus ook vloeiender dan de steekproefverdeling (histogram).

  

Een dichtheidscurve is een wiskundige benadering van de werkelijkheid. De totale oppervlakte onder de curve is 1 ofwel 100%. De oppervlakte onder de curve is een percentage van de populatie. Van dichtheidscurven met een specifieke vorm zijn de percentages bekend. Deze staan in tabellen. Het gemiddelde is te meten door het balanspunt te vinden. De modus is de top van de verdeling en de mediaan is het midden van de verdeling. Bij een symmetrische verdeling is de mediaan gelijk aan het gemiddelde. Bij een groot verschil tussen de mediaan en het gemiddelde is er sprake van een scheve verdeling. Bij een continue variabele is de kans dat je een exacte waarde trekt nul, je kunt wel kijken naar het aantal getallen onder een exacte waarde.

 

Wanneer een curve een staart naar rechts heeft, zeggen we dat hij scheef naar rechts is verdeeld. Het gemiddelde zit dan rechts van de top. Het gemiddelde is hier groter dan de mediaan.  

 

Een normaalverdeling is niet scheef. Deze verdeling heeft een speciale vorm. Hij is klokvorming, symmetrisch en unimodaal, dat wil zeggen dat de verdeling één top heeft. De precieze vorm wordt bepaald door de spreiding.  

 

De vuistregel van een normaalverdeling is: 68% van de scores liggen binnen 1 σ (standaarddeviatie) vanaf µ (het gemiddelde). 95% van de scores liggen binnen 2 σ vanaf µ (-1.96 tot 1.96).  99,7% van de scores liggen binnen 3 σ vanaf µ.

 

Het gemiddelde van een standaardnormaalverdeling is altijd nul. De percentages onder de curve staan in tabel A (More and McCabe), zo kun je dit percentage omzetten naar een Z-score (een standaardscore). Een Z-score is het aantal standaarddeviaties waarvan de score afwijkt van het gemiddelde.

 

Z-scores zijn handig. Op deze manier kun je uitspraken doen op groepsniveau, je kunt bepalen welke positie een individuele score heeft in de populatie en je kunt scores vergelijken tussen verschillende populaties. Beide scores worden dan omgerekend naar Z-scores en kunnen zo vergeleken worden. Een hogere Z-score betekent meer standaarddeviaties boven het gemiddelde, dus dan is de score hoger.  

De formule luidt:

 

Bij de vraag ‘Hoeveel procent scoort boven, onder of tussen een bepaalde score?' volg je het volgende stappenplan:

  • Formuleer het probleem precies

  • Maak een situatieschets

  • Bereken de Z-scores van de gegeven x-waarden (Z=(x- µ)/σ)

  • Zoek de bijbehorende p-waarden in de tabel. Let op: dit is de linkerkant onder de curve.

  • Leid p voor het betreffende gebied af.

 

Wanneer er een score bij het percentage moet worden gezocht, wordt het volgende stappenplan gevolgd:

  • Formuleer het probleem precies

  • Maak een situatieschets

  • Bepaal de betreffende p-waarde

  • Zoek de bijbehorende Z-waarde op in de tabel

  • Reken Z om naar een x-waarde (x = z* σ+ µ)

 

Om een normaal-kwantielplot te tekenen volg je de volgende stappen:

  • Sorteer de observaties

  • Bereken de percentielscores voor xi

  • Zoek de bijbehorende z-scores

  • Reken z om naar de verwachte x-scores

  • Plot de geobserveerde xi tegen de verwachte x

Wanneer het plot een diagonale lijn benadert is hij normaal verdeeld.

 

Je kunt hier echter alleen gebruik van maken als het alleen om een normale verdeling gaat.  

 

College 6: Correlatie

 

Het doel van correlationeel onderzoek is voorspellen. Op basis van één variabele wil je kijken of je ook iets over een andere variabele kunt zeggen. Bepaalde waarden van de ene variabele gaan vaker samen met bepaalde waarden van de andere variabele dan met andere waarden van die variabele (lengte & gewicht, sensitiviteit & gehechtheid, religie & mening over abortus).

 

Relaties kunnen tussen twee numerieke (interval, ratio) variabelen, tussen een numerieke en een categorische variabele(nominaal, ordinaal) en tussen twee categorische variabelen zijn. Bij correlatie kijken we alleen naar de relatie tussen twee numerieke variabelen (vb. lichaamslengte en gewicht). Hoe sterk de samenhang is wordt aangegeven door correlatie.

 

Een relatie is: Als je op de ene variabele hoog/laag scoort, scoor je dan ook op de andere hoog/laag? Relaties tussen variabelen in sociale wetenschappen zijn nooit perfect (deterministisch). Vaak zijn ze zwak maar wel relevant (het is lastig om kenmerken van een persoon te voorspellen op een andere variabele) en ook zijn verbanden vaak complex (relaties zijn niet eenvoudig). De sterkte van het verband moet altijd beschouwd worden in de context, omdat er altijd factoren zijn die een bepaalde invloed hebben.

 

Bij het vergelijken van een bassischoolkind van 8 jaar met 7-jarige. Zonder info over de relatie tussen leeftijd en leesvaardigheid, kun je alleen het gemiddelde van de leesvaardigheid bepalen bij elke leeftijd. Een valkuil is dat je niet zomaar iets kunt veronderstellen.

 

Wanneer je wel informatie hebt (in dit college: scatterplot) over de relatie kun je over het algemeen zeggen dat oudere kinderen beter lezen dan jonge.

 

Het doel van de regressielijn is informatie geven over de relatie. Deze lijn voorspelt de score op y op basis van de score op x (in plaats van gemiddelde).

 

Twee typen variabelen:

  • Een predictor is onafhankelijk, de bron, oorzaak, verklaring (veroorzaken)

  • Een respons is afhankelijk, gevolg, uitkomst (wat erop reageert)

 

Twee typen samenhang:

  • Bij een symmetrische samenhang is er geen onderscheid tussen de predictor en de respons (beiden hebben dezelfde rol).

  • Bij een asymmetrische samenhang is er wel onderscheid tussen de predictor en respons (de ene is de oorzaak, de andere is het gevolg, bv.: IQ en inkomen, het inkomen kan hoger worden wanneer je IQ hoger is maar andersom kan het niet).

 

Correlatie

  • In berekeningen: symmetrisch verband

  • Conceptueel/ theoretisch: het is mogelijk dat je correlatie berekent voor asymmetrisch verbanden. De correlatie zegt echter alleen dat er een samenhang is, niet of het een het ander veroorzaakt.

  • Alleen echte causaliteit in een experimentele onderzoeksopzet (controle derde variabelen). Als je een correlatie berekent tussen twee variabelen moet je de derde variabele controleren. Pas dan kun je causaliteit vaststellen.

 

Een scatterplot is een plot met punten. De waarden van de variabele x staan op de x-as. Dit is de oorzaak (de predictor). De waarden van variabele y staan op de y-as. Dit is het gevolg (de respons). Wanneer een lijn stijgend is, is de richting positief. Dit betekent dat als er meer is van het één, er ook meer is van het ander. Een lijn kan ook negatief, dus dalend zijn. Wanneer er dan meer van het één is, is er minder van het ander. Soms is er een derde variabele nodig, anders krijg je een verkeerd beeld. De schaling van een scatterplot is essentieel. Ook kun je op het scatterplot zien of hij lineair is (als er een rechte lijn door te trekken valt), of er uitbijters zijn en of de correlatie sterk, matig of zwak is. De exacte sterkte kun je niet berekenen met een scatterplot, het doel van de scatterplot is het geven van een indruk. De maat waarmee we de samenhang meten is de correlatiecoëfficiënt.

 

Rol van derde variabelen

  • De relatie met een categorische variabele kan weergegeven worden door punten in een scatterplot te labelen met de categorieën van die variabele. Soms kun je de relatie tussen twee variabelen alleen begrijpen als je de derde variabele erbij neemt. (bv.: hoe meer brandweermannen bij een brand, hoe groter de schade. Wat is de verklaring hiervoor? Derde variabele is de grootte van de brand, klein, middel of groot.)

 

De correlatiecoëfficiënt wordt aangeduid met Pearson’s R. Dit is een indicatie voor de sterkte van de samenhang. De correlatiecoëfficiënt ligt altijd tussen de -1 en 1. Wanneer hij dicht bij de -1 of 1 zit is er een sterke relatie, de punten benaderen een rechte lijn. Wanneer hij dicht bij de 0 zit, is er een zwakke relatie, de punten benaderen een cirkel. De correlatiecoëfficiënt is ongevoelig voor schaling en gevoelig voor uitbijters, als er één waarneming buiten het patroon valt zal de correlatie flink hoger of lager worden. Een negatieve correlatie is een dalende lijn en een positieve correlatie is een stijgende lijn.

 

De formule luidt als volgt:

De correlatiecoëfficiënt wordt als volgt uitgerekend:

  • reken de z-scores uit van x en y.

  • vermenigvuldig de z-scores per individu

  • tel de uitkomsten op

  • deel het resultaat door n-1

 

Er zitten ook een aantal haken en ogen aan de correlatie. Bij een correlatie kun je alleen gebruik maken van numerieke variabelen, deze kun je ordenen en hebben een volgorde. Nominale variabelen kunnen dit niet (bijvoorbeeld de variabele 'sterrenbeeld'. Hier is geen duidelijke ordening).

Ook kun je geen uitspraak doen over de hoogte van de gemiddelden.

Een correlatiecoëfficiënt vertelt alleen maar of het verband sterk is of niet, het geeft de verhouding niet weer.

 

Wanneer je de correlatiecoëfficiënt van gemiddelde scores berekend zal deze hoger zijn dan die van ruwe scores. Gemiddelden variëren altijd minder dan losse scores dus correlatiecoëfficiënt sterker.

 

Op basis van een correlatie kunnen er geen causale uitspraken worden gedaan. Het generaliseren naar de populatie is gevaarlijk wanneer je maar weinig observaties, een niet-representatieve steekproef en/of ongeloofwaardige verbanden hebt.

Je kunt dus alleen iets zeggen over relatieve hoogtes en niet over de absolute hoogtes.

 

College 7: Regressie

 

Bij het beschrijven van een relatie ga je eerst het scatterplot bekijken (vorm, uitbijters, lineaire relatie?). Daarna bepaal je hoe sterk de relatie is met de variantie (r) of de verklaarde variantie (r2). Als je dat gedaan hebt ga je aan de slag met de regressielijn. De regressielijn is de beste passende lijn door een puntenwolk.

 

Vergelijking: y=a+bx

a= y bij x=0 (intercept)

b= helling: 1 verandering in y bij één eenheid verandering in x.
Met elke waarde voor x kun je de bijpassende y voorspellen.

 

Forumules:

 

rechte lijn:

voorspelde waarde voor y (regressielijn):

geobserveerde waarde:

residu = error =

regressiecoëfficiënt/ helling:

 

intercept:

 

Kenmerken regressie:

  • De regressielijn loopt altijd door het punt

  • Het intercept is niet altijd af te lezen uit de plot (de x-as loopt niet altijd tot 0). A= intercept, het startpunt van de lijn. B is helling van de lijn, geeft aan hoeveel Y toeneemt wanneer x veranderd.

 

Wanneer r 0 is, dan is b1 ook 0. Als dit zo is, is er geen relatie.

 

De best passende lijn is de lijn met zo min mogelijk afwijking tot de voorspelling. Die afwijking heet de error. Dit is de geobserveerde waarde – de voorspelling. Als het punt boven de regressielijn ligt is de error positief, als het punt onder de regressielijn ligt is de error negatief. De least square regression line is de lijn met de kleinst gekwadrateerde error. Dit moet in het kwadraat zodat de negatieve getallen wegvallen. Dit bereken je door alle error’s bij elkaar op te tellen.

 

De stijlheid van de regressielijn is afhankelijk van de schaal van x en y. Om de lijn te tekenen kun je gewoon twee x-en in de formule invullen. Het is handig om de gemiddelde x en y te nemen als eerste punt en x=0 (intercept) als tweede punt. De lijn kun je dan door die twee punten tekenen. De voorspelling is echter niet perfect. Op individueel niveau zit de (groeps)voorspelling er altijd naast. Hoeveel een punt er vanaf ligt wordt bekeken met de correlatiecoëfficient.

 

De verklaarde variantie (r²) is een maat voor succes voor de voorspelling. Bij een perfect verband is r²=1. Dit kun je interpreteren als percentage. Met de verklaarde variantie kijk je hoe goed je met de voorspelde x de voorspelde y kan weten.

 

De verklaarde variantie (r²) is de proportie variantie in y die verklaard kan worden door de voorspelling uit x. Hieruit kun je het succes van de voorspelling afleiden. De waarde ligt altijd tussen de 0 en de 1 of 0% en 100%. Hoe hoger het percentage, hoe perfecter het verband. Wanneer er veel spreiding is, ligt de waarde dicht bij de 0. Wanneer er weinig spreiding is, is de verklaarde variantie dichtbij 1. Hoe meer de geobserveerde punten bij de voorspelde punten liggen, hoe hoger de verklaarde variantie. Dus hoe dichterbij de regressielijn, hoe nauwkeuriger de voorspelling, ook al is de lijn niet steil kan er toch een hoge correlatie zijn.

 

Bij een perfecte voorspelling is r²=1.

 

Variantie voorspelde waarden =

 

Variantie geobserveerde waarden =

 

De punten liggen exact op regressielijn dus

 

Verklaarde variantie =

 

Bij een niet perfecte voorspelling liggen de punten verspreid rond de lijn, dus

 

Een regressie heeft dezelfde haken en ogen als een correlatie.

 

Een residuenplot geeft de error weer. Het is een plaatje van alle afwijkingen van de regressielijn. Als er een patroon in te herkennen is, is dat goed.

 

Een univariatie uitbijter wijkt tenminste 1,5 IQR af van Q1 of Q3.

Een bivariaat uitbijter wijkt duidelijk af van het patroon van de overige observaties. Dit is een invloedrijke observatie, dus een uitbijter met een duidelijke invloed op r.

 

Extrapolatie zijn uitspraken over relaties buiten de range van geobserveerde gegevens. Dit moet je dus voorkomen.

 

Het restricted range probleem is de onvolledige dekking van het domein. Dit leidt tot een lagere correlatie. Dit kan komen door bijvoorbeeld te weinig informatie of een niet representatieve steekproef.

 

 

Access: 
Public
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Image

Comments, Compliments & Kudos:

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
Check how to use summaries on WorldSupporter.org


Online access to all summaries, study notes en practice exams

Using and finding summaries, study notes en practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the menu above every page to go to one of the main starting pages
    • Starting pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
  2. Use the topics and taxonomy terms
    • The topics and taxonomy of the study and working fields gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
  3. Check or follow your (study) organizations:
    • by checking or using your study organizations you are likely to discover all relevant study materials.
    • this option is only available trough partner organizations
  4. Check or follow authors or other WorldSupporters
    • by following individual users, authors  you are likely to discover more relevant study materials.
  5. Use the Search tools
    • 'Quick & Easy'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject.
    • The search tool is also available at the bottom of most pages

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Field of study

Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
665