1. Basisbegrippen
In dit hoofdstuk worden statistische begrippen uitgelegd aan de hand van een praktisch voorbeeld: een groep onderwijzers heeft een cursus samengesteld die als doel heeft om middelbare scholieren om te leren gaan met stress. Dit zou vervolgens een uitwerking moeten hebben op hun gevoel van eigenwaarde.
Belangrijke termen
Het gaat te ver om de gehele populatie van middelbare scholieren in het land te onderzoeken. Dit kost teveel tijd en geld, en het is niet logisch om alle scholieren al te testen als nog niet duidelijk is of de cursus werkt. Daarom wordt een steekproef getrokken uit de populatie. Het liefst een willekeurige (random) steekproef. Om een willekeurige steekproef te trekken, moet een set procedures gevolgd worden die ervoor zorgen dat elke student in de populatie evenveel kans heeft om geselecteerd te worden (denk aan het geblinddoekt trekken van namen uit een grote hoed). Een puur willekeurige steekproef bestaat eigenlijk niet.
Na het trekken van de steekproef moet via willekeurige toewijzing de helft van de proefpersonen aan de cursus worden toegewezen, en de andere helft krijgt geen cursus.
Een populatie is de gehele collectie aan gebeurtenissen waarin men geïnteresseerd is (scores van studenten, inkomens, snelheden etc.): hier dus de eigenwaarde scores van alle middelbare scholieren in een bepaald gebied. Populaties kunnen van een klein aantal getallen tot een ontelbaar aantal getallen variëren. Omdat het onmogelijk is alle elementen te meten, maken we gebruik van een steekproef, waarna we uitspraken proberen te doen over de gehele populatie. De uitkomsten van de steekproef zijn minder of meer representatief voor de populatie, afhankelijk van hoe willekeurig de steekproef getrokken was. Als deze weinig willekeurig is, zal het minder betekenisvol zijn, omdat het geen goede reflectie is van de populatie.
Hoe goed een steekproef de populatie representeert, wordt uitgedrukt in externe validiteit. Dit heeft te maken met willekeurig participanten voor de steekproef selecteren. Een steekproef getrokken uit mensen in een klein dorp in Amerika geeft geen goede schatting van het aantal Spaanse mensen in het gehele land. Resultaten uit een onderzoek met deze steekproef zijn dan misleidend en niet representatief. Maar, als dat onderzoek gaat over reactiesnelheid, kan de steekproef wel representatief zijn. Hoe representatief een steekproef is, ligt dus aan het onderzoek.
Een steekproef kan tegelijkertijd een populatie zijn: de scores van een klas kunnen als steekproef gebruikt worden voor de scores van alle leerlingen op een school. Maar, de mentor van die bepaalde klas kan de scores zien als populatie, omdat hij alleen geïnteresseerd is in hun scores.
Naast externe validiteit is er ook interne validiteit. Dit heeft te maken met willekeurig toewijzen van participanten aan een conditie. We willen zeker weten dat de resultaten uit het onderzoek voortkomen uit de verschillen tussen de groepen (namelijk het volgen van de cursus of niet), en niet door bestaande verschillen tussen de groepen. Stel dat een van de groepen vooral angstige studenten bevat, dan beïnvloedt dat ook de resultaten. Dit zou bijvoorbeeld gebeuren wanneer studenten zichzelf kunnen opgeven voor de cursus.
Variabelen
Na het selecteren van participanten en het toewijzen aan een van de groepen, moet bekeken worden hoe elke groep behandeld wordt en welke variabelen worden gemeten. Een variabele is een eigenschap van een object of gebeurtenis die verschillende waarden kan hebben. Haarkleur is bijvoorbeeld een variabele: het is een eigenschap van een object (haar) en kan verschillende waarden hebben (bruin, blond, rood etc.). In het voorbeeldonderzoek zijn variabelen bijvoorbeeld eigenwaarde, geslacht, sociale steun en de behandelconditie (wel of geen cursus volgen).
Variabelen kunnen afhankelijk of onafhankelijk zijn. In het voorbeeld is het behoren tot een van de twee groepen (cursus of geen cursus) een onafhankelijke variabele, omdat wij als onderzoeker daar controle over hebben. Wij bepalen wie welke behandeling krijgt, maar ook wat die behandelingen inhouden. Geslacht kunnen we niet besturen, maar wel welk geslacht we willen onderzoeken.
De data uit het onderzoek, zoals de eigenwaarde scores of gevoelens van persoonlijke controle, zijn afhankelijke variabelen. Een ezelsbruggetje hiervoor is dat de afhankelijke variabele (dependent variable) en data met een ‘d’ beginnen. Afhankelijke variabelen zijn meestal kwantitatief en continu. Onafhankelijke variabelen kunnen zowel kwantitatief als kwalitatief en discreet of continu zijn.
Discreet versus continu
Discrete variabelen zijn variabelen met een beperkt aantal mogelijke waarden, zoals geslacht of de klas waar een middelbare scholier in zit. Continue variabelen kunnen, in theorie, elke waarde tussen de laagste en hoogst punt op de schaal aannemen. Dit zijn variabelen zoals leeftijd en de score op eigenwaarde.
Kwantitatief versus kwalitatief
Kwantitatieve data (ook wel meet-data) is het resultaat van welk soort meting dan ook, zoals een cijfer voor een toets, gewicht, scores op een eigenwaarde schaal etc. Er is sprake van een meetinstrument en we zijn geïnteresseerd hoeveel de participant of ander object daarop heeft gescoord.
Kwalitatieve data wordt ook wel frequentie data of categorische data genoemd. Hierbij worden dingen gecategoriseerd (ingedeeld): ‘er zijn 35 mannen en 26 vrouwen in onze studie’ of ‘vijftien mensen werden geclassificeerd als ‘zeer angstig’, 33 als ‘neutraal’ en 12 als ‘weinig angstig’’.
Beschrijvende en inferentiële statistiek
Als de variabelen gekozen zijn en het onderzoek is afgenomen, houden we ruwe data over: de scores. Twee verschillende velden in de statistiek houden zich bezig met deze data.
Beschrijvende statistieken worden gebruikt als ons doel alleen is om de data te beschrijven. We kunnen gemiddelden uitrekenen, de scores in een grafiek uitbeelden en op zoek gaan naar extreme scores. Dit veld werd lang gezien als een vrij oninteressant deel in de statistiek, totdat John Tukey bewees met zijn explorerende data-analyse dat het onderzoeken van ruwe data nodig is, voordat je verdere analyses kan doen.
Nadat de data beschreven en onderzocht is, zijn we voornamelijk geïnteresseerd in de inferentiële (‘gevolgtrekkende’) statistieken. Hoewel we gebruikmaken van een steekproef, zijn we voornamelijk geïnteresseerd in het effect van onze cursus op een bepaalde populatie. Door middel van inferentiële statistieken proberen we hier antwoord op te geven. Wanneer een meting betrekking heeft op de gehele populatie, heet het een parameter. Wanneer het alleen betrekking heeft op de steekproef, is het een statistiek. Statistieken zijn dus een schatting van wat de parameter zal zijn.
Meetschalen
Halverwege de jaren ’50 zijn schalen gemaakt waarin variabelen konden worden ingedeeld. Tegenwoordig hecht men hier niet veel waarde meer aan, maar de termen blijven vaak voorkomen. Bij de volgende schalen geldt, dat elke schaal de eigenschappen overneemt van de schalen die daar vóór kwamen.
Nominale schalen zijn eigenlijk geen schalen: ze hebben geen bepaalde opeenvolging in scores, maar labelen variabelen alleen. Sekse is bijvoorbeeld een nominale variabele: een participant is een man of een vrouw, maar geen van beide opties is beter/hoger/meer waard dan de ander. Categorische data wordt meestal gemeten op een nominale schaal.
Ordinale schalen zijn de simpelste schalen bij variabelen: ze ordenen mensen, objecten of gebeurtenissen langs een bepaald continuüm. Bijvoorbeeld iemands rang in het leger: een commandant is lager in rang dan een kapitein, maar weer hoger dan een soldaat. Wat de ordinale schaal anders maakt dan de andere schalen, is dat we niks kunnen zeggen over het verschil in rang tussen een soldaat en commandant, en commandant en kapitein. Tussen de punten op de schaal kan dus minder of meer verschil in prestige zitten.
Interval schalen kunnen dit wel duidelijk maken. Hierbij zit tussen elk punt op de schaal evenveel afstand: bijvoorbeeld de Fahrenheit schaal van temperatuur. Een verschil van 10 punten ergens op de thermometer betekent altijd hetzelfde. Wat de interval schaal niet kan zeggen, is iets over verhoudingen. We kunnen niet zeggen dat 40° F de helft zo heet is als 80° F, of twee keer zo heet als 20° F. Dit kan een ratio schaal wel. Een ratio schaal heeft een waar nulpunt (0° F is bijvoorbeeld geen waar nulpunt, temperatuur houdt bij deze waarde niet op o.i.d.). Voorbeelden zijn lengte, volume of tijd. We kunnen nu ook zeggen dat 10 seconden twee keer zo lang is als 5 seconden.
Om een schaal te definiëren van een variabele moet je kijken naar de onderliggende variabele die gemeten wordt. Bijvoorbeeld: als we temperatuur in een huis gebruiken om iemands comfort te meten, dan is de schaal niet meer interval (want comfort heeft geen gelijke afstanden).
2. Data beschrijven en verkennen
In dit hoofdstuk wordt getoond hoe data gereduceerd kan worden zodat het beter te interpreteren is. Hiervoor worden grafische representaties gebruikt en bepaalde metingen.
Ruwe data is namelijk slechts een verzameling getallen. Om er wijs uit te worden, moet het georganiseerd worden.
Om uit te leggen hoe een verzameling scores georganiseerd kan worden, wordt het volgende voorbeeld gebruikt: om te kijken hoe mensen gegevens uit hun geheugen terughalen, wordt een experiment gedaan waarbij 1, 3 of 5 getallen worden getoond op een scherm, en kort daarna een enkel getal. De participant moet drukken op de positieve knop als het testgetal in de reeks stond, of op de negatieve als die er niet in stond. Reactietijden worden hierbij gemeten. Dit resulteert in een reeks reactietijden die we in een tabel kunnen zetten (Howell, 2013: 17).
Frequentie distributies
Een eerste stap is het maken van een frequentiedistributie. In het voorbeeld kunnen we bijvoorbeeld tellen hoe vaak een bepaalde reactietijd voorkwam. De proefpersoon reageert bijvoorbeeld 5 keer binnen 50/100 van een seconde. Als dit gedaan wordt, blijkt dat de data clustert (het meest voorkomt) bij ongeveer 60/100 van een seconde, en de meeste data ligt tussen de 40/100 en 90/100. Dit is goed uit te beelden in een figuur, bijvoorbeeld een staafdiagram. Op de verticale as komt dan de frequentie van een bepaalde reactietijd, en op de horizontale as de reactietijden. Een dergelijke frequentiedistributie in een grafiek noemen we een histogram.
Om een grafiek of tabel beter leesbaar te maken, kunnen we de data ook samenvoegen in blokken van 5/100 van een seconde. De frequenties van uitkomsten tussen de 35/100 en 39/100 worden dan bijvoorbeeld samengenomen. Wanneer gebruikgemaakt wordt van samengevoegde frequenties, ofwel intervallen, dan zijn de ware grenzen van die intervallen de decimale waarden die halverwege vallen tussen de top van 1 interval en de onderkant van de volgende. Bijvoorbeeld: Het interval 35-39 omvat alle waarden tussen de 34.5 (ondergrens) en 39.5 (bovengrens) omdat mensen met een afgeronde score in dat interval zouden komen. De schrijver houdt als regel dat een score van 39.5000 afrondt naar 39.
Voor nog meer overzichtelijkheid zou je in een grafiek of tabel ook alleen de middenpunten kunnen weergeven: het gemiddelde van de boven- en ondergrens van een interval.
Bij het gebruik van intervallen is het verstandig om tussen de 10 tot 12 intervallen te hebben. Gebruik daarbij zoveel mogelijk natuurlijke breekpunten, dus bijvoorbeeld 0-9, 10-19 etc.
In het voorbeeld heeft de participant één keer een waarde behaald van 125/100 van een seconde, een zeer langzame reactietijd in vergelijking met de andere scores. Deze waarde wordt een uitschieter genoemd (‘outlier’) omdat hij sterk afwijkt van de rest van de data.
Vloeiende lijnen toepassen op data
Histogrammen worden gebruikt om data op een handige manier uit te beelden, maar ze hebben hun tekortkomingen. Zo wordt data niet helder uitgebeeld, vooral wanneer de steekproeven kleiner zijn of de verschillen tussen scores minder groot. Om een betere weergave te krijgen, moet een vloeiende curve op de data worden toegepast.
Een normale curve
De normale curve wordt ook wel de bel-curve genoemd vanwege de vorm: hij is het hoogst in het midden van de distributie en loopt af naar beneden aan beide kanten van dit midden. Deze vorm in de curve hoort bij een normaalverdeling, hier wordt later verder op ingegaan.
Kernel dichtheids plot
Bij een normale curve worden maar een paar gegevens gebruikt, namelijk het gemiddelde en de standaarddeviatie van een verdeling. Individuele scores spelen dus geen rol in de plot. De Kernel dichtheids plot is het tegenovergestelde: het gebruikt juist individuele data en doet niets met gemiddelde of standaarddeviatie. De Kernel plot houdt rekening met het feit dat elke observatie of score een bepaalde mate van toeval bevat. Een score van 80/100 had net zo goed 79/100 of 85/100 kunnen zijn. Elke score heeft zo een eigen distributie van mogelijke scores. De Kernel plot telt in feite al deze losse normaalverdelingen op en maakt daar een totale normaalverdeling van die veel beter in de buurt komt van de werkelijke verdeling.
Steel-en-blad weergave
Het nadeel van histogrammen is dat ze gebruikmaken van intervallen, waardoor de individuele scores verloren gaan. Het nadeel van frequentieverdelingen is dat ze juist individuele scores gebruiken, maar de data niet voldoende samenvatten. De ‘stem-and-leaf’ weergave vermijdt beide kritiekpunten.
Om deze methode uit te leggen, wordt de volgende dataset gebruikt: een dataset van het aantal minuten per week dat 100 studenten elektronische spellen spelen. In tabel 1 staat een deel van de scores, namelijk die tussen de 40 en 80 minuten per week.
Tabel 1 |
|
|
Ruwe data | Steel | Blad |
| 0 | 00000000000233566678 |
| 1 | 2223555579 |
| 2 | 33577 |
40 41 41 42 43 43 44 | 3 | 22278999 |
46 46 46 47 48 49 49 | 4 | 01123346667899 |
52 54 55 55 57 58 59 | 5 | 24557899 |
63 67 | 6 | 37 |
71 75 75 76 76 78 79 | 7 | 1556689 |
| 8 | 34779 |
| 9 | 466 |
| 10 | 23677 |
De cijfers die de tientallen maken (de 4, 5, 6 en 7 hier) heten de leidende getallen of de meest significante getallen. Deze leidende getallen vormen de steel, of verticale as, van de weergave. Van de 14 scores in de 40 was er één 40, twee 41s, één 42, etc. De eenheden in deze getallen (de 0, 1, 2 etc.) heten de volgende (of minder significante) getallen. Zij vormen de bladeren. Naast het getal 4 onder de steel zie je deze eenheid getallen terugkomen. Eén nul, twee enen, etc.
In de tabel kun je teruglezen hoeveel studenten een bepaalde tijd spelletjes spelen. 11 studenten spelen 0 minuten per week spelletjes, 1 student speelt 2 minuten, etc. De getallen onder de kolom ‘blad’ geven ook meteen een soort histogram-beeld.
Deze weergave kan ook gevarieerd worden. Zo is het mogelijk om de intervallen in de ‘blad’ kolom kleiner te maken. In plaats van het samenvoegen van 41 tot 49, kun je er ook voor kiezen om intervallen te maken van 40-41, 42-43, 44-45 etc. (zie tabel 2). In dat geval krijgt de ‘blad’ kolom bijvoorbeeld de variabelen 4, 4t en 4v respectievelijk (de ‘t’ staat voor ‘two’ en ‘three’, de ‘v’ voor ‘vier’ en ‘vijf’). De enige voorwaarde hierbij is, dat elk interval even groot moet zijn.
Tabel 2 |
|
|
Ruwe data | Steel | Blad |
42 42 42 43 43 43 43 43 | 4t | 22233333 |
44 44 44 45 45 | 4f | 44455 |
Steel-en-blad weergaven zijn voornamelijk praktisch wanneer twee verschillende distributies vergeleken worden. Daarbij worden de twee distributies aan weerszijden van de steel getoond.
Beschrijvende statistieken
De normaalverdeling is idealiter perfect symmetrisch: hoog in het midden en naar beide kanten even snel dalend. Niet elke distributie zal er zo uitzien. Een bimodale distributie heeft bijvoorbeeld 2 pieken (in feite een dubbele normaalverdeling). Als een distributie maar 1 piek heeft, heet het een unimodale distributie.
Een distributie kan ook asymmetrisch zijn, in dat de verdeling aan één van beide zijden van de piek langer uitloopt. Een distributie met een ‘staart’ naar de linkerkant heeft een negatieve scheefheid (‘skew’), een distributie met een staart naar rechts heeft een positieve scheefheid.
Ten slotte is er kurtosis of piekvormigheid, en dit is een maat voor de concentratie van scores in het midden of juist de staart van de distributie.
1. mesokurtisch: een normaalverdeling (de piek zit in het midden)
2. platykurtisch: een verdeling met een plattere curve
3. leptokurtisch: een verdeling met juist een steilere piek, maar ook langere staarten.
Notatie
In de statistiek is er (nog) geen standaard notatiesysteem dat wordt gehanteerd. In het boek wordt een simpel notatiesysteem gebruikt.
Variabelen
Over het algemeen betekent een hoofdletter, vaak X of Y, een variabele als geheel. Een subscript bij die letter betekent dan een individuele waarde van die variabele. Als je bijvoorbeeld de waarden 35, 42 en 13 hebt bij X, kun je waarde 35 ook noteren als X1. Om naar een enkele score te refereren zonder een specifieke te selecteren, schrijf je Xi, waarbij i elke waarde tussen (in dit geval) 1 en 3 kan aannemen.
Opsomming
Een van de meest gebruikte symbolen is de hoofdletter sigma (Σ), de standaardnotatie voor opsomming. Letterlijk betekent het: ‘tel bij elkaar op wat volgt’, bijvoorbeeld ΣXi is tel de Xis op (voor het gemak wordt de ‘i’ hier vaak bij weggelaten). Let ook op bij ΣX2, wat betekent ‘tel alle X2 op. (ΣX)2 betekent juist dat de Xs moeten worden opgeteld, en dán in het kwadraat.
Dubbel subscript
Een dubbel subscript kan gebruikt worden om te specificeren welke waarde van X bedoeld wordt. Bij een tabel kun je dan bijvoorbeeld aangeven welke rij en kolom je bedoelt (de ide rij en de jde kolom): X2,3 betekent dan de waarde in rij 2, kolom 3.
Centrale tendens
Metingen van de centrale tendens, of ook wel metingen van ‘locatie’, zijn die metingen die aantonen waar op de schaal de distributie zich centreert. Er zijn drie manieren om dit te doen: de modus, de mediaan en het gemiddelde.
1. Modus (Mo): wordt het minst gebruikt en is vaak het minst bruikbaar. Dit is simpelweg de meest voorkomende score, ofwel, de score die de meeste participanten hadden (het hoogste punt in de distributie). In het geval dat twee scores even vaak voorkomen, wordt hieruit het gemiddelde genomen. Wanneer deze twee scores zeer ver uit elkaar liggen, is de verdeling bimodaal en is het handiger om twee modi te noemen.
2. Mediaan (Mdn): de score die correspondeert met het punt op of onder daar waar 50% van de scores vallen. In die zin is de mediaan ook wel het 50e percentiel. Stel dat we de scores 3, 5, 7, 8 en 15 hebben, dan is 7 de mediaan. Bij een even aantal scores, dus 3, 5, 7, 8, 11 en 15, valt de mediaan tussen de 7 en de 8. In dat geval wordt het gemiddelde van de twee middelste scores als mediaan genomen. Een handige formule om het scorenummer te vinden waar de mediaan valt, is die van de mediaan locatie:
Bijvoorbeeld: bij vijf scores ligt de mediaan bij (5+1)/2 = 3.
3. Gemiddelde: deze meting van de centrale tendens wordt het meest gebruikt. Het gemiddelde () is de som van de scores, gedeeld door het aantal scores, oftewel: = ΣX/N.
Voordelen en nadelen van de mediaan, modus en gemiddelde
Wanneer de distributie vrijwel symmetrisch is, liggen de mediaan en het gemiddelde dicht bij elkaar. Als de verdeling dan ook unimodaal is, ligt ook de modus in de buurt. In alle andere gevallen moet goed nagedacht worden welke meting wordt gebruikt.
Modus
De modus is per definitie een score die werkelijk voorkomt, dit is bij het gemiddelde en de mediaan niet (altijd) zo. De modus representeert daarnaast ook de grootste groep mensen.
Mediaan
Het grote voordeel van de mediaan, net als bij de modus, is dat het niet beïnvloed wordt door extreme waarden. Deze is dus een goede optie in onderzoeken waarbij extreme waarden voorkomen.
Gemiddelde
Het gemiddelde wordt het meest gebruikt. Een groot nadeel van het gemiddelde is echter dat het wel beïnvloed wordt door extreme scores en dat de waarde van het gemiddelde soms geen bestaande score is. Toch is het gemiddelde een sterke meting, door bepaalde voordelen. De belangrijkste is dat het gemiddelde gemanipuleerd kan worden in berekeningen. Daarnaast kan het gebruikt worden om een populatiegemiddelde uit te rekenen: een steekproefgemiddelde is vaak een betere schatting van een populatiegemiddelde dan een modus of mediaan.
‘Bijgeknipt’ gemiddelde
Dit zijn gemiddelden berekend over data waarbij een deel van de scores is weggelaten (aan het uiteinden van de staarten). Bij een 10% bijgeknipt gemiddelde over 100 scores, worden aan elk uiteinde de laatste 10 scores weggelaten. Door het bijknippen vallen extreme waarden weg, en wordt de verdeling normaler.
Metingen van veranderlijkheid
Het is handig om te weten waar de data zich centreert. Daarnaast is het echter ook belangrijk om te meten in hoeverre de afzonderlijke scores afwijken van een gemiddelde, mediaan of modus. Dit heet de dispersie, of veranderlijkheid, rond een punt. Over het algemeen wordt bij dispersie gekeken naar het gemiddelde.
Om dispersie uit te leggen, wordt het volgende voorbeeld gebruikt: twee onderzoekers willen bekijken wat een gezicht aantrekkelijk maakt: bijzondere kenmerken of juist een ‘algemene’ look. Om dit te onderzoeken, maken ze foto’s op de computer: gezichten samengesteld uit 4 verschillende gezichten (Set 4), waar dus nog wat bijzonderheid in te zien is, en gezichten samengesteld uit 32 gezichten (Set 32). Studenten beoordelen beide foto’s op een schaal van 1 tot 5. Uit het onderzoek blijkt, dat Set 32 gezichten als aantrekkelijker worden beoordeeld. Daarnaast blijkt, dat de scores van Set 32 gezichten veel dichter bij elkaar liggen dan bij Set 4 gezichten (de scores zijn homogener). Dit verschil in veranderlijkheid willen we met een meting weergeven.
Range
De range is een meting van afstand: van de laagste tot de hoogste score. De laagste score bij Set 4 was 1.20, de hoogste score 4.02, dus de range is 4.02-1.20 = 2.82 eenheden. De range is echter compleet afhankelijk van extreme waarden en kan een verkeerd beeld schetsen.
Interkwartiel range en andere statistieken
De interkwartiel range probeert de afhankelijkheid van extreme waarden te verminderen. Deze wordt namelijk uitgerekend door eerst de bovenste en onderste 25% van de distributie weg te laten. Het punt dat de onderste 25% van de verdeling afsnijdt, heet het eerste kwartiel of Q1. Het punt voor de bovenste 25% heet het derde kwartiel of Q3. De mediaan is daarbij het tweede kwartiel. De interkwartiel range wordt uitgerekend door Q3 – Q1. Interkwartielen worden ook gebruikt bij boxplots, daarover later meer.
De gemiddelde deviatie
Op het eerste gezicht lijkt de makkelijkste manier om afstanden vanaf het gemiddelden te meten, om alle afwijkingen (deviaties) uit te rekenen en het gemiddelde daaruit te krijgen. Maar, omdat de helft van de scores een positieve deviatie zal hebben en de andere helft een negatieve, krijg je uiteindelijk altijd een opgetelde deviatie van 0. Dit werkt dus niet.
De gemiddelde absolute deviatie
De absolute waarde van een getal is die waarde zonder + of – teken. Hierdoor lossen we het probleem op dat opgetelde deviaties altijd 0 opleveren. Toch wordt deze nauwelijks gebruikt, omdat andere metingen handiger zijn.
Variantie
De steekproefvariantie (s2) heeft een andere oplossing voor het probleem dat alle deviaties opgeteld op 0 uitkomen (populatievariantie heeft als notatie σ2). Deze gebruikt namelijk het feit dat een negatief getal in het kwadraat positief wordt. We sommen hierbij dus de gekwadrateerde deviaties op, en delen dan door N-1, omdat dit een betere schatting geeft.
Gebruikmakend van het voorbeeld wordt de formule voor Set 4 (X):
Uit deze formule komen natuurlijk gekwadrateerde eenheden. Omdat dit niet handig is met vergelijken, is de laatste stap om de wortel uit deze eenheden te nemen. Dit is de standaarddeviatie (s of σ of soms SD).
In het voorbeeld wordt een s gevonden van 0.66 voor Set 4, en 0.07 voor Set 32. Dit houdt in dat, gemiddeld genomen, de scores voor Set 4 0.66 eenheden van het gemiddelde afwijken. Voor Set 32 wijken scores slechts 0.07 van het gemiddelde af.
De standaarddeviatie kan ook worden gebruikt om uit te drukken hoeveel scores niet meer dan 1 SD van het gemiddelde afwijken. Voor normaalverdelingen geldt over het algemeen dat twee derde van de scores binnen 1 SD van het gemiddelde af ligt. Bij het uitrekenen van variantie en SD moet men erg voorzichtig zijn met extreme waarden, omdat deze metingen daar erg gevoelig voor zijn. Een extreme waarde heeft vanzelfsprekend een hoge deviatie van het gemiddelde!
De variatiecoëfficiënt
Stel dat we twee verschillende testen hebben om het langetermijngeheugen te meten. Een van de testen heeft data met een gemiddelde van 15 en een SD van 3.5. De andere test heeft data met een gemiddelde van 75 en een SD van 10.5. Welke test is beter? Misschien kies je de tweede, omdat die meer variatie in scores heeft en een grotere SD. Maar, dit komt doordat de tweede test ook grotere waarden heeft. Om SD te beoordelen, moeten we dus rekening houden met de grootte van het gemiddelde. Om de twee testen te kunnen vergelijken, moeten we dus de gemiddelden meenemen in de berekening. Dit doe je met de variatiecoëfficiënt (CV), simpelweg de standaarddeviatie gedeeld door het gemiddelde (x100 om in procenten uit te drukken).
De eerste test krijgt hierdoor een CV van 23.3. De tweede test krijgt een CV van 14.
Onpartijdige schatter
Hoewel we meestal werken met steekproeven, proberen we altijd iets te zeggen over de populatie waarop de steekproef betrekking heeft. We gebruiken statistieken (data van steekproeven) om een schatting te maken van parameters (karakteristieken van populaties). Deze karakteristieken worden altijd uitgedrukt in Griekse letters, zo is het populatiegemiddelde μ (mu). Schattingen kunnen partijdig en onpartijdig zijn, we zoeken over het algemeen naar onpartijdige.
Stel dat we van een populatie het gemiddelde weten (bijvoorbeeld de lengte van de basketbalspelers in de NBA). Als we hieruit een steekproef trekken, willen we dat zo dicht mogelijk bij μ ligt. Toch zal het niet precies gelijk zijn aan μ. Wat we kunnen doen, is een oneindig aantal steekproeven trekken – het gemiddelde van al die steekproeven zal wel gelijk zijn aan μ. In het geval dat de verwachte waarde van een steekproef (dus wanneer we veel steekproeven achter elkaar zouden doen) gelijk zal zijn aan μ, noemen we dat een onpartijdige schatter.
Steekproefgemiddelde en –variantie zijn onpartijdige schatters van hun parameters. Om steekproefvariantie onpartijdig te maken, moeten we echter wel delen door (N – 1) in plaats van door N. Dit heeft te maken met het feit dat in de formule voor een ‘gemiddelde steekproefvariantie’ op een gegeven moment (N – 1) als onderdeel van de noemer in de breuk komt te staan.
Boxplots
Een boxplot is net als een steel-en-blad weergave een manier om data op een handige manier uit te beelden. Eerder hebben we gezien dat de mediaan locatie gevonden wordt door (N+1)/2. Om een boxplot te maken, hebben we daarnaast het eerste en derde kwartiel nodig. De makkelijkste manier om die te vinden, is middels de kwartiel locatie:
Net als bij de mediaan locatie vertelt de kwartiel locatie, welke hoeveelste score de kwartielen bevat. Naast het eerste en derde kwartiel, maakt de boxplot gebruik van de interkwartiel range (de afstand tussen eerste en derde kwartiel), binnen afrastering en aangrenzende waarden. Binnen afrastering is het punt dat 1.5 keer de interkwartielafstand onder of boven het kwartiel valt. Stel dat de interkwartielafstand 2 is, dan is de binnen afrastering 2 x 1.5 = 3 punten verder dan de kwartielen. Aangrenzende waarden zijn die waarden in de data die niet extremer is dan de binnen afrastering. Stel dat de binnen afrastering tussen de -1 en 7 ligt, dan is het mogelijk dat de laagste werkelijke waarde in de data 1 is. Dan is dat de lagere aangrenzende waarde.
Een handig hulpmiddel bij binnen afrastering en aangrenzende waarden is ze te zien als een weiland met koeien, met een hek eromheen. Het hek is de afrastering. De koeien die het dichtst bij het hek staan, maar nog wel in het veld, zijn de aangrenzende waarden. De koeien daarbuiten tellen we niet mee: dat zijn uitschieters.
Om een boxplot te tekenen, maken we eerst een schaal (liniaal) die de hele range aan scores omvat. Dan tekenen we een rechthoekige box van Q1 naar Q3, met een verticale lijn voor de locatie van de mediaan daarin. Links en rechts van de box komen lijnen (de snorharen) van de kwartielen naar de aangrenzende waarden. De punten die buiten de boxplot vallen, worden weergegeven met een sterretje/punt (zie figuur 1).
Uit de boxplot leiden we af, dat het centrale deel van de distributie vrij symmetrisch is: de mediaanlijn ligt in het midden van de box. Ook zien we dat de distributie positief scheef is, omdat de snorhaar aan de rechterkant veel langer is dan die aan de linkerkant. Ten slotte laat de boxplot heel duidelijk zien dat er 3 uitschieters zijn.
Boxplots geven dus een duidelijke weergave. Ze zijn daarom vooral handig bij het vergelijken van groepen. De positie van de boxplot kan vertellen waar de gemiddelde scores van een groep zich centreren.
Met het statistiekprogramma SPSS zijn metingen van veranderlijkheid ook uit te voeren. Dit doe je door middel van Analyze/Compare means/Means in het menu. Door Graphs/Interactive/Boxplot krijg je de boxplot te zien.
Percentielen, kwartielen en decielen
Naast kwartielen, kunnen scores ook op andere manieren worden verdeeld. Bij decielen wordt de verdeling in tienden verdeeld, waarbij het eerste deciel de laagste 10% van de scores is, en zo verder. Percentielen worden vaak gebruikt, waarbij waarden in de distributie in honderden worden verdeeld. Het 81e percentiel is het punt in de distributie waaronder 81% van de scores ligt. Al deze verdelingstermen horen onder de algemene statistische tak van de kwantielen of ook wel fractielen.
Het effect van lineaire transformatie
Heel vaak zullen we data willen transformeren, bijvoorbeeld van meters naar centimeters of Fahrenheit naar graden Celsius. Deze transformaties vallen onder lineaire transformaties, waarbij X wordt vermenigvuldigd met een bepaalde constante en een constante erbij wordt opgeteld:
Xnieuw = bXoud + a
Om het gemiddelde en variantie van de nieuwe schaal te vinden, zijn ook formules gemaakt:
1. Gemiddelde:
Xnieuw = Xoud a: nieuw = ouda - optellen of aftrekken blijft hetzelfde
Xnieuw = bXoud: nieuw = boud - vermenigvuldigen of delen blijft hetzelfde
2. Variantie:
Xnieuw = Xoud a: s2nieuw = s2oud - optellen of aftrekken van een constante bij of van een reeks scores laat de variantie en SD hetzelfde
Xnieuw = bXoud : s2nieuw = b2s2oud = bsoud - vermenigvuldigen of delen van een constante bij een reeks scores, vermenigvuldigt of deelt de Xnieuw = Xoud/b : s2nieuw = s2oud/b2 = soud /b variantie met de constante2 en de SD met de constante
Centreren
Centreren wordt meer en meer gedaan met data. Hierbij wordt het steekproefgemiddelde afgetrokken van alle observaties. Het nieuwe gemiddelde wordt dan 0.00, maar SD en variantie blijven gelijk.
Reflectie
Dit wordt vaak gebruikt. Met reflectie wordt de volgorde van een schaal omgedraaid. In veel onderzoeken wordt de helft van de vragen omgedraaid in waarde, om te voorkomen dat mensen zonder na te denken gaan invullen. Bij een 5-punt schaal wordt bijvoorbeeld bij de ene helft van de vragen 1 ‘sterk oneens’ tot 5 ‘sterk mee eens’, bij de andere helft andersom. Om de scores te vergelijken moeten de negatieve items omgedraaid worden (dus een 5 wordt een 1, een 4 een 2 etc.).
Standaardiseren
Wanneer gebruik wordt gemaakt van centreren, heten de nieuwe scores afwijkingsscores (hoe ver ze afwijken van het gemiddelde). Centreren wordt meestal gebruikt bij regressie.
Vaak worden na het centreren de afwijkingsscores gedeeld door de standaarddeviatie, waarna de scores standaardscores heten. Dit proces heet standaardisering. Door standaardisering creëer je in feite scores in standaarddeviatie-eenheden. Een gestandaardiseerde score van 0.46 is een score die 0.46 SD boven het gemiddelde zit.
Non-lineaire transformaties
Lineaire transformaties veranderen data, maar hebben geen invloed op de vorm van een verdeling. Non-lineaire transformaties hebben dit juist tot doel. Ze kunnen een scheve verdeling symmetrischer maken, of het effect van uitschieters verkleinen.
3. De normale verdeling
Het concept van de normale verdeling wordt uitgelegd, en we bespreken hoe we de normaliteit van een steekproef kunnen beoordelen.
Andere verdelingen
Alle verdelingen van scores proberen op een bepaalde manier de scores weer te geven. Een aantal voorbeelden: ten eerste is er het cirkeldiagram (een cirkel opgedeeld in taartpunten voor elk percentage). Daarnaast kennen we het staafdiagram, met aparte staven of blokken per frequentie. Deze stelt ons beter in staat om categorieën te vergelijken (kijk simpelweg naar de hoogte van de staaf per categorie), en lijkt visueel meer op de distributies die in de statistiek worden gebruikt.
De normale verdeling
De normale verdeling is een van de belangrijkste verdelingen in de statistiek:
1. veel van de afhankelijke variabelen waar we mee werken, zijn normaal verdeeld in de populatie
2. als een variabele normaal verdeeld is, kunnen we vervolgens uitspraken gaan doen over waarden van die variabele (het is vaak een voorwaarde om analyses te doen)
3. wanneer een oneindig aantal steekproeven wordt getrokken van een populatie, zal de verdeling van die steekproeven neigen naar een normale verdeling
In een histogram dat een normale verdeling toont, is altijd een soort bel-vormige vorm te zien met de meeste scores in het midden (en dus een hoge piek), en richting de zijkanten een heuvel naar beneden. De horizontale as (abscis) representeert verschillende waarden van variabele X, en de verticale as (ordinaat) is ook wel de dichtheid en heeft te maken met de frequentie van een bepaalde waarde van X.
Carl Friedrich Gauss was een onderzoeker die de normale verdeling tot zijn huidige vorm heeft gebracht, waardoor de verdeling ook vaak de Gaussiaanse verdeling wordt genoemd.
De standaard normale verdeling
De standaard normale verdeling heeft een gemiddelde van 0 en een SD van 1. De distributie wordt daardoor N(0,1), met 0 de waarde van μ en 1 de waarde van σ2. Door dit gemiddelde en deze SD, kunnen we deze standaard normale verdeling in een tabel weergeven en dit toepassen op andere verdelingen.
Neem bijvoorbeeld een normale verdeling met een gemiddelde van 50 en een SD van 10. De scores hebben betrekking op een gehele populatie van gedragsprobleemscores uit de YSR (Youth Selfreport Form). We willen weten welke scores horen bij de top 5 of 10% van de populatie. We hebben een tabel die de kansen weergeeft dat een individu een bepaalde score krijgt (die van de standaard normale verdeling). We moeten dus de voorbeeldverdeling omzetten in een standaard normale verdeling (en de ruwe scores worden omgezet in standaardscores)
Om dit te doen, moeten we het gemiddelde -50 doen, en de SD naar 0 krijgen door te delen door 10. De formule van de getransformeerde distributie genaamd z is:
Deze omzetting in z-scores heeft geen effect op de vorm van de verdeling of de plaats van de observaties. We veranderen puur de eenheid. Door het omzetten in z-scores worden bepaalde dingen veel duidelijker: een score van 60 is nu een score 1. 60 was één SD (10 punten) boven het gemiddelde, en dat is het nog steeds, maar nu heeft het ook daadwerkelijk een waarde 1. Een score van 45 was 0.5 SD onder het gemiddelde, en is nu een z-score van -0.5.
Let op : Het omzetten in z-scores past niet de vorm van de verdeling aan. Was een distributie niet normaal voordat het getransformeerd werd, dan is hij na transformeren nog steeds niet normaal.
Tabellen van de standaard normale verdeling gebruiken
Achter in het boek (Howell, 2013: 714) is een Appendix z te vinden, waarin de standaard normale verdeling uitgebreid in is opgenomen.
Voorbeeld 1
Stel dat we willen weten hoe groot de kans is om meer dan 1 SD boven het gemiddelde te scoren in gedragsproblemen. Het gebied onder de curve van de standaard normale verdeling, kan direct vertaald worden naar een kans. Oftewel: als je het gebied onder de curve uitrekent, weet je de kans op die score.
In dit geval willen we weten hoe groot het gebied onder de curve is vanaf z = 1 (want dat is gelijk aan 1 SD). In Appendix z (Howell, 2013) is te vinden dat het gebied van het gemiddelde tot z = 1 gelijk staat aan 0.3413. Ook geeft de appendix voor de ‘grotere portie’, dat wil zeggen het gehele gebied onder de curve tot z = 1, en de ‘kleinere portie’ ofwel het gehele gebied onder de curve vanaf z = 1. Deze laatste score willen we in dit geval hebben (zie de ster in Figuur 2), en is 0.1587. De kans dat een kind dus meer dan één standaarddeviatie boven het gemiddelde van de populatie scoort, is .1587.
De Appendix heeft geen waarden staan van negatieve z waarden. Dit komt omdat de verdeling symmetrisch is, en alle z waarden en bijbehorende scores dus ook. Het gebied boven z = 1 is hetzelfde als bij z = -1.
Voorbeeld 2
Stel dat we de kans willen weten dat een score tussen de 30 en de 40 valt. Eerst zet je de scores om in z scores (met de z formule). We willen de kans weten dat een score tussen -1.0 SD valt en -2.0 SD (zie Figuur 3). Uit de Appendix z blijkt dat het gebied van het gemiddelde tot z = -2 0.4772 is, en van gemiddelde tot z = -1.0 is het 0.3413. Het verschil tussen die gebieden is het gebied dat we zoeken en is dus 0.1359 groot. De kans dat een score tussen de 30 en 40 valt is .1359.
Kanslimieten op een observatie zetten
In de statistiek zijn we vaak geïnteresseerd in waarschijnlijkheden. Tussen welke waarden zal een score waarschijnlijk vallen? Hiervoor kunnen we limieten stellen: ‘Als ik een willekeurig kind neem uit deze populatie, dan zal in 95% van de gevallen de score liggen tussen …. en …. ‘. Als we dit in een normale verdeling bekijken, dan zoeken we het gebied waarin 95% van de scores vallen, en dus het gebied daarbuiten: de resterende 5%. Omdat de verdeling symmetrisch is, valt aan beide staarten de buitenste 2.5% af. Hierbij hoort een z waarde van 1.96. 95% van de tijd zal een score tussen de 1.96 SD boven het gemiddelde, en 1.96 SD onder het gemiddelde vallen.
Deze z score is vervolgens om te zetten in een ruwe score X, door middel van de z formule.
Is de data normaal verdeeld
De simpelste manier om de verdeling van data te checken, is door een normale verdeling bovenop een histogram te plakken. Toch kan dit vaak misleidend zijn. Een veel betere aanpak is om Q-Q plots te gebruiken (kwantiel-kwantiel plots).
Van een perfecte normale verdeling met gemiddelde = 0 en SD = 1 kunnen we makkelijk cut-off scores berekenen, zoals welke waarde de laagste 1% (of ook wel het eerste percentiel) van de verdeling markeert. Dit kunnen we doen voor elke waarde van 0.00 < p < 1.00 (waarbij p staat voor kans). De resultaten zijn de verwachte kwantielen van een normale verdeling.
Ga nu kijken naar de data die je werkelijk hebt verzameld. Wanneer de eigenlijke data ook precies normaal verdeeld is, zullen de verkregen kwantielen precies gelijk zijn aan de verwachte kwantielen. Maar wat als het niet een perfect normale verdeling is? Dan moeten we bekijken in hoeverre de waarden afwijken van een normale verdeling. De manier om dit te doen is om verwachte en verkregen kwantielen tegen elkaar te plotten in een figuur (relatief de Y as en de X as). Als de verdeling normaal is, vormt de plot een rechte lijn met een hoek van 45 graden (zie Figuur 4). Als de verdeling niet normaal is, zal er een afwijking in de lijn zijn (een kromming bijvoorbeeld).
De Kolmogorov-Smirnov test
Dit is de meest bekende test voor normaliteit, en is beschikbaar bij SPSS onder de nonparametische testen. De meeste mensen raden het gebruik van deze test echter af, omdat hij soms normaliteit afwijst of juist goedkeurt terwijl het tegenovergestelde het geval is.
4. Correlatie en regressie
De voorgaande hoofdstukken gingen over de verschillen tussen steekproefgemiddelden. Dit hoofdstuk begint met onderzoek naar relaties tussen variabelen. Vaak gaat het hierbij om het aantonen dat de afhankelijke variabele een bepaalde functie is van de onafhankelijke variabele.
Correlatie en regressie zijn twee onderwerpen die sterk verweven zijn, maar toch anders zijn. Bij simpele correlatie en regressie kijken we naar N participanten die voor twee variabelen geobserveerd of getest zijn. Stel dat we kijken naar rensnelheid van een muis in een doolhof (Y). Dit is een willekeurige variabele waarover we geen controle hebben. Wanneer we de relatie van Y bekijken met het aantal keer dat de rat op een knopje drukt voordat het uiteindelijk lukt (X), hebben we twee willekeurige, niet te beïnvloeden variabelen. In dat geval gebruiken we de term correlatie. Beide variabelen zullen variëren per experiment en hebben een steekproef error.
In het geval waar X een van tevoren bepaalde variabele is, gespecificeerd door de onderzoeker (bijvoorbeeld: het aantal voedselkorrels dat de rat krijgt per goed gelukte poging), spreken we van regressie.
Dit onderscheid gaat niet altijd op. Een ander verschil tussen correlatie en regressie is, dat wanneer we Y willen voorspellen op basis van X, we spreken van regressie. Maar, als we alleen de relatie tussen twee variabelen willen weergeven (zonder enige invloed te hebben), spreken we van correlatie.
Scatterplot
Als we de relatie tussen twee variabelen willen onderzoeken, is dat het handigst te bekijken met een scatterplot. Elke proefpersoon wordt daarbij weergegeven door een stip, en die stip heeft als coördinaten de waarden op variabelen X en Y (Howell, 2013: 253).
Normaliter wordt als X-as variabele de voorspellende variabele gebruikt, en voor de Y-as de criterium variabele. In een scatterplot wordt zo goed mogelijk een lijn door de puntenwolk getrokken. Die lijn heet de regressielijn van Y voorspeld door X (oftewel Y op X). Wanneer de regressielijn recht is, heet de relatie tussen de variabelen een lineaire relatie. Is de lijn krom, dan is er sprake van een curvilineaire relatie.
De mate waarin de punten in de puntenwolk om deze regressielijn liggen is gerelateerd aan de correlatie tussen X en Y. Hoe dichter de punten (de behaalde resultaten) bij de regressielijn liggen (de voorspelde waarde), hoe hoger de correlatie.
Correlatie kan variëren tussen -1 en 1, waarbij een perfecte correlatie 1.00 is (en alle punten op de lijn liggen).
Een voorbeeld
Stel dat we de relatie tussen stress en mentale gezondheid onderzoeken. Dit laatste meten we met een checklist. Ten eerste is het belangrijk te onderzoeken of beide variabelen normaal verdeeld zijn en weinig extreme waarden hebben. Voor een onderzoek naar correlatie moeten beiden wat variantie hebben (anders is het niet mogelijk om verschillen in stress te vergelijken met verschillen in mentale gezondheid).
Covariantie
De eerste stap voor het berekenen van de correlatie is het berekenen van de covariantie (covxy), die de mate weergeeft waarin twee variabelen samen variëren.
We verwachten een sterk positieve relatie: grotere waarden van X (stress) geven grotere waarden van Y (gezondheid). Dit zal een grote covariantie-waarde geven.
De Pearson correlatiecoëfficiënt
Om de correlatiecoëfficiënt te berekenen, moeten we nog rekening houden met de standaarddeviaties van X en Y.
r = covxy / sxsy
Stel dat we uit de berekening vinden dat r = .49. Dit betekent niet dat er 49% relatie is tussen stress en symptomen. Het geeft alleen de sterkte van de relatie aan tussen de twee variabelen, en de richting ervan (een positieve r betekent dat meer van X is meer van Y).
Aangepaste r
De r die net is berekend, is nog geen goede schatting van de correlatiecoëfficiënt van de populatie (ρ – rho). Zeker bij een klein aantal observaties zal de coëfficiënt r afwijken van ρ. Om hiervoor te corrigeren, berekenen we de aangepaste correlatiecoëfficiënt raang:
Wanneer de steekproef vrij groot is, zal r weinig afwijken van raang.
De regressielijn
De positieve relatie die werd aangetoond met r = .49, is ook af te leiden van de regressielijn. Een positieve relatie zal een stijgende lijn laten zien. De formule voor de regressielijn is die voor een rechte lijn:
Y = bX + a
Y = de voorspelde waarde van Y
b = de helling van de regressielijn
a = het snijpunt (de waarde van Y waar X=0)
X = de waarde van de voorspellende variabele
De regressielijn moet die lijn worden, die het best over de puntenwolk past: de lijn waar alle puntscores zo dicht mogelijk bij liggen. Om die lijn te vinden, berekenen we a en b:
Interpretatie van de regressielijn
1. Snijpunt
Het snijpunt is het punt van Y waar X=0. Dit kan een nuttige betekenis hebben, maar alleen als de variabele X geschikt is. Stel dat we kijken naar de relatie tussen eigenwaarde (Y) en gewichtsverlies (X), dan kunnen we uit het snijpunt afleiden hoeveel eigenwaarde een persoon heeft die geen gewicht heeft verloren. Maar, als X het gewicht zelf weergeeft, is het onzin te kijken naar eigenwaarde van iemand die 0 kilo weegt. In dat geval is het zinnig om de data te centreren: van elke waarde van X trek je het gemiddelde van X af. Hierdoor representeert X=0 de gemiddelde X, en Y geeft dan de waarde bij X= het gemiddelde.
Voorspellende waarde
Na het berekenen van de regressielijn is de grote vraag in hoeverre deze best passende lijn een goede voorspeller is van de data die is gevonden. De som van de kwadraten (‘sum of squares’ SSy) representeert de variatie die achterblijft nadat we X hebben gebruikt om hebben gebruikt om Y te voorspellen. SSy (ook wel SSresidu ) wordt gebruikt om de standaardschattingsfout te berekenen:
Uit deze formule is af te leiden dat als r toeneemt, de standaardschattingsfout afneemt
r² als maat voor variatie
Stel dat we geïnteresseerd zijn in de relatie tussen rookgedrag (X) en leeftijd van overlijden (Y). Mensen sterven niet allemaal op hetzelfde moment, dus er is variatie in variabele Y, ongeacht het rookgedrag. Dit is de SSy. Sommige mensen roken meer dan anderen, ongeacht leeftijd van overlijden. Dit is de SSx. Het onderzoek toont aan dat rokers eerder overlijden dan niet-rokers, waar we een regressielijn van kunnen maken. Door die lijn kunnen we ook voorspellen hoe lang iemand te leven heeft (of voorspelde levensverwachting). De laatste bron van variaties in scores is die variatie in Y die we niet kunnen verklaren door X, en heet SSresidu. Voor deze variaties geldt:
Stel dat alle niet-rokers bij een leeftijd van 70 jaar overlijden, en alle rokers bij 65 jaar. Alle variatie in levensverwachting is te voorspellen vanuit de variatie in rookgedrag, dus geldt: SS. = SSY en SSresidu = 0.
In normale situaties is er altijd wat variatie die niet is te voorspellen door X. Wat we willen is specificeren welk percentage van de variatie in levensverwachting door X te voorspellen is, en daarvoor kunnen we r2 gebruiken.
Stel dat we vinden dat de correlatie tussen roken en levensverwachting .80 is, dan is dus .802 = 64% van de variatie in levensverwachting te voorspellen door rookgedrag.
Voorwaarden voor regressie en correlatie
Ten eerste moet er sprake zijn van homogeniteit van varianties. Dit houdt in, dat de variantie van Y bij elke waarde van X even groot is (in de populatie). Daarnaast moeten de waarden van Y normaal verdeeld zijn.
Ten slotte gaan correlatie en regressietesten ervan uit dat de relatie tussen de variabelen lineair is.
Betrouwbaarheidsintervallen
Stel dat we een toekomstige participant onderzoeken op stress niveau, en dan zijn of haar symptomen willen voorspellen. Dan hebben we een voorspellingsinterval nodig, die zowel de variantie van Y, voorspeld door X, moet omvatten en de variantie van observaties. De formule voor dit betrouwbaarheidsinterval is:
CI(Y) = (tα/2)(s’yx)
Uit de formule komt bijvoorbeeld een voorspellingsinterval van 4.11 ≤ Y ≤ 4.23.
Data
Deze samenvatting is gebaseerd op het studiejaar 2013-2014.
Hypothesetesten
Bij het hypothesetesten bij correlaties, wordt meestal de nulhypothese getest dat de correlatie tussen X en Y in de populatie, oftewel ρ, nul is. Het verwerpen van de nulhypothese betekent, dat er een correlatie is en dus een bepaalde lineaire relatie.
Veel onderzoekers rekenen in plaats van een t statistiek de F statistiek uit. Dit is simpelweg de t waarde in het kwadraat.
De significantie van b
Wanneer X en Y correleren, en er is dus een lineaire relatie, dan zal de helling van de regressielijn niet gelijk zijn aan nul en b een bepaalde waarde anders dan nul hebben.
Het verschil tussen twee onafhankelijke rs testen
Stel dat we twee onafhankelijke steekproeven hebben en de correlaties van beide steekproeven willen vergelijken. Als de correlaties van de bijbehorende populaties niet gelijk zijn aan nul (ρ ≠ 0), dan zullen de rs niet normaal verdeeld zijn en kunnen we geen t test uitvoeren. We moeten de correlaties eerst omvormen tot r’ (r accent):
Wanneer de gevonden z waarde de kritieke waarde overschrijdt, verwerpen we de nulhypothese. De conclusie is daarbij, dat de correlaties van beide steekproefgroepen niet gelijk zijn.
Factoren die correlatie beïnvloeden
Range beperkingen
Sommige studies beperken de waarden die X of Y kunnen aannemen. De scatterplot die van deze ‘beperkte’ waarden wordt gemaakt, zal nooit een perfecte weergave zijn van de eigenlijk behaalde scores. De daarover berekende correlatie zal dan ook afwijken. Meestal wordt r door het beperken van de range verkleind.
Heterogene subsamples
Soms worden in een steekproef verschillende variabelen samengenomen, zoals mannen en vrouwen, terwijl die ongelijk scoren op de afhankelijke variabele. Bijvoorbeeld bij het onderzoeken van lengte x gewicht. Mannen zijn over het algemeen langer en zwaarder dan vrouwen. De relatie tussen lengte en gewicht kan dus beïnvloed worden door het samennemen van beide geslachten.
Power berekenen voor r
Om power te berekenen, moeten we eerst d (de effectgrootte) weten:
d = ρ1 – ρ0 = ρ1 – 0 = ρ1
Daarna kunnen we δ berekenen met:
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Contributions: posts
Spotlight: topics
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the summaries home pages for your study or field of study
- Use the check and search pages for summaries and study aids by field of study, subject or faculty
- Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
- Check or follow authors or other WorldSupporters
- Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Main summaries home pages:
- Business organization and economics - Communication and marketing -International relations and international organizations - IT, logistics and technology - Law and administration - Leisure, sports and tourism - Medicine and healthcare - Pedagogy and educational science - Psychology and behavioral sciences - Society, culture and arts - Statistics and research
- Summaries: the best textbooks summarized per field of study
- Summaries: the best scientific articles summarized per field of study
- Summaries: the best definitions, descriptions and lists of terms per field of study
- Exams: home page for exams, exam tips and study tips
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
- Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
- Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
3393 |
Add new contribution