Samenvattingen per onderwerp bij Inleiding Statistiek

Samenvattingen per onderwerp bij Inleiding Statistiek. Deze samenvatting behandelt een set met de meest voorkomende statistische begrippen en methoden met focus op de sociale wetenschappen.

Check summaries and supporting content in full:

Wat is statistiek?

Als gedragswetenschapper is het belangrijk om statistiek te begrijpen. Onderzoek wordt namelijk gedaan met empirische technieken, en statistiek is daar een essentieel onderdeel van. Wanneer je weet welke techniek in welke situatie toegepast moet worden, kun je statistiek op de juiste manier gebruiken. Statistiek staat voor de rekenkundige procedures waarmee informatie georganiseerd, opgesomd en geïnterpreteerd kan worden. Door statistiek kun je informatie op een compacte manier noteren. Statistiek heeft twee doelen: het organiseren en opsommen van informatie zodat onderzoeksresultaten bekend gemaakt kunnen worden en het beantwoorden van onderzoeksvragen die de onderzoeker voorafgaand aan het onderzoek heeft opgesteld. Veel studenten hebben moeite met statistiek, vandaar deze overzichtssamenvatting waarin alle belangrijkste onderwerpen die vaak terugkomen staan uitgelegd. Statistiek is niet om van in paniek te raken, maar zonder studeren wordt het wel erg moeilijk. Hopelijk maakt dit overzicht statistiek voor jullie wat duidelijker.

Basisbegrippen
Soorten onderzoek
Het onderzoeksproces
Basissymbolen
Soorten statistiek
Meetschalen

Basisbegrippen

Onderzoek wordt meestal gedaan om het verband tussen variabelen te ontdekken. Een variabele is een eigenschap of conditie die veranderlijk is of verschillende waarden heeft voor verschillende individuen, bijvoorbeeld leeftijd. Dit zijn persoonsvariabelen. Het kunnen ook eigenschappen van de omgeving zijn, zoals temperatuur, het worden dan omgevingsvariabelen genoemd. Variabelen worden vaak aangegeven door middel van letters, bijvoorbeeld variabele X en variabele Y. Er zijn verschillende soorten variabelen. Een onafhankelijke variabele is een variabele die gemanipuleerd wordt door de onderzoeker. Dit bestaat vaak uit twee of meer condities waaraan de proefpersonen worden blootgesteld. De afhankelijke variabele is de variabele die geobserveerd wordt nadat de onafhankelijke variabele is gemanipuleerd. Dit laat zien wat het effect van de verschillende condities van de onafhankelijke variabele is Vaak wordt een controlegroep gebruikt bij een experiment. Deze groep krijgt geen behandeling of een placebo, om te zien of er daadwerkelijk een verschil is tussen de experimentele conditie en de controlegroep. Variabelen kunnen ook onderverdeeld worden in discrete en continue variabelen. Een discrete variabele bestaat uit verschillende categorieën. Een klas kan bijvoorbeeld bestaan uit 18 of 19 leerlingen, maar niet uit 18,5 leerling. Tussen twee waarden kan dus niets zitten bij een discrete variabele. Bij een continue variabelen zijn er oneindig veel mogelijke waarden die vallen tussen twee geobserveerde waarden. Denk hierbij aan lengte of gewicht.
Veel variabelen die onderzocht worden zijn hypothetische constructen, denk bijvoorbeeld aan zelfvertrouwen. Deze constructen zijn niet direct meetbaar. Om deze variabelen toch te kunnen meten, moeten er definities aan verbonden worden die wel onderzocht kunnen worden. Intelligentie kan bijvoorbeeld onderzocht worden met behulp van een IQ test. Een operationele definitie beschrijft hoe een construct onderzocht moet worden. Honger kan bijvoorbeeld beschreven worden als de staat waarin iemand verkeert als diegene 12 uur of langer niets gegeten heeft. Dit is een operationele definitie.

Soorten onderzoek

Wetenschappers kunnen gebruikmaken van vier soorten onderzoekstechnieken om hypothesen te testen:

Beschrijvend onderzoek (‘descriptive research’): bij dit soort onderzoek worden de gedragingen, gedachten en gevoelens van een groep individuen beschreven. Ontwikkelingspsychologen proberen bijvoorbeeld het gedrag van kinderen van verschillende leeftijden te beschrijven.
Correlationeel onderzoek (‘correlational research’): bij dit soort onderzoek wordt de relatie tussen variabelen bestudeerd. Met correlationele onderzoeken kunnen echter geen uitspraken gedaan worden over oorzaak-gevolgrelaties.
Experimenteel onderzoek (‘experimental research’): in dit geval wordt een variabele gemanipuleerd (de onafhankelijke variabele) om te bekijken of dit veranderingen in gedrag veroorzaakt (de afhankelijke variabele). Als dit inderdaad het geval is, dan kunnen we concluderen dat de onafhankelijke variabele hier de oorzaak van is. Het belangrijkste aan een experiment is dat een variabele wordt gemanipuleerd.
Quasi-experimenteel onderzoek (‘quasi-experimental research’): van deze onderzoekstechniek wordt gebruikgemaakt als wetenschappers een variabele niet kunnen manipuleren. Denk in dit verband bijvoorbeeld aan sekse of leeftijd. De wetenschapper onderzoekt dan de effecten van een variabele of gebeurtenis die op natuurlijke wijze voorkomt en niet gemanipuleerd kan worden. Quasi-experimenten geven niet zo veel zekerheid als echte experimenten.

Het onderzoeksproces

Het onderzoeksproces is op te delen in zeven stappen:

Selecteer een onderwerp.
Baken dit onderwerp af en maak het specifiek. Je kijkt hierbij naar eerder gedaan onderzoek (de literatuur) over dit onderwerp en je stelt een specifieke vraag.
Maak een plan om de onderzoeksvraag te beantwoorden, en bekijk welke onderzoekstechniek hiervoor het meest geschikt is.
Verzamel data om een antwoord op je vraag te vinden.
Analyseer de data. Je gaat bij deze stap patronen in de data zoeken.
Interpreteer de data – verleen er betekenis aan
Publiceer het onderzoek en informeer anderen over je vondsten.

Deze stappen zijn zelden zo strikt van elkaar gescheiden: onderzoek doen is een interactief proces waarbij verschillende stappen door elkaar heen lopen en je soms terug moet gaan naar eerdere stappen van het proces.

Basissymbolen

Een aantal handige symbolen die vaak zullen terugkomen op een rijtje:

Steekproef	Naam	Populatie
$\bar{X}$	gemiddelde	$\mu$
$S^2$	variantie	$\sigma^2$
$S$	standaard deviatie	$\sigma$
$p_s$	proportie	$p_O$
$r_{xy}$	correlatie	$\rho_{xy}$
$\hat{Y}$	afhankelijke variabele	$Y$
$\hat{\beta}_x$	beta	$\beta_x$

Soorten statistiek

Er zijn verschillende soorten statistiek die zich bezig houden met het beschrijven van data. Beschrijvende statistieken worden gebruikt om de data te beschrijven. We kunnen gemiddelden berekenen, de scores in een grafiek uitbeelden en op zoek gaan naar extreme scores. Inferentiële (‘gevolgtrekkende’) statistieken gaat over het maken van inferenties over de populatie op basis van een bepaalde steekproef. Door middel van inferentiële statistieken proberen we hier antwoord op te geven. Wanneer een meting betrekking heeft op de gehele populatie, heet het een parameter. Wanneer het alleen betrekking heeft op de steekproef, is het een statistiek. Statistieken zijn dus schattingen van wat de parameter zal zijn.

Meetschalen

Onderzoekers maken gebruik van vier verschillende meetschalen, die hieronder benoemd en uitgelegd worden.

De nominale schaal: de simpelste meetschaal is de nominale schaal. In dit geval dienen getallen slechts als labels. Metingen op de nominale schaal categoriseren en labelen de observaties van de onderzoeker. Het getal 1 kan bijvoorbeeld voor ‘man’ staan en het getal 2 voor ‘vrouw’. Met getallen op de nominale schaal kunnen dus geen berekeningen worden uitgevoerd, omdat het slechts labels zijn.
Een ordinale schaal bestaat uit een set van categorieën die in een duidelijke volgorde georganiseerd zijn. Je kunt deelnemers aan een zangwedstrijd bijvoorbeeld op volgorde zetten van beste tot slechtste op basis van het applaus dat ze ontvangen. We kunnen echter niet perfect beoordelen hoeveel meer applaus de ene zanger dan de andere heeft ontvangen.
Bij de intervalschaal is wel sprake van ‘echte’ getallen. Gelijke verschillen tussen getallen op de schaal reflecteren gelijke verschillen in sterkte. Bij deze schaal is echter geen sprake van een nulpunt: je kunt bijvoorbeeld niet spreken van een afwezigheid van lengte. Doordat er geen nulpunt is, kunnen we de getallen op de intervalschaal niet vermenigvuldigen of delen.
De laatste schaal is de ratioschaal. Hierbij is wel sprake van een nulpunt. Hierdoor kun je observaties optellen, aftrekken delen en vermenigvuldigen. Voorbeelden van ratioschalen zijn gewicht en reactietijd.

Access:

Public

2489 reads

Hoe kan data worden verzameld door gedragswetenschappers?

Data verzamelen
Kwantitatieve versus kwalitatieve data
Verbanden
Ruwe data interpreteren en weergeven
Centrale tendens
Metingen van variabiliteit

Data verzamelen

De manieren die gedragswetenschappers gebruiken om data te verzamelen worden onderverdeeld in drie groepen:

Observationele meetsoorten: in dit geval wordt gedrag op een directe manier geobserveerd. Dit kan gedaan worden bij elk onderzoek waarbij het gedrag dat onderzocht wordt direct waargenomen kan worden. Onderzoekers kunnen het gedrag direct observeren, of kunnen audio- of video-opnames maken, waaruit informatie over de proefpersonen kan worden afgeleid. De afhankelijke en onafhankelijke variabelen waarin de onderzoeker geïnteresseerd is, worden in dit geval niet gemanipuleerd. Bij dit soort onderzoek kunnen dan ook geen causale verbanden worden vastgesteld.
Lichamelijke meetsoorten: hier maken de wetenschappers gebruik van wanneer ze benieuwd zijn naar de relatie tussen gedrag en niet-direct observeerbare lichaamsprocessen. Het gaat in dit geval om processen die zich in het lichaam afspelen. Ze kunnen meestal niet met het blote oog waargenomen worden. Denk hierbij bijvoorbeeld aan hartslag, zweten, hersenactiviteit en hormonale veranderingen.
Zelfrapportagemetingen: in dit geval geven de participanten zelf antwoord op vragenlijsten en interviews. Er zijn drie soorten zelfrapportages: (1) cognitieve: deze meten wat mensen denken, (2) affectieve: deze meten wat mensen voelen en (3) gedragsmatige zelfrapportages: deze meten wat mensen doen.

Kwantitatieve versus kwalitatieve data

In de statistiek wordt een onderscheid gemaakt tussen kwantitatieve en kwalitatieve data. Kwantitatieve data (ook wel meet-data) is het resultaat van een bepaalde meting, zoals een cijfer voor een toets, gewicht of scores op een eigenwaarde schaal. Er is gebruik gemaakt van een meetinstrument om te kijken hoeveel van een bepaalde eigenschap een object bezit.
Kwalitatieve data wordt ook wel frequentie data of categorische data genoemd. Hierbij worden dingen gecategoriseerd (ingedeeld), zoals ‘vijftien mensen werden geclassificeerd als ‘zeer angstig’, 33 als ‘neutraal’ en 12 als ‘weinig angstig’’. De data bestaat uit frequenties voor elke categorie.

Verbanden

Het meeste onderzoek wordt gedaan om verbanden tussen variabelen te ontdekken, bijvoorbeeld het verband tussen slaapgewoontes en prestaties op school. De eerste onderzoekstechniek om verbanden te ontdekken is de correlationele methode. Bij deze onderzoeksmethode observeert de onderzoeker twee variabelen om te ontdekken of hier een verband tussen bestaat. De experimentele methode wordt gebruikt wanneer een onderzoeker geïnteresseerd is in een oorzaak-gevolg relatie tussen variabelen. Een verandering in de ene variabele zal dan een verandering in de andere variabele tot gevolg hebben. Deze methode heeft twee essentiële kenmerken. Ten eerste is er sprake van manipulatie. Dit houdt in dat de onderzoeker de waarden van een variabele (X) verandert. Waarden van de tweede variabele (Y) worden vervolgens gemeten om te zien of de verandering van X invloed heeft op de waarde van Y. Het tweede kenmerk is controle, dit houdt in dat de onderzoeker de onderzoekssituatie constant moet houden. Als gevolg van deze controle kan gezegd worden dat Y is veroorzaakt door X en niet door een andere variabele. Het is belangrijk om je ervan bewust te zijn dat correlatie niet hetzelfde is als causatie. Een correlatie houdt in dat er een verband is tussen variabelen, maar dit zegt niks over in welke richting dit verband is. Je kunt dan dus niet zeggen dat de ene variabele veroorzaakt wordt door de andere variabele. Om te spreken van causaliteit moet aan drie voorwaarden worden voldaan:

Covariantie: variabelen moeten samen variëren. Een hoge score op de x-variabele moet samengaan met een hoge score op de y-variabele.
Richting: de oorzaak moet vooraf gaan aan het gevolg.
Uitsluiting van de invloed van andere variabelen: het kan bijvoorbeeld zo zijn dat een derde variabele (z) zowel variabele x als variabele y beïnvloedt.

Ruwe data interpreteren en weergeven

Frequentiedistributies, proporties en intervallen

Wanneer metingen bij proefpersonen zijn gedaan, worden de gegevens die verkregen zijn ruwe data genoemd. Deze gegevens zijn lastig te interpreteren, dus moeten er stappen ondernomen worden om deze data te verwerken. Ruwe data is slechts een verzameling getallen. Er kan structuur worden aangebracht door de data bijvoorbeeld in een grafiek weer te geven. Wanneer reactietijden worden gemeten kan je hier bijvoorbeeld een frequentiedistributie van maken. Hierin wordt aangegeven hoe vaak een bepaalde reactietijd voorkwam. Zo wordt zichtbaar welke reactietijd het meest voorkwam. Het beschrijven van proporties en percentages is ook handig in een frequentieverdeling. Een proportie bereken je door de frequentie die bij een X-waarde hoort te delen door het totale aantal mensen. Als er bijvoorbeeld binnen een klas van twintig mensen twee mensen een zes (X=6) hebben gehaald, dan is de bijbehorende proportie (bij X=6) 2/20= 0.10. De formule is: proportie = p=f/N (f staat voor frequentie en N voor het totale aantal mensen). Omdat proporties altijd in relatie tot het totale aantal mensen (N) worden berekend, noemen we ze relatieve frequenties. Percentages kunnen verkregen worden door proporties met honderd te vermenigvuldigen. Daarom: percentage =p(100)=f/N(100). Soms zijn er heel veel verschillende scores mogelijk, waardoor het handiger is om een gegroepeerde frequentieverdeling te maken. We maken dan groepen van scores, in plaats van dat we enkel naar individuele waarden kijken. De groepen (of intervallen) worden klasse-intervallen genoemd. In plaats van dat je bijvoorbeeld elke mogelijke lengte noteert, kun je groepen met verschillende lengte-intervallen maken. Zo kan de ene groep een interval hebben van 100 cm tot 120 cm en de volgende van 121 tot 140 cm. Achter elke groep kan de frequentie genoteerd worden.

Grafieken

Een frequentiedistributie is goed uit te beelden in een figuur, dit wordt een grafiek genoemd. Een voorbeeld hiervan is een histogram. De horizontale as wordt de X-as genoemd, en de verticale as de Y-as. De categorieën staan op de horizontale as, en de frequenties op de verticale as. Om een histogram te maken moeten staven worden getekend. De hoogte van elke staaf correspondeert met de frequentie van die categorie. Een staafdiagram is in principe hetzelfde als een histogram, alleen staan de staven niet helemaal tegen elkaar aan. In een grafiek worden ook waardes die sterk afwijken van de andere waardes zichtbaar. Deze waardes worden outliers genoemd en zijn vaak niet bruikbaar. Naast grafieken kunnen ook lijnen toegepast worden op de verkregen data. De meest gebruikte lijn is de normaalcurve. Deze lijn is het hoogst in het midden van de distributie, en loopt symmetrisch af naar beneden aan beide kanten van het midden. De normaalverdeling is symmetrisch, maar niet elke verdeling ziet er zo uit. Een bimodale verdeling heeft bijvoorbeeld twee pieken. Als een distributie maar één piek heeft, wordt het een unimodale verdeling genoemd. Een distributie kan ook assymetrisch zijn omdat de verdeling aan één van beide zijden van de piek langer uitloopt. Een distributie met een ‘staart’ naar de linkerkant heeft een negatieve scheefheid (‘skew’), en een distributie met een ‘staart’ naar de rechterkant heeft een positieve scheefheid.
Naast histogrammen en staafdiagrammen wordt er ook gebruik gemaakt van stem-and-leaf-plots. Hierbij wordt elke score opgedeeld in twee delen. Het eerste cijfer (bijvoorbeeld de 1 van 12) wordt de stam genoemd, terwijl het laatste getal (bijvoorbeeld de 2 van de 12) het blad wordt genoemd. Als je een plot maakt moeten eerst alle stammen van de getallen genoteerd worden (het eerste cijfer van een tiental of honderdtal bijvoorbeeld).Vervolgens moet elk blad van elke score naast de stam genoteerd worden. Een stam-en-blad plot biedt de mogelijkheid iedere individuele score snel terug te vinden, wat soms nodig is voor het uitvoeren van berekeningen. Dit is niet mogelijk bij een frequentiedistributie.

Percentielen

Individuele scores worden ruwe scores genoemd. Deze geven echter niet veel informatie. Als je iemand vertelt dat je 43 punten hebt gescoord voor een tentamen, is het niet duidelijk of dit veel of weinig punten zijn. Om zo’n score te kunnen interpreteren, moet duidelijk zijn wat de gemiddelde score is. De rank of percentielrang is een getal dat aangeeft hoeveel procent van alle individuen in de distributie onder een bepaalde waarde vallen. Wanneer een score zo wordt weergegeven, wordt deze score een percentiel genoemd. De percentielrang staat voor een percentage terwijl een percentiel voor een score staat. Om percentielen of percentielrangen vast te stellen, moet eerst uitgezocht worden hoeveel individuen op of onder een bepaald punt in een distributie liggen. Dit kan gedaan worden door het aantal individuen op te tellen dat onder een score valt. Het resultaat wordt een cumulatieve frequentie genoemd. Achter elke X kan naast de frequentie de cumulatieve frequentie genoteerd worden. Om van de cumulatieve frequenties percentielen te maken, moeten deze frequenties omgezet worden in percentages. De resulterende waarden worden cumulatieve percentages genoemd. Deze percentages laten zien hoeveel procent van de individuen onder een bepaalde X-waarde vallen. Een makkelijke manier om percentielen te gebruiken zijn kwartielen. Het eerste kwartiel (Q1) is 25%, het tweede kwartiel (Q2) is 50% (de mediaan dus) en het derde kwartiel (Q3) is 75%. De afstand tussen het eerste en het derde kwartiel wordt het interkwartiele bereik genoemd. 1,5 maal de IQR boven Q3 of onder Q1 is een maatstaf om mogelijke uitschieters te vinden. Al deze gegevens kunnen worden weergegeven in een boxplot. De zogenaamde ‘box’ loopt van het eerste kwartiel tot het derde kwartiel. Vervolgens loopt er een horizontale lijn in de box die de mediaan aangeeft. Een verticale lijn loopt van de laagste observatie tot de hoogste observatie; deze lijn gaat dus ook door de box heen. Uitschieters worden echter aangegeven met een sterretje boven of onder de lijn.

Centrale tendens

Metingen van de centrale tendens zijn metingen die aantonen waar op de schaal de distributie zich centreert. Er zijn drie manieren om dit te doen: de modus, de mediaan en het gemiddelde. De manieren verschillen in de hoeveelheid data die ze gebruiken.

Modus: wordt het minst gebruikt en is vaak het minst bruikbaar. Dit is simpelweg de meest voorkomende score. In het geval dat twee aangrenzende scores even vaak voorkomen, wordt hieruit het gemiddelde genomen.
Mediaan: de score die correspondeert met het punt waarop of onder 50% van de scores vallen als de data geordend is op numerieke volgorde. Daarom wordt het ook wel het 50^e percentiel genoemd. Stel dat we de scores 4, 6, 8, 9 en 16 hebben, dan is 8 de mediaan. Bij een even aantal scores, dus 4, 6, 8, 12, 15 en 16, valt de mediaan tussen de 8 en de 12. In dat geval wordt het gemiddelde van de twee middelste scores als mediaan genomen (10). Een handige formule om het scorenummer te vinden waar de mediaan valt, is die van de mediaan locatie: (N+1)/2.
Gemiddelde: deze meting van de centrale tendens wordt het meest gebruikt, omdat alle scores van een verdeling hierin meetellen. Het gemiddelde is de som van de scores, gedeeld door het aantal scores, oftewel: = (ΣX)/N. Een nadeel van het gemiddelde is dat het beïnvloed wordt door extreme scores. Daarom wordt soms het ‘bijgeknipt’ gemiddelde gebruikt. Dan worden aan elk uiteinde van de distributie de laatste tien scores weggelaten en wordt het gemiddelde van de overige scores berekend. Hierdoor vallen extreme waardes weg en wordt de schatting van het gemiddelde stabieler.

Metingen van variabiliteit

De variabiliteit van een distributie gaat over de mate waarin de scores verspreid liggen of geclusterd zijn. Variabiliteit geeft met een kwantitatieve waarde aan hoeveel verschil er is tussen scores. Een grote waarde staat voor veel spreiding. Het meten van variabiliteit dient twee doelen:

Het beschrijven van de afstand die verwacht kan worden tussen scores;
Het meten van de representativiteit van een score voor de gehele verdeling.

De range is een meting van de afstand tussen de hoogste en de laagste score. De laagste score moet dan van de hoogste score worden afgetrokken. De range kan echter een verkeerd beeld geven door extreme waardes. Het nadeel is dat er bij de range geen rekening wordt gehouden met alle waardes, maar slechts met de extreme waardes.

Variantie en standaarddeviatie

De standaarddeviatie of standaardafwijking (SD) is de meest gebruikte en meest belangrijke maat voor spreiding. Deze maat gebruikt het gemiddelde van de verdeling als vergelijkingspunt. De standaarddeviatie maakt daarnaast gebruik van de afstand tussen individuele scores en het gemiddelde van een dataset. Met de standaarddeviatie kan nagegaan worden of de individuele scores in het algemeen dicht of ver van het gemiddelde afliggen. De standaarddeviatie kan aan de hand van vier stappen berekend worden.

Allereerst moet de deviatie (afstand of afwijking) van elke individuele score tot het gemiddelde uitgerekend worden. De deviatie is dan ook het verschil tussen elke individuele score en het gemiddelde van de dataset. De bijbehorende formule is: deviatiescore= X- µ. De X staat voor een individuele score, terwijl µ staat voor het gemiddelde van dataset.
In de volgende stap moet het gemiddelde van de deviatiescores berekend worden. Dit wordt gedaan door alle deviatiescores op te tellen en te delen door het aantal deviatiescores (N). De deviatiescores zijn samen altijd nul. Voordat het gemiddelde kan worden berekend, wordt elke deviatiescore daarom eerst tussen haakjes gekwadrateerd.
Vervolgens wordt het gemiddelde berekend van de gekwadrateerde waarden. Dit wordt de gemiddelde gekwadrateerde deviatie of de variantie genoemd. De formule voor variantie is: σ² = ∑(X-μ)².
Ten slotte dient de wortel getrokken te worden uit de variantie. Dit resulteert in de standaarddeviatie. De uiteindelijke formule voor de standaarddeviatie is dus: σ = √(∑(X-μ)²/N)

Vaak is de variantie een groot en onduidelijk getal, omdat het om een gekwadrateerd getal gaat. Het is daarom handiger en begrijpelijker om de standaarddeviatie te berekenen en te presenteren.

In een steekproef met n aantal scores, kunnen de eerste n-1 scores variëren, maar de laatste score staat vast. De steekproef heeft n-1 vrijheidsgraden. De afkorting voor vrijheidsgraden is df (degrees of freedom).

Systematische variantie en errorvariantie

De totale variantie in een dataset kan opgesplitst worden in (1) systematische variantie en (2) errorvariantie:

Systematische variantie staat voor dat deel van de totale variantie dat op een voorspelbare manier gerelateerd is aan de variabelen die een wetenschapper onderzoekt.
Errorvariantie ontstaat wanneer het gedrag van deelnemers beïnvloed wordt door variabelen die de wetenschapper niet onderzoekt. Als iemand bijvoorbeeld hoog op agressie scoort, kan dit ook komen door zijn of haar slechte humeur in plaats van de temperatuur. Deze vorm van variantie kan dus niet door het onderzoek verklaard worden. Hoe meer errorvariantie er in een dataset zit, hoe moeilijker het is om te bepalen of de gemanipuleerde variabelen (onafhankelijke variabelen) ook echt gerelateerd zijn aan het gedrag dat men wil onderzoeken (de afhankelijke variabele). Onderzoekers willen dan ook zo weinig mogelijk errorvariantie in hun onderzoek.

Access:

Public

1228 reads

Wat betekenen betrouwbaarheid en validiteit?

Betrouwbaarheid en validiteit
Meetfouten (‘measurement error’)
Meetfouten en betrouwbaarheid
Betrouwbaarheid als systematische variantie
Soorten betrouwbaarheid
Validiteit

Betrouwbaarheid en validiteit

Betrouwbaarheid en validiteit zijn twee centrale begrippen binnen de statistiek. De betrouwbaarheid houdt in dat het meetinstrument consistente resultaten geeft. Als je twee keer dezelfde meting doet, geeft een betrouwbaar meetinstrument twee keer hetzelfde resultaat. Validiteit beschrijft of het gemeten concept inderdaad gemeten wordt door het meetinstrument. De validiteit hangt af van het doel van het onderzoek: voor het ene concept kan een meetinstrument valide zijn, maar voor het andere concept niet. Een valide meting is noodzakelijkerwijs ook een betrouwbare meting, maar andersom geldt dit niet: als een meetinstrument consistent de verkeerde resultaten geeft is het wel betrouwbaar, maar niet valide.

Meetfouten (‘measurement error’)

De score van een deelnemer op een meting bestaat uit twee onderdelen: (1) de ware score van de deelnemer en (2) meetfouten (‘measurement error’). Kortom; geobserveerde score = ware score + meetfouten. De ware score (‘true score’) is de score die een deelnemer zou hebben als een meettechniek perfect was en er dus geen sprake van meetfouten zou kunnen zijn. De meettechnieken die wetenschappers gebruiken zijn echter nooit helemaal foutloos. Alle meettechnieken bevatten meetfouten. Door deze meetfouten komen wetenschappers niet achter de exacte score van een deelnemer.

Meetfouten en betrouwbaarheid

Meetfouten verminderen de betrouwbaarheid van een meting. Als een meting een lage betrouwbaarheid heeft, dan zijn de meetfouten groot en weet de onderzoeker weinig over de ware score van een deelnemer. Als een meting een hoge betrouwbaarheid heeft, dan zijn er weinig meetfouten. De geobserveerde score van een deelnemer is dan juist een goede (maar niet perfecte) weerspiegeling van de ware score van een deelnemer.

Betrouwbaarheid als systematische variantie

Wetenschappers weten nooit precies hoeveel meetfouten er in een studie bestaan en wat de ware scores van deelnemers precies zijn. Ook weten ze niet precies hoe betrouwbaar hun meting is, maar ze kunnen aan de hand van statistische analyses wel inschatten hoe betrouwbaar hun meting is. Als zij zien dat hun meting niet betrouwbaar genoeg is, dan kunnen ze proberen hun meting meer betrouwbaar te maken. Is ook het betrouwbaarder maken van de meting niet mogelijk, dan kunnen ze ervoor kiezen om de meting helemaal niet te gebruiken in het onderzoek.

De totale variantie in een dataset van scores bestaat uit twee onderdelen: (1) variantie door ware scores en (2) variantie door meetfouten. In formulevorm is dit: totale variantie = variantie door ware scores + variantie door meetfouten.
We kunnen ook zeggen dat de proportie totale variantie die samenhangt met de ware scores van de deelnemers systematische variantie is, omdat de ware scores op systematische wijze gerelateerd zijn aan de meting.
De variantie die door meetfouten ontstaat is errorvariantie omdat deze variantie niet gerelateerd is aan wat de wetenschapper onderzoekt.
We zeggen daarom dat de betrouwbaarheid wordt berekend door de ware score variantie te delen door de totale variantie, dus: betrouwbaarheid = ware score variantie/totale variantie. De betrouwbaarheid van een meting ligt tussen de 0 en de 1. Een betrouwbaarheid van .00 zegt ons dat er helemaal geen ware score variantie aanwezig is in de data en dat de scores alleen maar staan voor meetfouten. Bij een betrouwbaarheid van 1.00 is het precies omgekeerd; daar is er alleen sprake van ware score variantie en zijn er geen meetfouten. De vuistregel is dat een meting betrouwbaar genoeg is als deze minimaal een betrouwbaarheid van .70 heeft. Dit betekent dat 70% van de variantie in de data staat voor ware score variantie.

Soorten betrouwbaarheid

Onderzoekers maken gebruik van drie soorten betrouwbaarheid bij het analyseren van hun data: (1) ‘test-hertest’ betrouwbaarheid, (2) ‘interitem’ betrouwbaarheid en (3) ‘interrater’ betrouwbaarheid. Een correlatiecoëfficiënt is een statistiek die aangeeft hoe sterk de relatie tussen twee metingen is. Deze statistiek ligt tussen de .00 (geen relatie tussen de metingen) en 1.00 (perfecte relatie tussen metingen). Correlatiecoëfficiënten kunnen positief of negatief zijn. Als deze statistiek wordt gekwadrateerd, dan zien we in welke mate de proportie van de totale variantie van beide metingen systematisch is. Hoe hoger de correlatie, hoe meer twee variabelen gerelateerd zijn. Hieronder wordt ingegaan op drie soorten betrouwbaarheid.

Test-hertestbetrouwbaarheid

Bij test-hertestbetrouwbaarheid gaat het om de consistentie van de responsen van deelnemers door de tijd heen. Proefpersonen worden twee keer gemeten. Tussen deze twee metingen zit meestal een periode van een aantal weken. Als we ervan uitgaan dat een kenmerk stabiel is, dan zou iemand twee keer dezelfde score moeten hebben op dezelfde test. Als iemand de eerste keer een score van 110 heeft op een IQ-test, dan is het de bedoeling dat hij de volgende keer ook een score van rond de 110 heeft op dezelfde test. Dit omdat intelligentie een relatief stabiel kenmerk is. Toch zullen beide metingen niet hetzelfde zijn, omdat er altijd sprake zal zijn van meetfouten. Als beide IQ-scores een hoge correlatie hebben (minstens .70), dan heeft een meting (dus de IQ-test) een goede test-hertestbetrouwbaarheid. We verwachten een hoge test-hertestbetrouwbaarheid voor intelligentie-, attitude- en persoonlijkheidstesten. Bij minder stabiele eigenschappen, zoals honger of vermoeidheid, heeft het meten van test-hertestbetrouwbaarheid geen nut.

Inter-itembetrouwbaarheid

De inter-itembetrouwbaarheid is van belang bij metingen die bestaan uit meer dan één item. Inter-itembetrouwbaarheid gaat dan ook over de mate van consistentie tussen meerdere items op een schaal. Persoonlijkheidsvragenlijsten bestaan bijvoorbeeld vaak uit meerdere items die iets zeggen over bijvoorbeeld de extraversie of het zelfvertrouwen van deelnemers. Deze items worden vervolgens opgeteld tot een score. Wanneer wetenschappers de antwoorden van deelnemers optellen om een enkele score te krijgen, moeten ze er wel zeker van zijn dat alle items hetzelfde construct (bijvoorbeeld extraversie) meten. Om te kijken in hoeverre items met elkaar samenhangen, kan voor elke combinatie van items een item-totaalcorrelatie berekend worden. Dit is de correlatie tussen een item en de rest van alle items bij elkaar. Elk item op de schaal zou moeten correleren met de rest van de items. Een item-totaalcorrelatie van .30 of hoger per item wordt als voldoende beschouwd. Naast het feit dat berekend moet worden of elk item samenhangt met alle andere items is het ook nodig om de betrouwbaarheid van alle items bij elkaar te berekenen. In het verleden werd hiervoor de split-halfbetrouwbaarheid berekend. Eerst werd met de split-halfmethode de inter-itembetrouwbaarheid berekend.

Bij de split-halfbetrouwbaarheid worden de items over twee sets verdeeld. Daarna wordt voor elke set een totaalscore berekend. Vervolgens wordt er een correlatie tussen beide sets berekend. Als de items in beide sets hetzelfde construct meten, dan zou er een hoge correlatie tussen beide sets moeten zijn. Onder een hoge correlatie wordt ook in dit verband .70 of hoger verstaan. Het nadeel van de split-halfbetrouwbaarheid, is dat correlatie die gevonden wordt afhangt van welke items je in welke set plaatst. Als je de sets net iets anders indeelt, kan er een hele andere split-halfbetrouwbaarheid uitkomen.

Om deze reden wordt tegenwoordig de ‘Cronbach’s alpha coëfficiënt’ berekend. Met de Cronbach’s alpha bereken je (door middel van een simpele formule) het gemiddelde van alle mogelijke split-halfbetrouwbaarheden. Wetenschappers gaan ervan uit dat de inter-itembetrouwbaarheid goed is als Cronbach’s alpha .70 of hoger is. de Cronbach’s alpha kan als volgt berekend worden:

$\alpha=\frac{K}{K-1} 1-\frac{\sum_kV(X_k)}{V(\sum_kX_k)}$

oftewel:

$\alpha=\frac{items}{items-1}1-\frac{optelsom variantie elk item}{totale variantie hele schaal}$

Interrater-betrouwbaarheid

Interrater-betrouwbaarheid wordt ook wel ‘interjudge’ of ‘interobserver’ betrouwbaarheid genoemd. Het gaat hierbij om de mate waarin twee of meerdere onderzoekers het gedrag van de proefpersonen hetzelfde observeren en opslaan. Als de onderzoekers soortgelijke beoordelingen maken (dus bij een hoge interrater-betrouwbaarheid), dan zou de correlatie tussen hun beoordelingen .70 of hoger moeten zijn.

Validiteit

Meettechnieken moeten niet alleen betrouwbaar, maar ook valide zijn. Validiteit staat voor de mate waarin een meettechniek meet wat het hoort te meten. De vraag is dus of we meten wat we willen meten. Het is belangrijk om op te merken dat betrouwbaarheid en validiteit twee verschillende dingen zijn. Een meetinstrument kan tegelijkertijd betrouwbaar maar niet valide zijn. Een hoge betrouwbaarheid vertelt ons dat het meetinstrument iets meet, maar niet precies wat het meetinstrument precies meet. Om daar achter te komen is het van belang om naar de validiteit te kijken. Validiteit is niet een vaststaand kenmerk van een meettechniek. Een meting kan voor het ene doel valide zijn, terwijl deze niet valide is voor een ander doel. Er wordt enerzijds onderscheid gemaakt tussen interne validiteit en externe validiteit. Bij interne validiteit gaat het erom dat een onderzoeker de juiste conclusies trekt over de effecten van de onafhankelijke variabele. Interne validiteit wordt gewaarborgd door experimentele controle. Dit zorgt er namelijk voor dat de onafhankelijke variabele het enige is wat verschilt tussen de condities. Als deelnemers in verschillende condities systematisch van elkaar verschillen op meer dan alleen de onafhankelijke variabele spreken we van confounding. Externe validiteit gaat over de mate waarin gevonden onderzoeksresultaten generaliseerbaar zijn naar andere steekproeven. Onderzoekers maken anderzijds onderscheid tussen drie soorten validiteit: (1) ‘face’ validiteit, (2) construct validiteit en (3) ‘criterion-related’ validiteit.

Face-validiteit

Face-validiteit gaat over de mate waarin een meting lijkt te meten wat hij hoort te meten. Een meting heeft face-validiteit als mensen denken dat dat zo is. Deze vorm van validiteit kan dus niet statistisch berekend worden, maar is meer een oordeel van mensen die de meting gevoelsmatig beoordelen. De face-validiteit wordt vastgesteld door de onderzoeker, door de proefpersonen en/of door experts op het betreffende vakgebied. Als een meting geen face-validiteit heeft, dan vinden proefpersonen het niet van belang om echt mee te doen. Als een persoonlijkheidstest geen face-validiteit heeft en proefpersonen moeten deze test wel invullen, dan snappen ze de toegevoegde waarde van de test niet. Dit verlaagt hun motivatie om deel te nemen aan het onderzoek. Het is van belang om drie dingen te onthouden: (1) dat een meting face-validiteit heeft, betekent niet dat deze ook echt valide is, (2) wanneer een meting geen face-validiteit heeft, hoeft dit niet te betekenen dat er in het echt geen sprake is van validiteit en (3) soms willen onderzoekers hun doelen maskeren. Als ze bijvoorbeeld bang zijn dat deelnemers gevoelige vragen niet eerlijk zullen beantwoorden, kunnen zij meetinstrumenten ontwerpen die geen face-validiteit hebben.

Constructvaliditeit

Vaak zijn onderzoekers geïnteresseerd in hypothetische constructen. Dit zijn constructen die niet direct geobserveerd kunnen worden op basis van empirisch bewijs. Het is de vraag hoe we kunnen weten of de meting van een hypothetisch construct (dat niet waarneembaar is) valide is. Cronbach en Meehl stellen dat de we de validiteit van de meting van een hypothetisch construct kunnen vaststellen door deze meting te vergelijken met andere metingen. Het is dus van belang om te kijken naar de relatie tussen de verschillende metingen. Scores op een meetinstrument voor zelfvertrouwen zouden bijvoorbeeld positief gecorreleerd moeten zijn met metingen op optimisme, maar negatief gecorreleerd moeten zijn met meetinstrumenten die onzekerheid en angst meten. Een meetinstrument heeft constructvaliditeit als deze (1) in hoge mate correleert met meetinstrumenten waar het mee zou moeten correleren (convergente validiteit) en (2) niet correleert (of in lage mate correleert) met meetinstrumenten waar het niet mee zou moeten correleren (discriminante validiteit).

Criterionvaliditeit

Criterionvaliditeit gaat over de mate waarin een meetinstrument ervoor zorgt dat we onderscheid kunnen maken tussen deelnemers op basis van een bepaald gedragscriterium. Een vraag is bijvoorbeeld of verschillende scores op een motivatietest op het VWO iets zeggen over wie het wel en niet goed zullen doen tijdens een universitaire studie. Het gedragscriterium is in dit geval de universitaire studie. Er wordt vooral gebruik gemaakt van criteriumvaliditeit in toegepaste onderzoekssettings. Denk hierbij aan onderwijssettings of sollicitaties. Onderzoekers maken onderscheid tussen twee primaire soorten van criteriumvaliditeit: (1) concurrente en (2) predictieve validiteit. Het belangrijkste verschil tussen deze twee soorten criteriumvaliditeit is de hoeveelheid tijd tussen de afname van het meetinstrument en het vaststellen van het gedragscriterium.

Van concurrente validiteit is sprake wanneer twee meetinstrumenten ongeveer op hetzelfde moment worden gebruikt. De vraag is of het meetinstrument op een goede manier onderscheid kan maken tussen mensen die hoog en laag scoren op het gedragscriterium op dat specifieke moment. Wanneer scores op het meetinstrument gerelateerd zijn aan gedragingen waar ze op dat moment zelf aan gerelateerd zouden moeten zijn, dan heeft het meetinstrument concurrente validiteit.
We spreken van predictieve validiteit wanneer een meetinstrument onderscheid kan maken tussen mensen op een gedragscriterium in de toekomst, dus of het instrument een goede voorspelling kan geven. Vooral in de onderwijssetting is dit van belang.

Access:

Public

1111 reads

Welke verdelingen bestaan er binnen de statistiek?

Normaalverdeling
Kansen, proporties en scores
De binomiale verdeling
Categorische data en chi-kwadraat
De chi-kwadraat verdeling

Normaalverdeling

De normaalverdeling is een symmetrische, klokvormige verdeling. De normaalverdeling is om vier redenen de belangrijkste verdeling binnen de statistiek:

We verwachten dat veel van de afhankelijke variabelen waar we mee werken normaal verdeeld zijn in de populatie.
Als een variabele (ongeveer) normaal verdeeld is, kunnen we vervolgens uitspraken gaan doen over waarden van die variabele (het is vaak een voorwaarde om analyses te doen).
Wanneer een oneindig aantal steekproeven wordt getrokken van een populatie, zal de verdeling van die steekproefgemiddelden neigen naar een normaal verdeling.
De meeste statistische programma’s gaan er vanuit dat de observaties normaal verdeeld zijn.

Bij de normaalverdeling wordt gebruik gemaakt van zogenaamde z-scores. Om de normaalverdeling te kunnen bespreken, zal dus eerst moeten worden uitgelegd wat z-scores zijn en hoe je ze gebruikt.

Standaardscores

Vaak worden individuele scores omgezet in standaardscores, ook wel z-scores genoemd. Dit wordt gedaan om de exacte ligging van elke score in een distributie vast te stellen en te beschrijven. Z-scores worden gebruikt om een hele distributie te standaardiseren. Op die manier kunnen verschillende verdelingen met elkaar vergeleken worden.

De z-score beschrijft de exacte positie van een X-waarde op twee manieren: ten eerste via het teken en ten tweede via de waarde. Het plus- of minteken van de z-score beschrijft of de X-waarde zich boven of juist onder het gemiddelde bevindt (het gemiddelde krijgt in de standaardverdeling altijd de waarde nul). De waarde van de z-score beschrijft de afstand van de X-waarde tot het gemiddelde in termen van aantal standaarddeviaties (een z-score van 1,00 betekent dat de X-waarde 1 standaarddeviatie van het gemiddelde verwijderd is). In een distributie met µ =100 en σ =15 is een score van X = 130 een z-score van +2. 130-100 is namelijk 30. Dit getal delen door 15 geeft een standaardscore van 2. Bij alle curven staat de µ in het midden. Aan de rechterkant lopen de z-scores met een plusteken op, terwijl de negatieve standaardscores aan de linkerkant staan.

De formule voor de berekening van standaardscores is: z=(X- µ)/ σ. De deviatiescore wordt gedeeld door de standaarddeviatie. Zo kan de z-waarde omschrijven hoeveel standaarddeviaties een individuele score van het gemiddelde af ligt. Een IQ-score van 70 valt precies twee standaardscores onder het gemiddelde: (70-100)/15= -2. In deze formule staat (X- µ) voor de deviatiescore. Door het gemiddelde van een score af te trekken, kan meteen gezien worden of de score boven of onder het gemiddelde valt. Deze formule is handig bij het omzetten van ruwe scores naar z-scores, maar niet in het omzetten van z-scores naar ruwe scores, daarvoor kun je de formule herschrijven.

De z-score en de normale verdeling

De standaardnormaalverdeling heeft een gemiddelde van 0 en een standaarddeviatie van 1, de distributie wordt dus N(0,1). De normaalverdeling is symmetrisch; de hoogste frequentie ligt in het midden, terwijl de frequenties verminderen naarmate naar rechts of links gegaan wordt. Z-scores staan bij de normaalverdeling vermeld in termen van standaarddeviaties. Een z-score van +2 betekent dat een score twee standaarddeviaties boven het gemiddelde ligt. Bij een normaalverdeling kunnen we de volgende uitspraken doen over de standaarddeviatie.

±68% van de observaties valt binnen 1 standaarddeviatie van het gemiddelde
±95% van de observaties valt binnen 2 standaarddeviaties van het gemiddelde
±99% van de observaties valt binnen 3 standaarddeviaties van het gemiddelde

Centrale limietstelling

Wat als blijkt dat de sample niet een normaalverdeling heeft? Denk hierbij aan het aantal uren tv kijken. Het grootste gedeelte van de mensen kijkt tussen de één à twee uur televisie per dag. Er zijn echter uitzonderingen, waarbij mensen acht uur tv kijken per dag. Deze distributie zal dan skewed naar rechts zijn. Ondanks dat deze kans distributie niet normaal verdeeld is, is de sampling distributie van het sample gemiddelde wel normaal verdeeld . Dit wordt de centrale limietstelling genoemd. Dit gebeurt alleen als de sample grootte n groot genoeg is, dit is het geval vanaf n = 30.

Kansen, proporties en scores

Stel je voor: een distributie van intelligentie heeft een µ van 100 en een σ van 15. Hoe groot is de kans dan om door middel van random sampling een individu te selecteren van een IQ van onder de 130? Om deze vraag te kunnen beantwoorden, moeten IQ- scores (X-waarden) eerst omgezet worden in z-scores. Vervolgens moet de bijbehorende proportie gevonden worden. Dit komt overeen met de kans die gevonden moet worden. In dit geval is de z-score +2. Deze score wordt als volgt gevonden: (130-100)/15=2. Hier hoort volgens de tabel voor de normaalverdeling een proportie van 0.9772 bij. Dus: p(X<130)=0.9772. Er is dus 97.72% kans om iemand met een IQ van onder de 130 te selecteren. Wat moet je doen als uitgezocht moet worden wat de proportie tussen twee waarden is? Stel je voor: de gemiddelde snelheid op een weg is gemiddeld 58. De standaarddeviatie is 10. Hoeveel van de langsrijdende auto’s zal dan rijden tussen de 55 en 65 kilometer per uur? Eigenlijk ben je dus op zoek naar p(55

De binomiale verdeling

Wanneer een variabele wordt gemeten op een schaal met precies twee categorieën, wordt de resulterende data binomiaal genoemd. Binomiale data kunnen ook voortvloeien uit een variabele die alleen twee categorieën heeft. Mensen kunnen bijvoorbeeld alleen man of vrouw zijn en met een stuiver kan alleen munt of kop gegooid worden. Ook komt het voor dat een onderzoeker data probeert te versimpelen door deze in twee categorieën op te delen. Een psycholoog kan persoonlijkheidsscores bijvoorbeeld gebruiken om mensen als laag of hoog op agressie te categoriseren. Vaak kent de onderzoeker de kansen die horen bij de twee categorieën. Bij een stuiver is er bijvoorbeeld 50% kans op het gooien van kop en 50% op het gooien van munt. Voor een onderzoeker is het echter belangrijk om te weten hoe vaak een gebeurtenis voorkomt als er meerdere herhalingen zijn. Wat is bijvoorbeeld de kans dat iemand 15 keer kop gooit wanneer hij of zij 20 keer tost?

Om kansvragen over binomiale data te beantwoorden, moet de binomiale distributie eerst onderzocht worden. De formule van de binomiale verdeling is als volgt: p(X) = CNX pXq(N-X) = $\frac{N}{X(N-X)}$ pXq(N-X).

p(X) = de kans op X successen

N = het aantal trials

p = de kans op een succes op één trial

q = (1- p) de kans op falen

C^N_X = het aantal combinaties van N dingen die X per keer gepakt worden

Gemiddelde en variantie

Wanneer p = q = .50, zoals bij het opgooien van een munt, zal de binomiale verdeling symmetrisch zijn. De formules voor gemiddelde, variantie en standaarddeviatie zijn altijd:

Gemiddelde = Np

Variantie = Npq

Standaarddeviatie = $\sqrt{Npq}$

Voor de binomiale verdeling geldt dat de verdeling normaler wordt bij getallen van p en q, die dichtbij .50 liggen. Daarnaast wordt de distributie symmetrischer en meer normaal, bij een hoger aantal trials. We gebruiken de vuistregel dat wanneer Np en Nq niet groter zijn dan 5, de distributie bijna normaal is, waardoor de schattingen redelijk goed zijn als we de verdeling als normaal behandelen.

Categorische data en chi-kwadraat

Wanneer we te maken krijgen met categorische data, bestaat deze data uit frequenties van observaties die in twee of meer categorieën vallen. In dat geval gebruik je de chi-kwadraat test.

De chi-kwadraat verdeling

De formule voor de chi-kwadraat functie wijkt af van andere functies, omdat het slechts één parameter heeft. De rest zijn constanten. De normaal verdeling heeft er twee parameters (μ en σ), de chi-kwadraat heeft alleen k als parameter. In de statistische wereld staat k voor het aantal vrijheidsgraden (degrees of freedom df). Vrijheidsgraden worden vaak weergegeven als χ²₃ of χ²(3). Hoe groter k wordt, hoe symmetrischer de verdeling. Het gemiddelde en de variantie nemen toe als k toeneemt. Verder geldt:

Gemiddelde = k

Variantie = 2k

De chi-kwadraat formule maakt gebruik van de geobserveerde frequenties en de verwachte frequenties. De geobserveerde frequenties zijn de werkelijke frequenties in de data. De verwachtte frequenties zijn de frequenties, die je zou verwachten wanneer de nulhypothese waar is. De formule voor de chi-kwadraat is: $x^2$ = $\sum\frac{(O-E)^2}{E}$ waarbij je voor elke categorie de berekening uitvoert, en optelt. O staat voor geobserveerde frequenties en E staat voor verwachtte frequenties.

Tabel van chi-kwadraat verdeling

Nu we een waarde hebben voor χ² moeten we deze vergelijken met de χ² verdeling om de kans te bepalen dat een waarde van χ² minstens zo extreem voorkomt, gegeven dat de nulhypothese waar is. Hiervoor kun je de standaard tabelverdeling van χ². De tabel maakt gebruik van vrijheidsgraden. Voor een eendimensionale tabel geldt: df = (k -1), het aantal categorieën min één. Als je gevonden χ² groter is dan de waarde uit de tabel, kun je de nulhypothese verwerpen. Een probleem is dat de chi-kwadraat verdeling continue is, terwijl de mogelijke waarden van chi-kwadraat discreet zijn (vooral bij kleine steekproefgroottes). Het passen van een discrete verdeling in een continue verdeling is een slechte fit.

Twee classificatie variabelen

In de vorige voorbeelden spraken we over één dimensie (of classificatie variabele). Vaak zijn er echter meerdere classificatie variabelen en willen we weten of die onafhankelijk van elkaar zijn. Wanneer ze niet onafhankelijk zijn, zijn ze in minder of meerdere mate contingent op of afhankelijk van elkaar. In een contingentie tabel kunnen we de verdelingen van elke variabele tegen elkaar afzetten.

In een contingentie tabel staan de frequenties die we zouden verwachten als de twee variabelen onafhankelijk waren (tussen haakjes). De verwachtte frequentie wordt bereikt door het vermenigvuldigen van de totalen van de rij en kolom waar het om gaat (dit zijn marginale totalen) en dit getal te delen door de totale steekproefgrootte. Dit is weer te geven in een formule: E_ij = R_iC_j / N. E_ij is hierbij de verwachtte frequentie voor de cel in rij i en kolom j. R_ien C_j zijn de rij en kolom totalen.

De kans dat een observatie in rij 1 valt is het totaal van die rij gedeeld door het totaal aantal cellen. Dit geldt ook voor kolommen. De verwachtte frequentie, als de observaties onafhankelijk zijn, kan verkregen worden door deze twee kansen met elkaar te vermenigvuldigen en dit resultaat te vermenigvuldigen met N. De waarde van χ² is weer met dezelfde formule te berekenen. Uit de contingentie tabel is het aantal vrijheidsgraden af te leiden door: df = (R – 1)(C – 1) met R en C het aantal rijen en kolommen in de tabel.

Voorwaarde voor de Pearson chi-kwadraat

Een van de belangrijkste voorwaarden om de chi-kwadraat test te gebruiken, is een redelijke grootte van verwachte frequenties. Kleine verwachte frequenties kunnen voor problemen zorgen. Ze zorgen namelijk voor een beperkt aantal contigentie tabellen en dus voor een beperkt aantal waarden voor chi-kwadraat. De continue χ² verdeling kan deze discrete verdeling niet goed beschrijven.

Over het algemeen is de regel dat alle verwachte frequenties minstens vijf moeten zijn. Bij kleinere frequenties is het aan te raden Fisher’s Exacte Test te gebruiken, omdat die niet gebaseerd is op de χ² distributie. Bij verwachtte frequenties van één in een cel van een 2x2 tabel kan de chi-kwadraat met de volgende formule gevonden worden:

χ²_adj = (χ² x N)/(N-1).

De Fisher’s Exact Test wordt gebruikt voor de verwachtte waarden groter dan één.

Meten van overeenstemming

Bij categorische data is het vaak van belang om te meten in hoeverre beoordelaars overeenstemmen in hun oordeel. Stel dat we bijvoorbeeld willen meten of 30 adolescenten problemen vertonen, met een indeling van ‘geen problemen’ (1), ‘problemen op school’ (2) en ‘problemen thuis’ (3) . We vragen twee beoordelaars (clinici) om dit te onderzoeken, zodat we de twee beoordelingen kunnen vergelijken. Middels een contingentietabel onderzoeken we hoe vaak de beoordelaars op elke schaal hebben gescoord. Stel dat we vinden dat de beoordelaars het in 20 van de 30 gevallen eens zijn (de diagonale cellen), dan is er 66% overeenstemming. Dit is het percentage van overeenstemming. Daarnaast vinden de beoordelaars beiden dat de meerderheid van de adolescenten geen problemen vertonen.

Het probleem met alleen uitrekenen van een percentage, is dat we geen rekening houden met de mogelijkheid dat de beoordelaars per toeval dezelfde classificatie geven. Om te corrigeren voor kans, ontwikkelde Cohen de statistiek kappa (κ).

De formule hiervoor is: $\frac{\sum{f_O}-\sum{f_E}}{N-\sum{f_E}}$ waarbij f₀ de verkregen frequentie is op de diagonaal en f_E de verwachtte.

Stel dat kappa uitkomt op K = .33. Dit houdt in dat we na correctie voor kans 33% overeenstemming hebben tussen de beoordelaars. Dit is veel lager dan de eerder uitgerekende waarde van 66%.

Access:

Public

1006 reads

Hoe voer je een steekproef uit?

Een populatie is het geheel aan gebeurtenissen waarin een onderzoeker geïnteresseerd is, bijvoorbeeld alle twaalfjarige kinderen in een land. Populaties kunnen enorm in grootte variëren. Omdat het niet mogelijk is om een gehele populatie te meten, wordt gebruik gemaakt van steekproeven in onderzoek: een aantal personen uit een gehele populatie worden dan gemeten. De voorkeur gaat altijd uit naar een willekeurige (random) steekproef. Dit houdt in dat iedere persoon uit de populatie evenveel kans heeft om in de steekproef terecht te komen. Dit zorgt voor een representatieve steekproef. Een steekproef is representatief wanneer een bepaald aspect net zo vaak voorkomt in de steekproef als in de populatie. Meestal is een steekproef echter geen perfecte spiegeling van de populatie. Het verschil tussen een steekproef en de bijbehorende populatie wordt sampling error (meetfout) genoemd. Een parameter staat voor een waarde die de populatie beschrijft. Denk hierbij aan de gemiddelde schoolprestatie in de populatie. Een statistiek beschrijft, in tegenstelling tot een parameter, gegevens over een steekproef. Meestal wordt gebruik gemaakt van een kanssteekproef. Dit kan op verschillende manieren gebeuren.

1. Simple random sampling
2. Stratified random sampling
3. Cluster sampling
Steekproeffouten SMT
Andere steekproeven
Conclusies trekken over de populatie

1. Simple random sampling

Bij ‘simple random sampling’ wordt de steekproef zo gekozen dat elke mogelijke sample even veel kans heeft om geselecteerd te worden uit de populatie. Als een onderzoeker bijvoorbeeld een steekproef van 100 man wil selecteren uit een populatie van 5000 man en elke combinatie van 100 man heeft dezelfde kans om geselecteerd te worden, dan is er sprake van een ‘simple random sample’. Om zo’n steekproef te selecteren, moet een onderzoeker een ‘sampling frame’ gebruiken. Dit is een lijst met daarop de hele populatie waaruit de steekproef getrokken zal worden. Vervolgens worden de proefpersonen willekeurig gekozen van de lijst. Een nadeel van de ‘simple random sampling’ is dat we vooraf informatie moeten hebben over hoeveel individuen er in een populatie zitten en we een ‘sampling frame’ nodig hebben. In sommige situaties is het opstellen van een ‘sampling frame’ namelijk niet mogelijk. In zulke gevallen wordt er gekozen voor ‘systematic sampling’. Elke zoveelste persoon wordt gekozen om deel te nemen aan de steekproef. Er kan bijvoorbeeld gezegd worden dat elke achtste persoon die binnenkomt mee mag doen met het onderzoek.

2. Stratified random sampling

Stratified random sampling is een variatie op simple random sampling. In dit geval worden mensen echter niet direct uit de populatie geselecteerd, maar wordt de populatie eerst verdeeld in meerdere strata. Een stratum is een deel van de populatie dat overeenkomt op een bepaald kenmerk. We kunnen de populatie bijvoorbeeld verdelen in mannen en vrouwen of in drie leeftijdsgroepen (20-29, 30-39 en 40-49). Vervolgens worden proefpersonen random gekozen uit elk van de strata. Door deze procedure kunnen onderzoekers er zeker van zijn dat er uit elk stratum evenveel mensen geselecteerd worden. Vaak gebruiken onderzoekers een ‘proportionate sampling method’. Hierbij worden individuen uit elk stratum geselecteerd naar proportie. Dat houdt in dat het percentage mensen dat meedoet aan het onderzoek (uit een bepaald stratum) overeenkomt met hoe vaak deze mensen in de populatie voorkomen.

3. Cluster sampling

Wanneer het moeilijk is om van tevoren aan de benodigde informatie te komen over hoeveel en welke individuen in een populatie voorkomen, wordt er vaak gebruik gemaakt van ‘cluster sampling’. In dit geval trekt de onderzoeker niet eerst individuen uit de populatie, maar juist clusters van mogelijke proefpersonen. Deze clusters zijn vaak gebaseerd op natuurlijk bestaande clusters, zoals gebieden in een land. Vaak wordt het bij cluster sampling gebruik gemaakt van ‘multistage sampling’. Hierbij worden eerst grote clusters vastgesteld. Vervolgens worden kleinere clusters binnen deze grotere clusters vastgesteld. En zo gaat het door totdat er een steekproef ontstaat, met random gekozen proefpersonen uit elk cluster.

Steekproeffouten SMT

Het is moeilijk om een geheel representatieve steekproef te maken. Er zijn verschillende manieren waarop een steekproef niet representatief kan zijn, dit worden steekproeffouten (bias) genoemd en dit kan tot misleidende onderzoeksresultaten leiden. Er zijn twee soorten steekproeffouten, namelijk systematische en niet-systematische. Er is altijd wel sprake van niet-systematische steekproeffouten. Deze ontstaan puur door steekproefvariatie. Psychologiestudenten van het ene jaar zijn bijvoorbeeld niet hetzelfde als die van een ander jaar, waardoor je steeds een ander gemiddelde krijgt. Je gaat er echter vanuit dat hoe meer proefpersonen je in je steekproef hebt hoe kleiner het aandeel van de niet-systematische steekproeffout zal zijn. Wat je als onderzoeker wel in de hand hebt, zijn systematische steekproeffouten. Er ontstaat een onjuist beeld van de populatie door de keuzes die je als onderzoeker maakt. Er zijn verschillende manieren waarop dit kan ontstaan:

Selectiebias: De manier waarop je proefpersonen selecteert, zorgt voor een vertekend beeld. EUR psychologiestudenten hebben misschien een hoger IQ dan de hele populatie studenten. Denk ook aan internet-enquêtes. Mensen die geen internet hebben selecteer je hierdoor automatisch niet.
Non-respons bias: Er ontstaat een vertekend beeld omdat de mensen die mee willen doen aan je onderzoek anders zijn dan de mensen die niet meedoen. Stel dat de IQ test bij psychologie op vrijwillige basis was. Mensen die vinden dat ze slim zijn, willen eerder een IQ test maken dan mensen met die denken minder goed te zullen presteren.
Responsbias: Er ontstaat een vertekend beeld, omdat de antwoorden die worden gegeven niet overeenkomen met de werkelijkheid. Misschien hebben de psychologie studenten helemaal geen zin om de IQ test in te vullen, maar doen ze het alleen voor de beloning.

Andere steekproeven

In sommige situaties is het onhandig of onmogelijk om een kanssteekproef te selecteren. In dat geval wordt een ‘nonprobability sample’ getrokken. Ze weten daardoor niet hoe representatief hun steekproef is. Veel psychologisch onderzoek wordt gedaan aan de hand van steekproeven die niet representatief zijn voor de populatie. Toch zijn dit soort steekproeven erg geschikt voor bepaalde onderzoeken. Nonprobability samples zijn geschikt voor onderzoeken waarbij het toetsen van hypothesen van belang is, en waarbij de populatie niet beschreven wordt. Er is meer vertrouwen in de validiteit wanneer verschillende steekproeven (over hetzelfde onderwerp) soortgelijke resultaten opleveren. Er zijn drie soorten nonprobability steekproeven:

Convenience sampling: een ‘convenience sample’ is een steekproef waarbij onderzoekers gebruik maken van de deelnemers die meteen beschikbaar zijn. Een groot voordeel van de convienience sample is dat het bij deze methode veel makkelijker is om proefpersonen te rekruteren dan bij representatieve steekproeven.
Quota sampling: bij een ‘quota sample’ stelt de onderzoeker van tevoren vast aan welke percentages moet worden voldaan. Op basis van deze percentages wordt de steekproef uiteindelijk geselecteerd. Een onderzoeker kan zeggen dat hij precies 20 mannen en 20 vrouwen voor het onderzoek wil selecteren in plaats van willekeurig 40 mensen te selecteren zonder te letten op sekse.
Purposive sampling: bij een ‘purposive sample’ hebben onderzoekers een bepaald beeld in hun hoofd van proefpersonen die volgens hen typisch zijn voor de populatie. Op basis van dit beeld selecteren zij welke personen mee mogen doen aan hun onderzoek. Het probleem is dat dit heel subjectief is.

Conclusies trekken over de populatie

Als je resultaten hebt verzameld over de steekproef heb je het doel van je studie nog niet bereikt. Het idee is dat je op basis van deze resultaten uitspraken doet over de populatie. Er is een aantal voorwaarden waaraan je moet voldoen, voordat je conclusies mag trekken over de populatie. Deze voorwaarden worden hieronder besproken.

Reduceren van steekproef errors

De steekproef error laat zich omschrijven als de afwijking van jouw resultaat van de ware parameter. Stel dat de ware parameter 70 is en jij komt uit op 69, dan is de steekproef error 1.

Steekproefgrootte

Een grote steekproef is geen garantie voor een representatieve steekproef. De manier waarop je een steekproef trekt is minstens zo belangrijk. Toch zijn er richtlijnen voor hoe groot je steekproef minimaal moet zijn. Over het algemeen geldt dat hoe kleiner de populatie is, hoe groter het deel moet zijn dat je opneemt in je steekproef. Als je een populatie van 50 hebt, heb je ongeveer 49 mensen nodig om representatieve resultaten te krijgen. Bij kleine populaties (<500) selecteer je 50% of meer voor je steekproef. Voor grote populaties (>5000) selecteer je 17-27%. Als je populatie eenmaal groter is dan 250.000 neemt de steekproefgrootte nauwelijks toe (1060-1840 elementen). Samengevat geldt: hoe kleiner de populatie, hoe groter de steekproefratio.

Betrouwbaarheidsinterval

Zoals gezegd, ben je er nooit zeker van dat jouw resultaat precies overeenkomt met de ware populatieparameter. Om dit aan te geven, kun je een betrouwbaarheidsinterval berekenen. Dit is een bereik van getallen boven en onder je geschatte parameter, waar de ware parameter met een zekere waarschijnlijkheid in valt. Je kunt bijvoorbeeld met 95% zekerheid zeggen dat de ware parameter tussen de 30 en de 33 ligt. Het interval is het bereik (30 tot 33) en de betrouwbaarheid is de waarschijnlijkheid waarmee je iets zegt (95%). De grootte van de steekproef beïnvloedt het betrouwbaarheidsinterval. Hoe groter de steekproef, hoe smaller het interval. Dat wil zeggen dat je een preciezere schatting maakt op basis van een grote steekproef dan op basis van een kleine.

Access:

Public

872 reads

Wat is statistische inferentie?

Inferentiële statistiek
Het toetsen van hypothesen
Type-I en type-II-fouten
De z-toets
Effectgrootte
De t-test
De t-test voor onafhankelijke steekproeven
Aannames voor de t-toets met twee onafhankelijke metingen
Gepaarde t-test
Overzicht formules t-test
Betrouwbaarheidsintervallen
Power

Inferentiële statistiek

Er is een manier om uit te zoeken of een verschil in groepsgemiddelden het gevolg is van errorvariantie of van systematische variantie. Hier kunnen we namelijk achter komen door middel van een inferentiële statistiek, dit is statistiek aan de hand van gevolgtrekkingen. Deze methode gaat er vanuit dat de onafhankelijke variabele effect heeft gehad, wanneer het verschil tussen de gemiddelden van de condities groter is dan dat we zouden verwachten op basis van alleen toeval. We vergelijken daarom de groepsgemiddelden die we gevonden hebben met de groepsgemiddelden die we verwachtten te vinden als er alleen sprake zou zijn van errorvariantie. Deze methode geeft helaas geen zekerheid. We kunnen alleen de kans vaststellen dat de verschillen in groepsgemiddelden het gevolg zijn van errorvariantie.

Het toetsen van hypothesen

Wetenschappers proberen hun onderzoekshypotheses te toetsen door de verschillende groepsgemiddelden te analyseren. Eerst formuleren ze een nulhypothese. Deze hypothese stelt dat de onafhankelijke variabele geen effect heeft gehad op de afhankelijke variabele. De experimentele hypothese staat hier vaak tegenover. Deze stelt dat de onafhankelijke variabele wel effect heeft op de afhankelijke variabele. De experimentele hypothese kan geen richting (‘nondirectional’) of wel een richting (‘directional’) aangeven. Een directionele experimentele hypothese (met een richting) wordt eenzijdig genoemd. Hierbij geeft de onderzoeker namelijk al aan of hij verwacht of de onafhankelijk variabele zorgt voor een stijging of daling in de afhankelijke variabele. Wanneer een onderzoeker geen vermoeden heeft over de richting van een effect, dan voert hij of zij een tweezijdige toets uit. Hierbij geeft de onderzoeker geen richting aan. Dit is dus een niet-directionele hypothese. Op basis van statistische analyses kan de nulhypothese verworpen (‘rejecting the null hypotheses’) of behouden (‘failing to reject the null hypothesis’) worden.

Het verwerpen van de nulhypothese betekent dat de onafhankelijke variabele effect heeft gehad. Door de nulhypothese te verwerpen, geef je aan dat er wel verschil is tussen de gemiddelden. De onafhankelijke variabele heeft dan dus effect gehad, en er is sprake van systematische variantie. Bij het verwerpen van de nulhypothese is het verschil in de groepsgemiddelden groter dan wat we zouden verwachten op basis van alleen de errorvariantie. Als de nulhypothese behouden wordt, dan betekent dit dat de onafhankelijke variabele geen effect heeft gehad op de afhankelijke variabele. In dit geval zijn verschillen in groepsgemiddelden niet het resultaat van de onafhankelijke variabele, maar van errorvariantie. De groepsgemiddelden verschillen dan niet meer dan dat we op basis van de errorvariantie zouden verwachten.

Type-I en type-II-fouten

Wanneer de onderzoeksdata statistisch geanalyseerd wordt, zijn er vier mogelijkheden denkbaar.

Correct besluit: de nulhypothese is onjuist, en de onderzoeker verwerpt hem.
Correct besluit: de nulhypothese is juist, en de onderzoeker behoudt hem.
Type-I-fout: de nulhypothese is juist, maar de onderzoeker verwerpt hem. De onderzoeker denkt dus ten onrechte dat de onafhankelijke variabele effect heeft gehad. De kans om een type I fout te maken wordt het alfaniveau genoemd. In de meeste gevallen gebruiken onderzoekers een alfaniveau van 5%. Dit betekent dat ze de nulhypothese verwerpen wanneer er 5% kans is dat de gevonden verschillen tussen de groepsgemiddelden het gevolg zijn van errorvariantie. Op deze manier is er maar 5% kans dat ze het bij het verkeerde eind hebben. Soms hanteren wetenschappers een strenger alfaniveau, namelijk een alfa van 1%. Ze hebben dan maar 1% kans om een type I fout te maken.
Het verschil tussen de groepsgemiddelden wordt als statistisch significant bestempeld wanneer we de nulhypothese verwerpen met een lage kans op een type-I-fout. Een statistisch significant resultaat is een resultaat waarvan we weten dat er maar een kleine kans is (vaak kleiner of gelijk aan 5%) dat deze het gevolg is van errorvariantie.
Type-II-fout: de nulhypothese is onjuist, maar de onderzoeker behoudt deze toch. De onderzoeker stelt dus dat de onafhankelijke variabele geen effect heeft gehad, terwijl dat in werkelijkheid wel zo was. De kans op een type-II-fout wordt bèta genoemd. Het onbetrouwbaar meten van de afhankelijke variabele verhoogt de bèta. Effecten die in werkelijkheid wel bestaan, worden met een onbetrouwbare meting namelijk niet opgemerkt. Dit leidt tot een grotere kans op een type-II-fout, dus een grotere bèta. Ook kunnen fouten in het verzamelen en coderen van responsen, extreem heterogene steekproeven en slechte experimentele controle leiden tot een grotere bèta. Om de kans op een type-II-fout te verkleinen, proberen wetenschappers experimenten te ontwerpen die veel power hebben.

De z-toets

Over het algemeen weten we de waarde van σ niet, en moeten we die schatten met de steekproef standaarddeviatie (s). als de standaarddeviatie van de populatie echter wel bekend is, kan gebruik worden gemaakt van de z-toets.

Stap 1: het formuleren van een hypothese

Allereerst wordt de hypothese opgesteld. Er zijn altijd twee hypothesen: de nulhypothese en de alternatieve hypothese. De nulhypothese houdt in dat een behandeling geen effect heeft. Deze hypothese stelt dus eigenlijk dat er geen verschil of verandering is ten opzichte van de onbehandelde populatie. De nulhypothese geven we aan met het symbool H₀. De H staat voor hypothese en de nul staat voor het nuleffect. Dan is er nog de alternatieve hypothese (H₁). Deze stelt dat er wel een verschil of verandering is. In de context van een experiment stelt de alternatieve hypothese dat de onafhankelijke variabele (bijvoorbeeld een behandelingsmethode voor depressie) een effect heeft op de afhankelijke variabele (mate van depressie). De H₁ kan één richting of twee richtingen opgaan. Als de nulhypothese bijvoorbeeld is dat de gemiddelde depressiescore 30 is in de populatie depressieve mensen, kan de alternatieve hypothese zijn dat het gemiddelde niet gelijk is aan 30 (µ ≠ 30). In sommige gevallen wordt de richting van het verschil ook gespecificeerd. Als verwacht wordt dat de behandelde populatie een hoger gemiddelde heeft geldt H₁ : μ1 < μ2 en als verwacht wordt dat de behandelde populatie een lager gemiddelde heeft, geldt H1: μ1 > μ2. Het is bijvoorbeeld mogelijk om in H₁ te stellen dat het gemiddelde lager is dan 30 (µ<30) of groter dan 30 (µ>30). De laatste mogelijkheid is in dit voorbeeld eigenlijk overbodig, omdat het bijna ondenkbaar is dat een behandelingsmethode de mate van depressiviteit laat stijgen. Hypothesen gaan altijd over populaties, al worden steekproeven gebruikt om hypothesen te testen.

Stap 2: criteria voor een besluit

Om een gegrond besluit te nemen over de (on)juistheid van de nulhypothese, moeten we bepaalde criteria gebruiken. We gebruiken het significantieniveau of het alfaniveau (α) als criterium. Het alfaniveau is een grens in de normaalverdeling die onderscheid maakt tussen scores met een grote kans en scores met een kleine kans van voorkomen in de steekproef als de hypothese juist is. Een alfa van 5% (α=0.05) zegt dat er maar 5% kans is dat een resultaat door toeval wordt gevonden. Het alfaniveau is een kanswaarde die gebruikt wordt om erg onwaarschijnlijke steekproefresultaten vast te stellen als de nulhypothese waar zou zijn. Het gebied dat afgebakend wordt door het significantieniveau in de staart van de verdeling is het kritieke gebied. Het kritieke gebied bestaat uit extreme steekproefwaarden die heel onwaarschijnlijk zijn als de nulhypothese waar zou zijn. Wanneer de waarden in het kritieke gebied vallen, verschillen ze significant van het verwachte gemiddelde en wordt de nulhypothese verworpen. Bij een alfa van 5% bevindt de 5% van de scores zich in de staarten van de normale distributie; voor z=-1.96 en na z=+1.96. Deze waarde zijn de grenzen voor de kritische regio bij α=0.05.

Stap 3: data verzamelen en rekenen

Data worden altijd verzameld nadat hypothesen geformuleerd zijn. Zo kunnen de data getoetst worden aan de hypothesen; de onderzoeker kan op objectieve wijze de data evalueren. Nadat de ruwe data verzameld is, worden er steekproefwaarden (statistieken) uitgerekend. De onderzoeker berekent bijvoorbeeld het steekproefgemiddelde. Zo kan hij het steekproefgemiddelde vergelijken met de nulhypothese. Om dit te doen berekent hij een z-score die beschrijft waar het steekproefgemiddelde zich bevindt in relatie tot het gemiddelde van de nulhypothese. De z-score voor het steekproefgemiddelde is: z=(M- µ)/ σ_M. Deze formule stelt dat de z-score berekend wordt door het populatiegemiddelde uit de nulhypothese (µ) af te trekken van het steekproefgemiddelde (M). Dit getal wordt vervolgens gedeeld door de standaardfout tussen M en µ. De z-score bij het hypothese testen is een voorbeeld van een teststatistiek.

Stap 4: een besluit nemen

De onderzoeker gebruikt de berekende z-score uit de vorige stap om een besluit te nemen over de nulhypothese. De eerste mogelijkheid is dat de onderzoeker de nulhypothese verwerpt. Hiervan is sprake wanneer de steekproefdata in de kritische regio valt. Dit betekent dat er een significant verschil is tussen de steekproef en de nulhypothese. De steekproefwaarden bevinden zich namelijk in de staart van de normaalverdeling. In het voorbeeld met de depressiebehandeling, betekent dit dat de onderzoeker heeft aangetoond dat de behandeling wel degelijk effect heeft. Het is ook mogelijk dat de data ervoor zorgt dat de nulhypothese niet afgewezen kan worden. Dit betekent dat een behandeling geeft effect heeft gehad. Dit gebeurt wanneer de steekproefdata niet in de kritische regio vallen.

Effectgrootte

Sommige onderzoekers hebben kritiek op het proces van hypothesen testen. De grootste kritiek gaat over de interpretatie van een significant resultaat. Er wordt bij het testen van een hypothese namelijk vooral aandacht besteed aan de data en niet aan de hypothesen zelf. Als de nulhypothese wordt afgewezen, maken we een statement over de steekproefdata en niet over de nulhypothese. Op basis van steekproefdata wordt de nulhypothese dus afgewezen of behouden. Of de nulhypothese werkelijk (on)waar is, weten we niet. Een ander kritiekpunt is dat een significant effect niet meteen zegt dat een behandeling een groot effect heeft. Iets is significant of niet, maar dit zegt niets over de grootte van het effect dat gevonden is. Een significant effect is dus niet hetzelfde als een groot effect. Om meer inzicht te krijgen in de grootte van een significant effect, heeft Cohen (1988) de zogenaamde effectgrootte voorgesteld. Zijn maat voor effectgrootte noemen we Cohen’s d. Deze maat kan berekend worden door eerst het verschil tussen het steekproefgemiddelde en het oorspronkelijke populatiegemiddelde te vinden (M- µ). Vervolgens wordt deze uitkomst gedeeld door de standaarddeviatie van de populatie. De uitkomst van Cohen’s d is 0.2 bij een klein effect, 0.5 bij een gemiddeld effect en 0.8 bij een groot effect.

De t-test

Over het algemeen weten we de waarde van σ niet, en moeten we die schatten met de steekproef standaarddeviatie (s). Wanneer we σ vervangen door s, kunnen we echter niet meer gebruikmaken van de z formule, maar gebruiken we de t test. De t test gebruikt s² als schatting van σ². De t-verdeling maakt gebruik van n-1 vrijheidsgraden. Hoe groter de waarde van df voor een steekproef, hoe beter s (standaarddeviatie van een steekproef) σ (standaarddeviatie van een populatie) representeert De t-statistiek rekenen we uit door middel van de volgende formule: t=(M- µ)/ s_{M. sM staat voor de standaardfout. Deze wordt als volgt berekend:}s_M=s/√n. Dit wordt gebruikt als schatting van de echte standaardfout . Een handig schema om te gebruiken wanneer je een hypothese toets met de t-toets is het onderstaande schema:

	(14) rechtszijdig	(15) linkszijdig	(16) tweezijdig
1. Formuleren nul- en alternatieve hypothese	H₀: $\mu$ ≤ 123 H₁: $\mu$ > 123	H₀: $\mu$ ≥ 126 H₁: $\mu$ < 126	H₀: $\mu$ = 122 H₁: $\mu$ ≠ 122
2. Keuze van de toetsgrootheid	$T=\frac{\bar{X}-\mu_o}{S/\sqrt{n}}$	$T=\frac{\bar{X}-\mu_o}{S/\sqrt{n}}$	$T=\frac{\bar{X}-\mu_o}{S/\sqrt{n}}$
3. Bepalen verdeling toetsgrootheid	$T~t(n-1)$	$T~t(n-1)$	$T~t(n-1)$
4. Intuïtief verwerpingsgebied	$\bar{X}^{>>123}_{t>>0}$	……………	$\bar{X}^{<<222}_{t<<0}$ $\bar{X}^{>>222}_{t>>0}$
5. Vaststellen significantieniveau	$\alpha$ = 0.05	$\alpha$ = 0.05	$\alpha$ = 0.05
6. Opzoeken kritieke waarden	t_{99, 0.05}= 1.660	-t_{99, 0.05}= -1.660	……………
7. Vergelijk geobserveerde waarde toetsgrootheid met de kritieke waarde	$t=\frac{125-123}{10/\sqrt{100}}$ = 2 > 1.660, dus verwerp H0: het gemiddelde IQ op de EUR is niet kleiner of gelijk aan 123, uitgaande van $\alpha$ = 0.05.	$t=\frac{125-123}{10/\sqrt{100}}$ = -1 > -1.660, dus handhaaf H0: het gemiddelde IQ op de EUR is groter of gelijk aan 126, uitgaande van $\alpha$ = 0.05.	$t=\frac{125-123}{10/\sqrt{100}}$ = 3 > 1.985, dus verwerp H0: het gemiddelde IQ op de EUR is niet gelijk aan 122, uitgaande van $\alpha$ = 0.05.

Aannames voor de one-sample t-toets

Er zijn twee aannames voor het uitvoeren van een t-toets.

Allereerst moeten de scores uit de steekproef bestaan uit onafhankelijke observaties. Dit betekent dat de ene score geen invloed mag hebben op de andere score. De kans op een bepaalde uitkomst bij een score wordt dus niet beïnvloed door een andere score.
Daarnaast moet de populatie, waar een steekproef uit getrokken wordt, normaal verdeeld zijn. In de praktijk heeft het schenden van deze aanname echter weinig invloed op de t-statistiek, vooral als de steekproef groot is. Met hele kleine steekproeven is het echter wel belangrijk dat de populatie normaal verdeeld is. Als je er dus niet zeker van bent dat de verdeling van een populatie normaal is, kun je het beste een grote steekproef selecteren.

Effectgrootte van de t-test

De grootte van het effect kan berekend worden door Cohen’s d. In dat geval moet het verschil tussen het steekproef- en populatiegemiddelde gedeeld worden door de standaarddeviatie van de populatie. In de meeste gevallen is de standaarddeviatie van de populatie echter niet bekend om de effectgrootte mee te berekenen. Daarom is de geschatte d bedacht. In dat geval wordt het verschil tussen het gemiddelde van een steekproef en de populatie gedeeld door de standaarddeviatie van de steekproef.

Proportie verklaarde variantie (r²)

Een andere manier om effectgrootte te bepalen is door te kijken hoeveel van de spreiding tussen de scores wordt verklaard door een effect. Een effect kan er namelijk voor zorgen dat scores stijgen (of dalen). De proportie verklaarde variantie kan gevonden worden door de t-statistiek te kwadrateren en te delen door hetzelfde getal plus de vrijheidsgraden. In formulevorm is dat dus: r² = t²/ t²+df. De vrijheidsgraden worden gevonden door het aantal scores te verminderen met één. Een proportie verklaarde van 0.01 staat voor een klein effect. Een waarde van 0.09 staat voor een gemiddeld effect. Een grote proportie verklaarde variantie wordt gekenmerkt door een r² van 0.25. De r² wordt in onderzoeksliteratuur vaak vermeld in de vorm van procenten.

De t-test voor onafhankelijke steekproeven

De t test wordt het meest gebruikt bij testen van verschillen tussen twee onafhankelijke groepen. Bijvoorbeeld wanneer we prestaties vergelijken tussen een controle groep en een experimentele groep (die een bepaalde behandeling heeft ondergaan). We willen weten of het verschil groot genoeg is om er vanuit te gaan dat de twee steekproeven uit verschillende populaties komen.

Wanneer we gemiddelden van twee verschillende populaties vergelijken, testen we een nulhypothese in de vorm van H₀ : μ₁ – μ₂ = 0. Hierbij hoort een steekproefverdeling van alle mogelijke verschilscores tussen de populatiegemiddelden. In het geval van twee normaal verdeelde populaties, is de verdeling van verschilscores ook een normaal verdeling. De variantie van deze verdeling kun je vinden door de variantie som wet: de variantie van een som of verschil van twee onafhankelijke variabelen is gelijk aan de som van hun varianties.

σ²_X1-x2= σ²_X1+ σ²_X2 = σ²₁/n₁ + σ²₂/n_2.

De formule voor de t-statistiek is als volgt:

$T_s=\frac{\bar{Y}_1-\bar{Y}_2-(\mu_1-\mu_2)}{\sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}}$

µ₁-µ₂staat gelijk aan nul en valt dus weg in de formule.

Aannames voor de t-toets met twee onafhankelijke metingen

De observaties in elke steekproef moeten onafhankelijk zijn.
De populaties waar de steekproeven uit genomen zijn, moeten normaal verdeeld zijn. Als je als onderzoeker vermoedt dat de populaties niet normaal verdeeld zijn, is het een goed idee om grote steekproeven te gebruiken.
De twee populaties moeten gelijke varianties hebben. Dit noemen we de homogeniteit van varianties. Het poolen van steekproefvarianties is namelijk alleen zinvol als beide populaties dezelfde variantie hebben. Deze aanname is erg belangrijk, omdat een juiste interpretatie van onderzoeksresultaten ervan afhangt. Dit kan je checken met levene’s test in spss.

Gepoolde variantie

De bovenstaande formule is alleen te gebruiken als beide steekproeven van dezelfde grootte zijn (n₁₌ n₂). In zo’n geval ligt de variantie van de twee steekproeven precies in het midden van de twee aparte varianties. In situaties waarin de twee steekproeven niet van dezelfde grootte zijn, is deze formule niet toereikend genoeg. Dit wordt veroorzaakt doordat de twee steekproeven even zwaar meewegen in de formule, terwijl een kleinere steekproef minder mee zou moeten wegen dat een grotere. Er ontstaat een bias naar de kleinere steekproef. Om hiervoor te corrigeren wordt een formule gebruikt die de varianties combineert, de gepoolde variantie. Deze wordt gevonden door het gewogen gemiddelde te nemen van de twee varianties. De kwadratensommen van beide steekproeven worden gedeeld door het aantal vrijheidsgraden. Het aantal vrijheidsgraden van een kleinere steekproef is lager, waardoor deze minder mee zal wegen. Eerder is gezegd dat de variantie van een steekproef (s²) gevonden kan worden door SS te delen door df. Om de gepoolde variantie uit te rekenen (s²_p) wordt een andere formule gebruikt: (SS₁ + SS₂)/ df₁ + df₂. De geschatte standaard error van M₁ - M₂ wordt gevonden door de wortel (√ ) te trekken uit de uitkomst van (s²_p/ n₁+ s²_p/ n₂). Een andere formule voor de gepoolde variantie is als volgt: s²_p = ((n₁ - 1)s²₁ + (n₂ - 1)s²₂) / (n₁ + n₂ - 2). De nieuwe t-formule wordt dan:

$(\bar{X}_1-\bar{X}_2)/\sqrt{s^2_p(\frac{1}{n_1}+\frac{1}{n_2})}$

Effectgrootte

Zoals eerder gezegd wordt Cohen’s d berekend door het verschil tussen twee gemiddelden te nemen en dit te delen door de standaarddeviatie van de populatie. Bij twee onafhankelijke steekproeven wordt het verschil tussen de twee steekproeven (M₁ - M₂) gebruikt om het verschil in gemiddelden te schatten. De gepoolde standaarddeviatie (√s²_p) wordt gebruikt om de standaarddeviatie van de populatie te schatten. De formule om Cohen’s d te schatten wordt dus: geschatte d = (M₁ - M₂)/ √s²_p.

Gepaarde t-test

Een gepaarde t-toets (‘paired t-test’) wordt gebruikt wanneer er sprake is van een gematcht ontwerp of van herhaalde metingen. Bij de gepaarde t-toets wordt er rekening mee gehouden dat de deelnemers in de twee condities op elkaar lijken.. In dit geval is er sprake van twee verschillende steekproeven, maar elk individu uit de ene steekproef wordt gematcht met een individu uit de andere steekproef. Individuen worden gematcht op basis van variabelen die belangrijk worden gevonden voor het desbetreffende onderzoek. Dit leidt tot een test met meer power: als de onafhankelijke variabele daadwerkelijk effect heeft, dan blijkt dit ook uit de test. Hoe minder errorvariantie er namelijk is, hoe groter de power van het experiment. De hoge power zorgt ervoor dat de gepoolde standaarddeviatie (s_p) kleiner wordt. Het kleiner worden van de gepoolde standaarddeviatie leidt weer tot een grotere t-waarde.

De t-statistiek voor gerelateerde samples is qua structuur hetzelfde als de andere t-statistieken. Het enige grote verschil is dat de t-statistiek bij gerelateerde steekproeven gebaseerd is op verschilscores in plaats van ruwe scores (X-waarden). Omdat deelnemers voor en na een behandeling onderzocht worden, heeft elke deelnemer een verschilscore. De verschilscore wordt als volgt gevonden:

D (van difference) = X₂- X₁.

In deze formule staat X₂voor de tweede keer dat een steekproef onderzocht wordt (dus na de behandeling). Als er een negatief getal uit de formule komt, betekent dit dat de mate van een verschijnsel afgenomen is na de behandeling. Een onderzoeker probeert aan de hand van verschilscores uit te vinden of er een verschil is tussen twee condities in de populatie. Hij wil weten wat er zou gebeuren wanneer elk individu in de populatie twee keer gemeten zou worden (voor en na een behandeling). De onderzoeker wil weten wat het gemiddelde van verschilscores (µ_D) in de populatie is.

De nulhypothese is dat het gemiddelde van de verschilscores nul is (µ_D=0). Volgens deze hypothese is het wel mogelijk dat sommige individuen in de populatie positieve verschilscores hebben. Ook is het volgens deze formule mogelijk dat andere individuen negatieve verschilscores hebben. Het gaat er echter om dat de nulhypothese stelt dat het gemiddelde van alle verschilscores nul is. De alternatieve hypothese H₁ stelt dat het gemiddelde van de verschilscores geen nul is (µ_D≠ 0). De t-statistiek voor verschilscores wordt als volgt berekend:

$T_s=\frac{\bar{X}_1-\bar{X}_2-(\mu_D)}{S_D/\sqrt{n}}$

Aannames voor de paired-samples t-test

De scores binnen elke conditie moeten onafhankelijk zijn om een t-toets voor gerelateerde steekproeven te kunnen doen.
Daarnaast moeten de verschilscores (D) normaal verdeeld zijn. Niet voldoen aan de deze voorwaarde is in principe niet erg, zolang de steekproef groot is. Bij een kleine sample moet wel aan deze voorwaarde voldaan worden. Onder een grote steekproef wordt een steekproef verstaan van meer dan dertig deelnemers.

Wanneer aan één of meer van de assumpties voor de t-toets voor herhaalde metingen niet wordt voldaan, kan er een alternatieve test gebruikt worden. Dit is de Wilcoxon-test, waarbij gebruik gemaakt wordt van rangscores alvorens de verschilscores te vergelijken.

Effectgrootte

De twee meest gebruikte metingen van effectgrootte zijn Cohen’s d en r² (proportie verklaarde variantie). Omdat Cohen’s d uitgaat van onder andere populatiewaarden (d = μ_D / σ_D) , is het handiger om d te schatten. De geschatte d kan berekend worden door het gemiddelde van de verschilscores te delen door de standaarddeviatie (d = M_D/s). Een waarde van boven de 0.8 wordt gezien als een groot effect. De proportie verklaarde variantie kan berekend worden middels de volgende formule: r² = t²/ t²+df.

Overzicht formules t-test

T-toets	Formule
T-toets bij gelijke varianties (onafhankelijke steekproeven)	$T_p=\frac{\bar{Y}_1-\bar{Y}_2-(\mu_1-\mu_2)}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$	$S^2_p=\frac{(n_1-1)S^2_1+(n_2-1)S^2_2}{n_1+n_2-2}$ $S_p=\sqrt{S^2_p}$
T-toets bij ongelijke varianties (onafhankelijke steekproeven)	$T_s=\frac{\bar{Y}_1-\bar{Y}_2-(\mu_1-\mu_2)}{\sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}}$	df wordt in opgave gegeven
Paired sample T-test (afhankelijke steekproeven)	$T_s=\frac{\bar{X}_1-\bar{X}_2-(\mu_D)}{S_D/\sqrt{n}}~t(n-1)$	$S^2_D=S^2_1-S^2_2-2r_{1,2}S_1S_2$ $S_D=\sqrt{S^2_D}$

T-toets

Formule

T-toets bij gelijke varianties

(onafhankelijke steekproeven)

$T_p=\frac{\bar{Y}_1-\bar{Y}_2-(\mu_1-\mu_2)}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$

$S^2_p=\frac{(n_1-1)S^2_1+(n_2-1)S^2_2}{n_1+n_2-2}$

$S_p=\sqrt{S^2_p}$

T-toets bij ongelijke varianties

(onafhankelijke steekproeven)

$T_s=\frac{\bar{Y}_1-\bar{Y}_2-(\mu_1-\mu_2)}{\sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}}$

df wordt in opgave gegeven

Paired sample T-test

(afhankelijke steekproeven)

$T_s=\frac{\bar{X}_1-\bar{X}_2-(\mu_D)}{S_D/\sqrt{n}}~t(n-1)$

$S^2_D=S^2_1-S^2_2-2r_{1,2}S_1S_2$

$S_D=\sqrt{S^2_D}$

Betrouwbaarheidsintervallen

Betrouwbaarheidsintervallen kunnen helpen in het beschrijven van resultaten uit het hypothesetesten. Wanneer we een specifieke schatting hebben van een parameter, noemen we dat een puntschatting. Er zijn daarnaast ook intervalschattingen, die de grenzen aangeven waarbinnen waarschijnlijk het ware populatiegemiddelde (μ) ligt. Dit zijn de betrouwbaarheidsgrenzen, die het betrouwbaarheidsinterval maken. We willen weten hoe hoog en hoe laag de μ-waarde kan zijn, waarbij we H₀ nog niet verwerpen. Dit geeft dan de grenzen aan waarbinnen we de nulhypothese behouden.

z-toets betrouwbaarheidsinterval: $\bar{X}\pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}}$
one sample t-test betruwbaarheidsinterval: $\bar{X}\pm t_{n-1,\alpha/2} \frac{S}{\sqrt{n}}$
t-test voor onafhankelijke steekproeven met gelijke varianties: $\bar{Y}_1-\bar{Y}_2 \pm t_{n-2,\alpha/2} S_p \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$
t-test voor onafhankelijke steekproeven met ongelijke varianties: $\bar{Y}_1-\bar{Y}_2 \pm t_{df,\alpha/2} \sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}$
T-test voor gepaarde steekproeven: $\mu_D=M_D \pm t \times s_MD$

Power

Naast het meten van de effectgrootte is het ook mogelijk om de power van een statistische test te meten. Power verwijst naar de mate waarin een onderzoek in staat is de effecten van de onderzochte variabelen te detecteren. Een onderzoek met veel power ontdekt welke effecten aanwezig zijn, terwijl een onderzoek met weinig power deze effecten niet opmerkt. De power wordt door veel zaken beïnvloed. Één van deze zaken is het aantal proefpersonen. In het algemeen geldt dat hoe meer proefpersonen er zijn, hoe groter de power is. Sterke effecten zijn makkelijker op te merken dan zwakke. Een onderzoek met een lage power herkent dan ook vaak wel de sterkte effecten, maar de zwakke niet. De power neemt toe naarmate er meer proefpersonen zijn. Om zwakke effecten te herkennen is er een grote power nodig. Bij het herkennen van zwakke effecten is het dan ook nuttig om veel proefpersonen te hebben. Power bereken je door 1-, dus 1 – de kans op een type II fout. Onderzoekers willen vaak minimaal een power van .80.De power van een test wordt beïnvloed door drie belangrijke factoren:

Allereerst speelt de grootte van een steekproef (n) een rol. Hoe groter een steekproef is, hoe groter de kans is om de nulhypothese af te wijzen als deze ook echt fout is. Dit betekent dat de power van een test groter wordt als de grootte van de steekproef stijgt.
Daarnaast wordt de power van een test verlaagd als het alfaniveau verkleind wordt. Als de alfa bijvoorbeeld verlaagd wordt van 5% naar 1% is de kans kleiner dat een effect (dat er in werkelijkheid wel is) gevonden wordt.
Ten derde stijgt de power van een test wanneer van een tweezijdige toets een eenzijdige toets wordt gemaakt.

Access:

Public

1234 reads

Wat zijn correlatie, regressie en lineaire regressie?

Correlatie versus regressie
Correlaties
Sterke en zwakke correlaties
Scatterplot
Simpele regressie
Assumpties voor regressie
Voorspelde waarden
Gestandaardiseerde regressie coëfficiënten
Hypothesetesten voor regressie

Correlatie versus regressie

Correlatie en regressie zijn twee onderwerpen die sterk verweven zijn, maar toch anders zijn. Bij simpele correlatie en regressie kijken we naar N participanten die voor twee variabelen geobserveerd of getest zijn. Stel dat we kijken naar rensnelheid van een muis in een doolhof (Y). Dit is een willekeurige variabele waarover we geen controle hebben. Wanneer we de relatie van Y bekijken met het aantal keer dat de muis op een knopje drukt voordat het uiteindelijk lukt (X), hebben we twee willekeurige, niet te beïnvloeden variabelen. In dat geval gebruiken we de term correlatie. Beide variabelen zullen variëren per experiment (het zijn random variabelen) en hebben een steekproef error. In het geval waar X een van tevoren bepaalde variabele is, gespecificeerd door de onderzoeker (bijvoorbeeld: het aantal voedselkorrels dat de muis krijgt per goed gelukte poging), spreken we van regressie.

Correlaties

Een correlatie meet drie eigenschappen van de relatie tussen X en Y:

De richting van een relatie. Een positieve correlatie (+) ontstaat wanneer twee variabelen zich bewegen in dezelfde richting. Als de waarde van X stijgt (de lengte van een persoon), stijgt de waarde van Y ook (het gewicht van een persoon). Van een negatieve correlatie (-) is sprake wanneer de twee variabelen zich in verschillende richtingen bewegen. Als X stijgt, daalt Y (of omgekeerd).
De vorm van een relatie. Deze vorm kan lineair zijn, maar dat hoeft niet.
De mate van een relatie. Een perfecte correlatie heeft een waarde van 1 of -1. Een correlatie van 0 stelt dat er helemaal geen verband tussen twee variabelen bestaat. Een correlatie van 0.8 is daarom sterker dan een correlatie van bijvoorbeeld 0.5.

Pearson correlatie

De meest bekende maat voor correlatie is de Pearson-correlatie. Deze correlatie meet de mate en de richting van een lineaire relatie tussen twee variabelen. De Pearson-correlatie wordt aangegeven met de letter r. Deze wordt als volgt berekend: Pearson r = de covariantie van X en Y/ de variabiliteit van X en Y apart. Om de Pearson r te kunnen berekenen is het nodig om een nieuw concept te introduceren, namelijk de som van producten van afwijkingen (SP). In eerdere delen hebben we de som van afwijkingen (SS) gebruikt om de variabiliteit van één variabele te meten. Nu zullen we SP gebruiken om de mate van covariantie tussen twee variabelen te berekenen. Er zijn twee formules die gebruikt kunnen worden om SP uit te rekenen. Bij de ene formule moeten echter van te voren de gemiddelde waarden van X en Y berekend worden.

De formule waarbij eerst gemiddelden berekend moeten worden is: SP = Σ(X-M_X)( Y-M_Y).
Een andere formule (waarbij de gemiddelden niet eerst berekend hoeven te worden) is: SP = ΣXY – (ΣXΣY)/n.
Ook kan de formule r= (SP/ √SSxSSy) gebruikt worden als de som van afwijkingen berekend moeten worden.
Tot slot kan de Pearson-correlatie ook berekend worden voor z-scores. In dat geval wordt het: r=Σ(z_Xz_y)/n.

De proportieverklaarde variantie

Met de pearson correlatie op zichzelf kun je niet zoveel, omdat deze niet op ratioschaal ligt en je er dus geen berekeningen mee kan doen. Daarom moet deze gekwadrateerd worden. De waarde r² wordt de bepalingscoëfficiënt (coëfficiënt of determination) genoemd. Deze waarde meet de proportie van spreiding in één variabele, die verklaard kan worden door de relatie die deze variabele heeft met de andere variabele. Een correlatie van 0.80 (r=0.80) betekent bijvoorbeeld dat 0.64 (r²), oftewel 64%, van de spreiding in Y-scores verklaard kan worden door variabele X. Een r² van 0.01 staat voor een kleine correlatie en een r² van 0.09 staat voor een gemiddelde correlatie. Een grote correlatie wordt gekenmerkt door een r² van 0.25 of hoger.

Spearman correlatie

De Pearson-correlatie meet wat de lineaire relatie tussen twee variabelen is. Deze maat voor correlatie wordt vooral gebruikt wanneer de data van interval- of rationiveau zijn. Andere correlatiematen zijn ontwikkeld voor niet-lineaire relaties en voor andere meetschalen. De Spearman-correlatie meet de relatie tussen variabelen die gemeten zijn op ordinaal niveau. Ook kan de Spearman-correlatie gebruikt worden wanneer data op interval- of rationiveau gemeten is en er geen lineaire relatie tussen X en Y bestaat.

De Spearman-correlatie gaat op zoek naar een consistente relatie tussen X en Y, welke vorm deze ook heeft. De oorspronkelijke scores moeten in dat geval wel eerst op volgorde (van klein naar groot) gezet worden. De Spearman-correlatie kan berekend worden op de volgende manier: r_s= 1- 6ΣD²/ n(n²-1). In deze formule staat n voor het aantal scores en D staat voor difference: het verschil tussen elke volgorde voor een X- en Y-waarde. Met je X-waarde kun je bijvoorbeeld op de tweede plaats staan, terwijl je met de Y-waarde op de negende plaats staat.

De punt-biseriële correlatie

Een speciale variant van de Pearson-correlatie wordt de punt-biseriële correlatie genoemd. Deze correlatie wordt gebruikt als de ene variabele getallen bevat, maar de andere variabele alleen maar twee waarden heeft. Een variabele met slechts twee waarden wordt een dichotome variabele genoemd. Een voorbeeld is sekse. Om de punt-biseriële correlatie uit te rekenen, moet de dichotome variabele eerst omgezet worden naar een variabele met numerieke waarden. De ene waarde (bijvoorbeeld vrouw) krijgt een nul en de andere waarde (bijvoorbeeld man) krijgt een één. Vervolgens wordt de bekende formule voor Pearson r gebruikt. De punt-biseriële correlatie kan ook omschreven worden als: r= SP/ √(SSx)(SSy). Het kwadrateren van de punt-biseriële correlatie leidt tot de proportieverklaarde variantie. Dit is een maat voor effectgrootte. Er is een relatie tussen de proportieverklaarde variantie en een t-test voor onafhankelijke steekproeven: r² = t²/(t²+df). Ook kan het volgende gezegd worden: t²= r²/(1/ r²)/df.

De phi-coëfficiënt (Φ)

De phi-coëfficiënt (Φ) meet de relatie tussen twee variabelen die beide dichotoom zijn. Om dit te doen moet eerst aan de dichotome waarden van beide variabelen een 0 en 1 toegekend worden. Vervolgens moet de Pearson r formule toegepast worden.

Sterke en zwakke correlaties

Bij grote steekproeven is het zo dat zelfs zeer kleine correlaties snel statistisch significant worden. Een significante correlatie zegt ons alleen dat de kans zeer klein is dat de correlatie nul is in de populatie. De aanwezigheid van significantie vertelt ons dus niet of de relatie tussen de variabelen sterk is. Hoe sterk een correlatie is, hangt namelijk samen met de grootte van de correlatie en niet met de statistische significantie van de correlatie. De vuistregel is dat een correlatie van .10 als zwak, een correlatie van .30 als gemiddeld en een correlatie van .50 en hoger als sterk wordt beschouwd.

Scatterplot

Een handige manier om de relatie tussen twee kwantitatieve variabelen te onderzoeken is met een scatterplot. Elke proefpersoon wordt daarbij weergegeven door een stip met coördinaten, die de waarden op variabelen X en Y aangeven. Normaliter staat de voorspellende variabele op de X-as en de criterium variabele op de Y-as. De criterium variabele wordt voorspeld vanuit de voorspellende variabele. Als het echter om een correlatie coëfficiënt gaat, is het niet altijd duidelijk welke variabele X en welke variabele Y is. In dit geval maakt het niet uit hoe de variabelen gelabeld worden. In een scatterplot wordt zo goed mogelijk een lijn door de puntenwolk getrokken. Die lijn heet de regressielijn van Y voorspeld door X (oftewel Y op X) en geeft de beste voorspelling van Y_i voor een X_i-waarde. Wanneer de regressielijn recht is, heet de relatie tussen de variabelen een lineaire relatie. Is de lijn krom, dan is er sprake van een curvilineaire relatie.

De mate waarin de punten in de puntenwolk om deze regressielijn liggen is gerelateerd aan de correlatie (r) tussen X en Y. Hoe dichter de punten (de behaalde resultaten) bij de regressielijn liggen (de voorspelde waarde), hoe hoger de correlatie. Het correlatie coëfficiënt kan vorm aannemen tussen de -1 en 1, waarbij een perfecte correlatie 1.00 is (en alle punten op de lijn liggen). + of - geeft de richting van de relatie aan en beïnvloedt niet de mate van de relatie.

Simpele regressie

MVDA werkboek De algemene formule voor een simpele regressie is Y = b₀ + b₁X + e, waarbij Y staat voor de afhankelijke variabele en X voor de onafhankelijke variabele. De parameters die geschat moeten worden heten de intercept (b₀) en het regressiegewicht (b₁). De error (e) is het verschil tussen de geschatte en daadwerkelijke waarde van Y. Een voorbeeld is dat je bij een tennisclub vijf euro per uur moet betalen bovenop een startprijs van 30 euro. In dit geval ziet de formule er zo uit: Y=5X+30. b₁wordt de regressiecoëfficiënt (slope) genoemd. Deze laat zien hoe Y verandert als X toeneemt met één punt. Bij de tennisclub is 5 euro de regressiecoëfficiënt, want de totale kosten nemen steeds met 5 euro per uur toe. De waarde van b₀ wordt het intercept genoemd, omdat deze laat zien wat de waarde van Y is als X nul is. Als de regressiecoëfficiënt gelijk is aan nul, is de regressielijn horizontaal.

De relatie tussen X en Y kan ook grafisch worden weergegeven. De meest gebruikte methode om een optimale voorspelling te kunnen maken is de least squares methode. Bij deze methoden worden de parameters gekozen op zo’n manier dat de som van de gekwadrateerde voorspelde errors zo klein mogelijk is.

Assumpties voor regressie

Er zijn een aantal assumpties waaraan moet worden voldaan. Ten eerste moet er sprake zijn van homogeniteit van varianties. Dit houdt in, dat de variantie van Y bij elke waarde van X even groot is (in de populatie). Daarnaast moeten de waarden van Y overeenkomend met de bijbehorende X-waarden normaal verdeeld zijn rondom 0.

Wanneer we op zoek zijn naar de steekproefcorrelatie, vervangen we de regressie model assumpties met de assumptie dat we een steekproef trekken van een bivariate normaal verdeling. De conditionele verdelingen in deze verdeling zijn de verdelingen van Y en X gegeven een specifieke waarde van X of Y. Wanneer we kijken naar alle Y-waarden, onafhankelijk van X, spreken we van de marginale verdeling van Y. Als laatste gaan we er vanuit dat de relatie tussen X en Y lineair is.

Voorspelde waarden

Om te bepalen hoe goed een lijn bij de data past, moet eerst de afstand tussen de lijn en elk datapunt berekend worden. Voor elke X-waarde bepaalt de lineaire regressielijn een waarde voor de Y-variabele. Deze waarde wordt de voorspelde waarde genoemd (Ŷ). De afstand tussen deze voorspelde waarde en de werkelijke Y-waarde wordt bepaald met de volgende stappen:

Afstand = Y- Ŷ. Deze afstand meet de error tussen de lijn en de werkelijke data.
Omdat sommige afstanden negatief en anderen weer positief zullen zijn, is de volgende stap het kwadrateren van elke afstand, zodat er alleen maar positieve waarden overblijven.
Tot slot moet de totale afstand tussen de lijn en data uitgerekend worden. De gekwadrateerde waarden uit stap twee tellen we allemaal bij elkaar op: Σ(Y- Ŷ)². Dit noemen we de totale gekwadrateerde fout.

Een voorbeeld

Stel dat we de relatie tussen stress en mentale gezondheid onderzoeken. Dit laatste meten we met een checklist.

De eerste stap voor het berekenen van de correlatie is het berekenen van de covariantie (cov_xyof s_XY), die de mate weergeeft waarin twee variabelen samen variëren.

Het lijkt erg op de variantie, want als de Y’s vervangen worden door X’en (of de X’en vervangen door Y’s) krijgen we s²_X (of s²_Y). De formule wordt ook wel gegeven door: (∑XY - ∑X∑Y/N) / (N-1)

We verwachten een sterk positieve relatie: grotere waarden van X (stress) geven grotere waarden van Y (mentale gezondheid). Dit zal een grote covariantie-waarde geven. Als er sprake geweest was van een sterke negatieve relatie, zou de som van de producten van de afwijkingen van gemiddelden groot en negatief zijn. Als er geen relatie is tussen de variabelen zal de som uitkomen rond de nul. De covariantie van het voorbeeld is 1,336.

Om de correlatiecoëfficiënt te berekenen, moeten we nog rekening houden met de standaarddeviaties van X en Y.

r = cov_xy / s_xs_y

De correlatie loopt van -1,00 tot 1,00.

Uit het voorbeeld komt een correlatie van r = .529. Dit betekent niet dat er 53% relatie is tussen stress en symptomen. Het geeft alleen de sterkte van de relatie aan tussen de twee variabelen; hoe dichterbij de ± 1,00, hoe sterker de relatie. De + en - geven de richting van de relatie aan, waarbij een positieve correlatie aangeeft dat als X hoger is, Y ook hoger is.

Gestandaardiseerde regressie coëfficiënten

Wanneer de data gestandaardiseerd wordt geeft een verschil van één eenheid in X een verschil van één standaarddeviatie weer. Als de helling bijv. 0,75 is (voor gestandaardiseerde data) zal voor elke standaarddeviatie toename in X, Aanduiding 10 (zie formuleblad) drie kwart standaarddeviaties toenemen. De helling bij gestandaardiseerde data wordt gestandaardiseerde regressie coëfficiënt of β genoemd.

Bij gestandaardiseerde data geldt s_x = s_y = s²_x = 1, waarbij de helling en correlatiecoëfficiënt gelijk zijn. Een correlatie van r = .80 geeft dus aan dat één standaarddeviatie verhoging van X is geassocieerd met achttienden standaarddeviatie verhoging van Y. Er wordt echter nooit gesproken van oorzaak en gevolg. Het is een correlationeel verband.

Hypothesetesten voor regressie

De significantie van b

Wanneer X en Y correleren, en er een lineaire relatie is, dan zal de helling van de regressielijn niet gelijk zijn aan nul en b een bepaalde waarde anders dan nul hebben. Dit is het geval bij één voorspellende variabele, maar wanneer er meerdere voorspellende variabelen zijn, hoeft de helling niet voor elk van deze variabelen significant te zijn.

b* is het parametrische equivalent van b, namelijk de helling als we X en Y metingen op de hele populatie hadden.

De standaardfout is: $s_b$ = $\frac{^sY-X}{^sX\sqrt{N-1}}$

Om te testen dat de populatiehelling nul is, gebruiken we de volgende formule voor t: t = (b-b*)/s_b = b / (s_Y∙X / s_X $\sqrt{N-1}$ ) = (b)(s_X)( $\sqrt{N-1}$ )/s_Y∙X met N-2 vrijheidsgraden.

Het betrouwbaarheidsinterval van b* is: CI(b*) = b ± (t_α/2)( $\frac{^sY-X}{^sX\sqrt{N-1}}$ )

Verschil tussen twee onafhankelijke b’s

Het kan zijn dat je bij een onderzoek twee onderzoeksgroepen hebt met beide een andere helling. Met de volgende manier kan je testen of dit verschil in helling significant is.

H₀ = b*₁ = b*₂ en de steekproefverdeling van b₁ - b₂ is normaal met een gemiddelde van nul en standaardfout van s_b1-b2 = $\sqrt{s^2_{b1}+s^2_{b2}}$ met t=(b_1-b_2) / $\sqrt{ s^2_{b1} + s^2_{b2} }$ met N₁ + N₂ - 4 vrijheidsgraden.

De standaardfout van b is in de vorige alinea behandeld en maakt de formule dus tot:

s_b1-b2 = $\sqrt{ \frac{ s^2_{Y-X_1} } { s^2_{X_1}(N_1-1) } + \frac{ s^2_{Y-X_2} } { s^2_{X_2}(N_1-1) } }$

Wanneer we uitgaan van homogeniteit van error varianties kunnen we de twee schattingen samennemen, gewogen naar vrijheidsgraden:

\[s^{^2}_Y∙X = ((N_{_1}-2)s^{^{2Y}}_∙X1 + (N_2 - 2)s^2_Y∙X2 / (N_1 + N_2 – 4)\]

Access:

Public

1177 reads

Wat is multipele regressie?

Het voorspellen en verklaren van (causale) relaties kan ook belangrijk zijn als er meer dan twee variabelen zijn, omdat een fenomeen vaak veroorzaakt wordt door meerdere factoren. Het is goed met zoveel mogelijk factoren rekening te houden. Het gebruik van multipele regressie heeft op dit gebied drie voordelen boven het gebruik van Pearson correlaties.

In de eerste plaats geeft het ons informatie over de optimale voorspelling van Y aan de hand van een combinatie van X-variabelen. Daarnaast kunnen we vaststellen hoe goed onze voorspelling is, door te kijken wat de totale bijdrage is van de set predictoren aan de voorspelling. Tenslotte kunnen we vaststellen hoe goed elke individuele predictor is, dus wat de bijdrage is van elke predictor aan de voorspelling. Het is belangrijk om op te merken dat de meest optimale voorspelling niet per definitie een correcte voorspelling hoeft te zijn. Het laatste voordeel kan gebruikt worden om duidelijker een causale relatie vast te stellen of te kijken of het toevoegen van een predictor toegevoegde waarde heeft.
De formule voor multipele regressie is als volgt: = b₀ + b₁X₁ + b₂X₂ + … + b_pX_p

Multipele correlaties
Partiële en semi-partiële correlatie
Constante en regressiegewichten
Testen: van samples naar populaties
Assumpties

Multipele correlaties

De multipele correlatie (R) heeft altijd een waarde tussen 0 en 1, en kan dus niet negatief zijn in tegenstelling tot de pearson correlatie. R²verwijst naar de proportie verklaarde variantie van Y, waarbij een hogere R²wijst op een betere voorspelling. Om te corrigeren voor een overschatting van de gedeelde variantie kan gebruik gemaakt worden van de adjusted R². Deze wordt als volgt berekend: 1 - ((1-R²)(N-1)/(N-p-1)). De voorspellers kunnen dus gedeelde en unieke variantie hebben. Deze unieke variantie kan worden weergegeven met gekwadrateerde semi-partiële correlaties. Soms is er sprake van suppressie, waarbij de unieke bijdrage van een variabele na correctie voor een andere variabele groter is dan de bijdrage zonder correctie. In andere woorden, het echte effect van X₁op Y werd onderdrukt door de relaties van X₁ en Y met X_2.

Partiële en semi-partiële correlatie

De (semi-)partiële correlatiecoëfficiënten controleren voor het effect van één of meer andere variabelen.

Partiële correlatie

De partiële correlatie r_01.2 is de correlatie tussen twee variabelen met één of meer variabelen weggenomen uit zowel X als Y. Stel dat we de relatie tussen inkomen en schoolprestaties onderzoeken. We vinden een significante correlatie tussen de twee. Dit betekent nog niet dat succes op school leidt tot een hoger inkomen. Het zou verklaard kunnen worden door IQ: dit leidt zowel tot hogere schoolprestaties als een hoger inkomen. De manier om dit te onderzoeken is de partiële correlatie te berekenen tussen schoolprestatie en inkomen, met IQ weggehaald uit beide variabelen.

Voor de partiële correlatie doen we een aparte regressieanalyse op beide variabelen met de te controleren variabelen (in het voorbeeld: inkomen op IQ en schoolprestatie op IQ). Van beide analyses nemen we het residu. Dit is het deel van de variatie dat niet wordt verklaard door IQ. De correlatie hiertussen is de partiële correlatie.

De notatie voor de partiële correlatiecoëfficiënt is r_01.23.._p, waarbij links van de punt de gecorreleerde variabelen staan en rechts van de punt de variabelen waarvoor is gecontroleerd.

De partiële correlatie in het kwadraat geeft de verklaarde variatie.

Semi-partiële correlatie

De semi-partiële correlatie wordt ook wel de deelcorrelatie genoemd. Het is de correlatie tussen de criterium Y en een gecontroleerde (partialled) predictor variabele. Waar de partiële correlatie dus een variabele wegneemt uit zowel criterion als de predictor, doen we dat hier alleen uit de predictor. De semi-partiële correlatie is de correlatie van Y met dat deel van X₁ dat onafhankelijk is van X₂ (het residu)_.

De notatie voor de semi-partiële correlatie is: r_0(1.2) waarbij we variabele 2 weghalen uit predictor 1. Voor de correlatie geldt: r²_0(1.2) = R²_0.12 - r²₀₂.

Constante en regressiegewichten

De constante heeft over het algemeen geen intrinsieke waarde voor psychologen en is daarom moeilijk te interpreteren. Ook de interpretatie van de regressiegewichten kan problematisch zijn, omdat de meeteenheden vaak arbitrair zijn. Dit maakt het ook lastig om te bepalen welke voorspeller het meest belangrijk is. Dit laatste probleem kan worden opgelost door het gebruiken van gestandaardiseerde regressiegewichten. Gestandaardiseerde regressiegewichten krijgen het teken β. Op deze manier ben je onafhankelijk van meeteenheden en kun je verschillende voorspellers goed vergelijken. Dit heeft echter als negatieve consequentie dat je afhankelijk wordt van de standaardafwijking binnen samples, wat met name problematisch is als je verschillende studies met elkaar wilt vergelijken. Regressiegewichten zijn altijd partieel, wat betekent dat ze alleen geldig zijn zolang alle variabelen zijn meegenomen in de vergelijking, dus als er voor de effecten van alle andere variabelen gecorrigeerd wordt. Je kunt de regressiegewichten dus niet als losstaand iets bekijken, maar alleen in de context.

Testen: van samples naar populaties

Tot dusver hebben we alleen gekeken naar beschrijvende statistiek. We kunnen echter ook gebruik maken van inferentiële statistiek om uitspraken te doen over de populatie waaruit de sample afkomstig is. Om te bepalen of de totale bijdrage van alle variabelen verschilt van nul kan een F-test gebruikt worden. Om vast te stellen wat de unieke bijdrage van elke predictor is kan er voor iedere voorspeller een t-test uitgevoerd worden. Hoe meer voorspellers, hoe groter de kans op type 1 fouten.

Daarom wordt de algemene F-test als een soort ‘gatekeeper’ gebruikt om te bepalen of de t-tests overwogen moeten worden. Als de F-toets significant is, worden t-testen gedaan. De F-toets wordt als volgt berekend: F = ((N-p-1)R²)/p(1-R²) met N onderwerpen/proefpersonen/(in dit geval staten) en p predictoren. Er zijn p en N-p-1 vrijheidsgraden bij betrokken.

Voor de t-toets hebben we de standaardfout van de statistiek nodig. Dit is de variabiliteit van de statistiek over de herhaalde steekproeven. De toets is als volgt:

t = (b_j - b_j*)/s_bj met N - p - 1 vrijheidsgraden.

Om de nulhypothese: b_j* = 0 te testen gebruiken we t = b_j/s_bj

Assumpties

Er zijn verschillende assumpties waaraan voldaan moet worden:

De afhankelijke variabele moet van intervalniveau zijn; voorspellers kunnen binair of op intervalniveau zijn.
- Het voldoen aan deze assumptie is vrijwel onmogelijk, maar belangrijk voor correcte interpretatie. Gelukkig is multipele regressie over het algemeen vrij robuust voor kleine afwijkingen van het intervalniveau.
Er bestaat een lineaire relatie tussen de voorspellers (X_is) en de afhankelijke variabele.
- Met standaard multipele regressie kunnen alleen lineaire relaties worden gevonden (en bijvoorbeeld geen curvi-lineaire relaties). Afwijkingen kunnen worden vastgesteld met een residual plot.
De residuen hebben (a) een normale distributie, (b) dezelfde variantie voor alle waarden van de lineaire combinaties van voorspellers en (c) zijn onafhankelijk van elkaar.

De assumptie van normaal verdeelde residuen is niet erg belangrijk om na te gaan, omdat regressietesten robuust zijn tegen schending ervan als de sample groot genoeg is (N>100). Meestal wordt deze assumptie gecontroleerd met een histogram. De assumptie van heteroscedasticiteit (3b) moet wel gecontroleerd worden, omdat regressie niet robuust is tegen schending hiervan. Hiervoor kan gebruik gemaakt worden van een residuenplot. De laatste assumptie (onafhankelijkheid van fouten, 3c) is erg belangrijk, maar lastig te controleren. Gelukkig wordt aan deze assumptie bij de meeste onderzoeksdesigns voldaan. Het controleren van assumpties is altijd afhankelijk van het oordeel van onderzoekers en kan dus door iedereen verschillend geïnterpreteerd worden.

Multicollineariteit en uitschieters

Uitschieters zijn scores van drie of meer standaardafwijkingen boven of onder het gemiddelde. Het is belangrijk om na te gaan waarom de score van een individu een uitschieter is in de analyse. Daarnaast kunnen uitschieters een disproportionele invloed hebben op de regressiegewichten. Als je besluit om uitschieters te verwijderen uit de analyse, is het goed om hier in de rapportage duidelijk over te zijn en expliciet aan te geven waarom je hiervoor gekozen hebt.

Er kunnen zich verschillende problemen voordoen als correlaties tussen voorspellende variabelen te sterk zijn. Soms geeft de regressie helemaal geen resultaten. In andere gevallen zijn de schattingen onbetrouwbaar of is het moeilijk om de resultaten te interpreteren. Om op multicollineariteit te controleren kun je kijken naar de tolerantie van elke voorspeller (moet groter zijn dan 0.10). Tolerantie wordt berekend door 1 - R²_j, waarbij R_j de multipele correlatie is tussen variabele j en alle andere predictor variabelen. Ook kan je kijken naar de VIF, deze bereken je door 1/tolerantie. Deze moet zo laag mogelijk zijn, in ieder geval kleiner dan 0.10.

Mediërende en modererende relaties

In de psychologie zijn vaak mediatoren en moderatoren van belang: variabelen die een rol spelen in de relatie tussen twee andere variabelen.

Mediatie

Een mediator medieert de relatie tussen twee andere variabelen. Bijvoorbeeld: de mate van zelfvertrouwen die ik heb medieert tussen de hoeveelheid zorg die ik van mijn ouders heb gehad en hoe ik zelf denk over het opvoeden van mijn kinderen. (Verzorgende ouders leidt tot hoog zelfvertrouwen, leidt tot vertrouwen in zelf opvoeden).

Baron en Kenny hebben veel geschreven over mediatie. Er zijn volgens hen drie stappen die moeten voldoen, wil er sprake zijn van mediatie. Zij stellen dat we eerst moeten aantonen dat de onafhankelijke variabele een significante relatie heeft met de mediator. Daarna moet een significante relatie worden aangetoond tussen mediator en afhankelijke variabele, en tussen de onafhankelijke en de afhankelijke variabele. De volgende stap is demonstreren dat wanneer de mediator en onafhankelijke variabele samen gebruikt worden om de afhankelijke te voorspellen, het pad tussen onafhankelijke en afhankelijke variabele (c) minder sterk (liefst niet-significant) wordt.

Maar wanneer pad ‘c’ niet helemaal verdwijnt en nog significant is, wat dan? Een manier is de Sobel test, waarbij we vragen of het volledige mediërende pad van onafhankelijke naar mediator naar afhankelijke variabele significant is. Hiervoor hebben we de regressie-coëfficiënten en standaardfouten van de twee paden nodig.

De standaardfout van de Beta (s_β) wordt niet gegeven en moeten we dus berekenen:t = β/s_β dus s_β = β/t

Moderatie

Bij modererende relaties verandert de relatie tussen onafhankelijke en afhankelijke variabele, door de derde (moderator)variabele. Bijvoorbeeld: we onderzoeken de invloed van dagelijkse stress-events op het aantal symptomen van stress dat een student aangeeft. Daarbij stellen we dat wanneer de student veel sociale steun heeft (in zijn omgeving), hij minder symptomen laat zien dan iemand met weinig sociale steun.

Access:

Public

2035 reads

Wat is logistische regressie?

Logistische regressie
Coderen van binaire variabelen
Grafische weergave logistische regressie
Logistische regressie en odds
Evaluatie van het logistische model
Classificatieanalyse

Logistische regressie

Dit hoofdstuk gaat over logistische regressie met een categorische afhankelijke variabele en kwantitatieve of dichotome onafhankelijke variabelen. In een normale logistische regressie is er altijd een afhankelijke variabele (Y-waarde) en set van onafhankelijke variabelen (X-waarden), die zowel dichotoom, kwantitatief of een combinatie daarvan kunnen zijn. De afhankelijke variabele kan dichotoom zijn (zoals in binaire logistische regressie) of meerdere categorieën hebben, wat polytomous of multinominale logistische regressie heet. Binaire logistische regressie is een techniek waarbij een regressie-analyse wordt uitgevoerd bij een dichotome afhankelijke variabele. Het geeft een model voor de kans dat een gebeurtenis plaatsvindt afhankelijk van de waardes van de onafhankelijke variabele. Bijvoorbeeld in het geval waar we de reactie op een behandeling willen voorspellen, en de participanten ofwel ‘overleven’ of ‘niet overleven’ (zoals bij kanker). De kansen van logistische regressie liggen tussen 0 en 1. Daarnaast kunnen de onafhankelijke variabelen zowel categorisch of continu zijn.

Assumpties logistische regressie

De afwezigheid van multicollineariteit (als meer dan twee voorspellende waarden erg sterk correleren).
Geen fouten in specificatie. Alle irrelevante voorspellende waarden worden uitgesloten.
De onafhankelijke variabelen moeten gemeten worden op opgetelde respons schaal, interval of ratio niveau.
De errors moeten onafhankelijk van elkaar zijn, dus elke observatie is onafhankelijk van de andere observaties.
De onafhankelijke variabelen moeten lineair gerelateerd zijn aan de log kansen.
De afhankelijke variabele moet binair zijn.
Grote steekproef, liefst 30 keer zo groot als het aantal parameters dat geschat wordt.

Coderen van binaire variabelen

Het wordt gesteld dat men variabelen het beste kan coderen met 1 voor het voorkomen van de onderzochte variabele en 0 voor het niet voorkomen ervan. Variabelen die onderzocht worden, worden gelabeld met 1 (ook wel de responsgroep, vergelijkingsgroep, doelgroep), de anderen als 0 (referentiegroep, basisgroep, controlegroep). Het doel van logische regressie is het voorspellen tot welke groep een individu behoort. Dit gebeurt door de kans dat hij of zij tot de categorie 1 behoort te berekenen. Een voordeel van deze codering is dat het gemiddelde van de afhankelijke variabele gelijk is aan de proportie 1-en in de verdeling. Het gemiddelde is ook de kans om een persoon als 1 te labelen bij een willekeurige steekproef.

P = proportie 1-en, (1-P) = Q = proportie 0-en
PQ = variantie, √PQ = standaard afwijking

Bij multinominale logistische regressie zijn er meer dan twee categorieën van de uitkomst variabele. Dit wordt vaak gecodeerd als 1, 2, 3, enzovoorts. De referentiegroep moet geïdentificeerd worden en de andere groepen worden gebruikt als doelgroep in aparte analyses.

Grafische weergave logistische regressie

De grafische weergave van lineaire regressie is een lijn, waarbij wordt aangenomen dat de verhoudingen constant zijn. Als x zoveel verandert, verandert y zoveel en dat is continu zo. Bij logistische regressie heeft de lijn een S-vorm. Het zorgt dat we kunnen voorspellen hoe groot de kans is dat de uitkomst 1 is gebaseerd op de waarde van de voorspeller. De eerste en de laatste waarden van X brengen nauwelijks verandering. Verandering is wel te vinden in het midden. Hoe steiler de helling, hoe meer verandering er teweeggebracht is. Je gebruikt logistische regressie wanneer er geen constante relatie is. Dan heeft logistische regressie een grote voorspellende waarde.

Logistische regressie en odds

Om logistische regressie te kunnen gebruiken moet je de data transformeren met de natural log transformation (ln transformatie). Hieronder eerst drie kernbegrippen.

Odds: Voor een dichotome variabele zijn de odds van groepslidmaatschap gelijk aan de waarschijnlijkheid van lidmaatschap in de doelgroep gedeeld door de kans op lidmaatschap in de andere groep. Odds geven aan hoeveel waarschijnlijker het is dat een observatie tot de doelgroep behoort, ten opzichte van een andere groep.
Kansen: de kans om bij de ene groep te horen gedeeld door de kans om niet bij die groep te horen = P/(1-P). Loopt van 0 tot hoge waardes.
Odds ratio: Een ander belangrijk concept is de odds ratio, die schat wat de verandering in de odds van groepslidmaatschap is voor de doelgroep per one-unit toename in de predictor. De ruwe coëfficiënt van de predictorvariabele geeft de verandering weer in het natuurlijke logaritme van de odds ratio, welke moeilijker te interpreteren is dan de odds ratio. Deze ruwe coëfficiënt heeft echter wel een nuttige functie: een positieve ruwe coëfficiënt houdt in dat voorspelde odds ratio toeneemt wanneer de predictorwaarde toeneemt en andersom. Bij een ruwe coëfficiënt van 0 is de odds ratio 1 (de odds zijn hetzelfde voor elke waarde van de predictor).

We willen berekenen hoe groot de kans is dat een individu tot een bepaalde groep behoort. Hiervoor wordt de waarschijnlijkheid van de gebeurtenis omgezet in kansen. Dit wordt gedaan door de natuurlijke log (ook wel ln). Door de transformatie past de data op de S-curve om zo goed mogelijk het groepslidmaatschap van individuen te voorspellen. De logistische regressie vergelijking met v als aantal onafhankelijke variabelen:

Ln [kansen] = groep_pred = a + b₁X₁ + b₂X₂+ ... + b_vX_v

Groep_pred staat voor het voorspelde groepslidmaatschap. De b coëfficiënten geven de verandering in log kansen voor lidmaatschap aan bij verandering van één eenheid in de onafhankelijke variabelen, gecontroleerd voor de andere voorspellers. De waarden van b (helling) en a (constant) worden berekend met hulp van de Maximum Likelihood Estimation (MLE), die je kunt verkrijgen nadat de afhankelijke variabele is getransformeerd in de logit. Dit is een methode om de data te veranderen zodat we een lineaire functie krijgen. De scores worden omgezet naar kansen, en vervolgens naar log odds[log(p/1-p)], met p de kans op verbetering en 1-p de kans op geen verbetering. De log odds zullen positief zijn voor odds groter dan 1 en negatief voor odds kleiner dan 1.

X is de score van de voorspeller. Deze kan dus 0 of 1 zijn voor dichotome variabelen of deze kan van intervalniveau zijn bij kwantitatieve variabelen. Het geeft aan hoe waarschijnlijk het is dat de geobserveerde waarde van de afhankelijke variabele voorspeld kan worden uit de geobserveerde waarden van de onafhankelijke variabelen.

De logistische functie kan worden beschreven als P = eⁿ / 1 + eⁿ. De logistische functie heeft een bereik van 0 tot 1. Als n groot en negatief is, is de kans P klein. Als n groot en positief is, is de kans P groot. Indien geldt: n = 0, geldt e⁰ = 1. De bijbehorende kans wordt dan 1 / 1 + 2 = 0.5.

In de logistische functie wordt n vervangen door een lineair regressie gedeelte:

P₁ = e^{a+b1x1+b2x2+….} / 1 + e^{a+b1x1+b2x2+….}

P₁ is hier de kans op slagen (slagen = 1). a is de constante onder B (uit de SPSS tabel). b₁ en b₂ zijn de regressiecoëfficiënten. x₁ en x₂zijn de bijbehorende predictoren.

De uitkomst wordt geïnterpreteerd aan de hand van een regel: bij P1 groter of gelijk aan .5 is de code 1, bij P1 kleiner dan .5 is de code 0. De kansratio kan berekend worden uit de e en de b-coëfficiënt: ℮^b= kans ratio

Evaluatie van het logistische model

2 log Likelihood Test: bekijkt of de set van de onafhankelijke variabelen de afhankelijke variabelen beter dan kans kunnen voorspellen. De likelihood waarden zijn vaak erg klein en daarom is de natuurlijke log ervan vaak in de output te zien. Dit wordt berekend door de log van de likelihood waarde te vermenigvuldigen met –2, waardoor de significantie getoetst kan worden met de chi²-toets. Dit is de –2LL (log likelihood). Er wordt getoetst of tenminste één voorspeller een significante contributie, verschillend van 0, heeft. Hoe hoger de -2LL, hoe minder goed het model bij de data past. Het 0-model past altijd het minst goed bij de data.

Om modellen met elkaar te vergelijken wordt het model zonder predictoren vergeleken met het model met één predictor. Het verschil tussen de -2LL waardes geeft de verandering in X^{2 weer die komt door het toevoegen van een voorspeller. Dit verschil kan bekeken worden met 1 df.}In de Model Summary* (SPSS) kun je bij de -2Log likelihood (-2LL) zien hoe sterk de relatie is. De -2LL wordt ingevoerd in de formule van Hosmer en Lemeshow:

R_L² = -2LL_{model 0} – -2LL_{model x} / -2LL_{model 0}.

Je vergelijkt je huidige model, bijvoorbeeld model 1 of model 2, dus altijd met het nulmodel. R_L² geeft de proportionele reductie in -2LL weer. *Voor het nulmodel kijk je bij ‘Iteration history’ in SPSS.

Classificatieanalyse

Het percentage accuraat geclassificeerde gevallen (PAC) is het aantal correct geclassificeerde gevallen gedeeld door het totale aantal geclassificeerde gevallen. Er kunnen echter ook andere maten van accuraatheid gebruikt worden. Sensitiviteit is het percentage van de doelgroep dat correct geclassificeerd wordt. De positieve voorspellende waarde is het percentage dat correct door het model aan een bepaalde doelgroep wordt toegewezen. Specifiteit verwijst naar het percentage van de andere groep dat correct geclassificeerd wordt. De negatieve predictieve waarde is het percentage dat correct door het model aan de andere groep wordt toegewezen. Als je voor allebei de groepen een goede voorspelling wilt maken, is de gemiddelde predictieve waarde over klassen zeer bruikbaar. Tenslotte is het belangrijk om rekening te houden met de generaliseerbaarheid van de resultaten, bijvoorbeeld door het gebruik van een cross-validatie sample.

Access:

Public

1935 reads

Hoe werkt de analyse van variantie (ANOVA)?

Analyse van variantie (ANOVA) is een manier om hypothesen te testen. Door middel van ANOVA wordt er gekeken naar het verschil in gemiddelden tussen twee of meer groepen. ANOVA heeft een groot voordeel boven de traditionele t-test. T-testen kunnen namelijk alleen gedaan worden als er twee behandelingen vergeleken moeten worden. Met ANOVA kunnen er meer dan twee behandelingen met elkaar vergeleken worden. Bij ANOVA wordt een onafhankelijke variabele of een quasi-onafhankelijke variabele (bijvoorbeeld sekse) een factor genoemd. De individuele groepen of behandelingscondities die deel uitmaken van een factor worden niveaus (levels) van de factor genoemd.

Het voordeel van ANOVA boven t-toetsen is dat de kans op een type I-fout gelijk blijft bij het gebruik van meerdere hypothesen. Normaal gesproken is er voor iedere individuele vergelijking een risico op een type I-fout zo groot als het geselecteerde alfaniveau (meestal 5%). Bij meerdere condities zijn er verschillende hypothesetoetsen nodig om ze allemaal te vergelijken, en voor elke hypothesetoets is er de kans op een type I-fout. Deze stapelen op tot een groter risico voor het totale experiment dan het alfaniveau van een enkele hypothesetoets. Het voordeel van ANOVA is dat alle vergelijkingen die nodig zijn om de verschillende hypothesen van één experiment te toetsen, in één keer uitgevoerd worden. Hierdoor blijft de alfawaarde op de geselecteerde waarde (meestal 0.05).

One-way anova
ANOVA
De F-ratio
Belangrijke symbolen
Rekenen met ANOVA

One-way anova

De one-way anova is een variantieanalyse wanneer er slechts één onafhankelijke variabele onderzocht wordt. Dit is bijvoorbeeld het geval wanneer er een therapie tegen depressie wordt aangeboden waarbij drie verschillende condities, dus levels, aanwezig zijn. Het structurele model van de variantieanalyse is als volgt: X = μ + τ_j + ε_ij.τ_j staat voor het verschil tussen het groepsgemiddelde en het grote gemiddelde. ε_ij geeft het verschil tussen de individuele score en het groepsgemiddelde weer.

Assumpties ANOVA

Om te kunnen beginnen met de ANOVA, moet eerst aan drie assumpties worden voldaan:

Homogeniteit van varianties (homoscedasticiteit): elke groep die in het onderzoek wordt gebruikt moet dezelfde variantie hebben. Met levene’s test voor gelijke varianties kan je dit controleren. De F-test is robuust voor deze aanname als de grootste groep en de kleinste groep niet meer dan factor 1,5 van elkaar verschillen.
Normale verdeling van de error: De tweede aanname is dat bij elke conditie of steekproefgroep de scores normaal verdeeld zijn. Omdat afwijking van het gemiddelde ook wel error wordt genoemd, heet deze voorwaarde ook weleens ‘de normale verdeling van error’. De F-test is robuust voor niet-normaliteit als n groter dan of gelijk is aan 15 in elke groep.
Onafhankelijke scores: De derde aanname is dat de observaties of scores onafhankelijk zijn van elkaar. Dit wil zeggen dat als we één observatie weten, dat dit niets zegt over een andere observatie. Dit kan misgaan wanneer de proefpersonen niet random worden toegewezen aan een groep.

De ANOVA is over het algemeen een zeer robuuste test. Dit betekent dat de voorwaarden tot op zekere hoogte geschonden kunnen worden, zonder dat dit grote gevolgen heeft voor de test. Als de populaties redelijk symmetrisch verdeeld zijn, en als de grootste variantie niet meer dan vier keer zo groot is als de kleinste, is de ANOVA nog valide. Als de steekproefgroottes erg veel verschillen is de test minder robuust tegen heterogeniteit van varianties.

Hypothesen bij ANOVA

Stel je voor dat je drie condities onderzoekt, dan is de nulhypothese µ₁=µ₂= µ_3.Dit betekent dus dat het gemiddelde van alle condities hetzelfde is. De alternatieve hypothese is dat ten minste twee populatiegemiddelde van elkaar verschillen. De alternatieve hypothese kun je ook specifieker maken: µ₁≠µ₂ ≠ µ_3. Dit betekent dat alle gemiddelden van elkaar verschillen. Bij ANOVA wordt de t-statistiek een F-ratio genoemd; F= variantie tussen steekproefgemiddelden/ variantie verwacht op basis van toevalsverschijnselen (dus wanneer de behandeling geen effect heeft). De F-ratio wordt dus berekend middels gegevens over variantie en niet op basis van verschillen in steekproefgemiddelden. Een gevonden F-waarde is hetzelfde als het kwadraat van een gevonden t (F=t²). Als een onderzoeker bijvoorbeeld een t-test met twee onafhankelijke steekproeven uitvoert, kan daar een verschil van gemiddelden uitvloeien. Hij vindt bijvoorbeeld een t-waarde van 2.00. Als de onderzoeker gebruik had gemaakt van ANOVA, zou de F-waarde 4.00 zijn.

ANOVA

Stel je voor: je hebt drie steekproeven. De eerste stap is om de totale spreiding in de gehele dataset te bepalen. Dit kan gedaan worden door alle scores van de steekproeven te combineren. Vervolgens moet de totale spreiding opgedeeld worden in delen. De totale variabiliteit kan opgedeeld worden in (1) tussengroepsvariantie en (2) binnengroepsvariantie. Van tussengroepsvariantie is sprake als een groep duidelijk systematisch hoger of lager scoort dan de andere groep(en). Binnen-groepsvariantie houdt in dat er spreiding is binnen elke groep.
Het doel van ANOVA is uitvinden of verschillen tussen condities wel of geen toevalsverschijnselen zijn. Als er sprake is van een toevalsverschijnsel is er geen effect. In dat geval verschillen de scores alleen omdat elke sample bestaat uit verschillende individuen. Als er wel een effect is zijn de verschillen tussen de groepen groter dan wat er verwacht zou worden op basis van toeval.

De F-ratio

Nadat de totale variabiliteit is opgedeeld in twee onderdelen (tussen- en binnengroepsvariantie) moeten deze onderdelen met elkaar vergeleken worden. Dit wordt gedaan door middel van de F-ratio. Voor een ANOVA met onafhankelijke steekproeven wordt de F-ratio als volgt gevonden: variantie tussen condities/variantie binnen condities. Wanneer er geen effect is, zijn de verschillen tussen de behandelingen alleen het gevolg van toeval. In dat geval is de F-ratio 1, dan is er dus geen effect. Een grote F-ratio zegt dat verschillen tussen condities groter zijn dan verwacht zou worden door toeval alleen. Bij ANOVA wordt de teller van de F-ratio de error term genoemd. De error term geeft een beeld van de variantie als gevolg van toeval.

Belangrijke symbolen

De letter k geeft het aantal condities (het aantal niveaus van de factor) weer.
Het aantal scores in elke conditie wordt aangeduid met de letter n. Het totale aantal scores in het gehele onderzoek wordt aangeduid met hoofdletter N.
Het totaal (ΣX) voor elke conditie wordt aangeduid met de letter T.

Rekenen met ANOVA

Het is belangrijk dat je kunt rekenen met de ANOVA en dat je begrijpt hoe de logica erachter werkt. Eerst worden de formules toegelicht.

SSB = Sum of Squares Between

$SSW = \sum^a_{i=1}n_i(\bar{y}_i-\bar{y})^2$

Het aantal mensen van één groep maal het gekwadrateerde verschil tussen het groepsgemiddelde en het totaalgemiddelde. En dat optellen voor elke groep.

SSW = Sum of Squares Within

$SSW = \sum^a_{i=1}(n_i-1)S^2_i$

Het aantal mensen van een groep -1 maal de variantie van die groep, en dat tel je op voor elke groep.

$SSW = (n-1)S^2$

SST = Sum of Squares Total

Het totaal aantal mensen van het onderzoek -1 keer de totale variantie.

SSB + SSW = SST

Vrijheidsgraden bij ANOVA

Elke vrijheidsgraad is gerelateerd aan een specifieke SS-waarde.

Het aantal vrijheidsgraden voor het totaal (df_total) wordt gevonden door het aantal scores (van alle condities samen) bij elkaar op te delen en daar één van af te trekken (df_total=N-1).
Vervolgens moeten de vrijheidsgraden voor de binnengroepsvariantie gevonden worden (df_within). Deze kan als volgt gevonden worden: (df_within)=Σ(n-1) = Σdf_{in each treatment}. Daarnaast kan df_within ook verkregen worden door N-k.
Tot slot zijn er de vrijheidsgraden die horen bij de tussengroepsvariantie (df_between). Om deze te vinden moet van het aantal condities één afgetrokken worden; (df_between=k-1). Als de vrijheidsgraden van de tussengroepsvariantie en de vrijheidsgraden van de binnengroepsvariantie worden opgeteld kom je precies uit op de vrijheidsgraden voor het totaal.

Mean Squares

Vervolgens moet de variantie tussen en binnen de condities berekend worden om de F-ratio te vinden. Bij ANOVA wordt liever de term mean square (MS) gebruikt in plaats van variantie. De bijbehorende formule is hetzelfde als voor de variantie: MS = s²= SS/df.

Om de MS voor tussen de groepen te vinden wordt de volgende formule gebruikt: MS_between= s²_between= SS_between/df_between.
Voor de MS binnen de groepen is de formule: MS_within= SS_within/df_within.
Vervolgens wordt de F-ratio gevonden door deze waarden door elkaar te delen: F= MS_between/ MS_within.

De F-distributie

Zoals gezegd klopt de nulhypothese als de uitkomst van de F-ratio 1 is. Omdat F-ratio’s berekend worden door middel van twee varianties, zijn F- waarden altijd positief. Gevonden F- waarden kunnen opgezocht worden in de F- tabel. Deze is zo opgesteld dat eerst de vrijheidsgraden van de noemer en daarna de vrijheidsgraden van de teller opgezocht moeten worden in de tabel. Daarna moet in dat deel van de tabel de gevonden F-waarde opgezocht worden. Deze ligt tussen twee genoemde waarden uit de tabel. De kans op deze waarden staat ook in de tabel. Als er bijvoorbeeld één procent kans is op de gevonden F-waarde, kan de nulhypothese verworpen worden bij een alfa van 5%. Als er echter meer dan vijf procent kans is op het gevonden resultaat, dan moet de nulhypothese behouden worden.

Voorbeeld van hypothesetoets met ANOVA

Om een analyse van variantie uit te voeren, worden er vier stappen uitgevoerd.

Stel de nulhypothese en alternatieve hypothese op en stel een alfaniveau vast. Een voorbeeld van de hypotheses kan zijn:=
H₀: µ₁ = µ₂ = µ₃
H₁: ten minste één van de gemiddelden is anders
Een alfaniveau is bijvoorbeeld α = .05
Stel de vrijheidsgraden van de tussengroepsvariantie en binnengroepsvariantie vast om de kritische regio voor de F-ratio te vinden in de tabel.
De volgende berekeningen moeten worden uitgevoerd om de F-ratio te vinden:
Bereken de MS_between en MS_within.
Om de F-ratio te bereken, geldt F = MS_between/MS_within.
Tenslotte komen we tot een beslissing, waarbij we kijken of de gevonden F-ratio in de kritische regio valt. Net als bij de t-toets geldt dat de nulhypothese verworpen moet worden als de gevonden F-ratio in de kritische regio valt.

Belangrijk om te onthouden is dat de grootte van de steekproef de resultaten van ANOVA kan beïnvloeden. Hoe groter de steekproef, hoe groter de kans om bewijs te vinden om de nulhypothese te verwerpen. Zo’n probleem kan vermeden worden door middel van een alternatieve statistische analyse: de Kruskal-Wallistoets. Hierbij worden de data omgezet naar ordinaal niveau, en worden rangscores gebruikt. De Kruskal-Wallistoets kan tevens gebruikt worden als de aanname van normaliteit wordt geschonden. Deze toets werkt met medianen.

Effectgrootte

Net als bij de andere statistische testen hebben we aan alleen een significant resultaat niet genoeg. We moeten ook weten of de resultaten in praktische zin van belang zijn. In het geval van de F statistiek is de r- familie van effectgroottes geschikt. In het geval van de ANOVA representeert de effectgrootte hoeveel van de variatie in de afhankelijke variabele kan worden toegeschreven aan een behandeleffect. Twee van de meest voorkomende statistieken zijn η² en ω².

Eta-kwadraat η²

SS_behandeling is een maat voor hoeveel van de observatieverschillen door de verschillende behandelingen tot stand komen. SS_totaal is de maat voor de verschillen in de complete dataset. Deze twee SS’s gedeeld door elkaar geven een percentage van de variatie door de behandeling:

η² = SS_behandeling / SS_totaal

Wanneer de sum of squares niet bekend zijn, kan eta-kwadraat ook anders uitgerekend worden:

η² = 1 / (1+ (df_error / (F x df_behandeling)))

η² gaat er vanuit dat de regressielijn door de gemiddelden van elke groep gaat. Dit is echter niet zo, waardoor de metingen biased zullen zijn. η² is de effectgrootte met de meeste bias.

Omega-kwadraat ω²

De omega-kwadraat is een goede maat voor het effect bij gebalanceerde designs (met gelijke n’s). Deze statistiek heeft minder bias dan η².

ω² = (SS_behandeling - (k-1)MS_error)/(SS_totaal + MS_error)

Post-hoc testen

Zoals eerder gezegd is het grootste voordeel van ANOVA (in vergelijking tot t-toetsen) dat verschillen tussen meer dan twee condities onderzocht kunnen worden. Als de nulhypothese verworpen wordt middels de F-ratio, betekent dat dus dat er een significant verschil bestaat. Maar waar zit dat significante verschil dan? Met post-hoc testen kan nagegaan worden waar de significante verschillen zitten. Post-hoc testen worden altijd na ANOVA gedaan. De nulhypothese moet eerst verworpen worden en er moeten drie of meer condities zijn om een post-hoc test te doen.

Middels post-hoc testen worden steeds twee condities met elkaar vergeleken, er worden dus paren van vergelijkingen gemaakt. Bij drie condities kunnen bijvoorbeeld µ₁metµ₂, µ₂met µ₃ enµ₁met µ₃vergeleken worden. Bij deze verschillende paren van vergelijkingen horen ook verschillende hypothesetesten om uit te vinden welke condities nou significant van elkaar verschillen. Het nadeel is echter wel dat de kans op een type-I fout met zoveel testen toeneemt.

(On)geplande vergelijkingen

Statistici maken vaak onderscheid tussen geplande en ongeplande vergelijkingen.

Een geplande vergelijking ontstaat wanneer een onderzoeker vergelijkingen maakt die specifiek van belang zijn voor de hypothesen van het onderzoek. Hij kan zich beschermen tegen de oplopende kans van een type-I fout door alfa te delen door het aantal geplande vergelijkingen. Als de onderzoeker gebruik maakt van een alfa van 5%, moet hij deze in ons geval dus door twee delen (omdat hij twee geplande vergelijkingen maakt). Uiteindelijk moet hij dus gebruik maken van een alfa van 2,5%.
Van een ongeplande vergelijking is sprake wanneer een onderzoeker geen vermoeden heeft over een effect en allerlei post-hoc testen uitvoert in de hoop een significant effect te kunnen vinden. Ook in dit geval moet de kans op een type-I fout beperkt worden. Dit kan middels de Tukey’s HSD test.

Tukey’s HSD test

Tukey’s HSD test wordt vaak gebruikt in psychologisch onderzoek. Door deze test kan een minimaal verschil tussen condities vastgesteld worden dat nodig is om een significant effect te vinden. Deze waarde wordt de honestly significant difference (HSD) genoemd. Deze waarde wordt vervolgens gebruikt om twee condities met elkaar te vergelijken. Als het gemiddelde verschil tussen deze condities groter is dan de vastgestelde HSD, dan kan geconcludeerd worden dat er een significant verschil tussen de condities bestaat. Deze waarde kan als volgt gevonden worden: HSD = q * √MSwithin / n. De waarde van q kan gevonden worden in de bijbehorende tabel. Om q te vinden moet een onderzoeker het aantal condities kennen (k) en de vrijheidsgraden die horen bij MS_within. De kleine letter n staat voor het aantal scores in elke conditie. Bij deze test moeten het aantal scores per conditie gelijk zijn.

Het gebruik van a priori contrasten

Bij MPC, de multiple comparison procedure, worden groepsgemiddelden vergeleken. Een MCP wordt gebruikt als er op zijn minst drie groepen zijn. Een contrast is een gewogen combinatie van de gemiddelden. Neem bijvoorbeeld de volgende hypothese: Zorgt het drinken van alcohol voor een meer verstoorde subjectieve perceptie van fysieke aantrekkelijkheid? De drie groepen hierbij zijn: geen alcohol drinken, weinig alcohol drinken, en veel alcohol drinken. A priori contrasten stel je op voordat je je onderzoek uitvoert. Dit is dus naar aanleiding van de verwachtingen die je hebt. Je kunt verschillende hypotheses opstellen.Een contrast is een combinatie van populatiegemiddelden in de vorm van Ψ= Σ . De coëfficiënten van ai tellen op tot 0. De standaardfout van c is: SEc = Σ . We toetsen de nulhypothese Ψ=0. We gebruiken hiervoor de t-toets: t= c/SEc. Ook maken we gebruik van de vrijheidsgraden voor de error (DFE) die gepaard gaan met : DFE = N – I. De alternatieve hypothese kan zowel eenzijdig als tweezijdig zijn. Het betrouwbaarheidsinterval voor Ψ is c± t*SEc.

Een vraag die je kan stellen is: Scoort de geen-alcohol populatie hoger dan de alcohol populaties (zowel weinig als veel)? Je kunt hierbij de volgende hypotheses opstellen:

H0 : µ1 = 0.5(µ2 + µ3). HA : µ1 > 0.5(µ2 + µ3).

Van deze hypothese maak je als volgt een contrast:

H0 : µ1 = 0.5(µ2 + µ3)
H0 : µ1 − 0.5(µ2 + µ3) = 0
H0 : µ1 − 0.5µ2 − 0.5µ3 = 0
ψ = µ1 − 0.5µ2 − 0.5µ3.

Dit is dus je uiteindelijke contrast. Contrastcoëfficiënten (ai’s): 1, -0.5, -0.5. Deze tellen inderdaad bij elkaar op tot nul, zoals de bedoeling is.

Als er meerdere contrasten zijn, wordt vaak vereist dat deze orthogonaal aan elkaar zijn. Dit houdt in dat de producten van deze contrastcoëfficiënten nul zijn als je de cross-producten bij elkaar optelt.

Stel dat contrast 1 de volgende contrastcoëfficiënten heeft : 1 1 -2
Contrast 2 heeft deze contrastcoëfficienten : 1 -1 0

Deze contrasten zijn orthogonaal want (1)(1) + (1)(-1) + (-2)(0) = 0

Access:

Public

1334 reads

Wat is het tweeweg ANOVA model?

ANOVA met meerdere factoren
Hoofdeffecten
Hypothesen
Toetsing
Formules
Effectgrootte voor ANOVA met twee factoren
De tabel voor een two-way anova

ANOVA met meerdere factoren

In de praktijk wordt gedrag beïnvloed door verschillende factoren die interactie vertonen. Om deze complexe effecten uit te zoeken, ontwerpen onderzoekers vaak onderzoeken met meer dan één onafhankelijke variabele. Kortom: onderzoekers manipuleren twee of meer variabelen om het effect op gedrag te observeren. Een design met meer dan één factor wordt een factorieel design genoemd. De ANOVA met twee factoren combineert meerdere hypothesen. Er moeten daarom ook meerdere hypothesetesten gedaan worden. Weer wordt er gewerkt met de F-ratio: verschillen tussen de steekproefgemiddelden/verschillen verwacht door toeval of de steekproeffout.

Voorbeeld

Je kunt geïnteresseerd zijn in de mate waarin licht en temperatuur invloed hebben op de snelheid van leren. Je kunt voor licht twee condities creëren: geen licht en normaal licht. Voor temperatuur kun je drie soorten temperaturen gebruiken: 10, 20 en 30 graden. Deze condities van de twee factoren moeten vervolgens gecombineerd worden. In totaal zijn er dan zes condities. Dit worden ook wel cellen genoemd, omdat de gecombineerde factoren in een matrix worden weergegeven. Iedere cel staat voor één van de combinaties van de twee factoren. Er is bijvoorbeeld een conditie van 20 graden en geen licht, maar ook van 30 graden en normaal licht. De onderzoeker is geïnteresseerd in drie dingen:

De verschillen in gemiddelden tussen de lichtniveaus.
De verschillen in gemiddelden tussen de temperatuurniveaus.
Verschillen in gemiddelden die ontstaan door een unieke combinatie van een specifieke temperatuur en een specifiek lichtniveau. Een voorbeeld is dat leren heel erg bevorderd wordt wanneer mensen onder normaal licht en in een ruimte met 20 graden moeten leren.

Hoofdeffecten

Factoren krijgen een letter - de factor licht krijgt bijvoorbeeld de letter A en de factor temperatuur krijgt de letter B. Het doel van een experiment is nagaan of deze factoren onafhankelijk of samen zorgen voor verschillen in gemiddelden.
Het gemiddelde van de conditie ‘normaal licht’ wordt gevonden door alle gemiddelde scores op te tellen van de drie temperatuurniveaus die gecombineerd zijn met de conditie ‘normaal licht’. Er zijn dus in totaal drie rijgemiddelden waar het gemiddelde van berekend moet worden. Het gemiddelde van de conditie ‘geen licht’ wordt gevonden door alle gemiddelde scores op te tellen van de drie temperatuurniveaus die gecombineerd zijn met de conditie ‘geen licht’. Er zijn ook in dit geval drie rijgemiddelden waarmee gerekend moet worden. Het verschil tussen deze twee gemiddelden wordt het hoofdeffect voor factor A genoemd.
Daarnaast zijn er drie kolomgemiddelden (van de drie temperatuurniveaus). Het gemiddelde voor de conditie ’10 graden’ wordt gevonden door de het gemiddelde te nemen van de combinatie van ’10 graden met ‘geen licht’ en ‘normaal ‘licht. Dit wordt vervolgens ook gedaan voor de andere twee temperatuurniveaus. De verschillen in gemiddelden tussen deze drie temperatuurniveaus vormen het hoofdeffect van factor B.

Hypothesen

Bij ANOVA met twee factoren moet getoetst worden of de hoofdeffecten A en B significant zijn. Hier zijn dus twee hypothesen aan verbonden.

Voor de factor A is de nulhypothese: µ_A1= µ_A2.Deze hypothese stelt dat er geen significant verschil bestaat tussen de conditie ‘geen licht’ en ‘normaal licht’. De alternatieve hypothese stelt dat er wel een significant verschil bestaat: µ_A1≠ µ_A2.
Voor factor B is er een vergelijking tussen drie temperatuurniveaus. De nulhypothese stelt: µ_B1= µ_B2= µ_B3. De alternatieve hypothese stelt dat ten minste één gemiddelde verschilt van de rest.

Interactie

Met ANOVA voor twee factoren is het ook mogelijk om het unieke effect van combinaties van factorniveaus te bekijken. Een interactie tussen twee factoren ontstaat wanneer de verschillen in gemiddelden tussen individuele niveaus (of cellen) anders zijn dan wat verwacht zou worden op basis van alleen de hoofdeffecten van de factoren. Een voorbeeld is dat mensen heel goed leren onder normaal licht én een temperatuur van 10 graden, terwijl dit effect niet bestaat wanneer er onder normaal licht of een temperatuur van 10 graden wordt geleerd. Ook voor het interactie-effect is er een hypothese bedacht.

De nulhypothese stelt dat er geen interactie is tussen factor A en B. Alle verschillen in gemiddelden tussen condities worden volgens de nulhypothese verklaard door de hoofdeffecten van de twee factoren.
De alternatieve hypothese stelt dat er een interactie tussen de twee factoren bestaat. De verschillen in gemiddelden tussen condities zijn volgens deze hypothese niet (alleen) het gevolg van de hoofdeffecten van de twee factoren.
De bijbehorende F-ratio is: verschillen in gemiddelden die niet verklaard worden door de hoofdeffecten/ verschillen die verwacht worden op basis van toeval of error.

In een grafiek kan een interactie-effect gezien worden. Op de X-as staan bijvoorbeeld drie temperatuurniveaus (10,20 en 30 graden). Op de Y-as staan de gemiddelde scores voor de afhankelijke variabele. Er ontstaan twee lijnen in de grafiek: één voor de temperatuurgemiddelden in combinatie met geen licht en één voor de temperatuurgemiddelden in combinatie met normaal licht. Als er geen interactie is, lopen de lijnen ongeveer op dezelfde manier. Er is in dat geval dus parallelliteit aanwezig. Als de lijnen niet parallel zijn is er juist sprake van interactie.

Toetsing

ANOVA met twee factoren bevat dus drie verschillende hypothesetesten. Allereerst wordt gekeken naar het hoofdeffect van A. Ook wordt gekeken naar het hoofdeffect van factor B. Ten slotte wordt onderzocht of er een interactie-effect bestaat tussen factor A en factor B.

Allereerst wordt de totale variantie opgedeeld in tussengroepsvariantie en binnengroepsvariantie.
Vervolgens wordt de tussengroepsvariantie opgedeeld in variantie van factor A, variantie van factor B en de variantie van de interactie.

Binnen elke conditie worden alle deelnemers hetzelfde behandeld. Verschillen binnen condities kunnen dus niet veroorzaakt worden door effecten van de conditie. De binnengroepsvariantie kan daarom alleen veroorzaakt worden door toeval of error. We hebben daarom drie soorten tussengroepsvariantie nodig (voor factor A, B en de interactie tussen beide) en we hebben een binnen- groepen variantie nodig. Elke van deze varianties wordt bepaald door een SS- waarde en een df- waarde. MS (mean square) = SS/df.

Formules

Het berekenen van de F-waarde voor het hoofdeffect van treatment A en het hoofdeffect van treatment B gaat op precies dezelfde manier als de berekeningen die uitgevoerd worden bij een one-way anova. Het verschil is dus dat je deze berekeningen nu voor twee verschillende treatments uitvoert. Als dit gedaan is, kun je aan de gang met de interactie tussen factor A en B: SS_AXB= SS_A- SS_B. De bijbehorende vrijheidsgraden zijn: df_AXB= df _{between treatments}- df_A– df_B. De MS voor de interactie vinden we als volgt: MS_AxB= SS_AXB/ df_AXB. De drie F-ratio´s zijn: F_A= MS_A/ MS_{within treatments}. F_B= MS_B/ MS_{within treatments}. Tot slot de F-ratio voor de interactie: F_AXB= MS_AXB/ MS_{within treatments}.

Effectgrootte voor ANOVA met twee factoren

Voor ANOVA gebruiken we de η² (eta-squared) om de proportie verklaarde variantie te berekenen.

Voor factor A is dat: η² = SS_A/( SS_total - SS_B- SS_AXB). Dit is hetzelfde als: SS_A/ (SS_A+ SS_{within treatments}).
Voor factor B kan de proportie verklaarde variantie ook gevonden worden: η² = SS_B/( SS_total – SS_A- SS_AXB). Dit is ook hetzelfde als SS_B/ (SS_B+ SS_{within treatments}).
Tot slot kan nog de proportie verklaarde variantie voor het interactie-effect berekend worden: η² = SS_AxB/(SS_total – SS_A- SS_B). Natuurlijk is de volgende formule ook goed: SS_AXB/ (SS_AXB+ SS_{within treatments}).

De tabel voor een two-way anova

Bron	Vrijheidsgraden	SS	MS	F
A	I-1	SSA	SSA/DFA	MSA/MSE
B	J-1	SSB	SSB/DFB	MSB/MSE
AB	(I-1)(j-1)	SSAB	SSAB/DFAB	MSAB/MSE
Error	N-IJ	SSE	SSE/DFE
Totaal	N-1	SST

Het gebruik van meer dan twee factoren

Het is mogelijk om meer dan twee factoren te gebruiken voor een onderzoek. Als er meer dan drie factoren worden gebruikt worden de resultaten echter onbegrijpelijk en zijn ze lastig te interpreteren. Het is daarom het beste om maximaal drie factoren te gebruiken.

Access:

Public

1957 reads

Wat is ANCOVA?

ANCOVA is een combinatie van regressieanalyse en ANOVA en kan gebruikt worden om een afhankelijke variabele van intervalniveau zo accuraat mogelijk te voorspellen aan de hand van een aantal onafhankelijke variabelen. Deze onafhankelijke variabelen worden factoren (nominaal niveau) en covariaten (intervalniveau) genoemd. De combinatie van deze verschillende soorten voorspellers maakt het mogelijk om een optimale voorspelling te doen in meer verschillende soorten situaties.

Het toevoegen van covariaten maakt het mogelijk om de effecten van factoren accurater en specifieker te testen door (1) vermindering van errorvariantie en (2) eliminatie van systematische bias (statistische controle).

Voorbeeld: Stel dat we willen onderzoeken of kleinere auto’s makkelijker te besturen zijn. We hebben drie verschillende autogroottes drie groepen bestuurders, met aanzienlijke verschillen in rijervaring tussen bestuurders. We kunnen individuen hier niet op matchen, dus nemen we aan dat de gemiddelde rijervaring tussen de groepen gelijk is. De afhankelijke variabele is het aantal stuurfouten en de covariaat is rijervaring. Wat we namelijk willen, is de prestaties van bestuurders onderzoeken onafhankelijk van hun rijervaring, maar puur wat we verwachten vanwege de grootte van de auto. We verminderen hiermee de error.

Het ANCOVA model
Pooled-within vs. totale regressie en correlatie
De F-toets in ANCOVA
Aangepaste groepsgemiddelden
Vermindering van errorvariantie
Assumpties
Limitaties van ANCOVA

Het ANCOVA model

Door het verdelen van de variantie in een binnengroeps- en tussengroepscomponent kunnen de f-toets en andere statistische data worden uitgerekend. Voor zowel ANOVA’s als ANCOVA’s proberen we Y-score zo optimaal mogelijk te berekenen voor alle individuen in de respectievelijke groepen. Bij ANOVA weten we alleen de groep waartoe een individu behoort, dus dient het groepsgemiddelde als schatting voor de score. Bij ANCOVA weten we daarnaast ook de individuele score op een covariaat, waardoor de voorspelling van Y preciezer kan worden. Het ANCOVA model wordt opgedeeld in een (1) ANOVA component en een (2) regressiecomponent.

Een ANOVA model heeft drie componenten:

Het grote gemiddelde: Ý.
De afwijking van de groep ten opzichte van het grote gemiddelde: α_j = Ý_j - Ý.
De error of afwijking van ieder individu ten opzichte van het groepsgemiddelde: e_ij = Y_ij - Y_j

Dit geeft het volgende model: Y_ij = Ý + α_j + e_ij. De variantie van Y wordt in een tussengroepscomponent (α_j) en een binnengroepscomponent (e_ij) opgedeeld. In het ANCOVA model wordt er een covariaat aan de formule toegevoegd:

Y_ij = Ý + α’_j + b_w(C_ij - Ć) + e’_ij.

Met deze formules proberen we de Y_ij score van elk individu i uit groep j zo goed mogelijk te voorspellen. Het verschil tussen ANOVA en ANCOVA is dat we bij ANOVA alleen weten tot welke groep het individu behoort, terwijl we bij ANCOVA ook de individuele score op de covariaat hebben. Daardoor is de voorspelling bij ANCOVA preciezer. De ANCOVA formule bestaat uit een variantieanalyse component (Ý + α’_j) en een regressie analyse component (b_w(C_ij - Ć)).

Pooled-within vs. totale regressie en correlatie

Het regressiegewicht van de covariaat wordt b_w genoemd, omdat het verwijst naar de voorspelling van Y door middel van C binnen elk van de groepen (het gepoolde binnengroepsregressiegewicht). De assumptie dat dit gewicht hetzelfde is voor alle groepen geldt alleen voor de populatie, niet voor de sample.

De F-toets in ANCOVA

De F-test in ANCOVA is gelijk aan die van ANOVA, alleen wordt er met aangepaste een ‘sum of squares’ en vrijheidsgraden gewerkt waarbij de overlap met de covariaat eruit gefilterd is. De totale aangepaste kwadratensom bestaat uit een tussengroepscomponent en een binnengroepscomponent: SS_T*= SS_b* + SS_W*. Met de volgende formule is de totale variantie van de afhankelijke variabele te berekenen: SS_T* = SS_T – r_YC²SS_T = (1- r_YC²)SS_T. r_YC²SS_T geeft aan hoeveel variantie de covariaat verklaart.

De binnengroepscomponent wordt als volgt uitgerekend: SS_W* = (1- r_YC(W)²r²_YC(W))SS_W. de tussengroepsvariantie kan dan makkelijk berekend worden: SS_B* = SS_T* - SS_W*. Voordat de F-waarde berekend kan worden, moeten we MS (mean squares) uitrekenen door de kwadratensom door de vrijheidsgraden te delen. MS_b* = SS_b* / k-1 en MS_W* = SS_W* / N-k-c.

Hierbij is k het aantal groepen, N de steekproefgrootte en c het aantal covariaten. Nu kan de F-waarde berekend worden: MS_b* / MS_W* met vrijheidsgraden df_b = k-1 en df_w = N - k - c.

Aangepaste groepsgemiddelden

Als de groepen verschillen op de covariaat wordt gewerkt met aangepaste gemiddeldes. Deze representeren de beste gok van het gemiddelde als de groepen niet verschillen op de covariaat. De covariantie-analyse bekijkt vervolgens of deze aangepaste gemiddelden significant van elkaar verschillen.

Het aangepaste groepsgemiddelde kan afgeleid worden uit de volgende formule: Ý_j = Ý + α’_j + b_w(C_i - Ć). Omdat Ý_j* = Ý + α’_j is het aangepaste groepsgemiddelde: Ý_j* = Ý_j - b_w(C_i - Ć). Als dit weergegeven wordt in een diagram, wordt het aangepaste groepsgemiddelde gevonden op de intersectie van de regressielijn van de groep met de lijn C = Ć.

Over het algemeen geldt dat groepen met een hoog gemiddelde op de covariaat na aanpassing een lager gemiddelde hebben op de afhankelijke variabelen. Groepen met een laag gemiddelde op de covariaat hebben echter een hoger gemiddelde op de afhankelijke variabele na aanpassing. Als de groep met de hoogste score de laagste score heeft op de covariaat worden de verschillen op de afhankelijke variabele dus groter, terwijl als deze groep ook de hoogste score heeft op de covariaat de verschillen kleiner worden, ze verdwijnen of het signaal wisselt. Het bovenstaande geldt alleen bij een positieve b_w. Als b_w negatief is geldt precies het omgekeerde.

Vermindering van errorvariantie

Zelfs als groepen niet verschillen op de covariaat, geldt nog steeds het tweede doel van ANCOVA (vermindering van errorvariantie). Het is echter niet goed om ANCOVA als een soort sprookjesoplossing te zien, omdat het toevoegen van één of meer covariaten kan leiden tot verminderde statistische power en moeilijkere interpretatie. Er zijn drie soorten situaties waarin interpretaties complex of irrelevant worden. In de eerste plaats kunnen de aangepaste groepsgemiddelden niet overeen komen met de onderzoeksdoelen. In de tweede plaats kan er een extrapolatie naar een werkelijkheid optreden die eigenlijk niet bestaat, of niets betekent. Tot slot kan een covariaat een deel van het effect elimineren.

Assumpties

Voor een ANCOVA gelden naast de algemene assumpties (normale verdeling, homogeniteit van varianties en onafhankelijke observaties) nog enkele speciale, aan regressie gerelateerde assumpties over de covariaat:

Geen error in de covariaat. Het effect van random error in de covariaat is een onderschatting van de relatie met andere variabelen. De meest belangrijke consequentie van error is een te kleine aanpassing in het berekenen van de aangepaste groepsgemiddelden, wat leidt tot incorrecte conclusies. Het is echter niet per definitie beter om nooit onbetrouwbare covariaten te gebruiken: soms is een incomplete aanpassing beter dan helemaal geen aanpassing.
Lineaire relatie met de afhankelijke variabele. Deze assumptie heeft betrekking op de gepoolde binnengroepscorrelatie tussen de covariaat en de afhankelijke variabele. De relatie tussen deze variabelen binnen elke groep kan het beste worden weergegeven met een rechte lijn, en niet met een curve. Schending van deze assumptie resulteert in een onderschatting van de relatie tussen de bovengenoemde variabelen, wat leidt tot een onjuiste aanpassing van groepsgemiddelden. Deze assumptie heeft betrekking op de populatie en kan geïnspecteerd worden met behulp van diagrammen, maar niet met een test voor non-lineariteit.
Parallelisme. Deze assumptie stelt dat het regressiegewicht b_w dezelfde waarde heeft in alle groepen. Deze assumptie kan grote gevolgen hebben voor de interpretatie van de resultaten. De assumptie van parallelisme houdt in dat er geen interactie bestaat tussen de covariaat en de behandeling. Het gebruik van een complexer ANCOVA model met afzonderlijke regressiegewichten en aanpassingen is geen geschikte oplossing, omdat het uitrekenen en de interpretatie dan moeilijker wordt.

Limitaties van ANCOVA

Het experimentele perspectief dat hier beschreven is, is niet de enige mogelijke benadering voor ANCOVA. Ook zijn er in dit hoofdstuk geen post-hoc procedures beschreven. Zoals eerder besproken is, moeten covariaten met mate worden gebruikt omdat ze een vrijheidsgraad kosten en moeilijk te interpreteren zijn. Ook zijn er beperkingen aan het bestuderen van al bestaande groepen.

Access:

Public

2208 reads

Wat zijn MANOVA (multivariate analysis of variance) en DA (discriminantanalyse)?

Soms willen onderzoekers de verschillen tussen condities van verschillende afhankelijke variabelen tegelijkertijd testen. T-toetsen en ANOVA-analyses kunnen alleen uitgevoerd worden als er sprake is van slechts één afhankelijke variabele. MANOVA (‘multivariate analysis of variance’) wordt gebruikt om de effecten van twee of meer condities op twee of meer afhankelijke variabelen te toetsen. MANOVA is redelijk overzichtelijk: we hebben een aantal afhankelijke intervalvariabelen (p) die we voorspellen uit één of meer nominale variabelen verdeeld over k groepen. Dit wordt multivariate variantie-analyse genoemd. We zijn bezig met de vergelijking van gemiddelden, maar we bekijken nu meerdere variabelen tegelijk in een onderlinge samenhang (= multivariaat). Als het gaat om één afhankelijke variabele gebruiken we een ANOVA, als het gaat om meerdere afhankelijke variabelen gebruiken we een MANOVA. Bij onafhankelijke variabelen maak je het onderscheid tussen 1 onafhankelijke variabelen en meerdere onafhankelijke variabelen in een-/ twee-/ drieweg- enzovoorts.

De werking van MANOVA
MANOVA gevolgd door een serie van ANOVA’s
Nadelen van DDA

De vraag is natuurlijk waarom we niet twee ANOVA’s uitvoeren voor beide afhankelijke variabelen afzonderlijk. Dit heeft twee redenen:

Soms hangen de gemeten afhankelijke variabelen met elkaar samen. Ze kunnen bijvoorbeeld onderdeel zijn van een algemeen construct. In zo’n geval kan een onderzoeker van mening zijn dat het beter is om de variabelen als een set te analyseren, in plaats van afzonderlijk.
Hoe meer testen er worden uitgevoerd, hoe groter de kans op een type-I-fout wordt. Om deze reden voeren we liever een ANOVA uit dan meerdere t-toetsen. Het is echter ook zo dat de kans op type-I-fouten groter wordt wanneer we t-testen of ANOVA’s uitvoeren op meerdere afhankelijke variabelen. Hoe meer afhankelijke variabelen we bestuderen, hoe groter de kans dat we significante verschillen vinden die het gevolg zijn van een type-I-fout in plaats het gevolg van de onafhankelijke variabele. Omdat MANOVA tegelijkertijd de verschillen tussen groepsgemiddelden over meerdere afhankelijke variabelen meet, blijft de alfa 5%. De kans op een type-I-fout neemt hierbij dan ook niet toe.

De werking van MANOVA

De nulhypothese van een manova is als volgt: het gemiddelde van groep 1 op variabele 1 is gelijk aan het gemiddelde van groep 2 op variabele 1 is gelijk aan het gemiddelde van groep k op variabele 1. Als de nulhypothese klopt, hebben alle groepen per variabele dus hetzelfde gemiddelde. In woorden is de nulhypothese: “er is geen enkele relatie tussen de set nominale variabelen en de set intervalvariabelen.” Voor elke afhankelijke variabele geldt dat de populatiegemiddelden gelijk zijn aan elkaar. k staat voor groep en p staat voor het aantal afhankelijke variabelen.

De nulhypothese kan worden getoetst met de multivariate toetsen Wilks, Pillai’s, Hotellings en Roys. Dit zijn allen zinvolle en goed verdedigbare manieren om de nulhypothese te toetsen. Welke de beste is, weten we niet. Ze geven echter niet altijd alle vier gelijke antwoorden. Als de multivariate toetsen niet significant zijn, handhaaf je de nulhypothese. Bij significante multivariate toetsen moet je de alternatieve hypothese aannemen en de nulhypothese verwerpen.

Tijdens de MANOVA voer je een multivariate versie van de F-toets uit. Wanneer je de alternatieve hypothese aanneemt weet je dat er op tenminste één afhankelijke variabele minstens één verschil is tussen groepsgemiddelden. Dit is nog niet heel veel informatie. Je moet dus verder zoeken. Dit kan op vier verschillende manieren, waaronder de Protected F benadering en de Descriptieve discriminant-analyse. Alleen deze twee worden besproken.

MANOVA gevolgd door een serie van ANOVA’s

Wanneer je een MANOVA gebruikt om jezelf te beschermen tegen type-1 fouten, gebruik je vaak na een significant resultaat meerdere univariate f-toetsen voor elke afhankelijke variabele afzonderlijk. Dit wordt ook wel de beschermde F-procedure genoemd. met een aangepast alfa niveau (d.m.v. Bonferroni correctie: α/p, p=aantal afhankelijke variabelen, waardoor het α niveau strenger wordt).

Er is echter ook kritiek op deze methode. De belangrijkste tegenargumenten zijn (1) onvoldoende bescherming tegen type-1 fouten en (2) er wordt geen rekening gehouden met de onderliggende correlaties tussen de afhankelijke variabelen. Om met deze beperkingen om te gaan is discriminantanalyse een geschiktere methode.

Assumpties protected-F benadering

Multivariate normaliteit van de errors: elk van de afhankelijke variabelen moet een normaal verdeling hebben voor de errors en is ook normaal verdeeld voor alle mogelijke combinaties van waarden voor de andere afhankelijke variabelen. Als geldt n > 20 per cel, hoef je je geen zorgen te maken wat betreft deze assumptie, want dan zijn de multivariate tests robuust.
Homogeniteit van de variantie-covariantiematrices: er moet sprake zijn van gelijke varianties én gelijke covarianties in alle groepen. Als de groepen ongeveer even groot zijn, heb je hier weinig last van (nmin / nmax < 1.5). Er bestaat ook een toets om deze assumptie te checken: de Box M toets. Deze is echter heel gevoelig en wordt zeer snel significant. Daarom toets je extra streng. Alleen als de p-waarde kleiner is dan .001 nemen we Box M serieus, want als dit het geval is, kunnen we het helaas niet gemakkelijk oplossen en hebben we dus een probleem. Het enige dat je hier kunt doen, is het nadrukkelijk in je verslag zetten. Je bent dus minder zeker over de uitkomst van de toets dan je zou willen, wat vooral van belang is bij waarden die net wel, of net niet significant zijn.
Onafhankelijke errors: de error van de ene persoon mag niets zeggen over de error van de andere persoon (onafhankelijk van tot welke groepen de personen behoren). Hier is geen standaard check voor, dus om de assumptie te checken moet je voornamelijk kijken naar de onderzoeksopzet.

Discriminantanalyse (DA)

Met Discriminantanalyse proberen we een set intervalvariabelen zo accuraat mogelijk te voorspellen op basis van verschillen tussen groepen. Bij DA kan de nadruk liggen op beschrijven van verschillen tussen groepen (DDA; vanuit het groepsperspectief) of op voorspellen van tot welke groep iemand behoort (PDA; vanuit individueel perspectief). PDA is het tegengestelde van MANOVA, terwijl DDA meer een uitbreiding is van MANOVA. Het enige verschil tussen MANOVA en DDA is dat de X en Y omgewisseld zijn. DDA is dus van belang in dit geval.

Discriminante functie variaten

Met behulp van discriminante functievariaten kunnen we een set van gecorreleerde afhankelijke variabelen in een nieuwe set omzetten. Hierbij worden de verschillen tussen groepen correct gerepresenteerd, maar de variabelen zijn niet langer gecorreleerd. Er worden lineaire combinaties gevormd van de afhankelijke variabelen, waarbij twee subscripts per gewicht worden gebruikt. Een discriminant functievariaat ziet er als volgt uit:

D_j = b_1jY₁ + b_2jY₂+ … + b_pjY_p.

Hierbij staat p voor het aantal afhankelijke variabelen, en j voor het variaat. De gewichten van de eerste discriminant functievariaat (D1) worden zo gekozen dat er een maximaal onderscheid kan bestaan tussen de k groepen. Bij de tweede en volgende discriminante functievariaten gebeurt dit ook, maar de functievariaten mogen niet met elkaar gecorreleerd zijn. Dit wil zeggen dat ze orthogonaal moeten zijn. Het maximum aantal discriminantfunctievariaten is of k groepen-1, of p. Hierbij moet je de kleinste kiezen. Na het opstellen van de discriminantfunctievariaten bepaal je de positie van groepen op de discriminantfunctievariaten. Voor elke groep op elke variaat vervang je hiervoor de Y’s voor in de formule van Dj door de groepsgemiddeldes.

Elke variaat heeft een eigenwaarde (λ_i): SS_b (i) / SS_W (i). De proportie verklaarde variantie van de variaat door de onderscheiding tussen de groepen heet de gekwadrateerde canonical correlatie en wordt door de volgende formule weergegeven: R_i² = SS_b (i) / SS_T (i) = $\frac{SS_b(i)}{SS_T(i)}$ λ_i / (1 + λ_i). De maximaal verklaarde variantie is gelijk aan het aantal afhankelijke variabelen p. Dus na het optellen van de gekwadrateerde correlaties van alle variaten kan je uit komen op een ∑_iR_i² van hoger dan 1. Door deze te delen door het aantal afhankelijke variabelen wordt de verklaarde variantie van de afhankelijke variabele berekend.

DA en PCA

PCA en DA verschillen in het optimalisatiecriterium dat gebruikt wordt om de gewichten te selecteren. Bij PCA probeert elke component zo veel mogelijk variantie van Y te verklaren, zonder rekening te houden met verschillen tussen groepsgemiddelden. Bij DA probeert elke discriminante functievariaat zo veel mogelijk verschillen tussen groepen te verklaren.

Het gebruiken van discriminante functievariaten heeft twee belangrijke voordelen vergeleken met het gebruik van de originele set van variabelen: (1) datareductie en (2) makkelijkere interpretatie. Als we gebruik maken van beide voordelen, kunnen we verschillen tussen groepen beschrijven (DDA). Ook kunnen we proberen de onderliggende dimensies te achterhalen, waartoe de groepsverschillen gereduceerd kunnen worden.

Nadelen van DDA

De belangrijkste nadelen van DDA zijn: (1) de resultaten zijn soms moeilijk te interpreteren en (2) de resultaten zijn meer descriptief dan confirmatief. Bovendien is DDA relatief gezien minder populair voor de interpretatie van MANOVA bij onderzoekers en journals (al is dit soms om de verkeerde redenen).

Access:

Public

1773 reads

Wat zijn Random- en Mixed-Effects Analysis of Variance Models?

Om het risico op een Type I fout zo klein mogelijk te houden bij ANOVA, moeten we het totale alpha-level controleren. Maar we moeten ook het onderscheidingsvermogen (power) (de kans om de een foute nulhypothese te verwerpen) vergroten. De omnibus F-toets kan dit totaal toetsen. Deze test wordt ook gebruikt in het ANOVA model. De een-factor ANOVA model heeft een onafhankelijke variabele of factor met twee of meer levels.

In het random-effects model, zijn in alle steekproeven de levels van de onafhankelijke variabele random genomen van de levels van de populatie. Hierdoor kunnen er generalisaties gemaakt worden over alle levels van de populatie.

In het fixed-effects model worden eerst de levels van de onafhankelijke variabele geselecteerd, waarna de onderwerpen (subjects) random worden toegewezen aan de levels van de onafhankelijke variabele. In sommige situaties kan de onderzoeker deze toewijzingen controleren, maar in andere situaties kan dit niet. Daarom moet hierin een verschil worden gemaakt. De analyse verschilt niet tussen de situaties, maar de interpretatie van de resultaten verschilt wel.

Bij een fixed-model ANOVA worden de behandelniveaus, of behandelgroepen, zorgvuldig geselecteerd en blijven deze gelijk wanneer het experiment wordt herhaald. Bij een random model worden de behandelniveaus door een willekeurig proces verkregen, en variëren deze dus per herhaling.

Gekruist design met random variabele
Het model

Gekruist design met random variabele

Soms zullen we een ontwerp hebben met een fixed factor en een willekeurige of random factor. Stel dat we willen testen of mensen sneller hoofdletters dan kleine letters herkennen. De lettergrootte is een fixed factor. Door een steekproef uit het alfabet selecteren we vijf letters die we gebruiken in het experiment (A, G, D, K, W). Deze variabele ‘letters’ is een random factor.

Omdat één van de factoren willekeurig is, zullen we bij een herhaling van het experiment andere letters selecteren en zullen de F waardes dus ook verschillen op basis van de letters die we selecteren. Een belangrijk feit hierbij is, dat het hebben van een random effect de test voor het fixed effect (in dit geval: Lettergrootte) verandert.

Om te laten zien welk effect random factoren hebben, moeten we kijken naar de verwachte mean squares. Deze worden weergegeven in tabel 18:

Tabel 18	Fixed	Random	Gemixt
Bron	A vast / B vast	A random / B random	A vast / B random
A	σ²_e + nbθ²_α	σ²_e + nσ²_αβ + nbσ²_α	σ²_e + nσ²_αβ + nbθ²_α
B	σ²_e + naθ²_β	σ²_e + nσ²_αβ + naσ²_β	σ²_e + naσ²_β
AB	σ²_e + nθ²_αβ	σ²_e + nσ²_αβ	σ²_e + nσ²_αβ
Error	σ²_e	σ²_e	σ²_e

Bij een fixed en een random variabele wordt de F test voor de fixed variabele:

Voor random variabele: E(F) = E(MS_b/MS_error) = (σ²_e + nbσ²_β)/ σ²_e

Voor interactie effect: E(F) = E(MS_AB/MS_error) = (σ²_e + nσ²_αβ)/ σ²_e

Voor fixed variabele: E(F) = MS_A/MS_AB = E(σ²_e + nσ²_αβ + nbσ²_α)/( σ²_e + nσ²_αβ)

Het model

In fixed modellen is er één ware effectgrootte. De verschillen in effectgrootte uit verschillende studies komt door random steekproeferror. Bij gedragswetenschappelijk onderzoek worden in onderzoeken vaak meerdere variabelen gemeten en afgewisseld. Het ene onderzoek zal meer vrouwen in de studie hebben dan het andere, of andere leeftijden, etc. Dat wil zeggen: we hebben vaak te maken met willekeurige/random modellen in plaats van fixed modellen. Als we dan effectgroottes gaan vergelijken, bestaat de meting per studie uit willekeurige error (zoals elke studie) maar er is daarnaast ook een verschil n effectgroottes door de aanwezigheid van bepaalde variabelen. We gaan er vanuit dat de ware effecten willekeurig en normaal verdeeld zijn rond een bepaalde waarde. Ons model voor de meta-analyse wordt:

Y_i = μ + τ_j + ε_ij

met μ het overkoepelende gemiddelde effect, τ het verschil tussen het ware effect in de studie en het overkoepelende effect en ε de steekproef error. We hebben dus te maken met variantie door τ én variantie door ε.

Access:

Public

1155 reads

Access:

Public

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check more of topic:

Statistics and Data analysis Methods

This content is used in:

Statistiek en methoden: samenvattingen, suggesties en tips van WorldSupporters

Going abroad?

Insure your way around the world

International expat insurances

Travel & Worldsupporter insurances (NL)

Study with summaries

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Spotlight: topics

Check the related and most recent topics and summaries:

Activities abroad, study fields and working areas:

Statistics and Data analysis Methods

This content is also used in .....

Statistiek en methoden: samenvattingen, suggesties en tips van WorldSupporters

Begrippenlijst bij het vak statistiek

Begrippenlijst Beschrijvende Statistiek

Samenvattingen per onderwerp bij Inleiding Statistiek

Wat is statistiek?

Welke verdelingen bestaan er binnen de statistiek?

Wat zijn de veelgebruikte symbolen in de statistiek? - Chapter 0

Summaries: home page for statistics, research and science

Statistics and research: home bundle

Check how to use summaries on WorldSupporter.org

Submenu: Summaries & Activities

Follow the author: Social Science Supporter

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics

Search a summary, study help or student organization

Select any filter and click on Search to see results