Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Image

Hoorcollege aantekeningen oms 1 blok 2

Deze samenvatting is gebaseerd op collegejaar 2012-2013. Bekijk hier ons huidige aanbod.

College 5 blok 2 dl 2 in pdf vanwege illustratie!

OMS, Mook, Hoofdstuk 8 en 9, College 1

Onderzoeksellende & experimenten met meerdere factoren

Inhoud college:

Soorten onderzoeksellende
- Omgaan met confounds
- Soorten comfounds en vaak voorkomende
- confounds in inventie
Validiteit in experimentele designs
Experimenten met meerdere factoren
- Factoriële designs
- Hoofdeffecten en interacties

Soorten onderzoeksellende: omgaan met confounds

Een confound is een externe factor die invloed heeft op de onafhankelijke variabele en daarme dus ook de afhankelijke variabele. Om te weten of er mogelijk confounds in een onderzoek zitten, moet je eerst de vraagstelling van het onderzoek weten, want misschien onderzoeken ze wel een confound. Als je de vraagstelling weet en op zoek wilt gaan naar confounds, kun je de methode van Mook gebruiken: Think it through. Je zoekt naar variabelen die een effect kunnen hebben op de onafhankelijke of afhankelijke variabele.

Soorten comfounds en vaak voorkomende

De meest voorkomende confounds zijn individuele verschillen en procedurele confounds. Individuele verschillen zijn confouds die komen omdat mensen allemaal verschillend zijn en andere eigenschappen hebben. Procedurele confounds is wanneer de manipulatie van de onafhankelijke variabele extra effecten creëert. Individuele confounds kan je oplossen door random assigment, oftewel aselecte toewijzing. Procedurele confounds kan je op drie manieren oplossen. Ten eerste check it out. Je checkt of de variabele mee varieërd (en dus dat er inderdaad een confound is) en dan geef je dat aan in je onderzoek. Take it out, dan ga je het experiment aanpassen door de confound weg te halen, helaas creëert dat vaak weer andere effecten. Ten slotte kan je ook substract it out doen, dan doe je de confound in beide condities.

Confounds in inventie-onderzoek

Inventie-onderzoek is onderzoek waarbij een controlgroep niet mogelijk is. Bijvoorbeeld als je onderzoek doet naar milieuwetgeving. Je krijgt dan te maken met drie extra problemen:
- spontaan herstel: iets kan spontaan veranderen
- aspecifieke effecten:  extra effecten die niks met het onderzoek te maken hebben die komen door inventie.
- regressie naar het gemiddelde:  in de tijd kunnen eigenschappen veranderen. Dat zie je vooral bij extreme scores. Als je een extreem hoge IQ hebt, dan is de kans dat je op de volgende test lager scoort vrij groot.

Validiteit in experimentele designs

Validiteit is de vraag of je wel echt onderzoekt wat je wilt onderzoeken. Die kan je vergroten door in je onderzoek een niet te grote vraag te stellen, bijvoorbeeld hoe werkt een oog? Je kan beter met kleine stapjes onderzoeken, bijvoorbeeld hoe komt licht een oog binnen. Bij een experimentele design heb je verschillen soorten validiteiten:
Interne validiteit is de validiteit van het onderzoek zelf. Je kijkt naar confounds en of het effect wel groot genoeg was. Constructvaliditeit is de vraag of je de juiste definities of constructen hebt gebruikt van wat je wilt onderzoeken. Externe validiteit is de vraag of het wel generaliseerbaar is naar andere situaties en populaties. Ecologische validiteit is de vraag of het in het echt zou kunnen gebeuren.

Experimentele designs met meerdere factoren

Een manier om meerdere onafhankelijke variabelen te gebruiken is het factoriaal design. Je kijkt dan of het effect van een onafhankelijke variabele, effect heeft op de onafhankelijke en afhankelijke variabelen in je onderzoek.  Je wilt meten wat het effect is van het luisteren naar klassieke muziek (onafhankelijke variabele) op IQ (afhankelijke variabele), en vervolgens kijk je of dat effect veranderd per sekse (andere onafhankelijke variabele). Hier gebruik je dus twee onafhankelijke variabelen of factoren. Daarom noemen ze dit een 2 bij 2 factoriaal design. Een hoofdeffect is wanneer een van de onafhankelijke variabele een invloed heeft. In ons voorbeeld zou als klassieke muziek een effect heeft op IQ, een hoofdeffect zijn. Interactie-effect is wanneer de tweede onafhankelijke variabele invloed heeft: Sekse verschillen veranderen het effect van klassieke muziek op IQ. Als meisjes naar klassieke muziek luisteren is het effect op IQ dus anders dan als jongens naar klassieke muziek luisteren.

OMS, Mook, Hoofdstuk 10, College 2

Psychologie en het individu

Individu vs groep

Typische psychologie onderzoekt groepen mensen. Ze focussen op gemiddelden, kijken naar between-subjects designs en gebruiken factoranalyse op individuele verschillen (The big five, persoonlijkheidstrekken, zie hoofdstuk 15 Grey). Nomothetisch onderzoek zijn wetmatigheden in grote groepen. Dat wordt vaak in contrast getrokken met ideografisch onderzoek, beschrijving van een persoon. Zulk onderzoek is vaak vaag.

Belangrijk om te onthouden is dat je niet per se grote groepen mensen nodig hebt, om een vraagstelling goed te beantwoorden. Je kan een vraagstelling goed beantwoorden door een antwoord te hebben dat goed aansluit op de vraagstelling.
Voorbeeld daarvan is Ebbinghaus, die bekent staat als uitvinder van de vergeetcurves. Hij ging zelf woordjes leren en de resultaten werden uiteindelijk de vergeetcurves. Die zijn dus gebaseerd op onderzoek van een persoon.
Onderzoek op individueel niveau hoeft niks te zeggen over groepsniveau, maar onderzoek op groepsniveau hoeft ook niet per se iets te zeggen over individueel niveau.

Hoe onderzoek je een individu?

Je kan een individu onderzoeken op drie manieren. Ten eerste is er de time-series designs, ten tweede de ABAB of reversal designs en ten slotte de multiple baseline designs. Time-series is dat je voor en na de manipulatie de afhankelijke variabele meet. Meestal is er een voor- en nameting, maar soms kan je ook drie metingen voor de manipulatie doen en drie erna. Patiënten dragen dan bijvoorbeeld een apparaatje mee, en dan gaat op een willekeurig moment dan ding piepen en dan moeten ze wat vragen op dat apparaatje beantwoorden. ABAB of reversal design is dat je eerst de grondtoestand (baseline) meet, vervolgens manipuleer je en meet je nog een keer. Vervolgens haal je de manipulatie weg en meet je nog een keer. En ten slotte nog een keer de manipulatie (en meten). Multipele baseline design is een time-series design maar dan over meerdere proefpersonen. Het voordeel van onderzoek naar het individu ten opzichte van naar een groep is dat je meer controle hebt, systematisch kan werken en hypothesen beter kan toetsen.
Als je meerdere malen meet hoe de eigenschappen van een patiënt zijn gedurende een bepaalde tijd, noem je dat een tijdreeksline analyse. Een bepaalde eigenschap kan dan bijvoorbeeld meer afhankelijk zijn van de tijd erna dan ervoor. Dat betekend dat als je bijvoorbeeld depressief bent, hoe je je voelt meer afhankelijk is van hoe je je in de toekomst gaat voelen dan hoe je je ervoor hebt gevoeld. Afhankelijkheid tussen tijdstippen noem je de sequentiële afhankelijkheid.
Je kan naar meerdere eigenschappen kijken, ook wel multivariate. Dit betekend letterlijk meerdere (onafhankelijke) variabelen. Als je meerdere factoren hebt die op een tijdstip een bepaalde eigenschap beïnvloeden of bepalen, noem je dat multiple indicator. Een bekend voorbeeld is de Five-factor model. Of je extravert bent wordt bepaald door een hoop factoren.

OMS, Agresti, Hoofdstuk 9, College 3

Hypothesetoetsen

Inhoud college:
- Hypothesetoetsen redeneren
- Hypothesetoets stappen
- Goede en foute beslissingen

Hypothesetoetsen redeneren

De twee belangrijke vormen van redeneren zijn deductief en inductief redeneren.
Deductief redeneren is een noodzakelijke waarheid. Als A dan B. Als A er dan vervolgens is, kunnen we concluderen dat B er ook is. Inductief is een waarschijnlijkheid. De zon komt morgen op, kans is heel groot maar niemand weet het 100% zeker.
Stel je hebt als hypothese als A dan B. Als A niet waar aan B blijkt te zijn dan is de hypothese dus niet waar. Kortom H0 is wanneer A=B, dat noem je de hypothesetoets. Als wat geobserveerd is A groter is dan B, dan kun je concluderen dat H0 (de nulhypothese) niet waar is.
Als we de A en B vervangen voor proporties dan krijgen we:
Een nulhypothese H0 is wanneer p0 = p. Nulhypothese in een experiment is wanneer de kans dat je gevonden voorwaarde puur random (dus door kans) is bepaald, en niet doordat je een manipulatie in een experiment hebt gebruikt.

Hypothesetoets stappen
Om een nulhypothese  te vinden gebruik je een aantal stappen.
1) Assumpties: Bepaal wat voor data en statistiek je gebruikt met drie vragen: proportief of gemiddelde? Random sample? Genoeg waarnemingen zodat je centrale limietstelling mag gebruiken?
2) Hypothesen: Bepaal of je wilt weten of je een eenzijdige toets wilt gebruiken ( gevonden kans is groter of kleiner dan nulhypothese). Een tweezijdige toets is waneer de gevonden kans zowel een bepaalde hoeveelheid groter als kleiner is dan de nulhypothese.
3) Test statistics (toetsingsgrootheid): Bepaald de populatiegemiddelden/proporties, bereken standaardafwijkingen en z-scores/t-scores.
4) P-value: kijk hoeveel z-scores of t-scores de gevonden waarde (p) afwijkt van p0. En bepaal daarmee de P-waarde, de kans dat de gevonden waarde afwijkt van p0.
5) Conclusie: is de kans significant (moet je de nulhypothese verwerpen? Meestal moet dat bij 5%, afhankelijk wat je zelf wilt. Wetenschappers hebben dus meestal 5% aangehouden). Als je nulhypothese verwerpt betekend niet dat die niet waar is, alleen dat de kans na vaak herhalingen van de proef klein is.

Goede en foute beslissingen

Soms is de nulhypothese waar, maar verwerp je hem statistisch. Dat noem je type 1 fout en dat is gelijk aan α. Soms verwerp je de nulhypothese niet, terwijl je dat wel zou moeten doen. Dit noem je een type 2 fout en is gelijk aan β. Als je de nulhypothese terecht verwerpt, dan noem je dat power en dat is gelijk aan 1- β.

OMS, Agresti, Hoofdstuk 10, College 4

2 groepen vergelijken

Inhoud college:
- Overzicht intervallen en toetsen
- Onafhankelijke steekproeven (proporties)
- Afhankelijke steekproeven

Overzicht intervallen en toetsen

Wanneer je met data werkt, en daar statistiek op wilt los laten, moet je eerst weten wat voor data het is: kwantitatief of categorisch en afhankelijk of onafhankelijk. Per mogelijkheid welke verdelingen je gebruikt:
Onafhankelijk categorische variabelen: z-verdeling ofwel z-scores.
Afhankelijke categorische variabelen: z-verdeling voor nulhypothese, t-verdeling voor betrouwbaarheidsintervallen.
Onafhankelijke kwantitatieve variabelen: t-verdeling ofwel t-scores.
Afhankelijke kwantitatieve variabelen: t-verdeling ofwel t-scores.
Alleen bij afhankelijke categorische variabelen maakt het uit of je de nulhypothese of een betrouwbaarheidsinterval gebruikt, bij de rest staat het ongeveer vast wat je gaat gebruiken.

Onafhankelijke steekproeven (proporties)

We kijken hier naar onafhankelijke steekproeven, en we nemen daarbij als voorbeeld proporties.
Je kan zowel een betrouwbaarheidsinterval als een nulhypothese erop los laten. Ze verschillen iets: een nulhypothese kijkt in hoeverre twee groepen wel of niet gelijk zijn, betrouwbaarheidsintervallen kijken juist naar de verschillende waarden dat de proporties kunnen aannemen.
Bijvoorbeeld P1=0.55, P2=0.51. n1 = 100 n2=100 
Nulhypothese:  Voor se0 hebben we een andere formule: wortel p(1-p) (1/n1)+(1/n2).
Nulhypothese moeten we alles als één groep behandelen, dus gemiddelde proportie is 0.53. invullen in de grafiek geeft se=0.035. z = (P1 -P2)-0/se0= 0.04/0.035 = 1,143. Vervolgens is P 2*1,143 want het is tweezijdig=2,286. Dat is dan 0,8729. Aan beide kanten zit dan 0,1271*2 = 0,2542. Dat is een hoger significantieniveau dan 0,05, dus de nulhypothese gaat niet op.
Betrouwbaarheidsintervallen:
Se = wortel (se1 in het kwadraat + se2 in het kwadraat). Dat wetend vullen we in krijgen we se=0.05. (P1 -P2)+/- 1,96*se = (0.55-0.51)+/- 1,96*0.05 = -0.058 tot 0.048 bij een 95% betrouwbaarheidsinterval.
Voor kwantitatieve variabelen geldt precies hetzelfde, alleen is se dan wortel (variantie1/steekproef1)+(variantie2/steekproef2)) .

Afhankelijke steekproeven

Bij afhankelijke steekproeven doe je in het principe op dezelfde manier als bij onafhankelijke steekproeven. Er zijn twee verschillen:
1) Bij kwantitatieve betrouwbaarheidsinterval: gebruik sd = s/wortel (n) in plaats van Se = wortel (se1 in het kwadraat + se2 in het kwadraat). Bij categorisch gebruik je voor se de computer (te ingewikkeld)
2) Bij hypothesetoetsen hoef je de grootheid niet te weten hoe je het werkt. Alleen dat het bestaat, want het komt weinig in wetenschapelijke literatuur voor. Docent gaf aan dat je het beste erover in je boek kan lezen.

OMS, Mook, Hoofdstuk 12, College 5

Inhoud college:
- Regressie en correlatie
- Model en modelpassing
- Hypothesetoetsen bij regressie
- Predictie-interval y en betrouwbaarheidsinterval
µY

Regressie en correlatie

We zullen even een korte samenvatting geven van regressie in hoofdstuk 3. Regressie is het voorspellen op basis van informatie. ŷ=a+bx is de formule van regressie. Regressie is voorspellen op basis van informatie.

Model en modelpassing

Een rechte lijn ŷ=ax +b beschrijft relatie tussen x en gemiddelde y. Populatiemoddel hiervan is µY=αx+β. Zoals jullie waarschijnlijk onthouden hebben uit hoofdstuk 3 is de residu y- ŷ. Dat kunnen we gebruiken bij het vergelijken van regressie met normale gemiddelde. Is regressie beter dan het gemiddelde? Dan moet je kijken of het residu kleiner is bij regressie dan bij gemiddelde. Je kijkt dan of de spreiding ronde het gemiddelde groter is dan bij de regressielijn.

Hierbij de samenvatting. Je gebruikt Residual sum of squares (RSS) dus om het residu van de regressie lijn ŷ=ax +b te beschrijven. De Tot sum of squares gebruik je om het residu bij gemiddelden uit te rekenen. De formule daarboven kijkt hoe groot het aandeel van regressie is bij het totaal. Dit totaal noem je de proportie verklaarde variantie.

Hypothesetoetsen bij regressie

Hypothesetoetsen kan je gebruiken om de hellingscoefficiënt te bekijken. Elk punt op de regressielijn is namelijk eigenlijk een normaalverdeling, en dat punt op die lijn is het gemiddelde. Je kan daar dus een hypothesetoets of betrouwbaarheidsinterval (zie volgende paragraaf) bekijken. Zoals je weet maakt een hypothesetoets vijf stappen, en we gaan nu kijken hoe de vijf stappen eruitzien als je het toepast op regressie.
1) Assumpties: lineare relatie tussen x en y, random sampling en iedere X is Y in populatie normaal verdeeld met dezelfde standaarddefiatie.

2) H0 : β = 0 en HA : β ≠ 0
3) t = b/se (se is altijd gegeven op de computer)
4) P-waarde tweezijdig met n-2
5) verwerp H
0 indien P

Predictie-interval en betrouwbaarheidsinterval

Een predictie-interval gebruik je om van een individu waarden te kunnen geven die 95% van de waarnemingen weergeven. Bij betrouwbaarheidsinterval wil je iets kunnen zeggen over de gemiddelden: na een hoop steekproeven moet 95% van de gemiddelden in de betrouwbaarheidsinterval liggen. Je gebruikt de standaarddeviatie s bij verdelingen die te maken hebben met regressie, en je krijgt s met de formule:
Bij het predictieinterval is ŷ ± 2s, bij betrouwbaarheidsinterval is het ŷ ± (s/wortel n).

 

 

OMS, Mook, Hoofdstuk 11, College 6

Associaties tussen categorische variabelen

Inhoud college:
- Conditionele verdeling en onafhankelijkheid
- Toets op onafhankelijkheid

Let op: De docent heeft aangegeven dat toetsingsonafhankelijkheid met waarschijnlijk df 1 op de toets komt (zie deze aantekeningen wat dit inhoud).

Conditionele verdeling en onafhankelijkheid

Conditionele kansen van mogelijke combinaties van de waarde van een variabele vormen samen de contionele kansverdeling. De conditionele kansverdeling is onafhankelijk wanneer de waarden bij verschillende condities gelijk blijft, afhankelijk als dat veranderd.
Y X Y X
N 10 30 N 15 30
T 10 30 T 10 20

Linksboven zie je onafhankelijke: maakt niet uit of je N of T hebt, de verhoudingen blijven even groot. In de andere grafiek verschillende de verhoudingen onderling, en daarom is het afhankelijk (De N, T, Y en X zijn willekeurig gekozen, het gaat erom dat je begrijpt dat de verhoudingen verschillen).
Belangrijk om in je achterhoofd te houden is wat we in hoofdstuk 5 hebben geleerd. Als P(A) en P(B) onafhankelijk zijn, dan P(A en B) = P(A) * P(B).

Toets op onafhankelijkheid

Om te testen of een toets onafhankelijk is heb je bovenstaande formule nodig (P(A en B)= P(A)* P(B)). Die gebruik je in de zogenaamde chi-kwadraat toets om onafhankelijk te toetsen. Die gaat als volgt:
1) Assumpties: je neemt aan dat de data’s 2 categoriale variabelen hebben, ze random verdeeld zijn, en er per cel minimaal 5 waarnemingen zijn (Een cel is P(A) of P(B). Wat zeg maar in de vakjes staan in zo’n kruistabel).
2)
H0 : variabelen zijn onafhankelijk: P(A en B) = P(A) * P(B)
H
A: variabelen zijn afhankelijk
3) Toetsingsgrootheid: X² =
(geobserveerde celfrequentie – verwachte celfrequentie)²/verwachte celfrequentie. De verwachte celfrequentie is (rij totaal) * (kolom totaal) / steekproefgrootte. Dat is afgeleid van de formule P(A en B) = P(A)* P(B), maar die afleiding hoef je niet te kennen. De geobserveerde celfrequentie is de frequentie die je in de de cel zelf ziet staan, die gebruik je dus niet bij de verwachte celfrequentie.
4) P-waarde voor X². X² noem je chi kwadraat en is verdeeld met df = (r-1)*(c-1). R staat voor rijen, c voor kolommen. Vaak gebruik je een twee kolommen en twee rijen, dus dan heb je (2-1)*(2-1)=1 = df. Je krijgt een tabel, waarbij je gegeven X² en df kan opzoeken wat dan P moet zijn (staat in Statistics helemaal achterin.
5) Conclusie: verwerp P >
α. Waarbij α een zelf gekozen grens is, en P uitgerekend is in bij de vierde stap.

 

College 1 blok 2 deel 2

Replicaties

Inhoud colleges:
- Bewust versus onbewust beslissen
- Verschillende soorten validiteiten
- Replicatieonderzoek
- Meta-analyse en publication bias

Bewust versus onbewust beslissen

Bewuste werkgeheugen is beperkt en onbewust heeft een grote capaciteit. Als je de voors en tegens afweegt, dan gaat dat beter in het onbewuste.

In het college hebben we gekeken naar een onderzoek waar gekeken wordt naar bewust versus onbewuste beslissingen. Bijvoorbeeld bij auto’s: kiezen we onbewust een betere auto dan bewust? Hoewel uit het onderzoek bleek dat onbewust beter was, bleken er wat confounds te zijn. Hoe konden ze bijvoorbeeld selecteren wat de beste auto was, want voor de een is een volkswagen beter dan een sportwagen.

Verschillende soorten validiteiten
Als je onderzoek doet moet je naar een aantal factoren kijken: Is het effect causaal (interne validiteit), is er een significant verschil (geen obscuring factors)? Constructvaliditeit: zegt het effect iets over de achterliggende constructen? Externe validiteit: kunen we het effect generaliseren?

Er zijn een aantal eisen voordat je ies mag generaliseren:

- andere afhankelijke variabelen

- andere populaties

andere onafhankelijke variabelen

- andere situaties

Er zijn twee modellen om erover na te denken:

1) generalisatiemodel: per experiment kijk je of het generaliseerbaar is: telkens moet je kijken in je experiment of alles representatief is voor de populatie.

2) theoretisch model: we hebben een effect, en dat laat zien dat het effect hier kan optreden. Aan de hand van theorie voorspellen we. Dus dan ga je generaliseren door middel van een theorie die je toetst. 

Replicatieonderzoek

Er zijn verschillende soorten replicatie

- directe replicatie: helemaal hetzelfde onderzoek

- systematische replicatie: kleine aanpassingen in het onderzoek ten opzichte van eerder ondezoek

- conceptuele replicatie: een ander experiment dat gaat over hetzelfde algemene principe.
 

Meta-analyse en publication bias

Significante resultaten zijn makkelijker te publiceren dan niet significante resultaten:  mensen worden nou eenmaal vrolijker van significante resultaten. Dat kan leiden tot de zogenaamde publication bias: er worden alleen maar onderzoeken met significante resultaten gepubliceerd, wat voor een vertekend beeld zorgt voor wat we precies weten.
Bij een onderzoek kijk je naar de effect groote: hoever zit het gemiddelde van je manipulatie af van de nulhypothese. Een nulhypothese is echter ook maar een kans. Dus zelfs als je onderzoek statistisch significant is, hoeft dat nog niet te zeggen dat het waar is. Om ook de niet-gepubliceerde onderzoeken mee te nemen kan je het beste meta-analyse uitvoeren. Je gaat dan kijken naar heel veel verschillende onderzoeken in een onderzoek.

De sterkte van je toets is afhankelijk van: steekproefgrootte, effect grootteen significatie niveau.

Het gebruik van hypothesetoetsen en significantieniveau’s is daarom niet onomstreden. Voorstanders van de zogenaamd P

College 2 blok 2 deel 2

Ethiek

Dit college kwam de docent meer dan een half uur te laat. Op blackboard stond namelijk dat we vrijdag les zouden hebben (een foutje van de webbeheerder van blackboard) waardoor de docent dacht dat we op vrijdag les zouden hebben. Op een gegeven moment is hij er blijkbaar achter gekomen dat hij hoorcollege zou moeten geven, en is daarom uiteindelijk toch nog op komen dagen. Vele studenten waren echter al weg gegaan omdat hij een half uur te laat was, daarom besloot hij dit college te wijden over Diederik Stapel. Ik zou kort vertellen een situatieschets geven. De kans is dus vrij klein dat dit op het tentamen komt, omdat vele studenten al weg waren gegaan en het hoorcollege hebben gemist omdat de docent te laat was gekomen.

Diederik Stapel

Diederik Stapel was een hoogleraar aan de universiteit van Tilburg. Hij deed sociale psychologie. Hij vervalste lange tijd gestructureerd onderzoeksresultaten. Hij verzon zijn gegevens.
Om het echt te laten lijken, liet hij bijvoorbeeld assistenten papieren surveys en onderzoekvragen naar zijn auto brengen, reed weg en gooide het in de sloot. Hij werkte vaak samen met jonge studenten, die hem vertrouwden. Deze jonge studenten, die onder Stapel zijn gepromoveerd, verliezen hierdoor ook hun status en titel.
Afgelopen december kwam dus naar buiten dat hij langdurig fraude had gepleegd. Dit was een grote schok voor de wetenschap. In de wetenschap is het met name een beroep doen op vertrouwen, want vaak kan je niet alles controleren, wat nu maar weer blijkt. De consequenties zijn dus heftig, omdat een groot deel van de onderzoeken dus niet klopt, en ook zijn vele jonge studenten de dupe ervan geworden. Onderzoekscommisies, die zijn onderzoeken onderzocht hebben, noemden het gedrag van Stapel machtmisbruik en een schande voor de wetenschap.

College 3 blok 2 deel 2

Multipele regressie

Donderdag krijgen we alleen hoofstuk 14 want die is heel belangrijk. De extra opgaven komen volgende week. In hoofdstuk 14 gaan we leren hoe je een tabel output moet lezen, en dat is heel belangrijk.
Vandaag gaan we het hebben over kwantitatieve variabelen. Die hebben een bepaalde correlatie, die we oplossen met een t- of F-verdeling. Dat laatste gaan we vandaag bespreken, en komt donderdag dus terug in hoofstuk 14.

Inhoud college:
- Multipele regressie
- Multipele correlatie R en R²
- Toets op R2, alle predictoren
- Toets op helling, enkele predictor

Multipele regressie

Tot nu toe hebben we alleen bivariate regressie gehad (met twee variabelen). Y=a+bx. Je hebt dan 1 onafhankelijke en 1 afhankelijke variabelen. Je kan echter meerdere variabelen toevoegen zodat je een betere voorspelling kan maken. Dat noem je multipele regressie. Dat ziet er bij drie afhankelijke variabelen zo uit: µ = α + β1x1 + β2x2 + β3 x3 .
Je kan een scatterplot of correlatiematrix (een schema met de verschillende correlaties) kijken of er een samenhang is tussen een predictor (een bepaalde x) en µ. Als er geen samenhang is, kan je de predictor direct weggooien. Om te weten of er voldoende samenhang is, om de predictor mee te nemen in multipele regressie, doe je R².

Multipele correlatie R en R²

Multipele regressie R is de correlatie tussen geobserveerde waarde y en de voorspelbare waarde y. Verklaarde variantie is R². Met de verklaarde variantie R² beoordeel je dus of er voldoende samenhang is. Eigenschappen van R²:
- R² ligt tussen 0 en 1
- R² = 0 is slecht, R² dicht bij 1 is goed.
- R² = 1 betekend dat alle residuen 0 zijn en daarom heb je bij elke waarde van x een perfect voorspelling van µ.
- Als je meer predictoren toevoegd wordt R² hoger of gelijk, maar hij kan niet afnemen. Als je meerdere onnodige predictoren toevoegd, wordt je daar later op gestrafd.
De hellingscoëfficiënt β is afhankelijk van verschillende predictoren want de hellingscoëfficiënt verschilt bij elke waarde van een predictor.

Toets op R², alle predictoren

Nu gaan we kijken of R² goed gen oeg is, om een predictor bij multipele regressie mee te nemen.
Zoals we in vorige hoofdstukken hebben gezien, is R² = Regression Sum of Squares / Total Sum of Squares, oftewel R² = RSS/TSS. Als we nu beide delen door bepaalde gegeven vrijheidsgraden, krijgen we een zogenaamde F-verdeling. F = (RSS/df1)/(TSS/df2). Df1 en df2 worden in een som altijd gegeven.
Als je Sum of squares hebt, en je deelt dat door een df, dan noem je dat Mean Square. Je krijgt daarom F = Regression MS / Residual MS. (Niet delen door Total MS, want F staat voor R-1. De clue is dat je niet hoeft te weten waarom het zo is, maar ga er maar vanuit dat het zo is en onthoud de formules. Ik heb het aan de docent gevraagd en die zei dat het onbelangrijk is en dat we er eigenlijk niet bezig mee moeten houden. Als je erg geïnteresseerd bent, kun je wiskunde gaan studeren red.).
De F-verdeling heeft dus twee vrijheidsgraden.

Df1 = aantal predictoren. Df2 = n-aantal predictoren-1
In een tabel in het boek of gegeven op het tentamen kan je met die vrijheidsgraden vervolgens kijken of het uitgerekende F-waarde boven de standaard F-waarde bij α=0.05 valt.

Toets op helling, enkele predictor
Er is nog een andere manier om te kijken of er geen samenhang is tussen de predictoren: bij elke predictor doe je een t-toets op de helling. Hypothese is dan H0: β1 =0 en Ha: β1 niet gelijk aan 0.
Toetsingsgrootheid t=b1 / se.
Als de t-waarde stijgt, dan daalt de P, en dan kan je de nulhypothese verwerpen.
Kortom, je gebruikt dus gewoon de t-toets die je hebt geleerd in hoofdstuk 8. Je moet er nog wel telkens van uit gaan dat er een linieare relatie is tussen de variabelen, check dus wel altijd het scatterplot.

College 4 blok 2 deel 2

Anova

Vandaag komt alles samen wat je hebt geleerd in de afgelopen hoofdstukken, we gaan namelijk praten over variantie analyse, wat ook wel anova wordt genoemd.
1. Variantieanalyse: basisidee en berekening
2. Follow up van Anova.

Voor Anova gebruik je de onafhankelijke categorische variabelen of afhankelijke variabelen van kwantitatieve variabelen.

Variantieanalyse: basisidee en berekening

Anova is een manier om groepen te vergelijken. Je krijgt als je Anova doet 1 uitkomst, waarvan je direct kan zeggen of er groepen zijn die verschillen van elkaar. In vervolg onderzoek kan je dan kijken welke twee groepen verschillen. Anova gaat in principe in vier stappen:
1. Omnibus toets op verschil tussen alle groepen. Je gaat dan dus alle gegevens van alle groepen verzamelen en uitrekenen, vandaar omnibus.
2. Je kijkt naar hoofdeffecten en interacties (volgend college aan bod).
3. Simepele effecten: je gaat paarsgewijs kijken welke van die groepen met elkaar verschillen.
4. Anova is eigenlijk regressie (behandelen we ook volgend college).
Binnen Anova maak je gebruik van nulhypothese: verschillen de groepen niet van elkaar door kans. Daarvoor maak je de assumpties dat je gebruik maakt van onafhankelijke steekproef, je normaalverdeling hebt met zelfde standaardafwijking binnen elke groep.
In Anova maak je gebruik van variantieanalyse. Eerst kijk je naar de variantie in een groep, en vervolgens naar de variantie tussen de groepen. Als die twee van elkaar verschillen, dan weet je dat de nulhypothese dat alle gemiddelden gelijk zijn niet klopt.
Spreiding binnen groepen berekenen:  we gingen er van uit dat de afwijkingen gelijk zijn, en daarom kan de standaardafwijkingen middelen. Bijvoorbeeld bij drie groepen S1² = S2²  = S3². Gemiddelde S² is dan dus (S1² + S2² +S3² )/ 3
Spreiding tussen groepen berekenen: Je gaat kijken in hoeverre de gemiddelden van elkaar afzitten. H0 = µ1 = µ2 = µ3. Onder H0 kan je dus een steekproevenverdeling maken met gemiddelde µ en sd = σ/√n. De variantie is dan dus alles in het kwadraat zetten (want sd in kwadraat is variantie). Variantie is σ²/n. Uit de steekproevenverdeling neem je drie waardes. (Y1, Y2 en Y3). Samen hebben ze algemeen gemiddelde Y = (Y1 + Y2 + Y3 )/ 3. Je kan dan de variantie omzetten in
σ² = n ((Y1 –Y)²+(Y2-Y)²+(Y3-Y)²)/ (n-1) en dat is dus de variantie tussen groepen.
Als de nulhypothese klopt dat alle groepen niet van elkaar verschillen, is de variantie in een groep en tussen groepen hetzelfde. Als het verschilt, kun je kijken of het veel verschilt door er een F-toets van te maken. F = Tussen groepen variantie / Binnen een groep variantie = MS Group / MS Error (moesten we maar aannemen in het college).
Uitslag van die F-verdeling kan je opzoeken in tabel. En als het dus een significant verschil is weet je dat er een verschil is tussen de groepen. Nu gaan we kijken hoe je er dan achter kan komen welke groepen verschillen.

Follow up van Anova
Om te kijken of er verschillen zijn tussen twee groepen, kan je dat op twee manieren doen. Zowel op de manier zoals in hoofdstuk 10 als met Anova. Bij beide gebruik je Yi – Yj ± t0.025s √ (1/ni)+(1/nj). Enige verschil zijn de vrijheidsgraden en de s. Bij Anova gebruik je s = √ MS Error. H10 en Anova geven dus verschillende waarden als je een interval wilt gaan maken of onderliggende groepen verschillen.

College 6 blok 2 deel 2

Niet-parametrische statistiek

Parametrische statistiek is statistiek waarbij je bepaalde assumpties maakt. Wat wij hebben gedaan is bij een steekproevenverdeling de centrale limietstelling gebruiken, wat aangeeft dat de steekproevenverdeling normaal verdeelt is. Dit is niet altijd waar, vooral bij kleine steekproeven. Daarom wil je een zelfgemaakte steekproevenverdelingen maken. Vandaag gaan we kijken naar zelfgemaakte steekproevenverdeling met behulp van niet-parametrische statistiek. Dat is met name handig omdat je het kan gebruiken bij zowel kleine als grote databestanden, en het ongevoelig is voor outliers (in tegenstelling tot parametrische statistiek zoals t-verdeling). Nadeel is dat niet-parametrische statistiek heel tijdrovend is. We zullen nu zien waarom.

Rangordes

Bij niet-parametrische statistiek maak je gebruik van rangorders. Je geeft afhankelijk van de grootte van een getal een bepaalde rangorder. Bijvoorbeeld je hebt de data getallen 3,5,6. 3 wordt dan 1, 5 wordt dan 2, 6 wordt dan 3 (je mag het ook andersom doen, dus je begint bij 6=1 en dan 5=2 en 3=3, zolang je maar consistent bent). Een tie is wanneer je twee dezelfde rangordes hebt, je hebt bijvoorbeeld 3,4,4. Je geeft dan de rangorders 3=1, 4=2,5 en 4=2,5. Je neemt dan dus het gemiddelde van de rangordes (in dit voorbeeld dus de gemiddelde van rangordes 2 en 3 = 2,5).
Met die rangordes kan je de zogenaamde Wilcoxon niet parametrische toets doen.

1. Assumptie: onafhankelijke random steekproef (dit is de enige assumptie die je nodig hebt, steekproef hoeft dus niet groot te zijn of normaal verdeelt!)
2. Nulhypothese: Je gaat kijken of twee populatieverdelingen gelijk zijn. Alternatieve hypothese is wanneer de ene verdeling groter dan de ander, of dat de verdelingen niet gelijk zijn aan elkaar.
3. Toetsingsgrootheid: Je gaat kijken naar de verschil tussen het gemiddelde van de rangordening. Stel nu dat je data X: 3,5,6 en data Y 3,4,4. Ze krijgen dan rangordes X: 1,5; 5; 6 Y: 1,5; 3,5; 3,5. Gemiddeld is dat X: 12,5/3 en Y: 8,5/3. Je kijkt dan naar het verschil ertussen (= 12,5/3 – 8,5/3).
4. P-waarde: Je kijkt naar de kans van alle mogelijke uitkomsten bij verschillende rangordeneringen.
Dus stel je ziet dat de kans dat je het verschil (=12,5/3 – 8,5/3) 1 op 10 is. P-waarde van het gevonden verschil is dan dus 0.10.
5: Conclusie: Je kijkt of de P kleiner is dan α. Soms kan P niet kleiner zijn dan bijvoorbeeld 0.10, als je 10 mogelijke uitkomsten hebt en jouw uitkomst is er 1 (en is de kans dus 1 op 10 = 0.10). Als jij dan een significantieniveau hebt van 0.05, betekend dat je dus nooit de nulhypothese kan verwerpen. Daarom kan je hier zelf significantieniveau bepalen, maar moet je het wel onderbouwen (bijvoorbeeld: P-waarde kan niet onder de 0.10, dus ik kies significantieniveau van 0.15).

 

Het voordeel van deze Wilcoxon toets is dus dat je weinig assumpties hoeft te maken, en het niet gevoelig is voor outliers of kleine stukken hoeveelheden nadelen. Het is wel tijdrovend, want je moet bij stap 4 alle mogelijkheden afgaan.

Opmerkingen deeltoets
De docent maakte nog een paar opmerkingen over de deeltoets. Zo staat er in het boek de Kruskal-Wallis toets. De formules hoef je niet te kennen, en je hoeft het op de deeltoets ook niet uit te voeren. Het enige wat je moet weten is wanneer je die Kruskal-Wallis toets gebruikt. Dat zelfde iswaar voor bovenstaande Wilcoxon toets, alleen moet je dan wel kunnen bepalen hoe je de P-waarde vind, en rangordes aan cijfers kunnen geven. Anova met één factor krijg je gegarandeerd op de deeltoets, waarbij je ontbrekende cijfers in tabel moet aanvullen.

document1.pdf

Image  Image  Image  Image

Access: 
Public

Image

Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Comments, Compliments & Kudos:

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why would you use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, study notes en practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the menu above every page to go to one of the main starting pages
    • Starting pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
  2. Use the topics and taxonomy terms
    • The topics and taxonomy of the study and working fields gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
  3. Check or follow your (study) organizations:
    • by checking or using your study organizations you are likely to discover all relevant study materials.
    • this option is only available trough partner organizations
  4. Check or follow authors or other WorldSupporters
    • by following individual users, authors  you are likely to discover more relevant study materials.
  5. Use the Search tools
    • 'Quick & Easy'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject.
    • The search tool is also available at the bottom of most pages

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Field of study

Statistics
573