Samenvatting: The Analysis of Biological Data (Whitlock & Schluter)

Deze samenvatting is gebaseerd op het studiejaar 2013-2014.

1. Steekproeven en statistiek
Tussenstuk 1: Biologie en de historie van statistiek
2. Data tonen
3. Data beschrijven
4. Schatten met onzekerheid
Tussenstuk 2: Anoniem herpubliceren
5. Kans
6. Het testen van hypotheses
Tussenstuk 3: Het verschil tussen statistische significantie en biologisch belang
7. Proporties analyseren
Tussenstuk 4: Correlatie heeft geen causaliteit nodig
8. Kansmodellen vormen om te gebruiken bij frequentie data
Tussenstuk 5: Een plan maken
9. Contingency analyse: associaties tussen categorische variabelen
10. De normaalverdeling
Tussenstuk 6: Toezicht in medische onderzoeken
11. Inferentie in een normaal populatie
12. Vergelijking tussen twee gemiddelden
Tussenstuk 7: Welke test zou ik moeten gebruiken?
13. Omgaan met schendingen van aannames
14. Het ontwerpen van experimenten
Tussenstuk 8: Data leeghalen
15. Het vergelijken van gemiddelden tussen twee of meer groepen
Tussenstuk 9: Experimentele en significantie fouten
16. Correlatie tussen numerieke variabelen
Tussenstuk 10: Publicatie vooroordeel (bias)
17. Regressie
Tussenstuk 11 Het gebruik van soorten als datapunten
18. Meerdere verklarende variabelen
19. Statistieke methodes op de computer
20. Waarschijnlijkheid
21. Meta-analyse: het verbinden van informatie uit meerdere onderzoeken

1. Steekproeven en statistiek

Een sample is een deel uit een populatie. De waardes kunnen verschillen van de waardes uit de populatie aangezien niet precies dezelfde gegevens gebruikt worden, maar een deel ervan. De statistiek beschrijft en meet een steekproef. Het gaat hier om schatten: het kwantificeren van een onbekende waarde in de steekproef. Een parameter beschrijft de waardes van de populatie en staat gelijk aan de waarheid.

Met hypothese testen wordt er een nulhypothese gesteld die een specifieke claim maakt over de populatie dat er geen effect of verschil is tussen twee objecten.

Goede steekproeven bezorgen goed onderzoek en uiteindelijk kloppende resultaten. Het begint met het definiëren van de populatie. Dus in welke groep de interesse ligt. Een steekproef is een deel van de populatie waar gegevens bekend van zijn.

Steekproef error is het verschil tussen een steekproef en een populatie. Hoe minder error, hoe minder fouten en vice versa. De schatting is precies (unbiased) als de schatting overeenkomt met de parameter. Bias is een systematische fout tussen populatie en sample. Precisie is daarnaast ook heel belangrijk.

Een random steekproef moet getrokken worden uit een groep waarvan elk subject uit die groep een even grote kans heeft om gekozen te worden. Random steekproeven minimaliseren bias en kan de steekproef error meten. Een random steekproef trekken gaat in vier stappen: 1) Een lijst met elke unit vanuit de interessegroep met nummers, 2) bepalen hoeveel units je in jouw steekproef wil, 3) random steekproef kiezen wat betekent dat een unit op basis van gelijke kansen gekozen wordt en 4) gebruik deze gemiddelden voor berekeningen.

Een gemaks-steekproef is een steekproef van makkelijk bereikbare individuen. Een vrijwillige steekproef is een collectie van vaak extreme gedachtes. Deze hebben juist wat te zeggen terwijl de ‘gemiddelde’ gedachtegangen hun mond houden.

Variabelen zijn karakteristiek en verschillend voor elk individu. Data zijn de rauwe metingen van variabelen.

Categorisch betekent in de statistiek een groep of bepaalde categorie. Deze bestaat uit de onderdelen nominaal en ordinaal. Nominaal zijn categorieën die geen volgorde of vast waarde hebben. Ordinaal zijn categorieën die wel een volgorde of rang hebben. Numeriek betekent in de statistiek kwantitatief. Deze bestaat uit de onderdelen continu en discreet. Continu betekent dat elk getal mogelijk is binnen een bepaald bereik. Discreet betekent dat er vaste getallen zijn; oftewel ondeelbaar.

De frequentie van een variabele geeft aan hoe vaak die variabele voorkomt. Wanneer dit in een grafiek wordt uitgezet heet dat een frequentieverdeling. De kansverdeling geeft aan hoeveel een bepaalde variabele de kans heeft om voor te komen. De normaalverdeling is een theoretische kansverdeling.

De respons variabele, oftewel de uitkomst variabele, wordt bepaald uit de verklarende variabele. Een experimentele studie is een onderzoek waarbij de verklarende variabele gemanipuleerd wordt waarna er gekeken wordt hoe de respons variabele tot uiting komt. Dit is een vorm van bewijzen aangezien er met goed uitgevoerde experimentele studies hypothesen getest worden. Bij observationele studies wordt er geen enkele variabele gemanipuleerd, waardoor er geen harde bewijzen ontstaan. Hier worden linken gelegd tussen variabelen waarna vaak experimentele studies volgen.

Tussenstuk 1: Biologie en de historie van statistiek

Voor het definiëren van de beste gokstrategieën begonnen Pascal en de Fermat in de 17^e eeuw aan de statistiek. Hierdoor werd ook gemotiveerd om de statistiek verder te ontwikkelen.

Darwin maakte gebruik van de variatie onder soorten. Vroege volgers van Darwin zagen dat de kwantitatieve beschrijvingen over de variatie nodig waren om de steekproef error in de biologie te onderzoeken.

Galton was de eerste die het kans denken op meerdere onderdelen ging toepassen. Hij heeft ook onderzoek gedaan en de statistiek verder gebracht. Hij had onderzoeken naar vingerafdrukken en meer. Ook bedacht hij de regressie en het onderzoek waarbij gebruik gemaakt wordt van tweelingen.

Pearson is bekend om de ontdekking van de correlatie tussen twee numerieke variabelen en de standaarddeviatie. Hij bestudeerde ook de regressie vergelijking en de X² contingency test.

Fisher is bekend van de theoretische populatie erfelijkheidsleer. Hij ontdekte de analyse van variantie, waarschijnlijkheid, P-waarde, random experimenten, meervoudige regressie en nog meer onderdelen in de statistiek.

De statistiek is opgekomen vanuit de biologie waardoor biologie en statistiek hand in hand gaan.

2. Data tonen

De principes van effectief data tonen zijn nodig voor het goed analyseren en doorcommuniceren van gegevens. De regels hiervoor zijn dat de data duidelijk, eerlijk en efficiënt getoond worden.

De relatieve frequentie beschrijft de fracties van voorkomen van elke variabele-waarden. Oftewel, het aantal frequenties gedeeld door het totaal, maal 100%.

Categorische data kan in een frequentietabel staan die bestaat uit klassen en daarachter de frequentie. Ook kan categorische data in een bargrafiek gezet worden. Op de x-as staan de klassen en op de y-as staan de frequenties. De punten waaraan deze bargrafiek aan moet voldoen zijn 1) er moet ruimte zitten tussen de barstaven, 2) de barstaven moeten vanaf 0 beginnen en 3) representatief zijn voor de juiste frequentie. Bij ordinale grafieken moeten de klassen in oplopende volgorde staan. Bij nominale grafieken moeten de klassen van weinig naar meer gaan.

Numerieke data wordt getoond in een histogram, of een frequentietabel. Bij een histogram is de oppervlakte de frequentie. Ook deze grafiek moet aan een paar punten voldoen, zoals 1) de x-as is de klassenverdeling, 2) de y-as is de frequentie, 3) er zit geen ruimte tussen de barstaven en 4) de grafiek moet vanaf 0 beginnen.

De vorm van een histogram

De modus is de hoogste piek en betekent dat die waarde het meeste voorkomt in de steekproef of populatie. Bimodaal betekent dat er twee pieken in de grafiek zitten. Bij symmetrische grafieken zijn de linker- en rechterkant identiek. Scheve (skewed) verdelingen zijn asymmetrisch. Wanneer de staart van de grafiek aan de rechterkant is, is de grafiek scheef naar rechts en vice versa. Een uitbijter is een waarde die buiten de meeste gebieden of het patroon valt.

Kwantielen van een frequentieverdeling

Het percentiel is de waarde aangegeven in percentages (%). Een kwantiel is de waarde aangegeven in fracties (X/100).

De cumulatieve frequentie is de som van alle voorgaande waardes. De cumulatieve frequentie wordt in kwantielen aangegeven. Wanneer er cumulatieve relatieve frequentie staat, wordt de opgetelde waardes in percentage aangegeven.

Grafieken

Een contigency tabel toont twee categorische variabelen. In elk vakje staat hoeveel subjecten er aan die twee categorieën voldoen. Een gegroepeerde staafgrafiek zijn twee categorische variabelen met elkaar vergeleken in een staafgrafiek. Een mozaïek plot zijn de staven van de staafgrafiek, maar dan op elkaar gestapeld. Let wel op bij mozaïek plotten dat ze vaak relatief zijn.

Een scatterplot laat een associatie zien tussen twee numerieke variabelen met stipjes die over een veld verspreidt zijn. Op de x-as staat de verklarende variabele en op de y-as staat de respons variabele. Wanneer er een lijn te zien is heet dit lineair. Als deze lijn van lage (linksonder) naar hoge waardes (rechtsboven) loopt, is de associatie positief. Als deze lijn van hoge (linksboven) naar lage waardes (rechtsonder) loopt, is de associatie negatief.

Een lijngrafiek is een grafiek van allemaal stipjes die verbonden zijn door een lijn om een trend te laten zien. Het idee is hetzelfde als een scatterplot, maar dan is de y-meting getoond voor elke x-observatie.

Een map is de numerieke respons weergegeven over een gebied. Hierbij wordt bijvoorbeeld de temperatuurverdeling van de Noordpool laten zien.

3. Data beschrijven

Beschrijvende statistieken zijn de harde cijfers. Twee belangrijke begrippen hierbij zijn de locatie (gemiddelde) en de spreiding (variantie). De variantie laat zien hoe elk individu (x_i) verschilt van het gemiddelde (μ). De proportie is een belangrijke statistiek voor categorische variabelen.

Het gemiddelde van een steekproef wordt berekend door alle waardes bij elkaar op te tellen en te delen door het aantal subjecten. De schematische formule hiervoor is: ŷ = ∑ y / n. De n is het nummer van het totaal aantal subjecten. De standaarddeviatie (s) laat zien hoe de waardes gemiddeld van het gemiddelde afliggen. De variantie is een spreidingsmaat (s²). De variantie is te berekenen door voor iedere individuele waarde, het gemiddelde er af te halen en deze waardes allemaal te kwadrateren. Door ze daarna allemaal bij elkaar op te tellen, krijg je de sum of squares. Het is nodig om de deviation (y_i - ŷ) in het kwadraat te doen, aangezien als je dit bij elkaar op telt je precies op 0 terugkomt. De laatste stap is om deze sum of squares te delen door n-1. De formule hiervoor is:

s² = ∑ (Y_i - ŷ)² / n - 1

Om de standaarddeviatie te berekenen, wordt de wortel genomen van de variantie. De formule hiervoor is:

s = √ ∑ (Y_i - ŷ)² / n - 1

De coëfficiënt van variantie is de standaarddeviatie uitgedrukt in een percentage van het gemiddelde. CV = 100% * (s / ŷ)

Boxplot

De mediaan is het middelste getal in een oplopende getallenreeks. De mediaan is ook wel het 50e percentiel en het 0,5 kwantiel. Deze bereken je door in een oneven aantal door n + 1 / 2. Wanneer de getallenreeks uit een even aantal getallen bestaat, is de mediaan de middelste twee getallen gedeeld door twee. Het 25e percentiel is het 1e kwartiel en het 75e percentiel is het 3e kwartiel. De interkwartielafstand is de afstand tussen het 1e en het 3e kwartiel.

De boxplot is de manier om dit samen te vatten. De box bestaat uit drie strepen. De eerste streep hoort bij het 1e kwartiel, de tweede streep hoort bij de mediaan en de derde en bovenste streep hoort bij het 3e kwartiel. Daarbij lopen er ook lijnen uit de box en het bovenste streepje op die lijn is het maximum en het hele onderste streepje is het minimum. De afstand tussen het maximum en het minimum heet de whiskers.

De mediaan is de middelste van de verdeling. Het gemiddelde is het zwaartepunt en is daarbij ook gevoelig voor extreme waardes. De standaarddeviatie is berekent uit het gemiddelde en is daarom ook gevoelig voor extreme waardes. De mediaan is meer bestand tegen extreme waardes waardoor deze, samen met de andere twee kwartielen, beter het algemene gemiddelde laten zien. De standaarddeviatie is weer beter voor het beoordelen van individuele gemiddelde scores.

De proportie van observaties in een gegeven categorie wordt aangegeven door p̂ = nummer in categorie / n. N is de totale waarde en het nummer in categorie is het nummer van observatie in de categorie die bedoeld wordt.

4. Schatten met onzekerheid

De schatting gaat van de steekproef naar de populatie. De populatie is namelijk te groot om te meten waardoor we een deel van de populatie nemen, de steekproef, om zo iets te proberen te zeggen over de populatie. De populatie bevat de echte waarde van de variabele: de parameter. De steekproevenverdeling is alle mogelijke steekproeven in een verdeling. Om de parameter zo dicht mogelijk te benaderen, is het verstandig om de n zo groot mogelijk te maken. Hierdoor wordt de schatting zo precies mogelijk.

De standaardfout van de schatting is de s van de geschatte steekproef verdeling. De formule:

σ_ŷ = σ / √n. De standaardfout van het gemiddelde is de formule: SE_ŷ = S / √n.

Een betrouwbaarheidsinterval is een spreiding van waardes van de steekproef schatting die waarschijnlijk de populatie parameter bevat. Vaak wordt hiervoor de 95% betrouwbaarheidsinterval voor het gemiddelde gebruikt. Het gemiddelde ligt dan voor 95% binnen twee standaardafwijkingen links en rechts van het gemiddelde af.

Tussenstuk 2: Anoniem herpubliceren

De meeste statistiek technieken gaan er vanuit dat de data komt vanuit een random steekproef uit de populatie waarbij de kans dat een subject gekozen wordt dezelfde kans en onafhankelijkheid heeft. Dit is helaas niet altijd zo. Een anonieme herpublicatie (pseudoreplication) treedt op in een studie wanneer afzonderlijke metingen geanalyseerd worden alsof ze onafhankelijk van elkaar zijn, maar dit eigenlijk niet zijn. Het probleem hierbij is, is dat deze zogenaamde onafhankelijke metingen meer op elkaar lijken dan wanneer ze echt onafhankelijk van elkaar zijn. Dit kan verkeerde conclusies opleveren omdat er te kleine intervallen en P-waardes berekend worden. Deze statistiek technieken komen later nog aan bod.

Anonieme herpublicatie kan voorkomen worden door middel van de informatie van elk onafhankelijk subject te samenvatten en dat te gebruiken voor het berekenen.

5. Kans

Het concept van kans is gebaseerd op vele random trials. Een event is de mogelijke deelverzameling van de steekproef ruimte. De steekproef ruimte is een lijst met alle mogelijke uitkomsten. De kans is de proportie van keren dat de juiste gebeurtenis voorkomt van alle onafhankelijke gevallen in gelijke omstandigheden.

Een Venn-diagram voorspelt alle mogelijke uitkomsten samengevat.

Mutually exclusive betekent dat twee mogelijkheden niet te gelijk kunnen plaatsvinden. In formule wordt dit aangegeven door Pr [A & B] = 0.

Een kansverdeling is een lijst van de mogelijkheden van alle mutually exclusive uitkomsten van een random trial. Een voorbeeld is hier bijvoorbeeld dat een dobbelsteen maar op één manier twee gegooid kan worden met twee dobbelstenen. Dit is ook direct het voorbeeld voor een discrete kansverdeling. Er is geen mogelijkheid om oneindig veel mogelijkheden tussen twee en drie te gooien. Een continue kansverdeling is dit wel de bedoeling: er zijn oneindig veel mogelijkheden tussen 30 en 35. Een voorbeeld hierbij is de temperatuur. De optelregel is voor twee events die mutually exclusive zijn. De formule hiervoor is: Pr [A of B] = Pr [A] + Pr [B]

De regel om alles behalve A mee te reken is de formule: Pr [niet A] = 1 - Pr [A]

De regel om de events A of B te berekenen terwijl ze ook tegelijk voor kunnen komen is: Pr [A of B] = Pr [A] + Pr [B] - Pr [A + B]

Een onafhankelijk event houdt in dat er geen invloed kan worden uitgeoefend op een bepaalde uitkomst. Een afhankelijk event is als er iets moet gebeuren om dat bepaalde event te laten voorkomen.

De optelregel, is onafhankelijk, en de formule is als volgt: Pr [A & B] = Pr [A] x Pr [B]

Een kansboom laat wegen zien met de bijbehorende kansmogelijkheid erbij. Dit is handig om kansen te berekenen die onoverzichtelijk voor je worden. De kansboom begint bij de eerste splitsing en daarbij staan de mogelijke kansen. Daarna volgt er weer de volgende tak met de bijbehorende kansmogelijkheden. Dit kan ook gemaakt worden bij onafhankelijke events.

De condition kans is de kans dat een event gebeurt, mits er een bepaald even aan vooraf ging.

De regel van de totale kans is: Pr [x] = ∑ (som van alle Y) Pr [Y] * Pr [X|Y]

De algemene meervoudregel is de kans dat beide van twee events plaatsvinden, zelfs als ze afhankelijk zijn: Pr [A en B] = Pr [A] * Pr [B|A]

Bayes theorema is verkregen uit de algemene meervoudregel. De gebeurtenis B kan plaatsvinden onder de omstandigheid dat A optreedt, maar ook als A niet optreedt. De formule is: Pr [A|B] = Pr [B|A] * Pr [A] / Pr [B]

6. Het testen van hypotheses

Hypothese testen gebruikt, net zoals het schatten, inferentie over data; oftewel generaliseren naar de populatie. Alleen het verschil tussen deze twee technieken is dat schatten kijkt naar het precieze effect en het hypothese testen kijkt of er überhaupt een effect is. Er wordt daarbij gekeken of er toeval heeft plaatsgevonden of dat er een echt verschil is tussen de groepen. De nulhypothese zegt dat er geen verschil is tussen de groepen en stelt een specifieke bewering op. Deze hypothese is vaak interessant om te verwerpen om aan te tonen dat er juist wel een verband is.

De nulhypothese neemt het op tegen de alternatieve hypothese. Deze zegt dat er wel een verschil is tussen de groepen. Wanneer de data te bijzonder is, en zodanig verschilt onderling, wordt de nulhypothese verworpen. De hypotheses stellen beweringen over de populatie (parameter). Maar in tegenstelling tot de nulhypothese is de alternatieve hypothese niet specifiek en kan alle populatie waardes aannemen, behalve de nulhypothese waarde, om zo een dergelijk effect te bewijzen.

Proportie, tweezijdig en teststatistiek

De proportie laat zien hoeveel procent van de populatie de nulhypothese bevat. De alternatieve hypothese kan tweezijdig zijn. Hierbij kan de waarde van de populatie links en rechts liggen van de gestelde waarde, proportie, in de nulhypothese. De teststatistiek is een hoeveelheid die berekend is op basis van de gegevens die worden gebruikt om te evalueren hoe geschikt de gegevens zijn met het verwachte resultaat anders dan de nulhypothese.

De nulverdeling

Aangezien de data niet altijd perfect de waarheid laat zien, zijn er afwijkingen qua juiste hoeveelheden in de steekproef. Een voorbeeld hiervan is dat bij een proportie van 0,5 er niet precies de helft in de ene groep past die hoort bij de nulhypothese en precies de andere helft in de andere groep van de alternatieve hypothese. Dit komt door het begrip kans, want zelfs bij het heel vaak opgooien van een munt komt er niet precies 50% kop en 50 % munt uit. De oplossing hiervoor is de nulverdeling: de verdeling van de uitkomsten/waardes dat de nulhypothese waar is.

De P-waarde

Het gaat er bij het testen van hypotheses om hoe speciaal de verkregen data is. In andere woorden betekent dit dat de data zo bijzonder mogelijk moet zijn om de nulhypothese te verwerpen. Om zo de interessante alternatieve hypothese aan te nemen. De P-waarde helpt hierbij en laat zien hoe speciaal de verkregen data is. Hoe kleiner de P-waarde, hoe specialer de data. De P-waarde is de kans van de verkregen data als de nulhypothese waar was.

De P-waarde wordt berekend door de kans van de twee buitenste, links en rechts, te berekenen. Oftewel, de geobserveerde data met de daarbij nog extremere kanswaardes bij elkaar op te tellen. Bij een tweezijdige toets kan je om het jezelf makkelijk te maken, van één kant de kans berekenen en dat maal twee te doen. Bij een eenzijdige toets hoeft dit maal twee niet te gebeuren want dan kijk je maar naar één kant van de verdeling.

Statistieke significantie

Het significantielevel, α, is de criteriumwaarde waaronder de P-waarde moet zitten om de nulhypothese te verwerpen. De levels die vaak gebruikt worden zijn 5%, oftewel een α van 0,05. Wanneer de P-waarde gelijk of onder de α ligt, dan wordt de nulhypothese verworpen. Wanneer de P-waarde groter is dan α, dan wordt de nulhypothese niet verworpen.

In je onderzoeksverslag moet je altijd de waarde van de teststatistiek, de steekproefgrootte en de P-waarde aangeven.

Hypothese test fouten

Een type 1 fout is wanneer de nulhypothese verworpen wordt, terwijl deze juist waar is. Een type 2 fout is wanneer de nulhypothese aangenomen wordt, terwijl deze fout is. Het significantielevel vertelt ons ook de kans op een type 1 fout. Bij een α van 0,05 is de kans dat we een type 1 fout maken 5%. Om de kans op een type 1 fout te verminderen, kan je α kleiner maken, maar dit zorgt er weer voor dat de nulhypothese moeilijker te verwerpen is en de kans op type 2 groter wordt.

De power van een hypothese test is de kans dat een random steekproef zal leiden tot het verwerpen van een foute nulhypothese. Hoe groter de power, hoe beter.

De nulhypothese niet verworpen

Wanneer de nulhypothese niet verworpen wordt, betekent het niet automatisch dat deze ook waar is. Dit kan namelijk liggen aan de kans van de gekozen steekproef of het gebrek aan power dat een limiet bereikt door het te kleine aantal deelnemers. De nulhypothese is verenigbaar met de waarheid, maar wordt pas echt verworpen wanneer er nieuwe studies zijn die wel aantonen dat die niet waar is.

Eenzijdig testen

Bij een tweezijdige test kan de waarde aan beide zijden van de nulhypothese liggen. Bij een eenzijdige test is dit niet mogelijk en ligt de waarde maar aan één kant van de nulhypothese. Let hierbij op dat de P-waarde niet maal twee gedaan hoeft te worden aangezien er maar aan één kant getest hoeft te worden.

Hypothese testen en betrouwbaarheidsintervallen

Een betrouwbaarheidsinterval zegt vaak veel meer dan een hypothese test, maar een hypothese test kan een specifieke bewering verwerpen of aannemen.

Tussenstuk 3: Het verschil tussen statistische significantie en biologisch belang

Statistisch significant betekent dat de nulhypothese verworpen is, en dat er wel degelijk een verschil bestaat tussen de twee geteste groepen. Door middel van verschillende talen wordt significant ook wel gebruikt als de term ‘belangrijk’ of ‘moet aandacht aan besteedt worden’. Dit is dus een biologisch belang: een groot genoeg effect dat ergens toe doet. Een gegeven kan statistiek significant en niet van biologisch belang tegelijkertijd zijn. Daarnaast kan een biologisch belang niet statistiek significant zijn. Een ander extreem is dat een biologisch belang juist niet significant moet zijn. Een voorbeeld hiervan is dat een duur medicijn met veel bijwerkingen juist geen verschil maakt ten opzichte van andere medicijnen.

Oftewel, statistische significantie vertelt ons met hoeveel zekerheid we een nulhypothese kunnen verwerpen, maar niet hoe groot de impact of het belang van het effect is.

7. Proporties analyseren

Een proportie is een deel van de interesse populatie die aan een of meerdere voorwaardes voldoet. Deze kan van 0 tot 1 variëren.

Binominale verdeling

De binominale verdeling verstrekt de kans verdeling voor een nummer van succes in een vast getal van onafhankelijke trials, wanneer de kans van slagen hetzelfde is in elke trial.

De binominale verdeling gaat er vanuit dat het nummer van trials (n) vast staat, aparte trials onafhankelijk zijn en dat de kans van succes (p) hetzelfde is in elke trial. De formule is:

De ‘b’ is eigenlijk een p, de kans van succes, dus het aantal keer voorkomen van het juiste antwoord gedeeld door het totaal. De k staat voor het aantal successen. De n boven k (X in het boek) betekent dat het nummer van unieke, ordelijke opvolgingen van succes en falen oplevert in precies K successen in n trials. De formule hiervoor is:

N boven 0 en n boven n leveren beide de uitkomst 1 op, want er is maar één mogelijkheid dat er uit n trials, die bepaalde n volgorde is en dat er maar één mogelijkheid is dat er uit n trials het aantal successen 0 is. Wanneer er bijvoorbeeld 5! staat betekent dit 5 x 4 x 3 x 2 x 1.

p̂ = X / n, is het X aantal successen uit n aantal trials van een steekproef. P zonder dakje is van een populatie. Het gemiddelde is p, ja de parameter. In andere worden is p̂ een unbiased schatting voor het echte gemiddelde. De standaard error van een schatting is de standaarddeviatie van zijn steekproefverdeling. De formule is: σ_p̂= √ p(1-p) / n. De verbetering van de σ_p̂is preciezer wanneer er een grote n wordt gebruikt. Dit wordt het recht van de grote getallen genoemd.

Binominaal testen

Een binominaal test gebruikt data voor het testen of een populatie proportie (p) gelijk staat aan een nulverwachting (p₀) voor de proportie. De hypothese beweringen zijn als volgt. H₀ : de relatieve frequentie van het aantal successen in de populatie is p₀. H_A : de relatieve frequentie van het aantal successen in de populatie is niet p₀. Ook hier weer is de nulhypothese heel specifiek en de alternatieve hypothese juist niet.

Om binominaal te testen stel je de hypotheses op, vul je de binominale formule in en de uitkomst is de P-waarde. Bij een tweezijdige toets doe je deze nog maal twee, maar bij een eenzijdige toets doe je dit niet. Let op dat je bij het invullen van de formule alle benodigde waardes van k invult; oftewel kijken of je het aantal 10 chromosomen nodig hebt of het aantal 10 of meer chromosomen. Daarna kan er gekeken worden of de test significant is en welke hypothese verworpen wordt. Uiteindelijk wordt nog de proportie p̂ = X / n ingevuld om te kijken wat het specifieke antwoord is als de nulhypothese verworpen is.

Schatten

Aangezien we de parameters niet kennen, kunnen we σ_p̂= √ p(1-p) / n niet precies uitrekenen. Daarom gebruiken we de waardes van de steekproef in de formule: SE_p̂= √ p̂(1- p̂) / n – 1.

Een betrouwbaarheidsinterval is moeilijk te bepalen of deze zuiver is of niet. Het boek raadt de Agresti-Coull methode aan en die gaat als volgt. Als eerste bereken je het nummer genaamd p’: p’= X + 2 / n + 4. Daarna komt er de uitgebreidere formule:

p’ – Z * √ p’ (1- p’) / n +4

Z staat voor een vaste waarde die bij een bepaalde betrouwbaarheidsinterval waarde past. Bij een 95% betrouwbaarheidsinterval hoort een Z-waarde van 1,96. Bij een 99% betrouwbaarheidsinterval hoort een Z-waarde van 2,58. Dit wordt later nog uitgebreider in het boek besproken. Uiteindelijk komen er twee getallen uit aan de weerszijden van

De Wald-methode raadt het boek niet aan aangezien het in sommige situatie niet nauwkeurig is, maar omdat het toch vaak wordt gebruikt laten ze de werking er van zien. Het heeft hetzelfde principe als de Agresti-Coull methode, maar ziet er anders uit met andere statistische technieken. Deze methode werkt alleen als n groot genoeg is en de p niet dichtbij 0 of 1 ligt. De formule is:

p̂ - Z * SE_p̂ > p > p̂ + Z SE_p̂

Tussenstuk 4: Correlatie heeft geen causaliteit nodig

De wetenschap wil de wereld begrijpen. De eerste stap in het proces is het vinden van patronen of associaties tussen events. De mogelijkheid hierbij is, is dat het ene event het andere event veroorzaakt. Deze causale relatie is ontdekt omdat iemand de correlatie had opgemerkt.

Het probleem hier is dat er een correlatie tussen events kan zijn terwijl de een helemaal niet de oorzaak is van de ander. Dit kan verklaard worden door een confouding (verwarrende) variabelen. Dit zijn variabelen die beide beïnvloedt worden door dezelfde oorzaak, waardoor het lijkt alsof ze door elkaar veroorzaakt worden, terwijl dit eigenlijk niet gebeurt en ze los van elkaar staan.

Een ander ingewikkeld probleem wat bij correlatie kan plaatsvinden is omgekeerde causaliteit. Dan is de gevolg variabele eigenlijke de oorzaak variabele.

Dit zijn problemen die bij observationele studies kunnen plaatsvinden. Bij experimentele studies worden deze problemen zo veel mogelijk uitgesloten. Dit komt omdat bij experimentele studies de verklarende variabele wordt gemanipuleerd waardoor er meer controle is over de variabelen.

8. Kansmodellen vormen om te gebruiken bij frequentie data

Een goodness-of-fit test is een methode om een geobserveerde frequentieverdeling te vergelijken met een frequentieverdeling, die wordt verwacht in een simpel kansmodel dat de verschillende uitkomsten van random gebeurtenissen bevat. Hypothese testen en binominaal testen zijn hier voorbeelden van, maar een binominaal test kan alleen categorische variabelen met twee uitkomsten vertegenwoordigen. Daarom komen er in dit hoofdstuk goodness-of-fit testen die voor zowel categorisch als numeriek met meer dan twee uitkomsten gebruikt kunnen worden.

Proportioneel model

Een proportioneel model is een makkelijk kansmodel dat de frequentie van gebeurtenissen weergeeft dat proportioneel, gelijk, is aan het aantal mogelijkheden. Het voorbeeld in het boek zegt dat er in het jaar 1999 op iedere maandag hetzelfde aantal baby’s geboren moet worden met de marge van kans meegerekend.

X² test

De X² goodness-of-fit test gebruikt een kwantiteit, X² (chi-kwadraat), voor het meten van tegenstrijdigheid tussen een geobserveerde frequentie verdeling en de verwachte frequenties van een simpel random model dat dient als de nulhypothese. Hierbij gelden dezelfde regels als bij het normale hypothese testen.

De nulhypothese stelt de verwachte waardes voor. Deze zijn uit te rekenen door middel van kansberekening. De verwachte waardes moeten uiteindelijk hetzelfde zijn als alle geobserveerde waardes bij elkaar opgeteld.

De X²teststatistiek berekent het verschil tussen de geobserveerde en de verwachte frequenties.

De X²teststatistiek is uit te rekenen door middel van de volgende formule:

X² = ∑ (geobserveerd – verwacht)² / verwacht

Het is belangrijk om te weten dat de X²teststatistiek de absolute waardes gebruikt, en niet de relatieve of proportionele waardes. Daarnaast betekent een X² van 0 dat er geen verschil is tussen de geobserveerde en de verwachte waardes. Hoe groter de X², hoe groter het verschil tussen die twee waardes. Ook kan de X² nooit onder 0 zijn aangezien er een kwadraat in de formule zit die negatieve waardes opheft. Als laatste moet de X² uitgerekend worden voor elke categorie die je hebt, dus als je alle dagen van de week wil gebruiken, moet je de X² voor alle zeven dagen uitrekenen en bij elkaar optellen.

Gelukkig is er ook een makkelijkere manier om de X² uit te rekenen. Er zijn namelijk X² verdelingen die voor alle waardes gelden. Deze verdelingen worden onder andere gevormd door de vrijheidsgraden. Vrijheidsgraden specificeert welke familie van verdelingen we moeten gebruiken voor de nulverdeling. De formule voor de vrijheidsgraden is: df = (nummer van het aantal categorieën) – 1- (aantal parameters geschat van de data). Oftewel als je categorieën de dagen van de week zijn dan is het aantal vrijheidsgraden: 7 – 1 = 6. Het laatste deel in de formule is hier niet nodig, want deze is 0. Wanneer er wel parameters geschat worden, moeten dit aantal ook van het aantal vrijheidsgraden afgehaald worden. Het aantal vrijheidsgraden komt onder het kwadraat achter de X te staan.

Het berekenen van de P-waarde kan op twee manieren. De eerste manier is door computerberekeningen die bij zo’n toets direct de P-waarde geven. Zo kan er worden gekeken of de nulhypothese wel of niet verworpen moet worden. De twee manier is lastiger en gaat volgens standaardtabellen en met de hand. De tweede manier heet de kritieke waarde (critical value). De kritieke waarde geeft aan wat de locatie is in de staart(en) van de nulverdeling. Om de tabel te kunnen lezen voor het weten van de kritieke waarde zijn de vrijheidsgraden (df) en het significantielevel (α). Wanneer de X² waarde onder de kritieke waarde ligt, dus verder de rechterstaart in, is de P-waarde sowieso kleiner dan 0,05 en kan de nulhypothese verworpen worden. Wanneer de X² waarde boven de kritieke waarde ligt, dus minder ver de rechterstaart in en richting de piek, is de P-waarde sowieso groter dan 0,05 en kan de nulhypothese niet verworpen worden.

Als laatste kan er dan nog gekeken worden waar de P-waarde precies tussen ligt. Dit gebeurt door middel van de tabel. Er wordt dan gekeken waartussen de X² waarde ligt en dus tussen welke twee significantielevels.

Assumpties van de X²test

De X² goodness-of-fit test gaat er vanuit dat de subjecten individueel gekozen zijn, geen categorie een verwachte waarde heeft lager dan 1 en niet minder dan 20% van de categorieën een verwachte waarde lager dan vijf heeft. Wanneer deze condities niet gewaarborgd worden, is de test onbetrouwbaar. Oplossingen hiervoor is het aanpassen van de vrijheidsgraden wanneer dit nodig is of een andere test toepassen. Ook kunnen de klassen gehergroepeerd worden zodat er niet minder dan 20% van de categorieën een verwachte waarde lager dan vijf heeft.

Goodness-of-fit test voor twee categorieën

Voor alleen maar twee categorieën kan je ook de X² goodness-of-fit test gebruiken, want deze is sneller dan de binominale test, alleen is deze minder nauwkeurig. Sneller is de X² goodness-of-fit test omdat dan niet elke p berekent hoeft te worden, want dit kan behoorlijk oplopen wanneer er gebruikt wordt gemaakt van 781 genen.

De binominaal verdeling toegepast

Bij een binominaal verdeling beschrijft het verkrijgen van de kans (X) uit een vast aantal successen van een aantal onafhankelijke trials (n). Wanneer we de binominaal verdeling gebruiken, worden er multiple sets van trials gematcht aan een set van frequenties van de verwachte waardes van de binominaal verdeling.

De Poisson verdeling

Net zoals de binominaal verdeling, beschrijft de Poisson verdeling de kans van het verkrijgen van een aantal successen van onafhankelijke trials. De Poisson verdeling beschrijft verder het aantal successen in blokken van tijd of ruime, wanneer succes onafhankelijk plaatsvinden van elkaar en plaatsvinden met een even kans in elk punt in de tijd of ruimte. De vraag die in principe hier gevraagd wordt is objecten random plaatsvinden in een continue tijd of ruimte. Het is simpelweg een model, en pas als de werkelijkheid het model niet past is er waarschijnlijk iets bijzonders in de biologie aan de hand. Het alternatief voor de Poisson verdeling is dat de successen dicht bij elkaar zitten, dichterbij dan verwacht of dat de successen juist meer uit elkaar liggen dan verwacht zou worden.

De λ is eigenlijk een μ, oftewel het gemiddelde. De e is een constante die gelijk staat aan 2,718. De X is het aantal successen in de ruimte.

Voor het berekenen van de verdeling van een samengeklonterde of verspreide Poisson samenstelling, worden de twee hypothese opgesteld. H₀ : Het nummer van ‘categorie’ per tijd of ruimte interval heeft een Poisson verdeling. H_A : Het nummer van ‘categorie’ per tijd of ruimte interval heeft geen Poisson verdeling. Daarna wordt het gemiddelde μ berekent van de frequentietabel. Een grafiek is dan handig om te zien of er grote verschillen tussen de staafgrafiek en lijngrafiek zijn. Vervolgens kan de Poisson formule ingevuld worden. De uitkomst wordt vermenigvuldigd met n. Als laatste kan de X² uitgerekend worden, de vrijheidsgraden bepaald worden en de P-waarde vaststellen waardoor we weten of de nulhypothese wel of niet verworpen kan worden.

Het vergelijken van de variantie en het gemiddelde

Een eigenschap van de Poisson vergelijking is dat de variantie in het aantal successen per tijdsbeeld of ruimte (het kwadraat van de standaarddeviatie) gelijk is aan het gemiddelde. Wanneer de variantie groter is dan het gemiddelde, dan is de Poisson verdeling samengeklonterd. Wanneer de variantie kleiner is dan het gemiddelde, dan is de Poisson verdeling verspreidt.

Tussenstuk 5: Een plan maken

Een plan maken voor goed onderzoek, en uiteindelijk correcte data om mee te werken, gaat als volgt:

1. Ontwikkel een duidelijk statement van de onderzoeksvraag. De vraag hoort interessant te zijn voor de biologie. Daarnaast moet het niet al onderzocht zijn.

2. Stel een lijst op met de mogelijke uitkomsten van het experiment.

3. Ontwikkel een experimenteel plan.

4. Houd het design van je experiment zo simpel mogelijk, om het overzicht te houden en om geen moeilijke statistische methodes te moeten gebruiken.

5. Kijk voor veel voorkomende design problemen voor replicatie, onafhankelijkheid en randomness. Zorg daarbij dat je deze niet tegen komt in je eigen onderzoek.

6. Bepaal of de onderzoeksgroep groot genoeg is.

7. Bespreek het onderzoeksdesign met anderen voor punten die jou niet zijn opgevallen en waar anderen misschien oplossingen voor hebben.

9. Contingency analyse: associaties tussen categorische variabelen

Een contingency analyse kan een associatie laten zien tussen twee of meer categorische variabelen. Er kan hierbij gekeken worden naar relaties tussen verschillende groepen.

Associatie

Een associatie tussen twee of meer categorische variabelen impliceert dat twee variabelen niet onafhankelijk van elkaar zijn. Wanneer de variabelen onafhankelijk van elkaar zouden zijn, dan zou er geen verschil in kans zijn tussen de twee variabelen.

Associatie schatten in 2 x 2 tabellen: oneven ratio

De kruistabel bevat twee categorische variabelen. De verklarende variabele zijn de twee groepen die vergeleken met elkaar worden. De respons variabele zou ‘succes’ en ‘falen’ kunnen zijn. In deze kruistabel worden dus de twee groepen vergeleken op hun kansen van succes hebben of falen.

De oneven (odd) vergelijkt de proportie van succes en falen tussen de twee groepen. De formule hiervan is: O = p / 1 – p. O 1:1 betekent dat er voor elk succes een faal is en O 10:1 betekent dat er voor elke 10 successen een faal is. Uiteraard hebben we geen parameters van de populatie en gebruiken we de formule van de steekproef: Ô = p̂ / 1 - p̂.

De oneven ratio (OR) is de odd van successen in een groep gedeeld door de odd van successen van een tweede groep. De formule is: OR = O₁ / O₂. Bij een schatting van de populatie, een steekproef, worden er dakjes op de letters van de formule geplaatst. Bij een oneven ratio zijn de odds van de groep even groot. Wanneer de oneven ratio groter is dan 1, dan heeft de eerste groep een grotere odd dan de twee groep en vice versa.

De steekproefverdeling is aardig scheef waardoor de ‘log’ mee moeten rekenen in de OR. Zo kunnen we de standaarddeviatie berekenen voor de formule die straks volgt. De formule is: SE[ ln (ÔR) ] = √ 1 / a + 1 / b + 1 / c + 1 / d. Deze formule zal niet werken wanneer a, b, c of d 0 is. De symbolen a, b, c en d verwijzen naar de geobserveerde frequenties in de kruistabel. Zie grafisch voorbeeld hieronder.

	Groep 1	Groep 2
Succes	a	b
Faal	c	d
			Totaal

Een betrouwbaarheidsinterval voor de log-OR is:
ln (ÔR) – Z SE[ ln (ÔR) ]

De X² contingency test

De X² contingency test is de meest gebruikte test voor de associatie tussen twee categorische variabelen. Om een verband te detecteren tussen de groepen, worden er uiteraard H₀ en H_A opgesteld. Vervolgens wordt voor iedere cel in de tabel de verwachte waardes berekend. Dit gebeurt door middel van de optelregel: Pr [A & B] = Pr [A] x Pr [B]. De uitkomst wordt maal het totaal gedaan waardoor er een frequentie in de cel komt te staan. Vervolgens wordt de X² formule ingevuld en uitgerekend en uiteraard worden ook de vrijheidsgraden uitgerekend. Voor een kruistabel ziet deze formule er anders uit: df = (r – 1) * (c – 1). Als laatste kan de P-waarde opgezocht worden in tabel A en kan die met de α vergeleken worden, waardoor de nulhypothese wel of niet verworpen kan worden.

Een hulpje voor het berekenen van de verwachte frequenties in de cellen is de formule: verwachte frequentie [rij i, kolom j] = (rij i totaal) * (kolom j totaal) / totaal.

Dezelfde aannames worden hierbij verwacht als bij het hoofdstuk “Kansmodellen vormen om te gebruiken bij frequentie data”, maar hier zit er iets extra’s bij. De eerste is dat er bijvoorbeeld kolommen of rijen, voorzichtig, samengevoegd kunnen worden met nog steeds een goede betekenis. De bedoeling hiervan is, is dat de frequenties groter worden en er een ware uitkomst uit volgt. De tweede oplossing is dat de Fisher’s precies test zou kunnen worden gebruikt; die volgt hieronder. Als laatste kan er een randomnisatie test gebruikt kunnen worden in plaats van de X² contingency test, maar dit komt in een later hoofdstuk aan bod.

Fisher’s precies test

De Fisher’s precies test kan gebruikt worden voor het examineren van onafhankelijkheid van twee categorische variabelen, zelfs wanneer de verwachte waardes te klein zijn voor de X² contingency test. Uit deze test komt dan een precieze P-waarde. Het boek laat geen berekening zien, aangezien dit meestal door een computer gedaan wordt. Maar voor de duidelijkheid: hierbij gelden dezelfde regels die we al eerder zijn tegengekomen. Deze regels houden dus in het opstellen van hypotheses, de kolom/rij-cellen berekenen, de voorwaardes voor het toepassen van een toets, het significantie level en het wel of niet verwerpen van de nulhypothese.

De G-test

De G-test is een alternatief voor de X² contingency test met vrijheidsgraden (r – 1) * (c – 1). De formule is: G = 2 * (∑ van alle geobserveerde waarde (kolom/rij) * log(geobserveerde waarde (kolom/rij) / verwachte waarde (kolom/rij)).

10. De normaalverdeling

De normaalverdeling is de belangrijkste kansverdeling voor continue numerieke variabelen.

De bel-vorm van de normaalverdeling

De normaalverdeling heeft, door de vele subjecten en nauwe klassenindeling, een bel-vormig model. Hoe meer subjecten en hoe nauwer de klassenindeling, hoe soepeler de bel-vorm zal lopen. De normaalverdeling benadert heel goed de werkelijkheid, waardoor het veel gebruikt wordt in de biologie. De modus en het gemiddelde zijn hierbij hetzelfde. Daarnaast is de normaalverdeling symmetrisch vanaf het gemiddelde.

De normaalverdeling wordt bepaald door twee parameters: het gemiddelde (locatie) en de standaarddeviatie (spreiding).

De formule

De formule van de normaalverdeling ziet er best ingewikkeld uit, maar dat valt uiteindelijk wel mee. De formule is:

f(Y) = 1 / √2πσ² * e^{(Y – μ)2 / 2σ2}

De Y kan elk nummer zijn die nodig is voor de steekproef. De μ is het gemiddelde en σ is de standaarddeviatie. Ook e is hierbij een vast getal dat 2,7182 inhoudt, net zoals dat π een vast getal is dat 3,1415 inhoudt.

Eigenschappen van de normaalverdeling

Punten die belangrijk zijn om te onthouden over de normaalverdeling zijn:

Het is een continue verdeling, waardoor de kans in het gebied onder de curve bepaalt wordt.

De normaalverdeling is symmetrisch om zijn gemiddelde.

Het heeft één modus, de kans dichtheid is het grootst rond het gemiddelde, waardoor die het meest precies is. Hierdoor zijn het gemiddelde, de modus en de mediaan bij een normaalverdeling gelijk.

De afstanden μ-σ en μ+σ bevatten precies 68,3% van het oppervlakte onder de normaalcurve. De afstanden μ-2σ en μ+2σ bevatten precies 95% van het oppervlakte onder de normaalcurve.

De standaard normaalverdeling en statistische tabellen

Een normaalverdeling met μ = 0 en σ = 1 heet een standaard normaalverdeling. Voor de berekeningen hebben we Z nodig. Dit is altijd een standaard waarde die vastgesteld staat in tabel B in het boek. De Z-waarde geeft aan welk percentage van het overgebleven gedeelte van de normaalverdeling boven de Z-waarde ligt. De Z-waarde heeft een uiterlijk van a.bc. Voor het opzoeken van een overgebleven percentage van de normaalverdeling, zoek je eerst de getallen a.b op en daarna het getal c. De proportie dat Z groter is dan a.bc is gegeven in de bijbehorende cel voor die rij en kolom. Aangezien de normaalverdeling symmetrisch is, zijn de Z-waardes hetzelfde voor dezelfde positieve en negatieve waarde in de normaalverdeling. Zo zijn een Z-waarde van 1,96 en een Z-waarde van -1,96 allebei 0,025.

Een Z-waarde, oftewel een standaard normaal deviatie, vertelt ons hoeveel standaarddeviaties een bepaalde waarde van het gemiddelde ligt. De formule die hierbij hoort is: Z = Y – μ / σ.

De normaalverdeling van steekproef gemiddelden

Als een variabele Y een normaal verdeling heeft in de populatie, dan is de steekproefgemiddelden verdeling ŷ ook normaal verdeeld. De ŷ is dan een unbiased schatter van Y (μ). De standaarddeviatie van de steekproefverdeling voor ŷ is ook bekend als de standaard error van het gemiddelde. Deze zijn we al eerder tegen gekomen en de formule geldt nog steeds als volgt: σ_ŷ = σ / √n. De Z-waarde formule voor de steekproef is: Z = ŷ – μ / σ_ŷ.

Centrale limiet theorie

Zelfs wanneer verdelingen niet normaal verdeeld zijn, maar wanneer de steekproef wel groot genoeg is, is die verdeling toch normaal verdeeld. Dit wordt ook wel de centrale limiet theorie genoemd. De officiële definitie is: de som van het gemiddelde van een groot aantal metingen random gekozen van een niet normaal verdeelde populatie, is ongeveer normaal verdeeld. Daarnaast helpt het om hierbij de schaal kleiner of groter te maken zodat de verdeling steeds meer op een normaal verdeling zal lijken. Dit is alleen niet wetenschappelijk correct.

Normaal schatting voor de binominale verdeling

Wanneer het aantal trials n groot genoeg is, kan de binominale kans verdeling, voor het aantal successen, benaderd worden door een normaal verdeling met een gemiddelde n*p en een standaarddeviatie van √np (1-p). Het aantal trials is groot genoeg wanneer np en n(1-p) groter zijn dan vijf.

Tussenstuk 6: Toezicht in medische onderzoeken

Er zijn verschillende redenen waarom medische onderzoeken de ene keer zo uitkomen en de andere keer op een hele andere manier uitkomen. Deze redenen zijn onder andere:

Patiënten worden sowieso beter over de tijd heen. Tenzij de ziekte chronisch of terminaal is.

Mensen hebben de neiging om vriendelijk te doen, waardoor ze de dokter vertellen dat hun medicijn die zij in hun (controle)groep hebben gebruikt heel goed werkt. Terwijl dit misschien wel meevalt.

Controlegroepen en experimentele groepen kunnen verschillend behandeld worden.

Een placebopil geeft de deelnemer het idee dat het een pil krijgt, met alle condities van dien, behalve de medische farmacologische effecten. Ze werken het beste bij patiënten in subjectieve onderzoeken ten opzichte van patiënten in objectieve onderzoeken. Een voorbeeld hiervan is in pijnonderzoeken. Het placebo-effect is hier erg groot.

Het doel in het onderzoek is dat alle condities gelijk gesteld worden zodat er duidelijk bepaald kan worden dat het geteste medicijn ook daadwerkelijk de oorzaak is van het verbeterde effect.

11. Inferentie in een normaal populatie

De t-verdeling voor steekproefgemiddelden

De t-verdeling is een andere soort normaalverdeling, want deze heeft ook een belvormige, symmetrische vorm. Een verschil is dat de waarden onder de curve verschillen, wat resulteert in een eigen tabel voor een t-toets. Dit is eigenlijk hetzelfde principe als de Z-verdeling. De formule van de t-verdeling is als volgt:

t = ŷ – μ / SE_ŷ

De vorm van de t-verdeling, oftewel hoe platter deze verdeling zal lopen, hangt af van het aantal vrijheidsgraden. Aangezien we bij een t-toets altijd een parameter uit de populatie schatten, de SE_ŷ, zal de formule van het aantal vrijheidsgraden bij een t-toets er als volgt uitzien: df = n – 1.

Het belangrijkste verschil tussen de t-verdeling of de standaard normaal verdeling (Z) is dat bij de t-verdeling het middenstuk dikker is en de uiteindes minder plat lopen. Dit is een cruciaal punt bij het berekenen van betrouwbaarheidsintervallen of bij het testen van hypothesen. Vaak is de t-toets minder precies. Het vinden van de criterium waardes voor de t-verdeling zijn achterin het boek te vinden in tabel C. Daarnaast wordt het symbool t_0,05(2),df gebruikt om het criteriumwaarde van 5% aan te duiden. De (2) staat voor het feit dat die vijf procent over twee staarten wordt verdeelt. Oftewel, dat de verdeling daar tweezijdig is. Df staat uiteraard voor het aantal vrijheidsgraden.

Het betrouwbaarheidsinterval voor het gemiddelde van een normaalverdeling

Het betrouwbaarheidsinterval kijkt naar hoeveel procent (vaak 95%) van de random steekproeven van een normale verdeling, het populatiegemiddelde in dat interval zal omvatten. De formule voor het uitrekenen van een betrouwbaarheidsinterval met een t-toets is als volgt:

Ŷ - t_α_(2),df SE_ŷα(2),df SE_ŷ

De one-sample t-test

De one-sample t-test vergelijkt het gemiddelde van een enkele steekproef met een waarde van het populatiegemiddelde, gesteld in een nulhypothese en een alternatieve hypothese. Deze gelden als H₀ : het ware gemiddelde is gelijk aan μ₀. H_A : het ware gemiddelde is niet gelijk aan μ₀. Deze waarde μ₀ kan veel verschillende waardes aannemen en is het populatiegemiddelde op dat moment. De t-verdeling hangt ook hierbij af van het aantal vrijheidsgraden. De formule van de t-toets is als volgt:

t = Ŷ - μ₀ / SE_Ŷ

Denk eraan dat Pr[t

Als de nulhypothese niet verworpen wordt, mag er dus niet aangenomen worden dat de alternatieve hypothese waar is. Vaak wordt er dan nog vervolg onderzoek gedaan om de nulhypothese te verwerpen. Deze is tenslotte falsifieerbaar, als het goed is.

Wanneer je weinig subjecten in je steekproef hebt, is het moeilijk om bewijs te krijgen tegen de nulhypothese. Dit komt omdat het aantal subjecten n in de berekening zit voor de standaard error (SE_ŷ = S / √n). Hoe meer subjecten in je steekproef, hoe kleiner SE_ŷ en dus hoe preciezer je data wordt om de nulhypothese te verwerpen.

De aannames van een one-sample t-test

De one-sample t-test heeft twee aannames die gerespecteerd moeten worden wanneer er een t-toets wordt gedaan. De eerste aanname, die overigens geldt bij elke toets, is dat de steekproef random uit de populatie getrokken moet worden. De tweede aanname is dat de populatie normaal verdeeld is. Dit kan gecheckt worden door een histogram van de verdeling te maken. Zo kan er gekeken worden of de verdeling niet eigenlijk scheef, bimodaal of plat is. Een methode is robuust wanneer het antwoord dat gegeven wordt, niet gevoelig is voor bescheiden afwijkingen van de aannames. Deze bovenstaande methode is robuust.

Schatten van de standaarddeviatie en de variantie uit een normaal verdeelde populatie

De variantie is de standaarddeviatie in het kwadraat.

Het betrouwbaarheidsinterval voor de variantie is als volgt:

df * s² / X²_α_/2,df 2 2 / X²_1-_α_/2,df

De formule voor X² is: X² = (n – 1) * s² / σ². Denk eraan dat de waardes voor de linker X² en de rechter X², allebei apart berekent moeten worden. Dit komt omdat de verdeling van de X² scheef naar rechts loopt en dus niet symmetrisch is. De schatting van de variantie is vaak dichterbij de linkerkant dan bij de rechterkant. Dit komt ook weer doordat de X² verdeling scheef naar rechts loopt. Hierdoor is er een kans dat de echte variantie net iets onder de linkergrens van het betrouwbaarheidsinterval ligt. De kans is hierdoor kleiner dat de variantie boven de rechtergrens ligt.

Voor het uitrekenen van het betrouwbaarheidsinterval van de standaarddeviatie, mag de wortel van de variantie getrokken worden. Het betrouwbaarheidsinterval van de standaarddeviatie ziet er dan als volgt uit:

√s²2

De aannames van deze methode zijn hetzelfde als bij de aannames van de one-sample t-test. Oftewel, de steekproef moet random getrokken zijn en de verdeling moet normaal verdeeld zijn. Deze methode is niet robuust en is dus erg gevoelig voor afwijkingen van de aannames.

12. Vergelijking tussen twee gemiddelden

In dit hoofdstuk wordt er aangenomen dat de populatieverdelingen normaal verdeeld zijn.

Gepaarde steekproeven versus twee onafhankelijke steekproeven

In een casus met twee onafhankelijk steekproeven, wordt er een lijst opgesteld met de mogelijke deelnemers. Deze deelnemers worden random toegewezen aan de controle en de experimentele groep. In een casus met een gepaarde steekproef, wordt er ook een lijst opgesteld met de mogelijke deelnemers. Deze deelnemers worden random toegewezen, maar moeten aan allebei de condities meedoen. Dat betekent bij het voorbeeld in het boek dat random gekozen stukken bos, voor de helft aan de controlegroep worden toegewezen en de andere helft aan de experimentele groep worden toegewezen. Beide steekproeven beantwoorden dezelfde vraag, maar de gepaarde steekproef is niet onafhankelijk, aangezien deze stukken bos dezelfde eigenschappen hebben. Het voordeel aan de gepaarde steekproef is dat deze sterker is, omdat ze controleren tegen vreemde variantie tussen groepen. Vaak is het moeilijk om gepaarde steekproeven te gebruiken.

Gepaarde vergelijkingen van het gemiddelde

Het grootste voordeel van gepaarde steekproeven is dus dat ze vreemde variantie er uit kunnen filteren, die eigenlijk niks te maken heeft met de studie zelf. Bij een gepaarde steekproef wordt er gekeken wat het verschil is tussen de controle groep en de experimentele groep, van hetzelfde subject. De formule hiervoor is: d_i = (voor/controle groep) – (na/experimentele groep). Om het aantal subjecten n te definiëren heb je het aantal gepaarde subjecten nodig en dus niet het aantal individuele subjecten.

De gepaarde t-test wordt gebruikt om hypotheses te testen. De nulhypothese is: er is geen verschil of het effect is 0; H₀ : μ = 0. De alternatieve hypothese is: er is wel een verschil of het effect is groter of kleiner dan nul; H_A : μ ≠ 0. Daarna wordt het verschil tussen de subjecten, en het gemiddelde en de standaarddeviatie daarvan berekend. Vervolgens kan de t-toets berekend worden samen met het aantal vrijheidsgraden. Uiteindelijk wordt de P-waarde duidelijk waarna de nulhypothese wel of niet verworpen mag worden.

De aannames voor een gepaarde steekproef met een betrouwbaarheidsinterval en een t-toets zijn dezelfde aannames als de aannames van de vorige methodes: de subjecten moeten random gekozen worden en de verdeling moet normaal verdeeld zijn.

Twee steekproef vergelijkingen van het gemiddelde

Bij twee steekproef vergelijkingen moeten het gemiddelde en de standaarddeviatie van de twee groepen, de controle- en de experimentele groep, onafhankelijk van elkaar berekend worden. Vervolgens wordt het verschil tussen de twee groepen uitgerekend.

Als eerste hebben we de standaard error van Ŷ₁- Ŷ₂ nodig. De formule hiervoor is:

SE_{Ŷ1- Ŷ2}= √ s²_p (1/n₁ + 1/n₂) met s²_p = df₁s²₁ + df₂s²₂ / df₁ + df₂

De formule s²_p is de pooled sample variantie. Dit is het gemiddelde van de varianties van de steekproeven berekend met de vrijheidsgraden. De df₁ = n₁ – 1 en df₂ = n₂ – 1.
Doordat de steekproefverdeling normaal verdeeld is, is de t-toets als volgt: t = (Ŷ₁- Ŷ₂) / SE_{Ŷ1- Ŷ2}. Vervolgens kan het betrouwbaarheidsinterval berekend worden:

(Ŷ₁- Ŷ₂) - t_α_(2),dfSE_{Ŷ1- Ŷ2} 1 – μ₂ 1- Ŷ₂) + t_α_(2),dfSE_{Ŷ1- Ŷ2}

Wanneer een vrijheidsgraad niet in de tabel staat, zoals 182, neem je de meest voor de hand liggende waarde die het dichtste bij ligt. Hier zou het geen verschil uitmaken aangezien de vrijheidsgraden 180 en 185 hetzelfde antwoord geven. Wanneer het wel uitmaakt kan 180 gekozen worden in verband met het afronden.

De twee steekproeven t-test is de makkelijkste methode voor het vergelijken van twee gemiddelden van een numerieke variabele, tussen twee onafhankelijke groepen. Het is het meest gebruikelijk om de nulhypothese te stellen dat de twee gemiddelden gelijk aan elkaar zijn. Oftewel H₀ : μ₁ = μ₂ en de H_A : μ₁ ≠ μ₂. Het maakt daarbij niet uit welke populatie je als populatie één labelt, als je dit maar wel de hele berekening volhoudt. Vervolgens worden de formules uitgerekend:

t = (Ŷ₁- Ŷ₂) / SE_{Ŷ1- Ŷ2} met SE_{Ŷ1- Ŷ2}= √ s²_p (1/n₁ + 1/n₂) en s²_p = df₁s²₁ + df₂s²₂ / df₁ + df₂

Bij deze methode zijn er geen twee, maar drie aannames die moeten worden gewaarborgd. De eerste en de tweede aanname zijn degene die we al kenden. Oftewel, elke steekproef moet random getrokken zijn uit een normaal verdeelde populatie. De derde aanname is dat de standaarddeviatie (en de variantie) van de numerieke variabele hetzelfde is in beide populaties. Wanneer de standaarddeviaties meer dan drie keer verschillen van elkaar en de grote van de steekproeven te veel van elkaar verschillen, kan je deze methode niet gebruiken.

De Welch’s test vergelijkt de gemiddelden van twee groepen. Deze kan zelfs gebruikt worden wanneer de varianties van de twee groepen niet gelijk zijn.

Het gebruik van de correct steekproefeenheden

Wanneer er groepen zijn gemaakt, oftewel categorieën, is het niet juist om de X² contingency test te gebruiken. Daarnaast wordt er dan gebruik gemaakt van een kruistabel. Wanneer de standaarddeviaties meer dan drie keer van elkaar verschillen kan je het beste de Welch’s test gebruiken.

De dwaling van indirect vergelijken

Wanneer er gezegd wordt dat “groep 1 significant afwijkt van 0, maar groep 2 doet dat niet, zullen groep 1 en 2 van elkaar verschillen”, heet dat dwaling van indirect vergelijken. Vergelijkingen tussen twee groepen zouden altijd direct gemaakt moeten worden. Dus niet beide groepen indirect vergelijken met dezelfde nulhypothese waarde.

Interpreteren van overlap tussen betrouwbaarheidsintervallen

Om overlap tussen betrouwbaarheidsintervallen te interpreteren zijn er drie scenario’s:

1. Als een 95% betrouwbaarheidsinterval van twee geschatte waarden totaal niet overlappen, dan zal de nulhypothese van gelijke gemiddelden verworpen worden.

2. Als er twee 95% betrouwbaarheidsintervallen zijn. Deze intervallen zijn van twee geschatte waarden. Wanneer een gemiddelde van de ene groep in de andere groep zit, dan zal de nulhypothese niet verworpen worden.

3. Tussen deze extremen zit een moeilijker scenario. De betrouwbaarheidsintervallen overlappen, maar geen van beide intervallen bevat het gemiddelde van de andere groep. Wanneer dit gebeurt, weten we niet precies wat de uitkomst zal zijn over de nulhypothese.

Vergelijking van varianties

Soms willen wetenschappers de variantie van hun steekproef vergelijken met een andere steekproef. Hier zijn twee testen voor: de F-test en de Levene’s test. De F-test is helaas heel gevoelig voor niet normaal verdeelde verdelingen, terwijl de Levene’s test hier meer robuust tegen is.

De F-test evalueert of twee populatie varianties gelijk zijn. De hypotheses zijn als volgt: H₀ : σ²₁ = σ²₂. H_A : σ²₁ ≠ σ²₂. De formule die hier verder bij hoort is: F = s²₁ / s²₂. Wanneer de nulhypothese waar is, dan zou F dicht bij 1 moeten liggen. Er zou dan alleen variantie zijn door de mogelijkheden van kans. De F-verdeling heeft ook een aantal vrijheidsgraden: (n₁ - 1,n₂ – 1). De test gaat ervan uit dat de verdeling normaal verdeeld is in beide populaties.

De Levene’s test of de variantie van twee of meer groepen gelijk is. Het beste kan je deze testen uitvoeren op de computer. Deze test is robuuster dan de F-test en is dus beter te gebruiken in het algemeen. Met een Levene’s test moet je als eerst de absolute waarde van het verschil tussen elk datapunt en het gemiddelde in de groep berekenen. Deze eenheden heten absolute deviaties. Daarna wordt er getest of er een verschil is tussen groepen qua gemiddelden en deze absolute deviaties. De test statistiek heet W en maakt gebruik van de F-verdeling.

Tussenstuk 7: Welke test zou ik moeten gebruiken?

In het hoofdstuk ‘Data tonen’ wordt er uitgelegd bij welke data, welke grafieken horen. In dit tussenstuk wordt er een samenvatting gegeven over welke statistiek toetsen, bij welke data en onderzoeksdoelen horen.

Er zijn als eerst een aantal vragen waar een antwoord op gegeven moet worden:

· Wordt er getest met één variabele of wordt de associatie getest tussen twee of meerdere variabelen?

· Zijn de variabelen numeriek of categorisch?

· Is de data gepaard?

· Wat zijn de aannames van deze toetsen? En waarborgt de data deze aannames? Een voorbeeld is de Welch’s test. De aannames bij deze toets zijn: 1) de steekproeven zijn random getrokken en 2) de numerieke variabelen zijn beide normaal verdeeld in de populatie.

Tabel 1 is voor het vergelijken van methodes die het verschil testen tussen gemiddelden van groepen, wanneer de toets wel of geen aanname heeft dat de populatie normaal verdeeld is.

Aantal condities	Aanname wel normaal verdeeld	Aanname niet normaal verdeeld
Twee (onafhankelijk)	Two-sample t-test (12) en de Welch’s test (12)	Mann-Whitney U-test (13)
Twee (gepaard)	Gepaarde t-test (12)	Sign test (13)
Meer dan twee	ANOVA (15)	Kruskal-Wallis test (15)

Tabel 2 bevat toetsen die één variabele vergelijken met een constante of een kansverdeling.

Type data	Doel	Test
Categorisch	Vergelijken van een proportie met een hypothese waarde	Binominaal test (7) & X² goodness-of-fit toets (8)
Categorisch	Vergelijken van frequentie data met een kansverdeling	X² goodness-of-fit toets (8)
Numeriek	Vergelijken van een gemiddelde met een hypothese waarde wanneer de data ongeveer normaal verdeeld is	One-sample t-test (11)
Numeriek	Vergelijken van een mediaan met een hypothese waarde wanneer de data niet normaal verdeeld is	Sign test (13)
Numeriek	Vergelijken van frequentie data met een discrete kansverdeling	X² goodness-of-fit toets (8)
Numeriek	Vergelijken van data met een normaal verdeling	Shapiro-Wilk test (13)

Tabel 3 bevat toetsen over associaties tussen twee variabelen.

			Verklarende variabele
		Categorisch		Numeriek
Response variabele	Categorisch	Contingency analyse (9)		Logistiek regressie (17)
	Numeriek	t-test, ANOVA, Mann-Whitney U-test, etc., tabel 1 voor meer informatie		Lineair en non-lineaire regressie (17), lineaire correlatie (16) en Spearman’s rank correlatie (16)

13. Omgaan met schendingen van aannames

De aannames die voor toetsen bestaan, worden of kunnen niet altijd nageleefd worden. In dit hoofdstuk zal er op drie alternatieve opties gefocust worden:

1. Het negeren van aanname schendingen. In sommige situaties kunnen de toetsen ook werken wanneer de aannames niet compleet gewaarborgd worden. Gemiddelden vergelijken gaat nog redelijk goed, zelfs wanneer de verdeling niet normaal is, maar wel als de steekproef zeer groot is.

2. Het transformeren van de data. Logaritmes gebruiken om de data beter te laten passen aan de aannames.

3. Het gebruik maken van een methode die geen parameter nodig heeft.

Het detecteren van abnormaliteiten in een normaal verdeling

Het gebruik maken van grafische methoden is een goede optie om te kijken of de verdeling normaal is. Een histogram laat de loop van de verdeling zien in een grafiek. Op deze manier kan er gekeken worden of de verdelingen niet toevallig scheef naar links of rechts zijn. Of misschien wel bimodaal, plat of met ernstige uitbijters.

Naast het kijken naar een histogram, is een normaal kwantiel plot ook een goede optie. De normaal kwantiel plot vergelijkt elke observatie uit de steekproef met de verwachte waarde uit een standaard normaal verdeling. Deze plot lijkt op een scatterplot, maar op de y-as staat de standaard normaalverdeling. Op de x-as staan de metingen. Wanneer de verdeling normaal is, zouden de punten in een lange lijn moeten lopen.

Formele testen voor het bepalen of de verdeling normaal is, hebben twee hypothesen. De nulhypothese is H0 : de steekproefdata komt uit een normaal verdeelde populatie. HA : de steekproefdata komt niet uit een normaal verdeelde populatie. Dit soort testen moeten voorzichtig behandeld worden. Aangezien de test een bepaald gevoel van zekerheid geeft, wat niet altijd rechtvaardig is. Aan de andere kant, grote steekproeven worden vaak snel als normale verdelingen gezien. Dit is uiteraard ook niet de bedoeling. Een oplossing hiervoor is het gebruik maken van gezond verstand en grafische methodes om te kijken of de verdeling normaal is.

De Shapiro-Wilk test is waarschijnlijk de meest sterke formele methode voor het testen van afwijkingen in een normaal verdeling. Het evalueert een set van random getrokken data met een normaal verdeling. De computer berekent deze test voornamelijk, waardoor de berekening niet uitgelegd wordt. Wel is het duidelijk dat de Shapiro-Wilk test als eerst het gemiddelde en de standaarddeviatie schat van de populatie uit de steekproef. Daarna wordt de data vergeleken met de normaal verdeling die hetzelfde gemiddelde en standaarddeviatie heeft.

Het negeren van aannameschendingen

Wanneer de aannames niet gewaarborgd worden, is het nog mogelijk om gemiddelden te schatten en te toetsen. Onder zekere condities zijn de methoden robuust. Robuust houdt in dat het gegeven antwoord niet gevoelig is voor schendingen van de methode aannames. Deze condities houden in dat er gebruik moet worden gemaakt van grote steekproeven en dat de steekproefgroottes voor sommige testen niet gelijk hoeven te zijn. Het ‘toestaan’ van het schenden van de aannames komt van de centrale limiet theorie. Deze houdt in dat een verdeling die niet normaal verdeeld is, maar wel een grote steekproef heeft, toch de normaal verdeling benaderd. Hierdoor mogen grote steekproeven toch gezien worden als normaal verdelingen. De robuustheid geldt alleen voor methoden voor gemiddelden. De variantie is niet robuust en mag daarom ook niet geschat worden als de steekproef groot is, maar niet normaal verdeeld.

Een andere conditie is bij ongelijke standaarddeviaties. Wanneer de steekproefgroottes niet ongeveer gelijk zijn (ook al bevatten ze zeer veel subjecten) en de standaarddeviaties meer dan drie keer van elkaar verschillen, kan de two-sample t-test niet gebruikt worden. Hier zou dan de Welch’s test gebruikt moeten worden.

Het transformeren van data

Het transformeren van data is waarschijnlijk de beste manier om de aannames te waarborgen. Bij het transformeren van data wordt de data aangepast zodat de normaal verdeling meer benadert wordt. Elke meting wordt hierbij verandert door dezelfde wiskundige formule.

De meest gebruikte transformatie is de logtransformatie. De Y uit de data wordt dan Y’ = log[Y]. Deze kan alleen gebruikt worden als alle waardes groter zijn dan nul. Wanneer de data nul bevat kan de formule Y’ = log[Y + 1] gebruikt worden. In het algemeen, is de logtransformatie handig bij de volgende punten:

1. De metingen zijn ratio’s of producten van variabelen

2. De frequentieverdeling van de data, is scheef naar rechts

3. Bij het vergelijken van twee gemiddelden, de groep met het grootste gemiddelde, heeft ook de grotere standaardverdeling

4. Het datagebied heeft meerdere levels qua grootheid

De logtransformatie zet elk datapunt om naar zijn logaritme. De logtransformatie is daarnaast altijd de moeite waard om te proberen om een probleem, zoals het niet bereiken van de normaal verdeling, op te lossen.

Een arcsine transformatie wordt alleen gebruikt bij proporties van de data. De formule is: p’ = arcsin [wortel p]. Dit is de omgekeerde sinusfunctie (sin-1). Een transformatie voor proporties is vaak nodig omdat proporties niet normaal verdeeld zijn. Vooral wanneer het gemiddelde dicht bij nul of één ligt. Ook omdat de standaarddeviaties vaak niet gelijk zijn.

De worteltransformatie wordt gebruikt bij data dat simpelweg getallen bevat, zoals het aantal eieren gelegd door een kip. Deze transformatie heeft vaak dezelfde effecten als de logtransformatie. De formule is: Y’ = wortel Y + 1/2.

Wanneer de frequentieverdeling scheef naar links is, wordt de kwadraat transformatie gebruikt. De formule is Y’ = Y². Wanneer de kwadraat transformatie niet werkt, wordt de antilog transformatie gebruikt. De formule is: Y’ = e^Y. Wanneer de data scheef naar rechts is, wordt de omkeer transformatie gebruikt. De formule is: Y’ = 1/Y.

Wanneer transformaties gebruikt worden bij betrouwbaarheidsintervallen, moeten de transformaties weer omgedraaid worden als de intervallen getoond worden.

Non-parameter alternatieven voor one-sample en gepaarde t-testen

Tot nu toe zijn er alleen parameter methoden gebruikt. Wanneer het negeren van aannames en transformaties niet werken, dan zijn er nog non-parameter methoden. Deze maken minder aannames dan de parameter methoden. Non-parameter methoden berekenen betrouwbaarheidsintervallen en hypotheses met minder aannames over de normaal verdeling.

Non-parameter methoden worden gerangschikt van laag naar hoog. Dit betekent dat de echte waardes niet gebruikt worden, maar gelabeld zullen worden met 1, 2, 3 enzovoort.

De sign test wordt gebruikt in plaats van de one-sample t-test of de gepaarde t-test, wanneer die aannames niet gewaarborgd kunnen worden. De sign test vergelijkt de mediaan met een constante die gesteld is in de nulhypothese. De waardes die boven de nulhypothesewaarde liggen, krijgen het label +. Andersom krijgen de waardes die onder de nulhypothesewaarde liggen, het label -. Als de nulhypothese klopt, zal de ene helft + gelabeld zijn en de andere helft - gelabeld zijn. Het maakt geen aannames over de verdeling of de metingen vanuit de populatie. Helaas heeft deze toets weinig power bij een steekproef met weinig subjecten, maar als er geen andere toets is, is deze wel handig.

De Wilcoxon signed-rank test is een verbetering van de bovenstaande sign-test. De Wilcoxon signed-rank test bevat informatie over hoe ver de waardes onder of boven de nulhypothese waarde liggen. Alleen verwacht deze test dat de ruimte rondom de mediaan, symmetrisch is. Daarom wordt deze niet vaak gebruikt.

Het vergelijken van twee groepen met de Mann-Whitney U-test

De Mann-Whitney U-test wordt gebruikt in plaats van de two-sample t-test, wanneer de verdeling niet normaal is. Deze toets vergelijkt de frequentieverdeling van twee groepen op basis van de ranks.

De eerste stap bij deze toets is om alle data te rangschikken van laag naar hoog. Vervolgens krijgt de laatste waarde het label 1 en de volgende laagste waarde het label 2. Hierbij wordt er geen onderscheid gemaakt tussen de twee groepen. De volgende stap is om alle waardes van groep 1 bij elkaar op te tellen. Dit wordt ook gedaan bij groep 2. De derde stap is om U1 uit te rekenen. De formule is: U₁ = n₁n₂ + n₁(n₁ + 1) / n - R₁. Hierbij is R₁ de som van de waardes uit groep 1. De formule hoeft niet meer volledig ingevuld te worden voor de tweede groep. De formule is: U₂ = n₁n₂ - U₁. De vierde stap is om te bepalen welke U het grootste is. Deze U wordt gesteld als de teststatistiek. Als laatste kan de P-waarde bepaald worden. De nulhypothese wordt verworpen wanneer U gelijk of boven de kritieke waarde voor U valt.

Wanneer twee subjecten dezelfde waarden hebben, kunnen ze niet allebei dezelfde rank krijgen. De oplossing hiervoor is als volgt. Kijk naar welke waardes die twee waarden zouden krijgen als ze zouden verschillen. Stel, in een steekproef hebben twee subjecten de waarde 19. In de rangschikking zouden zij de waardes 4 en 5 krijgen. Deel die twee waardes door twee. Je krijgt het volgende: 4+5 / 2 = 4,5. De volgende rank is dan 6, omdat de ranken 4 en 5 al bezet zijn. Dit kan ook gebeuren met drie, vier of meerdere zelfde waardes.

De Mann-Whitney U-test maakt gebruik van de Z-verdeling. De formule is: Z = 2U - n₁n₂ / √n₁n₂ (n₁ + n₂ + 1) / 3.

Aannames van non-parameter methoden

Een non-parameter methode gaat er vanuit dat de steekproef random getrokken is uit de populatie. De Wilcoxon signed-rank test gaat er daarnaast ook nog vanuit dat de verdeling symmetrisch is. De Mann-Whitney U-test is heel gevoelig voor verschil tussen twee verdelingen. Deze toets gaat ervan uit dat de ene verdeling bijvoorbeeld net zo scheef is als de andere verdeling.

Type 1 en type 2 fouten van non-parameter methoden

De kans op het maken van een type 1 fout, is constant met het significantielevel bij parameter en non-parameter methoden. Dit verandert echter als de aannames niet worden gewaarborgd. Voornamelijk wordt dan de kans op een type 1 fout bij parameter methoden veel groter, onafhankelijk van het significantielevel.

De kans op het maken van een type 2 fout hangt af van de hoeveelheid power die een toets heeft. Een parameter methode heeft een veel grotere power dan een non-parameter methode. Dit komt omdat non-parameter methoden informatie missen over de populatie. Hoe minder power, hoe groter de kans op een type 2 fout.

14. Het ontwerpen van experimenten

In de biologie zijn er twee soorten studies: de observationele studie en de experimentele studie. De observationele studie kijkt naar associaties tussen twee of meer variabelen en de biologie maakt zelf groepen van subjecten. De experimentele studie kijkt naar oorzaken van associaties tussen twee of meer variabelen. Hierbij worden de subjecten random in groepen geplaatst door de onderzoeker.

Bij alle studies is het van belang dat de bias en de steekproef error zo klein mogelijk zijn. In dit hoofdstuk wordt er gekeken hoe dat het beste gedaan kan worden.

Waarom worden experimenten gedaan?

In een experimentele studie zijn er minstens twee soorten behandelingen en de subjecten moeten random aan deze behandelingen worden toegewezen. Door het random toewijzen aan behandelingen, wordt de invloed van confounding variabelen geminimaliseerd. Confounding variabele is een variabele die een causale relatie tussen twee gemeten variabele maskeert of verstoord. Deze confounding variabelen worden geminimaliseerd omdat de achtergrond van de subjecten gelijk wordt gesteld, door het random toewijzen.

Bij een observationele studie is het random toewijzen niet mogelijk, aangezien de natuur de groepen indeelt. Hierdoor is er een grotere kans op confounding variabelen.

Een nadeel aan een experimentele studie, is de experimentele artifact. Dit houdt in dat metingen door middel van onbedoelde consequenties van een experimenteel proces, bias kan veroorzaken. Hierdoor moeten de experimenten zo natuurlijk mogelijk worden opgezet. Hiervoor kan inspiratie uit observationele studies worden gehaald.

Lessen van klinische behandelingen

De gouden soort van verschillende experimentele studies is de klinische behandeling. Hierbij worden twee of meer behandelingen toegepast op menselijke subjecten in een experimentele studie. Deze klinische behandeling is verfijnd, omdat het maken van fouten bij mensen een hoge prijs kost. Bij proefdieren heet dit simpelweg laboratorium- of veldexperimenten.

Bij een studie is het belangrijk dat de bias en de effecten van een steekproeferror (verschillende achtergronden, variantie, van een steekproef) zo klein mogelijk zijn. Dit kan gedaan worden op de volgende manieren.

Het verminderen van bias:
1. Een controlegroep toevoegen die dezelfde condities heeft als de experimentele groep, maar dan zonder de experimentele interesse conditie. Dit kan uitgevoerd worden door middel van een placebo-pil bijvoorbeeld. De experimentele- en de controlegroep worden dan met elkaar vergeleken.
2. Randomnisatie: subjecten random toewijzen aan groepen. Kans, in plaats van een bewust beslissing, bepaald in welke groep een subject komt. Een manier om subjecten random toe te wijzen:

            1. Zet alle subjecten n in een lijst;
            2. Geef alle subjecten n in die lijst een random nummer;
            3. De laagste helft krijgt behandeling A en de andere helft krijgt behandeling B.

3. Blind: zowel de subjecten als de onderzoekers weten niet welke soort behandeling ze krijgen.

Oftewel, of ze in de controlegroep of de experimentele groep zitten. Als de subjecten weten in welke groep ze zitten, kunnen ze zich, bewust of onbewust, hiernaar gaan gedragen. Als de onderzoekers weten in welke groepen de subjecten zitten, kunnen ze hierbij, bewust of onbewust, hun beoordelingen over de subjecten beïnvloeden. Bij een enkel-blind onderzoek weten alleen de subjecten niet in welke groepen zitten. Bij een dubbel-blind onderzoek weten ook de onderzoekers niet in welke groepen de subjecten zitten.

Het verminderen van steekproeferror-effecten:
1. Replicatie: de studie moet op meerdere subjecten uitgevoerd worden. Dus de studie is beter uitgevoerd als er 100 subjecten meedoen in plaats van drie. Hiermee wordt dus niet bedoeld dat het experiment vaker herhaald moet worden tussen onderzoekers met nieuwe groepen. Hoe meer subjecten, hoe preciezer de conclusie. Denk hierbij aan de formule: SE_{Ŷ1- Ŷ2}= √ s²_p (1/n₁ + 1/n₂).
2. Balans: in elke groep moeten ongeveer evenveel subjecten zitten. In de formule van de steekproef error, zit het gedeelte (1 / n1 + 1 / n2). Als dit gedeelte gelijk is, zijn n1 en n2 gelijk, waardoor deze waarde kleiner is waardoor de steekproeferror kleiner wordt. In andere woorden: hoe meer balans, hoe minder steekproeferror-effecten.
3. Groeperen: is het indelen van experimentele subjecten, met gelijke eigenschappen, in blokken (groepen). In elk blok, behandelingen zijn random toegewezen aan subjecten. Een gepaarde steekproef is hier een voorbeeld van. Een gerandomniseerd blok design is hetzelfde als een gepaarde steekproef, maar met meer dan twee behandelingen.

Experimenten met meer dan één factor

Tot nu toe is er alleen gekeken naar experimenten die focussen op één factor die belangrijk is voor de onderzoeker. Vaak is het efficiënter om meerdere vragen beantwoord te krijgen in een onderzoek, dan maar één enkele vraag. Daarnaast zouden de factoren op elkaar in kunnen werken.

Een experiment met een design voor meerdere factoren (factorial design) onderzoekt alle combinaties van behandelingen voor twee of meerdere variabelen. Dit design kan ook meerdere interacties meten tussen behandelingen. De interactie houdt in dat twee verklarende variabelen van elkaar afhangen. Het effect van de ene verklarende variabele hangt af van de andere verklarende variabele. Hierdoor verschilt het hoe de respons variabele tot uiting zal komen.

Geen mogelijkheid tot experiment

Wanneer er geen mogelijkheid is tot het doen van een experimentele studie, wordt er terug gevallen op een observationele studie. Deze kan patronen ontdekken en helpen met het vormen van hypothesen. In principe, bevatten alle observationele studies dezelfde punten als de experimentele punten (controlegroep, blindheid, replicatie, balans en blokken), behalve op één vlak. Dat ene vlak is randomnisatie. Hierdoor is er een grotere kans op bias van confounding variabelen. Dit kan op twee manieren geminimaliseerd worden:

· Matching: elk individu in de behandelingsgroep is gepaard met een controle individu die dezelfde, of gelijke, waardes voor de verwachte confounding variabele heeft.

· Statistische toetsen corrigeren deze fouten. Hier wordt later in het boek nog aandacht aan besteedt.

Het kiezen van een steekproefgrootte

Het kiezen van de juiste grootte voor een steekproef is belangrijk. Een onderzoeker wil niet te weinig subjecten, omdat er anders te weinig power of precisie is. Daarbij wil een onderzoeker ook niet een te grote steekproef, aangezien deze veel meer geld en moeite kost dan een gemiddelde steekproef. Er moet hier dus een tussenweg gevonden worden. Dit kan bij elk onderzoek verschillen.

Om het aantal nodige subjecten te bepalen is er deze formule: n = (8 (σ / onzekerheid)². Hierbij geeft een grote standaarddeviatie, een grote steekproef. De onzekerheid wordt bepaald door μ₁ - μ₂. Oftewel, het gemiddelde van de experimentele groep - het gemiddelde van de controlegroep.

Vervolgens kan er ook bepaald worden, hoe groot de steekproef moet zijn om een foute nulhypothese te verwerpen. De hypothesen zijn: H₀ : μ₁ – μ₂ = 0 en H_A : μ₁ – μ₂ ≠ 0. D = |μ₁ – μ₂|. Dit is de absolute waarde voor het verschil van de twee gemiddelden waar de onderzoeker geïnteresseerd is. Deze wordt vaak op 0,80 geschat. Als het verschil tussen de gemiddelden kleiner is dan D, is de onderzoek niet geïnteresseerd in het verwerpen van de nulhypothese.

Rekening houden met dataverlies

Tijdens een onderzoek kunnen subjecten het einde van het onderzoek niet halen. Dit kan door overlijden, het verlaten van de studie om bepaalde redenen of iets anders. Hierdoor heb je eigenlijk een grotere steekproef nodig in het begin, om aan het einde nog genoeg subjecten te hebben voor genoeg power en precisie.

Tussenstuk 8: Data leeghalen

Data leeghalen wordt ook wel eens naar data vissen genoemd. Het betekent het uitvoeren van vele statistische toetsen. Hierbij wordt gehoopt dat er minstens één toets significant uit de berekeningen komt. Het probleem met data leeghalen is dat de kans op het maken van een type 1 fout, groter is dan het significantie level α wanneer veel toetsen gedaan worden. Mits de nulhypothese waar is. Dus de kans op het maken van geen type 1 fouten met N onafhankelijke toetsen is: 1 – (1 – α)^N. Met data leeghalen is een false positive niet te ontkomen. Voorbeeld: bij een α = 0,05 en N = 100 is de uitkomst op die formule 99,4%. Dit is ook het antwoord wanneer alle nulhypotheses waar zijn.

In de biologie worden heel veel toetsen op dezelfde data uitgevoerd. Hierdoor wordt de kans op een type 1 fout groter. Wat wordt hier aan gedaan? Wanneer alleen maar ontdekken worden gedaan, hoeft er niks speciaals te gebeuren. Maar wanneer een onderzoeker iets rigoureus wil bewijzen, moeten er extra stappen ondernomen worden. Deze stappen houden in dat de kans op type 1 fouten worden gecorrigeerd.

Deze correctie kan uitgebracht worden door het kleiner maken van het significantielevel, oftewel α = 0,01. Een andere correctie kan gedaan worden door de Bonferroni correctie. Hierbij wordt een ander significantielevel gebruikt. De formule is α^* = α / aantal toetsen. Hierdoor wordt vaak de echte α kleiner, waardoor ook de power reduceert. Dit is een afweging die je moet maken.
Een andere oplossing voor het corrigeren van data leeghalen is de false discovery rare (FDR). Hierbij is het de bedoeling dat alle toetsen worden uitgevoerd op eenzelfde significantielevel. Daarna wordt er gekeken welke resultaten significant uit de toetsen zijn gekomen. De FDR schat het aantal proportie false positives. Dit wordt gedaan door het aantal “discoveries” Hierdoor kan er gekeken worden naar het aantal overgebleven, en waarschijnlijke ware, verworpen nulhypotheses.
Een andere correctie is gebruik maken van de q-waarde. Deze waarde betekent hetzelfde als de P-waarde, maar is vaak kleiner en brengt een sterker bewijs tegen de nulhypothese.

15. Het vergelijken van gemiddelden tussen twee of meer groepen

In dit hoofdstuk wordt er gekeken hoe gemiddelden van meer dan twee behandelingen, vergeleken worden. De beste statistische toets hiervoor is de analyse van variantie, of ANOVA genoemd. Deze toets vergelijkt meerdere groepen tegelijkertijd in een enkele analyse. Nu wordt er een enkele factor ANOVA besproken die meerdere groepen vergelijkt qua gemiddelde, maar die verschillen qua verklarende variabele. De twee-factor ANOVA wordt in hoofdstuk 18 besproken.

De analyse van variantie

De nulhypothese bij een ANOVA toets stelt dat alle gemiddelden van de verschillende groepen hetzelfde zijn. De hypothese is: H0 : μ₁ = μ₂ = μ₃. De alternatieve hypothese bij een ANOVA toets stelt dat er tenminste één gemiddelde verschilt van de andere gemiddelden. De hypothese is: HA : tenminste één μ_iis verschillend ten opzichte van de anderen.

De error mean square van ANOVA is de gepoolde steekproef variantie. Dit is een meting van de variabiliteit tussen groepen. Gepoolde steekproef variantie is een methode voor het schatten van variantie gegeven voor verschillende steekproeven. Deze zijn genomen in verschillende omstandigheden waarin het gemiddelde kan variëren tussen metingen, maar de ware variantie wordt aangenomen dat het hetzelfde blijven.

Het andere gedeelte van de variantie is de group mean square. Dit is de variatie rondom individuen die bij verschillende groepen horen. Het zou gelijk moeten zijn aan de error mean square als de populatiegemiddelden gelijk zouden zijn.

Als de nulhypothese waar is, betekent dat de groep gemiddelden gelijk zijn. Hierbij zouden de twee mean squares, die hierboven genoemd zijn, gelijk moeten zijn. Dit betekent dat variantie onder subjecten uit verschillende groepen, niet anders moet zijn dan variantie onder subjecten uit dezelfde groep. Behalve het verschil in kans uiteraard. Als de group mean square significant groter is dan de error mean square, dan zijn er echte verschillen tussen de populatiegemiddelden. De ANOVA vergelijkt dus deze twee mean squares.

De error mean square wordt berekend door middel van deze formule: MS_error = ∑ s²_i (n_i - 1) / N - k. De s_i waardes stellen de standaarddeviatie per steekproef voor. n_i - 1 is het aantal vrijheidsgraden per groep. Deze hoort uiteraard bij de gepoolde steekproef variantie.

De group mean square wordt berekend door middel van deze formule: MS_groups = ∑n_i (Ŷ_i - Ŷ)² / k - 1. k is het totaal aantal groepen en door er 1 van af te halen wordt het het aantal vrijheidsgraden. Ŷ is het gemiddelde van alle groepen bij elkaar, ook wel de grand mean genoemd.

De nulhypothese stelt dus dat alle gemiddelden van alle groepen gelijk zijn. De bijbehorende variantie onder individuen die tot verschillen groepen behoren (MS_groups), zou dan hetzelfde moeten zijn als de variantie onder individuen die tot dezelfde groepen behoren (MS_error). Bij de ANOVA toets wordt hiervan het verschil berekend. Dit wordt gedaan door de variantie ratio F. De formule is: F = MS_groups / MS_error. Bij een F onder de 1 wordt de nulhypothese niet verworpen. Als de waarde van F groter is dan 1, dan wordt de nulhypothese wel verworpen. Daarnaast kan de echte P-waarde nog berekend worden voor precisie. Hierbij moet de tabel D gebruikt worden en het aantal vrijheidsgraden moet bekend zijn. Zo kan er gekeken worden welke waarde vergeleken moet worden met de F-waarde. Als de F-waarde groter is dan de waarde uit de tabel, dan is die waarde kleiner dan 0.05 en kan de nulhypothese verworpen worden.

De ANOVA tabel, die gebruikt wordt in onder andere computerprogramma’s, bevat de variantiebron, de sum of squares, het aantal vrijheidsgraden, de enkele mean squares, de F-ratio en de P-waarde.

De verklaarde variantie r² wordt gebruikt bij ANOVA toetsen om de bijdrage van de groepverschillen, ten opzichte van de variabiliteit, samen te vatten. De formule van de verklaarde variantie is: r² = SS_groups / SS_totaal met SS_totaal = SS_groups + SS_error. Het is een manier om te zien hoe de geobserveerde punten rondom het groepsgemiddelde liggen vergeleken met de geobserveerde punten rondom de grand mean.

Daarnaast ligt r² altijd tussen de nul en de één. Wanneer de r² dicht bij nul ligt, dan zijn de groepgemiddelden zeer gelijk. Dit betekent dat de verklarende variabele heel weinig zegt over de variantie van Y. Andersom geldt, wanneer r² dicht bij één ligt, dan zijn de groepsgemiddelden zeer verschillend. Dit houdt in dat de verklarende variabele de variantie van Y bijna volledig verklaard.

De analyse van variantie, ANOVA, kan ook gebruikt worden wanneer het aantal groepen k twee is. De two-sample t-test en ANOVA geven namelijk dezelfde uitkomsten bij het testen van H₀ : μ₁ = μ₂. Een voordeel van de two-sample t-test is dat deze makkelijk genereerbaar is naar andere hypothese verschillen tussen het gemiddelde. Een voorbeeld hiervan is H₀ : μ₁ - μ₂. Terwijl de Welch’s test beter in gebruik is wanneer de varianties erg verschillen. Voor ANOVA is het beter om gelijke varianties van verschillende groepen te hebben.

Aannames en alternatieven
De aannames voor ANOVA gelden hetzelfde als voor de two-sample t-test, maar dan moeten de aannames voor alle groepen k gelden. De aannames zijn dat de metingen in elke groep uit een random getrokken steekproef zijn, de variabele is normaal verdeeld in elke groep en de variantie is in elke populatie hetzelfde.
ANOVA is verassend robuust. Dit komt onder andere door de centrale limiet theorie. Daarnaast is ANOVA redelijk robuust aangezien de aanname geldt dat de variantie overal aardig gelijk moet zijn. Dit geldt alleen als de steekproeven ongeveer dezelfde grootte hebben.
ANOVA kan ook getransformeerd worden. De mogelijkheden hiervoor zijn beschreven in het hoofdstuk over ‘Omgaan met schendingen van de aannames’.
Wanneer de aannames niet gewaarborgd worden en transformaties niet werken, kan de Kruskal-Wallis test gebruikt worden. Dit is een non-parameter methode die gebaseerd is op ranken. Deze test is gelijk aan de Mann-Whitney U-test, maar dan kan deze test gebruikt worden voor twee of meer groepen.

De aannames zijn dat alle steekproefgroepen random getrokken moeten zijn. Daarnaast moet voor het willen gebruiken van de Kruskal-Wallis test, dus voor het testen van verschillen in gemiddelden of medianen in populaties, de variabele-verdeling dezelfde vorm hebben in elke populatie.
De Kruskal-Wallis test begint, eveneens als de Mann-Whitney U-test, met het ordenen van de data van alle groepen samen. De som van alle ranken voor elke groep is dan gebruikt voor de teststatistiek H. Het boek raadt aan om voor deze test de computer te gebruiken. Vandaar dat de formule ontbreekt. De X² verdeling wordt gebruikt voor het bepalen van de P-waarde met het aantal vrijheidsgraden k (het aantal groepen) – 1.

De Kruskal-Wallis test heeft net zoals de Mann-Whitney U-test weinig power als de steekproeven erg klein zijn. Daarom krijgt de ANOVA test de voorkeur, maar als deze door het schenden van aannames niet gebruikt kan worden, is de Kruskal-Wallis test een goed alternatief.

Geplande vergelijkingen
Het vergelijken van gemiddelden is de eerste stap, maar het is ook belangrijk om te kijken welke gemiddelden nou verschillen en in welke mate. Hier zijn twee soorten benaderingen voor. De eerste is een geplande vergelijking. De tweede soort benadering is een ongeplande vergelijking.
Een geplande vergelijking is een vergelijking tussen twee interessante gemiddelden waarvoor het verkrijgen van de data, het design, op afgesteld wordt. De gemiddelden worden, voordat de data onderzocht wordt, alvast vergeleken. Hiervoor is een sterk vermoeden nodig, van bijvoorbeeld een eerdere theorie of studie. Een klein aantal geplande vergelijkingen is toegestaan aangezien het de kans op een type 1 fout verhoogt.
Deze methode is erg gelijk aan de two-sample vergelijking gebaseerd op de t-verdeling. Alleen wordt de standaard error anders berekend. Bij een two-sample t-test wordt de standaard error berekend door de gepoolde steekproefvariantie van de twee groepen die vergeleken worden. Bij een geplande vergelijking worden alle groepen gebruikt, in plaats van alleen de twee gebruikte groepen. Dit verhoogt de precisie en de power. Daarnaast gaat deze benadering ervan uit dat de variantie hetzelfde is in alle groepen. De formule is: t = (Ŷ_i – Ŷ_j) / SE met SE = MS_error(1 / n_i + 1 / n_j). n zijn de steekproefgroottes.

De aannames zijn hetzelfde als voor ANOVA, dus een random getrokken steekproef en gelijke varianties, maar helaas is deze geplande vergelijk minder robuust dan ANOVA. Dit komt doordat elke vergelijking uiteindelijk over twee gepaarde gemiddelden gaat.

Ongeplande vergelijkingen
De formule van geplande vergelijkingen is niet hetzelfde als voor ongeplande vergelijkingen. Dit komt doordat er een hogere kans op type 1 fouten is, omdat we in de data op zoek gaan naar interessante verschillen. Dit kan gedaan worden als de testen goed uitgevoerd worden. Voor ongeplande vergelijkingen wordt de Tukey-Kramer test gebruikt. De test gaat ervan uit dat een ANOVA test al is uitgevoerd en dat de nulhypothese, die meldt dat er geen verschillen zijn tussen de groepen, verworpen is. De Tukey-Kramer test werkt als een aantal two-sample t-testen bij elkaar, maar de criteriumwaarde is groter zodat de kans op een type 1 fout kleiner wordt. De kans op het maken van ten minste één type 1 fout is niet groter dan het significantielevel.
De eerste stap bij de Tukey-Kramer test is om alle gemiddelden te orden van laag naar hoog. Daarna wordt elke gemiddelde stuk voor stuk met de andere gemiddelden vergeleken. De formule is: q = (Ŷ_i – Ŷ_j) / SE met SE = MS_error(1 / n_i + 1 / n_j) en i ≠ j. Wederom is n de steekproefgrootte van één van de groepen.

De aannames zijn hetzelfde als ANOVA; dus de steekproeven moeten random getrokken zijn, de populatie is normaal verdeeld en er zijn gelijke varianties in elke groep. De Tukey-Kramer test is alleen niet zo robuust, omdat de gemiddelden stuk voor stuk met elkaar vergeleken worden.

De P-waarde is exact als het experimentele design gebalanceerd is. Dit betekent dat steekproeven allemaal even groot moeten zijn. Wanneer de steekproeven verschillen in grootte, is de test conservatief. Dit houdt in dat de echte kans op het maken van tenminste één type 1 fout, kleiner is dan de vastgestelde criteriumwaarde. Dit maakt het moeilijker om de nulhypothese te verwerpen.

Vastgestelde en random effecten
Tot nu toe zijn er alleen vastgestelde groepen gebruikt. Deze zorgen er voor dat de verklarende variabele van te voren is vastgesteld, dat deze van direct belang is en dat deze herhaalbaar is. Een andere vorm van ANOVA is waarbij de groepen niet vastgesteld staan, maar juist random gekozen. Deze zijn niet van te voren vast gesteld, maar zijn random getrokken uit een grotere ‘populatie’ van veel mogelijke groepen. Deze vorm van ANOVA kan dan gegeneraliseerd worden naar de populatie. Dit komt doordat de groepen random getrokken zijn.

ANOVA met random getrokken groepen
Aangezien de random effecten niet van specifiek belang zijn, zijn ze niet altijd even handig om te gebruiken. In plaats daarvan, kan ANOVA met random effect gebruikt worden voor het schatten van variantie componenten. Dit is het meten van de impact van de varianties binnen en tussen groepen.

Als er maar één verklarende variabele is, dan zijn de berekeningen, bij een ANOVA met random effecten en bij een ANOVA met vastgestelde effecten, hetzelfde. Deze twee effecten verschillen van elkaar omdat de random effecten twee levels van random variantie hebben. Het eerste level is de variantie binnen in groepen. Het symbool wat we hiervoor gebruiken is σ². De enige beste schatting voor σ²is de MS_error. Het tweede level is de variantie tussen groepen. Hier wordt ervan uit gegaan dat elke groep zijn eigen gemiddelde heeft met een rand mean μ_A. Het symbool voor de variantie tussen groepen is σ_A². De waardes σ² en σ_A² zijn de variantie componenten.
Het group mean square kan gebruikt worden om σ_A² te schatten. Dit is de formule: s_A² = MS_groups – MS_error / n. Met het aantal groepen n.

Herhaalbaarheid is de fractie van de opgetelde variantie tussen groepen. De formule is: herhaalbaaheid = s_A² / s_A² + MS_error. De herhaalbaarheid meet de totale gelijkheid van herhaalde metingen, die gemaakt zijn in dezelfde groep. Een herhaalbaarheid waarde die dicht bij nul ligt, houdt in dat bijna alle variantie in de verklarende variabele resulteren in verschillen tussen afzonderlijke metingen, gemaakt in dezelfde groep.
De herhaalbaarheid en de verklaarde variantie zijn niet hetzelfde. Herhaalbaarheid reflecteert de impact van variantie componenten. Terwijl de verklaarde variantie alleen maar het verschil meet tussen groepgemiddelden en de grand mean.

De aannames voor random effecten zijn hetzelfde als de aannames van vastgestelde effecten. Alleen bij de random effecten moeten de groepen random getrokken zijn en de groepgemiddelden moeten normaal verdeeld zijn in de populatie.

Tussenstuk 9: Experimentele en significantie fouten

Ondanks dat onderzoekers voorzichtig en ambitieus onderzoek doen, kunnen er toch nog fouten gemaakt worden. Experimentele fouten zijn fouten die tijdens het experiment fout gingen. Het protocol is opgesteld om ieder subject hetzelfde te behandelen en dezelfde taak uit te laten voeren. Een experimentele fout is een kleine variatie op het protocol en eigenlijk niet de bedoeling.
Het is zeer moeilijk, als het niet onmogelijk is, om te weten hoeveel fouten er zijn gemaakt en hoeveel impact deze fouten hebben. Impact op het onderzoek, maar ook in de hele wetenschap. Het is daarom ook belangrijk dat onderzoeken gerepliceerd worden. Op die manier kunnen er fouten ontdekt worden.

Het moraal van het verhaal is dat je voorzichtig met onderzoek moet zijn. Maar je moet ook zeker voorzichtig zijn met het lezen van onderzoeksresultaten en kritisch blijven.

16. Correlatie tussen numerieke variabelen

Wanneer er een associatie is tussen variabelen, zijn deze gecorreleerd aan elkaar. Er bestaat dan bijvoorbeeld een correlatie tussen de breinmassa en de lichaamsmassa.

Het schatten van een lineaire correlatie coëfficiënt
De correlatie coëfficiënt meet de kracht en richting van een lineaire associatie tussen twee numerieke variabelen. De letter ρ (rho) staat voor de correlatie coëfficiënt in de populatie. De letter r staat voor de correlatie coëfficiënt van een steekproef, getrokken uit de populatie. Voornamelijk zal je de correlatie coëfficiënt van een steekproef gebruiken. De formule voor de correlatie coëfficiënt is:

r = ∑(X - x̅) (Y - Ŷ) / √∑(X – x̅)² √∑(Y – Ŷ)²

Deze formule berekent hoe de deviaties tussen X en Y samen variëren. Een deviatie is het verschil tussen observatie en zijn gemiddelde.

De correlatie coëfficiënt kan tussen de -1 en de 1 liggen. Als de correlatie coëfficiënt bij de 1 of -1 ligt, betekent het dat de punten in een rechte lijn liggen en een sterke relatie is tussen de twee variabelen. De grafiek die bij de verklarende variabele toeneemt, de respons variabele ook toeneemt hoort, is een scatterplot. Als de correlatie coëfficiënt positief is, lopen de punten van links onder naar rechts boven. Dit houdt in dat wanneer de waarde van Y toeneemt, de waarde van X ook toeneemt. Als de correlatie coëfficiënt negatief is, lopen de punten van links boven naar rechts onder. Dit houdt in dat wanneer de waarde van Y afneemt, de waarde van X juist toeneemt. Wanneer de correlatie 0 is, is er geen relatie tussen de variabelen.

De standaarderror van de correlatie coëfficiënt wordt gebruikt om te bepalen hoe dichtbij de schatting van de steekproef, de populatie bereikt. Deze is alleen niet heel ideaal om een betrouwbaarheidsinterval te berekenen, omdat de steekproefverdeling van de correlatie coëfficiënt niet normaal is. De formule is: SE_r = √1 – r² / n – 2.

Het betrouwbaarheidsinterval berekend hoeveel procent van alle steekproefgemiddelden, binnen een bepaalde range zullen vallen. Fisher heeft een methode ontdekt om deze te berekenen voor de populatie ζ. Deze is omgezet voor het gebruik bij een steekproef. De formule is: z = 0,5 ln (1 + r / 1 - r). Waarbij ln de log-functie is. De standaard error voor de steekproefverdeling van z is de formule: σ_z = √1 / n – 3. Met deze teststatistieken kan het betrouwbaarheidsinterval berekend worden. De formule bij een 95% betrouwbaarheidsinterval is: z – 1,96 σ_z z. Bij een betrouwbaarheidsinterval met een ander percentage, is ook de Z-waarde anders.
De laatste stap bij het formuleren van een betrouwbaarheidsinterval, is het omzetten van het betrouwbaarheidsinterval voor de steekproef naar het betrouwbaarheidsinterval van de populatie. De formule is: r 2z – 1 / e^2z + 1. De waarde e is een constante met de waarde 2,718. Bedenk wel dat dit alsnog een schatting is naar de populatie toe.

Het testen van de nulhypothese met een waarde van nul
Meestal wordt bij het hypothese toetsen gesteld dat de waarde van de populatie nul is. De hypothesen zien er dan als volgt uit. H₀ : ρ = 0 en H_A : ρ ≠ 0. De nulhypothese zegt dat er geen relatie is tussen twee variabelen. De alternatieve hypothese zegt dat er wel een relatie is tussen twee variabelen.

Om de hypothesen te toetsen worden uiteraard de correlatie coëfficiënt r en de standaard error van de correlatie coëfficiënt SE_r berekend. Deze komen dan samen in een formule die betrekking heeft op de t-verdeling. De formule is: t = r / SE_r. Hier komt een waarde uit die vervolgens opgezocht kan worden in de tabel van de t-verdeling. Uit de tabel kan worden afgelezen welke P-waarde bij deze hypothesen eruit komt. Als laatste kan, uiteraard, gekeken worden of de nulhypothese wel of niet verworpen wordt.

Aannames
Correlatie analyses gaan ervan uit dat de steekproef random getrokken is uit de populatie. Daarnaast gaan deze analyses ervan uit dat de metingen een bivariate normaal verdeling hebben in de populatie. Dit houdt in dat de verdeling normaal is met drie dimensies in plaats van twee. Hierbij is de relatie tussen X en Y lineair. Ook hebben de puntwolken in een scatterplot een circulaire of elliptische vorm. Daarnaast is de frequentieverdeling van X en Y apart ook normaal verdeeld. Ook hierbij helpen grafieken, hier de scatterplot, om te zien of deze aannames worden gewaarborgd. Er kan dan gezien worden of er uitbijters zijn, of de relatie tussen X en Y niet lineair is of dat de puntenwolk als een trechter (smal aan de ene kant en breed aan de andere kant) gevormd is.
Wanneer de aannames niet gewaarborgd worden, zijn er twee strategieën beschikbaar. De strategieën zijn het transformeren van de data of het gebruik maken van non-parameter methoden. Het beste is om eerst te proberen of transformatie werkt. De meest gebruikte transformaties zijn de logtransformatie (een universele transformatie), de square-root transformatie (voor data die tellingen bevat) en de arcsine transformatie (voor dataproporties). Logtransformaties zijn goed om te proberen wanneer de relatie tussen twee variabelen niet lineair is of als de variantie van een variabele stijgt bij een waarde van de andere variabele.
Als de transformaties niet werken, wordt een non-parameter methode gebruikt. Dit is bijvoorbeeld de Spearman’s rank correlatie.

De correlatie coëfficiënt hangt af van de range
De correlatie tussen twee variabelen hangt af van het aantal waardes gekozen voor de X-as en de Y-as. Wanneer er een kleinere X-as is gekozen, lijkt deze sterker gecorreleerd met de variabele Y. Hierdoor mogen correlaties niet zomaar met elkaar vergeleken worden. Er moet namelijk een gelijk range gekozen worden tussen de verschillende correlatie-scatterplots.

Spearman’s rank correlatie
In sommige gevallen worden de aannames niet gewaarborgd, zelfs niet als er transformaties hebben plaatsgevonden. Hiervoor is de non-parameter methode Spearman’s rank correlatie. Deze meet de kracht en richting van een lineaire associatie tussen de ranken van twee variabelen. Deze methode maakt geen aannames over de verdeling, wel moet de steekproef random getrokken zijn uit de populatie. Er kan zelfs een correlatie berekend worden tussen een categorische variabele en een andere (categorische) variabele. Deze waardes worden dan door middel van ranken geordend en krijgen zo een numerieke waarde. Dit wordt wel apart gedaan per steekproef en van laag naar hoge geordend.

De formule die wordt gebruikt voor het berekenen van de correlatie is hetzelfde als die eerder genoemd is (r = ∑(X - x̅) (Y - Ŷ) / √∑(X – x̅)² √∑(Y – Ŷ)²). Daarnaast hebben de hypothesen hetzelfde bericht: H₀ : ρ = 0 en H_A : ρ ≠ 0. Tabel G, speciaal voor Spearman’s rank correlatie, wordt hier gebruikt om te bepalen of de nulhypothese verworpen wordt. Wanneer de berekende correlatie groter is dan de bijbehorende waarde uit de tabel, wordt de nulhypothese verworpen. Er kan dan worden gezegd dat er een bepaalde correlatie tussen de variabelen is.

Bij een steekproefgrootte groter dan 100 wordt er een andere procedure gevolgd. Deze bevat de formules t = r / SE_r met SE_r = √1 – r² / n – 2. De nulhypothese mag verworpen worden bij t ≥ t_0,05(2),n-2 of t ≤ -t_0,05(2),n-2.

De effecten van meetfouten bij correlaties
Wanneer een variabele niet precies genoeg is gemeten, heet dat een meetfout. Deze meetfouten zijn moeilijk uit te sluiten. Soms horen ze zelfs bij de data. Een meetfout in X of Y zwakt de correlatie tussen deze twee variabelen af. Dit gebeurt ook wanneer er meetfouten zitten in beide variabelen. Als de variabelen X en Y tenminste niet gecorreleerd zijn. Hierbij wordt de impact van ρ onderschat, waardoor de waarde dichter bij nul ligt dan de echte waarde. Deze bias heet attenuatie (verzwakking).

Er is een bescheiden oplossing hiervoor. De correlatie coëfficiënt kan gecorrigeerd worden door middel van de formule: r* = r / √R_XR_Y. De R is de herhaalbaarheid en kan berekend worden door de formule: R = s_A² / s_A² + (MS_error/m) met s_A² = MS_groups – MS_error / m waarbij m het aantal herhaalde metingen zijn. De herhaalbaarheid wordt per variabele, X of Y, apart berekend. Deze r* kan de eerder berekende r niet vervangen, maar er kan wel gekeken worden naar het verschil tussen deze correlaties.

Tussenstuk 10: Publicatie vooroordeel (bias)

Over het algemeen geloven wij studies en wetenschappers die schrijven over de onderzoeken die zijn uitgevoerd. We lezen dat de nulhypothese netjes verworpen is bij een significantielevel van 0,05 en accepteren dit eveneens. Het blijkt alleen dat maar een deel van de onderzoeken gepubliceerd wordt. Een argument hiervoor is dat de beter uitgevoerde onderzoeken gepubliceerd worden. Logisch! Een ander argument is dat alleen de interessante onderzoeken met een verworpen nulhypothese gepubliceerd worden. Dit is iets minder logisch, aangezien ook de onderzoeken zonder een verworpen nulhypothese interessant kunnen zijn. Het resultaat hiervan is dus dat de gepubliceerde wetenschap een vooroordeelde, biased, selectie is van alle onderzoeken. Publicatie vooroordeel is het verschil tussen het ware effect en het gemiddelde effect gepubliceerd in tijdschriften. Aangezien alle wetenschappers toestemming voor hun onderzoek moeten krijgen, is er bekend hoeveel onderzoek er gedaan wordt. Daarnaast is het uiteraard bekend hoeveel gepubliceerd wordt, waardoor het duidelijk wordt hoe groot het publicatie vooroordeel is. Ook treedt er publicatie vooroordeel op doordat studies met weinig subjecten minder vaak gepubliceerd worden, dan studies met veel subjecten. Een opmerking hierbij is nodig, want grotere studies zijn vaker significant en significant de nulhypothese verwerpen was interessant om te lezen. Ook zijn er onderzoekers die vinden dat hun onderzoek te weinig power heeft door een te kleine steekproef, waardoor ze hun onderzoek niet eens willen plaatsen.

Een trechterplot is een scatterplot van de effectgrootte gedetecteerd in gepubliceerde onderzoeken en hun bijbehorende steekproefgroottes. Op de x-as staan de steekproefgroottes en op de y-as staat de effectgrootte. Elk punt in dat scatterplot is een ander onderzoek. De middenstreep representeert de nulhypothese in alle onderzoeken. De gele lijnen zijn de kritieke waardes voor het testen van de nulhypothese. De punten die hier buiten vallen zijn significant bij een significantielevel van 0,05. Wat opvalt zijn de kleinere studies die hier significant zijn. Een antwoord op deze rare patronen is dat vele kleine studies niet gepubliceerd zijn en niet meetellen in de trechterplot. Een andere implicatie is, is dat de effectgrootte bij veel onderzoeken overdreven is, waardoor de gemiddelden niet kloppen.

Een ander zeer schokkend probleem is dat medicijnonderzoeken significant vaak positief uitkomen voor de medicijnproducenten. Hierdoor lijkt het alsof het ene medicijn beter is dan het andere medicijn van een andere firma, terwijl dit helemaal niet zo hoeft te zijn.

17. Regressie

Regressie wordt gebruikt om een waarde van een numerieke variabele te voorspellen door middel van een andere variabele. De lijn die door de scatterplot loopt, is de regressielijn. Deze kan de respons variabele voorspellen op basis van de verklarende variabele. Het verschil tussen de correlatie coëfficiënt en de regressie is dat de correlatie coëfficiënt de variabelen gelijk behandeld en het verband tussen de twee berekend. Terwijl de regressie de ene variabele kan voorspellen op basis van de andere variabele.

Lineaire regressie
De meest gebruikte regressie is de lineaire regressie. Deze trekt een rechte lijn door de data om een voorspelling te doen. De respons variabele staat op de Y-as en de verklarende variabele op de X-as. De aanname hierbij is erg belangrijk. De relatie tussen de twee variabelen moet ook echt lineair zijn.

De vraag is nu, op welke manier kan je het beste een lijn door de data trekken? Een methode is de kleinste kwadraten regressie. Hierbij worden de deviaties berekend tussen X en Y. Daarna worden deze deviaties gekwadrateerd. Het kwadrateren is nodig zodat de negatieve waarden de positieve waarden niet weer opheffen waardoor je uitkomt op nul.

De algemene formule voor de regressielijn is: Y = a + bX. Y is daarbij de respons variabele. a is de intercept, deze is de waarde van Y wanneer X=0. b is de helling. Het laat zien hoeveel Y verandert per verandering in X. Als b positief is, dan stijgt de regressielijn. Als b negatief is, dan daalt de regressielijn. Als b de waarde nul heeft, loopt de regressielijn plat. De waarde van a geeft aan waar de regressielijn begint. De formule van b en a is:

b = ∑(X - x̅) (Y - Ŷ) / ∑(X – x̅)² en a = Ŷ - bx̅

Deze formules zijn de schattingen van de populatie regressielijn (Y = α + βX). Daarnaast wordt er bij de correlatie coëfficiënt vanuit gegaan dat er voor elke Y-waarde een X-waarde is. Bij de regressie gaan er vanuit dat er een mogelijkheid bestaat dat er voor elke Y-waarde een X-waarde is. Dus de ware regressielijn verbindt de gemiddelden Y-waardes voor elke X-waarde. Hierdoor worden er voorspellingen (Ŷ) gedaan over waardes die buiten de echte data zouden kunnen liggen.

Residuen meten de punten boven en onder de regressielijn. Een residu wordt aangegeven door Ŷ_i. Deze wordt berekend door de geobserveerde waarde en de voorspelde waarde (Y_i – Ŷ_i). De residuen mean square MS_residu is de verdeling van alle punten boven en onder de regressie lijn. De formule is: MS_residu = ∑(Y_i – Ŷ_i)² / n – 2. Gelukkig is er ook een formule waarbij je niet alle Ŷ_i hoeft te berekenen. De formule is: MS_residu = ∑(Y_i – Ŷ)² - b∑(X_i - x̅) (Y_i – Ŷ) / n -2.

Ook bij deze teststatistiek, de regressie, is er onzekerheid over het schatten. Hierbij is er een onzekerheid over de helling van de regressielijn. Dit wordt aangegeven door SE_b = √ MS_residu / ∑(X_i – x̅)². Hoe kleiner deze SE_b, waardoor de onzekerheid kleiner is en hoe hoger de precisie is.

Het betrouwbaarheidsinterval voor de helling is: b - t_α(2),df SE_b α(2),df SE_b.

Zekerheid in voorspellingen
Er zijn twee soorten voorspellingen: 1) specifieke voorspellingen voor een waarde van Ŷ en 2) een gemiddelde voorspelling tot of vanaf een bepaalde waarde. Betrouwbaarheidslijnen bij een regressielijn meten de precisie voor het voorspelde gemiddelde van Y voor elke waarde van X. Voorspelling intervallen meten de precisie van een enkele voorspelde Y-waarde voor elke X-waarde.

Extrapolatie is de voorspelling van een respons variabele buiten het bereik van de X-waardes uit de data. Een opmerking hierbij moet gemaakt worden. Er zijn namelijk grenzen tot aan waar je kan extrapoleren. In de afgelopen dertig jaar zijn dames atleten de marathon sneller gaan lopen. Dit betekent alleen niet dat de dames atleten de marathon over een aantal decennium in nul minuten gaan lopen. De grafiek loopt tenslotte door met dezelfde daling met de informatie die we op dit moment hebben.

Hypothesen testen over een helling (b)
Hypothesen testen bij regressielijnen wordt gebruikt om te evalueren of de populatie helling gelijk is aan de nulhypothese waarde, β₀, die vaak nul wordt gesteld. De test statistiek t heeft de volgende formule: t = b - β₀ / SE_b. Hierbij zijn de hypothesen als volgt: H₀ : β₀ = 0 en H_A : β₀ ≠ 0. De nulhypothese stelt dat de helling van de regressielijn nul is. Terwijl de alternatieve hypothese stelt dat de helling van de regressielijn niet nul is. Uiteraard worden de helling (b) en het intercept (a) met de eerder genoemde formules berekend. Vervolgens zijn de MS_residu en de standaard error (SE_b) aan de beurt. Daarna kan de t-statistiek uitgerekend worden waarbij β₀ de waarde nul heeft, zoals de nulhypothese stelt. Het aantal vrijheidsgraden is hierbij n - 2. Daarna kan er in tabel C gekeken worden naar de kritieke waarde. Als de berekende t-waarde kleiner is dan de tabelwaarde, mag de nulhypothese verworpen worden.

Dit kan ook berekend worden door de teststatistiek ANOVA. Dit gaat hetzelfde als eerder in het hoofdstuk over ‘Het vergelijken van gemiddelden tussen twee of meer groepen’.

De verklaarde variantie r² geldt ook hierbij. Als de formule r² = SS_regression / SS_Total de 1 benadert, dan voorspelt X de meeste variantie in de Y-waardes en andersom.

Regressie richting het gemiddelde
Regressie richting het gemiddelde resulteert wanneer twee variabelen een correlatie minder dan één hebben. Individuen die ver van het gemiddelde liggen voor de ene meting, zullen gemiddeld dichter bij het gemiddelde liggen bij de volgende meting. Dit geldt ook andersom. Individuen die dichtbij het gemiddelde liggen voor de ene meting, zullen gemiddeld verder weg van het gemiddelde liggen bij de volgende meting. Dit komt doordat de extreem hoge of de extreem lage gemeten gemiddelden niet de ware gemiddelden zijn voor de bedoelde variabelen. Dit is een groot probleem in de medische experimenten.
Mensen in medische experimenten zijn over het algemeen altijd ziek. Dit is namelijk een vereiste om aan een medisch experiment mee te mogen doen. Deze mensen kunnen over de tijd heen beter worden, ook al werkt het medicijn niet. Dit wordt de regressie drogreden genoemd. Om deze reden moet er altijd een controlegroep gebruikt worden.

Aannames van de regressie

Voor precisie bij het hypothesen testen en het maken van betrouwbaarheidsintervallen, zijn er ook aannames. Deze houden het volgende in:

1. Voor elke waarde van X, is er een populatie van mogelijke Y-waardes waarvan het gemiddelde op de ware regressielijn ligt. Oftewel, de aanname dat de relatie lineair moet zijn.

2. Voor elke waarde van X, de verdeling van de mogelijke Y-waardes is normaal.

3. De variantie van elke Y-waarde, is hetzelfde voor elke waarde van X.

4. Voor elke waarde van X, de Y-metingen representeren een random getrokken steekproef uit een populatie met mogelijke Y-waardes.

Uitbijters kunnen een sterke invloed hebben op de regressielijn. Onderzoekers vergelijken vaak de regressielijn met én zonder de uitbijter. Ze zijn vooral van invloed als op of verder van de grens liggen dan de meeste punten. Een alternatief is om een transformatie te doen. Hierdoor zou de uitbijter dichterbij de andere punten kunnen liggen. Een ander alternatief is om een andere benadering te zoeken, dus niet de regressie, om een associatie te bepalen.

Het detecteren van een non-lineair verband, kan gedaan worden door het maken van een scatterplot. Het “smoothen” van een scatterplot is een methode om te zien of er een lineair verband is of niet. Dit wordt verder besproken onder het kopje ‘Non-lineaire regressie’.

Voor het detecteren van een niet normaal verdeling of een ongelijke variantie, kan een residuen plot gemaakt worden. Dit is een scatterplot van alle residuen voor elk datapunt (Y_i - Ŷ_i), uitgezet tegen de bijbehorende waarde van de verklarende variabele X_i. Als de aannames voor een normaal verdeling en een gelijke variantie gewaarborgd worden, hebben de residuenplotten de volgende kenmerken:

1.Een symmetrische puntenwolk boven en onder de horizontale lijn. Deze begint vanaf de waarde 0 op de x-as. Daarbij is er een grotere dichtheid van punten dichtbij de lijn, dan verder weg van de lijn.

2.Een kleine, bijna onmerkbare kromming in de lijn.

3.Een eerlijke verdeling van punten boven en onder de lijn. Dit is in verband met de variantie.

Transformaties

Sommige non-lineaire relaties kunnen lineair gemaakt worden. Voorbeelden hiervan zijn de power en exponentiële relaties. Deze kunnen lineair gemaakt worden door een logtransformatie. Daarnaast kunnen ook andere aannames van een lineaire regressie gewaarborgd worden door te transformeren.

De effecten van meetfouten op regressie

Een meetfout ontstaat als een variabele niet precies genoeg is gemeten. Toch zijn deze makkelijk te maken in de biologie waardoor ze bij de variantie horen. De effecten van meetfouten bij regressie zijn anders dan de effecten bij correlatie en hangen af van de variabele. Meetfouten bij de variabele Y maken de residuen groter, aangezien er een grotere variantie is. Dit gebeurt ook bij meetfouten van de variabele X, maar daarbij komt dat er bias is in de verwachte schatting van de helling. Dit betekent dat b dichter bij nul zal liggen, gemiddeld gezien, dan bij de populatie hoeveelheid.

Non-lineaire regressie

Transformaties helpen niet altijd bij het omzetten van een non-lineaire regressie naar een lineaire regressie, zodat deze gebruikt kan worden bij lineaire statistiek toetsen. Hieronder volgen een aantal manieren van non-lineaire statistiek toetsen. Daarbij moeten deze statistiek toetsen en data zo simpel mogelijk gehouden worden om berekeningen te kunnen uitvoeren en uiteindelijk te begrijpen wat de berekening inhoudt.

Een kromming met een asymptoot ziet eruit als een stijgende lijn die plotseling met een bocht naar rechts loopt. Hierbij hoort de Michaelis-Menten vergelijking. De formule is: Y = aX / b + X. De kromming stijgt vanaf de Y-intercept bij nul en neemt toe met een afnemende snelheid bij elke stijgende waarde van X. Uiteindelijk wordt de asymptoot bereikt. Dit is de vlak lopende lijn. In de formule is dit de constante a. De b bepaalt hoe snel de kromming zich vormt tot de asymptoot.

De quadratische kromming wordt gebruikt om data te begrijpen die in een parabool loopt. De formule hierbij is: Y = a + bX + cX². Als de c een positief getal is, dan loopt de parabool in een U-vorm. Als de c een negatief getal is, dan loopt de parabool in een bergvorm.

De keuze maken tussen het gebruik van een asymptoot kromming of een quadratische kromming ligt aan de data. Hierbij moet er gekeken worden naar de scatterplot en hoe de punten lopen.

Met behulp van de computer kan de data zonder specifieke formule glad gemaakt worden. Hierbij wordt het duidelijker hoe de data loopt. De gladmaak coëfficiënt (“smoothing coefficient”) bepaald hoe hobbelig de curve is. Hoe groter deze coëfficiënt is, hoe gladder de curve uiteindelijk.

Logistiek regressie is een speciale vorm van non-lineaire regressie voor binaire respons variabelen. Hierbij kan Y alleen één of nul aannemen. Hierbij moet de voorspelde kans ook tussen één en nul blijven. De formule is: log-odds(Y) = a + bX.

Tussenstuk 11 Het gebruik van soorten als datapunten

In veel biologische onderzoeken worden soorten, zoals vogels of het aantal zoogdieren, gebruikt als datapunten. Een hypothese over een gemiddelde bijvoorbeeld wordt dan vergeleken met die datapunten. Een nadeel hier alleen is, is dat deze datapunten vaak niet onafhankelijk zijn. Soorten hebben namelijk een hele geschiedenis aan evolutieprocessen. Twee soorten zijn relatief sterk verwant als ze dezelfde voorouder hebben. Soorten zijn relatief minder verwant wanneer ze hele verschillende voorouders hebben, of de voorouders liggen verder uit elkaar. Sterk verwante soorten zijn over het algemeen meer gelijk aan elkaar dan twee soorten die random gekozen zijn. Dit betekent dat soorten als datapunten niet onafhankelijk zijn.

Wanneer twee numerieke variabelen in een scatterplot worden geplaatst, kan het zijn dat deze lineair is. Deze scatterplot bevat dan bijvoorbeeld tien soorten. Elke vijf soorten hebben eenzelfde voorouder. Dit betekent dus dat er twee groepen zijn met onderling dezelfde voorouders. Deze twee groepen komen onderling overeen met elkaar op de twee vlakken van de scatterplot, X en Y. Alleen wanneer je de twee groepen apart in een scatterplot plaatst, is er geen lineair verband. Wat kan dus gedaan worden omtrent de afhankelijkheid van data van soorten met een gedeelde evolutionaire geschiedenis? De meest gebruikte methode voor het analyseren van associaties tussen continue veranderende soorten is bekend als het ‘fylogenetische onafhankelijk contrast’. Dit wordt verder niet duidelijk gemaakt in het boek.

18. Meerdere verklarende variabelen

In de meeste onderzoeken worden meerdere verklarende variabelen gebruikt zodat er ook meerdere antwoorden gegeven kunnen worden op onderzoeksvragen. Hierdoor volgt er een speciaal design voor het onderzoek. Drie eerder besproken designs zijn de basis in dit hoofdstuk. Dit zijn het blocking design voor het beter ontdekken van behandelingseffecten, het factorial design voor experimenten met twee of meer variabelen en confounding design voor het vergelijken van twee of meerdere groepen.

Van lineaire regressie naar algemene lineaire modellen

Het basisprincipe achter de algemene lineaire modellen is dat een respons variabele Y gerepresenteerd kan worden door een lineair model plus een random fout. Een model is een wiskundige representatie van de relatie tussen een response variabele Y en één of meer verklarende variabelen. De random fout is de puntenverdeling rondom het model. Een voorbeeld van een lineair model is de lineaire regressie.

Het model van een lineaire regressie is Y = α+ βX. Hierbij zijn α en β de intercept en de helling. Individuele waardes van de respons variabele liggen boven en onder de regressielijn. Dit stelt de random fout voor.

Bij het testen van de nulhypothese, wordt er een nulmodel met het regressiemodel vergeleken. Het nulmodel is de puntenwolk met een helling van nul. Oftewel, dit is grafiek met een rechte lijn vanaf de intercept-waarde. Het regressiemodel is de grafiek met de regressielijn door de verkregen datapunten. Er wordt gekeken welk model het beste bij de data past. Als de data het beste bij het regressiemodel past, dan wordt de nulhypothese verworpen. Vaak is het zo dat het regressiemodel de data beter past, maar dit moet significant bewezen worden.

De algemene lineaire modellen kunnen meer verklarende variabelen bevatten en kan gebruik maken van categorische variabelen, in plaats van alleen maar numerieke variabelen. De algemene format hiervoor is: reponse = constante + variabele. Hierbij is respons de numerieke variabele. De constante refereert naar het gemiddelde bij een categorische variabele en het intercept bij een numerieke variabele. De variabele is dus de waarde van de specifieke variabele en kan numeriek of categorisch zijn.

Bij een significantietest worden de volgende hypothesen opgesteld. De nulhypothese zegt dat de waardes van de constante, oftewel het gemiddelde of de intercept, hetzelfde zijn. Hierbij is het format: reponse = constant. Dit komt omdat er geen variantie van de variabelen afkomt. De alternatieve hypothese zegt dat de waardes van de constante niet hetzelfde zijn. Hierbij zijn er dus twee modellen die eerder genoemd zijn, het regressiemodel en het nulmodel. De horizontale lijnen in deze modellen geven de voorspelde waardes aan, oftewel de Ŷ in de lineaire regressie. Verticale lijnen geven de residuen aan.

De F-ratio test of de behandelingsvariabele significant beter bij de data past, in vergelijking met het nulmodel. Een ANOVA test (op de computer) wordt gebruikt voor het uitrekenen van de P-waarde. De F-ratio meet dus of er verbetering is bij het passen in de data als de verklarende variabele bij het model inbegrepen zit, het regressiemodel. In tegenstelling tot het nulmodel zonder de verklarende variabele inbegrepen.

Experimenten analyseren door middel van blocking

Bij algemene lineaire modellen brengt blocking een extra variabele, het blok, mee die bij de analyse van de data hoort. Een random block design is gelijk aan een gepaard design, maar dan voor meer variabelen. Als de blocking variabele mee telt voor enige variantie in de data, dan kan het effect van de verklarende variabele beter gevonden worden. De algemene format hierbij is: response = constante + blok + variabele. De stellingen van de hypothesen zijn hetzelfde als de hierboven genoemde hypothesen. De nulhypothese stelt dat de variabelen hetzelfde zijn en de alternatieve hypothese stelt dat de variabelen niet hetzelfde zijn. Ook hier weer bij berekend ANOVA de P-waarde van de variabele. Hierbij wordt zelfs de P-waarde van het blok berekend. Deze is wel een stuk minder belangrijk dan de echte P-waarde van de verklarende variabele.

Significant of niet, het blok moet gebruikt worden in het design. Het hoort bij het design en het kan de mogelijkheid hebben om het effect van de variabele te detecteren.

Experimenten analyseren door middel van een factorieel design

Bij het analyseren van een factorieel design worden alle combinaties van twee of meer verklarende variabelen met elkaar vergeleken. Deze experimenten meet de effecten van de factoren en hun interactie met de respons variabele. Deze verklarende variabelen worden factoren genoemd, omdat ze variabelen voorstellen die van belang zijn voor het onderzoek. Een blok is geen factor, omdat het niet van direct belang is voor het onderzoek, maar juist omdat het helpt om de respons variabele te begrijpen.

Bij factoriele designs kunnen de factoren vastgesteld zijn of juist random. Vastgestelde effecten zijn vooraf vastgesteld, van direct belang en herhaalbaar. Random effecten zijn groepen die random getrokken zijn uit een populatie en pas achteraf gekozen worden.

De algemene format bij dit design is: respons = constante + variabele₁ + variabele₂ + variabele₁ * variabele₂. Hierbij zijn variabele₁ en variabele₂ de belangrijkste effecten (main effects). Dit houdt in dat elke factor het effect zelf representeert. Variabele₁ * variabele₂ representeert het verschil in helling tussen de lijnsegmenten in de bijbehorende plot.

De F-test examineert de bijdrage van elk belangrijkste effect en hun interactie onderling. Hierbij wordt er gekeken welk model, het nulmodel of het regressiemodel, het beste bij de data past. Het nulmodel heeft de algemene format: respons = constante + variabele₁ + variabele₂. De hypothesen hierbij zijn anders dan de bovenste twee analyses. Hierbij zijn er namelijk drie hypothesen:

1.Belangrijkste effect 1, oftewel variabele₁. De nulhypothese stelt dat er geen verschil is tussen variabele₁ en de respons variabele. De alternatieve hypothese stelt dat er wel een verschil is tussen variabele₁ en de respons variabele.

2.Belangrijkste effect 2, oftewel variabele₂. De nulhypothese stelt dat er geen verschil is tussen variabele₂ en de respons variabele. De alternatieve hypothese stelt dat er wel een verschil is tussen variabele1 en de respons variabele.

3.Het interactie effect, oftewel variabele₁ * variabele₂. De nulhypothese stelt dat het effect van variabele₁ op de respons variabele niet afhangt van variabele₂ in de interactiezone. De alternatieve hypothese stelt dat het effect van variabele₁ op de respons variabele wel afhangt van variabele₂ in de interactiezone.

In het nulmodel is te zien dat er grotere residuen zijn, dan bij het regressiemodel. Voor het significant aantonen dat het regressiemodel beter bij de data past, wordt er eveneens een ANOVA toets uitgevoerd. In de ANOVA-tabel staan de P-waarden voor variabele₁, variabele₂ en variabele₁ * variabele₂. De P-waarde voor het interactie effect, variabele₁ * variabele₂, bepaalt of het nulmodel verworpen wordt. Daarbij kan er gekeken worden of de variabele₁ en variabele₂ apart significant effect hebben op de respons variabele.

Het is van belang dat er duidelijk onderscheidt gemaakt wordt bij het gebruik van vastgestelde of random factoren. Bij vastgestelde factoren is bekend wat de kenmerken van de groepen zijn. Bij random factoren is dit niet het geval. Deze vorm van groeperen draagt bij aan een steekproef error. Dit klinkt misschien gek, omdat er de hele tijd gesproken wordt over aannames dat steekproeven random getrokken moeten worden. De random factoren zijn een ander soort randomheid en deze moeten niet door elkaar gehaald worden. Deze steekproef error voegt ruis toe aan de meting tussen verschillende groepgemiddelden voor andere factoren die in contact staan met een random factor. Vele computerprogramma’s hebben hier speciale technieken voor.

Aanpassen van de effecten voor een confounding variabele

De meeste experimentele vinden het moeilijk om confounding variabelen uit te sluiten. Daarom worden ze soms gebruikt om te zien hoe deze reageren op de respons variabele. Hierna kan er gecorrigeerd worden voor de confounding variabelen.

De aanpak voor dit soort modellen betreft twee rondes. In de eerste rond wordt de interactie tussen de behandeling en de covariantie getest. Als er geen interactie gedetecteerd wordt, dan wordt het interactie effect (variabele₁ * variabele₂) niet meegenomen in de twee ronde. Deze methode wordt ook wel eens de analyse van covariantie genoemd (ANCOVA).

De algemene format hiervoor is: respons = constante + variabele₁ + variabele₂ + variabele₁ * variabele₂. Ook al is deze format hetzelfde als bij het factorieel design, is er maar één paar hypothesen. De nulhypothese stelt dat er geen interactie is tussen variabele₁ en _variabele2. De alternatieve hypothese stelt dat er wel interactie is tussen variabele₁ en variabele₂. Daarna worden eveneens het regressiemodel en het nulmodel vergeleken en een F-ratio uitgevoerd met een uiteindelijke ANOVA tabel.

Dus een algemeen model met een numerieke en een categorische verklarende variabele past apart een regressielijn aan elke groep van de categorische variabele. Een interactie tussen de variabelen betekent dat de regressie helling verschillend is onder de groepen.

Als er gedetecteerd is dat er geen interactie is tussen de twee variabelen, wordt de nulhypothese niet verworpen. Hier begint ronde twee met nieuwe hypothesen. De nulhypothese stelt dat variabele₁ niet verschilt in invloed op de respons variabele. De alternatieve hypothese stelt dat variabele₁ wel verschilt in invloed op de respons variabele. Hierbij worden het “hele” model vergeleken met het nulmodel. Het “hele” model bevat hier alle variabelen, behalve de interactie variabele, want deze is significant verworpen. Het nulmodel bevat de format respons = constante + variabele₂. Vervolgens worden eveneens het regressiemodel en het nulmodel vergeleken en een F-ratio uitgevoerd met een uiteindelijke ANOVA tabel. Er wordt hierbij gekeken of het nulmodel verworpen kan worden. Daarnaast is het niet zo dat omdat er is aangetoond dat er geen interactie is tussen de variabelen, dat er in de gehele studie geen confounding variabelen meer zijn. Hier moet altijd rekening mee worden gehouden.

Aannames van algemene lineaire modellen

De aannames voor algemene lineaire modellen zijn hetzelfde als voor regressie en ANOVA:

1.De metingen bij elke combinatie van waardes voor de verklarende variabelen zijn een random getrokken steekproef uit de populatie.

2.De metingen voor elke combinatie waardes voor de verklarende variabelen hebben een normaal verdeling in de bijbehorende populatie.

3.De variantie van de respons variabele is hetzelfde voor alle combinaties van de verklarende variabelen.

Een residuenplot is een goede manier om te kijken of deze aannames gewaarborgd worden. Als de aannames gewaarborgd worden, heeft de residuenplot de volgende kenmerken:

2.Een kleine, bijna onmerkbare kromming in de lijn.

Een eerlijke verdeling van punten boven en onder de lijn. Dit is in verband met de variantie.

19. Statistieke methodes op de computer

De computer heeft naast het sneller weergeven van grafieken en het sneller berekenen van formules, nieuwe methoden gebracht. Deze methoden zijn simulatie, randomnisatie en bootstrapping. Simulatie en randomnisatie zijn bedoeld voor het testen van hypothesen. Bootstrapping is bedoeld voor het berekenen van precies bij schattingen. Deze methoden zijn handig als sommige aannames niet gewaarborgd kunnen worden. Daarnaast kunnen deze methoden simpelweg niet uitgevoerd worden zonder een computer. Tenzij je heel veel tijd aan je handen hebt.

Hypothesen testen en gebruik maken van simulatie

Simulatie gebruikt een computer om een proces van herhaaldelijk steekproef trekken, uit de populatie, na te bootsen. Dit wordt gedaan om de nulverdeling van een teststatistiek te verkrijgen. De nulverdeling is de kansverdeling van een teststatistiek wanneer de nulhypothese waar is. Soms kan dit met de hand berekend worden, maar vaak zijn deze verdelingen toch makkelijker te verkrijgen met behulp van de computer.

Simulatie wordt gedaan in vijf stappen:

1. Gebruik een computer voor het creëren en trek een steekproef uit een verzonnen populatie. De parameters van die populatie moeten vastgesteld staan in de nulhypothese.

2. Bereken de teststatistiek (Chi-kwadraat, binominaaltest, etc.) van de gesimuleerde steekproef.

3. Herhaal de eerste twee stappen vele malen.

4. Verzamel alle gesimuleerde waardes voor de teststatistiek om de nulverdeling te vormen.

5. Vergelijk de teststatistiek van de data met de nulverdeling.

Randomnisatie test

Randomnisatie testen worden uitgevoerd om te testen met hypothesen of er een associatie bestaat tussen twee variabelen. Deze kan uitgevoerd worden voor twee categorische variabelen (contingency tabel), tussen een categorische en een numerieke variabele (two-sample t-test) en tussen twee numerieke variabelen (correlatie). Wanneer deze aannames niet gewaarborgd worden, of de nulverdeling is op een andere manier onbekend, kan er een randomnisatie test plaatsvinden. Randomnisatie testen hebben minder aannames dan andere testen en hebben meer power dan non-parameter methoden gebaseerd op ranken.

In een randomnisatie test wordt een statistiek gekozen om de associatie tussen twee variabelen te berekenen. De data van één van de variabelen kan niet verkregen worden of is verstoord, waardoor er een randomnisatie test moet worden uitgevoerd. Hierbij behoudt de dataset waarin elke variabele zijn originele meting voor één variabele, maar een randomnisatie waarde krijgt voor de tweede variabele. Enige associatie die aanwezig was tussen de twee variabelen in de originele data is verdeeld in de nieuwe data. Deze randomnisatie procedure wordt vaak uitgevoerd waarna de teststatistiek voor de associatie uitgerekend kan worden voor de gerandomniseerde data. De frequentieverdeling van de teststatistiek, berekend door middel van de gerandomniseerde data, wordt gebruikt om de nulverdeling te formuleren. Als de geobserveerde waarde van de teststatistiek bijzonder is in vergelijking met nulverdeling, wordt de nulhypothese die stelt dat er geen relatie is tussen de variabelen, verworpen. De teststatistiek is bijzonder als de P-waarde onder het significantielevel ligt.

Er zijn drie stappen om deze randomnisatie test uit te voeren:

1. Creëer een gerandomniseerde dataset waarin de respons variabele random herberekend wordt.

2. Bereken de associatie tussen de variabelen voor de gerandomniseerde steekproef.

3. Herhaal het randomnisatie proces vele malen en bereken daarbij telkens de teststatistiek.

De gerandomniseerde steekproeven worden telkens opnieuw random getrokken uit een populatie. Hierdoor kan de nulverdeling verschillen van eerder gevormde nulverdelingen. Het resultaat is dat de P-waarde licht kan variëren tussen eerdere testen. Met het gebruik van veel gerandomniseerde testen wordt de P-waarde toch heel nauwkeurig berekend.

Randomnisatie testen hebben weinig aannames waardoor ze in veel verschillende omstandigheden gebruikt kunnen worden. Toch zijn er een aantal aannames. De eerste is dat de steekproef random getrokken moet worden uit de populatie. Ten tweede moeten randomnisatie testen, voor het vergelijken van gemiddelden of medianen, dezelfde vormverdeling van de variabele hebben in elke populatie. De randomnisatie testen zijn robuust hiervoor, mits de steekproeven groot zijn. De randomnisatie testen hebben minder power dan parameter testen wanneer de steekproeven klein zijn, maar over het algemeen, met dezelfde steekproefgroottes, hebben ze gelijke hoeveelheden power.

Bootstrap standaard error en betrouwbaarheidsintervallen

De bootstrap methode wordt gebruikt om de standaard error en het betrouwbaarheidsinterval te bereken voor een geschatte parameter. Bootstrapping creëert een steekproef verdeling van een geschatte waarde door middel van random steekproef trekken uit de data zelf. De bootstrap methode is daarbij erg handig om de standaard error te berekenen zonder formule of als er geen parameter informatie is.

De steekproefverdeling is de kansverdeling van steekproef schattingen wanneer er telkens steekproeven uit een populatie getrokken worden. De standaard error is de standaarddeviatie van deze steekproefverdeling. Daarom mogen we de standaard error van een geschatte waarde berekenen door herhaaldelijk steekproef te trekken uit de populatie, waarbij de geschatte steekproef waarde elke keer berekend wordt. Uiteindelijk kunnen van die geschatte steekproef waardes de standaarddeviatie uitgerekend worden. In de echte wereld kan dit niet, aangezien data verkrijgen erg duur is en het beste is om dan de informatie van al die individuen te gebruiken. Bootstrapping gebruikt een grote steekproef uit de data om telkens een nieuwe steekproef te vormen uit deze data; dit wordt “resampling” genoemd.

Bootstrapping gaat in vier stappen:

Gebruik de computer om een random steekproef te trekken van individuen uit de originele dataset.

Bereken de geschatte waarde door middel van metingen in de bootstrap steekproef van stap 1. Dit is de eerste bootstrap replicatie schatting.

Herhaal de eerste twee stappen vele malen. Daarbij is 10.000 keer een goed aantal. De frequentieverdeling van alle bootstrap replicatie schattingen benaderen de steekproef verdeling van de geschatte waarde.

Bereken de steekproef standaarddeviatie van alle bootstrap replicatie schattingen. De resulterende eenheid is de bootstrap standaard error. Dus, de standaard error is de standaarddeviatie van de geschatte steekproefverdelingen.

Door kans kunnen sommige individuen meer dan één keer voorkomen in een van de steekproeven. Ook kunnen door kans sommige individuen niet voorkomen in een van de steekproeven. Daarnaast is de bootstrap standaard error iets kleiner dan de ware standaard error, omdat niet de volledige data is gebruikt.

Een betrouwbaarheidsinterval kan ook gegenereerd worden door de geschatte steekproevenverdeling. Hierbij wordt bepaald door 1 – α welke betrouwbaarheidsinterval percentage wordt genomen. Daarna kan er gekeken worden wat de grenzen zijn in de staarten van de verdeling door α/2. Bij een 95% betrouwbaarheidsinterval zijn de kwantielen 0,025 en 0,975. De grenzen worden berekend door het kwantiel te vermenigvuldigen met het aantal steekproeven dat gebruikt is bij het bootstrappen. Dat getal representeert de waarde dat opgezocht moet worden in de steekproefverdeling. De bijbehorende waarde is de onder- of bovengrens.

Bootstrapping kan ook gebruikt worden om vergelijkingen tussen parameters van verschillende populaties te maken of betrouwbaarheidsintervallen van meerdere populaties te genereren. Daarbij moeten de bootstrapping technieken wel apart gedaan worden. Ook kunnen groepen met elkaar vergeleken worden. De steekproeven op basis van bootstrapping moeten dan wel dezelfde grootte hebben als de originele steekproeven.

De belangrijkste aanname bij bootstrapping is dat elke steekproef random getrokken moet worden. Daarbij moet de steekproef groot genoeg zijn, zodat de frequentieverdeling van de metingen in de steekproef een goed schatting zijn van de frequentieverdeling van de populatie. Hierbij moeten de steekproeven groot genoeg zijn om de populatie te kunnen vertegenwoordigen. Ook moeten de steekproeven groot genoeg zijn om de standaard error en het betrouwbaarheidsinterval met precisie te kunnen berekenen.

20. Waarschijnlijkheid

Met statistische toetsen willen onderzoekers de juiste parameter ontdekken. De waarschijnlijkheid meet hoe goed alternatieve waardes zijn in vergelijking met de parameter. Deze benadering is gebaseerd op het feit dat de beste keus van de parameter, van alle mogelijkheden, degene is met de hoogste waarschijnlijkheid, oftewel met de hoogste kans. Een voordeel van de waarschijnlijkheid is dat deze bij alle statistische toetsen gebruikt kan worden die al genoemd zijn en dat de verdeling niet normaal hoeft te zijn

Definitie waarschijnlijkheid

Waarschijnlijkheid meet hoe goed een waarde uit de data is voor de waarde van de parameter. Het is de kans van het verkrijgen van de geobserveerde data, als de parameter gelijk is aan die waarde. Om deze methode toe te passen moet de kans berekend worden voor het verkrijgen van de geobserveerde waarde voor elke mogelijk waarde van de parameter. Daarna kunnen deze waardes vergeleken worden met elkaar welke de grootste waarschijnlijkheid heeft.

De maximum waarschijnlijkheid schatting is de waarde van de parameter waarvan de waarschijnlijkheid het hoogste is. Het is de beste schatting voor de parameter.

Twee soorten van waarschijnlijkheid in de biologie

De meest gebruikte waarschijnlijkheid methoden in de biologie zijn voor fylogenetische schatting (het schatten van voorouders in soorten) en gene mapping (het in kaart brengen van genomen).

Voor fylogenetische schattingen met waarschijnlijkheid worden de relaties tussen soorten duidelijk door DNA. De voorouders hebben, totdat de soorten verschillende evolueren, dezelfde genen. De soorten die het verst van elkaar afstaan hebben een de minst gelijke genen en de soorten die het meest dichtbij elkaar staan hebben de meest gelijke genen. De waarschijnlijk wordt hierbij aangegeven met e^-getal.

Bij gene mapping wordt er gekeken hoe genen verschillen tussen mensen met een bepaalde ziekte en gezonde mensen. Het is uiteraard wel belangrijk dat de ziekte genetisch bepaald is. De hoogste piek in de grafiek toont aan dat de waarschijnlijkheid daar het grootst is en dat dus waarschijnlijk het bepaalde gen op die locatie zich bevindt.

Maximale waarschijnlijkheid schatting

De waarschijnlijkheid (likelihood) heeft de formule: L[waarde|data] = Pr [data|parameter = waarde]. De verticale streep geeft aan dat de informatie achter de streep gegeven of heeft plaats gevonden. Oftewel, de waarschijnlijkheid van een bepaalde waarde, gegeven dat de data beschikbaar is. De kans op dat X voorkomt wordt berekend door de binominaal formule die in het hoofdstuk ‘Proporties analyseren’ is besproken. Daarbij kan één waarschijnlijkheid niet gebruikt worden, aangezien er meerdere waarschijnlijkheden met elkaar vergeleken moeten worden voor de hoogste waarschijnlijkheid op een bepaald event.

De log-waarschijnlijkheid wordt vaak gebruikt en de formule is:

L[data|waarde] = ln[(n boven y)] + Y ln[p] + (n - Y) ln[1 - p].

De log-waarschijnlijkheid kan gebruikt worden om de maximale waarschijnlijkheid schatting te vinden. Dit kan met de hand gedaan worden, maar is beter met de computer. Bereken bijvoorbeeld voor alle waarden tussen 0,1 en 0,9 met stappen van 0,01 de waarschijnlijkheid en zet deze in een grafiek. Hier kan gezien worden welke kans de hoogste waarschijnlijkheid heeft. De curve die hierbij af te lezen is heet de log-waarschijnlijkheid curve.

Deze log-waarschijnlijkheid curve kan gebruikt worden om een interval te schatten voor de parameter. De range van p-waardes, waarvan de log-waarschijnlijkheid ligt tussen X²₁,α/2 eenheden van het maximum, vormt de 1 – α waarschijnlijkheid betrouwbaarheidsinterval. Hierbij is X² de Z-waarde bij 95% in het kwadraat, oftewel 1,96² = 3,84. De waarde die uit X²₁,α/2 uitkomt is het aantal units dat het betrouwbaarheidsinterval ligt onder het maximum. Vanaf het hoogste punt daal je het aantal units links én rechts af. Hierdoor weet je de grenzen van het betrouwbaarheidsinterval.

De veelzijdigheid van maximale waarschijnlijkheid schatting

Het grote voordeel van de maximale waarschijnlijkheid schatting is dat deze in vele situaties te gebruiken is. Oftewel, deze schatting is veelzijdig.

Door het vangen en hervangen van data kan de totale hoeveelheid individuen in de samenleving berekent worden. In de eerste steekproef zitten n aantal individuen. Deze krijgen een markering dat ze ‘gevonden’ zijn. In de tweede steekproef zitten n aantal individuen waarvan een bepaald aantal al gemarkeerd waren. Deze vertelt ons de proportie van de totale populatie die gemarkeerd is. Door de gemarkeerde steekproef te delen door de proportie van totale populatie die gemarkeerd is, kan het totaal aantal van de populatie gevonden worden. De formule is: L [N|Y hervangen] = (n₁ boven Y) (N – n₁ boven n₂ – Y) / (N boven n₂). Waarbij n₁ de eerste steekproef is en n₁ de tweede steekproef. De Y is de kans op het opnieuw vangen van individuen en N is het totaal aantal in de populatie. In de formule is N onbekend.

De log-waarschijnlijkheid is makkelijker om te gebruiken en de formule is: L [N|Y hervangen] = ln (n₁ boven Y) ln (N – n₁ boven n₂ – Y) – ln (N boven n₂). Deze kan vervolgens in een computerprogramma gestopt worden met de ingevulde waardes voor n₁, n₂ en Y. De waarde voor N is de variabele en kan een grote spreiding aannemen om te kijken waar de hoogste piek ligt. Vervolgens kan het betrouwbaarheidsinterval berekend worden door de formule X²₁,α/2.

De aanname hierbij is dat de populatie constant is. Er zijn dus geen geboortes, doden en andere missers in die tijd van het verkrijgen van de steekproef. De andere aanname is dat de steekproef random getrokken moet zijn.

Een nadeel is dat, ondanks alle aannames gewaarborgd worden, er altijd een bias is bij de maximale waarschijnlijkheid schatting. De waarde voor het schatten van de populatie is altijd net iets kleiner dan de ware parameter.

Log-waarschijnlijkheid ratio test

De log-waarschijnlijkheid ratio test wordt gebruikt om de waarschijnlijkheid tussen twee kansmodellen te vergelijken. In het ene model zit de parameter afgesteld op de waarde van de nulhypothese. In het andere model zit de parameter afgesteld op de waarde van de alternatieve hypothese. Als de parameter van het tweede model beter bij de data past, dan wordt de nulhypothese samen met het eerste model verworpen. De binominaal verdeling wordt gebruikt om de p-waarde voor de log-waarschijnlijkheid te berekenen.

De formule voor de ratio test is: G = 2 ln (L[maximale waarschijnlijkheid waarde van de parameter | data] / L[parameter waarde van de nulhypothese | data]). Om de P-waarde te vergelijken voor het verwerpen van de nulhypothese kan de X2-verdeling gebruikt worden. De schatting is het meest betrouwbaar als de steekproeven groot zijn. Het aantal vrijheidsgraden is het verschil in het aantal parameter tussen de hypothesen. Wanneer er maar één parameter is, dan is het aantal vrijheidsgraden 1.

De nulhypothese zegt dat de kans gelijk is p = 0,05. De alternatieve hypothese zegt dat de kans niet gelijk is p = 0,05. Vervolgens kan de binominaaltest uitgerekend worden. Daarna is de waarschijnlijkheid ratio test echt aan de beurt. Ook deze test is het beste als de logfunctie in de formule is verwerkt. De formule is op dat moment: G = 2 ln (ln L[maximale waarschijnlijkheid waarde van de parameter | data]) - (ln L[parameter waarde van de nulhypothese | data]).

Als laatste kan ook hierbij het betrouwbaarheidsinterval en de P-waarde berekend worden).

21. Meta-analyse: het verbinden van informatie uit meerdere onderzoeken

In de biologie worden meerdere onderzoeken gedaan om één onderwerp. In dit hoofdstuk wordt besproken hoe deze studies samengevat kunnen worden. Een traditionele manier is dat een wetenschapper meerdere studies over eenzelfde onderwerp leest. Deze vat hij kritisch samen waardoor je een algemene conclusie krijgt. Hier zitten alleen twee nadelen aan. De eerste is dat de schrijver subjectief kan zijn over een onderwerp wat naar zijn of haar hart staat. Het tweede nadeel is dat er een moeilijk balans is te vinden tussen de juiste onderwerpen en aantal artikelen.

Definitie meta-analyse
Een meta-analyse is een samenvatting van vele analyses. Dit heeft niet direct een methode, maar meer een aantal technieken. Een meta-analyse vat alle studies over een bepaald effect samen. Hierdoor kan er een algemeen beeld bepaald worden over bijvoorbeeld een effect.

De reden dat studies herhaald worden is omdat er fouten gemaakt kunnen worden. Deze fouten kunnen fouten zijn in het verzamelen van data, maar ook in het gebruik van statistische toetsen of bij type 1 of type 2 fouten. Door meerdere studies kunnen de fouten uit de resultaten gefilterd worden.

De power van een meta-analyse
De power van een meta-analyse is erg sterk. Dit komt omdat er vele studies gebruikt worden met veel individuen. De power hangt namelijk af van de steekproefgroottes. Daarnaast is de meta-analyse ook aardig robuust.

Meta-analyses kunnen een gebalanceerd beeld geven
Sommige studies zijn interessanter om te publiceren dan andere. Een meta-analyse gebruikt alle studies op een bepaald gebied. Hierdoor worden dus niet alleen alle interessante studies gebruikt, waardoor er een gebalanceerd beeld is van het bepaalde effect.

De stappen van een meta-analyse
De stappen die gedaan moeten worden in een meta-analyse zijn als volgt:

· Het definiëren van de vraag. Hierbij wordt de vraag gesteld die in alle studies van toepassing is. Aan de ene kant kan er een hele specifieke vraag gesteld worden. Dit gebeurt vaak in medische studies. Aan de andere kant kan er een hele brede vraag gesteld worden waarbij een hele heterogene groep studies gebruikt wordt.

· De literatuur herbeoordelen. Dit is het moeilijkste onderdeel van de meta-analyses. De literatuur is in sommige gevallen niet direct te verkrijgen. Deze kan (nog) niet gepubliceerd zijn of alleen bij bepaalde instanties beschikbaar zijn. Het is van belang om alle artikelen over dat bepaalde onderwerp te vinden, om zo publicatiebias te voorkomen (Tussenstuk 10). Het aantal artikelen hangt af van het aanbod en of het een brede vraag (meer artikelen nodig) of juist een specifieke vraag (minder studies nodig). Daarnaast is het lastig om te bepalen of slecht uitgevoerde onderzoeken ook meegerekend mogen worden.

· Het berekenen van de effect groottes. De effect grootte is de gestandaardiseerde meting hoe sterk de associatie is tussen de verklarende variabele X en de respons variabele Y. Dit is lastig te bepalen omdat geen enkele studie hetzelfde is en variabelen op verschillende manieren meet. Daarnaast is het een opgave om verschillende statistische toetsen (X², ANOVA en t-testen) te vergelijken. Gelukkig zijn er verschillende testen om dit samen te vatten. Deze testen zijn de oneven ratio, de correlatie en de standardized mean difference (SMD). Deze laatste vergelijkt gemiddelden van twee numerieke variabelen en de formule is: SMD = (Ŷ₁ – Ŷ₂) / s_pooled. De s_pooled is de wortel uit de pooled steekproef variantie. Het doel is om alle studieresultaten met dezelfde schaal te vergelijken.

· Het bepalen van de gemiddelde effect grootte. Dit wordt niet gedaan door simpelweg het gemiddelde te nemen van alle effecten bij elkaar opgeteld. Sommige studies mogen zwaarder meetellen, omdat ze beter zijn uitgevoerd, een grotere steekproef hebben of een beter antwoord geven op de grote onderzoeksvraag.

· Het berekenen van de betrouwbaarheidsintervallen en het opstellen van de hypothesen. Hierbij zijn de betrouwbaarheidsintervallen kleiner door het grote aantal individuen. Daarnaast hebben de hypothesen meer power.

· Kijk uit naar verschillende effecten van studies. Deze effecten kunnen te maken hebben met de kwaliteit van de studie. De ene studie heeft bijvoorbeeld een grotere steekproef dan de andere. De ene studie heeft bijvoorbeeld een dubbelblind onderzoek gedaan met een controlegroep terwijl een andere studie dit niet heeft gedaan.

· Kijk naar associaties. Een ander voordeel van meta-analyses is dat het verschil tussen de studies gebruikt kan worden hoe methodologische effecten of andere verschillen, bekeken kan worden. Dit zijn moderator variabelen die de variantie bij effect groottes kan verklaren.

Dossierlade probleem
Doordat niet alle studies gepubliceerd worden, is er het dossierlade probleem. Dit probleem kan bias brengen in het aantal studies dat beschikbaar is voor een meta-analyse. Hierdoor kan er sneller een type 1 fout gemaakt worden. Een methode om dit probleem op te lossen is de trechterplot. Zie hiervoor tussenstuk 10. Een andere methode is de fail-safe number methode. Hierbij wordt er berekend hoeveel artikelen er nodig zijn om de nulhypothese, in alle studies samengevat, niet meer te mogen verwerpen. Een klein aantal artikelen wat uit deze berekening komt, betekent dat de meta-analyse onbetrouwbaar is. Een groot aantal artikelen, ongeveer ergens in de miljoenen, betekent dat de meta-analyse betrouwbaar is. Er zijn namelijk niet nog eens miljoenen artikelen om te gebruiken in de meta-analyse.

Jouw artikel beschikbaar maken voor meta-analyses
Sommige artikelen zijn niet te gebruiken voor meta-analyses omdat de manier van resultaten laten zien niet voldoende is. Een suggestie om dit op lossen is om altijd de geschatte effectgrootten en de standaard errors te geven. Een andere suggestie is om de precieze P-waarde te geven. Deze is nodig voor meta-analyse technieken. Ook is het geven van de teststatistiek waarden en het aantal vrijheidsgraden een goede oplossing. Als laatste is het goed voor de meta-analyses om de rauwe data vrij te geven.

Ten slotte, een algemene opmerking

Statistiek is een vak met kennis. Dit is beschreven in deze samenvatting. Maar het is ook een vak waarmee geoefend moet worden. Hier wordt mee bedoeld dat er sommen gemaakt moeten worden om echt te begrijpen hoe de statistiek toetsen werken. Dit is dan ook zeker een tip om te doen.

Access:

Public

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Going abroad?

Insure your way around the world

International expat insurances

Travel & Worldsupporter insurances (NL)

Study with summaries

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Spotlight: topics

Check how to use summaries on WorldSupporter.org

Submenu: Summaries & Activities

Follow the author: Vintage Supporter

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics

Search a summary, study help or student organization

Select any filter and click on Search to see results