Welke verdelingen bestaan er binnen de statistiek?

Normaalverdeling
Kansen, proporties en scores
De binomiale verdeling
Categorische data en chi-kwadraat
De chi-kwadraat verdeling

Normaalverdeling

De normaalverdeling is een symmetrische, klokvormige verdeling. De normaalverdeling is om vier redenen de belangrijkste verdeling binnen de statistiek:

We verwachten dat veel van de afhankelijke variabelen waar we mee werken normaal verdeeld zijn in de populatie.
Als een variabele (ongeveer) normaal verdeeld is, kunnen we vervolgens uitspraken gaan doen over waarden van die variabele (het is vaak een voorwaarde om analyses te doen).
Wanneer een oneindig aantal steekproeven wordt getrokken van een populatie, zal de verdeling van die steekproefgemiddelden neigen naar een normaal verdeling.
De meeste statistische programma’s gaan er vanuit dat de observaties normaal verdeeld zijn.

Bij de normaalverdeling wordt gebruik gemaakt van zogenaamde z-scores. Om de normaalverdeling te kunnen bespreken, zal dus eerst moeten worden uitgelegd wat z-scores zijn en hoe je ze gebruikt.

Standaardscores

Vaak worden individuele scores omgezet in standaardscores, ook wel z-scores genoemd. Dit wordt gedaan om de exacte ligging van elke score in een distributie vast te stellen en te beschrijven. Z-scores worden gebruikt om een hele distributie te standaardiseren. Op die manier kunnen verschillende verdelingen met elkaar vergeleken worden.

De z-score beschrijft de exacte positie van een X-waarde op twee manieren: ten eerste via het teken en ten tweede via de waarde. Het plus- of minteken van de z-score beschrijft of de X-waarde zich boven of juist onder het gemiddelde bevindt (het gemiddelde krijgt in de standaardverdeling altijd de waarde nul). De waarde van de z-score beschrijft de afstand van de X-waarde tot het gemiddelde in termen van aantal standaarddeviaties (een z-score van 1,00 betekent dat de X-waarde 1 standaarddeviatie van het gemiddelde verwijderd is). In een distributie met µ =100 en σ =15 is een score van X = 130 een z-score van +2. 130-100 is namelijk 30. Dit getal delen door 15 geeft een standaardscore van 2. Bij alle curven staat de µ in het midden. Aan de rechterkant lopen de z-scores met een plusteken op, terwijl de negatieve standaardscores aan de linkerkant staan.

De formule voor de berekening van standaardscores is: z=(X- µ)/ σ. De deviatiescore wordt gedeeld door de standaarddeviatie. Zo kan de z-waarde omschrijven hoeveel standaarddeviaties een individuele score van het gemiddelde af ligt. Een IQ-score van 70 valt precies twee standaardscores onder het gemiddelde: (70-100)/15= -2. In deze formule staat (X- µ) voor de deviatiescore. Door het gemiddelde van een score af te trekken, kan meteen gezien worden of de score boven of onder het gemiddelde valt. Deze formule is handig bij het omzetten van ruwe scores naar z-scores, maar niet in het omzetten van z-scores naar ruwe scores, daarvoor kun je de formule herschrijven.

De z-score en de normale verdeling

De standaardnormaalverdeling heeft een gemiddelde van 0 en een standaarddeviatie van 1, de distributie wordt dus N(0,1). De normaalverdeling is symmetrisch; de hoogste frequentie ligt in het midden, terwijl de frequenties verminderen naarmate naar rechts of links gegaan wordt. Z-scores staan bij de normaalverdeling vermeld in termen van standaarddeviaties. Een z-score van +2 betekent dat een score twee standaarddeviaties boven het gemiddelde ligt. Bij een normaalverdeling kunnen we de volgende uitspraken doen over de standaarddeviatie.

±68% van de observaties valt binnen 1 standaarddeviatie van het gemiddelde
±95% van de observaties valt binnen 2 standaarddeviaties van het gemiddelde
±99% van de observaties valt binnen 3 standaarddeviaties van het gemiddelde

Centrale limietstelling

Wat als blijkt dat de sample niet een normaalverdeling heeft? Denk hierbij aan het aantal uren tv kijken. Het grootste gedeelte van de mensen kijkt tussen de één à twee uur televisie per dag. Er zijn echter uitzonderingen, waarbij mensen acht uur tv kijken per dag. Deze distributie zal dan skewed naar rechts zijn. Ondanks dat deze kans distributie niet normaal verdeeld is, is de sampling distributie van het sample gemiddelde wel normaal verdeeld . Dit wordt de centrale limietstelling genoemd. Dit gebeurt alleen als de sample grootte n groot genoeg is, dit is het geval vanaf n = 30.

Kansen, proporties en scores

Stel je voor: een distributie van intelligentie heeft een µ van 100 en een σ van 15. Hoe groot is de kans dan om door middel van random sampling een individu te selecteren van een IQ van onder de 130? Om deze vraag te kunnen beantwoorden, moeten IQ- scores (X-waarden) eerst omgezet worden in z-scores. Vervolgens moet de bijbehorende proportie gevonden worden. Dit komt overeen met de kans die gevonden moet worden. In dit geval is de z-score +2. Deze score wordt als volgt gevonden: (130-100)/15=2. Hier hoort volgens de tabel voor de normaalverdeling een proportie van 0.9772 bij. Dus: p(X<130)=0.9772. Er is dus 97.72% kans om iemand met een IQ van onder de 130 te selecteren. Wat moet je doen als uitgezocht moet worden wat de proportie tussen twee waarden is? Stel je voor: de gemiddelde snelheid op een weg is gemiddeld 58. De standaarddeviatie is 10. Hoeveel van de langsrijdende auto’s zal dan rijden tussen de 55 en 65 kilometer per uur? Eigenlijk ben je dus op zoek naar p(55

De binomiale verdeling

Wanneer een variabele wordt gemeten op een schaal met precies twee categorieën, wordt de resulterende data binomiaal genoemd. Binomiale data kunnen ook voortvloeien uit een variabele die alleen twee categorieën heeft. Mensen kunnen bijvoorbeeld alleen man of vrouw zijn en met een stuiver kan alleen munt of kop gegooid worden. Ook komt het voor dat een onderzoeker data probeert te versimpelen door deze in twee categorieën op te delen. Een psycholoog kan persoonlijkheidsscores bijvoorbeeld gebruiken om mensen als laag of hoog op agressie te categoriseren. Vaak kent de onderzoeker de kansen die horen bij de twee categorieën. Bij een stuiver is er bijvoorbeeld 50% kans op het gooien van kop en 50% op het gooien van munt. Voor een onderzoeker is het echter belangrijk om te weten hoe vaak een gebeurtenis voorkomt als er meerdere herhalingen zijn. Wat is bijvoorbeeld de kans dat iemand 15 keer kop gooit wanneer hij of zij 20 keer tost?

Om kansvragen over binomiale data te beantwoorden, moet de binomiale distributie eerst onderzocht worden. De formule van de binomiale verdeling is als volgt: p(X) = CNX pXq(N-X) = $\frac{N}{X(N-X)}$ pXq(N-X).

p(X) = de kans op X successen

N = het aantal trials

p = de kans op een succes op één trial

q = (1- p) de kans op falen

C^N_X = het aantal combinaties van N dingen die X per keer gepakt worden

Gemiddelde en variantie

Wanneer p = q = .50, zoals bij het opgooien van een munt, zal de binomiale verdeling symmetrisch zijn. De formules voor gemiddelde, variantie en standaarddeviatie zijn altijd:

Gemiddelde = Np

Variantie = Npq

Standaarddeviatie = $\sqrt{Npq}$

Voor de binomiale verdeling geldt dat de verdeling normaler wordt bij getallen van p en q, die dichtbij .50 liggen. Daarnaast wordt de distributie symmetrischer en meer normaal, bij een hoger aantal trials. We gebruiken de vuistregel dat wanneer Np en Nq niet groter zijn dan 5, de distributie bijna normaal is, waardoor de schattingen redelijk goed zijn als we de verdeling als normaal behandelen.

Categorische data en chi-kwadraat

Wanneer we te maken krijgen met categorische data, bestaat deze data uit frequenties van observaties die in twee of meer categorieën vallen. In dat geval gebruik je de chi-kwadraat test.

De chi-kwadraat verdeling

De formule voor de chi-kwadraat functie wijkt af van andere functies, omdat het slechts één parameter heeft. De rest zijn constanten. De normaal verdeling heeft er twee parameters (μ en σ), de chi-kwadraat heeft alleen k als parameter. In de statistische wereld staat k voor het aantal vrijheidsgraden (degrees of freedom df). Vrijheidsgraden worden vaak weergegeven als χ²₃ of χ²(3). Hoe groter k wordt, hoe symmetrischer de verdeling. Het gemiddelde en de variantie nemen toe als k toeneemt. Verder geldt:

Gemiddelde = k

Variantie = 2k

De chi-kwadraat formule maakt gebruik van de geobserveerde frequenties en de verwachte frequenties. De geobserveerde frequenties zijn de werkelijke frequenties in de data. De verwachtte frequenties zijn de frequenties, die je zou verwachten wanneer de nulhypothese waar is. De formule voor de chi-kwadraat is: $x^2$ = $\sum\frac{(O-E)^2}{E}$ waarbij je voor elke categorie de berekening uitvoert, en optelt. O staat voor geobserveerde frequenties en E staat voor verwachtte frequenties.

Tabel van chi-kwadraat verdeling

Nu we een waarde hebben voor χ² moeten we deze vergelijken met de χ² verdeling om de kans te bepalen dat een waarde van χ² minstens zo extreem voorkomt, gegeven dat de nulhypothese waar is. Hiervoor kun je de standaard tabelverdeling van χ². De tabel maakt gebruik van vrijheidsgraden. Voor een eendimensionale tabel geldt: df = (k -1), het aantal categorieën min één. Als je gevonden χ² groter is dan de waarde uit de tabel, kun je de nulhypothese verwerpen. Een probleem is dat de chi-kwadraat verdeling continue is, terwijl de mogelijke waarden van chi-kwadraat discreet zijn (vooral bij kleine steekproefgroottes). Het passen van een discrete verdeling in een continue verdeling is een slechte fit.

Twee classificatie variabelen

In de vorige voorbeelden spraken we over één dimensie (of classificatie variabele). Vaak zijn er echter meerdere classificatie variabelen en willen we weten of die onafhankelijk van elkaar zijn. Wanneer ze niet onafhankelijk zijn, zijn ze in minder of meerdere mate contingent op of afhankelijk van elkaar. In een contingentie tabel kunnen we de verdelingen van elke variabele tegen elkaar afzetten.

In een contingentie tabel staan de frequenties die we zouden verwachten als de twee variabelen onafhankelijk waren (tussen haakjes). De verwachtte frequentie wordt bereikt door het vermenigvuldigen van de totalen van de rij en kolom waar het om gaat (dit zijn marginale totalen) en dit getal te delen door de totale steekproefgrootte. Dit is weer te geven in een formule: E_ij = R_iC_j / N. E_ij is hierbij de verwachtte frequentie voor de cel in rij i en kolom j. R_ien C_j zijn de rij en kolom totalen.

De kans dat een observatie in rij 1 valt is het totaal van die rij gedeeld door het totaal aantal cellen. Dit geldt ook voor kolommen. De verwachtte frequentie, als de observaties onafhankelijk zijn, kan verkregen worden door deze twee kansen met elkaar te vermenigvuldigen en dit resultaat te vermenigvuldigen met N. De waarde van χ² is weer met dezelfde formule te berekenen. Uit de contingentie tabel is het aantal vrijheidsgraden af te leiden door: df = (R – 1)(C – 1) met R en C het aantal rijen en kolommen in de tabel.

Voorwaarde voor de Pearson chi-kwadraat

Een van de belangrijkste voorwaarden om de chi-kwadraat test te gebruiken, is een redelijke grootte van verwachte frequenties. Kleine verwachte frequenties kunnen voor problemen zorgen. Ze zorgen namelijk voor een beperkt aantal contigentie tabellen en dus voor een beperkt aantal waarden voor chi-kwadraat. De continue χ² verdeling kan deze discrete verdeling niet goed beschrijven.

Over het algemeen is de regel dat alle verwachte frequenties minstens vijf moeten zijn. Bij kleinere frequenties is het aan te raden Fisher’s Exacte Test te gebruiken, omdat die niet gebaseerd is op de χ² distributie. Bij verwachtte frequenties van één in een cel van een 2x2 tabel kan de chi-kwadraat met de volgende formule gevonden worden:

χ²_adj = (χ² x N)/(N-1).

De Fisher’s Exact Test wordt gebruikt voor de verwachtte waarden groter dan één.

Meten van overeenstemming

Bij categorische data is het vaak van belang om te meten in hoeverre beoordelaars overeenstemmen in hun oordeel. Stel dat we bijvoorbeeld willen meten of 30 adolescenten problemen vertonen, met een indeling van ‘geen problemen’ (1), ‘problemen op school’ (2) en ‘problemen thuis’ (3) . We vragen twee beoordelaars (clinici) om dit te onderzoeken, zodat we de twee beoordelingen kunnen vergelijken. Middels een contingentietabel onderzoeken we hoe vaak de beoordelaars op elke schaal hebben gescoord. Stel dat we vinden dat de beoordelaars het in 20 van de 30 gevallen eens zijn (de diagonale cellen), dan is er 66% overeenstemming. Dit is het percentage van overeenstemming. Daarnaast vinden de beoordelaars beiden dat de meerderheid van de adolescenten geen problemen vertonen.

Het probleem met alleen uitrekenen van een percentage, is dat we geen rekening houden met de mogelijkheid dat de beoordelaars per toeval dezelfde classificatie geven. Om te corrigeren voor kans, ontwikkelde Cohen de statistiek kappa (κ).

De formule hiervoor is: $\frac{\sum{f_O}-\sum{f_E}}{N-\sum{f_E}}$ waarbij f₀ de verkregen frequentie is op de diagonaal en f_E de verwachtte.

Stel dat kappa uitkomt op K = .33. Dit houdt in dat we na correctie voor kans 33% overeenstemming hebben tussen de beoordelaars. Dit is veel lager dan de eerder uitgerekende waarde van 66%.

Access:

Public