Normaalverdeling
De normaalverdeling is een symmetrische, klokvormige verdeling. De normaalverdeling is om vier redenen de belangrijkste verdeling binnen de statistiek:
- We verwachten dat veel van de afhankelijke variabelen waar we mee werken normaal verdeeld zijn in de populatie.
- Als een variabele (ongeveer) normaal verdeeld is, kunnen we vervolgens uitspraken gaan doen over waarden van die variabele (het is vaak een voorwaarde om analyses te doen).
- Wanneer een oneindig aantal steekproeven wordt getrokken van een populatie, zal de verdeling van die steekproefgemiddelden neigen naar een normaal verdeling.
- De meeste statistische programma’s gaan er vanuit dat de observaties normaal verdeeld zijn.
Bij de normaalverdeling wordt gebruik gemaakt van zogenaamde z-scores. Om de normaalverdeling te kunnen bespreken, zal dus eerst moeten worden uitgelegd wat z-scores zijn en hoe je ze gebruikt.
Standaardscores
Vaak worden individuele scores omgezet in standaardscores, ook wel z-scores genoemd. Dit wordt gedaan om de exacte ligging van elke score in een distributie vast te stellen en te beschrijven. Z-scores worden gebruikt om een hele distributie te standaardiseren. Op die manier kunnen verschillende verdelingen met elkaar vergeleken worden.
De z-score beschrijft de exacte positie van een X-waarde op twee manieren: ten eerste via het teken en ten tweede via de waarde. Het plus- of minteken van de z-score beschrijft of de X-waarde zich boven of juist onder het gemiddelde bevindt (het gemiddelde krijgt in de standaardverdeling altijd de waarde nul). De waarde van de z-score beschrijft de afstand van de X-waarde tot het gemiddelde in termen van aantal standaarddeviaties (een z-score van 1,00 betekent dat de X-waarde 1 standaarddeviatie van het gemiddelde verwijderd is). In een distributie met µ =100 en σ =15 is een score van X = 130 een z-score van +2. 130-100 is namelijk 30. Dit getal delen door 15 geeft een standaardscore van 2. Bij alle curven staat de µ in het midden. Aan de rechterkant lopen de z-scores met een plusteken op, terwijl de negatieve standaardscores aan de linkerkant staan.
De formule voor de berekening van standaardscores is: z=(X- µ)/ σ. De deviatiescore wordt gedeeld door de standaarddeviatie. Zo kan de z-waarde omschrijven hoeveel standaarddeviaties een individuele score van het gemiddelde af ligt. Een IQ-score van 70 valt precies twee standaardscores onder het gemiddelde: (70-100)/15= -2. In deze formule staat (X- µ) voor de deviatiescore. Door het gemiddelde van een score af te trekken, kan meteen gezien worden of de score boven of onder het gemiddelde valt. Deze formule is handig bij het omzetten van ruwe scores naar z-scores, maar niet in het omzetten van z-scores naar ruwe scores, daarvoor kun je de formule herschrijven.
De z-score en de normale verdeling
De standaardnormaalverdeling heeft een gemiddelde van 0 en een standaarddeviatie van 1, de distributie wordt dus N(0,1). De normaalverdeling is symmetrisch; de hoogste frequentie ligt in het midden, terwijl de frequenties verminderen naarmate naar rechts of links gegaan wordt. Z-scores staan bij de normaalverdeling vermeld in termen van standaarddeviaties. Een z-score van +2 betekent dat een score twee standaarddeviaties boven het gemiddelde ligt. Bij een normaalverdeling kunnen we de volgende uitspraken doen over de standaarddeviatie.
- ±68% van de observaties valt binnen 1 standaarddeviatie van het gemiddelde
- ±95% van de observaties valt binnen 2 standaarddeviaties van het gemiddelde
- ±99% van de observaties valt binnen 3 standaarddeviaties van het gemiddelde
Centrale limietstelling
Wat als blijkt dat de sample niet een normaalverdeling heeft? Denk hierbij aan het aantal uren tv kijken. Het grootste gedeelte van de mensen kijkt tussen de één à twee uur televisie per dag. Er zijn echter uitzonderingen, waarbij mensen acht uur tv kijken per dag. Deze distributie zal dan skewed naar rechts zijn. Ondanks dat deze kans distributie niet normaal verdeeld is, is de sampling distributie van het sample gemiddelde wel normaal verdeeld . Dit wordt de centrale limietstelling genoemd. Dit gebeurt alleen als de sample grootte n groot genoeg is, dit is het geval vanaf n = 30.
Kansen, proporties en scores
Stel je voor: een distributie van intelligentie heeft een µ van 100 en een σ van 15. Hoe groot is de kans dan om door middel van random sampling een individu te selecteren van een IQ van onder de 130? Om deze vraag te kunnen beantwoorden, moeten IQ- scores (X-waarden) eerst omgezet worden in z-scores. Vervolgens moet de bijbehorende proportie gevonden worden. Dit komt overeen met de kans die gevonden moet worden. In dit geval is de z-score +2. Deze score wordt als volgt gevonden: (130-100)/15=2. Hier hoort volgens de tabel voor de normaalverdeling een proportie van 0.9772 bij. Dus: p(X<130)=0.9772. Er is dus 97.72% kans om iemand met een IQ van onder de 130 te selecteren. Wat moet je doen als uitgezocht moet worden wat de proportie tussen twee waarden is? Stel je voor: de gemiddelde snelheid op een weg is gemiddeld 58. De standaarddeviatie is 10. Hoeveel van de langsrijdende auto’s zal dan rijden tussen de 55 en 65 kilometer per uur? Eigenlijk ben je dus op zoek naar p(55
De binomiale verdeling
Wanneer een variabele wordt gemeten op een schaal met precies twee categorieën, wordt de resulterende data binomiaal genoemd. Binomiale data kunnen ook voortvloeien uit een variabele die alleen twee categorieën heeft. Mensen kunnen bijvoorbeeld alleen man of vrouw zijn en met een stuiver kan alleen munt of kop gegooid worden. Ook komt het voor dat een onderzoeker data probeert te versimpelen door deze in twee categorieën op te delen. Een psycholoog kan persoonlijkheidsscores bijvoorbeeld gebruiken om mensen als laag of hoog op agressie te categoriseren. Vaak kent de onderzoeker de kansen die horen bij de twee categorieën. Bij een stuiver is er bijvoorbeeld 50% kans op het gooien van kop en 50% op het gooien van munt. Voor een onderzoeker is het echter belangrijk om te weten hoe vaak een gebeurtenis voorkomt als er meerdere herhalingen zijn. Wat is bijvoorbeeld de kans dat iemand 15 keer kop gooit wanneer hij of zij 20 keer tost?
Om kansvragen over binomiale data te beantwoorden, moet de binomiale distributie eerst onderzocht worden. De formule van de binomiale verdeling is als volgt: p(X) = CNX pXq(N-X) = $\frac{N}{X(N-X)}$ pXq(N-X).
p(X) = de kans op X successen
N = het aantal trials
p = de kans op een succes op één trial
q = (1- p) de kans op falen
CNX = het aantal combinaties van N dingen die X per keer gepakt worden
Gemiddelde en variantie
Wanneer p = q = .50, zoals bij het opgooien van een munt, zal de binomiale verdeling symmetrisch zijn. De formules voor gemiddelde, variantie en standaarddeviatie zijn altijd:
Gemiddelde = Np
Variantie = Npq
Standaarddeviatie = $\sqrt{Npq}$
Voor de binomiale verdeling geldt dat de verdeling normaler wordt bij getallen van p en q, die dichtbij .50 liggen. Daarnaast wordt de distributie symmetrischer en meer normaal, bij een hoger aantal trials. We gebruiken de vuistregel dat wanneer Np en Nq niet groter zijn dan 5, de distributie bijna normaal is, waardoor de schattingen redelijk goed zijn als we de verdeling als normaal behandelen.
Categorische data en chi-kwadraat
Wanneer we te maken krijgen met categorische data, bestaat deze data uit frequenties van observaties die in twee of meer categorieën vallen. In dat geval gebruik je de chi-kwadraat test.
De chi-kwadraat verdeling
De formule voor de chi-kwadraat functie wijkt af van andere functies, omdat het slechts één parameter heeft. De rest zijn constanten. De normaal verdeling heeft er twee parameters (μ en σ), de chi-kwadraat heeft alleen k als parameter. In de statistische wereld staat k voor het aantal vrijheidsgraden (degrees of freedom df). Vrijheidsgraden worden vaak weergegeven als χ²3 of χ²(3). Hoe groter k wordt, hoe symmetrischer de verdeling. Het gemiddelde en de variantie nemen toe als k toeneemt. Verder geldt:
Gemiddelde = k
Variantie = 2k
De chi-kwadraat formule maakt gebruik van de geobserveerde frequenties en de verwachte frequenties. De geobserveerde frequenties zijn de werkelijke frequenties in de data. De verwachtte frequenties zijn de frequenties, die je zou verwachten wanneer de nulhypothese waar is. De formule voor de chi-kwadraat is: $x^2$ = $\sum\frac{(O-E)^2}{E}$ waarbij je voor elke categorie de berekening uitvoert, en optelt. O staat voor geobserveerde frequenties en E staat voor verwachtte frequenties.
Tabel van chi-kwadraat verdeling
Nu we een waarde hebben voor χ² moeten we deze vergelijken met de χ² verdeling om de kans te bepalen dat een waarde van χ² minstens zo extreem voorkomt, gegeven dat de nulhypothese waar is. Hiervoor kun je de standaard tabelverdeling van χ². De tabel maakt gebruik van vrijheidsgraden. Voor een eendimensionale tabel geldt: df = (k -1), het aantal categorieën min één. Als je gevonden χ² groter is dan de waarde uit de tabel, kun je de nulhypothese verwerpen. Een probleem is dat de chi-kwadraat verdeling continue is, terwijl de mogelijke waarden van chi-kwadraat discreet zijn (vooral bij kleine steekproefgroottes). Het passen van een discrete verdeling in een continue verdeling is een slechte fit.
Twee classificatie variabelen
In de vorige voorbeelden spraken we over één dimensie (of classificatie variabele). Vaak zijn er echter meerdere classificatie variabelen en willen we weten of die onafhankelijk van elkaar zijn. Wanneer ze niet onafhankelijk zijn, zijn ze in minder of meerdere mate contingent op of afhankelijk van elkaar. In een contingentie tabel kunnen we de verdelingen van elke variabele tegen elkaar afzetten.
In een contingentie tabel staan de frequenties die we zouden verwachten als de twee variabelen onafhankelijk waren (tussen haakjes). De verwachtte frequentie wordt bereikt door het vermenigvuldigen van de totalen van de rij en kolom waar het om gaat (dit zijn marginale totalen) en dit getal te delen door de totale steekproefgrootte. Dit is weer te geven in een formule: Eij = RiCj / N. Eij is hierbij de verwachtte frequentie voor de cel in rij i en kolom j. Ri en Cj zijn de rij en kolom totalen.
De kans dat een observatie in rij 1 valt is het totaal van die rij gedeeld door het totaal aantal cellen. Dit geldt ook voor kolommen. De verwachtte frequentie, als de observaties onafhankelijk zijn, kan verkregen worden door deze twee kansen met elkaar te vermenigvuldigen en dit resultaat te vermenigvuldigen met N. De waarde van χ² is weer met dezelfde formule te berekenen. Uit de contingentie tabel is het aantal vrijheidsgraden af te leiden door: df = (R – 1)(C – 1) met R en C het aantal rijen en kolommen in de tabel.
Voorwaarde voor de Pearson chi-kwadraat
Een van de belangrijkste voorwaarden om de chi-kwadraat test te gebruiken, is een redelijke grootte van verwachte frequenties. Kleine verwachte frequenties kunnen voor problemen zorgen. Ze zorgen namelijk voor een beperkt aantal contigentie tabellen en dus voor een beperkt aantal waarden voor chi-kwadraat. De continue χ² verdeling kan deze discrete verdeling niet goed beschrijven.
Over het algemeen is de regel dat alle verwachte frequenties minstens vijf moeten zijn. Bij kleinere frequenties is het aan te raden Fisher’s Exacte Test te gebruiken, omdat die niet gebaseerd is op de χ² distributie. Bij verwachtte frequenties van één in een cel van een 2x2 tabel kan de chi-kwadraat met de volgende formule gevonden worden:
χ²adj = (χ² x N)/(N-1).
De Fisher’s Exact Test wordt gebruikt voor de verwachtte waarden groter dan één.
Meten van overeenstemming
Bij categorische data is het vaak van belang om te meten in hoeverre beoordelaars overeenstemmen in hun oordeel. Stel dat we bijvoorbeeld willen meten of 30 adolescenten problemen vertonen, met een indeling van ‘geen problemen’ (1), ‘problemen op school’ (2) en ‘problemen thuis’ (3) . We vragen twee beoordelaars (clinici) om dit te onderzoeken, zodat we de twee beoordelingen kunnen vergelijken. Middels een contingentietabel onderzoeken we hoe vaak de beoordelaars op elke schaal hebben gescoord. Stel dat we vinden dat de beoordelaars het in 20 van de 30 gevallen eens zijn (de diagonale cellen), dan is er 66% overeenstemming. Dit is het percentage van overeenstemming. Daarnaast vinden de beoordelaars beiden dat de meerderheid van de adolescenten geen problemen vertonen.
Het probleem met alleen uitrekenen van een percentage, is dat we geen rekening houden met de mogelijkheid dat de beoordelaars per toeval dezelfde classificatie geven. Om te corrigeren voor kans, ontwikkelde Cohen de statistiek kappa (κ).
De formule hiervoor is: $\frac{\sum{f_O}-\sum{f_E}}{N-\sum{f_E}}$ waarbij f0 de verkregen frequentie is op de diagonaal en fE de verwachtte.
Stel dat kappa uitkomt op K = .33. Dit houdt in dat we na correctie voor kans 33% overeenstemming hebben tussen de beoordelaars. Dit is veel lager dan de eerder uitgerekende waarde van 66%.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Statistiek en methoden: samenvattingen, suggesties en tips van WorldSupporters
- Begrippenlijst bij het vak statistiek
- Begrippenlijst Beschrijvende Statistiek
- Samenvattingen per onderwerp bij Inleiding Statistiek
- Wat is statistiek?
- Welke verdelingen bestaan er binnen de statistiek?
- Wat zijn de veelgebruikte symbolen in de statistiek? - Chapter 0
- Summaries: home page for statistics and research
- Statistics and research: home bundle
Contributions: posts
Spotlight: topics
Statistiek en methoden: samenvattingen, suggesties en tips van WorldSupporters
Statistiek en methoden: samenvattingen, suggesties en tips van WorldSupporters
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the summaries home pages for your study or field of study
- Use the check and search pages for summaries and study aids by field of study, subject or faculty
- Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
- Check or follow authors or other WorldSupporters
- Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Main summaries home pages:
- Business organization and economics - Communication and marketing -International relations and international organizations - IT, logistics and technology - Law and administration - Leisure, sports and tourism - Medicine and healthcare - Pedagogy and educational science - Psychology and behavioral sciences - Society, culture and arts - Statistics and research
- Summaries: the best textbooks summarized per field of study
- Summaries: the best scientific articles summarized per field of study
- Summaries: the best definitions, descriptions and lists of terms per field of study
- Exams: home page for exams, exam tips and study tips
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
- Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
- Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
606 |
Add new contribution