Begrippenlijst van Introduction to the Practice of Statistics van Moore e.a. - 8e druk

Distributies - Begrippenlijst 1

Individuen

Individuen worden onderzocht en beschreven op basis van data. We gebruiken de term individuen voor mensen en de term cases voor alles behalve mensen.

Variabele

 

 

Categorische variabele

 

Kwantitatieve variabele

Een kenmerk van een individu. Een variabele kan verschillende waarden voor verschillende mensen hebben. Voorbeelden van variabelen zijn sekse, leeftijd, lengte en gewicht.

 

Plaatst een individu in één of van de twee of meer groepen of categorieën. Een voorbeeld is sekse.

 

Heeft een numerieke waarden waarmee gerekend kan worden. Een voorbeeld is lengte: iemand van twee meter is twee keer zo lang als iemand van één meter.

Distributie

Een distributie van een variabele vertelt ons welke waarden van een variabele bij individuen voorkomen en hoe vaak deze waarden voorkomen

Verkennende data-analyse (exploratory data analysis)

de belangrijkste kenmerken van een dataset worden beschreven

Staafdiagram (bar graph):

De hoogtes van de staven zeggen iets over hoe vaak bepaalde waarden voorkomen. De frequenties staan op de y-as en de lengtes van de staven dienen daar dan ook mee te corresponderen.

Cirkeldiagram (pie chart)

Hiermee kun je bijvoorbeeld meteen zien of er meer mannen dan vrouwen hebben meegedaan aan een onderzoek. Omdat cirkeldiagrammen niet gebruik maken van schalen, worden hoeveelheden door middel van percentages uitgedrukt.

Stam-en-bladdiagram (stemplot)

Een stam-en-bladdiagram geeft snel een beeld van de vorm van een distributie, terwijl elke waarde in de oorspronkelijke vorm worden toegevoegd. Zo een diagram is het handigst als er sprake is van niet al te veel observaties (die allemaal groter dan nul zijn).

Rug-tot-rugdiagram (back-to-back stemplot)

Een rug-tot-rugdiagram is een variant van de stam-en-bladdiagram. Met zo een diagram kunnen twee gerelateerde distributies vergeleken worden. Zo een diagram maakt gebruik van gemeenschappelijke stammen.

Histogrammen

 

Bij een histogram worden de waarden van een variabele opgedeeld in groepen. Daarom worden alleen de frequenties of percentages beschreven die bij de groepen horen.

Uitbijter

Dit is een individuele score die duidelijk buiten het algemene patroon valt.

Tijdplots (time plots)

 

Een tijdplot (time plot) van een variabele geeft een grafische weergave van elke observatie in relatie tot het moment waarop deze gemeten variabele is. Tijd moet altijd op de horizontale lijn gezet worden, terwijl de gemeten variabele op de Y-as moet staan.

Het gemiddelde (the mean)

 

Een numerieke beschrijving van een distributie begint met een meting van het middenpunt.

De mediaan

 

De mediaan M is het letterlijke middenpunt van en distributie. De helft van de observaties valt onder de mediaan, terwijl de andere helft zich boven de mediaan bevindt.

Interkwartiele range (interquartile range: IQR)

 

De afstand tussen de eerste en het derde kwartiel is een meer robuuste maat voor spreiding. Deze afstand wordt de interkwartiele range genoemd.

Variantie (s²)

De variantie van een dataset is het gemiddelde van de gekwadrateerde score-afwijkingen van het gemiddelde.

Standaarddeviatie (s)

De wortel uit de variantie.

Dichtheidscurves

 

Een dichtheidscurve beschrijft het algemene patroon van een distributie. Dichtheidscurves kunnen, net zoals distributies, allerlei vormen hebben. Een bijzondere variant is de normaalverdeling, waarbij beide helften van de curve symmetrisch zijn.

Modus

De modus van een distributie beschrijft het piekpunt van de curve.

Normaalverdelingen

 

Normaalverdelingen zijn symmetrisch en unimodaal: ze hebben dus maar één piek.

Cumulatieve proporties

 

Dit is de proportie observaties in een distributie die onder een bepaalde waarde ligt of daar precies gelijk aan is.

Verbanden - Begrippenlijst 2

Responsvariabele

Gerelateerd aan de uitkomsten van een onderzoek.

Verklarende variabele

Verklaart of veroorzaakt veranderingen in de responsvariabelen. In ons voorbeeld is lengte de verklarende variabele.

Puntgrafiek (scatterplot)

Grafisch wijze waarbij de relatie tussen twee kwantitatieve variabelen wordt verwerkt. De twee variabelen moeten wel bij dezelfde individuen gemeten worden.

Correlatie

De correlatie meet de richting en de sterke van een lineaire relatie tussen twee kwantitatieve variabelen.

Regressielijn

Een regressielijn is een rechte lijn die beschrijft hoe een responsvariabele Y verandert als een verklarende variabele X verandert.

Extrapolatie

Extrapoleren is het gebruik van een regressielijn om voorspellingen te doen die ver buiten de onderzochte waarden liggen.

Residu

Een residu is het verschil tussen een geobserveerde waarde van een responsvariabele en de voorspelde waarde volgens de regressielijn: residu = y- ŷ.

Op de loer liggende variabele (lurking variable)

Een variabele die niet in het onderzoek als een verklarende- of responsvariabele opgenomen is, maar toch de interpretatie van de relatie tussen deze variabelen kan beïnvloeden.

Causaliteit

Als variabele X variabele Y veroorzaakt.

Algemene respons (common response)

X en Y lijken samen te hangen omdat ze allebei worden beïnvloed door een andere variabele, namelijk variabele Z.

Confounding

Twee variabelen zijn ‘confounded’ wanneer hun effecten op een responsvariabele niet van elkaar kunnen worden onderscheiden.

Data verzamelen - Begrippenlijst 3

Anekdotisch bewijs (anecdotal evidence)

Gebaseerd op onze eigen selectie van informatie.

Randomisatie

Randomisatie is het gebruik van toeval om experimentele eenheden in groepen in te delen

Dubbel blind onderzoek

Wanneer zowel de subjecten zelf als de onderzoekers niet weten welke behandelingen de subjecten gekregen hebben.

Gematchte paar-design

Bij dit design worden twee behandelingen met elkaar vergeleken. De subjecten worden in groepjes van twee gepaard.

Blok design

In dit design wordt gebruik gemaakt van zogenaamde blokken. Een blok is een groep van experimentele eenheden of subjecten die op elkaar lijken.

Vrijwillige responssteekproef (voluntary response sample)

Het bestaat uit mensen die zelf kiezen om mee te doen aan een onderzoek.

Simpele random sample

Dit is een steekproef van grootte n die uit n aantal individuen uit de populatie bestaat. Deze individuen zijn zo gekozen dat elke set van n aantal individuen evenveel kans heeft gehad om voor de steekproef geselecteerd te worden.

Kanssample (probability sample)

Een steekproef die aan de hand van toevalsverschijnselen wordt geselecteerd.

Gestratificeerde (stratified) random sample

Een steekproef die vaak wordt gebruikt als er sprake is van een onderzoek naar een grote populatie.

Multistage sampling design

Bij dit design wordt de steekproef in fasen geselecteerd.

Onvoldoende dekking (undercoverage)

Als sommige groepen uit de populatie systematisch niet betrokken worden bij een steekproef.

Responsbias

 

Deelnemers reageren dan bijvoorbeeld niet eerlijk over zaken als drugsgebruik of stelen. Dit omdat niemand ongewenst gedrag wil toegeven.

Sampling variabiliteit

De waarde van een statistiek per steekproef varieert.

De steekproevendistributie (sampling distribution)

De distributie van alle waarden die de statistiek aanneemt in alle mogelijke steekproeven van dezelfde grootte en uit dezelfde populatie.

Informed consent
 

Alle deelnemers die mee willen doen aan een onderzoek moeten hun goedkeuring voor deelname geven.

De beoordelingscommissie

 

Het doel van de beoordelingscommissie is het beschermen van de rechten en de (mentale) gezondheid van deelnemers.

Kansen - Begrippenlijst 4

Random

We noemen een fenomeen random als individuele uitkomsten onzeker zijn, maar er toch een duidelijk uitkomstenpatroon op lange termijn waar te nemen is.

Kans (probability)

De kans (probability) op een uitkomst van een random fenomeen is de proportie van het aantal keren dat de uitkomst voor zal komen na vele herhalingen.

Kansmodel (probability model)

De beschrijving van een random fenomeen in rekenkundige termen

Sampleruimte (S)

Een sampleruimte (S) van een random fenomeen is de set van alle mogelijke uitkomsten.

Discrete random variabele X

Variabele met een eindig aantal mogelijke waarden.

Unie

Een unie van een verzameling van gebeurtenissen is de gebeurtenis dat minstens één van de alle gebeurtenissen voorkomt.

Conditionele kans

Kijkt naar de kans op een bepaalde gebeurtenis, gegeven het feit dat een andere gebeurtenis is voorgekomen.

Intersectie

De intersectie van een verzameling gebeurtenissen is de gebeurtenis waarbij alle gebeurtenissen uit de verzameling voorkomen.

Steekproevendistributies - Begrippenlijst 5

De steekproevendistributie (sampling distribution)

De kansdistributie van een toets. Zo een distributie laat zien hoe een toets (zoals een gemiddelde) zal variëren wanneer herhaaldelijk een steekproef getrokken zou worden.

De populatiedistributie

Een distributie die alle waarden bevat die een variabele aanneemt bij leden van de populatie.

Steekproefgemiddelden

Het steekproefgemiddelde () is een schatting van het gemiddelde μ van de populatie,

Telling

Een random variabele X is een telling (count) als we tellen hoe vaak een bepaalde uitkomst voorkomt.

Binomiale distributie

Distributie bestaand uit n observaties die allen onafhankelijk zijn. Elke observatie valt onder een van de twee categorieën(succes of falen).

Introductie in statistische gevolgtrekkingen - Begrippenlijst 6

Statistische gevolgtrekkingen (statistical interference)

Gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Betrouwbaarheidsintervallen

Bij het berekenen van betrouwbaarheidsintervallen proberen we met een bepaalde zekerheid (bijvoorbeeld met een zekerheid van 95%) te stellen dat een populatiewaarde zich tussen twee grenswaarden bevindt.

Nulhypothese

De hypothese die bij een significantietoets getoetst wordt.

Alternatieve hypothese

Deze stelt dat er wel een verschil of verandering is. We willen bewijs vinden dat de alternatieve hypothese steunt.

Teststatistiek

Een teststatistiek meet in hoeverre de nulhypothese en de verzamelde data overeenkomstig zijn. Dit gegeven gebruiken we voor de significantietoets. Een teststatistiek zien we als een random variabele.

P-waarde

De p-waarde is de kans dat een teststatistiek een extreme(re) waarde aanneemt dan uit de gevonden data blijkt, als de nulhypothese waar zou zijn.

Significantieniveau

De beslissende waarde van p. Ook wel alpha genoemd.

Power

De kans dat een significantietoets met een vaste α de nulhypothese zal afwijzen als de alternatieve hypothese in werkelijkheid juist is, noemen we de power van de toets.

Een type II fout

Aannemen van de nulhypothese en afwijzen van de alternatieve hypothese. Dit terwijl de alternatieve hypothese in werkelijkheid juist is.

Een type I fout

Afwijzen van de nulhypothese en het aannemen van de alternatieve hypothese. Dit terwijl in werkelijkheid de nulhypothese juist is.

Statistische gevolgtrekkingen voor distributies - Begrippenlijst 7

T-distributie

We gebruiken de t-distributie (in plaats van de z-distributie) wanneer we de standaarddeviatie van de populatie niet kennen.

Robuustheid

Een distributie die niet erg door een niet-normaalverdeelde populatie wordt beïnvloed, wordt robuust genoemd.

Statistische gevolgtrekkingen voor proporties - Begrippenlijst 8

Steekproefproportie

De steekproefproportie wordt gebruikt om de populatieproportie te schatten.

De plus vier schatting

De plus vier regel om een populatieproportie te schatten is: p-golf= X+2/n+4.

plus vier schattingen van twee populatieproporties

p1-golf= X1 +1/ n1 +2 en p2-golf= X2 +1/ n2 +2

Analyse van tweewegtabellen - Begrippenlijst 9

Tweewegtabellen

Variabelen die in twee rijen en twee kolommen worden gezet.

De verwachte celtelling

(Rijtotaal/ kolomtotaal)/n

 

Chi-kwadraat toets

De chi-kwadraat toets meet hoeveel de geobserveerde celtellingen verschillen van de verwachte celtellingen. Grote waarden van X 2 geven bewijs tegen de nulhypothese.

Regressie - Begrippenlijst 10

Simpele lineaire regressie

Simpele lineaire regressie wordt gebruikt om de relatie tussen een responsvariabele (y) en een verklarende variabele (x) te onderzoeken.

Subpopulatie

Elke waarde van x gaat samen met één subpopulatie. Elke subpopulatie bestaat uit alle individuen in de populatie die dezelfde waarde van x hebben.

Voorspellingsinterval

Soms willen we een waarde van een y voorspellen die ver buiten de y-waarden in de data ligt. In dat geval maken we gebruik van een voorspellingsinterval.

Analyse van Variantie (ANOVA)

Door middel van analyse van variantie (ANOVA) kunnen we uitzoeken in hoeverre data verklaard kan worden door het deel dat past bij de regressielijn (fit) en het deel dat daarvan afwijkt (residuen).

Populatiecorrelatie (ρ)

Correlatie tussen twee variabelen in een populatie. Als x en y beide normaalverdeeld zijn, dan is ρ=0 hetzelfde als zeggen dat x en y in de populatie onafhankelijk zijn.

Meervoudige regressie - Begrippenlijst 11

Meerdere voorspellers

Bij simpele lineaire regressie is er maar één voorspeller waardoor de observaties samengevat kunnen worden als (xi, yi). Als er meerdere voorspellers zijn, dan maken we gebruik van de notatie xij. In dit verband staat j voor de j-ste variabele en i voor het i-ste geval (case).

Het statistische model voor multipele lineaire regressie

yi= β0+ β1xi1 + β2xi2+ … + βpxip + εi

betrouwbaarheidsinterval voor βj

bj± t*SEbj. In deze formule is SEbj de standaardfout van bj en t* is de waarde van t(n-p-1).

 

Eenweg ANOVA - Begrippenlijst 12

Analyse van Variantie

We gebruiken ANOVA (analyse van variantie) om verschillende gemiddelden met elkaar te vergelijken.

Eenweg ANOVA

Deze techniek wordt gebruikt als er maar één manier is om de populaties te classificeren. Een voorbeeld is onderzoeken of overlevingskansen verschillen voor drie verschillende longkankerbehandelingen.

Tweeweg ANOVA

In dit geval is er meer dan één manier om populaties te classificeren.

De twee sample t-toets

De twee-sample t-toets vergelijkt de gemiddelden van twee populaties. De aanname is hierbij dat beide populaties dezelfde (maar een onbekende) standaarddeviatie hebben en dat de steekproefgroottes gelijk zijn.

Multipele vergelijkingen (multiple-comparisons)

Als we geen vermoeden hebben over de specifieke relatie tussen de populatiegemiddelden, dan kunnen we gebruik maken van multipele vergelijkingen (multiple-comparisons). We onderzoeken in dat geval welke paren van populatiegemiddelden significant van elkaar verschillen.

 

Eenweg ANOVA model

xij = μi + ε ij

Sum of Squares (SS)

SS (sums of squares) laat zien hoeveel spreiding er in de data aanwezig is.

Contrast

Een contrast is een combinatie van populatiegemiddelden in de vorm van Ψ= Σ aiμi. De coëfficiënten van ai tellen op tot 0.

 

Multipele vergelijkingen

Multipele vergelijkingen worden uitgevoerd nadat de nulhypothese voor eenweg ANOVA verworpen is. Aan de hand van deze vergelijkingen worden steeds paren van populaties met elkaar vergeleken.

‘least-significant differences method’ (LSD)

Om t** te bepalen wordt gebruik gemaakt van een alfa van 5%.

Bonferroni methode

Methode om t** te bepalen. Met deze methode neemt de kans op een type I fout niet toe per vergelijking. De kans blijft altijd 5%.

Tweeweg ANOVA - Begrippenlijst 13

Tweeweg ANOVA

Bij tweeweg ANOVA maken we gebruik van twee factoren; elke factor heeft meerdere niveaus.

Hoofdeffect

De verschillen in gemiddelden tussen de niveaus van een variabele.

Interactie effect

Verschillen in gemiddelden die ontstaan door een unieke combinatie van een specifieke variabele en een specifiek niveau van een variabele.

Image

Access: 
Public

Image

Click & Go to more related summaries or chapters

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Follow the author: Business and Economics Supporter
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
3048 1