Nederlandstalige Boeksamenvatting - Online Statistics Education - Statistiek 1A RUG

Wat is statistiek? - Chapter 1

§1.1 Wat is statistiek?

Statistieken omvatten numerieke feiten en figuren, maar zijn soms meer dan feiten en figuren alleen. De studie van statistiek draait om wiskunde en is gebaseerd op berekeningen van getallen. Het draait echter ook sterk om hoe de getallen zijn gekozen en hoe de statistieken worden geïnterpreteerd.
In de meest brede zin refereert statistiek aan de reeks van technieken en procedures waarmee data wordt geanalyseerd, geïnterpreteerd, weergegeven en waarop besluiten worden genomen.

Wat zijn de leerdoelen van §1.1?

  • Het bereik van toepassingen van statistiek kunnen beschrijven.

  • Situaties waarin statistiek misleidend is, kunnen identificeren.

  • “Statistiek” kunnen definiëren.

§1.2 Wat is het belang van statistiek?

Je komt data en de interpretatie van data op vrijwel elk vlak van het hedendaagse leven tegen. Als je niet in staat bent om onderscheid te maken tussen juiste en verkeerde redenaties (interpretaties) ben je kwetsbaar voor manipulatie en beslissingen die niet in je voordeel werken. Statistiek kan je handvatten geven om op een intelligente manier te reageren op informatie die je hoort en leest.
Vraagtekens zetten bij de statistieken die je tegenkomt, moet je eerste reflex zijn in het intelligent beoordelen van deze statistieken. Denk na over de getallen, hun bronnen, en de procedures die gebruikt zijn om ze te verkrijgen.

Wat zijn de leerdoelen van §1.2?

  • Voorbeelden kunnen geven van statistiek in het dagelijks leven.

  • Voorbeelden kunnen geven van hoe statistiek een argument geloofwaardiger kan maken.

§1.3 Wat is beschrijvende statistiek?

Beschrijvende statistiek zijn getallen die gebruikt worden om data samen te vatten en te beschrijven.
Data refereert aan de informatie dat is verzameld aan de hand van een experiment, vragenlijst, etc. Voorbeelden van beschrijvende statistiek voor een bepaalde dataset: aantal mannen/vrouwen; gemiddelde leeftijd; aantal gehuwden; etc. Beschrijvende statistiek houdt zich niet bezig met generaliseren van informatie uit de dataset naar buiten de dataset. Dit gebeurt binnen de inferentiële statistiek.

Wat zijn de leerdoelen van §1.3?

  • “Beschrijvende statistiek” kunnen definiëren.

  • Onderscheid kunnen maken tussen beschrijvende en inferentiële statistiek.

§1.4 Wat is inferentiële statistiek?

Binnen de statistiek wordt er vaak gebruik gemaakt van een steekproef (sample) om iets te kunnen zeggen over een populatie. Steekproef is een kleine selectie van data verkregen uit de populatie. Populatie is de gehele groep van individuen waar we iets over willen weten.
De wiskundige procedures die worden gebruikt om informatie over de steekproef om te kunnen vormen in intelligente gissingen over de populatie vallen onder inferentiële statistiek.

Inferentiële statistiek is gebaseerd op de assumptie dat het verkrijgen van de steekproef (sampling) willekeurig (random) is. Een willekeurige steekproef hoort verschillende segmenten van een populatie in de juiste verhoudingen weer te geven. 

Wat is simple random sampling?

Er zijn verschillende strategieën voor het nemen van een steekproef. De meest rechttoe rechtaan strategie is simple random sampling. Binnen een simple random sampling heeft elk lid van de populatie evenveel kans om in de steekproef te komen. De selectie van de één is hierbij onafhankelijk van de selectie van een ander. Het selecteren van een lid verkleint of vergroot de kans op het selecteren van een ander lid niet. 

Is de grootte van een steekproef van belang?

Een willekeurig verkregen steekproef, zeker als deze klein is, is niet per se representatief voor de populatie. Hoe groter de steekproef, hoe waarschijnlijker het is dat de steekproef representatief is. 

Wat is random assignment?

Soms is het erg lastig om een pure simple sampling procedure toe te passen. Om deze reden zijn er andere sampling technieken ontwikkeld.

In experimenteel onderzoek zijn populaties vaak hypothetisch. Een steekproef kan dan willekeurig opgedeeld worden in twee groepen. Dit wordt random assignment genoemd. De twee groepen worden vervolgens met elkaar vergeleken. Voorbeeld: een onderzoeker deelt een groep mensen op in twee groepen. Groep 1 slikt een nieuw ontwikkeld medicijn en groep 2 slikt een placebo. Random assignment is van belang voor de validiteit van een onderzoek. Het niet toepassen van een willekeurige toewijzing invalideert de onderzoeksbevindingen. Een onwillekeurige steekproef beperkt alleen de mate van generaliseerbaarheid van de resultaten. 

Wat is stratified random sampling?

Bij stratified sampling bekijk je eerst bij welke groep een persoon hoort. Vervolgens selecteer je willekeurig uit de groepen op zo’n manier dat de grootte van de groepen in de steekproef in verhouding zijn tot de grootte van de groepen in de populatie. Deze methode kan gebruikt worden als de populatie uit duidelijke groepen bestaat. Stratified random sampling gebruikt een onderzoeker soms om een steekproef representatiever te maken.

Wat zijn de leerdoelen van §1.4?

  • Onderscheid kunnen maken tussen een steekproef en een populatie.

  • “Inferentiële statistiek” kunnen definiëren.

  • Biased steekproeven kunnen herkennen.

  • Onderscheid kunnen maken tussen simple random sampling en stratified sampling.

  • Onderscheid kunnen maken tussen random sampling en random assignment.

§1.5 Wat zijn variabelen?

Variabelen zijn kenmerken van een gebeurtenis, object of persoon die van verschillende groottes of waarden kunnen zijn.

Wat zijn onafhankelijke en afhankelijke variabelen?

Onderzoekers manipuleren variabelen regelmatig tijdens het onderzoek doen. Een onafhankelijke variabele is een variabele die de onderzoeker manipuleert. Het effect van de onafhankelijke variabele op iets noemt men de afhankelijke variabele. Een onderzoeker manipuleert de onafhankelijke variabele en meet het effect op de afhankelijke variabele.

Over het algemeen is het aantal niveaus van een onafhankelijke variabele ook het aantal condities van het onderzoek. 

Wat zijn kwalitatieve en kwantitatieve variabelen?

Kwalitatieve variabelen zijn variabelen die een kwalitatief kenmerk uitdrukken, zoals kleur van de nagels, huwelijksstaat, favoriete boek etc. De waardes van de kwalitatieve variabelen impliceren geen numerieke volgorde. Kwalitatieve variabelen worden ook wel categorische variabelen genoemd.

Kwantitatieve variabelen zijn variabelen die gemeten worden aan de hand van nummers, zoals lengte van het haar, iq-score, score op een geheugentest, etc. Variabelen zoals het aantal huisdieren in een huishouden worden discrete variabelen genoemd, omdat de mogelijke scores discrete punten op een schaal zijn. Bijvoorbeeld 3, maar niet 4,52.

Wat zijn continue variabelen?

Andere variabelen zoals reactietijd zijn continue variabelen, omdat de schaal continue is en niet bestaat uit discrete punten. Bijvoorbeeld 1,34752 seconden.

Wat zijn de leerdoelen van §1.5?

  • Onafhankelijke en afhankelijke variabelen kunnen definiëren en onderscheiden.

  • Discrete en continue variabelen kunnen definiëren en onderscheiden.

  • Kwalitatieve en kwantitatieve variabelen kunnen definiëren en onderscheiden.

§1.6 Wat zijn percentielen?

Er bestaat geen universeel geaccepteerde definitie van een percentiel. Mogelijke definities:

  • Het 15e percentiel (bijvoorbeeld) kan gedefinieerd worden als de laagste score dat groter is dan 15% van alle scores.

  • Het 15e percentiel kan echter ook gedefinieerd worden als de laagste score dat groter is dan of
    gelijk is aan 15% van de scores.

Deze twee definities kunnen leiden tot grote verschillen in uitkomsten, zeker als er relatief weinig data is. Verder zegt geen een van de twee definities iets over hoe eventueel een getal af te ronden.

Van welke definitie gaat het boek uit?

Een derde mogelijke definitie: het percentiel is het gewogen gemiddelde van de percentielen berekend volgens de eerder twee genoemde definities. Deze definitie gaat beter om met afrondingen en laat de mediaan het 50e percentiel zijn. Deze samenvatting gaat uit van de derde definitie tenzij anders is aangegeven.

Hoe bereken je een percentiel?

Een bepaald percentiel berekent men door het gebruik van de volgende formule:

R = P/100 x (N + 1)

P is het gewenste percentage.
N is het aantal getallen.

Als R een rond getal is, dan is dat het P-percentiel. Als R niet een rond getal is dan bereken we het P-percentiel als volgt:
1. IR (integer) is het ronde deel van R (bij 2,35 is dat 2)
2. FR is (fractional) het gefractioneerde deel van R (bij 2,35 is dat 0,35)
3. Vind de scores voor IR en IR + 1.
4. Interpoleer door het verschil tussen de scores te vermenigvuldigen met FR en het resultaat
toe te voegen aan de laagste score. 

Wat zijn de leerdoelen van §1.6?

  • “Percentielen” kunnen definiëren.

  • Drie formules voor het berekenen van percentielen kunnen gebruiken.

§1.7 Wat zijn meetschalen?

Een onderzoeker gebruikt een meetschaal om statistische analyses toe te kunnen passen op de afhankelijke variabele. Er bestaan verschillende meetschalen. Welke meetschaal de onderzoeker gebruikt, is afhankelijke van het soort afhankelijke variabele. Er zijn vier soorten meetschalen: nominale schaal, ordinale schaal, interval schaal en ratio schaal.

Wat is een nominale schaal?

Een nominale schaal is een schaal waarop afhankelijke variabelen worden gemeten, die geen volgorde impliceren. Haarkleur is hier een voorbeeld van. Het hebben van blond haar houdt geen betekenisvolle hogere/lagere score in dan het hebben van bruin haar. De onderzoeker categoriseert alleen. Meten met een nominale schaal is meten op het laagste niveau.

Wat is een ordinale schaal?

Een ordinale schaal ordent de items. De itemscores hebben een betekenis. Ordinale schalen maken het mogelijk om vergelijkingen te maken tussen de mate waarin personen de afhankelijke variabele bezitten. Ordinale schalen geven echter niet aan of het verschil in de mate waarop personen de afhankelijke variabele bezitten overal even groot is.

Wat is een interval schaal?

Interval schalen zijn schalen waarom de intervallen overal dezelfde betekenis hebben, denk hierbij aan temperatuurmetingen. Het verschil tussen tien graden Celsius en vijftien graden Celsius is hetzelfde verschil in temperatuur als tussen vijf graden Celsius en tien graden Celsius. Interval schalen hebben geen echt nulpunt. Bij nul graden Celsius betekent het niet dat er geen temperatuur is. Het ontbreken van een echt nulpunt is een nadeel, omdat dit het berekenen van verhoudingen zinloos maakt.

Wat is een ratio schaal?

Een ratio schaal is een intervalschaal waarbij het nulpunt de afwezigheid van de gemeten kwantiteit aangeeft. Als er nul bananen in je koelkast liggen, betekent het dat er daadwerkelijk geen bananen in je koelkast aanwezig zijn. Een ratio schaal heeft alle kenmerken van de eerdere genoemde schalen in zich.

Welke meetschalen zijn gepast voor psychologische metingen?

Meetschalen op nominaal en ordinaal zijn het geschiktst voor psychologische metingen, omdat verhoudingen tussen psychologische metingen moeilijk te interpreteren zijn. Als een persoon A de mate van jeuk op zijn arm meet met een drie en persoon B met een zes, is het niet met zekerheid te zeggen dat de mate van jeuk voor persoon B daadwerkelijk twee keer zo groot als dat van persoon A.

Waarom is de soort meetschaal van belang?

De soort meetschaal is van belang, omdat het bepaalt hoe statistische berekeningen zinvol uitgevoerd kunnen worden.

Wat zijn de leerdoelen van §1.7?

  • De volgende schalen kunnen definiëren en kunnen onderscheiden: nominaal, ordinaal, interval
    en ratio.

  • Een schaaltype kunnen herkennen.

  • Het schaaltype gebruikt bij een psychologische meting kunnen uitleggen.

  • Voorbeelden kunnen geven van fouten die gemaakt kunnen worden bij onjuist gebruik van de
    schalen.

§1.8 Wat zijn spreidingen?

Wat is een frequentie spreiding?

Een frequentiespreiding is een lijst met waarden die in een steekproef naar voren zijn gekomen. Een onderzoeker geeft een frequentiespreiding weer in een staafdiagram als hij werkt met discrete variabelen. De spreiding heet dan ook wel een discrete spreiding. Een kansspreiding (probability distribution) is een spreiding waarbij de kans op een bepaald item in verhouding staat tot het aantal van dat item in de populatie. Als in een populatie 50% van de mensen zwart haar heeft en 50% blond haar, dan is de kans op iemand met zwart haar binnen de kansspreiding ook 50%.

Een onderzoeker in de psychologie werkt vaak met een continue variabele. Door nauwkeurige metingen heeft bijna iedereen bijvoorbeeld een andere reactietijd. Elke reactietijd komt dan vaak één keer voor en dat maakt de frequentiespreiding weinig informatief. Het maken van een gegroepeerde frequentie spreiding is een oplossing voor dit probleem. In zo’n spreiding worden scores die binnen een bepaalde reikwijdte vallen samengenomen. Een histogram kan een gegroepeerde frequentie spreiding weergeven. Spreidingen met een continue variabele heten ook continue spreidingen, en heten ook wel kansdichtheid (probability density). Een kansdichtheid in de vorm van een bel heet een normale spreiding (normal distribution) en is erg belangrijk binnen de statistiek. De volgende punten zijn van belang als het gaat om een figuur voor het beschrijven van een continue variabele, zoals de bel bij een normale spreiding:

  • Het gebied onder de kromming van de lijn staat gelijk aan 1.

  • De kans op een exacte waarde van X is 0.

  • Het gebied onder de kromming van lijn wordt begrensd door twee gegeven punten op de X-as en dat gebied is de kans dat een willekeurig getal tussen de twee gegeven punten valt.

Welke vormen hebben spreidingen?

Spreidingen kunnen verschillende vormen hebben. De normale spreiding is symmetrisch en kan ook uit elkaar gerekter zijn of compacter zijn. De staarten van een spreiding kunnen van elkaar verschillen, waardoor de spreiding niet meer symmetrisch is. Van een spreiding met een staart dat in de positieve (rechter) richting verder reikt dan in de negatieve (linker) richting wordt gezegd dat het een positive skew heeft (of: skewed to the right). Vice versa heeft een spreiding een negative skew of is skewed to the left. Een bimodale spreiding is een spreiding met twee hoogtepunten. Een leptokurtic spreiding is een spreiding met relatief lange staarten en een platykurtic spreiding is een spreiding met relatief korte staarten.

Wat zijn de leerdoelen van §1.8?

  • “Spreiding” kunnen definiëren.

  • Een frequentie spreiding kunnen interpreteren.

  • Onderscheid tussen een frequentie spreiding en een waarschijnlijkheidsspreiding kunnen maken.

  • Voor een continue variabele een gegroepeerde frequentie spreiding kunnen maken.

  • De skew van een spreiding kunnen herkennen.

  • Bimodal, leptokurtic en platykurtic spreidingen kunnen herkennen.

§1.9 wat is de sommatie-notatie?

Getallen bij elkaar optellen gebeurt vaak bij statistische formules. Er bestaat een notatie om een opsomming uit te drukken. Als alles scores van een variabele bij elkaar opgeteld moeten worden, bestaat de volgende afgekorte notatie:

ΣX

x staat voor de scores van de variabele x.

Boven de Σ kan een getal staan. Dit getal houdt in dat de opsomming stopt bij dat item. Er zijn bijvoorbeeld zes items van X, maar het getal boven Σ is een drie, dan worden de items na X3 niet mee berekend. Onder de Σ staat vaak i = 1. Dit betekent dat de opsomming begint bij X1.
Bij veel formules moeten de getallen eerst in het kwadraat (squared) worden genomen voordat ze opgeteld worden. Dit wordt als volgt weergegeven:

ΣX²

Bij sommige formules moeten getallen van twee verschillende variabelen vermenigvuldigd worden voordat ze opgeteld worden. Dit wordt als volgt weergegeven:

ΣXY

Wat zijn de leerdoelen van §1.9?

  • De sommatie-notatie kunnen gebruiken om de som van alle getallen te berekenen.

  • De sommatie-notatie kunnen gebruiken om de som van een subset van getallen te berekenen.

  • De sommatie-notatie kunnen gebruiken om de sum of squares te bereken.

§1.10 Wat zijn lineaire transformaties?

Vaak is het nodig om data op een bepaalde meetschaal te transformeren naar een andere meetschaal. Dit kan inhouden dat men een getal vermenigvuldigd met een vaststaand ander getal. Soms houdt de transformatie in dat men eerst een getal vermenigvuldigd met een vaststaand ander getal en er dan een tweede vaststaand getal bij optelt. In dit tweede geval zullen de punten in een figuur altijd een rechte lijn vormen. Om deze reden worden deze transformaties lineaire transformaties genoemd.

Wat zijn de leerdoelen van §1.10?

  • De formule voor lineaire transformaties kunnen geven.

  • Kunnen vaststellen of een transformatie lineair is.

  • Kunnen beschrijven wat lineair is aan een lineaire transformatie.

§1.11 Wat zijn logaritmes?

The log transformatie maakt de positieve skew kleiner. Dit kan de data interpreteerbaarder maken en bijdragen om aan de assumpties van de inferentiële statistiek te voldoen.

Wat zijn de basisprincipes van logaritmes (logs)?

In wezen zijn logs het tegenovergestelde van exponenten. Het exponent 2 van 4 is 16. De base vier tot de macht twee is zestien. Een log4(16) = 2. Of de log base vier van zestien is gelijk aan twee. De base kan elk getal zijn.

Hoe veranderen logs en verhoudingen ten opzichte van elkaar?

Een reeks getallen die evenredig toeneemt, neemt in gelijke mate toe als ze in logs veranderd zijn.

Wat zijn de regels die horen bij berekeningen met logs?

Log (AB) = Log (A) + Log (B)

Log (A/B) = Log (A) – Log (B)

Wat zijn de leerdoelen van §1.11?

  • Logs kunnen berekenen aan de hand van verschillende bases.

  • Twee bases kunnen omkeren.

  • De relatie tussen logs en proportional change kunnen aangeven.

Hoe worden spreidingen weergegeven? - Chapter 2

§2.1 Hoe kan de spreiding van kwalitatieve variabelen worden weergegeven?

Belangrijk om te houden bij kwalitatieve variabelen is dat de data niet met een voorgeschreven rangschikking komt. De grafische methoden die in deze paragraaf worden besproken zijn allemaal afgeleid van frequentietabellen.

Wat zijn taartdiagrammen?

Een taartdiagram is een “taart” van bovenaf gezien, waarin stukken van de taart een categorie representeren. De grootte van het stuk is in verhouding met het percentage items in de categorie. Bij een klein aantal categorieën zijn taartdiagrammen effectief bij het weergeven van de frequenties. Het is niet handig om taartdiagrammen te gebruiken bij een groot aantal categorieën. Daarnaast is het ook niet handig om taartdiagrammen te gebruiken om twee verschillende vragenlijsten of experimenten met elkaar te vergelijken. Ook kan het misleidend zijn om de stukjes taart met percentages aan te geven als het aantal items binnen een categorie klein is. Het is dan beter om de stukjes aan te geven met het getal van het aantal items.

Wanneer gebruikt men een staafdiagram?

Staafdiagrammen kunnen ook gebruikt worden om frequenties van verschillende categorieën weer te geven. Staafdiagrammen kunnen goed gebruikt worden wanneer verschillen tussen twee spreidingen weergegeven moeten worden. Zowel een horizontale als verticale weergave is mogelijk bij staafdiagrammen. Een horizontale weergave is handig bij veel categorieën, omdat er dan meer plek is voor de namen van de categorieën.

Welke grafische vergissingen moet worden voorkomen?

Voeg geen functies toe aan een grafiek als deze niet bijdraagt aan het overbrengen van de boodschap. Soms is het verleidelijk om de staven te vervangen door betekenisvolle plaatjes, maar de grootte van de plaatjes trekt de aandacht, ook al zijn de hoogtes van de plaatjes juist. Als de basislijn van een staafdiagram op andere waarde dan nul wordt gezet, kan dit ook leiden tot vervorming van de weergave. De laatste vergissing dat moet worden voorkomen is het gebruik van een lijndiagram wanneer de X-as alleen uit kwalitatieve variabelen bestaat. Als dit wel gebeurt, ontstaat de indruk dat de variabelen een natuurlijke volgorde hebben terwijl dat niet het geval is.

Wat zijn de leerdoelen van §2.1?

  • Een frequentie tabel kunnen maken.

  • Kunnen bepalen wanneer een taartdiagram waardevol is en wanneer niet.

  • Staafdiagrammen kunnen maken en interpreteren.

  • Veel voorkomende grafische fouten kunnen herkennen.

§2.2 Hoe kan de spreiding van kwantitatieve variabelen worden weergegeven?

Er zijn verschillende soorten grafieken om de spreiding van kwantitatieve variabele weer te geven. Een aantal worden hieronder besproken.

§2.2.1 Wat zijn stam-en-blad weergaven?

Het gebruik van een stam-en-blad weergave is handig als de dataset klein is. Een doel van zo een weergave is om de vorm van de spreiding te verduidelijken.

3

44469

2

36

1

22799

De getallen voor de streep in bovenstaande weergave zijn de stammen. Eén getal is één stam. Deze getallen representeren vaak een tientallig cijfer. Het getal 2 kan dan de getallen 20 tot en met 29 representeren. De getallen achter de streep op dezelfde lijn als een stam behoren tot die stam en representeren één cijfer. De drie achter de stam 2 staat voor 23.

De weergave kan nog meer duidelijkheid geven als men elke stam in tweeën splitst. Op deze manier zitten er minder items in één rij. Dit is handig om te doen bij veel items in een rij. De stam opsplitsen in meer dan twee delen is mogelijk. Er is een variatie van de stam-en-blad weergave die handig is bij het vergelijken van spreidingen. Hierbij is er één kolom voor de stammen en aan beide kanten van de stam zijn rijen met items.

De rechterkant van de kolom is een spreiding van een variabele en de linkerkant is een spreiding van een andere variabele. Dit is de rug-tot-rug stam-en-blad weergave (back-to-back stem and leaf display). Getallen in een stam-en-blad weergave worden eerst afgerond, omdat de weergave alleen afgeronde getallen kan laten zien. Als getallen afgerond kunnen worden zonder belangrijke informatie te verliezen dan is dit soort weergave passend om te gebruiken. Voor negatieve getallen kunnen negatieve stammen gebruikt worden. Deze soort weergave is handig voor datasets tot en met 200 items.

Wat zijn de leerdoelen van §2.2.1?

  • Basisvormen van stam-en-blad weergaven kunnen maken en interpreteren.

  • De back-to-back vorm van de stam-en-blad weergaven kunnen maken en interpreteren.

  • Kunnen beoordelen of een stam-en-blad weergave geschikt is voor bepaalde data.

§2.2.2 Wat zijn histogrammen?

Een histogram is ook een methode om de vorm van een spreiding weer te geven. Deze methode is vooral handig als er sprake is van een groot aantal items. De eerste stap is het maken van een frequentietabel. Een frequentietabel wordt kleiner als scores gegroepeerd worden. De scores worden dan verdeeld over intervallen, ook wel class intervals genoemd. Door de grenzen van de intervallen op ..,5 te zetten, zorgt ervoor dat elke score binnen een interval valt in plaats van op exact de grens. De staven van een histogram representeren frequenties van de class intervals. Histogrammen kunnen ook gebruikt worden bij continue variabelen. Het gebruik van hele getallen als grens voorkomt in dit geval een rommelige uitstraling van de histogram. Histogrammen kunnen zowel gemaakt worden op basis van relatieve frequenties en werkelijke frequenties. Histogrammen gebaseerd op relatieve frequenties geven de verhouding van de scores in elk interval weer in plaats van het echte aantal items. Om een histogram gebaseerd op werkelijke frequenties om te zetten in een histogram gebaseerd op relatieve frequenties moet men elke class interval delen door het totaal aantal items en vervolgens de quotiënten op de y-as zetten.
Bin widths is een benaming die ook wordt gebruikt voor wijdte van de intervallen. De keuze van de bin widths plus de keuze van het startpunt van het eerste interval bepalen de vorm van de histogram. Het beste advies dat het boek geeft, is om te experimenteren met verschillende wijdtes van de intervallen en dan de histogram te kiezen die het beste de vorm van de spreiding weergeeft.

Wat zijn de leerdoelen van §2.2.2?

  • Een gegroepeerde frequentie spreiding kunnen maken.

  • Een histogram kunnen maken gebaseerd op een gegroepeerde frequentie spreiding.

  • Een geschikte bin wijdte kunnen vaststellen.

§2.2.3 Wat zijn frequentie polygonen?

Frequentie polygonen hebben hetzelfde doel als histogrammen, maar zijn vooral handig bij het vergelijken van datasets. Daarnaast zijn frequentie polygonen een goede keuze voor het weergeven van cumulatieve frequentie spreidingen. Volg de volgende stappen bij het maken van een frequentie polygoon:

  1. Kies een class interval.

  2. Teken een x-as dat de waardes van de items uit de data representeert.

  3. Zet een dik streepje in het midden van elk class interval en zet de waarde van de middelste waarde van de class interval er bij.

  4. Teken een y-as om de frequentie van elke class interval te duiden.

  5. Zet een punt in het midden van elk class interval op de hoogte die correspondeert met zijn frequentie.

  6. Verbind de punten met elkaar.

Zorg ervoor dat je een class interval maakt onder de laagste waarde in de dataset en één boven de hoogste waarde. Op deze manier zal de grafiek X-as aan beide kanten raken. De vorm van de spreiding kan nu makkelijk worden afgelezen. Een cumulatieve frequentie polygoon ziet er hetzelfde uit als een frequentie polygoon, behalve dat nu de waarde van Y hetzelfde is als het aantal items in een bepaalde class interval plus het aantal items in de class intervals lager dan het huidige interval.
Frequentie polygonen zijn handig voor het vergelijken van spreidingen. Dit gebeurt door de getekende frequentie polygonen bovenop elkaar te leggen (overlaying). Het is ook mogelijk om dit te doen voor twee cumulatieve frequentie spreidingen.

Wat zijn de leerdoelen van §2.2.3?

  • Frequentie polygonen kunnen maken en interpreteren.

  • Cumulatieve frequentie polygonen kunnen maken en interpreteren.

  • Overlappende frequentie polygonen kunnen maken en interpreteren.

§2.2.4 Wat zijn box plots?

Box plots zijn belangrijke grafieken. Deze soort grafieken zijn bruikbaar voor het herkennen van outliers en voor het vergelijken van spreidingen. Er zijn een aantal stappen te zetten voor het maken van een box plot:

  1. De y-as representeert de afhankelijke variabelen. Men tekent een box vanaf de 25e percentiel tot en met het 75e percentiel.

  2. Op hoogte van het 50e percentiel zet men een streep in de box.

  3. “Snorharen” staan boven en onder de box om extra informatie over de spreiding van data weer te geven. “Snorharen” zijn verticale lijnen met een horizontale lijn aan het einde. De verticale lijn loopt van de Upper en Lower Hinges tot de Upper en Lower Adjacent waardes.

  4. Outside values zijn in de grafiek een kleine 0.

  5. Far out values zijn in de grafiek een *.

  6. Het gemiddelde van een groep krijgt een +-teken in de grafiek. Regelmatig laat men dit achterwege.

Belangrijke basisterminologie:

  • Upper hinge staat voor het 75e percentiel.

  • Lower Hinge staat voor het 25e percentiel.

  • H-Spread staat voor de Upper Hinge tot Lower Hinge.

  • Step is 1,5 x H-Spread.

  • Upper Inner Fence is Upper Hinge + 1 Step.

  • Lower Inner Fence is Lower Hinge – 1 Step.

  • Upper Outer Fence is Upper Hinge + 2 Steps.

  • Lower Outer Fence is Lower Hinge – 2 Steps.

  • Upper Adjacent is de grootste waarde onder de Upper Inner Fence.

  • Lower Adjacent is de kleinste waarde boven de Lower Inner Fence.

  • Ouside Value is een waarde buiten een Inner Fence, maar niet buiten een Outer Fence.

  • Far Out Value is een waarde buiten een Outer Fence.

  • Parallel box plot zijn twee of meerdere box plots die de spreiding van de afhankelijke variabelen voor verschillende onafhankelijke variabelen weergeven. Een voorbeeld: in plaats van één box plot voor een spreiding van de scores van alle deelnemers, zijn er twee box plots. De ene box plot geeft bijvoorbeeld de spreiding van de scores van alle jongeren weer en de andere box plot van alle ouderen.

In een box plot staat de basisinformatie van een spreiding. Een box plot geeft extreme waardes goed weer en box plots zijn goed bruikbaar in het weergeven van verschillen tussen spreidingen. Veel details geeft een box plot echter niet weer, daarvoor is een ander grafiek nodig. Box plots kunnen in verschillende stylen worden weergegeven. Voor elke situatie is een andere style wellicht passender. Kies de style dat de belangrijkste informatie van de data het beste laat zien.

Wat zijn de leerdoelen van §2.2.4?

  • Basistermen zoals hinges, H-spread, step, adjacent value, outside value en far out value kunnen definiëren

  • Een box plot kunnen maken.

  • Parallelle box plots kunnen maken.

  • Vaststellen of een box plot geschikt is een bepaalde dataset.

§2.2.5 Op welke manier zijn staafdiagrammen bruikbaar?

Staafdiagrammen zijn ook bruikbaar voor andere kwantitatieve informatie dan frequentie data. Ze zijn vooral effectief in het weergeven van verandering na een bepaalde tijd. Onderzoekers gebruiken staafdiagrammen vaak om de gemiddelden van verschillende onderzoekscondities te vergelijken. De auteurs raden echter aan om voor het weergeven van gemiddelden box plots te gebruiken, omdat box plots meer informatie kunnen weergeven. De mogelijke grafische vergissingen die eerder in dit hoofdstuk zijn besproken, gelden ook voor staafdiagrammen en kwantitatieve variabelen.

Wat zijn de leerdoelen van §2.2.5?

  • Staafdiagrammen kunnen maken en interpreteren.

  • Kunnen beoordelen wat geschikter is om te gebruiken: een staafdiagram of een andere grafische weergave, zoals een box plot.

§2.2.6 Wat zijn lijngrafieken?

Een lijngrafiek is een staafdiagram, waarbij de staven op hun hoogste punten een punt hebben en deze punten met elkaar verbonden zijn door middel van een lijn. De rest van de staven is niet zichtbaar. Lijngrafieken zijn alleen bruikbaar als de variabelen op de X- en Y-as geordend zijn. Het is misleidend om een lijngrafiek te gebruiken als de X-as uit kwalitatieve variabelen bestaat. Over het algemeen zijn lijngrafieken beter dan staafdiagrammen in het vergelijken van verandering over tijd.

Wat zijn de leerdoelen van §2.2.6?

  • Lijngrafieken kunnen maken en interpreteren.

  • Kunnen beoordelen of een lijngrafiek geschikt is voor een bepaalde dataset.

§2.2.7 Wat zijn dot plots?

Dot plots zijn bruikbaar voor het weergeven van verschillende soorten informatie. Het aantal punten (dots) kan de frequentie aangeven. De plaats van de punten op de grafiek kan de frequentie ook aangeven. Voor het vergelijken van de afhankelijke variabelen voor twee verschillende onafhankelijke variabelen kunnen de dot plots worden samengevoegd. Dit maakt het vergelijken makkelijker dan twee afzonderlijke grafieken te gebruiken.

Wat zijn de leerdoelen van §2.2.7?

  • Dot plots kunnen maken en interpreteren.

  • Kunnen beoordelen of een dot plot geschikt is voor een bepaalde dataset.

Wat zijn samenvattende spreidingen? - Chapter 3

Beschrijvende statistiek houdt vaak in dat enkele getallen worden gebruikt om een spreiding samen te vatten. De locatie van het centrum van een spreiding is een belangrijk aspect van een spreiding. Een ander belangrijk aspect van een spreiding is hoe de getallen in de spreiding van elkaar verschillen. Daarnaast kunnen spreidingen in vorm verschillen.

§3.1 Wat is Centrale Tendens (central tendency)?

§3.1.1 Wat is centrale tendens?

Het idee om individuele scores te vergelijken met een spreiding van scores is fundamenteel in statistiek.

Er volgende drie definities van het centrum van een spreiding, omdat er minstens drie verschillende manieren zijn om te kijken naar het centrum van een spreiding.

  • Een definitie is om het centrum van een spreiding te zien als het punt waar de spreiding in balans is, als op een balansschaal.

  • Een andere definitie is gebaseerd op het concept van de som van de absolute deviaties (verschillen). Het centrum van de spreiding is het getal waarvoor de som van de absolute deviaties het kleinst is.

  • De derde definitie is gebaseerd op het concept van de som van de gekwadrateerde deviaties. Het getal dat de som van de gekwadrateerde deviaties minimaliseert, is een derde definitie van het centrum van de spreiding.

Wat zijn de leerdoelen van §3.1.1?

  • Situaties waarin het waardevol is om het midden van een spreiding te weten kunnen herkennen.

  • Drie verschillende manieren waarop het midden van een spreiding kan worden gedefinieerd kunnen geven.

  • Kunnen beschrijven hoe balans voor een symmetrische spreiding anders is dan voor een asymmetrische spreiding.

§3.1.2 Wat zijn maten voor de centrale tendens?

Het rekenkundige gemiddelde is de meest gebruikte maat voor de centrale tendens. De formule is het volgende:

μ = ΣX / N

μ is het symbool voor het gemiddelde in de populatie.
ΣX is de som van alle getallen in de populatie.
N is het aantal getallen in de populatie.

M is het symbool voor het gemiddelde in de steekproef en de formule hiervoor is hetzelfde:

M = ΣX / N
ΣX is de som van alle getallen in de steekproef.
N is het aantal getallen in de steekproef.

De mediaan is ook een regelmatige gebruikte maat voor de centrale tendens. De mediaan is het midden van de spreiding. Als er een oneven aantal getallen zijn dan is de mediaan het middelste getal. Als er een even aantal getallen zijn dan is de mediaan het gemiddelde van de twee middelste getallen.

De modus is de waarde dat het vaakst voorkomt. De modus van continue data wordt normaal gesproken berekend uit een gegroepeerde frequentie spreiding.

Wat zijn de leerdoelen van §3.1.2?

  • Het gemiddelde kunnen berekenen.

  • De mediaan kunnen berekenen.

  • De modus kunnen berekenen.

§3.1.3 Wat zijn de mediaan en het gemiddelde?

Het gemiddelde is het punt waarop een spreiding zou balanceren. Het gemiddelde is ook de waarde dat de som van de gekwadrateerde deviaties minimaliseert. De mediaan is de waarde dat de som van de absolute deviaties minimaliseert.

Als een spreiding symmetrisch is dan zijn het gemiddelde en de mediaan hetzelfde.

Wat zijn de leerdoelen van §3.1.3?

  • Aan kunnen geven wanneer het gemiddelde en de mediaan hetzelfde zijn.

  • Aan kunnen geven of het het gemiddelde of de mediaan is dat de mean absolute deviation minimaliseert.

  • Aan kunnen geven of het het gemiddelde of de mediaan is dat de mean squared deviation minimaliseert.

  • Aan kunnen geven of het het gemiddelde of de mediaan is dat het balanspunt is op een balansschaal.

§3.1.4 Zijn er nog andere maten voor de centrale tendens?

De trimean is een gewogen gemiddelde van het 25e percentiel, het 50e percentiel en het 75e percentiel. Formule:

Trimean: (P25+P50+P75) / 4

De geometric is het gemiddelde berekend door alle getallen te vermenigvuldigen en dan de ne wortel van het product te trekken. Formule:

(∏x) 1/N

∏ is het symbool voor vermenigvuldigen.

Het geometrische gemiddelde is alleen logisch als alle getallen positief zijn. Het is een geschikte maat voor het middelen van prijzen.

Om een trimmed gemiddelde te berekenen haalt men een paar van de hoogste en laatste scores weg en berekent het gemiddelde van de overgebleven scores. Een 10% trimmed gemiddelde is een gemiddelde berekend met tien procent van de scores minder: 5% van de hoogste en 5% van de laagste scores is weggehaald.

Wat zijn de leerdoelen van §3.1.4?

  • De trimean kunnen berekenen.

  • De geometric mean op een directe manier kunnen berekenen.

  • De geometric mean kunnen berekenen aan de hand van logs.

  • De geometric kunnen gebruiken om jaarlijks terugkomende portfolio te kunnen berekenen.

  • Een trimmed mean kunnen berekenen.

§3.1.5 Hoe vergelijk je maten voor de centrale tendens?

In symmetrische spreidingen zijn het gemiddelde, de mediaan, trimean en trimmed mean hetzelfde. Verschillen tussen de maten ontstaan bij spreidingen met een skew.

Bij spreidingen met een positieve skew is het gemiddelde vaak hoger dan de mediaan. De trimean en trimmed gemiddelde zullen meestal tussen de mediaan het het gemiddelde liggen. Het geometrisch gemiddelde zal lager zijn dan alle maten behalve de modus.

Met een grote skew zullen de waardes van de maten erg verschillen. Geen enkele maat van de centrale tendens is genoeg bij zulke data.

Wanneer de verschillende maten verschillen, rapporteer dan het gemiddelde, de mediaan en of de trimean of het trimmed gemiddelde.

Wat zijn de leerdoelen van §3.1.5?

  • Kunnen begrijpen hoe het verschil tussen het gemiddelde en de mediaan wordt beïnvloed door skew.

  • Aan kunnen geven hoe maten kunnen verschillen in symmetrische spreidingen.

  • Aan kunnen geven welke maten gebruikt zouden moeten worden om het midden van een skewed spreiding te beschrijven.

§3.2 Wat is variabiliteit?

§3.2.1 Wat zijn maten voor variabiliteit?

Variabiliteit refereert aan hoe een groep scores verspreid is. Het gemiddelde van de scores van twee groepen kunnen hetzelfde zijn, terwijl de spreidingen heel anders kunnen zijn. Er zijn vier maten voor variabiliteit die regelmatig gebruikt worden: bereik, interquartile bereik, variantie en standaard deviatie.

Het bereik is de hoogste score minus de laagste score.
Het interquartile bereik (IQR) is het bereik van de middelste 50% van de scores in een spreiding. Het wordt als volgt uitgerekend:

IQR = 75e percentiel – 25e percentiel

IQR wordt ook wel de H-spread genoemd.
Het semi-interquartile bereik is het interquartile bereik gedeeld door 2.

Variabiliteit kan ook gedefinieerd worden in de afstand van de scores in een spreiding tot het midden van die spreiding. Als het gemiddelde gebruikt wordt als maat voor het midden van een spreiding dan wordt de variantie gedefinieerd als het gemiddelde kwadratische verschil van de scores van het gemiddelde. De formule is:

σ2  = Σ(X – μ)2  / N

σ2 is de variantie.
μ is het gemiddelde.
N is het aantal getallen.

De volgende formule moet gebruikt worden als de variantie in een steekproef wordt gebruikt om de variantie in een populatie te schatten. De vorige formule onderschat de variantie dan namelijk.

s2 = Σ(X – M)2  / N – 1

s2 is de geschatte variantie en M is het gemiddelde van de steekproef.

De standaard deviatie is vierkantswortel van de variantie. Deze maat is voornamelijk bruikbaar als maat voor variabiliteit als de spreiding normaal is of bijna normaal. Het symbool voor de standaard deviatie in de populatie is σ; het symbool voor de standaard deviatie in de steekproef is s.

Wat zijn de leerdoelen van §3.2.1?

  • De relatieve variabiliteit van twee spreidingen kunnen bepalen.

  • Het bereik kunnen berekenen.

  • Het interquartile bereik kunnen berekenen.

  • De variantie in de populatie kunnen berekenen.

  • De variantie van een steekproef kunnen schatten.

  • De standaard deviatie van de variantie kunnen berekenen.

§3.3 Wat zijn vormen?

De vormen van spreidingen kunnen verschillen van skew en/of kurtosis.
Spreidingen met een positieve skew hebben een staart dat rechts uitstrekt. Deze spreidingen hebben normaal gesproken een groter gemiddelde dan een mediaan. Pearson stelde de volgende numerieke index voor de skew voor:

ɜ(Gemiddelde – Mediaan) / σ

De volgende formule om de skew te meten, wordt vaker gebruikt:

Σ (X – μ)ɜ / σɜ

De volgende formule kan worden gebruikt om kurtosis mee te berekenen:

Σ (X – μ)4 / σ4 – 3

Een normale spreiding heeft een kurtosis van drie, daarom is het in de formule minus drie.

Wat zijn de leerdoelen van §3.3?

  • Skew kunnen berekenen aan de hand van twee formules.

  • Kurtosis kunnen berekenen.

§3.3.1 Wat zijn de effecten van transformaties?

Als een variabele X een gemiddelde μ heeft, een standaard deviatie σ en een variantie van σ2 heeft, dan kan een nieuwe variabele Y gecreëerd worden door middel van de volgende lineaire transformatie:

Y = bX + A

Hierbij is het gemiddelde: bμ + A
De standaard deviatie: bσ
De variantie: b2σ2

Wat zijn de leerdoelen van §3.3.1?

  • Een lineaire transformatie kunnen definiëren.

  • Het gemiddelde van een getransformeerde variabele kunnen berekenen.

  • De variantie van een getransformeerde variabele kunnen berekenen.

§3.3.2 Wat is de Variance Sum Law I?

Er zijn veel momenten waarop het belangrijk is om de variantie van de som van twee variabelen te weten. Hetzelfde geldt voor de variantie van het verschil tussen twee variabelen. De variance sum law kan met de volgende formule berekend worden:

σ2x±y = σ2x + σ2y

Er staat: de variantie van X plus of minus Y is gelijk aan de variantie van X plus de variantie van Y. De formule kan alleen gebruikt worden als de variabelen onafhankelijk zijn.

Wat zijn de leerdoelen van §3.3.2?

  • De variance of the sum van twee niet-correlerende variabelen kunnen berekenen.

  • De variantie van het verschil tussen twee niet-correlerende variabelen kunnen berekenen.

Wat zijn bivariate data? - Chapter 4

§4.1 Wat zijn bivariate data?

Bivariate data zijn data met twee variabelen. Van een individu zijn vaak meer dan één variabele verzamelt. Zulke data worden in eerste instantie op dezelfde manier samengevat als bij data met één variabele.

Punten in een scatter plot die op een rechte lijn liggen, wordt de relatie tussen de twee variabelen een lineaire relatie genoemd. Een positieve associatie is wanneer een variabele (Y) omhoog gaat met een tweede variabele (X). Andersom is een negatieve associatie wanneer een variabele (Y) omlaag gaat wanneer een tweede variabele (X) omhoog gaat.

Niet alle scatter plots laten een lineaire relatie zijn. De scatter plots die wel een lineaire relatie laten zien tussen twee variabelen kunnen op verschillende manier verschillen, zoals hoe dichtbij de punten bij de lijn liggen.

Wat zijn de leerdoelen van §4.1?

  • “Bivariate data” kunnen definiëren.

  • “Scatter plot” kunnen definiëren.

  • Onderscheid tussen een lineaire en niet-lineaire relatie kunnen maken.

  • Negatieve en positieve associaties in een scatter plot kunnen herkennen.

§4.2 Wat zijn waarden van de Pearson correlatie?

De Pearson correlatie coëfficiënt is de maat voor de sterkte van de lineaire relatie tussen twee variabelen. Als de relatie niet lineair is, dan representeert de coëfficiënt de sterkte niet op een juiste manier weer.

Het symbool is “ǫ” voor de populatie en “r” voor de steekproef.

Het bereik van r loopt van -1 tot 1. Een r van -1 geeft een perfecte negatieve lineaire relatie tussen twee variabelen aan, een r van 0 geeft aan dat er geen lineaire relatie is, en een r van 1 geeft aan dat er een perfecte positieve lineaire relatie is. Met echte data kan met verwachten niet exact waarden van -1, 0 en 1 te vinden.

Wat zijn de leerdoelen van §4.2?

  • Kunnen beschrijven wat de correlatie van Pearson meet.

  • De symbolen van de correlatie van Pearson in de steekproef en in de populatie kunnen geven.

  • Het mogelijke bereik van de correlatie van Pearson kunnen benoemen.

  • Een perfecte lineaire relatie kunnen herkennen.

§4.3 Wat zijn eigenschappen van Pearson’s r?

Een basiseigenschap van de correlatie van Pearson is dat zijn bereik van -1 tot 1 is. Een correlatie van -1 betekent een perfectie negatieve lineaire relatie. Een correlatie van nul betekent dat er geen lineaire relatie is. Een correlatie van 1 betekent een perfecte positieve lineaire relatie.

De correlatie is op die manier symmetrisch dat de correlatie van X met Y hetzelfde is als de correlatie van Y met X.

Een belangrijke eigenschap van de correlatie van Pearson is dat het onaangetast blijft bij lineaire transformaties.

Wat zijn de leerdoelen van §4.3?

  • Het bereik van de waarden van de correlatie van Pearson kunnen aangeven.

  • Kunnen benoemen welke waarden perfecte lineaire relaties representeren.

  • De relatie tussen de correlatie van Y met X en de correlatie van X met Y kunnen benoemen.

  • Het effect van lineaire transformaties op de correlatie van Pearson kunnen benoemen.

§4.4 Hoe bereken je Pearson r?

Voor het berekenen van r begint men met het berekenen van het gemiddelde van X en dit aftrekken van alle waarden van X. De nieuwe variabele heet x. Hetzelfde gebeurt voor Y. y en x zijn deviatie scores. Een nieuw column wordt gecreëerd voor de vermenigvuldiging van x en y. Als het product van x en y positief is, dan heeft dat een hoge totaal score voor de xy column. De waarden van xy zijn negatief als er een negatieve relatie is. Bij geen relatie zal de totaal score van de xy column klein zijn, omdat positieve waarden van x net zo waarschijnlijk gekoppeld kunnen worden aan positieve waarden van y als negatieve waarden van y.

De formule voor het berekenen van Pearon’s r is:

r = Σxy / √Σx2Σy2

Wat zijn de leerdoelen van §4.4?

  • “X” en “x” kunnen definiëren.

  • Aan kunnen geven waarom Σxy=0 is als er geen relatie is.

  • r kunnen berekenen.

§4.5 Wat is de Variance Sum Law II?

Als de variabelen X en Y onafhankelijk zijn, kan de variantie van de som of het verschil tussen X en Y als volgt worden opgeschreven:

σ2x±y = σ2x + σ2y en leest als volgt: de variantie van X plus of minus Y is gelijk aan de variantie van X plus de variantie van Y.

Als X en Y correleren, moet de volgende formule gebruikt worden:

σ2x±y = σ2x + σ2y ± 2pσxσy

Als de varianties en de correlatie in een steekproef worden berekend dan wordt de volgende notatie gebruikt om de variance sum law uit te drukken:

s2x±y = s2x + s2y ± 2 rsxsy

Wat zijn de leerdoelen van §4.5?

  • De variance sum law kunnen benoemen wanneer er niet vanuit wordt gegaan dat X en Y onafhankelijk zijn.

  • De variantie van de som van twee variabelen kunnen berekenen als de variantie beiden en hun correlatie onbekend zijn.

  • De variantie van het verschil van twee variabelen kunnen berekenen als de variantie van beiden en hun correlatie onbekend zijn.

Wat is waarschijnlijkheid (probability)? - Chapter 5

§5.1 Wat is waarschijnlijkheid (probability)?

Als er over het algemeen N symmetrische resultaten mogelijk zijn, de kans dat van elk mogelijk resultaat is 1/N. Symmetrisch houdt hier in dat de kans op alle resultaten even groot is.

Kansen kunnen ook worden gezien in termen van relatieve frequenties. Kansschattingen worden hierbij gedaan op basis van de frequentie waarop iets voorkomt.

In sommige gevallen kunnen kansen het best worden gezien als subjectief. Subjectieve kansschattingen zijn onaantrekkelijk, omdat ze objectieve criteria missen.

Bijna alles kansen die we tegen zullen komen zijn noch nul noch 1.

Wat zijn de leerdoelen van §5.1?

  • “Symmetrische uitkomsten” kunnen definiëren.

  • Onderscheid kunnen maken tussen frequentistische en subjectieve benaderingen.

  • Kunnen bepalen of een frequentistische of een subjectieve benadering passender is voor een bepaalde situatie.

§5.2 Wat zijn de basisconcepten?

De kans op een eenmalige gebeurtenis kan weergegeven worden in de volgende formule:

Kans = Aan van gewenste uitkomsten / aantal van even waarschijnlijke uitkomsten.

Laat je niet misleiden door het woord “gewenst”. De uitkomst waar je de waarschijnlijkheid voor wilt berekenen, is de “gewenste” uitkomst. Dat kan anders zijn dan wat daadwerkelijk gewenst is.

Bij deze formule wordt er sterk vanuit gegaan dat alle mogelijke uitkomsten even waarschijnlijk zijn.

Als P(A) is de kans op Gebeurtenis A, dan 1 – P(A) is de kans dat de gebeurtenis niet voorkomt.

Gebeurtenissen A en B zijn onafhankelijke gebeurtenissen als de kans op gebeurtenis B hetzelfde blijft ongeacht of gebeurtenis A voorkomt of niet. Als twee gebeurtenissen onafhankelijk zijn dan is de kans dat ze beiden gebeuren het product van de kans van elke gebeurtenis apart. Dus:

P (A en B) = P (A) x P (B)

Als gebeurtenissen A en B onafhankelijk zijn dan is de kans dat of gebeurtenis A of gebeurtenis B gebeurt:

P (A of B) = P (A) + P (B) – P (A en B)

Als er staat “A of B gebeurt” dan zijn er drie mogelijkheden:

  • A gebeurt en B gebeurt niet.

  • B gebeurt en A gebeurt niet.

  • Zowel A als B gebeurt.

Vaak is het nodig om de kans op een gebeurtenis te berekenen gegeven dat een andere gebeurtenis heeft plaatsgevonden. Het teken “ӏ” betekent “gegeven”.

Veel mensen geloven dat na vijf keer kop gooien met een geldstuk de kans op munt groter wordt bij de zesde keer gooien. De kans op munt blijft ook voor de zesde keer gooien echter ½. De fout in de redenering is dat de verhouding van kop de 0.5 benadert, maar het aantal kop benadert niet het aantal munt. Dit is de Gambler’s Fallacy.

Wat zijn de leerdoelen van §5.2?

  • Waarschijnlijkheid kunnen berekenen voor situaties waarin de uitkomsten even waarschijnlijk zijn.

  • Concepten kunnen toepassen op kaarten en dobbelstenen.

  • De waarschijnlijkheid dat twee onafhankelijke gebeurtenissen allebei plaatsvinden kunnen berekenen.

  • De waarschijnlijkheid dat één van twee onafhankelijke gebeurtenissen plaatsvindt kunnen berekenen.

  • De waarschijnlijkheid kunnen berekenen dat in een kamer met N mensen in ieder geval twee mensen dezelfde verjaardag hebben.

  • De gambler’s fallacy kunnen beschrijven.

§5.3 Wat zijn permutaties en combinaties?

In deze paragraaf staan basis formules voor het vaststellen van verschillende mogelijke uitkomsten.

Voor het tellen van het aantal mogelijke volgordes: aantal volgorders = n!
“!” staat voor factorial.

De algemene formule voor het aantal permutaties van n dingen tegelijkertijd gepakt is:

nPr = n! / (n – r)!

nPr is het aantal permutaties van n dingen gepakt per r tegelijkertijd. Anders gezegd: het is aantal manieren waarop r dingen geselecteerd kunnen worden uit een groep van n dingen. Bij permutaties is het belangrijk te weten dat de volgorde belangrijk is. Permutaties refereren daarom aan aantal manieren van kiezen in plaats van aan mogelijke uitkomsten.

Bij combinaties is volgorde niet belangrijk. Bij combinaties gaat het alleen om het uiteindelijke resultaat. De formule is:

nCr = n! / (n – r)!r!
Ncr is het aantal combinaties van n dingen per r tegelijkertijd gepakt.

Wat zijn de leerdoelen van §5.3?

  • De waarschijnlijkheid dat twee onafhankelijke gebeurtenissen plaatsvinden, kunnen uitrekenen.

  • “Permutaties” en “combinaties” kunnen definiëren.

  • Alle permutaties en combinaties kunnen opnoemen.

  • Formules voor permutaties en combinaties kunnen toepassen.

§5.4 Wat zijn binomiale spreidingen?

Spreidingen waarbij er maar twee mogelijke uitkomsten zijn met vaste kansen die samen op tellen tot 1, zijn binomiaal.

De binomiale spreiding bestaat uit de kans op elk mogelijk aantal successen van N-trials voor onafhankelijke gebeurtenissen die allen een kans hebben van π om voor te komen.

De formule is:

P(x) = (N! / x! (N – X)!) πx (1 – π)N-x

P(x) is de kans op x succes uit N trials.
N is het aantal trials.
Π is de kans op succes in een bepaalde trial.

Hoe berekent men cumulatieve kansen?

Het kan zijn dat men wil weten hoe groot de kans is op een bepaalde reeks uitkomsten.

Men berekent dan eerst de kans op een bepaalde uitkomst voor een bepaalde trial exact. Doe dit voor elke uitkomst in de reeks. Tel het vervolgens bij elkaar op.

Over het algemeen is het gemiddelde van een binomiale spreiding met parameters N en π:

μ = Nπ

μ is het gemiddelde van de binomiale spreiding. De variantie van de binomiale spreiding is:

σ2 = Nπ (1 – π)

De standaard deviatie (σ) is de vierkantswortel van de variantie (σ2)

Wat zijn de leerdoelen van §5.4?

  • Binomiale resultaten kunnen definiëren.

  • De kans op het krijgen van X successen in N trials kunnen berekenen.

  • Cumulatieve binomiale kansen kunnen berekenen.

  • Het gemiddelde en de standaard deviatie van een binomiale spreiding kunnen vinden.

Wat is een onderzoeksontwerp? - Chapter 6

§6.1 Wat is een wetenschapsmethode?

De wetenschappelijke methode is afhankelijk van empirische data. Verder zijn theorieën en verklaringen erg belangrijk in de wetenschap. Theorieën kunnen nooit bewezen worden, omdat men niet 100% zeker kan zijn dat er geen nieuwe empirische vondst gevonden zal worden dat niet overeenkomt met de theorie. Een wetenschappelijke theorie is niet wetenschappelijk als het aan alle mogelijke resultaten kan schikken. Om deze reden moet een theorie voorafgegaan worden door een testbare hypothese. Als een hypothese niet bevestigd is dan is de theorie waaruit de hypothese is afgeleid, incorrect. Als een hypothese is bevestigd, dan heeft de theorie een test overleefd en wordt het bruikbaarder voor wetenschappers in het veld. Een theorie is niet bevestigd als er correcte hypotheses uit worden afgeleid. De methode van onderzoek waarbij een hypothese wordt afgeleid uit een theorie en vervolgens wordt bevestigd of niet gebeurt op basis van deductief redeneren. De theorie ontstaat op basis van inductief redeneren.
Een belangrijk kenmerk van een goede wetenschappelijke theorie is dat het relatief weinig constructen gebruikt om veel empirische vondsten te verklaren. Een theorie is karig.
Vaak wordt een theorie aangepast als een hypothese niet wordt bevestigd.

§6.2 Wat zijn metingen?

Wat is betrouwbaarheid?

Bij betrouwbaarheid gaat het erom dat ongeveer hetzelfde resultaat wordt gevonden na meerdere metingen met hetzelfde meetinstrument. Een veelvoorkomende manier om de betrouwbaarheid te definiëren is door de correlatie tussen twee parallelle vormen van een test te berekenen. Het gebruikte symbool hiervoor is rtest,test.

Wat zijn ware scores en error?

De ware score is de score dat benaderd wordt als het aantal trials oneindig herhaald wordt. De score van een individu kan gezien worden als bestaand uit twee delen: de ware score en de fout van de meting (error). De error is de afstand tussen de gemeten score en de ware score. Elke testscore kan gezien worden als de som van twee onafhankelijke componenten, de ware score en de error score. Dit kan als volgt worden opgeschreven:
ytest = ytrue + yerror

Het volgende volgt direct uit the Variance Sum Law:

q²test = q²true + q²error

En de betrouwbaarheid van een test is:

rtest,test = q²true / q²test = q²true / q²true + q²error

Als een test wordt afgenomen in twee populaties waarvan de varianties van de ware scores verschilde, dan is de betrouwbaarheid van de test hoger zijn in de populatie met de hoogste variantie van de ware scores. Betrouwbaarheid is daarom niet een eigenschap van een test op zich, maar van een test in een bepaalde populatie.

De betrouwbaarheid van een test geeft niet weer hoe dichtbij de testscores zijn tot de ware scores. De standaard deviatie van de testscores van een persoon geven aan in hoeverre de testscores variëren van de ware scores. De standaard deviatie wordt de standard error of measurement genoemd. Om dit te schatten wordt de volgende formule gebruikt:

smeasurement = stest√1-rtest,test

stest is de standaard deviatie van de test scores.

rtest,test is de betrouwbaarheid van de test.

Hoe verhoogt men de betrouwbaarheid?

Er zijn twee basis manieren voor het verhogen van de betrouwbaarheid:

  • Verbeter de kwaliteit van de items.

  • Het aantal items verhogen

Items die te moeilijk of te makkelijk zijn, zijn goede items, omdat ze weinig informatie geven. In de meeste gevallen zijn de items die de helft van de mensen goed heeft, goede items.

De volgende formule geeft aan hoe het verhogen van het aantal items de betrouwbaarheid verhoogd:

rnew,new = krtest,test / 1 + (k – 1)rtest,test

k is de factor met hoeveel de lengte van de test is verhoogd.

rnew,new is de betrouwbaarheid van de nieuwe langere test.

rtest,test is de huidige betrouwbaarheid.

Belangrijk om te houden is dat de formule ervan uitgaat dat de nieuwe items dezelfde kenmerken hebben als de oude items. Het toevoegen van slechte items verhoogt de betrouwbaarheid namelijk niet.

Wat is validiteit?

De mate van validiteit is in hoeverre de test meet wat het hoort te meten.

Wat is face validity?

Face validity is of de test lijkt te meten wat het hoort te meten.

Wat is voorspellende validiteit?

Voorspellende validiteit verwijst naar het vermogen van de test om relevant gedrag te voorspellen.

Wat is construct validiteit?

Over het algemeen heeft een test construct validiteit als het patroon van zijn correlaties met andere maten in lijn is met het construct dat het hoort te meten. Construct validiteit kan vastgesteld worden door te laten zien dat een test convergente validiteit en divergente validiteit heeft. Een test heeft convergente validiteit als het correleert met andere tests dat hetzelfde construct meten. Een test heeft divergente validiteit als vastgesteld kan worden dat de test niet hoog correleert met tests die andere constructen meten.

Wat zijn de leerdoelen van §6.2?

  • “Betrouwbaarheid” kunnen definiëren.

  • Betrouwbaarheid uit kunnen leggen aan de hand van ware scores en error.

  • Betrouwbaarheid kunnen berekenen aan de hand van ware scores en error variantie.

  • De standard error of measurement kunnen definiëren en uit kunnen leggen waarom het waardevol is.

  • Uit kunnen leggen wat het effect van de lengte van een test op de betrouwbaarheid is.

  • Onderscheid kunnen maken tussen betrouwbaarheid en validiteit.

  • Drie soorten van validiteit kunnen definiëren.

  • Uit kunnen leggen hoe betrouwbaarheid de upper limit van validiteit bepaalt.

§6.3 Wat zijn de basisprincipes voor het verzamelen van data?

Data verzameld in verbale vorm moet omgezet worden in getallen anders kunnen er geen statistische analyses uitgevoerd worden. De getallen representeren dan de verbale data.

De nummer 1 regel bij het verzamelen van data is om op zo een manier om informatie te vragen dat het het waarschijnlijkst is dat het accuraat wordt genoteerd.

Voor men begint met het verzamelen van data is het belangrijk om goed en voorzichtig na te denken over de schalen en de specifieke informatie die nodig zijn in het onderzoek.

Wat zijn de leerdoelen van §6.3?

  • Kunnen beschrijven hoe een variabele, zoals hoogte, vermeld moet worden.

  • Een goede schaal voor een vragenlijst kunnen kiezen.

§6.4 Wat is een sampling bias?

Er is geen garantie dat random sampling zal resulteren in een steekproef dat de populatie representeert. Er is ook geen garantie dat een steekproef verkregen op een biased sampling methode zal resulteren in een sterk niet-representatieve steekproef voor de populatie.

Wat is self-selection bias?

Voor mensen die zichzelf opgeven voor een onderzoek is het waarschijnlijker dat ze op belangrijke punten verschillen van de populatie die de onderzoeker wil onderzoeken.

Wat is undercoverage bias?

Een veelvoorkomende vorm van bias in sampling is het hebben van te weinig scores van een segment van de populatie.

Wat is survivorship bias?

Survivorship bias treedt op wanneer de scores vastgelegd aan het einde van het onderzoek een onwillekeurige set zijn van die scores die er al waren aan het begin van het onderzoek.

Wat zijn de leerdoelen van §6.4?

  • Sampling bias kunnen herkennen.

  • Onderscheid kunnen maken tussen self-selection bias, undercoverage bias en survivorship bias.

§6.6 Wat is causatie?

Causatie is dat de verandering in de afhankelijke variabele daadwerkelijk wordt veroorzaakt door verandering in de onafhankelijke variabele.

Hoe wordt causatie vastgesteld in onderzoeken?

Het is mogelijk om de effecten van alle ongemeten variabelen te beoordelen. Alle afhankelijke variabelen worden op dezelfde manier behandeld in een onderzoek, daarom moet het verschil in scores veroorzaakt worden door ongemeten variabelen. Er zijn verschillende statistische analyses om te bepalen hoe waarschijnlijk is dat de verschillen in scores wordt veroorzaakt door ongemeten variabelen. Hoe lager de score hoe waarschijnlijker het is dat er een causaal verband is tussen de onafhankelijke en afhankelijke variabelen.

Correlatie betekent niet causatie. Een derde variabele kan verantwoordelijk zijn voor de correlatie tussen twee andere variabelen. Dit is het probleem van de derde variabele.

Een mogelijkheid om causatie vast te stellen zonder experimenteel onderzoek is door het vinden van convergerende bewijzen. Een andere methode is om er simpelweg vanuit te gaan dat er geen derde variabele is. Dit wordt regelmatig voor, maar is niet een bevredigende methode.

Naast het probleem van de derde variabele is er ook het probleem van de richting van de causatie. Een correlatie geeft niet aan welke variabele welke variabele beïnvloedt.

Wat zijn de leerdoelen van §6.6?

  • Kunnen uitleggen hoe onderzoek causale gevolgtrekking mogelijk maakt.

  • Kunnen uitleggen wat de rol is van ongemeten variabelen.

  • Kunnen uitleggen wat het probleem is van de derde variabele.

  • Kunnen uitleggen hoe causale gevolgtrekking kan bij niet-experimentele onderzoeken.

Wat zijn normale spreidingen? - Chapter 7

§7.1 Wat zijn normale spreidingen?

De meeste statistische analyses in dit boek zijn gebaseerd op de normale spreiding. Deze spreidinge hebben een klok-vorm. Het is de belangrijkste en meest gebruikte spreiding in statistiek. De normale spreidingen kunnen verschillen in hun gemiddelde en hun standaard deviaties. De volgende zeven punten zijn kenmerken van normale spreidingen. Later in deze samenvatting wordt er dieper op elk kenmerk ingegaan.

  • Normale spreidingen zijn symmetrisch rondom hun gemiddelde.

  • Het gemiddelde, de mediaan en de modus zijn hetzelfde.

  • Het gebied onder de normale kromming is gelijk aan 1.0.

  • In het midden zijn normale spreidingen dikker dan in hun staarten.

  • Normale spreidingen worden gedefinieerd aan de hand van twee parameters, het gemiddelde (μ) en de standaard deviatie (σ).

  • 68% van het gebied van een normale spreiding is binnen 1 standaard deviatie van het gemiddelde.

  • Ongeveer 95% van het gebied van een normale spreiding is binnen 2 standaard deviaties van het gemiddelde.

Wat zijn de leerdoelen van §7.1?

  • De vorm van normale spreidingen kunnen beschrijven.

  • Zeven kenmerken van normale spreidingen kunnen noemen.

§7.2 Wat is de geschiedenis van de normale spreiding?

Voordat er computers en rekenmachines waren duurde het lang om binomiale kansen te berekenen. Abraham de Moivre was een statisticus en maakte veel van zulke berekeningen. De Moivre ontdekte dat hoe vaker hij een geldstuk opgooide, hoe meer de vorm van de binomiale spreiding een zeer vloeiende curve benaderde. Hij ontdekte de “normale curve” en kon daarmee makkelijker antwoord geven op vragen rondom kansberekening. De meeste natuurlijke fenomenen zijn tenminste bij benadering normaal verspreid en dat maakt de normale curve belangrijk.

De normale spreiding werd onder andere voor het eerst toegepast bij de analyses van meetfouten gemaakt bij astronomische observaties. Meetfouten die voorkwamen vanwege imperfecte meetinstrumenten en imperfecte observatoren. Galileo gaf aan dat de meeste fouten vaak symmetrisch en klein waren. De statistici Arain en Gauss lieten onafhankelijk van elkaar zien dat zulke meetfouten ook een normale spreiding hadden en ontwikkelde hiervoor een formule.

Laplace liet zien dat de gemiddelden van herhaalde steekproeven uit een niet normale spreiding een normale spreiding sterk benaderen. Hoe groter de steekproefgrootte hoe dichterbij de spreiding van de gemiddelden tot een normale spreiding komt. Dit is de central limit theorem.

De meeste statistische procedures voor het testen van verschillen tussen gemiddelden gaan van normale spreidingen uit, omdat de spreiding van gemiddelden sterk de normale spreiding benadert. Deze procedures werken daarom goed, ook al is de originele spreiding maar grofweg normaal.

Wat zijn de leerdoelen van §7.2?

  • De persoon die de normale spreiding ontdekte kunnen benoemen en kunnen aangeven waar hij antwoord op gaf.

  • De relatie tussen normale en binomiale spreidingen kunnen aangeven.

  • Aan kunnen geven wie de normale spreiding tot errors relateerde.

  • Kort de central limit theorem kunnen beschrijven.

  • Aan kunnen geven wie als eerste de central limit theorem bewees.

§7.3 Welke informatie geven de gebieden onder de normale spreiding?

Een algemene regel is dat 68% van het gebied van elke normale spreiding binnen 1 standaard deviatie van het gemiddelde is. Voor alle normale spreidingen ligt 95% van het gebied binnen 1.96 standaard deviaties van het gemiddelde. Voor snelle benaderingen is het handig om 2 te gebruiken in plaats van 1.96.

Gebieden onder de normale spreiding kunnen met een online rekenmachine berekend worden.

Wat zijn de leerdoelen van §7.3?

  • Aan kunnen geven wat het aandeel van een normale spreiding binnen 1 standaard deviatie van het gemiddelde is.

  • Aan kunnen geven wat het aandeel van een normale spreiding is dat meer dan 1,96 standaard deviaties van het gemiddelde is.

  • Een normale rekenmachine kunnen gebruiken om een gebied voor een gegeven X te berekenen.

  • Een normale rekenmachine kunnen gebruiken om X voor een gegeven gebied te berekenen.

§7.4 Wat is de standaard normale spreiding?

Een standaard normale spreiding heeft een gemiddelde van 0 en een standaard deviatie van 1. Gebieden van de normale spreiding worden vaak weergegeven in tabellen van de standaard normale spreiding. De eerste column van zo een tabel is de “Z” column en bevat de waarden van de standaard normale spreiding; de tweede column bevat het gebied onder Z. De Z column is gelijk aan het getal van de standaard deviaties onder (of boven) het gemiddelde, omdat de spreiding een gemiddelde van 0 en een standaard deviatie van 1 heeft.

Een waarde van een normale spreiding kan getransformeerd worden in zijn corresponderende waarde in een standaard normale spreiding door gebruik te maken van de volgende formule:

z = (X – μ) / σ

X is de waarde in de originele spreiding.

μ is het gemiddelde van de originele spreiding.

σ is de standaard deviatie van de originele spreiding.

Als alle waarden in een spreiding getransformeerd zijn in Z scores dan zal de spreiding een gemiddelde van 0 en een standaard deviatie van 1 hebben. Dit proces van transformeren heet standaardiseren van de spreiding. (standardizing the distribution).

Wat zijn de leerdoelen van §7.4?

  • Aan kunnen geven wat het gemiddelde en de standaard deviatie van een standaard normale spreiding is.

  • Een Z tabel kunnen gebruiken.

  • Een normale rekenmachine kunnen gebruiken.

  • Ruwe data tot Z scores kunnen transformeren (standardizing the distribution).

§7.5 Wat is de normale benadering tot de Binomiaal?

Normale spreidingen kunnen gebruikt worden om binomiale spreidingen te benaderen.

Bij continue spreidingen is de kans op een specifieke waarde gelijk aan 0, omdat mogelijke waarden in een continue spreiding erg specifiek kunnen zijn en omdat er heel veel mogelijke waarden zijn. Het probleem is dus dat de binomiale spreiding een discrete kansspreiding is, terwijl de normale spreiding een continue spreiding is. De oplossing is om af te ronden. Stel, een persoon gooit vijftien keer een munt op en wil weten hoe groot de kans is om tien keer kop te gooien. De persoon neemt dan alle mogelijk waarde tussen de 9,5 en de 10,5 als representatie van het resultaat 10. Om de kans te berekenen moet men het gebied tussen de 9,5 en 10,5 onder de curve berekenen. Bereken eerst het gebied onder de 10,5 en trek daar het gebied onder de 9,5 vanaf. Het verschil is de benadering van de binomiale kans.

Het antwoord kan ook gevonden worden door gebruik te maken van de standaard normale spreiding tabel (Z tabel). Vind de Z scores voor de waarden en de gebieden onder deze scores. Vervolgens trekt men ook hier het ene gebied van het andere af. Het resultaat is het antwoord.

De accuraatheid van de benadering is afhankelijk van de waarden van N en π. De benadering is goed of accuraat als zowel Nπ als N(1- π) groter zijn dan tien.

Wat zijn de leerdoelen van §7.5?

  • Aan kunnen geven wat de relatie is tussen de normale spreiding en de binomiale spreiding.

  • De normale spreiding kunnen gebruiken om een binomiale spreiding te benaderen.

  • Aan kunnen geven wanneer de benadering adequaat is.

Wat zijn Sampling Distributions? - Chapter 9

§9.1 Wat zijn Sampling Distributions?

Inferentiële statistiek houdt zich bezig met het generaliseren van een steekproef naar een populatie. Een belangrijk onderdeel van inferentiële statistiek is het bepalen van de grootte waarin steekproef parameters waarschijnlijk van elkaar zullen variëren en van de populatie parameters zullen variëren.

De relatieve frequentie spreiding benadert de sampling distribution als het aantal steekproeven (samples) de oneindigheid benadert. Het is belangrijk om te onthouden dat elke parameter, niet alleen het gemiddelde, een sampling spreiding heeft. Ook is het belangrijk om te onthouden dat er sampling spreidingen zijn voor verschillenden steekproefgroottes.

Bij continue variabelen is het handiger om sampling spreidingen te conceptualiseren als relatieve frequentie spreidingen, omdat anders de kans op welk waarde dan ook bijna nul is.

Weten in hoeverre verschillende gemiddelden van verschillende steekproeven van elkaar verschillen en van het populatiegemiddelde verschillen, geeft een idee van hoe waarschijnlijk een bepaald gemiddelde het gemiddelde van de populatie is. De meest gebruikte maat voor het meten van het verschil tussen gemiddelden is de standaard deviatie van de sampling spreiding van het gemiddelde. Deze standaard deviatie heet de standard error of the mean. Deze maat is klein als alle gemiddelden van de steekproeven dichtbij het gemiddelde van de populatie liggen. Andersom geldt ook dat de maat groot is als alle gemiddelden van de steekproeven ver van het gemiddelde van de populatie af liggen.

Wat zijn de leerdoelen van §9.1?

  • “Inferentiële statistiek” kunnen definiëren.

  • Een kansspreiding voor het gemiddelde van een discrete variabele in een grafiek kunnen weergeven.

  • Een sampling spreiding kunnen beschrijven aan de hand van “All possible outcomes”

  • Een sampling spreiding kunnen beschrijven aan de hand van herhaalde sampling.

  • De rol van sampling spreidingen in inferentiële statistiek kunnen beschrijven.

  • De standard error of the mean kunnen definiëren.

§9.2 Wat is de sampling distribution van het gemiddelde?

Het gemiddelde van de sampling spreiding van het gemiddelde is het gemiddelde van de populatie. Als een populatie een gemiddelde van μ heeft, dan is het gemiddelde van de sampling spreiding van het gemiddelde dus ook μ. Het symbool μm wordt gebruikt om te refereren aan het gemiddelde van de sampling spreiding van het gemiddelde. Dat maakt de formule als volgt:

μm = μ

De variantie van de sampling spreiding van het gemiddeld wordt als volgt berekend:

σ2m = σ2 / N

Hoe groter de steekproefgrootte is, hoe kleiner de variantie van de sampling spreiding van het gemiddelde is.

De central limit theorem gaat als volgt: in een gegeven populatie met een eindig gemiddelde μ en een eindig niet-nul variantie σ2 zal de sampling spreiding van het gemiddelde een normale spreiding benaderen met een gemiddelde μ en een variantie van σ2 / N als N, de steekproefgrootte, groter wordt.

Het bijzondere is dus dat de vorm van een spreiding niet uitmaakt, want bij het groter worden van de steekproefomvang, zal de spreiding de vorm van een normale spreiding benaderen.

Wat zijn de leerdoelen van §9.2?

  • Aan kunnen geven wat het gemiddelde en de variantie zijn voor de sampling distribution van het gemiddelde.

  • De standard error van het gemiddelde kunnen berekenen.

  • De central limit theorem kunnen benoemen.

§9.3 Wat is de sampling distribution van het verschil tussen gemiddelde?

De sampling spreiding van het verschil tussen gemiddelden kan gezien worden als de spreiding dat ontstaat als de volgende stappen continue herhaald worden:

  1. Selecteer (sample) n1 scores uit Populatie 1 en n2 scores uit Populatie 2.

  2. Bereken het gemiddelde van de twee steekproeven (M1 en M2).

  3. Bereken het verschil tussen de gemiddelden (M1 – M2).

Het gemiddelde van de sampling spreiding van het verschil tussen gemiddelden is:

μM1-M2 = μ1 – μ2

De formule kan als volgt worden gelezen: het gemiddelde van de spreiding van het verschil tussen steekproefgemiddelden is gelijk aan het verschil tussen de populatiegemiddelden.

Vanwege de variance sum law, is bekend dat:

σ2m1 – m2 = σ2m1 + σ2m2
en de formule leest als volgt: de variantie van de sampling spreiding van het verschil tussen gemiddelden is gelijk aan de variantie van de sampling spreiding van het gemiddelde van Populatie 1 plus de variantie van de sampling spreiding van het gemiddelde van Populatie 2.

De formule voor de variantie van de sampling spreiding van het verschil tussen gemiddelden is:

σ2m1 – m2 = σ21/n1 + σ22/n2

Omdat de standard error van een sampling spreiding de standaard deviatie van de sampling spreiding is, is de standard error van het verschil tussen gemiddelden het volgende:

σm1 – m2 = √(σ21/n1 + σ22/n2)

De formule voor de standard error van het verschil tussen gemiddelden is veel simpeler als de omvang van de steekproeven en de varianties van de populaties even groot zijn.

σm1 – m2 = √(2σ2 / n)

Wat zijn de leerdoelen van §9.3?

  • Aan kunnen geven wat het gemiddelde en de variantie zijn voor de sampling distribution van het verschil tussen gemiddelden?

  • De standard error van het verschil tussen gemiddelden kunnen berekenen.

  • De kans kunnen berekenen dat een verschil tussen gemiddelden boven een gespecificeerde waarde ligt.

§9.5 Wat is de sampling distribution van p?

De sampling spreiding van p is een speciaal geval van de sampling spreiding van het gemiddelde. De spreiding van p is sterk gerelateerd aan de binomiale spreiding. De binomiale spreiding is de spreiding van het totaal aantal successen, terwijl de spreiding van p de spreiding van het gemiddelde van het aantal successen is. De binomiale spreiding heeft een gemiddelde van:

μ = N∏

Het gemiddelde van de sampling spreiding van p is:

μp = ∏

De standaard deviatie van de binomiale spreiding is:

√(Nπ(1-π))

Dat maakt de standard error van p als volgt:

σp = √(π(1-π)/N)

Een stelregel is dat de benadering tot een normale spreiding goed is als zowel Nπ en N(1-π) groter zijn dan 10.

Wat zijn de leerdoelen van §9.5?

  • Het gemiddelde en de standaard deviatie van de sampling distribution van p kunnen berekenen.

  • Aan kunnen geven wat de relatie is tussen de sampling distribution van p en de normale spreiding.

Wat is regressie? - Chapter 14

Dit hoofdstuk gaat over voorspellingen. Statistici worden vaak gevraagd om methoden te ontwikkelen om één variabele te voorspellen aan de hand van andere variabelen.

§14.1 Wat is lineaire regressie?

In simpele lineaire regressie worden scores van één variabele voorspeld aan de hand van de scores van een tweede variabele. De variabele die men probeert te voorspellen heeft de criterion variable en wordt ook wel Y genoemd. De variabele waar voorspellingen op gebaseerd worden heet de predictor variable en wordt ook wel X genoemd. De voorspellingsmethode wordt een simple regression genoemd als er gebruikt gemaakt wordt van één predictor variable. Lineaire regressie omvat het vinden van de best-passende lijn door de punten heen in een scatter plot, waarin Y als functie van X wordt uitgezet. Zo een lijn heet een regressielijn. De regressielijn is een rechte lijn. De afstand van de punten tot de regressielijn representeren de errors of prediction (fouten in de voorspelling). Hoe verder de punt van de lijn ligt, hoe groter de error of prediction is. Andersom geldt dus ook dat hoe dichter de punt bij de lijn ligt, hoe kleiner de error of prediction is. De error of prediction voor een punt is de waarde van het punt minus de voorspelde waarde (de waarde op de lijn). De best-passende lijn door de punten heen is de lijn dat de sum of the squared errors of prediction minimaliseert.

De formule voor een regressielijn is:

Y’ = bX + A

Y’ is de voorspelde score.

b is de helling van de lijn.

A is de Y intercept.

De helling kan als volgt berekend worden:

b = r(sy/sx)

En A kan als volgt berekend worden:

A = My – bMx

De formules blijven hetzelfde als het berekend moet worden voor een populatie, alleen gebruikt men dan de parameters (symbolen) behorende bij de populatie.

De regressie vergelijking wordt makkelijker als de variabelen worden gestandaardiseerd, zodat hun gemiddelden gelijk zijn aan 0 en de standaard deviaties gelijk zijn aan 1.

De berekeningen in deze paragraaf zijn assumptie vrij. Binnen de statistiek moet men echter vaak rekening houden met en voldoen aan bepaalde assumpties. Voor nu is dat echter nog niet van belang. Dit komt later in de opleiding.

Wat zijn de leerdoelen van §14.1?

  • “Lineaire regressie” kunnen definiëren.

  • Errors of prediction (fouten in de voorspelling) in een scatter plot met een regressielijn kunnen herkennen.

§14.2 Hoe verdeel je de Sums of Squares?

Een handig aspect van regressie is dat het de variatie in Y kan opdelen in twee delen, namelijke in de variatie van de voorspelde scores en de variatie in de errors of prediction. De variatie van Y wordt de sum of squares Y genoemd en wordt gedefinieerd als de som van de gekwadrateerde deviaties van Y van het gemiddelde van Y. In de populatie is het volgende de formule:

SSY = Σ(Y – μy)2

SSY is de sum of squares Y.

Y is een enkele waarde van Y.

my is het gemiddelde van Y.

Wanneer het berekend wordt aan de hand van een steekproef moet het gemiddelde van de steekproef gebruikt worden in plaats van het gemiddelde van de populatie. De formule wordt dan als volgt:

SSY = Σ(Y – My)2

Soms is het handiger om formules te gebruiken die gebruikmaken van deviatiescores in plaats van ruwe scores. Deviatiescores zijn deviaties van het gemiddelde. Kleine letters in plaats van hoofdletters worden hiervoor gebruikt. Dus y geeft het verschil tussen Y en het gemiddelde van Y weer.

De SSY is de totale variatie, de SSY’ is de verklaarde variatie deel en SSE is de onverklaarde variatie deel. Het verklaarde variatie deel kan daarom als volgt worden berekend:

Verklaarde variatie deel = SSY’ / SSY

Onverklaarde variatie deel = SSE / SSY

Er is een belangrijke relatie tussen het verklaarde variatie deel en de correlatie van Pearson: r2 is het verklaarde variatie deel. Als r = 1 dan is het verklaarde variatie deel ook 1. Als r = 0 dan is het verklaarde variatie deel ook 0.

Deze relatie geldt ook voor de variantie.

Σ2total = σ2y’ + σ2e

r2 is dus zowel het verklaarde variantie deel als het verklaarde variatie deel.

Het is vaak handig om al deze verschillende delen samen te vatten in een tabel. Er is ook een column voor de degrees of freedom voor elke variatiebron. In simpele lineaire regressie de degrees of freedom is altijd 1 voor de sum of squares explained. De degrees of freedom voor de error is gelijk aan het totaal aantal observaties minus 2. De degrees of freedom voor het totaal is het totaal aantal observaties minus 1.

Wat zijn de leerdoelen van §14.2?

  • De sum of squares Y kunnen berekenen.

  • Ruwe scores in deviatie scores kunnen omzetten.

  • Voorspelde scores uit een regressie vergelijking kunnen berekenen.

  • Sum of squares Y kunnen verdelen in sum of squares predicted en sum of squares error.

  • R2 kunnen definiëren aan de hand van sum of squares explained en sum of squares Y.

§14.3 Wat is de Standard Error of the Estimate?

De standard error of the estimate is een maat om de accuraatheid van voorspellingen te meten.

De formule is als volgt:

σest = √(Σ(Y-Y’)2/N)

Y is de werkelijke score.

Y’ is een voorspelde score.

N is het aantal gepaarde scores.

In feite is σest de standaard deviatie van de errors of prediction.

Er is ook een versie van de formule voor de standard error in termen van de correlatie van Pearson:

σest = √((1-p2)SSY/N)

SSY is:

SSY = Σ(Y – μy)2

Vergelijkbare formules worden gebruikt voor het berekenen van de standard error of the estimate uit een steekproef in plaats van een populatie. Het enige verschil is dat de noemer N-2 is in plaats van N. Het is N-2 in plaats van N-1, omdat er twee parameters (de helling en de intercept) werden geschat om de sum of squares te schatten. Nu volgen de formules:

sest = √(Σ(Y – Y’)2/N-2)

en

sest = √((1-r2)SSY/N-2)

Wat zijn de leerdoelen van §14.3?

  • Beoordelingen kunnen maken over de grootte van de standard error of the estimate aan de hand van een scatter plot.

  • De standard error of the estimate kunnen berekenen op basis van errors of prediction.

  • De standard error kunnen berekenen aan de hand van Pearson’s correlatie.

  • De standard error of the estimate kunnen schatten op basis van een steekproef.

§14.6 Wat is regressie naar het gemiddelde?

Regressie naar het gemiddelde omvat resultaten dat voor een gedeelte bepaald worden door kans.

De beste voorspelling van de resultaat van een persoon op een her-test is het gemiddelde van de binomiale spreiding met N en p.

Het tendens van personen met hoge waardes op een meting, dat zowel kans als vaardigheid meet, om dichterbij het gemiddelde te scoren bij een her-test, wordt regression toward the mean genoemd.

De essentie van dit fenomeen is dat mensen met hoge scores vaak bovengemiddeld zijn qua vaardigheden en geluk, en dat alleen het gedeelte over vaardigheden relevant is voor toekomstige prestaties. Andersom geldt hetzelfde. Dit betekent niet dat iedereen met hoge scores een bovengemiddelde geluk heeft, maar gemiddeld genomen hebben zij dat wel. Bijna elke meting voor gedrag heeft een kansaspect en een vaardigheidsaspect in zich. Om deze reden is het verstandig altijd rekening te houden met regressie naar het gemiddelde.

Er zal regressie naar het gemiddelde zijn in een test-her-test situatie wanneer er een minder dan perfecte relatie is tussen de test en de her-test.

De mate waarin de score wordt verwacht om naar het gemiddelde te trekken is afhankelijke van de relatieve bijdragen van zowel kans als vaardigheid: hoe groter de rol van kans, hoe groter de regressie naar het gemiddelde zal zijn.

Het negeren van regressie naar het gemiddelde is gebruikelijk en leidt vaak tot onjuiste interpretaties en conclusies. Regressie naar het gemiddelde is regelmatig aanwezig bij prestaties in sport. Een experiment zonder een controle groep kan regressie effecten met echte effecten verwarren.

Wat zijn de leerdoelen van §14.6?

  • Uit kunnen leggen wat regressie naar het gemiddelde is.

  • Aan kunnen geven wat de condities zijn waaronder regressie naar het gemiddelde zich voordoet.

  • Situaties kunnen herkennen waarin verwaarlozing van regressie naar het gemiddelde leidt tot incorrecte conclusies.

  • Uit kunnen leggen hoe regressie naar het gemiddelde relateert aan een regressie vergelijking.

Wat zijn spreiding-vrije tests? - Chapter 18

§18.8 Wat is Rank Randomization voor associatie (Spearman’s ǫ)?

De correlatie van ordeningen (ranks) wordt “Spearman’s ǫ” genoemd.

Het idee is om de X-variabele als vaststaand te zien en de correlatie verkregen in de werkelijke gerangschikte gegevens te vergelijken met de correlaties die kunnen worden verkregen door de Y-variabele te herordenen.

Correlaties even hoog of hoger dan de werkelijke gerangschikte data is mogelijk bij vijf rangschikkingen van Y.

Het mogelijk aantal rangschikkingen van Y kan worden berekend door N!, waarbij N het aantal gepaarde scores is. De kanswaarde is dan: N/N!.

Gebruik een tabel met critical values bij een grote steekproefomvang, omdat het hierbij moeilijk is om alle mogelijkheden bij elkaar op te tellen.

Wat zijn de leerdoelen van §18.8?

  • Spearman’s ǫ kunnen berekenen.

  • Spearman’s ǫ kunnen testen op significantie

 

Access: 
Public

Image

Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Comments, Compliments & Kudos:

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why would you use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, study notes en practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the menu above every page to go to one of the main starting pages
    • Starting pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
  2. Use the topics and taxonomy terms
    • The topics and taxonomy of the study and working fields gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
  3. Check or follow your (study) organizations:
    • by checking or using your study organizations you are likely to discover all relevant study materials.
    • this option is only available trough partner organizations
  4. Check or follow authors or other WorldSupporters
    • by following individual users, authors  you are likely to discover more relevant study materials.
  5. Use the Search tools
    • 'Quick & Easy'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject.
    • The search tool is also available at the bottom of most pages

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Field of study

Check the related and most recent topics and summaries:
Activity abroad, study field of working area:
Institutions, jobs and organizations:
Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
1320